CN112492400A - 互动方法、装置、设备以及通信方法、拍摄方法 - Google Patents

互动方法、装置、设备以及通信方法、拍摄方法 Download PDF

Info

Publication number
CN112492400A
CN112492400A CN201910863541.XA CN201910863541A CN112492400A CN 112492400 A CN112492400 A CN 112492400A CN 201910863541 A CN201910863541 A CN 201910863541A CN 112492400 A CN112492400 A CN 112492400A
Authority
CN
China
Prior art keywords
filter
user
voice information
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910863541.XA
Other languages
English (en)
Other versions
CN112492400B (zh
Inventor
庄博宇
林冠芠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910863541.XA priority Critical patent/CN112492400B/zh
Publication of CN112492400A publication Critical patent/CN112492400A/zh
Application granted granted Critical
Publication of CN112492400B publication Critical patent/CN112492400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供一种互动方法、装置、设备以及通信方法、拍摄方法,该互动方法包括:获取用户的语音信息;对语音信息进行关键词提取;若语音信息中包括与目标滤镜对应的关键词,则渲染目标滤镜。基于此,可以实现基于用户说出的语音内容进行滤镜渲染的目的,提高了人机交互的智能性。

Description

互动方法、装置、设备以及通信方法、拍摄方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种互动方法、装置、设备以及通信方法、拍摄方法。
背景技术
目前,用户在使用手机、平板电脑等终端设备拍摄图片或视频时,为增加趣味性,在界面上可以显示出多种滤镜供用户进行选择,以通过用户选择的滤镜对拍得的图片或视频图像进行滤镜处理。比如,对拍得的图片进行黑白滤镜处理;在视频图像中的某个人脸上添加猫耳朵的滤镜效果,等等。
当提供给用户使用的滤镜很多时,对用户来说,在界面上显示的这么多滤镜中选择自己所需的,操作不便。
发明内容
本发明实施例提供一种互动方法、装置、设备以及通信方法、拍摄方法,用以提高人机交互的智能性、便利性。
第一方面,本发明实施例提供一种互动方法,该方法包括:
获取用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
第二方面,本发明实施例提供一种互动装置,该装置包括:
语音获取模块,用于获取用户的语音信息;
关键词提取模块,用于对所述语音信息进行关键词提取;
滤镜渲染模块,用于若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
第三方面,本发明实施例提供一种电子设备,其中包括处理器和存储器,其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现第一方面中的互动方法。
本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现第一方面中的互动方法。
第四方面,本发明实施例提供一种通信方法,应用于对应于第一用户的第一终端设备,所述方法包括:
建立与对应于第二用户的第二终端设备之间的视频通信连接;
获取所述第一用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则在所述第一用户的视频图像中添加所述目标滤镜;
通过所述视频通信连接将添加所述目标滤镜后的所述第一用户的视频图像发送至所述第二终端设备。
第五方面,本发明实施例提供一种通信方法,包括:
获取第一用户通过即时通信客户端向第二用户发出的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则将所述目标滤镜发送至所述第二用户的即时通信客户端进行渲染。
第六方面,本发明实施例提供一种拍摄方法,包括:
获取用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则在拍得的视频图像中添加所述目标滤镜。
第七方面,本发明实施例提供一种输入方法,包括:
显示输入界面;
响应于用户在所述输入界面中输入的语音信息,对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
第八方面,本发明实施例提供一种信息发布方法,包括:
响应于用户的语音信息,对所述语音信息进行关键词提取;
若所述语音信息中包括预设的关键词,则获取所述用户的位置信息;
获取与所述位置信息和所述关键词对应的数据对象;
在信息发布界面中显示所述数据对象。
第九方面,本发明实施例提供一种信息发布方法,包括:
获取用户的语音信息;
从所述语音信息中提取出时间关键词;
查询到存在与所述时间关键词对应的日历事件;
获取与所述日历事件对应的数据对象;
在信息发布界面中显示所述数据对象。
本发明实施例中提供一种通过语音交互方式实现滤镜渲染的方案。具体来说,比如用户在拍摄图片或视频时,说出包含启动某个滤镜的关键词的语音,通过对用户说出的语音进行关键词的提取,当从中提取到与目标滤镜对应的关键词时,渲染该目标滤镜。基于此,通过该方案,基于用户说出的语音内容便可以方便地实现滤镜的渲染,提高了人机交互的智能性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的互动方法的流程图;
图2为本发明一实施例提供的视频通信方法的流程图;
图3a和图3b为与图2所示实施例对应的界面变化示意图;
图4为本发明一实施例提供的即时通信方法的流程图;
图5为与图4所示实施例对应的界面变化示意图;
图6为本发明一实施例提供的拍摄方法的流程图;
图7为与图6所示实施例对应的界面变化示意图;
图8为本发明一实施例提供的输入方法的流程图;
图9为与图8所示实施例对应的界面变化示意图;
图10为本发明一实施例提供的信息发布方法的流程图;
图11为本发明一实施例提供的信息发布方法的流程图;
图12为本发明另一实施例提供的互动方法的流程图;
图13为与图12所示实施例对应的一种界面变化示意图;
图14为本发明一实施例提供的互动装置的结构示意图;
图15为与图14所示实施例提供的互动装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的方案可以由用户侧的终端设备来执行,比如智能手机、平板电脑、笔记本电脑等。当然,也可以由云端的服务器或服务器集群来执行。
图1为本发明一实施例提供的互动方法的流程图,如图1所示,该互动方法可以包括如下步骤:
101、获取用户的语音信息。
102、对语音信息进行关键词提取。
103、若语音信息中包括与目标滤镜对应的关键词,则渲染目标滤镜。
本实施例提供的互动方法可以适用于与图像或视频应用相关的应用场景中,比如:用户拍摄视频的应用场景,视频通信的应用场景,拍照(比如自拍)的应用场景,等等。后续会结合几种实际应用场景对本实施例提供的互动方法在相应实际应用场景中的执行过程进行详细说明。而这里仅从技术层面来说明如何实现该互动方法。
上述步骤101中的用户可以是当前正在使用图像或视频应用的用户,从而,上述语音信息为该用户在使用图像或视频应用时所说的话。比如,在视频通信场景中,该用户为通话双方的一方用户,该用户的语音信息为该用户在与对端用户通话过程中说的话。
为执行本实施例提供的互动方法,预先生成有滤镜库,在该滤镜库中存储有若干可以供用户使用的滤镜,并且,每个滤镜对应于启动相应滤镜的关键词。其中,滤镜可以是一帧图像,也可以是多帧图像,还可以是视频,还可以是至少一张图像与对应的语音。
其中,某滤镜在滤镜库中的具体存储形式可以是该滤镜的脚本文件,即通过执行该脚本文件实现该滤镜的渲染效果。
实际应用中,每种滤镜都具有其适用的场景,从而,滤镜对应的关键词可以是通过对相应场景中用户高频使用的词汇的统计结果获得的,反之,亦可以理解为通过对多种场景中用户高频使用的词汇的统计,设计高频使用词语对应的滤镜以供用户使用。
举例来说,比如常见的场景包括各种节假日、生日、各种纪念日。以春节这个节日来说,在春节这个场景中,比如设定的关键词包括:新年快乐、发红包,等等。以生日这个场景来说,在生日这个场景中,比如设定的关键词包括:生日快乐、许愿、吹蜡烛,等等。由此可见,这些关键词都是在相应场景中用户会高频使用到的词语。上述举例的每种关键词都可以一一对应地关联有一个滤镜。
基于此,在实际应用中,用户可以根据自身需求决定是否开启滤镜功能,当开启滤镜功能时,便会触发本实施例提供的互动方法的执行。基于该互动方法的执行,当用户说出的某句话中包含有启动某个滤镜(称为目标滤镜)的关键词时,便会触发该目标滤镜的使用,即渲染该目标滤镜,以使得用户可以在界面上看到该目标滤镜的渲染效果。
具体来说,比如用户在拍摄视频的过程中,界面中可以显示有是否启动滤镜功能的控件,用户可以对该控件进行操作以决定是否启动滤镜功能。在比如在视频通信的过程中,界面中也可以设置有类似的控件,以供用户对该控件进行操作以决定是否启动滤镜功能。
用户若启动滤镜功能,则需要采集用户后续说的话,即需要不断采集该用户的语音信息,进而,对采集到的语音信息进行关键词提取,以确定用户是否说出了触发某个滤镜的关键词。若用户说出的语音信息中包括与目标滤镜对应的关键词,则确定目标滤镜被命中,进行目标滤镜的渲染。如果目标滤镜是由多帧图像组成的动画,那么该渲染过程就是逐帧渲染这多帧图像,以便用户可以看到这个动画。
在前面的举例中,关键词与滤镜是一一对应的关系,但是实际上,一个关键词也可以对应有多个滤镜。此时,若用户的语音信息中包括与多个目标滤镜对应的关键词,则输出与多个目标滤镜对应的提示信息。从而,响应于用户根据该提示信息对多个目标滤镜的选择结果,渲染被选择的目标滤镜。其中,提示信息可以是以较小的窗口显示多个目标滤镜各自对应的一帧或几帧图像,以供用户选择。
其中,对语音信息进行关键词提取的过程,可选地,可以实现为:首先,通过语音识别处理将语音信息转换为对应的文字信息,之后,识别该文本信息中是否包含预设的关键词。其中,可以对文本信息进行分词处理,进而,计算得出的各词语与滤镜库中包含的各关键词的相似度,若某个词语与某个关键词的相似度较高(比如大于设定阈值),则认为该关键词被命中,即认为语音信息中包含该关键词。
另外,前文中提到,滤镜库中存储滤镜与关键词的对应关系,而实际应用中,滤镜库中提供给用户使用的滤镜可能是很多的,为了便于对滤镜的管理,也为了提高处理效率,可选地,可以按照滤镜主题对这些滤镜进行分组存储,其中,一组滤镜对应于同一滤镜主题。
基于此,可选地,在滤镜库中可以将对应于同一滤镜主题的多个滤镜集中存储,每个滤镜对应有关键词,其中,滤镜对应的关键词的作用是判定用户具体启动了哪个滤镜。
实际应用中,可以认为一个滤镜主题对应于一种场景,该场景比如为上述举例的春节、生日等场景,那么,滤镜主题可以包括对应于春节场景的滤镜主题,对应于生日场景的滤镜主题,等等。
可以预先设定每个滤镜主题对应的关键词,滤镜主题对应的关键词的作用可以认为是判断用户是否要使用某个滤镜主题。
可选地,某个滤镜主题对应的关键词可以这个滤镜主题下关联的多个滤镜分别对应的关键词中的一个。具体地,某个滤镜主题对应的关键词可以这个滤镜主题下关联的多个滤镜分别对应的关键词中易被用户最先说出的那个。
举例来说,由于滤镜主题是与某种场景对应的,因此,假设在生日场景下,大多数人经常会先说“生日快乐”,在此之后出现的高频词语比如为:许愿、吹蜡烛、给红包,等等。因此,可以设定生日场景下,作为滤镜主题的关键词K1=生日快乐,其他滤镜对应的关键词为:K2=许愿,K3=吹蜡烛,K4=给红包。
可以理解的是,当从某个滤镜主题下关联的多个滤镜分别对应的关键词中选择一个作为该滤镜主题对应的关键词时,那么当用户说出该滤镜主题对应的关键词时,该关键词对应的滤镜被调用。
为更加直观地理解滤镜库中对滤镜的组织方式,举例来说,假设某个滤镜主题下包括滤镜:L1、L2、L3和L4这四个滤镜,且假设这四个滤镜分别对应的关键词为:K1、K2、K3和K4。假设关键词K1被作为滤镜主题对应的关键词。
基于此,在一可选实施例中,若用户的语音信息中包括与滤镜主题对应的第一关键词K1,则渲染与该滤镜主题对应的第一滤镜L1;若该语音信息中包括与该滤镜主题下的第二滤镜L2对应的第二关键词K2,则切换至渲染第二滤镜L2。
此时,上述步骤102中的关键词包括上述第一关键词K1和第二关键词K2,步骤103中的目标滤镜包括第一滤镜L1和第二滤镜L2。
由于实际应用中,用户是不断说出语音的,因此,上述第一关键词K1和第二关键词K2可以是包含在用户说出的同一条语句中,也可能包含在先后说出的不同语句中。
另外,值得说明的是,当用户说出了对应于某滤镜主题的第一关键词K1时,意味着用户当前处于该滤镜主题对应的场景下,那么在第一关键词K1之后,判断用户是否说出了其他关键词,优先在该滤镜主题下包含的多个关键词比如K2、K3和K4中匹配,因为用户后续说出的关键词仍旧属于当前的场景的可能性很高,以此可以提高关键词提取的处理效率。
综上,本实施例提供的互动方法可以使得用户通过语音交互方式实现对滤镜的渲染控制,而且,该语音交互方式并不需要用户额外地花很多成本来学习各个滤镜对应的关键词是什么,因为滤镜对应的关键词来自于大量用户在各场景下的普遍用语,因此,在相应场景中,用户仅需正常地语音表达即可实现对滤镜的使用,便利性很高。
另外,当某用户当前触发的目标滤镜被渲染出来后,关于该目标滤镜何时消失在用户的视野内,可选地,可以根据用户对目标滤镜触发的操作行为,隐藏目标滤镜,以使得目标滤镜消失在界面中。或者,可选地,若目标滤镜已经被渲染完成设定时长,则隐藏目标滤镜,以使得目标滤镜消失在界面中。
也就是说,在一种方式下,用户可以主动取消目标滤镜。此时,如果在目标滤镜被取消之前,目标滤镜早已经渲染完成,则可以重复地进行目标滤镜的渲染,或者,也可以在界面上保持目标滤镜中最后一帧图像的显示。在另一种方式下,目标滤镜可以被预先设置具有一定的生命周期,该生命周期是指该目标滤镜对应的多帧图像全部被渲染完成后该目标滤镜在界面上仍旧显示的时长,该时长可以设置为0或大于0的数值。当然,如果设置为大于0的数值,则可以在该生命周期内重复地进行目标滤镜的渲染,或者,也可以在界面上保持目标滤镜中最后一帧图像的显示。
下面举例说明上述互动方法在一些实际应用场景中的执行过程。
图2为本发明一实施例提供的视频通信方法的流程图,如图2所示,该视频通信方法可以包括如下步骤:
201、对应于第一用户的第一终端设备建立与对应于第二用户的第二终端设备之间的视频通信连接。
202、第一终端设备获取第一用户的语音信息,对语音信息进行关键词提取。
203、若语音信息中包括与目标滤镜对应的关键词,则第一终端设备在第一用户的视频图像中添加目标滤镜。
204、第一终端设备通过视频通信连接将添加目标滤镜后的第一用户的视频图像发送至第二终端设备。
结合图3a和图3b来示意性说明本实施例提供的视频通信方法的执行过程。在图3a和图3b中,将第一用户记为用户A,第二用户记为用户B,第一终端设备记为设备X,第二终端设备记为设备Y。
当两个设备建立视频通信连接后,如图3a所示,针对用户A来说,当其与用户B进行视频通信时,在设备X的屏幕上呈现两个窗口:窗口1和窗口2,其中,窗口1用于显示用户B的视频图像,窗口2用于显示用户A的视频图像。同理,针对用户B来说,在设备Y的屏幕上也呈现两个窗口:窗口3和窗口4,其中,窗口3用于显示用户A的视频图像,窗口4用于显示用户B的视频图像。
其中,用户A的视频图像是设备X中的摄像头采集的用户A的影像,用户B的视频图像是设备Y中的摄像头采集的用户B的影像。以用户A为例来说,其设备X上呈现的用户B的视频图像是设备Y采集并通过视频通信连接传输至设备X的。
本实施例中假设用户A已经开启了滤镜功能,那么自滤镜功能被开启后,设备X一方面可以将采集的用户A的语音信息发送至设备Y中,另一方面,设备X对该语音信息进行关键词提取处理。
如图3b中所示,假设用户A与用户B进行视频通话是因为用户B今日过生日,用户A与用户B进行视频通话的过程中,某时刻说出了“亲,生日快乐”这句话,并且假设滤镜库中存在与“生日快乐”这个关键词对应的滤镜L。那么,通过对用户A的语音信息的关键词提取可知,用户A说出了“生日快乐”这个关键词,进而从滤镜库中找到与该关键词对应的滤镜L,在用户A的视频图像中添加该滤镜L。在图3b中,假设滤镜L是一个动画,这个动画呈现的效果是一个点亮蜡烛的蛋糕。
其中,简单来说,由于滤镜L由多帧图像组成,因此,滤镜L的渲染过程可以认为是,当需要渲染滤镜L中的某帧图像时,以此时用户A的视频图像中的一帧图像作为背景,将滤镜L中的这帧图像渲染在这个背景图像中。
之后,将添加滤镜L后的用户A的视频图像发送至设备Y,从而,在设备Y的窗口3b中,用户B可以看到添加滤镜L后的用户A的视频图像。
其中,图3b中仅示意了在用户A的视频图像中的某帧图像中渲染滤镜L的某帧图像的情况,并未示意出滤镜L的完整渲染过程。
综上,在本实施例中,当用户A与用户B在进行视频通话时,通过对双方自然交谈的对话内容的识别以及关键词的提取,当发现对话内容中包含滤镜对应的关键词时,便可以自动地调用相应的滤镜,进行滤镜的渲染,增加了用户交互的趣味性和智能性。
图4为本发明一实施例提供的即时通信方法的流程图,如图4所示,该即时通信方法可以包括如下步骤:
401、获取第一用户通过即时通信客户端向第二用户发出的语音信息。
402、对语音信息进行关键词提取。
403、若语音信息中包括与目标滤镜对应的关键词,则将目标滤镜发送至第二用户的即时通信客户端进行渲染。
结合图5来示意性说明本实施例提供的即时通信方法的执行过程。在图4中,将第一用户记为用户A,第二用户记为用户B,第一用户对应的即时通信客户端记为APP1,第二用户对应的即时通信客户端记为APP2。
实际应用中,目前,很多即时通信客户端都支持语音通话能力,其中,既可以支持用户A与用户B之间每次发送不超过设定时长(比如1分钟)的简短语音消息,也可以支持用户A与用户B之间的连续长时间的语音对话。因此,上述步骤401中的语音信息既可以是用户A发送至用户B的简短语音,也可以是用户A与用户B的长时间的通话语音。
本实施例中提供的即时通信方法的执行主体可以是即时通信客户端或即时通信客户端所在的终端设备,也可以是即时通信客户端对应的服务器。图5中,假设执行主体为服务器。
在图5中,假设用户A进入到与用户B的聊天界面后,向用户B发了一条语音信息,这条语音信息被APP1通过服务器发送至APP2,从而,在APP2的相应聊天界面中呈现出这条语音消息的提示信息。除此之外,服务器在接收到这条语音信息后,对该语音信息进行关键词提取。假设这条语音信息的内容是:亲,生日快乐,并且假设滤镜库中存在与“生日快乐”这个关键词对应的滤镜L。那么,通过对用户A的语音信息的关键词提取可知,用户A说出了“生日快乐”这个关键词,进而从滤镜库中找到与该关键词对应的滤镜L,将滤镜L发送至用户B对应的APP2,APP2在上述聊天界面中渲染该滤镜L。假设滤镜L是一个动画,这个动画呈现的效果是一个点亮蜡烛的蛋糕,在图5中仅示意了渲染滤镜L的某帧图像的情况,并未示意出滤镜L的完整渲染过程。
基于此,当用户A通过即时通信客户端向用户B发送一条包含某滤镜对应的关键词的语音时,基于对这条语音的关键词提取处理,在用户B的即时通信客户端界面中,除了包含这条语音消息外,还包含对应于关键词的滤镜,提高了用户的使用体验,有助于增加用户的使用粘性。
图6为本发明一实施例提供的拍摄方法的流程图,如图6所示,该拍摄方法可以包括如下步骤:
601、获取用户的语音信息。
602、对语音信息进行关键词提取。
603、若语音信息中包括与目标滤镜对应的关键词,则在拍得的视频图像中添加目标滤镜。
结合图7来示意性说明本实施例提供的拍摄方法的执行过程。在图7中,假设某用户A正在拍摄自己在唱歌的视频图像,此时,步骤601中的语音信息可以是用户A所唱的歌词,从而,通过对用户A所唱的歌词的采集以及语音识别、关键词提取处理,可以识别其中是否包含对应于滤镜的关键词。在图7中,假设用户A唱到某句歌词时,这句歌词中包括关键词K1,此时,在拍摄的视频图像中渲染关键词K1对应的滤镜L1。之后,假设用户A又唱到另一句歌词时,这句歌词中包括关键词K2,此时,在拍摄的视频图像中渲染关键词K2对应的滤镜L2。
图7所示实施例中介绍的是,最终被渲染出的目标滤镜是存在于预先生成的滤镜库中的某个滤镜,但是实际上,可选地,最终渲染出的滤镜也可以通过如下方式获得:
若用户的语音信息中包括与目标滤镜对应的关键词,则输出与目标滤镜对应的提示信息,提示信息用于提示目标滤镜中包含的物体;
若未接收到包含该物体的图像,则在拍得的视频图像中添加目标滤镜;
若接收到包含该物体的图像,则在拍得的视频图像中添加该图像。
在上述方案中,假设关键词为生日快乐,与该关键词对应的目标滤镜中包含的物体为:生日蛋糕,那么可以提示用户实时拍摄一张生日蛋糕的图片。如果用户身边正好有一个生日蛋糕,则用户可能会随即拍摄一张这个生日蛋糕的图片,从而,最终显示的是该图片。相反地,如果给出用户拍摄生日蛋糕的提示信息后,用户给出不拍摄的反馈信息,则使用滤镜库中与该关键词对应的目标滤镜。
另外,如前文所述,在滤镜库中,一个关键词可以关联有多个目标滤镜,基于此,本发明实施例还提供了如下的方案:
若用户的语音信息中包括与多个目标滤镜对应的关键词,则识别视频图像对应的类别;
从多个目标滤镜中选择出与该类别对应的目标滤镜;
在视频图像中添加选择出的目标滤镜。
其中,该视频图像的类别可以是指视频图像对应的场景类别,或者,也可以是视频图像中包含的主体对象的类别。场景类别比如为宠物娱乐场景、运动比赛场景,等等。主体对象是指视频画面中占据视觉焦点的对象,主体对象的类别比如为动物、人等类别。其中,视频图像的类别的识别方法可以采用现有相关技术,在此不展开描述。
基于此,可以理解的是,在滤镜库中,除了存储有关键词与滤镜的对应关系外,还存储有滤镜与视频图像的类别之间的对应关系。
举例来说,假设滤镜库中存在“握手”这个关键词,在宠物娱乐场景中,与该关键词对应的滤镜为a1,滤镜a1可以是反映出一个人伸出手执行握手动作的动画。在运动比赛场景中,与该关键词对应的滤镜为a2,滤镜a2可以是反映出两个人在握手的动画。
基于此,当用户说出包含握手这个关键词的语音信息时,发现滤镜库中存在滤镜a1和滤镜a2与该关键词对应,进而,识别用户当前拍摄的视频图像所对应的场景类别,假设为宠物娱乐场景,那么,最终显示的是滤镜a1。对应的实际场景比如为:用户将宠物狗带到某公园中玩耍,该用户用摄像机拍摄狗狗玩耍的视频,在拍摄视频的过程中,该用户可能会说出一些与狗狗互动的语音,比如“握个手”、“跳一下”等等。当用户说出“握个手”这个语音时,命中“握手”这个关键词,基于对视频图像的场景类别的识别结果,在视频画面中渲染滤镜a1。
基于本实施例提供的方案,可以使得用户在进行视频拍摄的过程中,基于用户发出的语音自动地在视频画面中添加滤镜效果。
图8为本发明一实施例提供的输入方法的流程图,如图8所示,该输入方法包括如下步骤:
801、显示输入界面。
802、响应于用户在输入界面中输入的语音信息,对语音信息进行关键词提取。
803、若语音信息中包括与目标图像对应的关键词,则输出目标图像。
本实施例提供的输入方法可以适用于任何各种支持信息输入功能的应用程序中,比如即时通信应用程序,购物应用程序等。
以购物场景为例来说,假设购物应用程序支持图像搜索功能。此时,上述输入界面可以是商品搜索界面中的搜索框。假设用户当前想要搜索某种物品A,该用户可以将鼠标定位到搜索框内,进而说出用于搜索该物品A的语音。对该语音进行关键词提取而发现其中包括物品A对应的关键词时,可以在预先生成的图像库中找到与该关键词对应的目标图像,进而输出该目标图像。其中,该输出目标图像是指从图像库中输出该目标图像。实际上,可以将该目标图像作为搜索的输入,在商品库中寻找与该目标图像匹配的商品。
另外,在一些实际应用场景中,比如用户想要搜索某个品牌的杯子,这个品牌是国外的品牌,用户不能准确地写出这个品牌的名称但是该用户可以说出这个品牌的名称,此时,可以通过如下方案完成搜索:
响应于用户在输入界面中一同输入的语音信息和第一文字信息,将语音信息转换为第二文字信息;
对第一文字信息和第二文字信息语音信息进行关键词提取;
若包含与目标图像对应的关键词,则输出目标图像。
在商品搜索场景下,上述输入界面即为搜索框,在搜索框内,用户可以通过文字和语音的组合方式来进行搜索对象的输入。
结合图9来示意性说明该场景。在图9中,假设用户在输入界面即搜索框内一同输入了如下内容:我想买一个“语音信息”杯子,其中,我想买一个和杯子即为第一文字信息。假设语音信息转换为的第二文字信息为XYZ,那么拼接成一条完整的搜索消息即为:我想买一个XYZ杯子。对该搜索消息进行关键词提取,假设提取到的关键词为XYZ杯子,在图像库中寻找与该关键词对应的目标图像。
图10为本发明一实施例提供的信息发布方法的流程图,如图10所示,该信息发布方法包括如下步骤:
1001、响应于用户的语音信息,对语音信息进行关键词提取。
1002、若语音信息中包括预设的关键词,则获取用户的位置信息。
1003、获取与位置信息和关键词对应的数据对象。
1004、在信息发布界面中显示数据对象。
为便于理解该方案,以如下的场景为例来说:假设某用户当前正在爬山,该用户想要发一条朋友圈,则该用户可以通过如下方式实现:
该用户说出诸如“我正在爬山”的语音信息,对该语音信息进行关键词提取,发现该语音信息中包含“山”这个关键词,则获取该用户当前所处的位置。假设通过定位发现该用户当前位于泰山上,则可以从预先生成的数据库中或者实时地从网络上获取与泰山对应的数据对象比如为一张泰山的图片,进而将该图片发布在朋友圈中。当然,该数据对象除了可以包含该图片外,还可以包含配置的文字内容。
图11为本发明一实施例提供的信息发布方法的流程图,如图11所示,该信息发布方法包括如下步骤:
1101、获取用户的语音信息。
1102、从语音信息中提取出时间关键词。
1103、查询到存在与时间关键词对应的日历事件。
1104、获取与日历事件对应的数据对象,在信息发布界面中显示数据对象。
其中,该日历事件中可以包括位置信息,从而,获取与日历事件对应的数据对象,可以是:获取与该位置信息对应的数据对象。
另外,在信息发布界面中显示数据对象之前,还可以先输出提示信息,以提示用户要发布该数据对象。从而,响应于用户根据该提示信息触发的发布指示,再在信息发布界面中显示该数据对象。
为便于理解该方案,以如下的场景为例来说:假设某用户9月10日要去青岛出差,当前该用户正在去往青岛的路上,该用户在(比如通过即时通信应用程序)与某好友交流的过程中说出了他要去出差这个事情,此时,可以提示该用户是否发一条朋友圈告诉好友们他要去青岛这个事情,如果用户同意发朋友圈,则可以自动为该用户生成发布在朋友圈中的内容。具体地,可以通过如下方案实现:
该用户说出诸如“我现在去出差的路上”的语音信息后,对该语音信息进行时间关键词提取,发现该语音信息中包含“现在”这个时间关键词,将这个关键词进行格式转换,转换为以月、日表示的形式。假设“现在”是9月9日,那么转换的结果即为9月9日。
假设该用户提前已经在手机中设置了9月10日去青岛出差的日历事件,则在提取出9月9日这个时间关键词后,可以查询日历,以确定是否存在与该时间关键词对应的日历事件。其中,查询时,可以以提取出的时间关键词9月9日为基准,向后查询预设时间范围内是否存在日历事件,若存在,则认为查询到的日历事件即为与该时间关键词对应的日历事件。
当然,可选地,在进行关键词提取的过程中,除了可以提取时间关键词外,也可以提取其他文字关键词,比如出差这个关键词。
在查询到存在与时间关键词对应的日历事件(9月10日去青岛出差)之后,获取与该日历事件对应的数据对象。其中,获取与该日历事件对应的数据对象的过程,可以实现为:识别该日历事件中包含的关键词,获取与该关键词对应的数据对象。比如,该日历事件中包含的关键词被定义为:表示位置信息的关键词,比如上述举例中的“青岛”,进而,获取与日历事件中包含的位置信息对应的数据对象可以是获取与该位置信息对应的图片,从而,可以实时地从网络上获取与青岛对应的一张或几张图片,进而将该图片发布在朋友圈中。当然,该数据对象除了可以包含该图片外,还可以包含配置的文字内容,比如:青岛我来啦!。
以上各实施例中介绍的是基于用户说出的语音内容(即语音信息中包含的对应于滤镜的关键词)进行滤镜渲染,以实现语音交互的情况,实际上,用户说出的语音信息中,除了语音内容可以被作为滤镜渲染的依据外,语音本身具有的声音属性也可以被作为滤镜渲染的依据,参见图8所示实施例。
概括来说,可以根据语音信息的声音属性对某滤镜的渲染效果进行动态调整,以某滤镜对应的动画效果为:一个小孩拿着气球,气球随风飘动为例,概括来说,根据语音信息的声音属性对该滤镜的渲染效果进行动态调整比如可以是:随着音量的不断增大,气球的尺寸不断变大;随着音高的不断增大,气球的倾斜或抖动程度不断变大;随时语音速度的不断增大,气球尺寸增大的程度或速度不断增加。
图12为本发明另一实施例提供的互动方法的流程图,如图12所示,该互动方法可以包括如下步骤:
1201、获取用户的语音信息。
1202、对语音信息进行关键词提取,以及对语音信息进行声音属性分析。
1203、若语音信息中包括与目标滤镜对应的关键词,则根据语音信息对应的声音属性值进行目标滤镜的渲染。
其中,声音属性分析,即分析语音信息对应的声音属性值。声音的属性包括音高、音量、语音速度,等等。音频特征提取出的音频特征是作为属性分析的手段或者说依据。其中,音量也可以称为音强或响度,语音速度也可以称为音频节奏,音高也可以称为音调。
其中,语音速度描述了在设定的时间长度内对应的节拍数,单位一般为bpm,即一分钟内存在的节拍数。
实际应用中,音高(也称为音阶)被划分为12个等级,因此,本文中语音信息对应的音高是指语音信息对应的音高等级。
在一些实际应用场景中,比如视频通信场景中,用户可能会不断输出语音信息,因此,关键词提取的对象可以是用户自开始至当前时刻说出的全部语音,而声音属性分析的对象既可以是该全部语音,也可以是截取出的包含关键词的部分语音,还可以是自关键词产生之后的全部或每隔设定时间间隔截取的部分语音。
可以理解的是,本实施例中,关键词的作用是:滤镜渲染对象的确定依据,即根据关键词确定需要渲染哪个滤镜;而声音属性值的作用是:根据声音属性值确定滤镜的渲染效果,简单来说就是,对于同一滤镜,不同声音属性值的作用使得用户看到的这个滤镜的渲染效果是不同的。
下面先介绍下声音属性分析过程,之后再说明如何根据得到的声音属性值进行目标滤镜的渲染。其中,声音属性分析的过程可以基于现有技术提供的方案实现,本文中不展开详细,仅简单描述。首先,需要说明一点是,在声音属性的分析过程中,可以对语音信息进行音频特征提取,从而基于提取到的音频特征得到相应的声音属性值。
针对音量来说,概括来说,可以先对语音信息进行平滑化处理,以去除其中的噪声,继而可以归一化语音信号的强度,进而提取出音量变化剧烈的时间点序列以及各时间点所对应的音量,基于此,可以对这些时间点对应的音量进行均值处理,以得到这段语音信息对应的音量。
针对音高来说,可以先对语音信息进行音频特征提取,比如色度能量归一化统计(Chroma Energy Normalized Statistics,简称CENS)特征、梅尔倒谱系数(Mel FrequencyCepstral Coefficients,简称MFCC)特征,等等,进而,将提取出的特征投影到12个音高的频谱特征上,由此得到语音信息对应的音高。
针对语音速度来说,由于使用不同的音频特征确定出的语音速度往往会有较大差异,因此,本实施例中提出了联合多种音频特征确定语音信息对应的语音速度的方案。具体来说,先提取语音信息中包括的多种音频特征,之后将多种音频特征输入到训练得到的模型中,以通过该模型确定多种音频特征各自对应的权重,从而,根据确定出的权重得到多种音频特征的加权结果,以根据多种音频特征的加权结果确定语音信息对应的语音速度。
其中,多种音频特征比如可以包括CENS特征、MFCC特征、Log-Mel Spectrogram特征,等等。
上述模型可以是Adaboost模型、支持向量机(Support vector machin,简称SVM)模型、长短期记忆网络(Long Short-Term Memory,简称LSTM)模型,等等。
其中,模型的训练过程可以采用有监督的训练方式,预先收集大量作为训练样本的音频,提取这些音频的多种音频特征,标记号多种音频特征各自对应的权重以及音频对应的音频速度,以进行模型的训练。
下面对如何根据语音信息对应的声音属性值进行目标滤镜的渲染进行介绍。
针对语音信息对应的音量、音高来说,可选地,可以根据语音信息对应的音量和/或音高调整构成目标滤镜的多帧图像中目标对象的渲染效果。
在此假设目标滤镜是由多帧图像构成的动画。上述目标对象并不一定存在于构成目标滤镜的全部图像中,可能仅存在于部分图像中,可以预先设定目标滤镜对应的哪些目标对象受音量、音高的影响而改变渲染效果。
举例来说,假设目标滤镜对应的动画效果是:一个小孩拿着气球,气球在随风飘动。那么,可以设定该气球是上述目标对象。
以音量为例来说,实际应用中,可以预先设定音量与上述目标对象的渲染效果之间的对应关系,比如,音量为某数值时,气球为某种尺寸;或者,音量为某数值时,气球的尺寸呈现由某种尺寸向另一种尺寸的渐变效果。
以音高为例来说,实际应用中,同样地,可以预先设定音高与上述目标对象的渲染效果之间的对应关系,比如,音高为某等级时,气球的倾斜角度增加某个角度值;或者,音高为某等级时,气球的倾斜角度呈现由某种角度向另一种角度的渐变效果。
为直观地理解语音信息对应的音量、音高在目标滤镜的渲染过程中的作用,结合图13来示意性说明。在图13中,仅示意出音量、音高在包含目标对象的一帧图像(称为图像F)中的影响。假设该目标对象即为上述举例中的气球。
假设在不考虑声音属性对目标滤镜的渲染效果的影响时,图像F中气球的渲染效果如1301所示。
假设确定出的语音信息对应的音量为某数值,且根据设定的音量与目标对象(气球)的渲染效果之间的对应关系确定此时应该将该气球的尺寸调大到某个尺寸,则根据该音量对图像F中的气球进行渲染得到的渲染效果如1302所示,与1301中所示的气球相比,气球尺寸变大。
假设确定出的语音信息对应的音高为某等级,且根据设定的音高与目标对象(气球)的渲染效果之间的对应关系确定此时应该将该气球向左倾斜的角度调大到某个角度值,则根据该音高对图像F中的气球进行渲染得到的渲染效果如1303所示,与1301中所示的气球相比,气球的倾斜角度变大。
针对语音信息对应的语音速度来说,可选地,可以根据语音信息对应的语音速度对构成目标滤镜的多帧图像进行过滤或插值处理,进而渲染经过滤或插值处理后得到的多帧图像。
概括来说,在该可选方式下,是设定语音速度对目标滤镜的渲染时间产生影响,也就是说,构成目标滤镜的多帧图像应该在多长的时间内渲染完毕。
简单来说,语音速度越快,目标滤镜的渲染时间越短;语音速度越慢,目标滤镜的渲染时间越长。
实际应用中,可以先设定一个参考速度,比如,参考速度为120拍/分钟,从而,若语音信息对应的语音速度大于参考速度,则对构成目标滤镜的多帧图像进行过滤处理;若语音信息对应的语音速度小于参考速度,则对构成目标滤镜的多帧图像进行插值处理。以此实现语音速度与目标滤镜的图像帧数之间的匹配。
比如,假设目标滤镜由30帧图像构成,参考速度为120拍/分钟。如果语音信息对应的语音速度为240拍/分钟,则可以从这30帧图像中过滤掉15帧图像,比如每隔一帧删掉一帧,从而使得目标滤镜更快地渲染完毕。如果语音信息对应的语音速度为60拍/分钟,则可以对这30帧图像进行插值以得到60帧图像,从而使得目标滤镜更慢地渲染完毕。其中,假设图像的渲染频率即保持不变的。
上述示意的音量、音高、语音速度对目标滤镜的渲染效果的影响仅为举例,不以此为限,实际上,可以根据需求自定义声音属性与滤镜渲染效果之间的对应关系。
综上,同时根据用户发出的语音内容以及语音对应的声音属性进行滤镜的渲染,可以获得更加智能化的交互体验。
以下将详细描述本发明的一个或多个实施例的互动装置。本领域技术人员可以理解,这些互动装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图14为本发明一实施例提供的互动装置的结构示意图,如图14所示,该互动装置包括:语音获取模块11、关键词提取模块12、滤镜渲染模块13。
语音获取模块11,用于获取用户的语音信息。
关键词提取模块12,用于对所述语音信息进行关键词提取。
滤镜渲染模块13,用于若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
可选地,所述关键词提取模块12具体可以用于:将所述语音信息转换为对应的文本信息;识别所述文本信息中是否包含预设的关键词。
可选地,所述滤镜渲染模块13具体可以用于:若所述语音信息中包括与滤镜主题对应的第一关键词,则渲染与所述滤镜主题对应的第一滤镜;若所述语音信息中包括与所述滤镜主题下的第二滤镜对应的第二关键词,则切换至渲染所述第二滤镜,所述关键词包括所述第一关键词和所述第二关键词,所述目标滤镜包括所述第一滤镜和所述第二滤镜。
可选地,所述装置还包括:属性分析模块,用于对所述语音信息进行声音属性分析。从而,所述滤镜渲染模块13还可以用于:根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染。
其中,可选地,所述声音属性值包括如下至少一种:语音速度、音量、音高。
可选地,所述属性分析模块具体可以用于:提取所述语音信息中包括的多种音频特征;将所述多种音频特征输入到训练得到的模型中,以通过所述模型确定所述多种音频特征各自对应的权重;根据所述权重确定所述多种音频特征的加权结果;根据所述多种音频特征的加权结果确定所述语音信息对应的语音速度。
可选地,在根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染的过程中,滤镜渲染模块13具体可以用于:根据所述语音信息对应的音量和/或音高调整构成所述目标滤镜的多帧图像中目标对象的渲染效果。
可选地,在根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染的过程中,滤镜渲染模块13具体可以用于:根据所述语音信息对应的语音速度对构成所述目标滤镜的多帧图像进行过滤或插值处理;渲染经所述过滤或插值处理后得到的多帧图像。
其中,在根据所述语音信息对应的语音速度对构成所述目标滤镜的多帧图像进行过滤或插值处理的过程中,滤镜渲染模块13具体可以用于:若所述语音信息对应的语音速度大于参考速度,则对所述多帧图像进行过滤处理;若所述语音信息对应的语音速度小于所述参考速度,则对所述多帧图像进行插值处理。
可选地,滤镜渲染模块13还可以用于:根据所述用户对所述目标滤镜触发的操作行为,隐藏所述目标滤镜;或者,若所述目标滤镜已经被渲染完成设定时长,则隐藏所述目标滤镜。
可选地,滤镜渲染模块13还可以用于:若所述语音信息中包括与多个目标滤镜对应的关键词,则输出与所述多个目标滤镜对应的提示信息;响应于用户根据所述提示信息对所述多个目标滤镜的选择结果,渲染被选择的目标滤镜。
可选地,所述目标滤镜实现为如下任一种:视频、至少一张图像、至少一张图像与语音。
图14所示互动装置可以执行前述图1至图8所示实施例中提供的方法,本实施例未详细描述的部分,可参考前述实施例的相关说明,在此不再赘述。
在一个可能的设计中,上述图14所示的互动装置的结构可实现为一电子设备。如图15所示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,至少使处理器21可以实现如前述图1至图8所示实施例中提供的互动方法。
其中,该电子设备的结构中还可以包括通信接口23,用于与其他设备或通信网络通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行前述图1至图8所示实施例中提供的互动方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (25)

1.一种互动方法,其特征在于,包括:
获取用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
2.根据权利要求1所述的方法,其特征在于,所述若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜,包括:
若所述语音信息中包括与滤镜主题对应的第一关键词,则渲染与所述滤镜主题对应的第一滤镜;
若所述语音信息中包括与所述滤镜主题下的第二滤镜对应的第二关键词,则切换至渲染所述第二滤镜,所述关键词包括所述第一关键词和所述第二关键词,所述目标滤镜包括所述第一滤镜和所述第二滤镜。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述语音信息进行声音属性分析;
所述渲染所述目标滤镜,包括:
根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染。
4.根据权利要求3所述的方法,其特征在于,所述声音属性值包括如下至少一种:
语音速度、音量、音高。
5.根据权利要求4所述的方法,其特征在于,所述对所述语音信息进行声音属性分析,包括:
提取所述语音信息中包括的多种音频特征;
将所述多种音频特征输入到训练得到的模型中,以通过所述模型确定所述多种音频特征各自对应的权重;
根据所述权重确定所述多种音频特征的加权结果;
根据所述多种音频特征的加权结果确定所述语音信息对应的语音速度。
6.根据权利要求4所述的方法,其特征在于,所述根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染,包括:
根据所述语音信息对应的音量和/或音高调整构成所述目标滤镜的多帧图像中目标对象的渲染效果。
7.根据权利要求4所述的方法,其特征在于,所述根据所述语音信息对应的声音属性值进行所述目标滤镜的渲染,包括:
根据所述语音信息对应的语音速度对构成所述目标滤镜的多帧图像进行过滤或插值处理;
渲染经所述过滤或插值处理后得到的多帧图像。
8.根据权利要求7所述的方法,其特征在于,所述根据所述语音信息对应的语音速度对构成所述目标滤镜的多帧图像进行过滤或插值处理,包括:
若所述语音信息对应的语音速度大于参考速度,则对所述多帧图像进行过滤处理;
若所述语音信息对应的语音速度小于所述参考速度,则对所述多帧图像进行插值处理。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述用户对所述目标滤镜触发的操作行为,隐藏所述目标滤镜;
或者,
若所述目标滤镜已经被渲染完成设定时长,则隐藏所述目标滤镜。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜,包括:
若所述语音信息中包括与多个目标滤镜对应的关键词,则输出与所述多个目标滤镜对应的提示信息;
响应于用户根据所述提示信息对所述多个目标滤镜的选择结果,渲染被选择的目标滤镜。
11.根据权利要求1至9中任一项所述的方法,其特征在于,所述目标滤镜实现为如下任一种:
视频、至少一张图像、至少一张图像与语音。
12.根据权利要求1至9中任一项所述的方法,其特征在于,所述对所述语音信息进行关键词提取,包括:
将所述语音信息转换为对应的文本信息;
识别所述文本信息中是否包含预设的关键词。
13.一种互动装置,其特征在于,包括:
语音获取模块,用于获取用户的语音信息;
关键词提取模块,用于对所述语音信息进行关键词提取;
滤镜渲染模块,用于若所述语音信息中包括与目标滤镜对应的关键词,则渲染所述目标滤镜。
14.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至12中任一项所述的互动方法。
15.一种通信方法,其特征在于,应用于对应于第一用户的第一终端设备,所述方法包括:
建立与对应于第二用户的第二终端设备之间的视频通信连接;
获取所述第一用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则在所述第一用户的视频图像中添加所述目标滤镜;
通过所述视频通信连接将添加所述目标滤镜后的所述第一用户的视频图像发送至所述第二终端设备。
16.一种通信方法,其特征在于,包括:
获取第一用户通过即时通信客户端向第二用户发出的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则将所述目标滤镜发送至所述第二用户的即时通信客户端进行渲染。
17.一种拍摄方法,其特征在于,包括:
获取用户的语音信息;
对所述语音信息进行关键词提取;
若所述语音信息中包括与目标滤镜对应的关键词,则在拍得的视频图像中添加所述目标滤镜。
18.根据权利要求17所述的方法,其特征在于,所述若所述语音信息中包括与目标滤镜对应的关键词,则在拍得的视频图像中添加所述目标滤镜,包括:
若所述语音信息中包括与多个目标滤镜对应的关键词,则识别所述视频图像对应的类别;
从所述多个目标滤镜中选择出与所述类别对应的目标滤镜;
在所述视频图像中添加选择出的目标滤镜。
19.根据权利要求17所述的方法,其特征在于,所述在拍得的视频图像中添加所述目标滤镜,包括:
输出与所述目标滤镜对应的提示信息,所述提示信息用于提示所述目标滤镜中包含的物体;
若未接收到包含所述物体的图像,则在拍得的视频图像中添加所述目标滤镜;
若接收到包含所述物体的图像,则在拍得的视频图像中添加所述图像。
20.一种输入方法,其特征在于,包括:
显示输入界面;
响应于用户在所述输入界面中输入的语音信息,对所述语音信息进行关键词提取;
若所述语音信息中包括与目标图像对应的关键词,则输出所述目标图像。
21.根据权利要求20所述的方法,其特征在于,所述响应于用户在所述输入界面中输入的语音信息,对所述语音信息进行关键词提取,包括:
响应于用户在所述输入界面中一同输入的语音信息和第一文字信息,将所述语音信息转换为第二文字信息;
对第一文字信息和所述第二文字信息语音信息进行关键词提取。
22.一种信息发布方法,其特征在于,包括:
响应于用户的语音信息,对所述语音信息进行关键词提取;
若所述语音信息中包括预设的关键词,则获取所述用户的位置信息;
获取与所述位置信息和所述关键词对应的数据对象;
在信息发布界面中显示所述数据对象。
23.一种信息发布方法,其特征在于,包括:
获取用户的语音信息;
从所述语音信息中提取出时间关键词;
查询到存在与所述时间关键词对应的日历事件;
获取与所述日历事件对应的数据对象;
在信息发布界面中显示所述数据对象。
24.根据权利要求23所述的方法,其特征在于,所述日历事件中包括位置信息;
所述获取与所述日历事件对应的数据对象,包括:
获取与所述位置信息对应的数据对象。
25.根据权利要求23所述的方法,其特征在于,所述在信息发布界面中显示所述数据对象,包括:
输出发布所述数据对象的提示信息;
响应于所述用户根据所述提示信息触发的发布指示,在信息发布界面中显示所述数据对象。
CN201910863541.XA 2019-09-12 2019-09-12 互动方法、装置、设备以及通信方法、拍摄方法 Active CN112492400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910863541.XA CN112492400B (zh) 2019-09-12 2019-09-12 互动方法、装置、设备以及通信方法、拍摄方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910863541.XA CN112492400B (zh) 2019-09-12 2019-09-12 互动方法、装置、设备以及通信方法、拍摄方法

Publications (2)

Publication Number Publication Date
CN112492400A true CN112492400A (zh) 2021-03-12
CN112492400B CN112492400B (zh) 2023-03-31

Family

ID=74920529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910863541.XA Active CN112492400B (zh) 2019-09-12 2019-09-12 互动方法、装置、设备以及通信方法、拍摄方法

Country Status (1)

Country Link
CN (1) CN112492400B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573158A (zh) * 2021-07-28 2021-10-29 维沃移动通信(杭州)有限公司 视频处理方法、装置、电子设备及存储介质
CN114579227A (zh) * 2022-01-20 2022-06-03 阿里巴巴新加坡控股有限公司 地图渲染方法、装置、程序产品及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791370A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 一种拍摄照片的方法和装置
US20170161382A1 (en) * 2015-12-08 2017-06-08 Snapchat, Inc. System to correlate video data and contextual data
CN109036432A (zh) * 2018-07-27 2018-12-18 武汉斗鱼网络科技有限公司 一种连麦方法、装置、设备及存储介质
CN109474801A (zh) * 2018-09-20 2019-03-15 太平洋未来科技(深圳)有限公司 一种交互对象的生成方法、装置及电子设备
CN109672821A (zh) * 2018-12-29 2019-04-23 苏州思必驰信息科技有限公司 基于语音控制的摄影方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161382A1 (en) * 2015-12-08 2017-06-08 Snapchat, Inc. System to correlate video data and contextual data
CN106791370A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 一种拍摄照片的方法和装置
CN109036432A (zh) * 2018-07-27 2018-12-18 武汉斗鱼网络科技有限公司 一种连麦方法、装置、设备及存储介质
CN109474801A (zh) * 2018-09-20 2019-03-15 太平洋未来科技(深圳)有限公司 一种交互对象的生成方法、装置及电子设备
CN109672821A (zh) * 2018-12-29 2019-04-23 苏州思必驰信息科技有限公司 基于语音控制的摄影方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573158A (zh) * 2021-07-28 2021-10-29 维沃移动通信(杭州)有限公司 视频处理方法、装置、电子设备及存储介质
CN114579227A (zh) * 2022-01-20 2022-06-03 阿里巴巴新加坡控股有限公司 地图渲染方法、装置、程序产品及存储介质

Also Published As

Publication number Publication date
CN112492400B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
US11610092B2 (en) Information processing system, information processing apparatus, information processing method, and recording medium
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN107480766B (zh) 多模态虚拟机器人的内容生成的方法和系统
CN114401417B (zh) 直播流对象跟踪方法及其装置、设备、介质
CN112204942B (zh) 一种拍照方法和终端设备
CN111787986B (zh) 基于面部表情的语音效果
US9525841B2 (en) Imaging device for associating image data with shooting condition information
CN112492400B (zh) 互动方法、装置、设备以及通信方法、拍摄方法
CN113126951B (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
CN110442867A (zh) 图像处理方法、装置、终端及计算机存储介质
CN110019919B (zh) 一种押韵歌词的生成方法和装置
CN113538628A (zh) 表情包生成方法、装置、电子设备及计算机可读存储介质
US11443738B2 (en) Electronic device processing user utterance and control method thereof
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN107451185B (zh) 录音方法、朗读系统、计算机可读存储介质和计算机装置
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
CN113301352A (zh) 在视频播放期间进行自动聊天
JP2020077272A (ja) 会話システムおよび会話プログラム
JP5847646B2 (ja) テレビ制御装置、テレビ制御方法及びテレビ制御プログラム
CN105551504A (zh) 一种基于哭声触发智能移动终端功能应用的方法及装置
CN112423000B (zh) 数据处理方法、装置、设备以及介质
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant