CN117828010A - 文本处理方法、装置、电子设备、存储介质以及程序产品 - Google Patents

文本处理方法、装置、电子设备、存储介质以及程序产品 Download PDF

Info

Publication number
CN117828010A
CN117828010A CN202311160358.6A CN202311160358A CN117828010A CN 117828010 A CN117828010 A CN 117828010A CN 202311160358 A CN202311160358 A CN 202311160358A CN 117828010 A CN117828010 A CN 117828010A
Authority
CN
China
Prior art keywords
target
text
tone
character
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311160358.6A
Other languages
English (en)
Inventor
邱郁文
周逸安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311160358.6A priority Critical patent/CN117828010A/zh
Publication of CN117828010A publication Critical patent/CN117828010A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,包括:显示目标对象发布的目标文本、以及目标文本关联的音频控件;响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音;其中,目标音色通过对目标角色的真实音色进行模拟所得到,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。通过本申请,能够提高对文本进行语音输出时输出效果的多样性。

Description

文本处理方法、装置、电子设备、存储介质以及程序产品
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
相关技术在对文本进行语音输出时,大多是采用预先设定的音色,如年轻男声、中年女声等,播放文本对应的语音。然而,由于一般文本会包括丰富的内容,仅有预先设定的音色对文本进行语音输出,则会导致对文本进行语音输出时的效果过于单一、使得设备的硬件处理资源的利用率低。
发明内容
本申请实施例提供一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高对文本进行语音输出时输出效果的多样性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本处理方法,包括:
显示目标对象发布的目标文本、以及所述目标文本关联的音频控件;
响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音;
其中,所述目标音色通过对目标角色的真实音色进行模拟所得到,所述目标角色为以下角色中至少之一:所述目标对象的对象标识中包括的角色、以及与所述目标文本存在关联的角色。
本申请实施例提供一种文本处理装置,包括:
显示模块,用于显示目标对象发布的目标文本、以及所述目标文本关联的音频控件;
播放模块,用于响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音;其中,所述目标音色通过对目标角色的真实音色进行模拟所得到,所述目标角色为以下角色中至少之一:所述目标对象的对象标识中包括的角色、以及与所述目标文本存在关联的角色。
在上述方案中,所述显示模块,还用于在针对媒体信息的评论页面中,显示针对媒体信息的目标评论,所述目标评论包括所述目标对象发布的所述目标文本;在所述目标评论的关联位置,显示所述音频控件。
在上述方案中,所述目标评论的评论类型为目标评论类型,所述装置还包括第二显示模块,所述第二显示模块,用于在所述评论页面中,显示多个评论类型控件,每个所述评论类型控件,用于指示一种评论类型;其中,所述多个评论类型控件中目标评论类型控件对应所述目标评论类型,所述目标评论类型控件的显示样式区别于其它评论类型控件的显示样式。
在上述方案中,所述目标角色为所述媒体信息中的角色,所述目标对象为所述目标角色所对应的对象,所述目标对象的对象标识中包括所述目标角色;所述播放模块,还用于响应于针对所述音频控件的触发操作,确定所述媒体信息中所述目标角色的角色音色;采用与所述角色音色相一致的目标音色,播放所述目标文本对应的语音。
在上述方案中,所述目标角色为所述媒体信息中的角色,所述显示模块,还用于在评论编辑界面中显示至少一个角色选择控件,所述至少一个角色选择控件包括目标角色选择控件,每个所述角色选择控件对应一个角色;响应于针对目标角色选择控件的触发操作,在所述评论编辑界面的文本编辑区域,显示所述目标角色选择控件所对应目标角色的角色标识;响应于基于所述角色标识在所述文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以所述目标角色的身份发表的针对媒体信息的目标评论。
在上述方案中,所述媒体信息中还包括除所述目标角色以外的至少一个其它角色,所述装置还包括第三显示模块,所述第三显示模块,用于在针对媒体信息的评论页面中,分别显示以各所述其它角色的身份发表的、针对媒体信息的其它评论,并在各所述其它评论的关联位置显示相对应的其它音频控件;其中,各所述其它评论与所述目标评论构成会话,所述其它音频控件,用于模拟相对应的其它角色的真实音色,播放相应的其它评论的语音。
在上述方案中,所述目标角色与所述目标文本存在关联,所述显示模块,还用于显示所述目标对象发布的表情包,所述表情包中包括所述目标文本及所述目标角色;在所述表情包的关联位置,显示与所述目标文本关联的音频控件;所述播放模块,还用于采用模拟所述表情包中目标角色的真实音色所得到的目标音色,播放所述表情包中目标文本对应的语音。
在上述方案中,所述播放模块,还用于对所述表情包进行图像识别,得到所述表情包中包括的目标角色以及目标文本;获取所述表情包中目标角色的真实音色,并对所述目标文本进行语音转化,得到所述目标文本对应的目标语音;采用模拟所述真实音色所得到的目标音色,播放所述目标语音。
在上述方案中,所述目标角色为,所述目标对象的对象标识中包括的角色,所述目标对象的数量为至少一个,不同目标对象的对象标识中所包括的目标角色不同;所述显示模块,还用于在会话页面中,显示至少一个所述目标对象发送的会话消息,所述会话消息携带相应的所述对象标识,所述会话消息中包括所述目标文本;分别在各所述目标对象所发送的会话消息的关联位置,显示与相应所述会话消息关联的音频控件,所述音频控件,用于模拟相应目标角色的真实音色,播放相应会话消息中文本内容对应的语音。
在上述方案中,当所述会话页面中所显示的音频控件的数量为至少两个时,所述装置还包括第四显示模块,所述第四显示模块,用于在所述会话页面中,显示针对所述至少两个音频控件的综合音频控件;响应于所述综合音频控件的触发操作,依据各所述会话消息发送时间的先后顺序,采用各所述音频控件对应的音色,连续播放各所述音频控件对应的语音。
在上述方案中,所述目标角色为,所述目标对象的对象标识中包括的角色;所述显示模块,还用于在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息,所述目标媒体信息携带所述目标对象的对象标识,所述目标媒体信息中包括所述目标文本;在所述目标文本的关联位置,显示所述音频控件,所述音频控件,用于模拟所述对象标识中所包括角色的音色,播放所述目标文本对应的语音。
在上述方案中,所述目标媒体信息中还包括图像,所述显示模块,还用于在包括至少一条媒体信息的信息流页面中,显示目标对象发布的所述图像及所述图像关联的所述目标文本;其中,所述图像中包括所述目标角色。
在上述方案中,所述显示模块,还用于在会话页面的消息展示区域中,显示目标对象发布的会话消息,所述会话消息包括目标文本,并显示所述目标文本关联的音频控件;所述装置还包括第五显示模块,所述第五显示模块,用于在所述会话页面的消息发送区域中,显示语音发送控件及音色提示信息;其中,所述音色提示信息用于提示,将采用目标公众人物的音色,发送语音消息;响应于基于所述语音发送控件所触发的语音发送操作,发送语音消息;当接收到针对所述语音消息的触发操作时,采用所述目标公众人物的音色,播放相应的语音内容。
在上述方案中,所述消息发送区域中还显示有音色切换控件,所述装置还包括第六显示模块,所述第六显示模块,用于响应于针对所述音色切换控件的触发操作,显示至少一种音色选项,不同音色选项对应不同的公众人物的音色;响应于针对所述至少一种音色选项中、目标音色选项的选择操作,将所述语音发送控件所对应的目标公众人物的音色,切换为所述目标音色选项对应的公众人物的音色。
在上述方案中,所述音色选择区域还包括至少一个音色演示控件,所述至少一个音色演示控件包括目标音色演示控件,每个所述音色选项关联一个所述音色演示控件;所述装置还包括第七显示模块,所述第七显示模块,用于响应于针对所述目标音色演示控件的触发操作,采用所述目标音色演示控件关联的、所述音色选项所对应公众人物的音色,播放预设的语音。
在上述方案中,所述播放模块,还用于响应于针对所述音频控件的触发操作,对所述目标文本进行分析,得到分析结果,并对所述对象标识进行识别,得到识别结果;当基于所述分析结果以及所述识别结果,确定所述目标文本以及对象标识中至少之一关联有目标角色时,采用所述目标角色的音色播放所述目标语音。
在上述方案中,所述目标文本对应第一语言,所述目标角色对应不同于所述第一语言的第二语言,所述播放模块,还用于响应于针对所述音频控件的触发操作,对所述目标文本进行语言转换,得到所述第二语言对应的文本;采用目标音色播放所述第二语言所对应文本的语音。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的文本处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本处理方法。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的文本处理方法。
本申请实施例具有以下有益效果:
通过显示目标对象发布的目标文本、以及目标文本关联的音频控件,然后响应于针对音频控件的触发操作,采用通过对目标角色的真实音色进行模拟所得到的目标音色,播放目标文本对应的语音;其中,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。如此,基于目标对象的对象标识中包括的角色、或者目标文本中包括的角色所对应的音色,播放目标文本对应的语音,从而可以采用丰富的音色来对文本进行语音输出,提高了对文本进行语音输出时输出效果的多样性。
附图说明
图1是本申请实施例提供的文本处理系统100的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的文本处理方法的流程示意图;
图4是本申请实施例提供的目标文本以及目标文本关联的音频控件的示意图;
图5是本申请实施例提供的显示以目标角色的身份发表的针对媒体信息的目标评论的示意图;
图6是显示目标评论以及其他评论的过程的示意图;
图7是本申请实施例提供的目标文本是官方对象发布的评论文本的示意图;
图8是本申请实施例提供的目标文本是目标对象发布的表情包中包括的文本的示意图;
图9是本申请实施例提供的目标文本是目标对象发送的会话消息中的文本的示意图;
图10是本申请实施例提供的目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的示意图;
图11是本申请实施例提供的目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的示意图;
图12是本申请实施例提供的会话页面的消息发送区域的示意图;
图13是本申请实施例提供的至少一种音色选项的示意图;
图14是本申请实施例提供的静态人脸特征提取的过程的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)客户端(Client),又称用户端,是指与服务器相对应的为用户提供本地服务的程序,除了一些只能在本地运行的应用程序之外,一般安装在终端上,需要与服务器相互配合运行,即需要网络中有相应的服务器和服务程序来提供相应的服务,这样在客户端和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行,例如虚拟场景客户端(如游戏客户端)、视频客户端。
3)人工智能(AI,Artificial Intelligence),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
4)语言Cosplay,简称语C,即语言描写(角色扮演方向),是在文学演绎的基础之上发展成形,以语言描写为基础进行角色扮演的一种网络文化。
5)角色扮演,也叫扮装游戏,参与者通过扮演影视剧、动漫或小说中的角色进行互动。
6)文本转语音(TTS,Text to Speech)技术:通过机械的、电子的方法产生人造语音,它能将任意文字信息实时转化为标准流畅的语音朗读出来。
参见图1,图1是本申请实施例提供的文本处理系统100的架构示意图,为实现文本处理的应用场景(例如,文本处理的应用场景可以是在媒体信息的评论区如视频评论区,显示用户所发布的至少一条评论、以及评论所关联的音频控件,然后响应于针对音频控件的触发操作,自动识别用户的头像或者昵称中包括的公众人物、或者与评论关联的公众人物,再采用该公众人物的音色播放评论内容对应的语音),终端(示例性示出了终端400),终端400通过网络300连接服务器200,其中,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
其中,服务器200用于,发送目标对象发布的目标文本、以及目标文本关联的音频控件对应的显示数据至终端400;
终端400用于,接收目标对象创建的目标文本、以及目标文本关联的音频控件对应的显示数据,并基于显示数据,显示目标对象发布的目标文本、以及目标文本关联的音频控件;响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音;其中,目标音色通过对目标角色的真实音色进行模拟所得到,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。
一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDeliver Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒、智能语音交互设备、智能家电、虚拟现实设备、车载终端、飞行器、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备、智能音箱及智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
接下来对实施本申请实施例提供的文本处理方法的电子设备进行说明。参见图2,图2是本申请实施例提供的电子设备的结构示意图,该电子设备可以是服务器也可以是终端,以电子设备为图1中所示的终端为例,图2所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够显示媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够显示信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450的文本处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:显示模块4551、以及播放模块4552,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的文本处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即本地客户端,即需要在操作系统中安装才能运行的程序,如即时通信APP、网页浏览器APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的客户端、模块或插件。
基于上述对本申请实施例提供的文本处理系统及电子设备的说明,下面说明本申请实施例提供的文本处理方法。在实际实施时,本申请实施例提供的文本处理方法可以由终端或服务器单独实现,或者由终端及服务器协同实现,以由图1中的终端400单独执行本申请实施例提供的文本处理方法为例进行说明。参见图3,图3是本申请实施例提供的文本处理方法的流程示意图,接下来,将结合图3示出的步骤进行说明。
步骤101,终端显示目标对象发布的目标文本、以及目标文本关联的音频控件。
在实际实施时,终端设置有支持文本处理的客户端如视频播放客户端、浏览器客户端、社交客户端等,当用户打开终端上的客户端,且终端运行该客户端时,从而终端可以基于该客户端,显示目标对象发布的目标文本、以及目标文本关联的音频控件。
需要说明的是,目标文本存在多种形式,例如可以是目标对象发布的评论文本,也可以是目标对象发布的表情包中包括的文本,还可以是目标对象发送的会话消息中的文本,或者可以是目标对象在信息流页面上发布的目标媒体信息中的文本等。接下来,以上述四种例子为例,对显示目标对象发布的目标文本、以及所述目标文本关联的音频控件的过程进行说明。
针对目标文本是目标对象发布的评论文本的情况。
在一些实施例中,目标文本是目标对象发布的评论时,也即目标对象发布的评论中包括文本如目标文本,从而,显示目标对象发布的目标文本、以及目标文本关联的音频控件的过程,可以是,在针对媒体信息的评论页面中,显示针对媒体信息的目标评论,目标评论包括目标对象发布的目标文本;在目标评论的关联位置,显示音频控件。
需要说明的是,媒体信息可以是视频信息、图像信息或者音频信息等,目标对象为媒体信息的观看对象或听众,从而目标对象在观看媒体信息时,在媒体信息的评论页面发布针对媒体信息的评论,也即目标文本;关联位置为目标评论的上方位置、下方位置、左右位置以及右侧位置中之一。
示例性地,参见图4,图4是本申请实施例提供的目标文本以及目标文本关联的音频控件的示意图,基于图4,虚线框401所指示的为目标对象发布的评论,也即目标文本,而402所指示的为目标文本关联的音频控件。
在实际实施时,评论页面的评论存在多个类型,如热门评论、最新评论等其中,目标评论的评论类型为目标评论类型,这里的目标评论类型可以是多个评论类型中任意一个评论类型,从而,还可以在评论页面中,显示多个评论类型控件,每个评论类型控件,用于指示一种评论类型;其中,多个评论类型控件中目标评论类型控件对应目标评论类型,目标评论类型控件的显示样式区别于其它评论类型控件的显示样式。
需要说明的是,不同评论类型控件可以用于显示相应评论类型的评论,例如,当目标评论为热门评论时,评论页面中的评论均为热门评论,然后响应于针对最新评论对应的评论类型控件的触发操作,将评论页面中的所显示的评论,由热门评论切换为最新评论。示例性地,如图4所示,虚线框403中所指示的为在评论页面中的对应四个不同的评论类型的评论类型控件,即热门、最新、剧情讨论以及追完打卡。
在一些实施例中,目标角色为媒体信息中的角色,从而,在针对媒体信息的评论页面中,显示针对媒体信息的目标评论的过程,可以是,在评论编辑界面中显示至少一个角色选择控件,至少一个角色选择控件包括目标角色选择控件,每个角色选择控件对应一个角色;响应于针对目标角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识;响应于基于角色标识在文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论。
示例性地,参见图5,图5是本申请实施例提供的显示以目标角色的身份发表的针对媒体信息的目标评论的示意图,基于图5,a中虚线框501所指示的为评论编辑界面,虚线框502所指示的为至少一个角色选择控件,即四个角色选择控件,从而响应于针对虚线框502所指示的四个角色选择控件中第一个角色选择控件的触发操作,在如b的虚线框503所指示的评论编辑界面的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识即AA,然后响应于基于角色标识在文本编辑区域所编辑的评论内容,在如c中虚线框504所指示的针对媒体信息的评论页面中,显示以AA的身份发表的针对媒体信息的目标评论即物理学不存在了。
需要说明的是,至少一个角色选择控件与媒体信息中的角色存在一一对应关系,例如当媒体信息为电影时,至少一个角色选择控件与电影中的主角分别对应,而目标角色的角色标识,可以是目标角色的名称以及头像中至少之一,从而响应于基于角色标识在文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论的过程,可以是,基于角色标识,响应于针对媒体信息的评论编辑操作,在文本编辑区域显示所编辑的评论内容,再响应于针对评论内容的发布操作,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论。
示例性地,如图5所示,在显示目标角色选择控件所对应目标角色的角色标识即AA之后,基于该角色标识,响应于针对媒体信息的评论编辑操作,在如b的虚线框503所指示的评论编辑界面的文本编辑区显示所编辑的评论内容即物理学不存在了,再响应于针对评论内容的发布操作,也即针对b中505所指示的发布控件的触发操作,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论。
在一些实施例中,媒体信息中还包括除目标角色以外的至少一个其它角色,从而还可以,在针对媒体信息的评论页面中,分别显示以各其它角色的身份发表的、针对媒体信息的其它评论,并在各其它评论的关联位置显示相对应的其它音频控件;其中,各其它评论与目标评论构成会话,其它音频控件,用于模拟相对应的其它角色的真实音色,播放相应的其它评论的语音。
需要说明的是,显示的以各所述其它角色的身份发表的、针对媒体信息的其它评论可以是目标对象所编辑的,也可以是其它对象所编辑的,接下来,分别对这两种情况进行说明。
在一些实施例中,当显示的以各其它角色的身份发表的、针对媒体信息的其它评论可以是目标对象所编辑的时,响应于针对目标角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识;响应于针对其它角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示其它角色选择控件所对应其它角色的角色标识;响应于基于目标角色标识以及其他角色标识在文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论、以及以各其它角色的身份发表的、针对媒体信息的其它评论。
在实际实施时,上述过程具体可以是,响应于针对目标角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识,基于目标角色的角色标识,响应于针对媒体信息的评论编辑操作,在文本编辑区域显示所编辑的评论内容;然后,响应于针对其它角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示其它角色选择控件所对应其它角色的角色标识,基于其它角色的角色标识,响应于针对媒体信息的评论编辑操作,在文本编辑区域显示所编辑的评论内容;最后,响应于针对评论内容的发布操作,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论、以及以其它角色的身份发表的、针对媒体信息的其它评论。
示例性地,参见图6,图6是显示目标评论以及其他评论的过程的示意图,基于图6,在如a中虚线框601所指示的评论编辑界面,显示如虚线框602所指示的角色选择控件,通过对AA以及SS对应的角色选择控件的选择操作,在如b中虚线框603所指示的文本编辑区域,显示选择的角色选择控件所对应的角色标识即AA以及SS、和基于各角色标识所编辑的评论内容,从而响应于针对评论内容的发布操作,在如c中虚线框604所指示的针对媒体信息的评论页面中,显示以AA以及SS的身份发表的针对媒体信息的评论。
在一些实施例中,当显示的以各其它角色的身份发表的、针对媒体信息的其它评论可以是其它对象所编辑的时,响应于针对目标角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识;基于目标角色的角色标识,响应于针对媒体信息的评论编辑操作,在文本编辑区域显示所编辑的评论内容;接收其它对象以各其它角色的身份发表的、针对媒体信息的评论内容,并在文本编辑区域,显示其它角色的角色标识、以及相应的评论内容;响应于针对评论内容的发布操作,在针对媒体信息的评论页面中,显示以目标角色的身份发表的针对媒体信息的目标评论、以及以其它角色的身份发表的、针对媒体信息的其它评论。
需要说明的是,在显示评论编辑界面之后,其它对象可以是目标对象通过链接或者二维码邀请至评论编辑界面的,同时,其它对象以及目标对象分别可以通过选择的一个角色选择控件与媒体信息中的一个角色相对应,以采用相应角色的身份,发表针对媒体信息的评论,而针对评论内容的发布操作为评论编辑界面的创建者即目标对象,也即邀请人所执行的。
示例性地,如图6所示,响应于针对a中虚线框602的AA这一角色选择控件的触发操作,在如虚线框603的文本编辑区域,显示目标角色选择控件所对应目标角色的角色标识即AA;基于目标角色的角色标识,响应于针对媒体信息的评论编辑操作,在文本编辑区域显示所编辑的评论内容即“物理学不存在了”;然后接收其它对象以SS的身份发表的、针对媒体信息的评论内容即“你说你们物理学家会不会出XXX啊?”,并在如虚线框603的文本编辑区域,显示其它角色的角色标识即SS、以及相应的评论内容;响应于针对评论内容的发布操作,在如c中虚线框604所指示的针对媒体信息的评论页面中,显示以AA的身份发表的针对媒体信息的目标评论、以及以SS身份发表的、针对媒体信息的其它评论。
在一些实施例中,当目标文本是目标对象发布的评论文本时,目标角色为媒体信息中的角色,目标对象为发布评论的对象,这里的评论可以由实际用户所发布,也可以由官方对象或AI所发布。具体地,当评论由实际用户所发布时,目标对象指示实际用户,而该用户的对象标识可以包括目标角色,或者该用户的对象标识可以不包括目标角色;当评论由官方对象或AI所发布时,此时官方对象或AI的对象标识包括目标角色,也即目标对象为目标角色所对应的对象,目标对象的对象标识中包括目标角色。
作为一个示例,如图4所示,此时的评论由实际用户余风YF所发布,而该用户的对象标识不包括目标角色,但是目标文本关联目标角色,也即评论中包括目标角色即AA。作为另一个示例,参见图7,图7是本申请实施例提供的目标文本是官方对象发布的评论文本的示意图,基于图7,虚线框701中为官方对象所发布的评论,此时官方对象或AI的对象标识包括目标角色也即SS。
针对目标文本是目标对象发布的表情包中包括的文本的情况。
在一些实施例中,当目标文本是目标对象发布的表情包中包括的文本时,目标角色与目标文本存在关联,从而显示目标对象发布的目标文本、以及目标文本关联的音频控件的过程,可以是,显示目标对象发布的表情包,表情包中包括目标文本及目标角色;在表情包的关联位置,显示与目标文本关联的音频控件。
需要说明的是,表情包也即图像表情,用于指示一种利用图像来表示感情的方式,表情包中可以包括图像以及文本内容,从而表情包中包括目标文本及目标角色,也即指示目标文本为表情包中包括的文本内容,目标角色为表情包中图像所对应的对象,例如表情包中的图像为人脸时,目标角色为人脸对应的对象。这里的关联位置为表情包的上方位置、下方位置、左侧位置以及右侧位置中之一。而目标角色与目标文本存在关联用于指示,目标文本为以目标角色的身份创建的文本内容,目标文本可以包括目标角色,例如文本内容中存在目标角色的名称,也可以不包括目标角色的名称,而仅包括以目标角色的身份创建的文本内容,对此,本申请实施例不做限定。
在实际实施时,表情包可以是由目标对象所创建的,也可以是其它对象所创建,由目标对象所获取并保存,然后再发送的,对此,本申请实施例不做限定。
需要说明的是,这里的表情包可以发布在任意一个场景中,例如将表情包作为评论发布于媒体信息的评论页面,此时,目标文本可以包括评论文本以及表情包中的文本中至少之一,或者将表情包作为会话消息发布于会话页面,又或者将表情包作为目标媒体消息发布于信息流页面等,对此,本申请实施例不做限定。
示例性地,参见图8,图8是本申请实施例提供的目标文本是目标对象发布的表情包中包括的文本的示意图,基于图8,这里的表情包作为评论发布于媒体信息的评论页面,虚线框801所指示的为目标对象发布的表情包,表情包中包括目标文本即“落魄了家人们”及目标角色也即表情包中指示的人脸,同时,在表情包的左侧位置,显示与目标文本关联的如802所指示的音频控件。
针对目标文本是目标对象发送的会话消息中的文本的情况。
在一些实施例中,当目标文本是目标对象发送的会话消息中的文本时,目标角色为,目标对象的对象标识中包括的角色,目标对象的数量为至少一个,不同目标对象的对象标识中所包括的目标角色不同;从而,显示目标对象发布的目标文本、以及目标文本关联的音频控件的过程,可以是,在会话页面中,显示至少一个目标对象发送的会话消息,会话消息携带相应的对象标识,会话消息中包括目标文本;分别在各目标对象所发送的会话消息的关联位置,显示与相应会话消息关联的音频控件,音频控件,用于模拟相应目标角色的真实音色,播放相应会话消息中文本内容对应的语音。
需要说明的是,会话消息可以直接是文本消息,也可以是表情包消息,当会话消息为文本消息时,目标文本即是该文本消息,当会话消息为表情包消息时,目标文本为表情包消息中包括的文本内容。这里目标角色为目标对象的对象标识中包括的角色,用于指示目标角色为目标对象的头像和/或名称所对应的角色,会话消息的关联位置为会话消息的上方位置、下方位置、左侧位置以及右侧位置中之一。
示例性地,参见图9,图9是本申请实施例提供的目标文本是目标对象发送的会话消息中的文本的示意图,基于图9,目标对象的数量为三个,目标对象的头像以及名称中包括目标角色,即AA、SS以及YYY,从而,在会话页面中,显示三个目标对象发送的会话消息、以及如901所指示的与相应会话消息关联的音频控件。
针对目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的情况。
在一些实施例中,当目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本时,目标角色为,目标对象的对象标识中包括的角色;从而,显示目标对象发布的目标文本、以及目标文本关联的音频控件的过程,可以是,在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息,目标媒体信息携带目标对象的对象标识,目标媒体信息中包括目标文本;在目标文本的关联位置,显示音频控件,音频控件,用于模拟对象标识中所包括角色的音色,播放目标文本对应的语音。
需要说明的是,目标角色为目标对象的对象标识中包括的角色,用于指示目标角色为目标对象的头像和/或名称所对应的角色,目标文本的关联位置为目标文本的上方位置、下方位置、左侧位置以及右侧位置中之一。
在实际实施时,目标媒体信息可以包括文本消息、图像消息中至少之一,当目标媒体信息包括文本消息时,目标文本即是该文本消息,当目标媒体信息包括图像消息时,目标文本为图像消息中包括的文本内容。当目标媒体信息包括图像以及文本消息时,而目标文本即是该文本消息,图像中还可以包括目标角色,具体地,在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息的过程,可以是,在包括至少一条媒体信息的信息流页面中,显示目标对象发布的图像及图像关联的目标文本;其中,图像中包括目标角色。这里,图像关联的目标文本用于指示,采用图像所包括的目标角色的身份发表目标文本。
示例性地,参见图10和图11,图10是本申请实施例提供的目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的示意图,图11是本申请实施例提供的目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的示意图,基于图10,目标媒体信息仅包括文本消息,具体地,在包括至少一条媒体信息的信息流页面中,显示目标对象也即AA发布的如虚线框1001所指示的目标媒体信息,目标媒体信息中包括目标文本也即“空间真的好小”;在目标文本的关联位置,显示如1002所指示的音频控件,其中,这里的音频控件,用于模拟目标对象的标识中所包括角色AA的音色,播放目标文本对应的语音;
相应地,基于图11,目标媒体信息仅包括文本消息,具体地,在包括至少一条媒体信息的信息流页面中,显示目标对象也即AA发布的如虚线框1101所指示的图像及图像关联的目标文本也即“空间真的好小”;在目标文本的关联位置,显示如1102所指示的音频控件,其中,图像中包括目标角色,这里的音频控件,用于模拟目标对象的标识中所包括角色AA的音色,播放目标文本对应的语音。
步骤102,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音;其中,目标音色通过对目标角色的真实音色进行模拟所得到,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。
需要说明的是,目标角色为媒体信息如影视剧、动漫或小说中的人物角色,或者真实世界中具有一定知名的公众人物,如明星等;而音色为目标角色的声线或声音,可以作为目标角色的身份标识,用于指示目标角色的身份,不同目标角色的音色不同。而目标对象的对象标识可以指目标对象的头像或者名称,对象标识中包括的角色为,头像所指示的角色或者名称所对应的角色。而目标文本关联有目标角色用于指示,目标文本携带目标角色的角色标识。
在实际实施时,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对音频控件的触发操作,对目标文本进行分析,得到分析结果,并对对象标识进行识别,得到识别结果;当基于分析结果以及识别结果,确定目标文本以及对象标识中至少之一关联有目标角色时,采用目标角色的音色播放目标语音。
需要说明的是,当接收到针对音频控件的触发操作时,会对音频控件所关联的目标文本进行分析,并对发布目标文本的目标对象的对象标识进行识别,当目标文本关联有目标角色和/或对象标识中存在目标角色时,采用目标角色的音色播放目标语音。
需要说明的是,对于目标文本携带目标角色的角色标识,当目标文本为评论时,目标文本关联目标角色指示目标文本携带目标角色的角色标识,也即评论中存在目标角色,如图4所示,虚线框401中“落魄了家人们”为目标文本,而“AA”则为目标文本关联的目标角色,也即目标文本携带目标角色的角色标识;当目标文本为表情包中的文本时,目标文本关联的目标角色为表情包中包括的图像所对应的对象,也即表情包携带的图像所对应的对象。
在实际实施时,对目标文本进行分析的过程可以通过文本识别模型以及图像识别模型所实现,相应地,对对象标识进行识别的过程同样可以通过文本识别模型以及图像识别模型所实现,此外,对目标文本进行分析以及对对象标识进行识别也可以通过上述方式之外的方式所实现,对此,本申请实施例不做限定。
需要说明的是,在识别得到目标文本以及对象标识中至少之一关联的目标角色后,首先结合识别得到的目标文本以及对象标识中至少之一,对目标角色所归属的目标场景进行识别,其中,目标场景用于指示目标角色所存在的目标媒体信息,如具体的电视剧、具体的电影、或具体的动漫等,当识别结果表征识别得到目标角色所归属的目标场景时,在一些实施例中,可以直接获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用真实音色播放目标语音;
在另一些实施例中,可以获取目标场景中的目标角色所说过的至少一条标准语音,然后分别将各标准语音的文本内容与目标文本进行匹配,当匹配结果表征至少一条标准语音中、目标标准语音的文本内容与目标文本的匹配程度达到目标匹配程度时,采用目标音色也即真实音色播放目标文本对应的语音,也即是播放目标标准语音;而当匹配结果表征各标准语音的文本内容与目标文本的匹配程度均未达到目标匹配程度时,获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用真实音色播放目标语音。
示例性地,当目标文本是目标对象发布的表情包中包括的文本、且目标媒体信息为具体的电视剧时,如图8所示,响应于针对802所指示的音频控件的触发操作,对音频控件所关联的目标文本即虚线框801所指示的表情包中所指示的文本进行分析,并对发布目标文本的目标对象的对象标识进行识别,当目标文本关联有目标角色和/或对象标识中存在目标角色时,结合识别得到的目标文本以及对象标识中至少之一,对目标角色所归属的电视剧进行识别,得到目标角色所归属的具体一个版本的电视剧,从而获取目标角色在该版本电视剧中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用真实音色播放目标语音,即播放“落魄了家人们”对应的语音。
在实际实施时,如前文所述,目标文本存在多种形式,例如可以是目标对象发布的评论文本,也可以是目标对象发布的表情包中包括的文本,还可以是目标对象发送的会话消息中的文本,或者可以是目标对象在信息流页面上发布的目标媒体信息中的文本等。基于此,针对目标文本的不同情况,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程也存在不同。
针对目标文本是目标对象发布的评论文本的情况。
在一些实施例中,当目标文本是目标对象发布的评论文本时,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对音频控件的触发操作,确定媒体信息中目标角色的角色音色;采用与角色音色相一致的目标音色,播放目标文本对应的语音。这里,当评论文本中包括的目标角色存在多个,如前文所述的包括目标评论以及其他评论时,在各目标角色对应的目标文本的关联位置,分别显示相应的音频控件,从而响应于针对多个音频控件中目标音频控件的触发操作,确定媒体信息中相应目标角色的角色音色;采用与该角色音色相一致的目标音色,播放相应目标文本对应的语音。
需要说明的是,响应于针对音频控件的触发操作,确定媒体信息中目标角色的角色音色也即是响应于针对音频控件的触发操作,对目标文本进行分析,得到分析结果,并对对象标识进行识别,得到识别结果,从而当基于分析结果以及识别结果,确定目标文本以及对象标识中至少之一关联有目标角色时,确定媒体信息中目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音。
需要说明的是,确定媒体信息中目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音的过程,也即是,首先结合识别得到的目标文本以及对象标识中至少之一,对目标角色所归属的目标场景进行识别,当识别结果表征识别得到目标角色所归属的目标场景时,在一些实施例中,可以直接获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用真实音色播放目标语音;
在另一些实施例中,可以获取目标场景中的目标角色所说过的至少一条标准语音,然后分别将各标准语音的文本内容与目标文本进行匹配,当匹配结果表征至少一条标准语音中、目标标准语音的文本内容与目标文本的匹配程度达到目标匹配程度时,采用目标音色播放目标文本对应的语音,也即是播放目标标准语音;而当匹配结果表征各标准语音的文本内容与目标文本的匹配程度均未达到目标匹配程度时,获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用真实音色播放目标语音。
接上述示例,如图4所示,响应于针对402所指示的音频控件的触发操作,采用与AA这一角色的角色音色相一致的目标音色,播放“落魄了家人们”对应的语音。
针对目标文本是目标对象发布的表情包中包括的文本的情况。
在一些实施例中,当目标文本是目标对象发布的表情包中包括的文本时,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对音频控件的触发操作,采用模拟表情包中目标角色的真实音色所得到的目标音色,播放表情包中目标文本对应的语音。
需要说明的是,响应于针对音频控件的触发操作,对表情包进行图像识别,从而基于图像识别结果,确定表情包中的目标角色,再采用模拟表情包中目标角色的真实音色所得到的目标音色,播放表情包中目标文本对应的语音。具体地,响应于针对音频控件的触发操作,采用模拟表情包中目标角色的真实音色所得到的目标音色,播放表情包中目标文本对应的语音的过程,可以是,对表情包进行图像识别,得到表情包中包括的目标角色以及目标文本;结合表情包中包括的目标角色以及目标文本,对目标角色所归属的目标场景进行识别,当识别结果表征识别得到目标角色所归属的目标场景时,获取目标场景中目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音;采用模拟真实音色所得到的目标音色,播放目标语音。
需要说明的是,除了直接获取表情包中目标角色的真实音色,并对目标文本进行语音转化,得到目标文本对应的目标语音之外,还可以获取目标场景中的目标角色所说过的至少一条标准语音,然后分别将各标准语音的文本内容与目标文本进行匹配,当匹配结果表征至少一条标准语音中、目标标准语音的文本内容与目标文本的匹配程度达到目标匹配程度时,采用目标音色播放目标文本对应的语音,也即是播放目标标准语音;而当匹配结果表征各标准语音的文本内容与目标文本的匹配程度均未达到目标匹配程度时,才获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用模拟真实音色所得到的目标音色,播放目标语音。
接上述示例,如图8所示,响应于针对802所指示的音频控件的触发操作,采用模拟如虚线框801所指示的表情包中目标角色的真实音色所得到的目标音色,播放“落魄了家人们”对应的语音。
针对目标文本是目标对象发送的会话消息中的文本的情况。
在一些实施例中,当目标文本是目标对象发送的会话消息中的文本时,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对多个音频控件中目标音频控件的触发操作,确定目标音频控件对应的会话消息所关联的目标角色的角色音色;采用与角色音色相一致的目标音色,播放目标音频控件对应的会话消息中文本内容对应的语音。
需要说明的是,响应于针对目标音频控件的触发操作,确定目标音频控件对应的会话消息所关联的目标角色的角色音色也即是响应于针对目标音频控件的触发操作,对目标音频控件对应的会话消息进行分析,得到分析结果,并对目标音频控件对应的目标对象的对象标识进行识别,得到识别结果,从而当基于分析结果以及识别结果,确定目标文本以及对象标识中至少之一关联有目标角色时,确定目标音频控件对应的会话消息所关联的目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标音频控件对应的会话消息中文本内容对应的语音。
需要说明的是,确定目标音频控件对应的会话消息所关联的目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标音频控件对应的会话消息中文本内容对应的语音,也即是,结合分析结果以及识别结果,对目标音频控件对应的会话消息所关联的目标角色所归属的目标场景进行识别,当识别结果表征识别得到目标角色所归属的目标场景时,在一些实施例中,可以直接获取目标音频控件对应的会话消息所关联的目标角色的角色音色也即目标角色在目标场景中的音色,并对目标音频控件对应的会话消息中文本内容进行语音转化,得到目标音频控件对应的会话消息中文本内容对应的目标语音,从而采用与角色音色相一致的目标音色,播放目标音频控件对应的会话消息中文本内容对应的语音;
在另一些实施例中,可以获取目标场景中的目标角色所说过的至少一条标准语音,然后分别将各标准语音的文本内容,与目标音频控件对应的会话消息中文本内容进行匹配,当匹配结果表征至少一条标准语音中、目标标准语音的文本内容,与目标音频控件对应的会话消息中文本内容的匹配程度达到目标匹配程度时,采用目标音色播放目标文本对应的语音,也即是播放目标标准语音;而当匹配结果表征各标准语音的文本内容,与目标音频控件对应的会话消息中文本内容的匹配程度均未达到目标匹配程度时,获取目标音频控件对应的会话消息所关联的目标角色的角色音色也即目标角色在目标场景中的音色,并对目标音频控件对应的会话消息中文本内容进行语音转化,得到目标音频控件对应的会话消息中文本内容对应的目标语音,从而采用与角色音色相一致的目标音色,播放目标音频控件对应的会话消息中文本内容对应的语音。
接上述示例,如图9所示,响应于针对901所指示的三个音频控件中第一个音频控件的触发操作,采用与AA这一角色的角色音色相一致的目标音色,播放“空间真的好小”对应的语音。
在实际实施时,由于音频控件为至少一个,还可以一键播放会话页面的会话消息中文本内容对应的语音,具体地,当会话页面中所显示的音频控件的数量为至少两个时,还可以,在会话页面中,显示针对至少两个音频控件的综合音频控件;响应于综合音频控件的触发操作,依据各会话消息发送时间的先后顺序,采用各音频控件对应的音色,连续播放各音频控件对应的语音。
需要说明的是,这里的会话页面可以仅为当前显示的会话页面,也可以是包括当前显示的会话页面以及未显示的会话页面,当会话页面仅为当前显示的会话页面时,播放的语音也为当前显示的会话页面中会话消息的文本内容所对应的语音,而当会话页面包括当前显示的会话页面以及未显示的会话页面时,播放的语音也为当前显示的会话页面中会话消息的文本内容所对应的语音、以及未显示的会话页面中会话消息的文本内容所对应的语音。
需要说明的是,还可以对连续播放的语音进行选择,具体地,响应于针对多条会话消息中至少一条目标会话消息的选择操作,控制至少一条目标会话消息处于选中状态;响应于针对综合音频控件的触发操作,依据处于选中状态的各目标会话消息发送时间的先后顺序,采用相应的各音频控件对应的音色,连续播放各音频控件对应的语音。
针对目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本的情况。
在一些实施例中,当目标文本是目标对象在信息流页面上发布的目标媒体信息中的文本时,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对音频控件的触发操作,确定目标媒体信息所关联的目标角色的角色音色;采用与角色音色相一致的目标音色,播放目标文本对应的语音。
需要说明的是,响应于针对音频控件的触发操作,确定目标媒体信息所关联的目标角色的角色音色也即是响应于针对音频控件的触发操作,对目标媒体信息中的目标文本进行分析,得到分析结果,并对目标媒体信息对应的目标对象的对象标识进行识别,得到识别结果,从而当基于分析结果以及识别结果,确定目标文本以及对象标识中至少之一关联有目标角色时,确定目标媒体信息关联有目标角色,然后获取目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音。
需要说明的是,确定目标媒体信息关联有目标角色,然后获取目标角色的角色音色,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音的过程,也即是,结合分析结果以及识别结果,对目标媒体信息关联的目标角色所归属的目标场景进行识别,当识别结果表征识别得到目标角色所归属的目标场景时,在一些实施例中,可以直接获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音;
在另一些实施例中,可以获取目标场景中的目标角色所说过的至少一条标准语音,然后分别将各标准语音的文本内容与目标文本进行匹配,当匹配结果表征至少一条标准语音中、目标标准语音的文本内容与目标文本的匹配程度达到目标匹配程度时,采用目标音色播放目标文本对应的语音,也即是播放目标标准语音;而当匹配结果表征各标准语音的文本内容与目标文本的匹配程度均未达到目标匹配程度时,获取目标角色的真实音色也即目标角色在目标场景中的音色,并对目标文本进行语音转化,得到目标文本对应的目标语音,从而采用与角色音色相一致的目标音色,播放目标文本对应的语音。
接上述示例,如图11所示,响应于针对1102所指示的音频控件的触发操作,采用与AA这一角色的角色音色相一致的目标音色,播放“空间真的好小”对应的语音。
在一些实施例中,显示目标对象发布的目标文本、以及所述目标文本关联的音频控件的过程,还可以是,在会话页面的消息展示区域中,显示目标对象发布的会话消息,会话消息包括目标文本,并显示目标文本关联的音频控件;从而,在会话页面的消息发送区域中,显示语音发送控件及音色提示信息;其中,音色提示信息用于提示,将采用目标公众人物的音色,发送语音消息;响应于基于语音发送控件所触发的语音发送操作,发送语音消息;当接收到针对语音消息的触发操作时,采用目标公众人物的音色,播放相应的语音内容。
需要说明的是,这里的目标公众人物可以是预先设置的,而基于语音发送控件所触发的语音发送操作可以包括针对语音发送控件的长按操作以及释放操作,具体地,响应于基于语音发送控件所触发的语音发送操作,发送语音消息的过程,可以是,响应于针对语音发送控件的长按操作,实时录制语音消息;当完成语音消息的录制时,响应于针对语音发送控件的释放操作,发送语音消息,也即在会话页面的消息展示区域中,显示所发送的语音消息,从而当接收到针对在会话页面的消息展示区域中的该语音消息的触发操作时,采用目标公众人物的音色,播放相应的语音内容;
需要说明的是,当完成语音消息的录制时,获取目标公众人物的真实音色也即该公众人物本身的音色,并基于该真实音色,对所录制的语音消息进行音色转化,得到待发送的语音消息,从而响应于针对语音发送控件的释放操作,发送该待发送的语音消息。这里,基于该真实音色,对所录制的语音消息进行音色转化,得到待发送的语音消息的过程,可以是,首先对所录制的语音消息进行音色转化语音转文字,得到所录制的语音消息的文本内容,然后基于目标公众人物的真实音色,对该所录制的语音消息的文本内容进行语音转化,得到待发送的语音消息。
示例性地,参见图12,图12是本申请实施例提供的会话页面的消息发送区域的示意图,基于图12,在如1201所指示的会话页面的消息发送区域中,显示如1202所指示的语音发送控件、及如1203所指示的音色提示信息;其中,音色提示信息用于提示,将采用目标公众人物LLL的音色,发送语音消息;响应于基于如1202所指示的语音发送控件所触发的语音发送操作,发送语音消息;当接收到针对语音消息的触发操作时,采用目标公众人物LLL的音色,播放相应的语音内容。
在实际实施时,消息发送区域中还显示有音色切换控件,从而,通过音色切换控件设置目标公众人物,具体地,响应于针对音色切换控件的触发操作,显示至少一种音色选项,不同音色选项对应不同的公众人物的音色;响应于针对至少一种音色选项中、目标音色选项的选择操作,将语音发送控件所对应的目标公众人物的音色,切换为目标音色选项对应的公众人物的音色。这里,公众人物为在互联网上展示过音色的具有一定知名度的对象,例如可以是明星、也可以是科学家、还可以是动漫角色等。
需要说明的是,还可以显示音色搜索栏,从而响应于针对至少一种音色选项中、目标音色选项的选择操作,将语音发送控件所对应的目标公众人物的音色,切换为目标音色选项对应的公众人物的音色的过程,可以是,基于音色搜索栏,显示输入的目标音色对应的公众人物的目标名称,然后响应于针对目标名称的确定指令,显示搜索到的目标名称的公众人物对应的音色选项,从而响应于针对该音色选项的选择操作,将语音发送控件所对应的目标公众人物的音色,切换为该音色选项对应的公众人物的音色。
接上述示例,如图12所示,虚线框1204所指示的为音色切换控件,然后参见图13,图13是本申请实施例提供的至少一种音色选项的示意图,从而,响应于针对虚线框1204所指示的音色切换控件的触发操作,显示如图13中虚线框1301所指示的四种音色选项,从而响应于针对四种音色选项中、目标音色选项的选择操作,将语音发送控件所对应的目标公众人物的音色,切换为目标音色选项对应的公众人物的音色。
在实际实施时,音色选择区域还包括至少一个音色演示控件,至少一个音色演示控件包括目标音色演示控件,每个音色选项关联一个音色演示控件;从而,响应于针对目标音色演示控件的触发操作,采用目标音色演示控件关联的、音色选项所对应公众人物的音色,播放预设的语音。
需要说明的是,预设的语音的语音内容为预先设置的,针对不同公众人物,所播放的预设的语音的语音内容可以相同,也可以不同。
示例性地,如图13所示,虚线框1302中所指示的为至少一个音色演示控件,每个音色选项关联一个音色演示控件,从而响应于针对第一个音色演示控件的触发操作,采用目标音色演示控件关联的、音色选项所对应公众人物LLL的音色,播放预设的语音。
在一些实施例中,当目标文本所对应的语言与目标角色所说的语言不同时,还会对目标文本进行翻译,从而采用目标角色的音色,播放翻译后的文本,具体地,目标文本对应第一语言,目标角色对应不同于第一语言的第二语言,从而,响应于针对音频控件的触发操作,采用目标音色播放目标文本对应的语音的过程,可以是,响应于针对音频控件的触发操作,对目标文本进行语言转换,得到第二语言对应的文本;采用目标音色播放第二语言所对应文本的语音。
示例性地,当目标文本为汉语即“我爱你”,而目标角色为外国角色,如说英语的角色,则响应于针对音频控件的触发操作,对目标文本进行语言转换,得到第二语言对应的文本,也即将“我爱你”转换为“I love you”,再采用目标音色播放第二语言所对应文本的语音。
需要说明的是,当目标文本所对应的语言与目标角色所说的语言不同时,还可以不对目标文本进行翻译,而是直接采用目标音色播放第一语言所对应文本的语音,这都是可以根据实际需求预先设置的,对此,本申请实施例不做限定。
应用本申请上述实施例,通过显示目标对象发布的目标文本、以及目标文本关联的音频控件,然后响应于针对音频控件的触发操作,采用通过对目标角色的真实音色进行模拟所得到的目标音色,播放目标文本对应的语音;其中,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。如此,基于目标对象的对象标识中包括的角色、或者目标文本中包括的角色所对应的音色,播放目标文本对应的语音,从而可以采用丰富的音色来对文本进行语音输出,提高了对文本进行语音输出时输出效果的多样性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
相关技术中,用户在各种泛娱乐和社交app上生产海量的文本内容,如在评论区、聊天中等,但这些内容大多停留在视觉层面,缺少声音层面的演绎。
基于此,本申请提供了一种为文本内容提供AI配音的方法,可以自动识别文本,AI用匹配的声线演绎该文本,使其拥有自动配音,更为生动有趣。
接下来,从产品侧对本申请的技术方案进行说明。本申请的技术方案主要包括六种应用场景,即视频评论区(媒体信息的评论页面)表情包AI配音、视频评论区官方角色(官方对象)评论AI配音、视频评论区用户二次创作角色对话AI配音、聊天场景为语c内容提供AI配音、社交场景为语c内容提供AI配音、以及聊天场景用户选择声线变声发送语音。
对于视频评论区表情包AI配音,如图8所示,响应于用户针对视频(媒体信息)的评论操作,在视频评论区显示用户发送的携带角色(目标角色)和文字(目标文本)的表情包,然后对表情包中的角色和文字进行识别,响应于任意一个用户针对表情包中如音802所指示的音频控件的触发操作,AI模拟该角色的声线(音色)说出该段文字。
对于视频评论区官方角色评论AI配音,如图7所示,显示如图7中虚线框701中音频控件的触发操作,AI模拟该官方角色的声线说出官方发布的用该角色口吻写的评论,即“可以,那下回带你这人工智能去尝尝卤煮你吃过去意吗?”。
对于视频评论区用户二次创作角色对话AI配音,如图6所示,响应于针对角色选择控件的触发操作,在评论编辑界面的文本编辑区域,显示各角色选择控件所对应目标角色的角色标识;响应于基于角色标识在文本编辑区域所编辑的文本内容(评论内容),在针对媒体信息的评论页面中,显示以各角色的身份发表的针对媒体信息的文本,并在各角色发表的文本内容的关联位置,显示对应各文本内容的音频控件,从而,响应于针对任意一个音频控件的触发操作,AI模拟该音频控件对应的角色的声线播放该文本内容。
对于聊天场景为语c内容提供AI配音,如图9所示,自动从用户名(对象标识)和文本(会话消息中的文本内容)中识别语c角色,并获取该角色声线,然后响应于针对各文本关联的音频控件的触发操作,AI模拟相应文本关联的角色的声线播放文本内容。
对于社交场景为语c内容提供AI配音,如图11所示,自动识别用户名(对象标识)或tag中的角色或文本(目标文本)中识别语c角色,获取该角色声线,然后响应于针对文本关联的音频控件的触发操作,AI模拟语c角色的角色声线播放文本内容。
对于聊天场景用户选择声线变声发送语音,如图12和图13所示,用户可以搜索并选择不同的明星或角色的声线,从而响应于用户针对声线的选择操作,发送依据该声线AI变声后的语音。
需要说明的是,如果角色来自国外作品,则将文本翻译为该国语言后再配音。
接下来,从技术侧对本申请的技术方案进行说明。本申请的AI配音涉及到多种业务场景,其中的技术包括:人脸识别、文字识别、语音识别、原声重现、人声合成以及变声器。
对于人脸识别技术,为了给用户发送的表情包配上AI语音,需要先识别表情包中的人物。识别人物主要依靠人脸识别技术,具体地,首先采集人脸数据,在本方案中,人脸数据的来源主要是影视剧作品,外加商业拍摄等数据;其中,影视剧作品可以覆盖不同的人脸姿态、表情、光照等情况,并具有一定的多样性,可以避免过拟合和欠拟合等问题。商业拍摄的特点是高清、关键点信息明显,可以辅助训练人脸识别模型。然后,应用深度学习算法,对用户的表情包进行识别,表情包可能是动态图片或静态图片,分别采用动态和静态人脸特征提取方法,与人脸数据集中的人脸进行特征匹配。如果匹配成功,则返回对应的人物数据,用于后续阶段的人声合成。如果匹配不到相应的人脸,则该表情包无法进行AI配音,也即不会在表情包上展示播放按钮。
在实际实施时,对于静态人脸特征提取的过程,具体地,参见图14,图14是本申请实施例提供的静态人脸特征提取的过程的示意图,基于图14,在本申请中,采用特征分类器、特征分类器和深度学习算法,对采集到的图像进行人脸检测,即在图像中找到人脸的位置和大小,锁定一个矩形区域,然后采用关键点检测算法,通过检测人脸关键点(如眼睛、鼻子、嘴巴等)来对齐人脸图像,最后对对齐后的人脸图像进行特征提取。
在实际实施时,对于动态人脸特征提取的过程,具体地,在本申请中,用户发的表情包多为影视剧的片段,因此,本技术方案中采取自监督框架,使用模型将视频或动图中的多帧图像嵌入到低维空间中,通过这种方式,在不需要监督数据的情况下,可以学习到包含姿态,关键点和表情等属性的特征。
在实际实施时,对于特征匹配的过程,具体地,也即采用特征匹配算法,将提取到的人脸特征与人脸数据集中已有的人脸特征进行匹配,置信度超过一定阈值则认为匹配成功,如果匹配成功,则认为当前人脸属于已有的人脸之一,否则认为当前人脸是新的人脸,在本申请中,仅当算法识别到新的人脸时进行人工标注,由人工确认后将其入库到人脸数据集。
对于文字识别技术,通过文字识别模型,在激光管预处理、文本区域检测、字符分割、字符识别这些过程后,实现文字识别。针对该模型的训练过程,具体地,文字识别模型通常使用CTC(Connectionist Temporal Classification)损失或其他序列损失函数进行训练,其输出是一个字符序列,可以通过计算识别结果字符序列的概率来判断置信度。具体方法是将模型输出的字符概率相乘(或对数概率相加),得到整个字符序列的置信度。由于表情包场景的文字区分度一般较高,识别置信度也相应较高。但也不排除有部份表情包图片质量较低、文字不明显的情况。因此,本申请会计算所有识别结果置信度的正态分布,对于离平均值2个标准差以上的置信度,进行人工干预和标注,辅助进行脏数据去除和识别结果校正,从而提高文字识别模型的识别精度。
对于语音识别技术,为了使AI配音最贴合影视剧或动漫剧中的台词效果,本申请中需要对影视剧或动漫剧中的台词进行语音识别。具体地,大部份片源可以直接获取影片中的配音轨道得到演员的纯人声,而少部份缺少纯人声轨道的片源则需要进行去背景音和降噪处理得到干净的人声。例如,将人声输入语音识别模型后,得到一条条“角色-台词-人声”数据记录。如此,重复上述过程,由语音识别模型识别整部影视剧或动漫剧的台词文本及对应角色,并由人工标注实际的角色名称。
对于原声重现技术,针对表情包经过文字识别后得到的文本、评论区中的文本、以及聊天场景和社交场景中的语c文本,部份文本可以和原台词完整匹配或高度匹配。对于能够完整匹配或高度匹配的文本,会直接读取影视剧或动漫剧中经过语音识别后入库的台词语音,然后将原声片段直接传输给客户端播放。达到原声重现的效果。
需要说明的是,对于表情包,其台词长度一般较短,因此采用相似度和编辑距离来计算文本和原台词的匹配度会更好,当匹配度大于一定阈值时可以使用原声重现。而对于评论区文本,其长度可能较长,使用余弦相似度和语义文本相似度来计算文本和原台词的匹配度会更好,当匹配度大于一定阈值时可以使用原声重现。
对于人声合成技术,对于无法完整匹配的台词,将使用TTS技术进行拟合角色声线的配音,首先进行数据采集,具体地,为了尽量贴合影视剧或动漫剧中的角色声线,本申请的人声模型主要靠影视剧或动漫剧里的台词来训练。然后,进行声学建模,具体地,从语音片段中提取声学特征,如梅尔频率倒谱系数、线性预测编码或感知线性预测等。这些特征能够捕捉到语音信号的关键信息,如音素、发音方式等。接着,进行韵律建模,具体地,从语音信号中提取韵律特征,如基频、能量等。这些特征可以用于描述音高、音长和音强等信息。韵律信息在生成自然流畅的语音中起着关键作用,尤其对于影视剧或动漫剧中的台词,其韵律和日常说话会有一些不同。使用循环神经网络可以自动学习台词文本和韵律之间的复杂关系,生成更自然、富有表现力的语音。最后,进行人声合成,具体地,将要发音的文本输入到建模好的人声模型中,使用该人声来读出文本。
对于变声器技术,为了将用户的声音变为目标说话人的声音,首先进行语音样本采集,具体地,聊天场景可选择的声线不仅限于影视剧角色,除了影视剧或动漫剧里的台词作为训练材料外,还需专门采集目标说话人的语音样本,这些样本应涵盖各种语音元素,如音素、韵律、情感等。采集方式为目标说话人在录音棚里朗读一系列特定的文本,以确保语音质量和样本覆盖度。然后,建立声学模型,这里,声学模型负责将文本特征映射到声学特征。使用深度学习技术建立一个声学模型,并用上一步中采集的样本训练该模型。接着,进行资源准备,具体地,用户使用变声器功能需下载语音识别模型、语音编码器到智能终端,根据用户选择的不同声线,还需下载不同说话人的声学模型到智能终端。然后,进行语音识别,将用户终端麦克风采集的人声,输入到语音识别模型中,结合特征提取,输出符合实际语言习惯的文本结果。最后,进行人声合成,也即利用下载好的声学模型,将上一步识别到的用户文本转换为声学特征。最后,通过语音编码器将声学特征还原为语音信号,实现变声器效果。
如此,本申请通过对影视剧、语c场景的定制化技术方案,结合人脸识别、语音识别、文字识别、人声合成等多种人工智能技术,为用户在表情包、评论区、语c聊天等多种使用场景下提供了AI配音的方案,丰富了这些场景的可玩性,降低了AI配音的使用门槛,提高了不同场景下的适用性。
应用本申请上述实施例,通过显示目标对象发布的目标文本、以及目标文本关联的音频控件,然后响应于针对音频控件的触发操作,采用通过对目标角色的真实音色进行模拟所得到的目标音色,播放目标文本对应的语音;其中,目标角色为以下角色中至少之一:目标对象的对象标识中包括的角色、以及与目标文本存在关联的角色。如此,基于目标对象的对象标识中包括的角色、或者目标文本中包括的角色所对应的音色,播放目标文本对应的语音,从而可以采用丰富的音色来对文本进行语音输出,提高了对文本进行语音输出时输出效果的多样性。
下面继续说明本申请实施例提供的文本处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的文本处理装置455中的软件模块可以包括:
显示模块4551,用于显示目标对象发布的目标文本、以及所述目标文本关联的音频控件;
播放模块4552,用于响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音;其中,所述目标音色通过对目标角色的真实音色进行模拟所得到,所述目标角色为以下角色中至少之一:所述目标对象的对象标识中包括的角色、以及与所述目标文本存在关联的角色。
在一些实施例中,所述显示模块4551,还用于在针对媒体信息的评论页面中,显示针对媒体信息的目标评论,所述目标评论包括所述目标对象发布的所述目标文本;在所述目标评论的关联位置,显示所述音频控件。
在一些实施例中,所述目标评论的评论类型为目标评论类型,所述装置还包括第二显示模块,所述第二显示模块,用于在所述评论页面中,显示多个评论类型控件,每个所述评论类型控件,用于指示一种评论类型;其中,所述多个评论类型控件中目标评论类型控件对应所述目标评论类型,所述目标评论类型控件的显示样式区别于其它评论类型控件的显示样式。
在一些实施例中,所述目标角色为所述媒体信息中的角色,所述目标对象为所述目标角色所对应的对象,所述目标对象的对象标识中包括所述目标角色;所述播放模块4552,还用于响应于针对所述音频控件的触发操作,确定所述媒体信息中所述目标角色的角色音色;采用与所述角色音色相一致的目标音色,播放所述目标文本对应的语音。
在一些实施例中,所述目标角色为所述媒体信息中的角色,所述显示模块4551,还用于在评论编辑界面中显示至少一个角色选择控件,所述至少一个角色选择控件包括目标角色选择控件,每个所述角色选择控件对应一个角色;响应于针对目标角色选择控件的触发操作,在所述评论编辑界面的文本编辑区域,显示所述目标角色选择控件所对应目标角色的角色标识;响应于基于所述角色标识在所述文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以所述目标角色的身份发表的针对媒体信息的目标评论。
在一些实施例中,所述媒体信息中还包括除所述目标角色以外的至少一个其它角色,所述装置还包括第三显示模块,所述第三显示模块,用于在针对媒体信息的评论页面中,分别显示以各所述其它角色的身份发表的、针对媒体信息的其它评论,并在各所述其它评论的关联位置显示相对应的其它音频控件;其中,各所述其它评论与所述目标评论构成会话,所述其它音频控件,用于模拟相对应的其它角色的真实音色,播放相应的其它评论的语音。
在一些实施例中,所述目标角色与所述目标文本存在关联,所述显示模块4551,还用于显示所述目标对象发布的表情包,所述表情包中包括所述目标文本及所述目标角色;在所述表情包的关联位置,显示与所述目标文本关联的音频控件;所述播放模块4552,还用于采用模拟所述表情包中目标角色的真实音色所得到的目标音色,播放所述表情包中目标文本对应的语音。
在一些实施例中,所述播放模块4552,还用于对所述表情包进行图像识别,得到所述表情包中包括的目标角色以及目标文本;获取所述表情包中目标角色的真实音色,并对所述目标文本进行语音转化,得到所述目标文本对应的目标语音;采用模拟所述真实音色所得到的目标音色,播放所述目标语音。
在一些实施例中,所述目标角色为,所述目标对象的对象标识中包括的角色,所述目标对象的数量为至少一个,不同目标对象的对象标识中所包括的目标角色不同;所述显示模块4551,还用于在会话页面中,显示至少一个所述目标对象发送的会话消息,所述会话消息携带相应的所述对象标识,所述会话消息中包括所述目标文本;分别在各所述目标对象所发送的会话消息的关联位置,显示与相应所述会话消息关联的音频控件,所述音频控件,用于模拟相应目标角色的真实音色,播放相应会话消息中文本内容对应的语音。
在一些实施例中,当所述会话页面中所显示的音频控件的数量为至少两个时,所述装置还包括第四显示模块,所述第四显示模块,用于在所述会话页面中,显示针对所述至少两个音频控件的综合音频控件;响应于所述综合音频控件的触发操作,依据各所述会话消息发送时间的先后顺序,采用各所述音频控件对应的音色,连续播放各所述音频控件对应的语音。
在一些实施例中,所述目标角色为,所述目标对象的对象标识中包括的角色;所述显示模块4551,还用于在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息,所述目标媒体信息携带所述目标对象的对象标识,所述目标媒体信息中包括所述目标文本;在所述目标文本的关联位置,显示所述音频控件,所述音频控件,用于模拟所述对象标识中所包括角色的音色,播放所述目标文本对应的语音。
在一些实施例中,所述目标媒体信息中还包括图像,所述显示模块4551,还用于在包括至少一条媒体信息的信息流页面中,显示目标对象发布的所述图像及所述图像关联的所述目标文本;其中,所述图像中包括所述目标角色。
在一些实施例中,所述显示模块4551,还用于在会话页面的消息展示区域中,显示目标对象发布的会话消息,所述会话消息包括目标文本,并显示所述目标文本关联的音频控件;所述装置还包括第五显示模块,所述第五显示模块,用于在所述会话页面的消息发送区域中,显示语音发送控件及音色提示信息;其中,所述音色提示信息用于提示,将采用目标公众人物的音色,发送语音消息;响应于基于所述语音发送控件所触发的语音发送操作,发送语音消息;当接收到针对所述语音消息的触发操作时,采用所述目标公众人物的音色,播放相应的语音内容。
在一些实施例中,所述消息发送区域中还显示有音色切换控件,所述装置还包括第六显示模块,所述第六显示模块,用于响应于针对所述音色切换控件的触发操作,显示至少一种音色选项,不同音色选项对应不同的公众人物的音色;响应于针对所述至少一种音色选项中、目标音色选项的选择操作,将所述语音发送控件所对应的目标公众人物的音色,切换为所述目标音色选项对应的公众人物的音色。
在一些实施例中,所述音色选择区域还包括至少一个音色演示控件,所述至少一个音色演示控件包括目标音色演示控件,每个所述音色选项关联一个所述音色演示控件;所述装置还包括第七显示模块,所述第七显示模块,用于响应于针对所述目标音色演示控件的触发操作,采用所述目标音色演示控件关联的、所述音色选项所对应公众人物的音色,播放预设的语音。
在一些实施例中,所述播放模块4552,还用于响应于针对所述音频控件的触发操作,对所述目标文本进行分析,得到分析结果,并对所述对象标识进行识别,得到识别结果;当基于所述分析结果以及所述识别结果,确定所述目标文本以及对象标识中至少之一关联有目标角色时,采用所述目标角色的音色播放所述目标语音。
在一些实施例中,所述目标文本对应第一语言,所述目标角色对应不同于所述第一语言的第二语言,所述播放模块4552,还用于响应于针对所述音频控件的触发操作,对所述目标文本进行语言转换,得到所述第二语言对应的文本;采用目标音色播放所述第二语言所对应文本的语音。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本处理方法,例如,如图3示出的文本处理方法。
在一些实施例中,计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随即存储器(Random Access Memory,RAM)、可擦写可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例具有以下有益效果:
(1)基于目标对象的对象标识中包括的角色、或者目标文本中包括的角色所对应的音色,播放目标文本对应的语音,从而可以采用丰富的音色来对文本进行语音输出,提高了对文本进行语音输出时输出效果的多样性。
(2)申请通过对影视剧、语c场景的定制化技术方案,结合人脸识别、语音识别、文字识别、人声合成等多种人工智能技术,为用户在表情包、评论区、语c聊天等多种使用场景下提供了AI配音的方案,丰富了这些场景的可玩性,降低了AI配音的使用门槛,提高了不同场景下的适用性。
需要说明的是,在本申请实施例中,涉及到获取会话消息、用户的操作数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (21)

1.一种文本处理方法,其特征在于,所述方法包括:
显示目标对象发布的目标文本、以及所述目标文本关联的音频控件;
响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音;
其中,所述目标音色通过对目标角色的真实音色进行模拟所得到,所述目标角色为以下角色中至少之一:所述目标对象的对象标识中包括的角色、以及与所述目标文本存在关联的角色。
2.如权利要求1所述的方法,其特征在于,所述显示目标对象发布的目标文本、以及所述目标文本关联的音频控件,包括:
在针对媒体信息的评论页面中,显示针对媒体信息的目标评论,所述目标评论包括所述目标对象发布的所述目标文本;
在所述目标评论的关联位置,显示所述音频控件。
3.如权利要求2所述的方法,其特征在于,所述目标评论的评论类型为目标评论类型,所述方法还包括:
在所述评论页面中,显示多个评论类型控件,每个所述评论类型控件,用于指示一种评论类型;
其中,所述多个评论类型控件中目标评论类型控件对应所述目标评论类型,所述目标评论类型控件的显示样式区别于其它评论类型控件的显示样式。
4.如权利要求2所述的方法,其特征在于,所述目标角色为所述媒体信息中的角色,所述目标对象为所述目标角色所对应的对象,所述目标对象的对象标识中包括所述目标角色;
所述响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音,包括:
响应于针对所述音频控件的触发操作,确定所述媒体信息中所述目标角色的角色音色;
采用与所述角色音色相一致的目标音色,播放所述目标文本对应的语音。
5.如权利要求2所述的方法,其特征在于,所述目标角色为所述媒体信息中的角色,所述在针对媒体信息的评论页面中,显示针对媒体信息的目标评论,包括:
在评论编辑界面中显示至少一个角色选择控件,所述至少一个角色选择控件包括目标角色选择控件,每个所述角色选择控件对应一个角色;
响应于针对目标角色选择控件的触发操作,在所述评论编辑界面的文本编辑区域,显示所述目标角色选择控件所对应目标角色的角色标识;
响应于基于所述角色标识在所述文本编辑区域所编辑的评论内容,在针对媒体信息的评论页面中,显示以所述目标角色的身份发表的针对媒体信息的目标评论。
6.如权利要求5所述的方法,其特征在于,所述媒体信息中还包括除所述目标角色以外的至少一个其它角色,所述方法还包括:
在针对媒体信息的评论页面中,分别显示以各所述其它角色的身份发表的、针对媒体信息的其它评论,并在各所述其它评论的关联位置显示相对应的其它音频控件;
其中,各所述其它评论与所述目标评论构成会话,所述其它音频控件,用于模拟相对应的其它角色的真实音色,播放相应的其它评论的语音。
7.如权利要求1所述的方法,其特征在于,所述目标角色与所述目标文本存在关联,所述显示目标对象发布的目标文本、以及所述目标文本关联的音频控件,包括:
显示所述目标对象发布的表情包,所述表情包中包括所述目标文本及所述目标角色;
在所述表情包的关联位置,显示与所述目标文本关联的音频控件;
所述采用目标音色播放所述目标文本对应的语音,包括:
采用模拟所述表情包中目标角色的真实音色所得到的目标音色,播放所述表情包中目标文本对应的语音。
8.如权利要求7所述的方法,其特征在于,所述采用模拟所述表情包中目标角色的真实音色所得到的目标音色,播放所述表情包中目标文本对应的语音,包括:
对所述表情包进行图像识别,得到所述表情包中包括的目标角色以及目标文本;
获取所述表情包中目标角色的真实音色,并对所述目标文本进行语音转化,得到所述目标文本对应的目标语音;
采用模拟所述真实音色所得到的目标音色,播放所述目标语音。
9.如权利要求1所述的方法,其特征在于,所述目标角色为,所述目标对象的对象标识中包括的角色,所述目标对象的数量为至少一个,不同目标对象的对象标识中所包括的目标角色不同;
所述显示目标对象发布的目标文本、以及所述目标文本关联的音频控件,包括:
在会话页面中,显示至少一个所述目标对象发送的会话消息,所述会话消息携带相应的所述对象标识,所述会话消息中包括所述目标文本;
分别在各所述目标对象所发送的会话消息的关联位置,显示与相应所述会话消息关联的音频控件,所述音频控件,用于模拟相应目标角色的真实音色,播放相应会话消息中文本内容对应的语音。
10.如权利要求9所述的方法,其特征在于,当所述会话页面中所显示的音频控件的数量为至少两个时,所述方法还包括:
在所述会话页面中,显示针对所述至少两个音频控件的综合音频控件;
响应于所述综合音频控件的触发操作,依据各所述会话消息发送时间的先后顺序,采用各所述音频控件对应的音色,连续播放各所述音频控件对应的语音。
11.如权利要求1所述的方法,其特征在于,所述目标角色为,所述目标对象的对象标识中包括的角色;
所述显示目标对象发布的目标文本、以及所述目标文本关联的音频控件,包括:
在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息,所述目标媒体信息携带所述目标对象的对象标识,所述目标媒体信息中包括所述目标文本;
在所述目标文本的关联位置,显示所述音频控件,所述音频控件,用于模拟所述对象标识中所包括角色的音色,播放所述目标文本对应的语音。
12.如权利要求11所述的方法,其特征在于,所述目标媒体信息中还包括图像,所述在包括至少一条媒体信息的信息流页面中,显示目标对象发布的目标媒体信息,包括:
在包括至少一条媒体信息的信息流页面中,显示目标对象发布的所述图像及所述图像关联的所述目标文本;
其中,所述图像中包括所述目标角色。
13.如权利要求1所述的方法,其特征在于,所述显示目标对象发布的目标文本、以及所述目标文本关联的音频控件,包括:
在会话页面的消息展示区域中,显示目标对象发布的会话消息,所述会话消息包括目标文本,并显示所述目标文本关联的音频控件;
所述方法还包括:
在所述会话页面的消息发送区域中,显示语音发送控件及音色提示信息;
其中,所述音色提示信息用于提示,将采用目标公众人物的音色,发送语音消息;
响应于基于所述语音发送控件所触发的语音发送操作,发送语音消息;
当接收到针对所述语音消息的触发操作时,采用所述目标公众人物的音色,播放相应的语音内容。
14.如权利要求13所述的方法,其特征在于,所述消息发送区域中还显示有音色切换控件,所述方法还包括:
响应于针对所述音色切换控件的触发操作,显示至少一种音色选项,不同音色选项对应不同的公众人物的音色;
响应于针对所述至少一种音色选项中、目标音色选项的选择操作,将所述语音发送控件所对应的目标公众人物的音色,切换为所述目标音色选项对应的公众人物的音色。
15.如权利要求14所述的方法,其特征在于,所述音色选择区域还包括至少一个音色演示控件,所述至少一个音色演示控件包括目标音色演示控件,每个所述音色选项关联一个所述音色演示控件;所述方法还包括:
响应于针对所述目标音色演示控件的触发操作,采用所述目标音色演示控件关联的、所述音色选项所对应公众人物的音色,播放预设的语音。
16.如权利要求1所述的方法,其特征在于,所述响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音,包括:
响应于针对所述音频控件的触发操作,对所述目标文本进行分析,得到分析结果,并对所述对象标识进行识别,得到识别结果;
当基于所述分析结果以及所述识别结果,确定所述目标文本以及对象标识中至少之一关联有目标角色时,采用所述目标角色的音色播放所述目标语音。
17.如权利要求1所述的方法,其特征在于,所述目标文本对应第一语言,所述目标角色对应不同于所述第一语言的第二语言,所述响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音,包括:
响应于针对所述音频控件的触发操作,对所述目标文本进行语言转换,得到所述第二语言对应的文本;
采用目标音色播放所述第二语言所对应文本的语音。
18.一种文本处理装置,其特征在于,所述装置包括:
显示模块,用于显示目标对象发布的目标文本、以及所述目标文本关联的音频控件;
播放模块,用于响应于针对所述音频控件的触发操作,采用目标音色播放所述目标文本对应的语音;其中,所述目标音色通过对目标角色的真实音色进行模拟所得到,所述目标角色为以下角色中至少之一:所述目标对象的对象标识中包括的角色、以及与所述目标文本存在关联的角色。
19.一种电子设备,其特征在于,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至17任一项所述的文本处理方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,用于引起处理器执行时,实现权利要求1至17任一项所述的文本处理方法。
21.一种计算机程序产品,包括计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至17任一项所述的文本处理方法。
CN202311160358.6A 2023-09-07 2023-09-07 文本处理方法、装置、电子设备、存储介质以及程序产品 Pending CN117828010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311160358.6A CN117828010A (zh) 2023-09-07 2023-09-07 文本处理方法、装置、电子设备、存储介质以及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311160358.6A CN117828010A (zh) 2023-09-07 2023-09-07 文本处理方法、装置、电子设备、存储介质以及程序产品

Publications (1)

Publication Number Publication Date
CN117828010A true CN117828010A (zh) 2024-04-05

Family

ID=90517891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311160358.6A Pending CN117828010A (zh) 2023-09-07 2023-09-07 文本处理方法、装置、电子设备、存储介质以及程序产品

Country Status (1)

Country Link
CN (1) CN117828010A (zh)

Similar Documents

Publication Publication Date Title
WO2021114881A1 (zh) 智能解说生成、播放方法、装置、设备及计算机存储介质
CN110941954B (zh) 文本播报方法、装置、电子设备及存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
JP2020034895A (ja) 応答方法及び装置
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
KR20100129122A (ko) 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
WO2022242706A1 (zh) 基于多模态的反应式响应生成
Wang et al. Comic-guided speech synthesis
US20220301250A1 (en) Avatar-based interaction service method and apparatus
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
US20230027035A1 (en) Automated narrative production system and script production method with real-time interactive characters
CN114529635B (zh) 一种图像生成方法、装置、存储介质及设备
CN113407766A (zh) 视觉动画显示方法及相关设备
CN117809680A (zh) 一种服务器、显示设备及数字人交互方法
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN109241331B (zh) 一种面向智能机器人的故事数据处理方法
CN113301352A (zh) 在视频播放期间进行自动聊天
US20240112390A1 (en) Video-Generation System WITH STRUCTURED DATA-BASED VIDEO GENERATION FEATURE
CN115442495A (zh) 一种ai演播室系统
KR20100102515A (ko) 디지털 액터의 감성을 자동으로 표현하는 방법 및 시스템
CN117828010A (zh) 文本处理方法、装置、电子设备、存储介质以及程序产品
CN112752142B (zh) 配音数据处理方法、装置及电子设备
CN117809677A (zh) 一种服务器、显示设备及数字人交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication