CN114818605A - 字体生成和文本展示方法、装置、介质和计算设备 - Google Patents

字体生成和文本展示方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN114818605A
CN114818605A CN202210469534.3A CN202210469534A CN114818605A CN 114818605 A CN114818605 A CN 114818605A CN 202210469534 A CN202210469534 A CN 202210469534A CN 114818605 A CN114818605 A CN 114818605A
Authority
CN
China
Prior art keywords
style
font
resource
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210469534.3A
Other languages
English (en)
Inventor
李宜烜
赵剑
张亦婷
刘华平
曹偲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202210469534.3A priority Critical patent/CN114818605A/zh
Publication of CN114818605A publication Critical patent/CN114818605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开的实施方式提供了一种字体生成和文本展示方法、装置、介质和计算设备。所述字体生成方法包括:获取多媒体资源的文本内容和风格信息,所述风格信息用于表征多媒体资源的资源风格;根据所述风格信息生成匹配于资源风格的风格字体,所述文本内容用于按照该风格字体进行展示。所述文本展示方法包括:获取多媒体资源的文本内容和风格字体,所述风格字体被根据多媒体资源的风格信息所生成,且匹配于风格信息表征的所述多媒体资源的资源风格;按照该风格字体展示所述文本内容。该方法可以使文本内容的展示效果与多媒体资源的资源风格具有较高的契合度,向用户呈现出与资源风格高度契合的文本内容展示效果,有助于提升用户的观看体验。

Description

字体生成和文本展示方法、装置、介质和计算设备
技术领域
本公开的实施方式涉及显示技术领域,更具体地,本公开的实施方式涉及一种字体生成和文本展示方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
多媒体资源通常包含需要展示的文本内容,如音乐的歌词、视频的字幕等。在播放上述多媒体资源的过程中,往往按照固定形式展示上述文本内容。
相关技术采用调整背景或动态特效的方式进行展示。以歌词展示过程为例,针对歌词预先设置背景或者动态特效,并在播放歌曲的过程中调整上述背景,或者按照上述动态特效以动态方式展示歌词,从而向用户呈现出动态化的歌词展示效果。
发明内容
相关技术的上述方案虽然能够在一定程度上呈现出灵活的文本展示效果,但其实现的只是简单的背景或特效调整,而不同文本内容均是按照同一预设字体进行展示,因此最终的展示效果与资源风格的契合度较低,难以通过上述展示效果呈现多媒体资源自身的风格,观看体验有待提升。
为此,需要一种改进的文本展示方案,提升文本内容展示效果与资源风格的契合度,以使文本内容的展示效果更契合多媒体资源自身的风格。
在本上下文中,本公开的实施方式期望提供一种字体生成和文本展示方法、装置、介质和计算设备。
在本公开实施方式的第一方面中,提供了一种字体生成方法,所述方法包括:
获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格;
根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
可选的,所述获取多媒体资源的风格信息,包括:
将多媒体资源输入风格识别模型,以得到所述风格识别模型输出的所述多媒体资源的风格信息。
可选的,通过下述方式训练所述风格识别模型:
获取样本资源,任一所述样本资源添加有相应的风格标记;
将所述样本资源及其对应的风格标记作为训练样本,对所述风格识别模型进行训练。
可选的,所述根据所述风格信息生成匹配于所述资源风格的风格字体,包括:
确定所述风格信息对应的标准风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述根据所述风格信息生成匹配于所述资源风格的风格字体,包括:
确定所述风格信息对应的标准风格字体;
获取符合用户的手写风格的用户风格字体;
根据所述标准风格字体和所述用户风格字体生成融合风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述获取符合用户的手写风格的用户风格字体,包括:
将预先获取的自然手写字体作为符合所述用户的手写风格的用户风格字体,所述自然手写字体根据所述用户手动书写的字体素材确定;或者,
将预先生成的合成手写字体作为符合所述用户的手写风格的用户风格字体,所述合成手写字体根据所述自然手写字体和非手写风格的基础标准风格字体所生成。
可选的,所述将预先生成的合成手写字体作为符合所述用户的手写风格的用户风格字体,包括:
在预先生成的合成手写字体库中选取对应于所述文本内容的合成手写字体,以作为符合所述用户的手写风格的用户风格字体,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成。
可选的,通过下述方式生成所述合成手写字体:
将所述自然手写字体和所述基础标准风格字体输入手写字体生成模型,以得到所述手写字体生成模型输出的所述合成手写字体。
可选的,通过下述方式训练所述手写字体生成模型:
从多个手写标准风格字体库中分别选取至少一个样本风格字,并选取至少一个样本内容字;
确定所述样本内容字在各个手写标准风格字体库中分别对应的样本标签字,任一样本内容字与其对应的各个样本标签字具有相同的字体结构;
根据所述样本风格字、样本内容字和样本标签字生成训练样本,任一训练样本包括任一样本内容字及其对应的任一样本风格字;其中,所述任一训练样本的样本标签为所述任一样本内容字在所述任一样本风格字所属的手写标准风格字体库中对应的样本标签字;
利用所述训练样本对所述手写字体生成模型进行训练。
可选的,所述手写字体生成模型包括风格特征提取网络、内容特征提取网络、风格迁移网络和字体内容匹配网络,利用所述任一训练样本对所述手写字体生成模型进行训练,包括:
由所述风格特征提取网络提取所述任一样本风格字的样本风格特征并输入所述风格迁移网络,以及,由所述内容特征提取网络提取所述任一样本内容字的样本内容特征并输入所述风格迁移网络;
由所述字体内容匹配网络确定所述风格迁移网络输出的样本预测字体与所述任一训练样本中的样本标签字之间的结构偏移量,并将表征所述结构偏移量的特征图输入所述风格迁移网络。
可选的,所述风格特征提取网络将所述样本风格特征输入所述风格迁移网络,包括:
所述风格特征提取网络将所述样本风格特征的特征图分别输入所述风格迁移网络中的多个结构层级。
可选的,所述根据所述标准风格字体和所述用户风格字体生成融合风格字体,包括:
分别提取所述标准风格字体中的标准风格特征点和所述用户风格字体中的用户风格特征点;
识别用户风格特征点中分别匹配于各个标准风格特征点的目标用户风格特征点;
将所述各个标准风格特征点分别朝向相应的目标用户风格特征点移动,并将移动后的各个标准风格特征点所构成的字体作为融合风格字体。
可选的,所述确定所述风格信息对应的标准风格字体,包括:
根据风格信息与候选标准风格字体之间的映射关系,查询所述风格信息对应的标准风格字体。
可选的,所述候选标准风格字体被从预设的标准风格字体库中获取,所述标准风格字体包括:
至少一种手写风格的手写标准风格字体;和/或,
至少一种非手写风格的基础标准风格字体。
可选的,还包括:
响应于客户端发起的字体获取请求,将所述风格字体返回至所述客户端,以由所述客户端按照所述风格字体展示所述文本内容。
可选的,
在所述多媒体资源包括音频的情况下,所述音频的风格信息包括下述至少之一:曲风、乐器信息、段落信息、节奏信息、强弱信息、所述文本内容的情感信息;
在所述多媒体资源包括视频的情况下,所述视频的风格信息包括:画面内容的情感信息和/或所述文本内容的情感信息。
在本公开实施方式的第二方面中,提供了一种文本展示方法,所述方法包括:
获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格;
按照所述风格字体展示所述文本内容。
可选的,
还包括:在所述多媒体资源的播放界面中展示字体风格控件;
所述获取多媒体资源的风格字体,包括:响应于所述字体风格控件被触发,获取多媒体资源的风格字体。
可选的,所述获取多媒体资源的风格字体,包括:
接收服务端发送的多媒体资源的风格字体,所述风格字体由所述服务端根据所述风格信息生成;或者,
获取所述多媒体资源的风格信息,并根据所述风格信息生成所述风格字体。
可选的,所述风格字体包括对应于所述风格信息的标准风格字体,所述标准风格字体被根据所述风格信息与候选标准风格字体之间的映射关系查询得到。
可选的,所述风格字体包括融合风格字体,所述获取多媒体资源的风格字体,包括:
从用户手动书写的字体素材中确定自然手写字体,并将所述自然手写字体提交至服务端;
接收所述服务端返回的融合风格字体,所述融合风格字体由所述服务端根据所述自然手写字体和所述风格信息对应的标准风格字体生成。
可选的,所述从用户手动书写的字体素材中确定自然手写字体,包括:
接收或拍摄记录有用户手动书写的用户风格字体的图像,并从所述图像中识别所述用户风格字体;和/或,
利用终端设备的屏幕或电子画板采集用户手动书写的用户风格字体。
可选的,还包括:
获取所述服务端返回的合成手写字体库,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成;
按照所述合成手写字体库中的各个合成手写字体展示其他多媒体资源的文本内容。
可选的,
所述获取多媒体资源的风格字体,包括:获取匹配于所述资源风格的多种风格字体;
所述按照所述风格字体展示所述文本内容,包括:按照预设规则在所述多种风格字体中确定目标风格字体,或者,响应于针对所述多种风格字体的选取操作,将被选取的第一风格字体确定为目标风格字体;按照所述目标风格字体展示所述文本内容。
可选的,还包括:
响应于针对所述目标风格字体的切换操作,确定切换后的第二风格字体;
按照所述第二风格字体展示所述文本内容。
可选的,所述按照所述风格字体展示所述文本内容,包括:
根据所述多媒体资源的播放进度,按照所述风格字体展示当前播放进度对应的所述文本内容。
可选的,所述按照所述风格字体展示所述文本内容,包括:
确定所述文本内容中各个内容片段分别对应的风格字体;
按照各个风格字体分别展示相应的内容片段。
可选的,所述按照所述风格字体展示所述文本内容,包括:
在所述多媒体资源为歌曲的情况下,在所述歌曲的歌词展示区域中展示所述歌曲的歌词;
在所述多媒体资源为视频的情况下,在所述视频的视频界面中展示所述视频的字幕、弹幕和/或特效文本。
在本公开实施方式的第三方面中,提供了一种字体生成装置,所述方法包括:
获取模块,用于获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格;
生成模块,用于根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
可选的,所述获取模块还用于:
将多媒体资源输入风格识别模型,以得到所述风格识别模型输出的所述多媒体资源的风格信息。
可选的,还包括第一训练模块,用于:
获取样本资源,任一所述样本资源添加有相应的风格标记;
将所述样本资源及其对应的风格标记作为训练样本,对所述风格识别模型进行训练。
可选的,所述生成模块还用于:
确定所述风格信息对应的标准风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述生成模块还用于:
确定所述风格信息对应的标准风格字体;
获取符合用户的手写风格的用户风格字体;
根据所述标准风格字体和所述用户风格字体生成融合风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述生成模块还用于:
将预先获取的自然手写字体作为符合所述用户的手写风格的用户风格字体,所述自然手写字体根据所述用户手动书写的字体素材确定;或者,
将预先生成的合成手写字体作为符合所述用户的手写风格的用户风格字体,所述合成手写字体根据所述自然手写字体和非手写风格的基础标准风格字体所生成。
可选的,所述生成模块还用于:
在预先生成的合成手写字体库中选取对应于所述文本内容的合成手写字体,以作为符合所述用户的手写风格的用户风格字体,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成。
可选的,还包括合成字体生成模块,用于:
将所述自然手写字体和所述基础标准风格字体输入手写字体生成模型,以得到所述手写字体生成模型输出的所述合成手写字体。
可选的,还包括第二训练模块,用于:
从多个手写标准风格字体库中分别选取至少一个样本风格字,并选取至少一个样本内容字;
确定所述样本内容字在各个手写标准风格字体库中分别对应的样本标签字,任一样本内容字与其对应的各个样本标签字具有相同的字体结构;
根据所述样本风格字、样本内容字和样本标签字生成训练样本,任一训练样本包括任一样本内容字及其对应的任一样本风格字;其中,所述任一训练样本的样本标签为所述任一样本内容字在所述任一样本风格字所属的手写标准风格字体库中对应的样本标签字;
利用所述训练样本对所述手写字体生成模型进行训练。
可选的,所述手写字体生成模型包括风格特征提取网络、内容特征提取网络、风格迁移网络和字体内容匹配网络,所述第二训练模块还用于:
由所述风格特征提取网络提取所述任一样本风格字的样本风格特征并输入所述风格迁移网络,以及,由所述内容特征提取网络提取所述任一样本内容字的样本内容特征并输入所述风格迁移网络;
由所述字体内容匹配网络确定所述风格迁移网络输出的样本预测字体与所述任一训练样本中的样本标签字之间的结构偏移量,并将表征所述结构偏移量的特征图输入所述风格迁移网络。
可选的,所述第二训练模块还用于:
所述风格特征提取网络将所述样本风格特征的特征图分别输入所述风格迁移网络中的多个结构层级。
可选的,所述生成模块还用于:
分别提取所述标准风格字体中的标准风格特征点和所述用户风格字体中的用户风格特征点;
识别用户风格特征点中分别匹配于各个标准风格特征点的目标用户风格特征点;
将所述各个标准风格特征点分别朝向相应的目标用户风格特征点移动,并将移动后的各个标准风格特征点所构成的字体作为融合风格字体。
可选的,所述生成模块还用于:
根据风格信息与候选标准风格字体之间的映射关系,查询所述风格信息对应的标准风格字体。
可选的,所述候选标准风格字体被从预设的标准风格字体库中获取,所述标准风格字体包括:
至少一种手写风格的手写标准风格字体;和/或,
至少一种非手写风格的基础标准风格字体。
可选的,还包括:
字体返回模块,包括响应于客户端发起的字体获取请求,将所述风格字体返回至所述客户端,以由所述客户端按照所述风格字体展示所述文本内容。
可选的,
在所述多媒体资源包括音频的情况下,所述音频的风格信息包括下述至少之一:曲风、乐器信息、段落信息、节奏信息、强弱信息、所述文本内容的情感信息;
在所述多媒体资源包括视频的情况下,所述视频的风格信息包括:画面内容的情感信息和/或所述文本内容的情感信息。
在本公开实施方式的第四方面中,提供了一种文本展示装置,所述方法包括:
获取模块,用于获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格;
展示模块,用于按照所述风格字体展示所述文本内容。
可选的,
还包括控件展示模块,用于在所述多媒体资源的播放界面中展示字体风格控件;
所述获取模块还用于:响应于所述字体风格控件被触发,获取多媒体资源的风格字体。
可选的,所述获取模块还用于:
接收服务端发送的多媒体资源的风格字体,所述风格字体由所述服务端根据所述风格信息生成;或者,
获取所述多媒体资源的风格信息,并根据所述风格信息生成所述风格字体。
可选的,所述风格字体包括对应于所述风格信息的标准风格字体,所述标准风格字体被根据所述风格信息与候选标准风格字体之间的映射关系查询得到。
可选的,所述风格字体包括融合风格字体,所述获取模块还用于:
从用户手动书写的字体素材中确定自然手写字体,并将所述自然手写字体提交至服务端;
接收所述服务端返回的融合风格字体,所述融合风格字体由所述服务端根据所述自然手写字体和所述风格信息对应的标准风格字体生成。
可选的,所述获取模块还用于:
接收或拍摄记录有用户手动书写的用户风格字体的图像,并从所述图像中识别所述用户风格字体;和/或,
利用终端设备的屏幕或电子画板采集用户手动书写的用户风格字体。
可选的,还包括:
字体库获取模块,用于获取所述服务端返回的合成手写字体库,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成;
其他文本展示模块,用于按照所述合成手写字体库中的各个合成手写字体展示其他多媒体资源的文本内容。
可选的,
所述获取模块还用于:获取匹配于所述资源风格的多种风格字体;
所述展示模块还用于:按照预设规则在所述多种风格字体中确定目标风格字体,或者,响应于针对所述多种风格字体的选取操作,将被选取的第一风格字体确定为目标风格字体;按照所述目标风格字体展示所述文本内容。
可选的,还包括:
切换响应模块,用于响应于针对所述目标风格字体的切换操作,确定切换后的第二风格字体;
第二字体展示模块,用于按照所述第二风格字体展示所述文本内容。
可选的,所述展示模块还用于:
根据所述多媒体资源的播放进度,按照所述风格字体展示当前播放进度对应的所述文本内容。
可选的,所述展示模块还用于:
确定所述文本内容中各个内容片段分别对应的风格字体;
按照各个风格字体分别展示相应的内容片段。
可选的,所述展示模块还用于:
在所述多媒体资源为歌曲的情况下,在所述歌曲的歌词展示区域中展示所述歌曲的歌词;
在所述多媒体资源为视频的情况下,在所述视频的视频界面中展示所述视频的字幕、弹幕和/或特效文本。
在本公开实施方式的第五方面中,提供了一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一实施例所述的字体生成方法或第二方面中任一实施例所述的文本展示方法。
在本公开实施方式的第六方面中,提供了一种计算设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述第一方面中任一实施例所述的字体生成方法或第二方面中任一实施例所述的文本展示方法。
根据本公开实施方式的字体生成和文本展示方法,服务端可以获取多媒体资源的文本内容和用于表征多媒体资源的资源风格的风格信息,然后根据该风格信息生成匹配于所述资源风格的风格字体。相应地,客户端可以获取多媒体资源的文本内容和风格字体,并按照该风格字体展示所述文本内容。
采用上述方式,可以生成匹配于多媒体资源的资源风格的风格字体。可以理解的是,按照上述风格字体展示出的文本内容同样匹配于该多媒体资源的资源风格。可见,本方案通过生成匹配于多媒体资源的资源风格的风格字体,并按照该风格字体展示多媒体资源的文本内容,使得文本内容的展示效果与多媒体资源的资源风格具有较高的契合度,即文本内容的展示效果高度匹配于多媒体资源的资源风格,从而向用户呈现出与资源风格高度契合的文本内容展示效果,有助于提升用户的文本内容观看体验。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了一种资源消费平台的结构示意图;
图2是本公开所涉及相关概念的关联关系示意图;
图3是一示例性实施例提供的一种字体生成方法的流程图;
图4是一示例性实施例提供的一种标准风格字体的示意图;
图5是一示例性实施例提供的一种标准风格字体与曲风之间映射关系的示意图;
图6是一示例性实施例提供的一种样本手写标准风格字体的示意图;
图7是一示例性实施例提供的一种手写字体生成模型的结构示意图;
图8是一示例性实施例提供的一种分类器的工作原理示意图;
图9是一示例性实施例提供的一种字体融合过程的示意图;
图10是一示例性实施例提供的一种文本展示方法的流程图;
图11是一示例性实施例提供的一种介质的示意图;
图12是一示例性实施例提供的一种字体生成装置的框图;
图13是一示例性实施例提供的一种文本展示装置的框图;
图14是一示例性实施例提供的一种计算设备的示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种字体生成和文本展示方法、装置、介质和计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
发明人发现,相关技术所采用的调整背景或动态特效的方案,虽然能够在一定程度上呈现出灵活的文本展示效果,但其实现的只是简单的背景或特效调整,而不同文本内容均是按照同一预设字体进行展示,因此最终的展示效果与资源风格的契合度较低,难以通过上述展示效果呈现多媒体资源自身的风格,观看体验有待提升。
为了解决上述问题,本公开提供一种字体生成和文本展示方法、装置、介质和计算设备。根据本公开实施方式的字体生成和文本展示方法,服务端可以获取多媒体资源的文本内容和用于表征多媒体资源的资源风格的风格信息,然后根据该风格信息生成匹配于所述资源风格的风格字体。相应地,客户端可以获取多媒体资源的文本内容和风格字体,并按照该风格字体展示所述文本内容。
采用上述方式,可以生成匹配于多媒体资源的资源风格的风格字体。可以理解的是,按照上述风格字体展示出的文本内容同样匹配于该多媒体资源的资源风格。可见,本方案通过生成匹配于多媒体资源的资源风格的风格字体,并按照该风格字体展示多媒体资源的文本内容,使得文本内容的展示效果与多媒体资源的资源风格具有较高的契合度,即文本内容的展示效果高度匹配于多媒体资源的资源风格,从而向用户呈现出与资源风格高度契合的文本内容展示效果,有助于提升用户的文本内容观看体验。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图1是一示例性实施例提供的一种资源消费平台的结构示意图。如图1所示,该系统可以包括网络10、服务器11、若干电子设备,如手机12、手机13和手机14等。
手机12-14只是用户可以使用的一种类型的电子设备举例。实际上,用户显然还可以使用诸如下述类型的电子设备:平板设备、笔记本电脑、掌上电脑(PDAs,PersonalDigital Assistant s)、可穿戴设备(如智能眼镜、智能手表等)等;上述任一电子设备中运行的客户端(如下述开发客户端或者应用程序的客户端)可以被预先安装在电子设备上,使得该客户端可以在该电子设备上被启动并运行。
服务器11可以为包含一独立主机的物理服务器,或者该服务器11可以为主机集群承载的虚拟服务器、云服务器等,本公开一个或多个实施例并不对此进行限制。而对于网络10,可以包括多种类型的有线或无线网络。
在所述资源消费平台中,可由运行于服务器11中的服务端通过与运行于手机12-14中的相应客户端进行配合,实现资源管理及消费方案。如在所述资源为音乐的情况下,客户端可以从音乐平台的服务端处获取音乐文件,进而播放音频、显示歌词等,以便用户收听音乐并查看歌词。或者,在所述资源为视频的情况下,客户端可以从视频平台的服务端处获取视频文件,进而播放视频、显示字幕和/或弹幕等,以便用户观看视频并查看字幕和/或弹幕。
在本实施例中,资源消费平台不仅可以字体生成和文本展示功能,还可以作为诸多其他功能的集成化功能平台。比如训练风格识别模型、查询标准风格字体、生成融合风格字体、训练手写字体生成模型、提取字体的风格特征点、切换风格字体、展示内容片段等,本公开一个或多个实施例并不对此进行限制。
在本公开一个或多个实施例的技术方案中,可由服务端或者客户端通过实施字体生成方案,以生成与多媒体资源的资源风格相对应的风格字体;进而,可由客户端实施文本展示方案,已按照上述风格字体展示所述多媒体资源的文本内容,从而向用户呈现出所展示文本的字体符合当前多媒体资源的资源风格的展示效果,提升用户的资源观看体验。
根据本公开实施例的字体生成和文本展示方法,服务端可以获取多媒体资源的文本内容和用于表征多媒体资源的资源风格的风格信息,然后根据该风格信息生成匹配于所述资源风格的风格字体。相应地,客户端可以获取多媒体资源的文本内容和风格字体,并按照该风格字体展示所述文本内容。
本公开实施例所述多媒体资源的文本内容为文本形式的资源内容,如歌词、弹幕、字幕、花字、评论等,这类资源内容的表现形式可以为文字。本公开实施例对于上述文本内容的语言形式并不进行限制,如可以为中文、英文、韩文、日文等任意形式。另外,本公开实施例所述的字体(font),即字符体形,或称字形,是文字的外在表现形式(外观样式),用于体现文字的外观特征。按照某一字体展示文字,即按照该字体所表示的字形展示文字,使得展示出的文字的外观样式符合该字体的外观特征。
考虑到本公开实施例涉及到的字体相关概念较多,为便于清楚、详细的说明本方案,下面先结合图2所示的关联关系示意图对本方案涉及到的相关概念进行介绍。
风格字体:匹配于多媒体资源的资源风格的字体,可以用于展示文本内容。本公开实施例所述的风格字体可以包括标准风格字体和融合风格字体两类。
标准风格字体:相关技术中已经存在的标准字体,本公开实施例可以将该字体作为预设字体使用。本公开实施例所述的标准风格字体可以包括手写标准风格字体和基础标准风格字体两类。
基础标准风格字体:非手写风格的标准字体,如宋体、楷体、新罗马(Times NewRoman)、Cambria等。
手写标准风格字体:手写风格的标准字体,如新手书、赵安体、方正向际纯钢板体、铜板印刷体(Copperplate)、斯宾塞体(Spencerian)等
融合风格字体:根据标准风格字体和用户风格字体经过融合处理所生成的字体,该字体能够同时体现标准风格字体和用户风格字体的字体特征。
用户风格字体:能够体现用户自身的手写风格的字体。本公开实施例所述的用户风格字体可以包括自然手写字体和合成手写字体两类。
自然手写字体:用户自身通过手动方式书写文字所呈现出的手写字体。
合成手写字体:根据基础标准风格字体和自然手写字体经过合成处理所生成的字体,该字体能够同时体现基础标准风格字体和自然手写字体的字体特征,即在基础标准风格字体的字体特征的基础上融入自身的手写风格的手写特征。
其中,上述手写标准风格字体和基础标准风格字体可以构成标准风格字体库;手写标准风格字体可以构成手写标准风格字体库。另外,可以从手写标准风格字体库中选取样本风格字、样本内容字和样本标签字构成训练样本,用于训练手写字体生成模型。基于所述手写字体生成模型,可以使用基础标准风格字体和任一用户的手动书写的自然手写字体生成该用户的合成手写字体,这些合成手写字体可以构成该用户对应的合成手写字体库。
示例性方法
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
参考图3,图3示意性地示出了根据本公开实施方式的一种字体生成方法的流程图。该方法可以应用于资源消费平台的服务端或者所述资源消费平台所关联的字体生成设备。该方法可以包括以下步骤S302-S304。
步骤S302,获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格。
本公开实施例所述的多媒体资源可以为资源消费平台维护的任一多媒体资源。其中,服务端获取多媒体资源的文本内容和风格信息可以由任一客户端所触发。例如,任一客户端可以向资源消费平台发起针对任一多媒体资源的消费请求,从而,资源消费平台的服务端一方面可以响应于该请求向该客户端返回所述任一多媒体资源及其文本内容;另一方面可以开始触发生成针对该资源的风格字体。或者,服务端获取多媒体资源的文本内容和风格信息也可以由预设任务所触发。例如,资源消费平台的后台工作人员可以创建针对任一多媒体资源的风格字体生成任务,该任务可以由所述资源消费平台的服务端定时执行。从而,服务端可以在相应时刻开始触发生成针对该资源的风格字体。
其中,资源消费平台的服务端可以触发自行生成所述风格字体或者调用所述字体生成设备生成所述风格字体,即本公开实施例所述字体生成方法的执行主体可以为资源消费平台的服务端或者所述该服务端关联的字体生成设备。例如,资源消费平台的服务端可以获取该多媒体资源的文本内容和风格信息,并使用本公开实施例所述的文本生成方法生成针对该资源的风格字体,然后将该风格字体提供至消费所述资源的客户端(如发起所述消费请求的所述任一客户端)用于展示所述文本内容。再例如,资源消费平台的服务端也可以调用所述字体生成设备,并由后者使用本公开实施例所述的文本生成方法生成针对该资源的风格字体,然后将该风格字体提供至消费所述资源的客户端或者通过所述资源消费平台的服务端提供至消费所述资源的客户端,以便该客户端使用所述风格字体展示所述文本内容。
鉴于资源消费平台维护有多媒体资源及其文本内容,所以字体生成方可以从资源消费平台处获取所述多媒体资源及其文本内容。例如,在字体生成方为所述资源消费平台的服务端的情况下,该服务端可以从本地维护的多媒体资源中确定待生成风格字体的多媒体资源,并获取该资源及其文本内容。再例如,在字体生成方为所述资源消费平台关联的字体生成设备的情况下,该设备可以从资源消费平台的服务端维护的多媒体资源中确定待生成风格字体的多媒体资源,并获取该资源及其文本内容。当然,也可以由所述资源消费平台的服务端将所述多媒体资源及其文本内容主动发送至后者,本公开实施例并不对此进行限制。本公开的下述实施例以所述字体生成方法的执行主体(即前述字体生成方)为所述资源消费平台的服务端为例进行描述。
在获取到待生成风格字体的所述多媒体资源之后,服务端可以进一步获取该资源的风格信息。其中,所述多媒体资源的风格信息可以多种形式,本公开实施例并不对此进行限制。例如,在所述多媒体资源为音频的情况下,该音频的风格信息可以包括下述至少之一:曲风(如乡村音乐、爵士、摇滚、重金属等歌曲风格)、乐器信息(如音频中包含的钢琴、吉他、小提琴等乐器)、段落信息(如0-40s为主歌、40s-50s为间奏、50s-1min10s为主歌等)、节奏信息(如紧凑、松散等)、强弱信息(如重音、轻音等)、所述文本内容的情感信息(如欢快、忧郁、一般等)。再例如,在所述多媒体资源为视频的情况下,该视频的风格信息可以包括:画面内容的情感信息,也可以包括所述文本内容的情感信息,其中,上述情感信息可以用于表征所述视频的情感倾向。当然,所述风格信息也可以同时包含上述两类情感信息,或者也可以为其他形式的信息。不再赘述。
其中,服务端可以通过多种方式获取该资源的风格信息。例如,服务端可以从本地维护的所述多媒体资源的资源属性信息中查询其风格信息,该方式简单高效,但可能因为风格信息缺失导致查询失败,或者因为风格信息不准确导致后续风格字体与所述多媒体资源的资源风格的匹配程度较弱。
为避免上述缺陷,服务端可以训练针对多媒体资源的风格识别模型(训练阶段),并使用该模型获取所述多媒体资源的风格信息(推理阶段)。例如,在训练阶段,服务端可以先获取用于训练的多个样本资源,任一样本资源可以被添加有相应的风格标记。进一步的,服务端可以将所述样本资源及其对应的风格标记作为训练样本,对风格识别模型进行训练。可以理解的是,基于上述样本资源和风格标记对所述风格识别模型进行的训练属于有监督训练。而在推理阶段,可以将所述多媒体资源输入训练完成的所述风格识别模型,以得到所述风格识别模型输出的该多媒体资源的风格信息。
如前所述,任一多媒体资源的风格信息可能与该资源的资源类型有关,该资源也可能具有多个维度的风格信息,因此服务端可以针对任一类型资源的任一风格信息针对性的生成风格识别模型,并针对各种风格信息分别生成相应的风格识别模型,从而对于所述多媒体资源,可以利用上述各个风格识别模型分别获取相应的风格信息。下面以音乐平台所维护歌曲的曲风为例,对相应的曲风识别模型的训练阶段和推理阶段进行描述。
在训练阶段,服务端可以先收集多种不同曲风下的样本歌曲的歌曲数据。任一样本歌曲的歌曲数据可以包括该歌曲的音频文件和曲风标签。其中,所述音频文件可以采用.WAV、.MP3、.AAC等格式,所述歌词文件可以为采用LRC、TRC、KRC等格式,本公开实施例并不对此进行限制。所述曲风可以包括流行、摇滚、民谣、电子、舞曲、说唱、轻音乐、爵士、乡村、R&B、古典、民族、英伦、金属、朋克、蓝调、雷鬼、古风等。需要说明的是,任一曲风可以包括多首样本歌曲,即任一曲风可能包含多首样本歌曲的歌曲数据。同时,任一样本歌曲也可能同时属于多个曲风,即该样本歌曲可以具有多个曲风标签。任一样本歌曲的音频文件与其任一曲风标签可以构成一条训练样本。其中,任一样本歌曲的曲风标签可以由所述音乐平台上的歌曲消费者在消费该歌曲时添加;或者,考虑到消费者水平的参差不齐,也可以由具有一定音乐鉴赏能力的专业打标人员添加,本公开实施例并不对此进行限制。
在获取到所述样本歌曲的歌曲数据的情况下,服务端可以采用适当的音频特征提取算法,对该样本歌曲的音频文件进行特征提取。如可以采用mel谱提取算法提取得到该样本歌曲的音频特征向量,其中,一首样本歌曲的音频文件可以提取出一条音频特征向量。进一步的,可以将所述音频特征向量作为曲风识别模型的输入参数,采用该模型结合整个音频的全局信息和局部信息,对音频数据进行分类。其中,任一样本歌曲的全局信息和局部信息可以包括该样本歌曲的平均音高和局部音高、平均节拍和局部节拍等信息,不再赘述。其中,上述曲风识别模型可以采用Transformer算法搭建,具体的,该模型内部可以采用注意力(Attention)机制。或者上述曲风识别模型也可以包含前述的音频特征提取算法,不再赘述。
进一步的,服务端可以将上述分类结果与该样本歌曲的曲风标签进行比较,并根据比较结果所得的偏差调整所述风格识别模型的模型参数(如所述Transformer算法的具体参数),并采用其他的样本歌曲,对调整后的模型继续进行下一轮训练,直至该模型输出结果对应的模型损失满足预设的停止条件或者训练次数达到所述训练条件时停止训练,得到训练完成的曲风识别模型。
在推理阶段,服务端可以先获取待生成风格字体的歌曲的音频文件,并通过前述音频特征提取算法提取该歌曲的音频特征向量,然后将该音频特征向量作为所述曲风识别模型的入参输入模型,并得到该模型输出的该歌曲的曲风。
通过上述方式,服务端可以训练所述曲风识别模型,并基于训练完成的该模型识别任一歌曲的曲风。显然,该模型的训练阶段与推理阶段互相分离,因此所述训练阶段可以预先完成,即该曲风识别模型可以预先训练得到。从而,在服务端需要生成任一歌曲的风格字体的情况下,可以直接调用预先训练完成的所述曲风识别模型识别该歌曲的曲风。当然,除曲风之外,服务端还可以预先训练其他任一类型的多媒体资源的任一风格信息对应的风格识别模型,并在需要生成针对所述任一类型的多媒体资源的风格字体的情况下,直接使用预先训练完成的所述风格识别模型识别该多媒体资源的风格信息。
可以理解的是,通过预先训练完成的风格识别模型识别多媒体资源的风格信息,仅需要多媒体资源本身的资源数据,而无需其相关属性信息,因此即便在风格信息缺失的情况下也可以通过该模型识别出多媒体资源的风格信息,保证后续风格字体的顺利生成。另外,通过使用风格识别模型识别多媒体资源的风格信息,也有助于实现对多媒体资源的风格信息的批量识别,从而便于服务端以静默方式在后台批量生成多媒体资源的风格字体,有助于提升风格字体的生成效率。
通过上述方式获取到的所述多媒体资源的风格信息,能够用于表征该多媒体资源的资源风格,换言之,所述多媒体资源的资源风格可以通过其风格信息加以体现。本公开实施例所述的文本生成方法即用于生成匹配于该资源风格的风格文本(即所述多媒体资源的风格文本),以便在按照该风格文本展示所述多媒体资源的文本内容时,使得该文本内容的展示效果契合于该资源的资源风格。
步骤S304,根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
在获取到所述多媒体资源的风格信息的情况下,服务端可以根据所述风格信息生成匹配于所述资源风格的风格字体。具体的,服务端可以采用多种方式生成所述风格字体。
在一实施例中,所述服务端可以确定所述多媒体资源的风格信息对应的标准风格字体,以作为匹配于所述资源风格的风格字体。其中,上述标准风格字体为相关技术中的字体库所包含的字体,可以分为基础标准风格字体和手写标准风格字体两类。如图4所示,基础标准风格字体为非手写风格的标准字体,如“腾祥沁圆简-W2”、“三级素纤简体”、“三级简黑简体-中”等;手写标准风格字体为手写风格的标准字体,如“三级湘乡体”、“糯米团简”对应的糯米团简笔字体、“腾祥泡泡”对应的泡泡简笔字体等。当然,上述基础标准风格字体和手写标准风格字体并不仅限于图4所示的具体形式,也可以为其他非手写或手写风格的字体。
上述任一标准风格字体的风格能够用于体现多媒体资源的资源风格。例如,“宋体”笔画有粗细变化,而且一般是横细竖粗,末端有装饰部分(即“字脚”或“衬线”),点、撇、捺、钩等笔画有尖端,属于衬线字体(serif),常用于书籍、杂志、报纸印刷的正文排版。因此,对于风格较为平淡、正式的多媒体资源,可以将宋体作为其风格字体。再例如,“糯米团简”对应的糯米团简笔字体风格软萌可爱,可以作为儿歌或幼儿动画对应的风格字体,不再赘述。
其中,所述服务端可以维护有风格信息与候选标准风格字体之间的映射关系,该映射关系可以由资源消费平台的管理人员通过后台方式设置,或者也可以由该服务端从其他设备或平台处获取,本公开实施例并不对此进行限制。如图5所示,流行、摇滚、民谣、古风、说唱等不同的曲风分别对应于不同风格的候选标准风格字体。当然,任一曲风也可以对应于多个候选标准风格字体,且各个候选标准风格字体可以被按照与该曲风的匹配程度预先排序。
基于上述映射关系,服务端可以查询所述多媒体资源的风格信息对应的标准风格字体,该字体即被作为所述多媒体资源的风格字体。即服务端可以在所述映射关系中查询对应于所述多媒体资源的风格信息的候选标准风格字体,以作为所述多媒体资源的风格信息对应的标准风格字体。仍以图5为例,在多媒体资源为歌曲且其曲风为摇滚的情况下,可以将“汉仪霹雳简体”这一候选标准风格字体作为该歌曲的曲风对应的标准风格字体,进而将该字体作为该歌曲的风格字体。当然,在摇滚对应于多种字体的情况下,可以直接将其中与摇滚匹配程度最高的字体作为该歌曲的标准风格字体;或者,也可以根据摇滚在该歌曲的曲风中的强烈程度选择相应匹配程度的候选标准风格字体作为该歌曲的标准风格字体,不再赘述。该方式能够简单快捷地确定所述多媒体资源的风格字体,有助于缩短消费所述多媒体资源的用户(即客户端所表征的用户)的等待时间,提升用户的资源消费体验。
另外,上述候选标准风格字体可以被从预设的标准风格字体库中获取,所述标准风格字体可以包括至少一种手写风格的手写标准风格字体;和/或,至少一种非手写风格的基础标准风格字体。具体如前述实施例及图4所示,不再赘述。
在另一实施例中,为了满足用户的个性化字体展示需求,服务端可以生成能够体现用户自身的手写风格的融合风格字体,以作为所述多媒体资源的风格字体。例如,服务端可以确定所述多媒体资源的风格信息对应的标准风格字体,并获取符合用户的手写风格的用户风格字体,然后根据所述标准风格字体和所述用户风格字体生成融合风格字体,以作为匹配于所述资源风格的风格字体。其中,服务端可以采用前述实施例所述的方式确定所述多媒体资源的风格信息对应的标准风格字体,此处不再赘述。
所述符合用户的手写风格的用户风格字体可以为自然手写字体或者合成手写字体,针对上述不同的手写字体,服务端可以采用不同方式获取。例如,服务端可以预先获取自然手写字体,并将该字体作为符合所述用户的手写风格的用户风格字体,其中,所述自然手写字体可以根据用户手动书写的字体素材确定。用户可以在纸张等非电子材质表面手动书写字体素材,并由所述客户端所在的终端设备通过扫描或者拍照等方式采集书写完成的所述字体素材;或者,用户也可以在上述终端设备提供的电子画板、触摸屏等电子设备表面手动书写字体素材,并由该终端设备检测上述字体素材。进而,客户端可以在用户登录所述资源消费平台完成后,将终端设备采集或检测的所述字体素材提供至服务端。此后,服务端可以基于所述字体素材提取用户的自然手写字体,并将该字体作为符合所述用户的手写风格的用户风格字体。显然,因为上述字体素材由用户手动书写完成,所以通过上述方式获得的用户风格字体能够充分体现用户自身的手写风格。
再例如,服务端也可以将预先生成的合成手写字体作为符合所述用户的手写风格的用户风格字体,所述合成手写字体根据所述自然手写字体和非手写风格的基础标准风格字体所生成。其中,上述基础标准风格字体为标准风格字体的其中一种形式,因此基础标准风格字体能够在一定程度上反映所述多媒体资源的资源风格,而所述自然手写字体能够反映用户自身的手写风格,所以根据所述自然手写字体和非手写风格的基础标准风格字体生成的合成手写字体能够同时匹配于多媒体资源的资源风格和用户自身的手写风格,从而向用户呈现出更优秀的文本展示效果。
其中,服务端可以针对所述用户预先生成合成手写字体库,该字体库中中的各个合成手写字体可以由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成。从而,服务端可以在预先生成的合成手写字体库中选取对应于所述文本内容的合成手写字体,以作为符合所述用户的手写风格的用户风格字体。通过该方式,可以生成针对所述用户的合成手写字体库,该字体库中的各个合成手写字体可以被服务端多次复用,且直接从该字体库中获取合成手写字体也能够提升用户风格字体的获取效率,从而有助于提升风格字体的生成效率。
实际上,上述用户除了可以为所述多媒体资源的消费者,也可以为所述多媒体资源的生产方,如歌曲对应的歌手、版权所有者或者UP主等。在上述用户为所述多媒体资源的生产方的情况下,所述合成手写字体能够向用户展示符合该生产方的手写风格的字体。另外,上述合成手写字体也能够根据所述自然手写字体和手写风格的手写标准风格字体所生成,不再赘述。
另外,所述服务端可以通过手写字体生成模型生成所述合成手写字体。例如,服务端可以将所述自然手写字体和所述基础标准风格字体输入手写字体生成模型,以得到该手写字体生成模型输出的所述合成手写字体。通过该方式,针对任一用户,服务端可以批量生成该用户对应的多个合成手写字体;而对于多个用户,服务端可以批量生成各个用户对应的至少一个合成手写字体,不仅有助于减少用户的等待时间,而且能够一定程度上提升风格字体的生成效率。特别是多个用户在短时间内消费多个不同多媒体资源的情况下,上述批量生成的方式能够简化服务端的处理流程,并保证合成手写字体的生成效率。
其中,服务端可以通过下述方式预先训练所述手写字体生成模型。例如,服务端可以从多个手写标准风格字体库中分别选取至少一个样本风格字,并选取至少一个样本内容字。如图6所示,有A“漂亮手写体”、B“潇洒手写体”、C“翩翩体”和D“手札字体”四种字体分别对应的手写标准风格字体库,上述任一手写标准风格字体库中包含多个相应风格的手写标准风格字体。此时,服务端可以从上述各个手写标准风格字体库中分别选取至少一个手写标准风格字体作为样本风格字。可以理解的是,上述各个样本风格字被用于构建训练样本,所以为了使训练完成的手写字体生成模型具有较强的适应性,所述手写标准风格字体库的数量以及任一手写标准风格字体库中选取的样本风格字的数量可以设置得适当多些。另外值得说明的是,上述样本内容字可以选取多个,而各个样本内容字和各个样本风格字可以不是同一个字,且任一样本内容字在各个样本风格字所属的手写标准风格字体库中应当具有相应的文字。
另外,服务端可以确定所述样本内容字在各个手写标准风格字体库中分别对应的样本标签字,任一样本内容字与其对应的各个样本标签字具有相同的字体结构。可以理解的是,各个样本内容字用于表征该文字的内容,如包含哪些偏旁部首、包含哪些字母及其顺序等,而并不用于表征该文字的具体结构和外在表现形式。任一样本内容字在任一手写标准风格字体库中对应的样本标签字,与该样本内容字是同一个字(即具有相同的内容);实际上,任一样本内容字及其对应的各个样本标签字,均为同一个字。仍以图6为例,假设服务端选取“新”字作为某一样本内容字,则服务端可以在上述A、B、C和D四种字体对应的手写标准风格字体库中分别选取至少一个样本风格字,并将任一手写标准风格字体库中包含的“新”字作为该字体库中选取的各个样本风格字对应的样本标签字。如对于A“漂亮手写体”对应的手写标准风格字体库,可以选取其中的“漂”、“来”、“永”作为“新”这一样本内容字对应的样本风格字,并将该字体库中的“新”字作为“漂”、“来”、“永”这三个样本风格字分别对应的样本标签字。在B、C、D及其他手写标准风格字体库中选取样本风格字和样本标签字的过程与上述类似,不再一一赘述。
进一步的,服务端可以根据所述样本风格字、样本内容字和样本标签字生成训练样本。其中,任一训练样本可以包括任一样本内容字及其对应的任一样本风格字;该训练样本的样本标签可以为所述任一样本内容字在所述任一样本风格字所属的手写标准风格字体库中对应的样本标签字。例如,对于“新”这一样本内容字,其可以和A“漂亮手写体”对应的手写标准风格字体库中的“来”这一样本风格字构成一个训练样本,而该字体库中的“新”则可以作为该训练样本的样本标签。
利用上述过程获取的训练样本,服务端可以对所述手写字体生成模型进行训练。可以理解的是,因为上述训练样本被标注有样本标签,所以对手写字体生成模型进行的是有监督训练过程。通过该方式,能够保证训练得到的手写字体生成模型输出的合成手写字体充分反映用户的手写风格。下面结合图7,对模型结构及其训练过程进行描述。
如图7所示,所述手写字体生成模型可以包括风格特征提取网络、内容特征提取网络、风格迁移网络和内容匹配网络。对于包含样本风格字和样本内容字的任一训练样本,一方面,可以由所述内容特征提取网络提取所述任一样本内容字的样本内容特征,并将该特征输入所述风格迁移网络。其中,样本内容特征可以包括笔画类型、交点位置等、字母内容、字母顺序等特征。上述样本内容特征可以包括至少一个内容特征向量,这些内容特征向量可以构成内容特征图,从而内容特征提取网络可以将所述内容特征图输入所述风格迁移网络。另一方面,可以由风格特征提取网络提取该训练样本中的样本风格字的样本风格特征,并将该特征输入所述风格迁移网络。其中,样本风格特征可以包括笔画弧度、笔画长宽比、角度等特征。上述样本风格特征可以包括至少一个风格特征向量,这些风格特征向量可以构成风格特征图,从而风格特征提取网络可以将所述风格特征图输入所述风格迁移网络。
其中,考虑到风格迁移网络通常包含至少输入层、输出层和至少一个中间层,所述风格特征提取网络可以将所述样本风格特征的特征图分别输入所述风格迁移网络中的多个结构层级(如图7中风格特征图与风格迁移网络之间的三个箭头所示),以尽量避免样本风格特征在训练过程中随着层级增多而逐渐湮灭,保证样本风格特征的持续性。
进一步的,可以由所述内容匹配网络确定所述风格迁移网络输出的样本预测字体与所述任一训练样本中的样本标签字之间的结构偏移量,并将表征所述结构偏移量的特征图输入所述风格迁移网络。如图7所示,对于样本内容字“新”和手写风格的样本风格字“饭”构成的训练样本,将所述“新”输入内容特征提取网络,并将所述“饭”输入风格特征提取网络,模型最终的输出字为融合了“饭”对应的手写风格的“新”字。
进而,还以通过分类器预测模型的输出字在手写标准风格字体库中对应的手写标准风格字。如图8所示,所述分类器由多分类网络和输出结果判断模块构成。所述手写字体生成模型输出的“新”字可以作为多分类网络的输入,而该网络的输出是“新”字为手写标准风格字体库中各个手写标准风格字的概率值。其中,可以将最大概率值对应的手写标准风格字作为该字对应的手写标准风格字。如在第6个手写标准风格字的概率值为最大值0.8的情况下,可以确定模型输出的“新”字为第6个手写标准风格字。从而服务端可以根据上述最大概率值与所述样本的样本表签字之间的偏差调整所述手写字体生成模型的模型参数,并进一步利用其它训练样本进行训练直至停止。
通过上述方式,能够使用多种手写风格的手写标准风格字体作为训练样本训练得到所述手写字体生成模型。在使用训练完成的所述手写字体,基于基础标准风格字体和自然手写字体生成模型生成合成手写字体时,可以将所述基础标准风格字体输入该模型的内容特征提取模型,并将所述自然手写字体输入该模型的风格特征提取模型,从而得到模型输出的合成手写字体,该字体即能够在基础标准风格的基础上反映用户的手写风格。
其中,可以通过类似于负反馈的方式连接风格迁移网络和内容特征匹配模块。如图7所示,风格迁移网络的输出作为内容特征匹配模块的其中一个输入,内容特征匹配模块的输出作为风格迁移网络的其中一个输入。通过上述连接方式,使得内容特征匹配模块的输出为包含上述结构偏移量的特征图,并且风格迁移网络可以根据上述结构偏移量调整输出字的字体结构,如调整偏旁的位置、笔画的角度、增加或删除笔画等,从而使得输出字的内容与输入内容字的内容保持一致——避免出现输入A字输出B字(甚至非文字)等异常情况。
在通过前述实施例方式获取到多媒体资源的风格信息对应的标准风格字体预计符合用户的手写风格的用户风格字体的情况下,服务端可以通过特征点移动的方式将二者融合,以生成融合风格字体。例如,服务端可以分别提取所述标准风格字体中的标准风格特征点和所述用户风格字体中的用户风格特征点,然后识别用户风格特征点中分别匹配于各个标准风格特征点的目标用户风格特征点,最后将各个标准风格特征点分别朝向相应的目标用户风格特征点移动,并将移动后的各个标准风格特征点所构成的字体作为融合风格字体。
如图9所示的“大”字,服务端可以利用相关技术中所述的全局仿射变换和/或局部仿射变换技术,提取所述标准风格字体中的标准风格特征点,如图中各个黑点所示;并提取所述用户风格字体中的用户风格特征点,如图中各个白点所示。进而,服务端可以识别用户风格特征点中分别匹配于各个标准风格特征点的目标用户风格特征点。如可以将距离各个黑点最近的白点作为各个黑点分别对应的目标用户风格特征点,或者也可以按照其他规则确定目标用户风格特征点。进一步的,可以将各个标准风格特征点分别朝向相应的目标用户风格特征点移动。如图9所示,假设黑点Ps对应的白点Pu为目标用户风格特征点,则可以将Ps移动至Pu处(相当于使用Ps替换Pu),或者也可以将Ps朝向Pu移动至二者中点(或其他比例的位置)处。在将各个标准风格特征点分别移动完成后,服务端可以按照移动后的各个标准风格特征点生成新的字体,以作为融合风格字体。显然,通过上述方式生成的融合风格字体即能够贴合多媒体资源的资源风格,又能够反映用户的手写风格。
至此,完成对所述风格字体生产过程的介绍。基于前述实施例生成的风格字体,可以被客户端用于展示所述多媒体资源的文本内容。例如,服务端可以响应于客户端发起的字体获取请求,将所述风格字体返回至所述客户端,以由所述客户端按照所述风格字体展示所述文本内容。可以理解的是,在上述用户为多媒体资源的生产方用户(如歌手)的情况下,上述风格文本可以被提供至消费该多媒体资源的各个消费方用户(如资源消费平台的普通用户)使用的消费方客户端,以由各个消费方客户端按照该风格字体展示所述多媒体资源的文本内容。当然,上述风格字体也可以被提供至所述生产方用户使用的生产方客户端,以便该生产方客户端向该生产方用户展示符合自身手写风格的文本内容。而在上述用户为多媒体资源的消费方用户的情况下,上述风格字体可以被提供至该消费方用户或者其他消费方用户使用的消费方客户端,以用于展示多媒体资源的文本内容,不再赘述。
参考图10,图10示意性地示出了根据本公开实施方式的一种文本展示方法的流程图。该方法可以应用于资源消费平台的客户端,如多媒体资源的生产方使用的生产方客户端,或者多媒体资源的普通消费方使用的消费方客户端,本公开下述实施例以消费方客户端为例进行描述。该方法可以包括以下步骤S1002-S1004。
步骤S1002,获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格。
在本公开实施例中,客户端可以实现按照匹配于所述多媒体资源的风格字体展示该资源的文本内容这一功能,为描述简洁,下文将该功能简称为风格文本展示功能。其中,步骤S1002-S1004即为该功能的具体实现过程。
在一实施例中,为充分尊重用户的使用意愿,客户端可以将所述风格文本展示功能设置为用户可选项,即由用户自行决定是否开启该功能。例如,客户端可以在所述多媒体资源的播放界面中展示字体风格控件,该控件可以被用户所触发。进而,客户端可以响应于该字体风格控件被触发,获取多媒体资源的风格字体。可以理解的是,所述字体风格控件被用户触发,即表明用户想要开启上述风格文本展示功能,因此可以响应于所述触发开始实现该功能,即开始获取多媒体资源的风格字体。当然,若用户不触发所述字体风格控件,即表明用并不想要开启上述风格文本展示功能,因此可以按照预设字体展示所述多媒体资源的文本内容,或者采用相关技术中的其他方式展示所述文本字体,不再赘述。
当然,若用户不触发所述字体风格控件,也有可能是因为用户并不清楚上述风格文本展示功能,特别是在该功能新上线的一段时间内,因此促进用户尝试使用该功能,客户端可以在所述字体风格控件从未被触发或者持续一定时长未被触发的情况下,向用户展示针对上述风格文本展示功能的提醒消息,以便用户知晓该功能,并进而触发所述字体风格控件以尝试使用该功能。
另外,上述字体风格控件可以为按钮、滑块等形式,本公开实施例并不对此进行限制。而且客户端也可以将上述字体风格控件展示在所述客户端设置界面中,从而用户针对该字体风格控件的设置可以被应用于所述客户端展示的各个多媒体资源。可以理解的是,在向用户展示所述字体风格控件的情况下,实现所述风格文本展示功能的下述各个实施例均应当是在该控件被触发的情况下实现的。
如前所述,本公开实施例所述的字体生成方法可以服务端或者客户端实现,相应地,客户端可以通过不同方式获取通过上述方法生成的多媒体资源的风格字体。例如,在所述风格字体由服务端生成的情况下,客户端可以接收服务端发送的多媒体资源的风格字体,所述风格字体由所述服务端根据所述风格信息生成。其中,服务端跟根据所述风格信息生成所述风格字体的过程可以参见图3所对应前述实施例的记载,此处不再赘述。再例如,在所述风格字体由客户端生成的情况下,客户端可以获取所述多媒体资源的风格信息,并根据所述风格信息生成所述风格字体。其中,客户端个极具所述风格信息生成所述风格字体的具体过程也可以参见前述实施例的记载,但是前述涉及到服务端与客户端交互的部分实施例不应当被应用于所述客户端,特此说明。
在一实施例中,客户端也可以维护风格信息与候选标准风格字体之间的映射关系,并根据该映射关系查询所述多媒体资源的风格信息对应的候选标准风格字体,然后将查询到的该字体作为所述多媒体资源的风格字体。当然,上述标准风格字体也可以由服务端查询后下发至所述客户端。可见,所述风格字体可以包括对应于所述多媒体资源的风格信息的标准风格字体,该标准风格字体可以被根据所述风格信息与候选标准风格字体之间的映射关系查询得到。
在另一实施例中,所述风格字体可以包括融合风格字体,从而服务端可以从用户手动书写的字体素材中确定自然手写字体,并将所述自然手写字体提交至服务端,以由所述服务端根据所述自然手写字体和所述风格信息对应的标准风格字体生成融合风格字体,进而可以接收所述服务端返回的该融合风格字体。其中,客户端可以接收或拍摄记录有用户手动书写的用户风格字体的图像,并从所述图像中识别所述用户风格字体。以拍摄为例,用户可以在纸张等非电子材质表面手动书写字体素材,从而客户端可以驱动自身所在终端设备通过扫描或者拍照等方式采集书写完成的所述字体素材。或者,客户端也可以利用终端设备的屏幕或电子画板采集用户手动书写的用户风格字体。以屏幕为例,用户可以在上述屏幕表面手动书写字体素材,从而客户端可以驱动该终端设备检测上述字体素材。进一步的,客户端可以根据采集或检测到的所述字体素材识别用户的自然手写字体,并将该字体提交至服务端。显然,因为上述字体素材由用户手动书写完成,所以基于标准风格字体和从字体素材中提取的自然手写字体生成的融合风格字体,能够充分体现用户自身的手写风格。
在又一实施例中,所述服务端还可以根据所述自然手写字体和非手写风格的基础标准风格字体生成多个合成手写字体,所述多个合成手写字体可以构成合成手写字体库,进而服务端可以将该字体库返回至所述客户端。在获取到客户端返回的所述合成手写字体库之后,客户端在展示(所述多媒体资源之外的)其他多媒体资源的过程中,可以按照所述合成手写字体库中的各个合成手写字体展示该资源的文本内容。例如,若客户端在展示歌曲Song1的过程中,向服务端上传自身所对应用户的自然手写字体,以由服务端根据标准风格字体和所述自然手写字体生成的融合风格字体,并按照服务端返回的该融合风格字体展示歌曲Song1的歌词。另外,服务端还可以根据基础标准风格字体和所述自然手写字体生成该用户对应的合成手写字体库,并将该字体库返回至该客户端。此后,该客户端在展示歌曲Song2的过程中,可以直接使用该字体库中的合成手写字体展示Song2的歌词。当然,为保证歌曲Song2的歌词展示效果符合该歌曲的曲风,客户端也可以在确定所述歌曲Song2的曲风与所述歌曲Song1的曲风相同的情况下,使用上述合成手写字体库中的合成手写字体展示Song2的歌词。换言之,对于服务端返回的合成手写字体库,若该字体库中的各个合成手写字体被根据某一用户的自然手写字体和匹配于某一资源风格的标准风格字体所生成,则该合成手写字体库可以被用于展示该用户所消费的多媒体资源的文本内容中符合该资源风格的文本内容;且该合成手写字体库应当避免被用于展示该用户所消费的多媒体资源的文本内容中不符合该资源风格的文本内容,或者也应当避免被用于展示其他用户所消费的多媒体资源的文本内容。
步骤S1004,按照所述风格字体展示所述文本内容。
在获取到所述多媒体资源的文本内容以及匹配于该资源的资源风格的风格字体的情况下,客户端可以按照该风格字体展示所述文本内容。
在一实施例中,客户端可以获取匹配于所述资源风格的多种风格字体,并按照其中的目标风格字体展示所述文本内容。其中,客户端可以通过多种方式确定所述目标风格字体。例如,客户端可以按照预设规则在所述多种风格字体中确定目标风格字体,所述预设规则可以为:将所述多种风格字体中与所述资源风格的匹配程度最高的风格字体确定为目标风格字体,以尽量向用户呈现出最佳的风格匹配效果。或者,也可以将所述多种风格字体中所述用户展示次数最多的风格字体确定为目标风格字体,以在风格匹配的基础上,使风格字体的展示效果尽量符合用户的使用习惯。
再例如,客户端也可以向用户展示所述多种风格字体的预览样式,以便用户根据所述预览样式获知所述多种风格字体的预期展示效果,进而选取其中最感兴趣的风格字体作为目标风格字体。相应地,客户端可以响应于针对所述多种风格字体的选取操作,将被选取的第一风格字体确定为目标风格字体,进而按照该目标风格字体展示所述文本内容。通过该方式,能够在风格匹配的基础上,使风格字体的展示效果尽量符合用户的个人意愿,即满足用户的个性化展示需求。
进一步的,在客户端按照所述目标风格字体展示文本内容的过程中,用户可能会想要调整当前的展示效果,即存在针对展示效果的切换需求。对此,用户可以针对目标风格字体实施切换操作。相应地,客户端可以响应于上述切换操作,确定切换后的第二风格字体,并按照该第二风格字体展示所述文本内容。通过该方式,客户端可以在用户不满意所述目标风格字体的展示效果的情况下,切换其他的风格字体展示文本内容,从而进一步满足用户对于展示效果的切换需求。
在一实施例中,为保证所述文本内容的展示进度与所述多媒体资源的播放进度保持一致,客户端可以根据所述多媒体资源的播放进度,按照所述风格字体展示当前播放进度对应的所述文本内容。
另外,所述多媒体资源的资源风格可能并非固定,如歌曲中不同段落的音调不同、电影中不同章节的画面色调不同等。对于这类多媒体资源,为了向用户呈现出较佳的展示效果,可以根据所述多媒体资源的内容片段调整文本内容的展示方式。例如,客户端可以确定所述文本内容中各个内容片段分别对应的风格字体,并按照各个风格字体分别展示相应的内容片段。例如,对于歌曲Song3,若其主歌部分的主唱音调比较轻柔,间奏部分的和音逐渐激昂,副歌部分的主场和音均音调高亢,则客户端可以分别确定主歌、间奏和副歌部分分别对应的风格字体,并在所述主歌、间奏和副歌部分分别按照相应的风格字体展示相应的歌词片段。当然,在上述多媒体资源为视频的情况下,上述内容片段即为视频片段,而任一视频片段对应的风格字体可以匹配于该视频片段的画面内容。通过该方式,不仅能够保证文本内容的展示效果实时匹配于当前内容片段,而且能够使展示效果随所述多媒体资源的播放进度而变化,呈现出动态风格的文本展示效果,有助于提升用户的文本观看体验。
具体的,不同类型的多媒体资源通常具有不同形式的文本内容,对此,客户端可以采用相应的方式展示所述文本内容。例如,在所述多媒体资源为歌曲的情况下,客户端可以在该歌曲的歌词展示区域中展示所述音乐的歌词。再例如,在所述多媒体资源为视频的情况下,在所述视频的视频界面中展示所述视频的字幕、弹幕和/或特效文本(如花字等),本公开实施例对于上述文本内容的具体形式并不进行限制。
根据本公开实施方式的字体生成和文本展示方法,服务端可以获取多媒体资源的文本内容和用于表征多媒体资源的资源风格的风格信息,然后根据该风格信息生成匹配于所述资源风格的风格字体。相应地,客户端可以获取多媒体资源的文本内容和风格字体,并按照该风格字体展示所述文本内容。
采用上述方式,可以生成匹配于多媒体资源的资源风格的风格字体。可以理解的是,按照上述风格字体展示出的文本内容同样匹配于该多媒体资源的资源风格。可见,本方案通过生成匹配于多媒体资源的资源风格的风格字体,并按照该风格字体展示多媒体资源的文本内容,使得文本内容的展示效果与多媒体资源的资源风格具有较高的契合度,即文本内容的展示效果高度匹配于多媒体资源的资源风格,从而向用户呈现出与资源风格高度契合的文本内容展示效果,有助于提升用户的文本内容观看体验。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图11对本公开示例性实施方式的介质进行描述。
本示例性实施方式中,可以通过程序产品实现上述方法,如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,该存储器可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读介质110可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
该程序产品可以采用一个或多个可读介质的任意组合。可读介质110可以是可读信号介质或者可读介质。可读介质110例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质110上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RE等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图12对本公开示例性实施方式的装置进行描述。关于下述装置,其中各个功能模块执行操作的具体方式以及执行操作后所实现的具体功能,均已在字体生成和文本展示方法的前述各实施例中进行了详细描述,此处不再详细阐述说明。
图12示意性地示出了根据本公开实施方式的一种字体生成装置的框图。该装置可以包括:
获取模块1201,用于获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格;
生成模块1202,用于根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
可选的,所述获取模块1201还用于:
将多媒体资源输入风格识别模型,以得到所述风格识别模型输出的所述多媒体资源的风格信息。
可选的,还包括第一训练模块1203,用于:
获取样本资源,任一所述样本资源添加有相应的风格标记;
将所述样本资源及其对应的风格标记作为训练样本,对所述风格识别模型进行训练。
可选的,所述生成模块1202还用于:
确定所述风格信息对应的标准风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述生成模块1202还用于:
确定所述风格信息对应的标准风格字体;
获取符合用户的手写风格的用户风格字体;
根据所述标准风格字体和所述用户风格字体生成融合风格字体,以作为匹配于所述资源风格的风格字体。
可选的,所述生成模块1202还用于:
将预先获取的自然手写字体作为符合所述用户的手写风格的用户风格字体,所述自然手写字体根据所述用户手动书写的字体素材确定;或者,
将预先生成的合成手写字体作为符合所述用户的手写风格的用户风格字体,所述合成手写字体根据所述自然手写字体和非手写风格的基础标准风格字体所生成。
可选的,所述生成模块1202还用于:
在预先生成的合成手写字体库中选取对应于所述文本内容的合成手写字体,以作为符合所述用户的手写风格的用户风格字体,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成。
可选的,还包括合成字体生成模块1204,用于:
将所述自然手写字体和所述基础标准风格字体输入手写字体生成模型,以得到所述手写字体生成模型输出的所述合成手写字体。
可选的,还包括第二训练模块1205,用于:
从多个手写标准风格字体库中分别选取至少一个样本风格字,并选取至少一个样本内容字;
确定所述样本内容字在各个手写标准风格字体库中分别对应的样本标签字,任一样本内容字与其对应的各个样本标签字具有相同的字体结构;
根据所述样本风格字、样本内容字和样本标签字生成训练样本,任一训练样本包括任一样本内容字及其对应的任一样本风格字;其中,所述任一训练样本的样本标签为所述任一样本内容字在所述任一样本风格字所属的手写标准风格字体库中对应的样本标签字;
利用所述训练样本对所述手写字体生成模型进行训练。
可选的,所述手写字体生成模型包括风格特征提取网络、内容特征提取网络、风格迁移网络和字体内容匹配网络,所述第二训练模块1205还用于:
由所述风格特征提取网络提取所述任一样本风格字的样本风格特征并输入所述风格迁移网络,以及,由所述内容特征提取网络提取所述任一样本内容字的样本内容特征并输入所述风格迁移网络;
由所述字体内容匹配网络确定所述风格迁移网络输出的样本预测字体与所述任一训练样本中的样本标签字之间的结构偏移量,并将表征所述结构偏移量的特征图输入所述风格迁移网络。
可选的,所述第二训练模块1205还用于:
所述风格特征提取网络将所述样本风格特征的特征图分别输入所述风格迁移网络中的多个结构层级。
可选的,所述生成模块1202还用于:
分别提取所述标准风格字体中的标准风格特征点和所述用户风格字体中的用户风格特征点;
识别用户风格特征点中分别匹配于各个标准风格特征点的目标用户风格特征点;
将所述各个标准风格特征点分别朝向相应的目标用户风格特征点移动,并将移动后的各个标准风格特征点所构成的字体作为融合风格字体。
可选的,所述生成模块1202还用于:
根据风格信息与候选标准风格字体之间的映射关系,查询所述风格信息对应的标准风格字体。
可选的,所述候选标准风格字体被从预设的标准风格字体库中获取,所述标准风格字体包括:
至少一种手写风格的手写标准风格字体;和/或,
至少一种非手写风格的基础标准风格字体。
可选的,还包括:
字体返回模块1206,包括响应于客户端发起的字体获取请求,将所述风格字体返回至所述客户端,以由所述客户端按照所述风格字体展示所述文本内容。
可选的,在所述多媒体资源包括音频的情况下,所述音频的风格信息包括下述至少之一:曲风、乐器信息、段落信息、节奏信息、强弱信息、所述文本内容的情感信息;
在所述多媒体资源包括视频的情况下,所述视频的风格信息包括:画面内容的情感信息和/或所述文本内容的情感信息。
图13示意性地示出了根据本公开实施方式的一种文本展示装置的框图。该装置可以包括:
获取模块1301,用于获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格;
展示模块1302,用于按照所述风格字体展示所述文本内容。
可选的,
还包括控件展示模块1303,用于在所述多媒体资源的播放界面中展示字体风格控件;
所述获取模块1301还用于:响应于所述字体风格控件被触发,获取多媒体资源的风格字体。
可选的,所述获取模块1301还用于:
接收服务端发送的多媒体资源的风格字体,所述风格字体由所述服务端根据所述风格信息生成;或者,
获取所述多媒体资源的风格信息,并根据所述风格信息生成所述风格字体。
可选的,所述风格字体包括对应于所述风格信息的标准风格字体,所述标准风格字体被根据所述风格信息与候选标准风格字体之间的映射关系查询得到。
可选的,所述风格字体包括融合风格字体,所述获取模块1301还用于:
从用户手动书写的字体素材中确定自然手写字体,并将所述自然手写字体提交至服务端;
接收所述服务端返回的融合风格字体,所述融合风格字体由所述服务端根据所述自然手写字体和所述风格信息对应的标准风格字体生成。
可选的,所述获取模块1301还用于:
接收或拍摄记录有用户手动书写的用户风格字体的图像,并从所述图像中识别所述用户风格字体;和/或,
利用终端设备的屏幕或电子画板采集用户手动书写的用户风格字体。
可选的,还包括:
字体库获取模块1304,用于获取所述服务端返回的合成手写字体库,所述合成手写字体库中的各个合成手写字体由服务端根据所述自然手写字体和非手写风格的基础标准风格字体生成;
其他文本展示模块1305,用于按照所述合成手写字体库中的各个合成手写字体展示其他多媒体资源的文本内容。
可选的,所述获取模块1301还用于:获取匹配于所述资源风格的多种风格字体;
所述展示模块1302还用于:按照预设规则在所述多种风格字体中确定目标风格字体,或者,响应于针对所述多种风格字体的选取操作,将被选取的第一风格字体确定为目标风格字体;按照所述目标风格字体展示所述文本内容。
可选的,还包括:切换响应模块1306,用于响应于针对所述目标风格字体的切换操作,确定切换后的第二风格字体;
第二字体展示模块1307,用于按照所述第二风格字体展示所述文本内容。
可选的,所述展示模块1302还用于:
根据所述多媒体资源的播放进度,按照所述风格字体展示当前播放进度对应的所述文本内容。
可选的,所述展示模块1302还用于:
确定所述文本内容中各个内容片段分别对应的风格字体;
按照各个风格字体分别展示相应的内容片段。
可选的,所述展示模块1302还用于:
在所述多媒体资源为歌曲的情况下,在所述歌曲的歌词展示区域中展示所述歌曲的歌词;
在所述多媒体资源为视频的情况下,在所述视频的视频界面中展示所述视频的字幕、弹幕和/或特效文本。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图14对本公开示例性实施方式的计算设备进行描述。
图14显示的计算设备140仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,计算设备140以通用计算设备的形式表现。计算设备140的组件可以包括但不限于:上述至少一个处理单元1401、上述至少一个存储单元1402,连接不同系统组件(包括处理单元1401和存储单元1402)的总线1403。
总线1403包括数据总线、控制总线和地址总线。
存储单元1402可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)14021和/或高速缓存存储器14022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)14023。
存储单元1402还可以包括具有一组(至少一个)程序模块14024的程序/实用工具14025,这样的程序模块14024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备140也可以与一个或多个外部设备1404(例如键盘、指向设备等)通信。
这种通信可以通过输入/输出(I/O)接口1405进行。并且,计算设备140还可以通过网络适配器1406与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图14所示,网络适配器1406通过总线1403与计算设备140的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备140使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了字体生成装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种字体生成方法,包括:
获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格;
根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
2.根据权利要求1所述的方法,所述获取多媒体资源的风格信息,包括:
将多媒体资源输入风格识别模型,以得到所述风格识别模型输出的所述多媒体资源的风格信息。
3.根据权利要求2所述的方法,通过下述方式训练所述风格识别模型:
获取样本资源,任一所述样本资源添加有相应的风格标记;
将所述样本资源及其对应的风格标记作为训练样本,对所述风格识别模型进行训练。
4.根据权利要求1所述的方法,所述根据所述风格信息生成匹配于所述资源风格的风格字体,包括:
确定所述风格信息对应的标准风格字体,以作为匹配于所述资源风格的风格字体。
5.根据权利要求1所述的方法,所述根据所述风格信息生成匹配于所述资源风格的风格字体,包括:
确定所述风格信息对应的标准风格字体;
获取符合用户的手写风格的用户风格字体;
根据所述标准风格字体和所述用户风格字体生成融合风格字体,以作为匹配于所述资源风格的风格字体。
6.一种文本展示方法,包括:
获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格;
按照所述风格字体展示所述文本内容。
7.一种字体生成装置,包括:
获取模块,用于获取多媒体资源的文本内容和风格信息,所述风格信息用于表征所述多媒体资源的资源风格;
生成模块,用于根据所述风格信息生成匹配于所述资源风格的风格字体,所述文本内容用于按照所述风格字体进行展示。
8.一种文本展示装置,包括:
获取模块,用于获取多媒体资源的文本内容和风格字体,所述风格字体被根据所述多媒体资源的风格信息所生成,且匹配于所述风格信息表征的所述多媒体资源的资源风格;
展示模块,用于按照所述风格字体展示所述文本内容。
9.一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
10.一种计算设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-5中任一项所述的方法。
CN202210469534.3A 2022-04-28 2022-04-28 字体生成和文本展示方法、装置、介质和计算设备 Pending CN114818605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210469534.3A CN114818605A (zh) 2022-04-28 2022-04-28 字体生成和文本展示方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210469534.3A CN114818605A (zh) 2022-04-28 2022-04-28 字体生成和文本展示方法、装置、介质和计算设备

Publications (1)

Publication Number Publication Date
CN114818605A true CN114818605A (zh) 2022-07-29

Family

ID=82510339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210469534.3A Pending CN114818605A (zh) 2022-04-28 2022-04-28 字体生成和文本展示方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN114818605A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222845A (zh) * 2022-08-01 2022-10-21 北京元亦科技有限公司 样式字体图片生成方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189985A (zh) * 2018-08-17 2019-01-11 北京达佳互联信息技术有限公司 文本风格处理方法、装置、电子设备及存储介质
CN111277910A (zh) * 2020-03-07 2020-06-12 咪咕互动娱乐有限公司 弹幕显示方法、装置、电子设备及存储介质
CN111753493A (zh) * 2019-09-29 2020-10-09 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法
CN112131410A (zh) * 2020-09-18 2020-12-25 北京达佳互联信息技术有限公司 多媒体资源展示方法、装置、系统和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189985A (zh) * 2018-08-17 2019-01-11 北京达佳互联信息技术有限公司 文本风格处理方法、装置、电子设备及存储介质
CN111753493A (zh) * 2019-09-29 2020-10-09 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法
CN111277910A (zh) * 2020-03-07 2020-06-12 咪咕互动娱乐有限公司 弹幕显示方法、装置、电子设备及存储介质
CN112131410A (zh) * 2020-09-18 2020-12-25 北京达佳互联信息技术有限公司 多媒体资源展示方法、装置、系统和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222845A (zh) * 2022-08-01 2022-10-21 北京元亦科技有限公司 样式字体图片生成方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
EP3616190B1 (en) Automatic song generation
US11017010B2 (en) Intelligent playing method and apparatus based on preference feedback
US11475867B2 (en) Method, system, and computer-readable medium for creating song mashups
AU2018271971B2 (en) Sheet music search and discovery system
US10109264B2 (en) Composing music using foresight and planning
US9064484B1 (en) Method of providing feedback on performance of karaoke song
US8392414B2 (en) Hybrid audio-visual categorization system and method
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
US9928817B2 (en) User interfaces for virtual instruments
US9646585B2 (en) Information processing apparatus, information processing method, and program
WO2022142772A1 (zh) 歌词处理方法及装置
US20230022966A1 (en) Method and system for analyizing, classifying, and node-ranking content in audio tracks
WO2022252966A1 (zh) 虚拟乐器的音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN114818605A (zh) 字体生成和文本展示方法、装置、介质和计算设备
US20220406280A1 (en) Information processing apparatus, information processing method, and information processing program
CN113158642A (zh) 信息处理方法、装置、电子设备及存储介质
US12119026B2 (en) Multimedia music creation using visual input
CN114630179A (zh) 音频提取方法和电子设备
US20140156593A1 (en) Information processing apparatus, information processing method, and program
WO2024202485A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
WO2024075422A1 (ja) 楽曲生成方法、およびプログラム
KR102479023B1 (ko) 외국어 학습 서비스 제공 장치, 방법 및 프로그램
US10083678B1 (en) Enhanced user interfaces for virtual instruments
KR101266972B1 (ko) 곡 특징의 분류를 이용한 곡 검색 방법 및 곡 검색 장치
US20220391438A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination