CN117953109A - 生成式图片翻译方法、系统、电子设备及存储介质 - Google Patents
生成式图片翻译方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117953109A CN117953109A CN202410358450.1A CN202410358450A CN117953109A CN 117953109 A CN117953109 A CN 117953109A CN 202410358450 A CN202410358450 A CN 202410358450A CN 117953109 A CN117953109 A CN 117953109A
- Authority
- CN
- China
- Prior art keywords
- typesetting
- picture
- target
- image
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000013519 translation Methods 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012550 audit Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本说明书的一个或多个实施例涉及图片处理技术领域,具体涉及一种生成式图片翻译方法、系统、电子设备及存储介质。所述方法包括步骤:提取源图片上的图片元素及文字元素,识别排版类型;将所述文字元素分组,翻译成目标文字;基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板或接收指定的排版模板;根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;识别图片元素的图像属性,基于所述图像属性,生成图片元素的排版优先级;生成目标图片的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得调整指令;基于所述调整指令对所述目标图片的调整,获得翻译后的图片。
Description
技术领域
本说明书的一个或多个实施例涉及图片处理技术领域,具体涉及一种生成式图片翻译方法、系统、电子设备及存储介质。
背景技术
图片翻译又被称图像文字识别与翻译技术,是一种融合了光学字符识别和机器翻译的人工智能应用。它首先通过光学字符识别技术识别图片中的文字信息,并将其转化为电子文本;随后,利用机器翻译技术将识别出的源语言文本自动翻译成目标语言。这一过程实现了从图片中的文字直接到另一种语言文字的跨语种转换,广泛应用于各类场景如路标翻译、文档处理、图像资料国际化等,极大地提高了信息获取和交流的效率。然而目前的图片翻译技术仅注重对文字语言种类的转换,忽略了图片上的文字同时还具备图像的美学平衡属性,产生的结果图片未对翻译后的文字进行排版及图像属性处理,仍然需要人工进行排版、颜色、字号、字体等的调整处理。
发明内容
本说明书一个或多个实施例描述了一种生成式图片翻译方法、系统、电子设备及存储介质,能够对图片上的文字进行翻译并生成目标图片,并提供了。
第一方面,本说明书实施例提供了一种生成式图片翻译方法,包括步骤:
提取源图片上的图片元素及文字元素,识别源图片的排版类型;
将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板或接收指定的排版模板;
根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得调整指令;
基于所述调整指令对所述目标图片的调整,获得翻译后的图片。
第二方面,本说明书实施例提供了一种生成式图片翻译系统,包括:
读入模块,用于提取源图片上的图片元素及文字元素,识别源图片的排版类型;
分组翻译模块,用于将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
排版模块,用于基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板或接收指定的排版模板;
文字生成模块,用于根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
图像排版模块,用于识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
调整指令模块,用于基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得调整指令;
生成模块,用于基于所述调整指令对所述目标图片的调整,获得翻译后的图片。
第三方面,本说明书实施例提供了电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行上述任一方面所述的方法。
第四方面,本说明书实施例提供了计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方面所述的方法。
第五方面,本说明书实施例提供了计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方面所述的方法。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,提供的生成式图片翻译方法在首先提取源图片的图片元素及文字元素后,对文字元素进行分组翻译,使文字元素的文字成为目标语种的文字,而后对图片元素及文字元素进行生成式的排版及图像生成,获得目标图片,结合预先配置的排版及色彩平衡审核规则,保障目标图片的排版及色彩平衡,减少了人工调整排版及色彩的步骤,扩展了图片翻译的适用范围。
本说明书一个或多个实施例的其他特点和优点将会在下面的具体实施方式、附图中进一步揭示。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的生成式图片翻译方法应用场景示意图。
图2为本说明书实施例提供的生成式图片翻译方法部署示意图。
图3为本说明书实施例提供的生成式图片翻译方法流程示意图。
图4为本说明书实施例提供的排版类型示意图。
图5为本说明书实施例提供的将文字元素分组方法流程示意图。
图6为本说明书实施例提供的生成目标文字方法流程示意图。
图7为本说明书实施例提供的生成图片元素的排版优先级方法流程示意图。
图8为本说明书实施例提供的生成目标图片方法流程示意图。
图9为本说明书实施例提供的获得排版及图像的调整指令方法流程示意图。
图10为本说明书实施例提供的生成式图片翻译系统示意图。
图11为本说明书实施例提供的电子设备示意图。
具体实施方式
下面结合本说明书实施例的附图对本说明书实施例的技术方案进行解释和说明,但下述实施例仅为本说明书的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本说明书的保护范围。
本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在下文描述中,出现诸如术语“内”、“外”、“上”、“下”、“左”、“右”等指示方位或者位置关系仅是为了方便描述实施例和简化描述,而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本说明书的限制。
本申请所涉及的数据,均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的采集遵守相关国家和地区的相关法律法规和标准。
名词解释
图片翻译
图片翻译是一种利用人工智能技术将图像中的文字内容,识别并转换为另一种语言的过程。具体来说,首先通过OCR(Optical Character Recognition,光学字符识别)技术对图片中的文本进行提取和识别,然后运用机器翻译技术将其翻译成目标语言。这一过程广泛应用于各类场景,如路牌、菜单、文档截图等非电子文本的翻译,极大地方便了跨语言信息获取与交流。然而翻译后新语种的文字与源图片10中文字的占据的排版空间将发生变化,会导致翻译后的图片排版混乱。且源图片10中文字的颜色、字体、字号,在翻译后的语种的文字中,常没有相应的字体,文字的颜色、字号也存在不能直接沿用的情况。
图片元素
图片元素指构成源图片10及目标图片12的图元。图元代表了在源图片10及目标图片12中,能够独立参与排版操作的图像单位。如附图1中所示的月牙为一个图片元素。山峰日出图则为另一个图片元素。
文字元素
文字元素指源图片10及目标图片12中,能够独立参与排版操作的单个字符。因源图片10及目标图片12所对应的语种不同,文字元素会因语种发生变化。示例性的,当语种为汉语时,参与排版的既可以是单个汉字,也可以是一个词语。当语种为英语时,参与排版的既可以是单个单词,也可以是构成单词的一个个字母。即文字元素可以是一个汉字也可以是一个词语或者句子,既可以是一个单词,也可以是一个字母。具体的确定由源图片10的排版类型及排版模板决定。
样本语句
样本语句指对应语种下的语句,包括日常语句、文学作品语句、技术作品语句等。样本语句记录了对应语种的大量合法语法的语句,通过对样本语句的学习,能够使机器学习掌握对应语种合法的语法。
语法属性
语法属性表示词、短语以及句子在句法结构中的特性与功能的属性。主要包括词类属性(如名词、动词、形容词等)、屈折变化形式属性(如时态、语态、数等)、句法角色属性(如主语、宾语、定语等)以及句法关系属性(如并列、从属等)。
排版属性
排版属性指在图片排版中对文本、图像和其他元素进行格式化控制的一系列参数。文字元素的排版属性涵盖了字体样式(如字号、字体族、粗细、斜体等)、颜色、行高、对齐方式(左对齐、居中、右对齐等)、间距(字间距、行间距、段落间距等)、边距、背景色/图像、浮动、定位、层叠顺序等多种视觉展示效果。图片元素的排版属性包括图片的位置、缩放比例、翻转属性等。
图像属性
图像属性指文字元素及图片元素转换为图像时,所具有的像素集合。
自然语言任务
本说明书所指自然语言任务涉及通过计算机处理和理解自然语言文本的各种任务。例如文本分类、信息抽取、机器翻译、文本生成、问答系统、语言模型、情感分析、文本聚类和文本相似度、语言理解等。
大语言模型
本说明书所指大语言模型(Large Language Model,LLM)涉及一种能够进行自然语言处理的人工智能模型。其基于深度学习,通过训练大量的文本数据,学习语言的规律、结构、语法、语境以及丰富的语义信息。能够理解输入的自然语言文本,并能够生成连贯、有逻辑的新文本,或者对输入进行分析和解释。大语言模型可以应用于广泛的自然语言处理任务,包括但不限于文本生成、文本摘要、问答系统、文档检索、机器翻译、情感分析、对话系统、代码编写等众多领域。示例性的,大语言模型包括GPT-3、BERT系列、通义千问等。
应用场景一
使用本说明书记载的一个或多个实施例,为个人或企业用户21提供图片上文字的翻译服务。识别图片上的文字,并翻译成用户21指定的目标语言后,将目标语言的图像叠加到源图片10上(需先抠除源图片10上的文字,并填补背景色。背景色视为图片元素,由图片元素的相关操作实现)。翻译后的目标图片12能够在目标语言对应语种的使用范围内流转,被更多用户21查看阅读。
应用场景二
使用本说明书记载的一个或多个实施例,为跨境电商提供宣传海报、广告、产品介绍图片的跨境转换服务。跨境电商使用一种语言制作宣传海报、广告、产品介绍图片后,使用本说明书记载的图片翻译服务,生成指定的目标语种的目标图片12(即相应的,载有目标语种的宣传海报、广告、产品介绍图片),从而能够方便的将宣传海报、广告、产品介绍图片,投放到更多的地区,更有效率的完成线上跨境铺货,减少工作量。
应用场景三
使用本说明书记载的一个或多个实施例,为个人或企业用户21提供文档翻译的服务(需增加文档截页,翻译后合页的功能模块)。将文档转换为多个单页的图片,将图片进行翻译后获得目标图片12,将目标图片12再次合页成为翻译后的文档。实现为用户21进行文档翻译的功能,且翻译后的文档具有符合排版及及色彩平衡审核规则,能够更加符合用户21的阅读习惯(排版符合排版规则,更符合阅读习惯,色彩平衡则不会因色彩问题引起用户21不适感)。请参阅附图1,为示例性的将文档中的一页进行翻译的示意图,当使用现有技术通过的简单翻译功能时,会得到简单翻译图片11,直接在源图片10的文字所在位置的左上角对齐后,填入翻译后的文字,不进行排版的调整,破坏了排版结构,不符合阅读习惯。另一方面,采用本说明书提供的图片翻译技术,考虑到了排版及色彩平衡的审核,保证了排版符合用户21阅读习惯,符合一般排版规则,且色彩平衡后,不会引起色彩方面的不适。
本说明书提供的一个或多个实施例可以部署在服务器23上,也可以部署在云服务器2322上。请参阅附图2,用户21可以通过各种终端访问服务器23或云服务器2322获得服务。示例性的,使用PC机、笔记本电脑、智能手机获取服务(即进行图片翻译)。
本说明书首先提供了一种生成式图片翻译方法,请参阅附图3,包括步骤:
步骤102)提取源图片10上的图片元素及文字元素,识别源图片10的排版类型;
步骤104)将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
步骤106)基于源图片10的所述排版类型及预设的排版模板库,生成目标图片12的排版模板或接收指定的排版模板;
步骤108)根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
步骤110)识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
步骤112)基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片12的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片12的响应,获得调整指令;
步骤114)基于所述调整指令对所述目标图片12的调整,获得翻译后的图片。
排版类型包括版式和布点集。版式包括横式、竖式、方式,横式表示横向长度长于竖向长度,竖式则表示横向长度小于竖向长度,方式表示竖向和横向长度相同。布点集表示在版式中适合添加图片元素的位置的集合。请参阅附图4,表示了两个竖式版式及其设置的布点集。其中一个布点集仅有两个位置,在中上部的两个黄金分割点处。另一个布点集内有5个位置,分别在左侧的两端及中部,以及右侧的两个黄金分割点处。基于源图片10的排版类型(即版式和布点集),从排版模板库中找到最为接近的排版模板,用于目标图片12的生成。提取源图片10上的文字元素后,需要对源图片10的背景进行填补修复,修复背景的技术采用现有技术中披露的技术即可,背景被视为图片元素,其排版优先级为最高级,位置以左上角定位则固定为(0,0)。排版属性及图像属性在前有介绍。当提取到的图片元素(除背景对应的图片元素外),数量较多时。排版模板的布点集包含的位置数量小于图片元素的数量,此时将存在部分图片元素不被纳入目标图片12中,按照排版优先级确定哪些图片元素不被纳入目标图片12。排版及色彩平衡审核规则包括,排版审核规则和色彩平衡审核规则。排版审核规则包括:生成图片元素及文字元素的包络方框,获得每个包络方框的横向中心线和竖向中心线;获得横向有重叠的包络方框的组合,判断组合内一个横向中心线是否位于至少另一个包络方框竖向区域的两个黄金分割点之间的范围内,若每个横向中心线均位于至少另一个包络方框竖向区域的两个黄金分割点之间的范围内,则横向排版审核通过,反之,则横向排版审核不通过;获得竖向有重叠的包络方框的组合,判断组合内一个竖向中心线是否位于至少另一个包络方框竖向区域的两个黄金分割点之间的范围内,若每个竖向中心线均位于至少另一个包络方框竖向区域的两个黄金分割点之间的范围内,则竖向排版审核通过,反之,则竖向排版审核不通过。当横向排版审核不通过,生成横向调节文字元素或者图片元素的调整指令。色彩平衡审核规则包括图片元素的平均色温与图片元素的面积呈反比。以任一图片元素作为参照均应成立,则色彩平衡审核通过,反之,则色彩平衡审核不通过。当色彩平衡审核不通过时,生成调整比例不符的图片元素的缩放比例,将其扩大或者缩小相应的倍率。
另一方面,在另外的实施方式中,请参阅附图5,将所述文字元素分组,将分组后的所述文字元素翻译成目标文字的方法包括步骤:
步骤202)接收源图片10上文字同语种的语料库,所述语料库记录样本语句;
步骤204)提取所述样本语句中每个词的语法属性,基于所述语法属性建立所述样本语句的语句特征向量,基于所述语句特征向量建立特征库;
步骤206)标记所述文字元素的语法属性,穷举所述文字元素的分组方案,分组方案包括若干个分组,每个分组视为一个语句,获得每个分组方案中全部语句的语句特征向量;
步骤208)基于分组方案中全部语句的语句特征向量与所述特征库的向量距离的平均值,从全部分组方案中选出最终的分组方案;
步骤210)基于最终的所述分组方案将全部所述文字元素划分为若干个语句,将若干个所述语句翻译成目标文字。通过语料库实现对相应语种的语法的学习,使机器学习模型能够学习并正确的进行断句(即分组)。
另一方面,在另外的实施方式中,将所述文字元素分组,将分组后的所述文字元素翻译成目标文字的方法包括步骤:
基于所述源图片10上的文字元素,生成断句的然语言任务;
基于预先接入的大语言模型对所述自然语言任务的响应,将全部所述文字元素划分为若干个语句,将若干个所述语句翻译成目标文字。
大语言模型基于其已经学习到的知识,能够实现对文字元素的分组。同样也能够完成对分组后的文字元素进行翻译。
另一方面,在另外的实施方式中,识别源图片10的排版类型的方法包括步骤:
标记每个所述图片元素及所述文字元素的包络长方形,所述包络长方形的中心作为所述图片元素或所述文字元素的位置点,获得位置点分布;
基于所述位置点分布与预设的排版类型匹配库的比对,获得源图片10的排版类型。源图片10的位置点,对应排版模板的布点集中的位置。排版类型匹配库与排版模板库,可以是同一个库。排版类型匹配库中的排版对应排版模板库中的排版模板。与源图片10的排版类型最接近的排版模板,作为对应的排版作为对应的排版类型。另一方面,排版类型匹配库与排版模板库,是不同的库。排版类型匹配库由样本源图片10经人工标注版式及布点集获得。
另一方面,在另外的实施方式中,基于源图片10的所述排版类型及预设的排版模板库,生成目标图片12的排版模板的方法为:从所述排版模板库中选择与所述排版类型相似度最高的排版模板,作为目标图片12的排版模板。
另一方面,在另外的实施方式中,请参阅附图6,根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性的方法包括步骤:
步骤302)读入预先配置的排版调整规则及图像调整规则;
步骤304)基于所述文字元素的排版属性与所述排版调整规则的比对,生成目标文字的排版属性;
步骤306)基于所述文字元素的图像属性与所述图像调整规则的比对,生成目标文字的图像属性。
另一方面,在另外的实施方式中,请参阅附图7,识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级的方法包括步骤:
步骤402)识别所述源图像的图像色温及情绪分类,读入预先配置的匹配度计算规则;
步骤404)基于所述匹配度计算规则对所述图片元素的图像属性、所述源图像的图像色温及情绪分类的响应,获得所述图片元素的匹配度;
步骤406)基于所述图片元素的匹配度获得生成图片元素的排版优先级。
图像色温使用平均法或者加权均值等现有技术公开的方式获得。情绪分类的获得使用现有技术披露的方案进行即可,示例性的,使用具有情绪识别的大语言模型进行获取。示例性的,匹配度计算规则为图像色温的相似度与情绪分类的相似度的加权均值。又一示例性的,匹配度计算规则为图像色温的相似度与情绪分类的相似度的乘积。
另一方面,在另外的实施方式中,请参阅附图8,基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片12的排版及图像的方法包括步骤:
步骤502)根据所述目标文字的排版属性,将所述文字元素放置到目标图片12的相应位置;
步骤504)基于所述目标文字的图像属性,生成所述文字元素的图像,叠加到预先生成的目标图片12的背景图上;
步骤506)基于所述排版模板及所述文字元素已占据的位置,获得剩余排版位置;
步骤508)根据所述剩余排版位置及所述排版优先级,将对应的所述图片元素依次添加到所述剩余排版位置;
步骤510)基于所述图片元素与所述目标图片12的背景图的叠加,生成目标图片12的排版及图像。
另一方面,在另外的实施方式中,请参阅附图9,基于预先配置的排版及色彩平衡审核规则对所述目标图片12的响应,获得排版及图像的调整指令的方法包括步骤:
步骤602)读入预先配置的排版及色彩平衡审核规则;
步骤604)基于所述排版及色彩平衡审核规则对所述目标图片12的排版及图像的响应,获得排版及色彩平衡的审核结果;
步骤606)基于所述审核结果生成调整指令,基于所述调整指令调整所述文字元素及所述图片元素;
步骤608)重新执行基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片12的排版及图像后,再次执行本方法。
通过配置排版及色彩平衡审核规则约束目标图片12的排版及色彩平衡情况,有助于保障目标图片12的排版质量及色彩平衡情况,使目标图片12符合用户21的阅读习惯,且不会因色彩不平衡引起不适。
另一方面,本说明书提供了生成式图片翻译系统,请参阅附图10,包括:
读入模块100,用于提取源图片10上的图片元素及文字元素,识别源图片10的排版类型;
分组翻译模块200,用于将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
排版模块300,用于基于源图片10的所述排版类型及预设的排版模板库,生成目标图片12的排版模板或接收指定的排版模板;
文字生成模块700400,用于根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
图像排版模块500,用于识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
调整指令模块600,用于基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片12的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片12的响应,获得调整指令;
生成模块700,用于基于所述调整指令对所述目标图片12的调整,获得翻译后的图片。
请参阅图11示出的本说明书实施例提供的一种电子设备的结构示意图。
如图11所示,该电子设备 1100可以包括:至少一个处理器 1101、至少一个网络接口 1104、用户接口 1103、存储器 1105以及至少一个通信总线 1102。其中,通信总线 1102可用于实现上述各个组件的连接通信。其中,用户接口 1103可以包括按键,可选用户接口还可以包括标准的有线接口、无线接口。其中,网络接口 1104 可以但不局限于包括蓝牙模块、NFC 模块、Wi-Fi 模块等。其中,处理器 1101 可以包括一个或者多个处理核心。处理器1101 利用各种接口和线路连接整个电子设备 1100内的各个部分,通过运行或执行存储在存储器 1105 内的指令、程序、代码集或指令集,以及调用存储在存储器 1105 内的数据,执行路由设备 1100 的各种功能和处理数据。可选的,处理器 1101 可以采用 DSP、FPGA、PLA 中的至少一种硬件形式来实现。处理器 1101 可集成CPU、GPU 和调制解调器等中的一种或几种的组合。其中,CPU 主要处理操作系统、用户21界面和应用程序等;GPU 用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。
可以理解的是,上述调制解调器也可以不集成到处理器 1101中,单独通过一块芯片进行实现。
其中,存储器 1105 可以包括 RAM,也可以包括 ROM。可选的,该存储器 1105 包括非瞬时性计算机可读介质。存储器 1105 可用于存储指令、程序、代码、代码集或指令集。存储器 1105可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1105 可选的还可以是至少一个位于远离前述处理器 1101 的存储装置。作为一种计算机存储介质的存储器 1105中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。处理器 1101 可以用于调用存储器 1105 中存储的应用程序,并执行上述一个或多个实施例中的方法。
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中的一个或多个步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。
本说明书实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实施例中的一个或多个步骤。
在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器23或数据中心通过有线(例如同轴电缆、光纤、数字用户21线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器23或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器23、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
当通过硬件、固件实现时,将前述的方法流程编程到硬件电路中来得到相应的硬件电路结构,实现相应的功能。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(FieldProgrammable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户21对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入本说明书的权利要求书确定的保护范围内。
Claims (10)
1.生成式图片翻译方法,其特征在于,包括步骤:
提取源图片上的图片元素及文字元素,识别源图片的排版类型;
将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板或接收指定的排版模板;
根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得调整指令;
基于所述调整指令对所述目标图片的调整,获得翻译后的图片。
2.根据权利要求1所述的生成式图片翻译方法,其特征在于,
将所述文字元素分组,将分组后的所述文字元素翻译成目标文字的方法包括步骤:
接收源图片上文字同语种的语料库,所述语料库记录样本语句;
提取所述样本语句中每个词的语法属性,基于所述语法属性建立所述样本语句的语句特征向量,基于所述语句特征向量建立特征库;
标记所述文字元素的语法属性,穷举所述文字元素的分组方案,分组方案包括若干个分组,每个分组视为一个语句,获得每个分组方案中全部语句的语句特征向量;
基于分组方案中全部语句的语句特征向量与所述特征库的向量距离的平均值,从全部分组方案中选出最终的分组方案;
基于最终的所述分组方案将全部所述文字元素划分为若干个语句,将若干个所述语句翻译成目标文字;
或者,
将所述文字元素分组,将分组后的所述文字元素翻译成目标文字的方法包括步骤:
基于所述源图片上的文字元素,生成断句的自然语言任务;
基于预先接入的大语言模型对所述自然语言任务的响应,将全部所述文字元素划分为若干个语句,将若干个所述语句翻译成目标文字。
3.根据权利要求1或2所述的生成式图片翻译方法,其特征在于,
识别源图片的排版类型的方法包括步骤:
标记每个所述图片元素及所述文字元素的包络长方形,所述包络长方形的中心作为所述图片元素或所述文字元素的位置点,获得位置点分布;
基于所述位置点分布与预设的排版类型匹配库的比对,获得源图片的排版类型;
基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板的方法为:从所述排版模板库中选择与所述排版类型相似度最高的排版模板,作为目标图片的排版模板。
4.根据权利要求1所述的生成式图片翻译方法,其特征在于,
根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性的方法包括步骤:
读入预先配置的排版调整规则及图像调整规则;
基于所述文字元素的排版属性与所述排版调整规则的比对,生成目标文字的排版属性;
基于所述文字元素的图像属性与所述图像调整规则的比对,生成目标文字的图像属性。
5.根据权利要求1或2所述的生成式图片翻译方法,其特征在于,
识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级的方法包括步骤:
识别所述源图像的图像色温及情绪分类,读入预先配置的匹配度计算规则;
基于所述匹配度计算规则对所述图片元素的图像属性、所述源图像的图像色温及情绪分类的响应,获得所述图片元素的匹配度;
基于所述图片元素的匹配度获得生成图片元素的排版优先级。
6.根据权利要求5所述的生成式图片翻译方法,其特征在于,
基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像的方法包括步骤:
根据所述目标文字的排版属性,将所述文字元素放置到目标图片的相应位置;
基于所述目标文字的图像属性,生成所述文字元素的图像,叠加到预先生成的目标图片的背景图上;
基于所述排版模板及所述文字元素已占据的位置,获得剩余排版位置;
根据所述剩余排版位置及所述排版优先级,将对应的所述图片元素依次添加到所述剩余排版位置;
基于所述图片元素与所述目标图片的背景图的叠加,生成目标图片的排版及图像。
7.根据权利要求6所述的生成式图片翻译方法,其特征在于,
基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得排版及图像的调整指令的方法包括步骤:
读入预先配置的排版及色彩平衡审核规则;
基于所述排版及色彩平衡审核规则对所述目标图片的排版及图像的响应,获得排版及色彩平衡的审核结果;
基于所述审核结果生成调整指令,基于所述调整指令调整所述文字元素及所述图片元素;
重新执行基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像后,再次执行本方法。
8.生成式图片翻译系统,其特征在于,包括:
读入模块,用于提取源图片上的图片元素及文字元素,识别源图片的排版类型;
分组翻译模块,用于将所述文字元素分组,将分组后的所述文字元素翻译成目标文字;
排版模块,用于基于源图片的所述排版类型及预设的排版模板库,生成目标图片的排版模板或接收指定的排版模板;
文字生成模块,用于根据所述文字元素的排版属性及图像属性,生成目标文字的排版属性及图像属性;
图像排版模块,用于识别图片元素的图像属性,基于所述图片元素的图像属性,生成图片元素的排版优先级;
调整指令模块,用于基于所述排版模板、所述排版优先级、目标文字的排版属性及图像属性,生成目标图片的排版及图像,基于预先配置的排版及色彩平衡审核规则对所述目标图片的响应,获得调整指令;
生成模块,用于基于所述调整指令对所述目标图片的调整,获得翻译后的图片。
9.电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-7任一项所述的方法。
10.计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410358450.1A CN117953109A (zh) | 2024-03-27 | 2024-03-27 | 生成式图片翻译方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410358450.1A CN117953109A (zh) | 2024-03-27 | 2024-03-27 | 生成式图片翻译方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953109A true CN117953109A (zh) | 2024-04-30 |
Family
ID=90794880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410358450.1A Pending CN117953109A (zh) | 2024-03-27 | 2024-03-27 | 生成式图片翻译方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953109A (zh) |
-
2024
- 2024-03-27 CN CN202410358450.1A patent/CN117953109A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silberztein | Formalizing natural languages: The NooJ approach | |
CN111428467A (zh) | 生成阅读理解的问题题目的方法、装置、设备及存储介质 | |
CN114638914A (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN114820881A (zh) | 图片的生成方法、智能终端及其计算机可读存储介质 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
US20210350090A1 (en) | Text to visualization | |
CN113268593A (zh) | 意图分类和模型的训练方法、装置、终端及存储介质 | |
CN117953109A (zh) | 生成式图片翻译方法、系统、电子设备及存储介质 | |
CN111813948A (zh) | 信息处理方法、装置及电子设备 | |
KR102476208B1 (ko) | 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
US11010978B2 (en) | Method and system for generating augmented reality interactive content | |
KR102096163B1 (ko) | 외국어 입체 구조 분석 방법 | |
JP7144795B2 (ja) | 和文字変換プログラム及び和文字変換装置 | |
KR102103027B1 (ko) | 영어학습교재 및 이를 이용한 영어 학습 콘텐츠 서비스 제공 방법 | |
CN113535017B (zh) | 一种绘本文件的处理、同步显示方法、装置及存储介质 | |
KR20170043292A (ko) | 복잡한 다단 구조의 레이아웃으로 구성된 전자책 및 전자문서 데이터의 음성 합성 방법 및 장치 | |
CN112988958A (zh) | 信息处理装置、记录媒体及信息处理方法 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
KR20130083002A (ko) | Xml 기반의 디지털 교육 콘텐츠 관리 장치 및 방법 | |
CN112652294B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
Rai et al. | MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
TWI828490B (zh) | 翻頁式漫畫線上文字翻譯系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |