发明内容
本申请实施例的主要目的在于提供一种文案漏译检测方法、设备和存储介质,实现了不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率,提高用户体验。
第一方面,本申请实施例提供一种文案漏译检测方法,包括:获取待处理文案信息,所述待处理文案信息包括待处理文案内容和标记语种;根据所述标记语种识别出所述待处理文案内容中的漏译文案;根据所述漏译文案的文案内容,对所述漏译文案进行分类,确定所述漏译文案所属的漏译类型。
于一实施例中,所述根据所述标记语种识别出所述待处理文案内容中的漏译文案,包括:对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种;判断所述至少一个所属语种是否均与所述标记语种相同;若存在与所述标记语种不同的第一语种,确定所述待处理文案内容中所述第一语种对应的文案为漏译文案。
于一实施例中,所述对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种,包括:将所述待处理文案内容输入预设语种识别模型,输出所述待处理文案内容对应的至少一个所属语种。
于一实施例中,所述获取待处理文案信息,包括:响应于用户上报的页面信息,获取所述页面信息和所述用户对应的标记语种;从所述页面信息中滤除对用户不可见的文案,得到所述待处理文案内容。
于一实施例中,在所述对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种之前,还包括:将所述待处理文案内容与第一预设词库进行比对,若所述待处理文案内容中存在所述第一预设词库中记录的第一文案,并且所述第一文案被记录的所属语种与所述标记语种相同,则从所述待处理文案内容中滤除所述第一文案;所述第一预设词库中包括多个文案和各个文案的所属语种。
于一实施例中,在所述对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种之前,还包括:将所述待处理文案内容与第二预设词库进行比对,若所述待处理文案内容中存在所述第二预设词库中记录的第二文案,则从所述待处理文案内容中滤除所述第二文案,所述第二文案包括:预设格式的术语和/或符号。
于一实施例中,所述根据所述漏译文案的文案内容,对所述漏译文案进行分类,确定所述漏译文案所属的漏译类型,包括:判断所述漏译文案的文案内容中是否存在对象标题;若所述漏译文案中存在对象标题,确定所述对象标题对应的文案所属漏译类型为标题文案漏译。
于一实施例中,所述根据所述漏译文案的文案内容,对所述漏译文案进行分类,确定所述漏译文案所属的漏译类型,包括:判断所述漏译文案的文案内容是否存在框架文案;若所述漏译文案中存在框架文案,确定所述框架文案所属的漏译类型为框架文案漏译。
于一实施例中,所述根据所述漏译文案的文案内容,对所述漏译文案进行分类,确定所述漏译文案所属的漏译类型,包括:判断所述漏译文案中是否存在第三文案,所述第三文案用于描述对象属性和/或度量衡;若所述漏译文案中存在所述第三文案,根据所述第三文案的描述内容确定所述第三文案的漏译类型;对于所述漏译文案中不是第三文案、不是框架文案也不是对象标题的文案,确定所属的漏译类型为其他类型漏译。
于一实施例中,还包括:若所述至少一个所属语种中存在与所述标记语种相同的第二语种,将所述待处理文案内容中所述第二语种对应的文案加入所述第一预设词库。
于一实施例中,所述获取待处理文案信息,包括:响应于在用户界面录入的漏译检测操作,获取所述漏译检测操作指定的待处理文案信息;和/或,在所述确定所述漏译文案所属的漏译类型之后,还包括:在所述用户界面展示漏译检测结果。
第二方面,本申请实施例提供一种文案漏译处理方法,包括:获取待处理文案信息;采用如上述任一方面所述的方法,对所述待处理文案信息进行漏译检测,得到所述待处理文案中漏译文案所属的漏译类型;根据所述漏译文案所属的漏译类型,生成所述漏译类型对应的漏译处理任务,分别执行所述漏译处理任务。第三方面,本申请实施例提供一种文案漏译检测装置,包括:
获取模块,用于获取待处理文案信息,所述待处理文案信息包括待处理文案内容和标记语种;
识别模块,用于根据所述标记语种识别出所述待处理文案内容中的漏译文案;
分类模块,用于根据所述漏译文案的文案内容,对所述漏译文案进行分类,确定所述漏译文案所属的漏译类型。
于一实施例中,所述识别模块,用于对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种;判断所述至少一个所属语种是否均与所述标记语种相同;若存在与所述标记语种不同的第一语种,确定所述待处理文案内容中所述第一语种对应的文案为漏译文案。
于一实施例中,所述识别模块,用于将所述待处理文案内容输入预设语种识别模型,输出所述待处理文案内容对应的至少一个所属语种。
于一实施例中,所述获取模块,用于响应于用户上报的页面信息,获取所述页面信息和所述用户对应的标记语种;从所述页面信息中滤除对用户不可见的文案,得到所述待处理文案内容。
于一实施例中,所述识别模块,还用于在所述对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种之前,将所述待处理文案内容与第一预设词库进行比对,若所述待处理文案内容中存在所述第一预设词库中记录的第一文案,并且所述第一文案被记录的所属语种与所述标记语种相同,则从所述待处理文案内容中滤除所述第一文案;所述第一预设词库中包括多个文案和各个文案的所属语种。
于一实施例中,所述识别模块,还用于在所述对所述待处理文案内容分别进行语种识别,得到所述待处理文案内容对应的至少一个所属语种之前,还包括:将所述待处理文案内容与第二预设词库进行比对,若所述待处理文案内容中存在所述第二预设词库中记录的第二文案,则从所述待处理文案内容中滤除所述第二文案,所述第二文案包括:预设格式的术语和/或符号。
于一实施例中,所述分类模块,用于判断所述漏译文案的文案内容中是否存在对象标题;若所述漏译文案中存在对象标题,确定所述对象标题对应的文案所属漏译类型为标题文案漏译。
于一实施例中,所述分类模块,用于判断所述漏译文案的文案内容是否存在框架文案;若所述漏译文案中存在框架文案,确定所述框架文案所属的漏译类型为框架文案漏译。
于一实施例中,所述分类模块,用于判断所述漏译文案中是否存在第三文案,所述第三文案用于描述对象属性和/或度量衡;若所述漏译文案中存在所述第三文案,根据所述第三文案的描述内容确定所述第三文案的漏译类型;对于所述漏译文案中不是第三文案、不是框架文案也不是对象标题的文案,确定所属的漏译类型为其他类型漏译。
于一实施例中,还包括:添加模块,用于若所述至少一个所属语种中存在与所述标记语种相同的第二语种,将所述待处理文案内容中所述第二语种对应的文案加入所述第一预设词库。
第四方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行上述任一方面所述的方法。
第五方面,本申请实施例提供一种云设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述云设备执行上述任一方面所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一方面所述的方法。
第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方面所述的方法。
本申请实施例提供的文案漏译检测方法、设备和存储介质,通过基于用户选定的标记语种对待处理文案进行漏译识别,先确定漏译文案,然后对漏译文案进行分类。如此,不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率,提高用户体验。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本文中术语“和/或”,用于描述关联对象的关联关系,具体表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
为了清楚地描述本申请实施例的技术方案,首先对本申请所涉及的名词进行释义:
NLP:Natural Language Processing,自然语言处理。
Unicode:统一码,也叫万国码、单一码,由统一码联盟开发,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
Unicode Block:统一码区域,Unicode的字符码区域,即Unicode的分割区域所代表的意思。
APP:Application,应用程序。
PC:Personal Computer,个人计算机。
CNN:Convolutional Neural Network,卷积神经网络。
如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程,以实现不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率,提高用户体验。
于一实施例中,电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机或者多个计算机组成的大型运算系统。
图2为本申请实施例提供的一种文案漏译检测系统200的示意图。如图2所示,该系统包括:服务器210和终端220,其中:
服务器210可以是提供文案漏译检测服务的数据平台,比如可以是多语种电商购物平台。实际场景中,一个多语种电商购物平台可能有多个服务器210,图2中以1个服务器210为例。
终端220可以是用户登录多语种电商购物平台时使用的电脑、手机、平板等设备,终端220也可以有多个,图2中以2个终端220为例进行示意。
终端220与服务器210之间可以通过互联网进行信息传输,以使终端220可以访问服务器210上的数据。上述终端220和/或服务器210均可以由电子设备1来实现。
本申请实施例的文案漏译检测方式可以应用于任意需要文案漏译处理的领域。
多语网站,是指一个网站具有多个语言版本,比如,一家企业的网站,不仅有中文页面,更能同时提供英语、日语、韩语、德语等多个语言种类的网站页面,通常人们把具有此类功能的网站简称为“多语言网站”或“多语网站”。
随着信息技术全球化的迅速发展,多语言网站页面成为促进经济文化全球化繁荣的重要工具。实际场景中,为了适用不同语言场景,往往需要将网站页面内容,从一种语言翻译到另一种语言,当前的网页翻译一般分为人工翻译和及其翻译,其中机器翻译已成为使用普遍的翻译技术。
以多语种电商购物平台场景为例,多语种电商购物平台是指支持多种语言切换的线上购物平台,用户可以根据自己需求,选择页面的语种,可以采用机器翻译或者人工翻译的方式,将页面内容翻译成用户选定的语种,以使页面可以支持不同语种的展现。比如国际化的电商购物平台,会面向来自不同国家或地区的用户,这些用户习惯使用的语言可能是不一样,因此多语种的页面配置,可以提高各个语言区域的用户体验。
然而当前的页面语言翻译技术,在翻译时往往会漏掉某些内容,即存在一定量的文案漏译。多语种页面的漏译情况的处理效率,直接影响了使用页面的用户体验,因此如何准确的检测漏译内容,进而提高漏译问题处理的效率,成为亟待解决的问题。
为了解决上述问题,本申请实施例提供一种文案漏译检测方案,通过基于用户选定的标记语种对待处理文案进行漏译识别,先确定漏译文案,然后对漏译文案进行分类。如此,不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。
上述文案漏译检测方案可以部署在服务器210上,也可以部署在终端220上,或者部分部署在服务器210上,部分部署在终端220上。实际场景中可以基于实际需求选择,本实施例不做限定。
当文案漏译检测方案全部或者部分部署在服务器210上时,可以对终端220开放调用接口,以对终端220提供算法支持。
下面结合附图,对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
请参看图3,其为本申请一实施例的文案漏译检测方法,该方法可由图1所示的电子设备1来执行,并可以应用于图2所示的传文案漏译检测的应用场景中,以实现不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。本实施例以终端220为执行端为例,该方法包括如下步骤:
步骤301:获取待处理文案信息,待处理文案信息包括待处理文案内容和标记语种。
在本步骤中,待处理文案信息可以是多语言网站的页面文案信息,比如可以是多语种电商购物平台中的页面文案信息。待处理文案内容可以是页面文案信息中的文案内容,比如商品页面中的商品详情描述文案、页面的导航栏中的文案等等。标记语种是待处理文案内容应该呈现的语种,比如可以是由用户选定语种或者系统根据用户位置选取的适配于当前用户位置的默认语种。
于一实施例中,步骤301具体可以包括:响应于用户上报的页面信息,获取页面信息和用户对应的标记语种。从页面信息中滤除对用户不可见的文案,得到待处理文案内容。
在本实施例中,用户对应的标记语种可以是用户选定的语种或者系统根据用户位置选取的适配于当前用户位置的默认语种。可以通过用户上报漏译页面信息来获取待处理的页面信息和标记语种,然后从页面信息中滤除用户不可见的文案,即可得到待处理文案内容。对用户不可见的文案是指页面中有些文案内容不对用户呈现,虽然用户打开页面时看不到,但是这些文案实际是存在的,由于用户看不到,不会直接影响用户体验,因此可以将其滤除,减少数据计算量。
实际场景中,页面上所有的字符都有自己的Unicode Block,不同的字符有不同的Unicode Block,因此可以基于用户使用的APP/PC端上报的页面信息,然后对页面文案进行Unicode Block检测,如果Unicode Block为private use area(私人使用区域或者专用区域),则代表这段文案对用户不可见,将其滤除掉,剩余的文案就是待处理文案内容。实现以用户视角识别漏译文案,从而提高用户体验。
步骤302:根据标记语种识别出待处理文案内容中的漏译文案。
在本步骤中,漏译文案是指在将页面文案翻译成用户当前选定的语种或者用户当前位置默认的语种时,页面中没能成功实现翻译的那部分文案。比如用户选定的标记语种为日语,页面文案的源语种是英语,则该页面中没有成功翻译成日语的英文文案就是漏译文案,因此可以基于标记语种来识别页面的文案内容中哪些是漏译文案。
于一实施例中,步骤302具体可以包括文案过滤和语种识别两个过程,在进行语种识别之前,可以先进行文案过滤,文案过滤具体可以包括:将待处理文案内容与第一预设词库进行比对,若待处理文案内容中存在第一预设词库中记录的第一文案,并且第一文案被记录的所属语种与标记语种相同,则从待处理文案内容中滤除第一文案。
在本实施例中,第一预设词库中包含但不限于:多个文案和各个文案的所属语种。也就是说第一预设词库中存储了不同语种对应的文案,这些文案可能是之前的语种检测中检测到的,每段文案都标记了其真实语种。在识别待处理文案内容的语种之前,首先可以通过第一预设词库对待处理文案内容中已翻译文案进行滤除,将待处理文案内容中的各段文案分别与第一预设词库进行比对,如果某段文案被记录在第一预设词库中,并且该段文案在第一预设词库中记录的所属语种与标记语种一样,则这段文案就是第一文案,第一文案是已成功翻译的文案,这样的文案不需要进行漏译识别,因此可以从待处理文案内容中删掉,减少后续语种识别的输入量,提高计算效率。
于一实施例中,步骤302具体可以包括文案过滤和语种识别两个过程,在进行语种识别之前,可以先进行文案过滤,文案过滤具体还可以包括:将待处理文案内容与第二预设词库进行比对,若待处理文案内容中存在第二预设词库中记录的第二文案,则从待处理文案内容中滤除第二文案,第二文案包括:预设格式的术语和/或符号。
在本实施例中,第二预设词库中包括多个预设格式的术语和/或符号。第二预设词库用于对不需要翻译的特定术语和特殊符号等内容进行过滤。特定术语比如可以是:特定企业的名称。特殊符号可以是在任何语种下都一样的符号,比如阿拉伯数字、数学运算符号等。在识别待处理文案内容的语种之前,首先可以通过第二预设词库对待处理文案内容中不需要翻译文案进行滤除,将待处理文案内容中各段文案分别与第二预设词库进行比对,如果某段文案被记录在第二预设词库中,说明该段文案不需要进行翻译,这段文案就是第二文案,将该段第二文案从待处理文案内容中删掉,如此,在识别语种之前,首先通过术语、符号词库对待处理文案进行滤除,减少后续语种识别的输入量,提高计算效率。
于一实施例中,步骤302具体可以包括:对待处理文案内容分别进行语种识别,得到待处理文案内容对应的至少一个所属语种。判断至少一个所属语种是否均与标记语种相同。若存在与标记语种不同的第一语种,确定待处理文案内容中第一语种对应的文案为漏译文案。
在本实施例中,待处理文案内容中可能存在多段文案,可能包括几句完整的句子,也可能包括词语、短语或者句子中的部分内容,各段文案所属的语种可能是一样的,也可能是不一样的,可以对各段文案分别进行语种识别,得到各段文案所属的语种。然后将各段文案所属语种分别与标记语种进行比对,判断二者是否相同,如果各段文案所属语种中存在与标记语种不同的第一语种,则说明待处理文案内容中第一语种对应的文案就是漏译文案,比如标记语种是日语,待处理文案内容中有一段文案的语种是英语,则此时英语就是第一语种,这段英语文案就是漏译文案。语种识别可以准确的找出漏译的文案。
于一实施例中,对待处理文案内容分别进行语种识别,得到待处理文案内容对应的至少一个所属语种,包括:将待处理文案内容输入预设语种识别模型,输出待处理文案内容对应的各个目标语种。
在本实施例中,可以采用神经网络模型进行语种检测,比如可以通过对样本文案进行语种标记,使用标记后的样本文案训练神经网络模型,得到预设语种识别模型。通过将待处理文案内容输入预设语种识别模型,使预设语种识别模型自动输出各段文案的所属语种。本实施例对用于语种识别的神经网络模型类型不做限定。本实施例中也可以使用其他方式实现语种识别,比如可以通过提供语种检测的平台实现语种识别,方便快捷。
于一实施例中,若至少一个所属语种中存在与标记语种相同的第二语种,将待处理文案内容中第二语种对应的文案加入第一预设词库。
在本实施例中,如果语种识别结果显示,各段文案的所属语种存在于标记语种相同的第二语种,则说明该第二语种对应的文案已经翻译成功,可以将该段文案加入第一预设词库中。比如标记语种是日语,经过语种识别后,待处理文案内容中有一段文案的语种是日语,则此时这段文案所属语种日语就是第二语种,这段日语文案就是成功翻译的文案。如果语种识别出的语种与用户选择的语种一样,则说明不是漏译的内容,这段内容可以写入第一预设词库,丰富第一预设词库的内容,便于后续词库匹配使用。
步骤303:根据漏译文案的文案内容,对漏译文案进行分类,确定漏译文案所属的漏译类型。
在本步骤中,实际场景中,网站页面内容可能涉及各个领域或者各个不同的业务场景,比如多语种电商购物平台中,用于描述页面的文案可能涉及不同的领域,比如描述商品详情的文案涉及商品业务领域,而描述页面框架的文案可能涉及到页面设计领域,在实际操作中,不同的领域会采用不同的技术原理。漏译文案中也可能涉及不同的领域,在处理漏译文案时就需要用到不同的技术原理,甚至需要不同的技术团队来处理。如果对漏译文案不加区分的处理,则容易给各个技术部门造成混乱,导致任务处理效率低下。因此在确定了漏译文案后,可以基于文案内容对漏译文案进行分类,以将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。
于一实施例中,步骤303具体可以包括:判断漏译文案的文案内容中是否存在对象标题。若漏译文案中存在对象标题,确定对象标题对应的文案所属漏译类型为标题文案漏译。
在本实施例中,对象是指文案描述的对象,对象可以是物品,比如在电商场景中,对象可以是商品,对象标题就可以是商品标题。对象也可以是事件,比如电商场景中某项赛事活动可以是对象,描述该赛事活动的标题就是对象标题。由此可见,对象标题会随着对象的变化而变化。以商品标题为例,商品标题涉及的电商业务场景的内容,属于电商场景下的一大类数据,并且直接影响到用户对商品信息的直观感受,因此可以作为一种漏译分类标准,便于统一对商品标题这一大类的漏译文案进行有针对性的处理。可以根据漏译文案的文案内容进行识别,判断是否存在商品标题,如果存在,记录商品标题这一段文案的漏译类型是标题文案漏译。
实际场景中,可以使用商品标题NLP模型判断漏译文案中的当前文案是否为商品标题,如果是,则记录当前文案是标题文案漏译。该商品标题NLP模型可以使用TextCNN算法实现。TextCNN是CNN模型在文本分类领域的一个应用,与传统CNN模型结构类似,但是TextCNN模型结构更加简单,只有一层卷积层和一层最大池化层,然后将池化结果拼接,经softmax(归一化指数函数)函数输出进行分类。比如可以通过对样本文案进行商品标题标记,使用标记后的样本文案训练NLP模型,得到商品标题识别模型。通过将漏译文案输入商品标题识别模型,如果商品标题识别模型识别到商品标题,则说明漏译文案中存在商品标题,可以将对应漏译文案的漏译类型记录为标题文案漏译。采用标题识别模型来识别商品标题,快速高效。
于一实施例中,步骤303具体可以包括:判断漏译文案的文案内容是否存在框架文案。若漏译文案中存在框架文案,确定框架文案所属的漏译类型为框架文案漏译。
在本实施例中,框架文案包括页面中不会被用户改动的文案,比如网页中的某些导航栏中的文案、工具栏文案、按钮文案等内容。框架文案体现了页面中的功能性属性,一般由系统后台工作人员维护,相对于对象标题具备一定的稳定性,也就是说变化频率没有对象标题那么高。因此框架文案可以作为一个分类标准,便于对该类别的漏译文案有针对性的进行处理,提高处理效率。可以根据漏译文案的文案内容进行识别,判断是否存在框架文案,如果存在,记录这一段文案的漏译类型是框架文案漏译。
实际场景中,可以使用框架文案NLP模型判断漏译文案中的当前文案是否为框架文案,如果是,记录当前文案是框架文案漏译。该框架文案NLP模型也可以使用TextCNN算法实现。比如可以通过对样本文案进行框架文案标记,使用标记后的样本文案训练NLP模型,得到框架文案识别模型。通过将漏译文案输入框架文案识别模型,如果框架文案识别模型识别到框架文案,则说明漏译文案中存在框架文案,可以将对应漏译文案的漏译类型记录为框架文案漏译。采用标题识别模型来识别框架文案,快速高效。
于一实施例中,也可以采用其他方式识别框架文案,比如判断漏译文案中的当前文案在一定时间段内的变化频率,如果变化频率低于一定阈值(比如%90),则确定该当前文案是框架文案,否则说明当前文案变化较频繁,可能是UGC(User Generated Content,用户生成内容)内容,就是用户原创的内容,则确定当前文案不是框架文案。
于一实施例中,步骤303具体还可以包括:判断漏译文案中是否存在第三文案,第三文案用于描述对象属性和/或度量衡。若漏译文案中存在第三文案,根据第三文案的描述内容确定第三文案的漏译类型。
在本实施例中,对象属性用于描述对象的基本属性信息,比如商品的颜色。度量衡可以描述对象的尺寸大小等信息。对象属性一般由后台配置,因此也属于框架文案的一种。如果漏译文案中存在对象属性的文案,则可以确定该文案的漏译类型为框架文案漏译。比如漏译文案为:商品1的颜色:红色。其中“商品1的颜色”就是对象属性,“红色”是该对象属性对应的取值。这里漏译文案中的“商品1的颜色”就是框架文案漏译,但是“红色”是用户可以改变的内容,就不属于框架文案漏译。
同样的,度量衡比如厘米、千米、千克。假设漏译文案为“商品1的长度:1厘米”,其中“商品1的长度”就是度量衡,“1厘米”是度量衡的取值。则漏译文案“商品1的长度”属于度量衡漏译,而“1厘米”是用户可以更改的内容,因此不属于度量衡漏译。
于一实施例中,对于漏译文案中不是第三文案、不是框架文案也不是对象标题的文案,确定所属的漏译类型为其他类型漏译。
在本实施例中,如果经过识别,漏译文案中的某些文案既不是对象属性和/或度量衡、也不是框架文案,并且也不是对象标题的文案,则可以将这些文案的漏译类型标记为其他类型漏译,该类型的漏译可以进行统一处理。
步骤304:将漏译文案所属的漏译类型在用户界面中展示。
在本步骤中,可以将最终识别出的漏译文案和对应的漏译类型在用户界面的看板中展示,便于工作人员及时查看分析。
于一实施例中,以电商场景为例,假设网页内容源语种为英语,用户选定的标记语种为法语,如图4所示,为漏译检测结果展示页面示意图,假设上报的页面信息中所有的漏译文案数量为33个,其中框架文案漏译29个,度量衡漏译1个,商品标题漏译为0,其他漏译类型有3个。假设其中一个漏译文案是“Registered trademarks()”(注册商标),可以在展示页面中展示出漏译文案,以及对应漏翻语言,也就是漏译的语种。如图4所示,漏翻语言为法语,并可以在展示页面中给出漏译文案所在的页面地址url(Uniform ResourceLocator,统一资源定位器),便于用户定位到漏译文案在网页中的位置。图4中示出了,当用户选中漏译文案“Registered trademarks()”的标签,可以定位漏译文案“Registeredtrademarks()”在网页中对应的位置,网页中包括多个商品图像,其中有一个商品图像的下方的文案“Registered trademarks()”是英语,就是漏译文案所在位置,其他商品图像下面的文案已被成功翻译成法语文案。
于一实施例中,步骤301的获取待处理文案信息的过程可以由用户触发,具体地可以包括:响应于在用户界面录入的漏译检测操作,获取漏译检测操作指定的待处理文案信息,然后自动执行文案漏译检测过程。并且也可以在步骤304的确定漏译文案所属的漏译类型之后,在用户界面展示漏译检测结果。
在本实施例中,可以在网站页面中配置操作控件,用于触发对网页文案的漏译检测过程,比如可以设置一个图标按键,用户打开一个网站页面后,图标按键展示在用户界面中,用户可以点击该图标按键,触发对当前页面或者指定页面进行漏译检测,并可以在漏译检测完成后,在用户界面展示漏译检测结果,比如展示当前页面中漏译文案有哪些,都属于哪种漏译类型等等,实现了一键漏译检测的功能,为用户提供便利化的交互工具,提高用户体验。
上述文案漏译检测方法,通过基于用户选定的标记语种对待处理文案进行漏译识别,先确定漏译文案,然后对漏译文案进行分类。如此,不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。
基于端上上报的文案进行漏翻检测,以用户视角治理文案漏翻,改善多语言用户体验。实现了基于Unicode Block检测、术语库匹配、语种识别、NLP模型预测的多语言文案漏翻检测能力。在实际应用场景中,可以基于阿里翻译实现语种识别,使用NLP训练商品标题NLP模型,实现了多语言文案漏翻检测完整解决方案,实现了Unicode Block检测,翻译语种识别和NLP算法模型的融合使用。
请参看图5,其为本申请一实施例的文案漏译检测方法,该方法可由图1所示的电子设备1来执行,并可以应用于图2所示的传文案漏译检测的应用场景中,以实现不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。本实施例以终端220为执行端为例,该方法包括如下步骤:
步骤501:响应于用户上报的页面信息,获取页面信息和用户对应的标记语种。
步骤502:从页面信息中滤除对用户不可见的文案,得到待处理文案内容。
步骤503:将待处理文案内容与第一预设词库进行比对,若待处理文案内容中存在第一预设词库中记录的第一文案,并且第一文案被记录的所属语种与标记语种相同,则从待处理文案内容中滤除第一文案。第一预设词库中包括多个文案和各个文案的所属语种。
步骤504:将待处理文案内容与第二预设词库进行比对,若待处理文案内容中存在第二预设词库中记录的第二文案,则从待处理文案内容中滤除第二文案,第二文案包括:预设格式的术语和/或符号。
步骤505:将待处理文案内容输入预设语种识别模型,输出待处理文案内容对应的至少一个所属语种。
步骤506:判断至少一个所属语种是否均与标记语种相同。若是进入步骤507,否则进入步骤515。
步骤507:若存在与标记语种不同的第一语种,确定待处理文案内容中第一语种对应的文案为漏译文案。
步骤508:判断漏译文案中是否存在第三文案,第三文案用于描述对象属性和/或度量衡。若是进入步骤509,否则进入步骤510。
步骤509:若漏译文案中存在第三文案,确定对象属性对应的漏译类型为框架文案漏译,和/或确定度量衡对应的漏译类型为度量衡文案漏译。
步骤510:判断漏译文案的文案内容中是否存在对象标题。若是进入步骤511,否则进入步骤512。
步骤511:若漏译文案中存在对象标题,确定对象标题对应的文案所属漏译类型为标题文案漏译。
步骤512:判断漏译文案的文案内容是否存在框架文案。若是进入步骤513,否则进入步骤514。
步骤513:若漏译文案中存在框架文案,确定框架文案所属的漏译类型为框架文案漏译。
步骤514:对于漏译文案中不是第三文案、不是框架文案也不是对象标题的文案,确定所属的漏译类型为其他类型漏译。
步骤515:若至少一个所属语种中存在与标记语种相同的第二语种,将待处理文案内容中第二语种对应的文案加入第一预设词库。
上述文案漏译检测方法的各个步骤,详细可以参阅上述实施例的相关描述,此处不再赘述。
请参看图6,其为本申请一实施例的文案漏译处理方法,该方法可由图1所示的电子设备1来执行,并可以应用于图2所示的传文案漏译检测的应用场景中,以实现不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。本实施例以终端220为执行端为例,与前述实施例相比,本实施例以漏译文案的处理为例,该方法包括如下步骤:
步骤601:获取待处理文案信息。
步骤602:采用如前述任一实施例的方法,对待处理文案信息进行漏译检测,得到待处理文案中漏译文案所属的漏译类型。
步骤603:根据漏译文案所属的漏译类型,生成漏译类型对应的漏译处理任务,分别执行漏译处理任务。
上述文案漏译处理方法,通过对待处理文案信息进行漏译文案分类,然后根据各个漏译文案对应的漏译类型生成对应的漏译处理任务,如此,可以有针对性的分别执行漏译处理任务,比如将漏译处理任务按照漏译类型进而推给对应的技术部门处理,以使漏译问题得到有针对性的分类处理,提高处理效率。
上述文案漏译处理方法的各个步骤,详细可以参阅上述实施例的相关描述,此处不再赘述。
请参看图7,其为本申请一实施例的文案漏译检测装置700,该装置可应用于图1所示的电子设备1,并可以应用于图2所示的传文案漏译检测的应用场景中,以实现不仅可以准确找到漏译文案,并且将漏译文案划分为不同类别,便于漏译问题的分类处理,提高漏译问题处理效率。该装置包括:获取模块701、识别模块702和分类模块703,各个模块功能原理如下:
获取模块701,用于获取待处理文案信息,待处理文案信息包括待处理文案内容和标记语种。
识别模块702,用于根据标记语种识别出待处理文案内容中的漏译文案。
分类模块703,用于根据漏译文案的文案内容,对漏译文案进行分类,确定漏译文案所属的漏译类型。
于一实施例中,识别模块702,用于对待处理文案内容分别进行语种识别,得到待处理文案内容对应的至少一个所属语种。判断至少一个所属语种是否均与标记语种相同。若存在与标记语种不同的第一语种,确定待处理文案内容中第一语种对应的文案为漏译文案。
于一实施例中,识别模块702,用于将待处理文案内容输入预设语种识别模型,输出待处理文案内容对应的至少一个所属语种。
于一实施例中,获取模块701,用于响应于用户上报的页面信息,获取页面信息和用户对应的标记语种。从页面信息中滤除对用户不可见的文案,得到待处理文案内容。
于一实施例中,识别模块702,还用于在对待处理文案内容分别进行语种识别,得到待处理文案内容对应的至少一个所属语种之前,将待处理文案内容与第一预设词库进行比对,若待处理文案内容中存在第一预设词库中记录的第一文案,并且第一文案被记录的所属语种与标记语种相同,则从待处理文案内容中滤除第一文案。第一预设词库中包括多个文案和各个文案的所属语种。
于一实施例中,识别模块702,还用于在对待处理文案内容分别进行语种识别,得到待处理文案内容对应的至少一个所属语种之前,还包括:将待处理文案内容与第二预设词库进行比对,若待处理文案内容中存在第二预设词库中记录的第二文案,则从待处理文案内容中滤除第二文案,第二文案包括:预设格式的术语和/或符号。
于一实施例中,分类模块703,用于判断漏译文案的文案内容中是否存在对象标题。若漏译文案中存在对象标题,确定对象标题对应的文案所属漏译类型为标题文案漏译。
于一实施例中,分类模块703,用于判断漏译文案的文案内容是否存在框架文案。若漏译文案中存在框架文案,确定框架文案所属的漏译类型为框架文案漏译。
于一实施例中,分类模块703,用于判断漏译文案中是否存在第三文案,第三文案用于描述对象属性和/或度量衡。若漏译文案中存在第三文案,根据第三文案的描述内容确定第三文案的漏译类型。对于漏译文案中不是第三文案、不是框架文案也不是对象标题的文案,确定所属的漏译类型为其他类型漏译。
于一实施例中,还包括:添加模块,用于若至少一个所属语种中存在与标记语种相同的第二语种,将待处理文案内容中第二语种对应的文案加入第一预设词库。
上述文案漏译检测装置700的详细描述,请参见上述实施例中相关方法步骤的描述,其实现原理和技术效果类似,本实施例此处不再赘述。
图8为本申请示例性实施例提供的一种云设备80的结构示意图。该云设备80可以用于运行上述任一实施例所提供的方法。如图8所示,该云设备80可以包括:存储器804和至少一个处理器805,图8中以一个处理器为例。
存储器804,用于存储计算机程序,并可被配置为存储其它各种数据以支持在云设备80上的操作。该存储器804可以是对象存储(Object Storage Service,OSS)。
存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器805,与存储器804耦合,用于执行存储器804中的计算机程序,以用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
进一步地,如图8,该云设备还包括:防火墙801、负载均衡器802、通信组件806、电源组件803等其它组件。图8中仅示意性给出部分组件,并不意味着云设备只包括图8所示组件。
于一实施例中,上述图8中的通信组件806被配置为便于通信组件806所在设备和其他设备之间有线或无线方式的通信。通信组件806所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件806经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件806还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
于一实施例中,上述图8的电源组件803,为电源组件803所在设备的各种组件提供电力。电源组件803可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现前述任一实施例的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本申请的技术方案中,所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。