CN113435214B - 电商标题翻译方法及其相应的装置、设备、介质 - Google Patents
电商标题翻译方法及其相应的装置、设备、介质 Download PDFInfo
- Publication number
- CN113435214B CN113435214B CN202110815434.7A CN202110815434A CN113435214B CN 113435214 B CN113435214 B CN 113435214B CN 202110815434 A CN202110815434 A CN 202110815434A CN 113435214 B CN113435214 B CN 113435214B
- Authority
- CN
- China
- Prior art keywords
- title
- commerce
- translation
- index
- target language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种电商标题翻译方法及其相应的装置、设备、介质,该方法包括:将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。本申请能够实现对电商标题的精准翻译,提升电商系统配置不同语言版本的电商标题的效率。
Description
技术领域
本申请实施例涉及电商信息技术领域,尤其涉及一种电商标题翻译方法及其相应的装置、设备、介质。
背景技术
在跨境类型的电商产品中,标题翻译是沟通跨境电商卖家与买家之间的关键桥梁,准确的电商标题翻译可以在商品搜索、推荐、展示时起到至关重要的连接作用。好的电商标题翻译结果不仅可以大大增加商品被客户的熟知程度,还可以增加合适商品在合适买家的曝光率。从而提升跨境电商网站的销量以及转化率。
电商标题的翻译的困难,有其天然因素,主要表现在以下各个方面:
1、电商领域有许多约定俗称的表达,如“代发”、“爆款”等,市面主流的通用翻译接口表现很差。
2、电商领域有很多专门产品词和属性词,如服饰袖子下面的“泡泡袖”、“雪纺袖”、“蝙蝠袖”、“灯笼袖”等,翻译不准确会导致用户无法正确定位商品,通用的翻译对于解决这种极其细致的品类词和下沉市场词汇效果表现不佳。
3、翻译本身追求信雅达之余,也追求表达的本土化,由于标题常常由商品名称结合属性词、描述词、曝光词进行罗列,源语种和目标语种的罗列顺序往往不同,现有翻译技术翻译出来的表达较为生硬是,无法满足这些需求。
4、由于录入标题过程中有时存在录入错误的情况,造成一些产品和属性词表达不准确,另外有些方言因素,导致对一种商品称呼比较本土化多样化,同一种产品如‘人字拖‘、‘趾夹拖’、‘夹趾拖’其表达方式千变万化,使得普通的翻译接口完全无法解决。
5、电商标题翻译固有场景不全面、与常规自然语言处理语序中的日常语言翻译和语法结构不同等特点,源语种提供的信息量相对贫乏。
现有技术中,针对电商标题进行翻译的技术方案极少,仅有的部分方案主要采用以下几种思路来把源语种映射为目标语种,缺乏电商标题的针对性映射:
1、传统的机器翻译的方法,基于统计的机器翻译模型实现,主要存在以下几个类别的问题:
a.现有词库对于专业类词汇支持过少:如服饰袖子类:“灯笼袖”,“蝙蝠袖”,“泡泡袖”等,需要人工构建较为全面的词库而无法使用网络现成的双语语料所带来的翻译先验知识。
b.传统翻译方式缺少对上下文的考量:如‘割草机’难以区分是草坪修剪机器,还是烟斗用的烟草打碎器。
c.翻译过后的词语顺序,不具备目标语种的本土化表达气质,往往只是词语的简单罗列。
2、基于RNN、transformer等普通端到端模型,注重流利度,缺乏对特别产品词和主要属性词的关注翻译,而且标题中的语言顺序往往与常规说话表达不同,且语料中常常不具备这些产品词的翻译或者错误的翻译。
概括而言,现有技术的各种方法,对电商应用场景中标题的翻译显得比较无力,容易导致用户无法通过关键词检索到目标商品。
发明内容
本申请的目的针对现有技术中存在的至少部分不足而提供一种电商标题翻译方法及其相应的装置、计算机设备及存储介质。
为解决上述技术问题,本申请采用的一个技术方案是:
一种电商标题翻译方法,其包括如下步骤:
将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;
构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;
参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;
将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。
具体化的实施例中,将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题,包括如下步骤:
获取以源语种表达的电商标题;
对该电商标题进行分词提取,提取出其中部分关键词,所述关键词包括专有名词和/或流行词;
调用纠错词典,根据纠错词典中同一关键词的异常表达式与规范表达式之间的映射关系,确定各个所述关键词的规范表达式;
调用保留词词典,根据保留词词典中以规范表达式表述的关键词查询各关键词相应的索引标签,将所述电商标题中各个被提取的关键词原位替换为其相对应的索引标签。
具体化的实施例中,构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表,包括如下步骤:
调用保留词词典,根据替换到电商标题中的索引标签从保留词词典中查询获取各索引标签与其所指向的保留词相对应的目标语种结果词;
将各索引标签与其相对应的结果词构造为映射关系数据;
将所述映射关系数据缓存至与所述电商标题相对应的翻译映射表中。
具体化的实施例中,参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题,包括如下步骤:
对携带了索引标签的电商标题进行格式预处理,获得电商标题的规范文本;
调用预先挖掘的源语种分词向量映射表,根据其中源语种的分词与向量之间的映射关系,将所述电商标题的规范文本转换为向量序列,在向量序列中保留各索引标签对应的向量以保留其所处位置信息;
由预先训练至收敛状态的神经网络翻译模型执行对所述向量序列的翻译转换,获得翻译转换后的目标语种相对应的结果向量序列;
调用预先挖掘的目标语种分词向量映射表,根据其中目标语种的分词与向量之间的映射关系,将所述结果向量序列中的向量转换为目标语种的分词,构成以目标语种表达且保留所述索引标签的混合态电商标题。
具体化的实施例中,将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题,包括如下步骤:
获得所述混合态电商标题;
调用与该混合态电商标题相对应的翻译映射表,根据该混合态电商标题中的各个索引标签,逐一查询翻译映射表,获得与每个索引标签相对应的目标语种结果词,替换还原到该索引标签所处词序位置中,构成以目标语种表达的电商标题;
输出所述以目标语种表达的电商标题。
较佳的实施例中,所述电商标题翻译方法还包括如下前置步骤对所述神经网络翻译模型进行训练:
将预选的电商标题平行语料投入所述神经网络翻译模型进行训练,所述电商标题平行语料包括用于代表索引标签的占位符;
将由多个所述索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练,以使该神经网络翻译模型获取为索引标签编码的能力;
执行迭代训练直到该神经网络翻译模型被训练至收敛状态。
可选的,所述神经网络翻译模型为基于Transformer或RNN所实现的神经网络模型。
为解决上述技术问题,本申请采用的另一技术方案是:
一种电商标题翻译装置,其包括标签植入模块、标签映射模块、标题翻译模块、结果融合模块,其中:标签植入模块,用于将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;标签映射模块,用于构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;标题翻译模块,用于参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;结果融合模块,用于将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。
具体化的实施例中,所述标签植入模块包括:标题获取子模块,用于获取以源语种表达的电商标题;分词提取子模块,用于对该电商标题进行分词提取,提取出其中部分关键词,所述关键词包括专有名词和/或流行词;规范表达子模块,用于调用纠错词典,根据纠错词典中同一关键词的异常表达式与规范表达式之间的映射关系,确定各个所述关键词的规范表达式;标签替换子模块,用于调用保留词词典,根据保留词词典中以规范表达式表述的关键词查询各关键词相应的索引标签,将所述电商标题中各个被提取的关键词原位替换为其相对应的索引标签。
具体化的实施例中,所述标签映射模块包括:结果词获取子模块,用于调用保留词词典,根据替换到电商标题中的索引标签从保留词词典中查询获取各索引标签与其所指向的保留词相对应的目标语种结果词;数据映射子模块,用于将各索引标签与其相对应的结果词构造为映射关系数据;数据存储子模块,用于将所述映射关系数据缓存至与所述电商标题相对应的翻译映射表中。
具体化的实施例中,所述标题翻译模块包括:格式处理子模块,用于对携带了索引标签的电商标题进行格式预处理,获得电商标题的规范文本;向量转换子模块,用于调用预先挖掘的源语种分词向量映射表,根据其中源语种的分词与向量之间的映射关系,将所述电商标题的规范文本转换为向量序列,在向量序列中保留各索引标签对应的向量以保留其所处位置信息;模型翻译子模块,用于由预先训练至收敛状态的神经网络翻译模型执行对所述向量序列的翻译转换,获得翻译转换后的目标语种相对应的结果向量序列;向量复原子模块,用于调用预先挖掘的目标语种分词向量映射表,根据其中目标语种的分词与向量之间的映射关系,将所述结果向量序列中的向量转换为目标语种的分词,构成以目标语种表达且保留所述索引标签的混合态电商标题。
具体化的实施例中,所述结果融合模块包括:获取混合标题子模块,用于获得所述混合态电商标题;标签回归子模块,用于调用与该混合态电商标题相对应的翻译映射表,根据该混合态电商标题中的各个索引标签,逐一查询翻译映射表,获得与每个索引标签相对应的目标语种结果词,替换还原到该索引标签所处词序位置中,构成以目标语种表达的电商标题;标题输出子模块,用于输出所述以目标语种表达的电商标题。
较佳的实施例中,本申请的电商标题翻译装置还包括:初步训练模块,用于将预选的电商标题平行语料投入所述神经网络翻译模型进行训练,所述电商标题平行语料包括用于代表索引标签的占位符;微调训练模块,用于将由多个所述索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练,以使该神经网络翻译模型获取为索引标签编码的能力;迭代控制模块,用于执行迭代训练直到该神经网络翻译模型被训练至收敛状态。
可选的,所述神经网络翻译模型为基于Transformer或RNN所实现的神经网络模型。
为解决上述技术问题,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述电商标题翻译方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行所述电商标题翻译方法的步骤。
与现有技术相比,本申请具有如下优点:
本申请考虑到用于描述电商产品的电商标题的特殊性,通过将以源语种表达的电商标题中的部分容易出现错误翻译的关键词替换为预设的保留词词典中对应的保留词的索引标签,保留了这些关键词的位置信息,然后在参考这个索引标签的表达式的基础上将电商标题翻译出来,成为包含了部分目标语种的翻译内容以及包含索引标签的混合态电商标题,再利用根据保留词词典构造而成的翻译映射表中反映所述索引标签与其所指向的保留词的目标语种结果词之间的映射关系的,将混合态电商标题中的各个索引标签替换为其相对应的结果词,最终获得翻译为目标语种的所述电商标题。
此一过程中,所述被替换为索引标签的关键词在原文中的位置信息始终发挥着积极的作用,但却不会被自由翻译,其结果词取自所述的保留词词典,而所述保留词词典是预先制备的,这种情况下,这些关键词被翻译时的精准性便可通过所述保留词词典内部的保留词与结果词之间的映射关系来得到确保,既能实现精准的翻译信息转换,又能兼顾各个电商产品所需的词汇的个性化气质表达,实现例如本土化表达、流行词式表达、专业词汇表达等。
进一步,由于各个被替换的关键词其所对应的结果词一一对应地得到确定,在后续的翻译过程中无需再参与翻译,只是在后续通过替换索引标签来实现融合,这种情况下,每个关键词最终都能得到翻译,不会出现漏译的情况,确保了翻译信息的完整性。
推而广之,将本申请的技术方案应用于跨境电商系统中为一国语言表达的电商标题进行翻译,将其翻译为另一国语言表达的电商标题时,由于其翻译的高准确度使然,能够高效地提升店家配置不同语种的跨境网店的效率,使店家实现本国语言定义电商标题,自动转换为其他一国或多国语言的版本。同理,也自然方便跨境电商系统中消费者用户进行商品搜索、商品推荐等应用所需。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的电商标题翻译方法的基本流程示意图;
图2为本申请的电商标题翻译方法获得携带了索引标签的电商标题的流程示意图;
图3为本申请的电商标题翻译方法构造翻译映射表的流程示意图;
图4为本申请的电商标题翻译方法执行翻译转换过程的流程示意图;
图5为本申请的电商标题翻译方法融合翻译结果过程的流程示意图;
图6为本申请的电商标题翻译方法所采用的神经网络翻译模型的训练过程的流程示意图;
图7为本申请的电商标题翻译装置的基本结构示意图;
图8为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请部分技术方案可部署在云端服务器,其可以与业务上相关的服务器实现数据通信连接以协调在线服务,还可与其他相关服务器构成逻辑上相关联的服务机群,来为相关的终端设备例如智能手机、个人计算机、第三方服务器等提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与本申请的服务器建立数据通信链路,以便访问和使用所述服务器所提供的服务。
对于服务器而言,一般通过提供在线服务的服务引擎开放相应的程序接口供各种终端设备进行远程调用,本申请中适于部署于服务器的相关技术方案,便可以此种方式实现于服务器中。
本申请所称的计算机程序,即应用程序,以计算机程序语言开发而成,安装于计算机设备中,包括服务器、终端设备等,用于实现本申请所限定的相关功能,除非特别指定,否则与其所采用的开发语言无关。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1所示本申请的电商标题翻译方法在其典型实施例中的基本流程示意图,本申请提供的一种电商标题翻译方法,被编程为应用程序,部署于服务器中,通过开放翻译接口接收以源语种表达的待翻译文本,经过翻译后将以目标语种表达的最终文本返回,其包括如下步骤:
步骤S1300、将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题:
所述的电商标题,是指互联网电商系统中用于描述其在售商品的标题,一般由电商系统推荐生成或由店家自定义。涉及电商系统中电商标题的翻译,尤其适用于跨境电商系统中,由于跨境电商系统需要在各国语言版本之间进行相互翻译,因此,其对电商标题的翻译需求更为刚性。
可以适应不同应用场景相应采用各种方式提供所述的电商标题,例如,在已有的网店后台管理用户期望将其网店从一国语言版本转换为另一国语言版本时,从原版本网店的商品信息数据库中获取其中的属于源语种表达的电商标题。又如,任意用户可以向电商系统提供的页面输入一个以源语种表达的电商标题,由电商系统后台调用本方法实现的服务将其翻译为目标语种的电商标题,然后以目标语种的电商标题执行商品搜索。再如,当消费者用户浏览某一电商产品的页面时,电商系列出于产品推荐业务逻辑的需要,获取该用户正在浏览的以外文(源语种)表达的电商产品的电商标题,将其翻译为目标语种(如当前设备默认的本国语言)的电商标题,然后依据目标语种的电商标题搜索出相似电商产品,以便将电商产品推荐给该消费者用户。
为了避免出现电商标题中部分专有名词和/或流行词等的翻译不准确的问题,可以对这部分词性的关键词进行处理,将其替换为保留词相应的索引标签。可以理解,这些关键词与其对应的保留词之间,在语义上是彼此相关的,包括语义相同或者语义相近等情况。所述专有名词,包括但不限于地理名词、产品名词、品牌名词、人名词等,这些专有名词、流行词可存储于单独一个保留词词典中,也可分别存储于各个专门分类的保留词词典中,只要可供调用即可。可以理解,在构建所述的保留词词典时,可以预先执行去重过滤保证每一保留词的唯一性。
将关键词替换为保留词相应的索引标签的依据是一个预先挖掘的保留词词典。所述保留词词典可以由本领域技术人员依据各种数据挖掘相关算法,从预备的电商标题平行语料库中挖掘而得,或者利用爬虫工具爬取并整理而得,必要时进行人工筛选亦可。其保存着保留词的源语种表达文字与目标语种表达文字之间的映射关系,这一映射关系可以以键值对形式进行保留,例如存储为:“羊城:Canton”,其中“羊城”为键域,用于存储所指代的保留词的源语种表达文字(中文),“Canton”为值域,用于存储所指代的保留词的目标语种的表达文字(英文)。此处可以理解,根据保留词的一种语言的表达文字,可以查询到其另一种语言的表达文字。由此还可以展开,甚至可以利用同一保留词词典保留同一保留词的多个语种的表达文字版本,只要在调用时注意加以区分即可。
当需要确定一个关键词相对应的保留词时,在保留词词典中查询语义上与该关键词相关的保留词,即可确定需要替换的保留词。本领域技术人员可以理解,关键词与保留词之间语义相关性的判定,可以采用规则匹配、精确匹配、模糊匹配、向量匹配等方式来确定,也可利用预训练的专用于比较语词间相似度的神经网络模型来为关键词确定与其具有最高相似度的保留词作为其语义上相关的保留词。
但是,本申请需要用于替换所述的内容并非所述的语义上相关的保留词,而是该保留词所唯一对应的索引标签,为了构造该保留词的索引标签,除了可以在所述键值对中给出具体的索引标签这一实施方式外,本申请的典型实施例推荐使用诸如<name_i>,<logo_i>此一形式进行索引标签的构造。其中,符号“<>”用于作为标识符用于指示本字段为索引标签,其内字符串“name”、“logo”分别指令具体的保留词词典的名称,变量“i”用于表示所确定的保留词在相应的保留词词典内的序号,由此实现保留词相对应的索引标签的构造。
将以源语言表达的电商标题的各个关键词均对应转换为其相应的索引标签后,便获得了携带索引标签的电商标题,其中,具有语义相关的保留词的关键词被原位替换为索引标签,其余词汇均保留为源语言文本,可以知晓,尽管将关键词替换为索引标签,但关键词的位置信息依然保留在原句中。
步骤S1400、构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表:
在执行将源语种的电商标题中的部分关键词替换为保留词的索引标签的过程中,在查询所述保留词词典时,便已检索到每个保留词相对应的作为目标语种翻译文本的结果词,这一结果词将在后续用于构成各个被替换的关键词的最终翻译文本,因此,此处需将其缓存。
为了实现所述与关键词相对应的保留词的结果词的缓存,构建一翻译映射表,该翻译映射表用于存储替换到电商标题中的索引标签与该索引标签所指向的保留词相对应的结果词之间的映射关系数据,同理,这一映射关系数据也可以键值对的形式进行存储,其形式为“<name_i>:Canton”,其中<name_i>为索引标签,存储为键值对的键域;“Canton”为该索引标签所指向的保留词“羊城”所对应的目标语种翻译文本,即结果词,存储为键值对的值域。
可以看出,由于翻译映射表中存储了一句电商标题中植入的多个索引标签与相应多个结果词之间的一一对应关系,后续利用索引标签便可唯一性确定一个结果词。
应当理解,所述翻译映射表的构造形式不局限于以上的示例,本领域技术人员可以灵活利用各种数据结构、数据库技术来等同替换之,并不影响本申请的创造精神的涵盖范围。
步骤S1500、参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题:
利用索引标签替换源语种电商标题中的关键词,实质上保留了各个关键词在电商标题中的语序位置信息,但未保留关键词的内容本身,因此,在对携带了索引标签的电商标题进行翻译的过程中,各个索引标签对其相应的关键词起到了屏蔽作用,即避免关键词在这一翻译步骤中被翻译,但由于其保留了所述的位置信息,因此,在此处执行翻译时,所述的位置信息便不可避免地对翻译语法中词汇顺序编排起到参考作用,在此基础上执行翻译所得的结果,将得到一个两种类型的文本,其一为不被翻译的所述各个索引标签,其二源语种电商标题中未被替换为索引标签的剩余语词转换为目标语种后的翻译文本,这两种类型的文本所构成的结果即为混合态电商标题。当然,在混合态电商标题中,各处索引标签以及所述剩余语词的语序关系,将按照新的语法顺序进行排列,未必与源语种电商标题中的语法顺序一致,同理其词与词之间的翻译对应关系也未必是一一对应的。
执行对携带标签的电商标题的翻译的算法,可以使用多种成熟的适于翻译的算法来实现,包括但不限于基于深度语义的Transformer神经网络翻译模型、利用RNN卷积神经网络实现的神经网络翻译模型、基于统计的机器翻译模型等,本领域技术人员对此可灵活适用。当然,无论适用何种翻译模型,均需预先训练至收敛状态。理论上,只要能够将携带了索引标签的源语种的电商标题翻译转换为目标语种的仍然携带所述索引标签的电商标题的算法工具,并且保证对所述的剩余文本实施有效的翻译,便可适用于本申请中执行所述的翻译操作。本申请推荐采用Transformer神经网络翻译模型来实现,后续的一个实施例将对此进行深入揭示,此处暂且不表。
步骤S1600、将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题:
经过前述的翻译,获得混合态电商标题之后,便需将所述翻译映射表中的信息与混合态电商标题中的信息进行融合,以便完成整个翻译过程。
具体而言,根据混合态电商标题中的每个索引标签,查询所述的翻译映射表该索引标签相对应的结果词,将结果词对混合态电商标题中的该索引标签进行原位替换,使混合态电商标题的各个索引标签均被还原为所述翻译映射表中相应映射的各个目标语种结果词,由此便可获得以目标语种表达的电商标题,完成源语种电商标题的翻译。
按照本申请的典型实施例的过程所翻译获得的以目标语种表达的电商标题,实测上具有较高可信度,首先能够避免各种关键词的漏译,其次由于保留词词典为预先配备的具有高准确度的材料,因此其翻译后的表达气质更接近目标语种的表达习惯,此外由于整个翻译过程所依赖的保留词词典、翻译映射表等均可灵活配置和扩展,因而为增强本申请技术方案的翻译能力保留了发展空间。
请参阅图2,为进一步提升文本处理灵活度的实施例中,所述步骤S1300包括如下具体步骤:
步骤S1311、获取以源语种表达的电商标题:
电商系统可以封装一个翻译调用接口,在该接口被调用时,获取入参,该入参即为以源语种表达的电商标题。
步骤S1312、对该电商标题进行分词提取,提取出其中部分关键词,所述关键词包括专有名词和/或流行词:
调用各种本领域技术人员常用的分词提取算法中的一种,包括但不限于基于词典的任意一种分词算法、基于n-gram模型的任意一种算法、基于RNN神经网络模型的任意一种分词算法等,对以源语种表达的电商标题进行分词提取,然后可以利用相似度算法或者利用规则匹配等手段,确定各个分词与保留词词典中的保留词之间的语义相关度或匹配度,确定语义相关的部分分词为待替换的部分关键词。如前所述,所述的关键词根据保留词词典的固有属性,一般是专有名词和/或流行词。
步骤S1313、调用纠错词典,根据纠错词典中同一关键词的异常表达式与规范表达式之间的映射关系,确定各个所述关键词的规范表达式:
为了确保各个待被替换的关键词与保留词词典中保留词的对应关系,此处调用纠错词典对各个关键词与保留词之间的映射关系进行调整。所述的纠错词典是预先制备的,其存储一个语词的规范表达式与其一个或多个异常表达式之间的映射关系,因此,如果一个关键词被表达为异常表达式,则通过查询纠错词典,便可将其替换为其规范表达式,以便采用所述规范表达式与保留词词典中的保留词实现精确对应。例如,当源语种电商标题中包含关键词“趾夹鞋”时,查询该纠错词典,存在类似于“人字鞋:趾夹鞋,夹趾鞋”的数据记录,此时,便可根据“趾夹鞋”这一异常表达式,确定出其规范表达式“人字鞋”,将“人字鞋”确定为关键词“趾夹鞋”的规范表达式。
同理,所述纠错词典可以人工制备,也可以通过爬虫技术进行网络抓取制备,进一步还可以采用各种成熟的神经网络模型进行制备,均无碍本申请创造精神的体现。
步骤S1314、调用保留词词典,根据保留词词典中以规范表达式表述的关键词查询各关键词相应的索引标签,将所述电商标题中各个被提取的关键词原位替换为其相对应的索引标签:
由于已经将各个关键词调整为规范表达式,因此,可以进一步调用所述的保留词词典,在其中精确查询相应的保留词相对应的键值对,然后根据该保留词词典的名称及查询到的保留词在该保留词词典内的排列顺序位置,构造出相应的索引标签,然后以该索引标签替换源语种电商标题中的相应关键词,如替换前例中所述的“趾夹鞋”。
将所有被提出的关键词均替换为相应的索引标签后,便获得携带索引标签的电商标题,可以启动后续的翻译流程。
本实施例进一步通过借助纠错词典处理关键词的多义性表达,使得从关键词到保留词的转换关系更为精准高效,使最终翻译出的目标语种的电商标题更为精准匹配。
请参阅图3,为便于编程实现而深化的实施例中,所述步骤S1400包括如下步骤:
步骤S1411、调用保留词词典,根据替换到电商标题中的索引标签从保留词词典中查询获取各索引标签与其所指向的保留词相对应的目标语种结果词:
本步骤可合并于前一实施例调用保留词词典的步骤中执行,或单独执行。
当调用保留词词典时,可以利用其中保留词的不同语言版本的文本之间的对应关系,确定保留词相对应的结果词。因此,在本步骤中,针对所述携带索引标签的电商标题中的各个索引标签,可以定位到保留词词典中的各个索引标签所指向的具体保留词相对应的键值对,由此确定该保留词的翻译而成的目标语言的结果词,也即,可以从保留词词典中查询获得每个索引标签相对应的结果词,使索引标签与结果词之间形成一一对应关系。
步骤S1412、将各索引标签与其相对应的结果词构造为映射关系数据:
对于各索引标签与其相对应的结果词之间的映射关系,可以借助键值对或者其他常用的数据结构构造为映射关系数据,以便进行存储。
步骤S1413、将所述映射关系数据缓存至与所述电商标题相对应的翻译映射表中:
根据本申请的逻辑,针对每个电商标题的翻译需求,可建立一个翻译映射表,该翻译映射表可以仅存在于设备的缓存中。因此,可以将各索引标签与其相对应的结果词之间的映射关系数据,如所述的键值对数据,存储于该翻译映射表中以供后续调用。
本实施例的运用,为翻译映射表的实现提供了可执行的方案,此一方案方便以较少量的代码编程实现,且可高效运行,有助于在本申请技术方案所实现的翻译系统响应海量电商标题的翻译需求时提升总体翻译效率。
请参阅图4、为提升本申请所实现的翻译系统的智能化程度而提供的实施例中,所述步骤S1500包括如下步骤:
步骤S1511、对携带了索引标签的电商标题进行格式预处理,获得电商标题的规范文本:
为了获得电商标题的规范文本,需要对携带了索引标签的电商标题进行格式预处理,如去除多余空格、标点等,以及过滤表情、链接等无关信息。本领域技术人员知晓文本格式预处理所需的各种常规技术手段,对此恕不详述。需要注意的是,在其他变通的实施例中,本步骤可以前置处理,即可在获取到以源语言表达的电商标题时即对其进行格式预处理。同理,如果源语言需要分词器,则对源语言进行分词处理。
步骤S1512、调用预先挖掘的源语种分词向量映射表,根据其中源语种的分词与向量之间的映射关系,将所述电商标题的规范文本转换为向量序列,在向量序列中保留各索引标签对应的向量以保留其所处位置信息:
可以通过数据挖掘的方式,预先为本申请预备一个源语种分词向量映射表,构造所述的分词向量映射表,可以借助各种本领域技术人员常用的分词提取算法中的一种,包括但不限于基于词典的任意一种分词算法、基于n-gram模型的任意一种算法、基于RNN神经网络模型的任意一种分词算法等,对以源语种表达的海量的电商标题进行分词提取。
为构造该源语种分词向量映射表,本实施例中,通过源语种电商标题语料进行训练,获得一个字节编码词典作为所述的源语种分词向量映射表,具体先采用BPE编码算法对源语种电商标题进行token化,针对电商场景训练出电商领域专门的字节编码词典,该字节编码词典可以进一步与常用的基于Bert获取的开源词表合并,由此扩展对一些常用的特殊字符、表情字符的支持,并融合了多个功能的保留字符串,利用BPE算法编码token化的过程中,推荐使用最大贪心匹配策略。利用这种方式构造的分词向量映射表,能够缩减词表长度,缩减的词表解决了常见的电商下沉市场词汇过于繁杂的问题,从而缓解了OOV(Out ofVocabulary:词汇溢出)问题,可以实现对电商领域的核心关键词进行精准分词,BPE算法利用子词重组的特性使得利用其词典进行训练的翻译模型训练收敛性更好,且对于一些未知词汇的推理翻译有较好的效果。
所述源语种分词向量映射表,反映源语种的分词与向量之间的映射关系,根据电商标题的规范文本的分词结果,在该映射表中可以获得各个分词相对应的向量,因此,所述电商标题的规范文本可以通过查询该映射表转换为向量序列。同理,规范文本中携带的索引标签也被一并向量化,由此,其所处电商标题中的排列位置信息便得以有效保存。
步骤S1513、由预先训练至收敛状态的神经网络翻译模型执行对所述向量序列的翻译转换,获得翻译转换后的目标语种相对应的结果向量序列:
如前所述,可以借助各种本领域技术人员常用的神经网络翻译模型执行对所述的向量序列的翻译转换,将其转换为与目标语种相对应的结果向量序列。所述的神经网络翻译模型可为基于深度语义的Transformer神经网络翻译模型、利用RNN卷积神经网络实现的神经网络翻译模型或基于统计的机器翻译模型等,本领域技术人员对此可灵活适用。无论适用何种翻译模型,均需预先训练至收敛状态。理论上,只要能够将携带了索引标签的源语种的电商标题翻译转换为目标语种的仍然携带所述索引标签的电商标题的算法工具,并且保证对电商标题中除索引标签之外的剩余文本实施有效的翻译转换,便可适用于本实施例。本申请推荐采用Transformer神经网络翻译模型来实现翻译转换,后续的一个实施例将对此进行深入揭示,此处暂且不表。
当源语种相对应的向量序列被执行翻译转换后,将获得一个与目标语种相对应的结果向量序列,相对于源语种相对应的向量序列,目标语种相对应的结果向量序列中的各个向量的排列顺序是按照目标语种的语法习惯进行重新排列的结果。对于电商标题所携带的索引标签而言,神经网络翻译模型由于预先训练习得的翻译能力,在执行翻译转换过程中不可避免地引用了这些索引标签对应的向量所处的位置信息,但对索引标签所指向的保留词并未予以翻译转换,因此,索引标签在翻译模型中还起到了屏蔽词的作用。
步骤S1514、调用预先挖掘的目标语种分词向量映射表,根据其中目标语种的分词与向量之间的映射关系,将所述结果向量序列中的向量转换为目标语种的分词,构成以目标语种表达且保留所述索引标签的混合态电商标题:
与源语种的分词向量映射表同理,本申请还预备了一个目标语种分词向量映射表,目标语种分词向量映射表可以通过数据挖掘来构造,同理可以借助各种本领域技术人员常用的分词提取算法中的一种,包括但不限于基于词典的任意一种分词算法、基于n-gram模型的任意一种算法、基于RNN神经网络模型的任意一种分词算法等,对以源语种表达的海量的电商标题进行分词提取。
为构造该目标语种分词向量映射表,本实施例中,通过目标语种电商标题语料进行训练,获得一个字节编码词典作为所述的目标语种分词向量映射表,具体先采用BPE编码算法对目标语种电商标题进行token化,针对电商场景训练出电商领域专门的字节编码词典,该字节编码词典可以进一步与常用的基于Bert获取的开源词表合并,由此扩展对一些常用的特殊字符、表情字符的支持,并融合了多个功能的保留字符串,利用BPE算法编码token化的过程中,推荐使用最大贪心匹配策略。利用这种方式构造的分词向量映射表,能够缩减词表长度,缩减的词表解决了常见的电商下沉市场词汇过于繁杂的问题,从而缓解了OOV(Out of Vocabulary:词汇溢出)问题,可以实现对电商领域的核心关键词进行精准分词,BPE算法利用子词重组的特性使得利用其词典进行训练的翻译模型训练收敛性更好,且对于一些未知词汇的推理翻译有较好的效果。
所述目标语种分词向量映射表,反映目标语种的分词与其向量之间的映射关系,根据神经网络翻译模型执行翻译转换所得的结果向量序列,在该映射表中可以获得各个向量相对应的分词,因此,所述结果向量序列可以通过查询该映射表转换为携带了索引标签的以目标语种表达的电商标题,即混合态电商标题,也就是说,混合态电商标题包括各个索引标签以及剩余文本,其中的剩余文本是携带了索引标签的电商标题中除索引标签之外的剩余文本相对应的目标语种的翻译文本,在整个翻译转换过程中,所述索引标签自始至终不进行文本翻译,但是其在作为翻译结果的电商标题中,可能出于目标语种语法的需要而产生排列位置的变动。
本实施例借助两个不同语种的分词向量映射表,结合神经网络翻译模型,给出了实现携带索引标签的电商标题的翻译转换的实用具体方案。可以看出,由于两个不同语种的分词向量映射表均可专门进行数据挖掘和筛选过滤,因此,提供了一种通过优化分词向量映射表来提升翻译精准度的手段,除此之外,数据挖掘、神经网络翻译模型均具有高度的智能化属性,因此,本实施例使得翻译转换过程的智能化程度大大提升。
请参阅图5,为实现融合以获得翻译结果的实施例中,所述步骤S1600包括如下步骤:
步骤S1611、获得所述混合态电商标题:
直接获取前一步骤的处理结果,即所述的混合态电商标题,其包含了以目标语种表达的电商标题,电商标题内部分关键词仍然以所述的索引标签占位表示。
步骤S1612、调用与该混合态电商标题相对应的翻译映射表,根据该混合态电商标题中的各个索引标签,逐一查询翻译映射表,获得与每个索引标签相对应的目标语种结果词,替换还原到该索引标签所处词序位置中,构成以目标语种表达的电商标题:
在先缓存的翻译映射表,包含索引标签到目标语种结果词之间的映射,由此,只需针对各个索引标签,逐一查询翻译映射表,获得其所对应的目标语种结果词,原位替换混合态电商标题中相应的索引标签即可。当所有索引标签均被同理替换完成后,便构成以目标语种表达的电商标题。
步骤S1613、输出所述以目标语种表达的电商标题:
当获得以目标语种表达的电商标题后,便可将其输出,例如用于响应接口调用返回给用户,或者配置到电商系统相应的电商产品的电商标题属性中。
本实施例对翻译结果进一步处理,进一步增强其在电商领域的实用意义,对于跨境电商应用场景而言,能够提升配置不同语种版本网店的效率。
请参阅图6,为实现对本申请所采用的神经网络翻译模型的训练而提出的本实施例中,本申请的电商标题翻译方法还包括如下前置执行的步骤:
步骤S2100、将预选的电商标题平行语料投入所述神经网络翻译模型进行训练,所述电商标题平行语料包括用于代表索引标签的占位符:
本实施例优选本领域技术人员熟知的Transformer神经网络翻译模型用作执行翻译转换所需的神经网络翻译模型,其语义理解能力上的优势不言而喻。
预备用于实施训练由电商标题的双语材料构成的平行语料,即源语种与目标语种相对应的平行语料。平行语料可长时间通过爬虫积攒而得。
对于平行语料,可先行人工标注或者借助其他自动化手段进行标注,标注出平行语料中各个语种句式中的索引标签位置,此处不必引入具体的索引标签,可采用占位符形式如“<keep_i>”来指示其为索引标签所处位置,由此实现标注。占位符本质上代表源语种和目标语种中不翻译的内容,引入占位符之后,实测的训练效果好,故在训练时候加入。
利用所述的平行语料将所述Transformer神经网络翻译模型训练至其损失函数达至收敛状态之后,可完成此处的训练。
步骤S2200、将由多个所述索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练,以使该神经网络翻译模型获取为索引标签编码的能力:
为了提升神经网络翻译模型处理索引标签的能力,进一步对其实施微调训练。具体而言,可以将模型的保留词对应的索引标签进行随机组合,组成句子形式,目的是最大限度让该神经网络翻译模型为保留词对应的索引标签构成的句子编码,使得保留词像普通词汇一样融入句子,不会对保留词漏译或错译。
参与微调训练的样本量一般按千条级选取,随机生成几千条语句,其生成的句子形式如下:
<tpopular_2><keep_5><white_w_4><keep_3><white_w_2><tname_3><keep_2><tname_1>
可以理解,整个句子均由索引标签组成,每个索引标签指向一个保留词词典中的一个相应的保留词。经过此处的微调训练之后,神经翻译网络模型将进一步收敛,其编码能力更强,能够兼容对索引标签的推理理解,不会造成错译和漏译的现象。
步骤S2300、执行迭代训练直到该神经网络翻译模型被训练至收敛状态:
对神经网络模型的训练的过程,可以反复迭代多次,其损失函数的收敛程度未必一步到位达至收敛,因此,可以按需分时段多次对其实施迭代训练,不断喂入新的平行语料,不断生造微调所需的句子,反复投入训练,以便提升翻译模型的推理能力。
本实施例结合Transformer神经网络翻译模型的具体应用,给出了其训练原理及技术手段,借助Transformer固有的语义理解的优势,结合应用索引标签进行微调训练所取得的优势,后续在该翻译模型投入使用时,其推理能力上的优势,必然可以确保其翻译准确度的提升,获得良好的应用效果。
请参阅图7,本申请实施例还提供一种电商标题翻译装置,其包括标签植入模块1300、标签映射模块1400、标题翻译模块1500、结果融合模块1600,其中:标签植入模块1300,用于将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;标签映射模块1400,用于构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;标题翻译模块1500,用于参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;结果融合模块1600,用于将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。
具体化的实施例中,所述标签植入模块1300包括:标题获取子模块,用于获取以源语种表达的电商标题;分词提取子模块,用于对该电商标题进行分词提取,提取出其中部分关键词,所述关键词包括专有名词和/或流行词;规范表达子模块,用于调用纠错词典,根据纠错词典中同一关键词的异常表达式与规范表达式之间的映射关系,确定各个所述关键词的规范表达式;标签替换子模块,用于调用保留词词典,根据保留词词典中以规范表达式表述的关键词查询各关键词相应的索引标签,将所述电商标题中各个被提取的关键词原位替换为其相对应的索引标签。
具体化的实施例中,所述标签映射模块1400包括:结果词获取子模块,用于调用保留词词典,根据替换到电商标题中的索引标签从保留词词典中查询获取各索引标签与其所指向的保留词相对应的目标语种结果词;数据映射子模块,用于将各索引标签与其相对应的结果词构造为映射关系数据;数据存储子模块,用于将所述映射关系数据缓存至与所述电商标题相对应的翻译映射表中。
具体化的实施例中,所述标题翻译模块1500包括:格式处理子模块,用于对携带了索引标签的电商标题进行格式预处理,获得电商标题的规范文本;向量转换子模块,用于调用预先挖掘的源语种分词向量映射表,根据其中源语种的分词与向量之间的映射关系,将所述电商标题的规范文本转换为向量序列,在向量序列中保留各索引标签对应的向量以保留其所处位置信息;模型翻译子模块,用于由预先训练至收敛状态的神经网络翻译模型执行对所述向量序列的翻译转换,获得翻译转换后的目标语种相对应的结果向量序列;向量复原子模块,用于调用预先挖掘的目标语种分词向量映射表,根据其中目标语种的分词与向量之间的映射关系,将所述结果向量序列中的向量转换为目标语种的分词,构成以目标语种表达且保留所述索引标签的混合态电商标题。
具体化的实施例中,所述结果融合模块1600包括:获取混合标题子模块,用于获得所述混合态电商标题;标签回归子模块,用于调用与该混合态电商标题相对应的翻译映射表,根据该混合态电商标题中的各个索引标签,逐一查询翻译映射表,获得与每个索引标签相对应的目标语种结果词,替换还原到该索引标签所处词序位置中,构成以目标语种表达的电商标题;标题输出子模块,用于输出所述以目标语种表达的电商标题。
较佳的实施例中,本申请的电商标题翻译装置还包括:初步训练模块,用于将预选的电商标题平行语料投入所述神经网络翻译模型进行训练,所述电商标题平行语料包括用于代表索引标签的占位符;微调训练模块,用于将由多个所述索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练,以使该神经网络翻译模型获取为索引标签编码的能力;迭代控制模块,用于执行迭代训练直到该神经网络翻译模型被训练至收敛状态。
可选的,所述神经网络翻译模型为基于Transformer或RNN所实现的神经网络模型。
本申请实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种电商标题翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种电商标题翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有电商标题翻译装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的电商标题翻译方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应当理解,本申请的技术方案,除适用于电商标题的翻译之外,也适用于具有与电商标题相同特点的应用场景的语句的翻译,对此,本领域技术人员应当知晓,将本申请的技术方案应用于电商领域之外的其他场景中,依然属于本申请所限定的等同替换范围之内。
综上所述,本申请能够实现对电商标题的精准翻译,提升电商系统配置不同语言版本的电商标题的效率,方便网店用户自建站时获取不同语言版本的电商标题以提升其建站能力,此外还能增加跨境电商用户对电商产品的搜索和浏览体验,减轻使用障碍。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种电商标题翻译方法,其特征在于,包括如下步骤:
将预选的电商标题平行语料投入神经网络翻译模型进行训练至收敛状态,所述电商标题平行语料包括用于代表索引标签的占位符;
将由多个索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练至收敛状态,以使该神经网络翻译模型获取为索引标签编码的能力;
将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;
构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;
参考所述索引标签在所述电商标题中的位置信息,使用所述神经网络翻译 模型执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;
将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。
2.根据权利要求1所述的电商标题翻译方法,其特征在于,将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题,包括如下步骤:
获取以源语种表达的电商标题;
对该电商标题进行分词提取,提取出其中部分关键词,所述关键词包括专有名词和/或流行词;
调用纠错词典,根据纠错词典中同一关键词的异常表达式与规范表达式之间的映射关系,确定各个所述关键词的规范表达式;
调用保留词词典,根据保留词词典中以规范表达式表述的关键词查询各关键词相应的索引标签,将所述电商标题中各个被提取的关键词原位替换为其相对应的索引标签。
3.根据权利要求1所述的电商标题翻译方法,其特征在于,构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表,包括如下步骤:
调用保留词词典,根据替换到电商标题中的索引标签从保留词词典中查询获取各索引标签与其所指向的保留词相对应的目标语种结果词;
将各索引标签与其相对应的结果词构造为映射关系数据;
将所述映射关系数据缓存至与所述电商标题相对应的翻译映射表中。
4.根据权利要求1所述的电商标题翻译方法,其特征在于,参考所述索引标签在所述电商标题中的位置信息,执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题,包括如下步骤:
对携带了索引标签的电商标题进行格式预处理,获得电商标题的规范文本;
调用预先挖掘的源语种分词向量映射表,根据其中源语种的分词与向量之间的映射关系,将所述电商标题的规范文本转换为向量序列,在向量序列中保留各索引标签对应的向量以保留其所处位置信息;
由预先训练至收敛状态的神经网络翻译模型执行对所述向量序列的翻译转换,获得翻译转换后的目标语种相对应的结果向量序列;
调用预先挖掘的目标语种分词向量映射表,根据其中目标语种的分词与向量之间的映射关系,将所述结果向量序列中的向量转换为目标语种的分词,构成以目标语种表达且保留所述索引标签的混合态电商标题。
5.根据权利要求1所述的电商标题翻译方法,其特征在于,将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题,包括如下步骤:
获得所述混合态电商标题;
调用与该混合态电商标题相对应的翻译映射表,根据该混合态电商标题中的各个索引标签,逐一查询翻译映射表,获得与每个索引标签相对应的目标语种结果词,替换还原到该索引标签所处词序位置中,构成以目标语种表达的电商标题;
输出所述以目标语种表达的电商标题。
6.根据权利要求4所述的电商标题翻译方法,其特征在于,所述神经网络翻译模型为基于Transformer或RNN所实现的神经网络模型。
7.一种电商标题翻译装置,其特征在于,其包括:
初步训练模块,用于将预选的电商标题平行语料投入神经网络翻译模型进行训练至收敛状态,所述电商标题平行语料包括用于代表索引标签的占位符;
微调训练模块,用于将由多个索引标签随机组合而成的句子作为训练样本投入所述神经网络翻译模型进行训练至收敛状态,以使该神经网络翻译模型获取为索引标签编码的能力;
标签植入模块,用于将以源语种表达的电商标题中的部分关键词替换为保留词词典中语义相关的保留词的索引标签,获得携带索引标签的电商标题;
标签映射模块,用于构造反映所述索引标签及其所指向的保留词翻译为目标语种所得结果词之间映射关系的翻译映射表;
标题翻译模块,用于参考所述索引标签在所述电商标题中的位置信息,使用所述神经网络翻译 模型执行对携带索引标签的电商标题的翻译,获得以目标语种表达且保留所述索引标签的混合态电商标题;
结果融合模块,用于将所述混合态电商标题中的索引标签对应还原为所述翻译映射表中相应映射的目标语种结果词,获得以目标语种表达的电商标题。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述的电商标题翻译方法的步骤。
9.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述的电商标题翻译方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815434.7A CN113435214B (zh) | 2021-07-19 | 2021-07-19 | 电商标题翻译方法及其相应的装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815434.7A CN113435214B (zh) | 2021-07-19 | 2021-07-19 | 电商标题翻译方法及其相应的装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435214A CN113435214A (zh) | 2021-09-24 |
CN113435214B true CN113435214B (zh) | 2023-04-07 |
Family
ID=77760977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110815434.7A Active CN113435214B (zh) | 2021-07-19 | 2021-07-19 | 电商标题翻译方法及其相应的装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435214B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757211A (zh) * | 2022-03-16 | 2022-07-15 | 广州华多网络科技有限公司 | 文本翻译方法及其装置、设备、介质、产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364660A (zh) * | 2020-10-27 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 语料文本处理方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132932B (zh) * | 2017-12-27 | 2021-07-20 | 苏州大学 | 带有复制机制的神经机器翻译方法 |
CN111539229A (zh) * | 2019-01-21 | 2020-08-14 | 波音公司 | 神经机器翻译模型训练方法、神经机器翻译方法及装置 |
CN110543644B (zh) * | 2019-09-04 | 2023-08-29 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN110765792A (zh) * | 2019-11-01 | 2020-02-07 | 北京中献电子技术开发有限公司 | 基于词类别的神经网络机器翻译方法及系统、训练方法 |
CN111860001A (zh) * | 2020-07-31 | 2020-10-30 | 北京小米松果电子有限公司 | 一种机器翻译方法、装置、电子设备及存储介质 |
CN112149432A (zh) * | 2020-09-27 | 2020-12-29 | 北京小米松果电子有限公司 | 篇章机器翻译方法及装置、存储介质 |
-
2021
- 2021-07-19 CN CN202110815434.7A patent/CN113435214B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364660A (zh) * | 2020-10-27 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 语料文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113435214A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664504B2 (en) | Interaction method and apparatus based on artificial intelligence | |
CN101868797B (zh) | 跨语言搜索 | |
CN111104802B (zh) | 一种地址信息文本的提取方法及相关设备 | |
CN110909170B (zh) | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 | |
US20200265074A1 (en) | Searching multilingual documents based on document structure extraction | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN112836057A (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN113836950B (zh) | 商品标题文本翻译方法及其装置、设备与介质 | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
Li et al. | Neural Chinese address parsing | |
CN112699656A (zh) | 一种广告标题重写方法、装置、设备及储存介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN113435214B (zh) | 电商标题翻译方法及其相应的装置、设备、介质 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
CN116796027A (zh) | 商品图片标签生成方法及其装置、设备、介质、产品 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
US20230308731A1 (en) | Method for providing service of producing multimedia conversion content by using image resource matching, and apparatus thereof | |
CN113821718A (zh) | 一种物品信息推送方法和装置 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN112200614A (zh) | 广告文本植入、展示方法及其相应的装置、设备、介质 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
US20240152695A1 (en) | Automatically generating graphic design variants from input text | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |