CN113836950A - 商品标题文本翻译方法及其装置、设备与介质 - Google Patents
商品标题文本翻译方法及其装置、设备与介质 Download PDFInfo
- Publication number
- CN113836950A CN113836950A CN202111108721.0A CN202111108721A CN113836950A CN 113836950 A CN113836950 A CN 113836950A CN 202111108721 A CN202111108721 A CN 202111108721A CN 113836950 A CN113836950 A CN 113836950A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- speech
- participle
- title text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013519 translation Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 433
- 230000014509 gene expression Effects 0.000 claims abstract description 60
- 238000011176 pooling Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 13
- 244000062793 Sorghum vulgare Species 0.000 description 12
- 235000019713 millet Nutrition 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 108091026890 Coding region Proteins 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种商品标题文本翻译方法及其装置、设备与介质,所述方法包括:从商品标题文本的词向量中分别提取语义特征和位置特征,获得词嵌入向量和词位置向量;获取词向量相对应的词性向量,词性向量用于指示词向量中各个分词的词性,词性向量中各分词的编码根据词典查询确定,将相对于词典的新词标注为特有编码;将词位置向量与词性向量融合为词性对齐向量;将词嵌入向量与词性对齐向量融合为编码特征向量;根据编码特征向量进行机器翻译获得目标语种表达式,该目标语种表达式保留与被确定为新词的分词的原文。本申请可提取商品标题文本中各分词的语义、位置及词性特征,进而多维度地识别出该些分词中的专有分词,提升专有词的识别准确性。
Description
技术领域
本申请涉及网络电商翻译技术领域,尤其涉及一种商品标题文本翻译方法,此外还涉及该方法相应的装置、设备以及非易失性存储介质。
背景技术
在跨境类型的电商产品中,商品标题翻译是沟通跨境电商卖家与买家之间的关键桥梁,准确的商品标题翻译可以在商品展示描述搜索推荐场景起到至关重要的连接作用。准确的商品标题翻译文本可以大大提升商品在平台中的曝光程度,从而提升跨境电商平台的商品销量以及转化率,然而现有商品标题翻译主要存在以下问题:
关于商品标题文本中对于品牌词汇一般没有标准翻译,翻译领域里面的通常想把这类词翻译成拼音,这存在一个问题如何准确地识别出商品标题文本中存在的品牌词以进行保留或针对性的翻译,对于商家千变万化的商品标题编辑想法,使用普通的翻译接口完全无法有效地准确将商品词汇进行针对性的翻译处理,一来是容易将商品词汇视为普通词汇进行直译,使商品标题在翻译后,其对应的品牌无法得到有效地曝光,平台的买家用户根据品牌名称无法搜索到相应品牌的商品,进而给跨界电商平台的商家带来巨大困扰。
鉴于跨界电商平台中关于商品标题翻译所存在的问题,本申请人出于满足更多用户的需求的考虑做出相应的探索。
发明内容
本申请的目的在于满足用户需求而提供一种商品标题文本翻译方法及其相应的装置、电子设备、非易失性存储介质。
为实现本申请的目的,采用如下技术方案:
适应本申请的目的而提出的一种商品标题文本翻译方法,包括如下步骤:
从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量,所述词向量的每个元素对应所述商品标题文本中的一个分词;
获取所述词向量相对应的词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,所述词性向量中与各分词相对应的编码根据预设词典查询确定,将相对于该预设词典而发现的新词标注为特有编码;
将所述词位置向量与所述词性向量相融合为词性对齐向量;
将所述词嵌入向量与所述词性对齐向量融合为所述商品标题文本的编码特征向量;
根据所述编码特征向量进行机器翻译获得所述商品标题文本的目标语种表达式,该目标语种表达式保留与所述特有编码相对应的分词的原文。
进一步的实施例中,本方法包括如下后置步骤:
根据所述特有编码相对应的分词获取与其相对应的目标语种的词表达式;
将所述目标语种表达式中的所述原文对应替换为所述词表达式获得所述商品标题文本的目标语种标题文本。
进一步的实施例中,从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量的步骤,包括:
根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的词位置向量;
对所述词向量进行语义特征提取,生成用于表征各分词在所述商品标题文本中相应的上下文语义特征的所述词嵌入向量。
进一步的实施例中,获取所述词向量相对应的词性向量的步骤,包括:
将所述词向量输入至词性标注模型中;
所述词性标注模型基于所述预设词典中储存的多个电商分词进行查询,将所述词向量中与任意所述电商分词相对应的分词作为旧词以标注为普通编码,将不与任意所述电商分词相对应的分词作为新词以标注为所述特有编码;
将该些分词的编码组合成所述词向量的编码序列;
将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量。
较佳的实施例中,所述词性标注模型基于HMM模型所实现。
进一步的实施例中,将所述词位置向量与所述词性向量相融合为词性对齐向量的步骤,包括:
将所述词位置向量与词性向量输入至池化融合模型中;
所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征;
将所述位置特征及词性特征进行融合,获取所述词性对齐向量,所述词性对齐向量与所述词位置向量与词性向量的向量长度相同。
较佳的实施例中,本方法包括如下后置步骤:
根据所述特有编码相对应的分词,确定所述商品标题文本所对应的品牌标签,以对该商品标题文本所对应的电商商品进行品牌归类。
适应本申请的目的而提出的一种商品标题文本翻译装置,其包括:
语义位置特征提取模块,用于从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量,所述词向量的每个元素对应所述商品标题文本中的一个分词;
词性向量获取模块,用于获取所述词向量相对应的词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,所述词性向量中与各分词相对应的编码根据预设词典查询确定,将相对于该预设词典而发现的新词标注为特有编码;
词性对齐向量获取模块,用于将所述词位置向量与所述词性向量相融合为词性对齐向量;
编码特征向量获取模块,用于将所述词嵌入向量与所述词性对齐向量融合为所述商品标题文本的编码特征向量;
机器翻译模块,用于根据所述编码特征向量进行机器翻译获得所述商品标题文本的目标语种表达式,该目标语种表达式保留与所述特有编码相对应的分词的原文。
进一步的实施例中,所述语义位置特征提取模块包括:
词位置向量转换子模块,用于根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的词位置向量;
词嵌入向量转换子模块,用于对所述词向量进行语义特征提取,生成用于表征各分词在所述商品标题文本中相应的上下文语义特征的所述词嵌入向量。
进一步的实施例中,所述词性向量获取模块包括:
词性标记模块输入子模块,用于将所述词向量输入至词性标注模型中;
编码标记子模块,用于所述词性标注模型基于所述预设词典中储存的多个电商分词进行查询,将所述词向量中与任意所述电商分词相对应的分词作为旧词以标注为普通编码,将不与任意所述电商分词相对应的分词作为新词以标注为所述特有编码;
编码序列组合子模块,用于将该些分词的编码组合成所述词向量的编码序列;
词性向量转换子模块,用于将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量。
进一步的实施例中,所述词性对齐向量获取模块包括:
池化融合模型输入子模块,用于将所述词位置向量与词性向量输入至池化融合模型中;
特征提取子模块,用于所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征;
特征融合子模块,用于将所述位置特征及词性特征进行融合,获取所述词性对齐向量,所述词性对齐向量与所述词位置向量与词性向量的向量长度相同。
为解决上述技术问题本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述商品标题文本翻译方法的步骤。
为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述商品标题文本翻译方法的步骤。
为解决上述技术问题本发明实施例还提供一种计算机程序产品,包括计算机程序及计算机指令,该计算机程序及计算机指令被处理器执行时,使得所述处理器执行上述所述商品标题文本翻译方法的步骤。
相对于现有技术,本申请的优势如下:
本申请通过提取商品标题文本中各分词的词性特征、位置特征及语义特征生成编码特征向量,以使模型根据所述编码特征向量所表征的各分词的多个特征,多维度地识别出所述商品标题文本中需要针对性翻译的分词,例如,品牌分词或店铺名称分词等,以对该类型分词进行针对性的翻译,例如,将其翻译为目标语种下专属的品牌名称或将其转换为拼音,不以常规的目标语种词汇对该类型进行翻译,使商品标题文本中的品牌分词或店铺分词可在符合目标语种的语境的前提下准确翻译,进而便于跨界电商平台根据翻译商品标题文本中的品牌名称或店铺名称对电商商品进行品牌或店铺分类,以提升跨界电商平台中商品在不同语种的买家用户中的曝光程度,使不同语种的买家用户可通过其语境下的品牌名称或店铺名称搜索到相应品牌或店铺的商品,进而提升平台的转化率,促进跨界电商交易。
其次,本申请通过对深度模型创新的结合场景的网络改进,以加强专有名词的翻译效果与稳定性,准确且高效地识别出商品标题文本中的专有词,进而针对其进行非传统的机器翻译,对跨界电商平台的商品搜索及推荐业务的支持能力大幅加大,提升平台的用户使用体验,缩短商品与用户的距离,进而提升平台的商品交易量。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;
图2为本申请的商品标题文本翻译方法的典型实施例的流程示意图;
图3为本申请的所述词向量、词位置向量、词嵌入向量及词性向量等向量之间的转换及融合的示意图;
图4为本申请的商品标题文本翻译方法关于翻译所述特有编码的分词的实施例的流程示意图,其相对添加了后置步骤;
图5为图2中步骤S11的实施例的具体步骤所形成的流程示意图;
图6为图2中步骤S12的实施例的具体步骤所形成的流程示意图;
图7为图2中步骤S13的实施例的具体步骤所形成的流程示意图;
图8为本申请的商品标题文本翻译方法关于商品标题文本对应的电商商品的品牌归类的实施例的流程示意图,其相对添加了后置步骤;
图9为本申请的商品标题文本翻译装置的典型实施例的原理框图;
图10为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;传统膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的传统膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端,作为一个业务服务器,其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
所述的应用程序,是指运行于服务器或终端设备上的应用程序,这一应用程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装置。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的一种商品标题文本翻译方法,在其典型实施例中,其包括如下步骤:
步骤S11,从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量,所述词向量的每个元素对应所述商品标题文本中的一个分词:
服务器从所述商品标题文本的词向量中提取该商品标题文本所表征的语义特征和位置特征,以获取表征所述语义特征的词嵌入向量,以及获取表征所述位置特征的词位置向量。
所述的商品标题文本由服务器接收电商在线服务所推送的商品标题翻译指令所获取,服务器响应所述商品标题翻译指令后,获取该指令所指向的商品标题文本,以对该商品标题文本进行所述指令所指向的目标语种的翻译处理。
所述商品标题文本的词向量由服务器将所述文本标题文本进行向量化处理所获取,服务器先对所述商品标题文本进行切词(分词)操作,获取该商品标题文本中包含的所有分词,对该些分词进行向量化处理,以获取该些分词进行向量化后所对应的元素作为所述商品标题文本的词向量的各个元素,并通过组合该些元素,生成由该些元素的序列所组成的所述词向量,进而使所述词向量中每个元素对应表征所述商品标题文本中的一个分词。
服务器一般是将所述词向量输入至已训练至收敛状态的全连接神经网络层中进行语义特征提取,以获取表征所述商品标题文本的语义特征的所述词嵌入向量,关于所述全连接神经网络层中的全连接层的参数由训练所得,本领域技术人员可根据实际业务场景,在保证经过全连接神经网络层获取的所述词嵌入向量可用于表征所述商品标题文本的上下文语义特征的前提下,设计所述全连接神经网络层中的全连接层的参数。
服务器是根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的所述词位置向量,该词位置向量中各元素各自对应表征所述商品标题文本中一个分词的相对位置,所述位置编码算法一般是基于正弦函数或余弦函数所实现,以便通过该位置编码算法计算所述词向量后获取的所述词位置向量具有较强的规律性,便于后续所述词位置向量与所述词性向量进行融合时,获取的所述词性对齐向量可保证规律性,以使所述词性对齐向量表征所述商品标题文本中各分词的位置特征及词性特征便于识别,以保证识别所述商品标题文本中新词的识别效率及准确率,进而提升翻译所述商品标题文本的准确性。
步骤S12,获取所述词向量相对应的词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,所述词性向量中与各分词相对应的编码根据预设词典查询确定,将相对于该预设词典而发现的新词标注为特有编码:
服务器获取所述词向量相对应的所述词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,各分词的所述词性用于一般通过其具有的编码所表征,例如,标注为特有编码的分词的词性一般为新词,标记为普通编码的分词的词性一般为新词,所述词性向量中各分词的编码通过所述预设词典查询所确定,当任意分词为所述预设词典中存在的词时,其将被确定为已存在的旧词,以将该分词标记为所述普通编码,当任意分词为所述预设词典中不存在的词时,其将被确定为新发现的新词,以将该分词标记为所述特用编码,服务器将该些分词所对应的编码进行顺序组成,以获取指示所述词向量中各个分词相对应的词性的所述词性向量。
所述的预设词典中储存着多个电商分词,所述电商分词为电子商务领域中常见的商品词汇,服务器根据该预设词典查询所述词向量中各分词是否为该预设词典中已存在的电商分词,识别出该些分词中为旧词的分词及新词的分词,以确定该些分词的词性,进而标记该些分词的词性所对应的编码。
具体的,服务器一般将所述词向量输出至词性标注模型中,以驱动所述词性标注模型基于所述预设词典标注识别所述词向量中各分词的词性,进而根据各分词的词性标注其所对应编码,以输出表征所述商品标题文本中各分词的词性的所述词性向量。
所述的词性标注模型一般是基于HMM模型所实现,所述词性标注模型结合维特比算法,基于所述预设词典中储存的多个电商分词,确定所述词向量中各分词概率最大化的词性,以确定出各所述分词的词性,进而标注该些分词各自相对应的所述编码,将该些编码进行组合以生成编码序列,进而将该编码序列输入至全连接神经网络模型中,以将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量,便于后续将所述词性向量与所述词位置向量进行融合。
步骤S13,将所述词位置向量与所述词性向量相融合为词性对齐向量:
服务器获取所述词性向量及所述词位置向量后,将该词性向量与词位置向量相互融合,以获取同时表征所述商品标题文本中各分词的词性特征及位置特征的所述词性对齐向量。
服务器所获取的所述词位置向量及词性向量都具有较强的规律性,所述词位置向量一般通过使用正弦函数或余弦函数提取所述词向量中各分词的位置特征所生成,所述词性向量一般通过对维特比算法标记所述词向量中各分词的词性所生成,且所述词位置向量及词性向量的向量长度相等,因而使双方具有较强的规律性,以便服务器将所述词位置向量及词性向量进行融合,提取双方各自对应表征词性特征及位置特征,进而生成所述词性对齐向量。
服务器将所述词位置向量及位置向量相互融合生成的所述词性对齐向量,该词性对齐向量的向量长度与所述词位置向量及词性向量的向量长度相同,同时其与所述词嵌入向量的向量长度相同,以保证双方较强的规律性,以便后续该词性对齐向量与所述词嵌入向量进行融合。
具体的,服务器将所述词位置向量与词性向量输入至池化融合模型中,驱动所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征,以将所述位置特征及词性特征进行融合,获取所述词性对齐向量。所述的池化融合模型已训练至收敛状态,其通过池化操作,提取所述词位置向量的所述词性特征及提取所所述词位置向量的所述位置特征,并将所述词性特征及所述位置特征进行融合,以生成表征所述商品标题文本中各分词的位置特征及词性特征的所述词性对齐向量。
步骤S14,将所述词嵌入向量与所述词性对齐向量融合为所述商品标题文本的编码特征向量:
服务器获取所述词性对齐向量后,将该词性对齐向量与所述词嵌入向量进行融合,以生成所述商品标题文本的所述编码特征向量,所述编码特征向量表征所述商品标题文本中各分词的位置特征、词性特征及语义特征。
融合所述词性对齐向量与词嵌入向量的实施方式与上述的融合所述词位置向量与所述词性向量的实施方式类似,通过提取所述词嵌入向量所表征的所述商品标题文本中各分词的上下文语义特征及提取所述词性对齐向量所表征的所述商品标题文本中各分词的词性特征及位置特征,以将提取所述商品标题文本中各分词的上下文语义特征、词性特征及位置特征进行融合,生成表征该些特征的所述编码特征向量。
在具体的实现方式上,与上述的上述所述词位置向量与所述词性向量的融合方式类似,服务器将所述词嵌入向量及词性对齐向量输入至已训练至收敛状态的另一池化融合模型中,以驱动该池化融合模型提取所述词嵌入向量中所述商品标题文本中各分词的上下文语义特征,以及提取所述词性对齐向量中所述商品标题文本中各分词的词性特征及语义特征,将各分词的所述上下文语义特征、词性特征及语义特征进行组合,以生成表征各分词的该些特征的所述编码特征向量,且所述编码特征向量一般情况下其向量长度将与所述词嵌入向量及词性对象向量的向量长度相同,以保证所述编码特征向量的规律性,便于后续将该编码特征向量输入至机器模型中执行翻译。
步骤S15,根据所述编码特征向量进行机器翻译获得所述商品标题文本的目标语种表达式,该目标语种表达式保留与所述特有编码相对应的分词的原文:
服务器获取所述编码特征向量后,将该编码特征向量进行机器翻译,以获取所述商品标题文本的目标语种表达式,该目标语种表达是中保留与所述特征编码相对应的分词的原文,即将被识别为新词的分词将不被进行所述机器翻译。
服务器可将保留所述特有编码的分词的原文的所述目标语种表达式作为所述商品标题文本相对应目标语种标题文本,例如,当所述特有编码的分词为英文原文时,其在目标语种下不存在音译或特定的翻译词时,则服务器将保留该分词的原文的所述目标语种表达式作为其所对应的商品标题文本相对应的目标语种标题文本。
被识别新词的所述特征编码相对应的分词,其在所述商品标题文本中一般是作为表征商品标题文本所对应的商品的品牌分词,将该分词进行保留原文的目的,是防止其所表征的品牌分词被执行传统的根据目标语种词汇进行机器翻译,使该分词被翻译为目标语种的表达式中不以品牌分词进行翻译,而使作为一个传统的词汇进行翻译,例如,当所述特征编码相对应的分词为“小米”时,其若为作为商品标题文本中用于表征商品的品牌分词时,应需将其翻译为符合目标语种语境相对应的品牌分词,例如翻译为“xiaomi”或“MI”等,若对该分词即“小米”执行依照目标语种词汇的机器翻译,其将被翻译为“millet”,即中文语境中用于食用的小米,因此,服务器对所述编码特征向量进行机器翻译以获取所述商品标题文本的目标语种表达式时,将保留所述特征编码相对应的分词的原文,以在后续中通过查询该分词在目标语种中相对应的品牌文本进行替换等方式,使该分词在商品标题文本的翻译文本中作为符合目标语种语境下的品牌分词出现。
服务器在根据所述编码特征向量进行机器翻译时,将通过该编码特征向量中所表征的商品标题文本中各分词的语义特征、词性特征及位置特征进一步的确定出需进行原文保留的分词,即确定出该商品标题文本中作为品牌分词的分词,具体的,服务器通过各分词的语义特征、位置特征及词性特征进行品牌分词的识别,一般服务器根据所述编码特征向量所表征的各分词的语义特征,将语义特征在商品标题文本中与前后分词无语义上的联系的分词初步确定出可能作为品牌分词的分词,例如,商品标题文本为“小米智能电视”中,通过该商品标题文本所对应的所述编码特征向量所表征的各分词的语义特征,“小米”与其他分词在上下文语义上不存在联系,其将被初步确定该商品标题文本中的品牌分词,之后服务器根据所述编码特征向量所表征各分词的位置特征,一般将该些分词中位置特征表征为在商品标题文本中首位或末位分词确定为品牌分词,例如,如上所述的“小米智能电视”的商品标题文本,分词“小米”的位置特征表征其为商品标题文本中的首位分词,其将进一步被确定为该商品标题文本中的品牌分词,最后,服务器将根据所述编码特征向量所表征的各分词的词性特征,将具有特有编码的分词确定为商品标题文本中的所述品牌分词,也如上所述的“小米智能电视”的商品标题文本,分词“小米”在所述编码特征向量中一般为所述特有编码所对应的分词,经过多维的判断后,服务器通过所述编码特征向量确定出所述商品标题文本中需进行原文保留的分词,并对该商品标题文本中除该分词外的其他分词进行结合所述编码特征向量所表征的语义特征的机器翻译,以获取保留该商品标题文本的所述特有编码所对应的分词的原文的目标语种表达式。
通过前文的叙述,可以理解,本方法的优势在于生成可用于表征所述商品标题文本中各分词的语义特征、词性特征及位置特征的所述编码特征向量,以通过该编码特征向量最终确定出所述商品标题文本中需进行保留原文的分词,以对该分词执行不依照目标语种词汇的翻译,具体的,请参考图3,服务器通过对所述词向量进行词性特征提取、位置特征提取及语义特征提取,分别获取所述词性向量、位置向量及词嵌入向量,并将所述词性向量与位置向量进行融合,以获取表征各分词的词性特征及位置特征的所述词性对齐向量,进而将该词性对齐向量与所述词嵌入向量进行融合,以获取表征各分词的语义特征、词性特征及位置特征的所述编码特征向量,以识别出所述商品标题文本中需进行原文保留的分词,在应用层面,即识别出商品标题文本中需进行特定翻译的品牌分词,使该品牌分词在所述商品标题文本的机器翻译中所获取的目标语种表达式得以保留其原文,进而再通过词替换等方式对所述品牌分词进行翻译,以最终获取可表征出所述商品标题文本所对应商品的品牌的目标语种表达式,通过多次的特征提取,以便多维度地确定商品标题文本中需进行特定翻译的品牌分词,可有效地提升所述品牌分词的识别准确率,翻译商品标题文本中的品牌分词被作为传统分词进行翻译,使商品标题文本的翻译文本中无法表征商品的品牌,导致商品在电商平台中无法通过品牌名称进行归类及搜索,导致商品在平台中的曝光度降低,影响平台中电商商铺的营收。
以上的典型实施例及其变化实施例充分揭示了本申请的商品标题文本翻译方法的实施方案,但是,仍可通过对一些技术手段的变换和扩增而演绎出该方法的多种变化实施例,如下概要说明其他实施例:
请参考图4,本方法包括如下后置步骤,以翻译所述商品标题文本的目标语种表达式中保留原文的分词:
步骤S16,根据所述特有编码相对应的分词获取与其相对应的目标语种的词表达式:
服务器根据所述特有编码相对应的分词,在新词翻译表中查询该分词所对应的目标语种的词表达式,以获取该词表达式进行所述分词的原文对应替换。
所述新词翻译表中储存着多个所述特有编码相对应的分词的原文及其相对应的词表达式组成的映射关系数据,例如,当所述特有编码相对应的分词为“小米”时,其在所述新词翻译表中的所述映射关系数据为[“小米”、“xiaomi”]。
因所述特有编码相对应的分词(新词)其所对应的词表达式在多个语种下可能具有不同的词表达式,为此,所述新词翻译表中储存的各新词的词表达式具有相应的语种标签,以便服务器根据当前需要进行翻译的目标语种,在所述新词翻译表中获取所述特有编码相对应的分词的目标语种的词表达式,例如,所述特有编码相对应的分词为“华为”其在所述新词翻译表中的映射关系数据为[“华为”、“Huawei”、“ファーウェイ”],其中,映射关系数据中“华为”具有的语种标签为CN、“Huawei”具有的语种标签为EN、“ファーウェイ”具有的语种标签为JPN。
步骤S17,将所述目标语种表达式中的所述原文对应替换为所述词表达式获得所述商品标题文本的目标语种标题文本:
服务器获取所述特有编码相对应的分词的目标语种的词表达式后,将以该词表达式对应替换所述目标语种表达式中的所述分词的原文,以获取所述商品标题文本的目标语种标题文本,完成该商品标题文本的翻译,例如,当所述词表达式为“xiaomi”,且其对应的所述目标语种表达式为[小米smart television]时,进行替换后,其所述目标语种标题文本将为[xiaomi smart television]。
若服务器从所述新词翻译表中无法查询到所述特有编码的分词相对应的所述词表达式时,服务器将生成以根据该分词所生成的拼音表达式或片假名表达式,例如,当所述特有编码相对应的分词为“源记”时,根据该分词所生成的拼音表达式将为[yuanji],服务器生成所述拼音表达式后,将所述目标语种表达式中的所述分词的原文对应替换为该拼音表达式获得相应商品标题文本的所述目标语种标题文本。
本实施例中,将所述目标语种表达式中特有编码相对应的分词的原文进行替换,以将该原文替换为符合目标语种下的词表达式,使所述目标表达式所对应的商品标题文本中包含的所有分词被翻译为符合目标语种下的分词,使该商品标题文本的目标语种翻译文本符合目标语种的语境,提升商品标题文本的翻译文本在目标语种下的表达能力。
请参考图5,关于服务器从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量的具体实施方式,其具体实施步骤如下:
步骤S111,根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的词位置向量:
服务器根据预设的所述位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对应的所述词位置向量,具体的,所述词位置向量中各元素各自对应表征所述商品标题文本中一个分词的相对位置。
所述的位置编码算法一般基于正弦函数或者余弦函数进行构建,其通过将所述词向量根据预设的频率进行正弦函数或余弦函数计算,将所述词向量中各分词的向量转换为用于表征分词在所述商品标题文本中相对应的向量,并将该些向量组合,以生成用于表征所述商品标题文本中各分词的相对位置的所述词位置向量。
步骤S112,对所述词向量进行语义特征提取,生成用于表征各分词在所述商品标题文本中相应的上下文语义特征的所述词嵌入向量:
服务器一般是将所述词向量输入至已训练至收敛状态的全连接神经网络层中进行语义特征提取,以获取表征所述商品标题文本的语义特征的所述词嵌入向量,关于所述全连接神经网络层中的全连接层的参数由训练所得,本领域技术人员可根据实际业务场景,在保证经过全连接神经网络层获取的所述词嵌入向量可用于表征所述商品标题文本的上下文语义特征的前提下,设计所述全连接神经网络层中的全连接层的参数,或者使用其他的神经网络模型提取所述词向量中各分词的上下文语义特征。
本实施例中,服务器通过提取所述词向量的语义特征及位置特征,以分别获取所述词嵌入向量及词位置向量,以便后续将所述词位置向量与所述词性向量进行融合,获取表征所述商品标题文本中各分词的位置特征及词性特征的所述词性对齐向量,并通过将所述词对齐向量与所述词嵌入向量进行融合,获取表征所述商品标题文本中各分词的位置特征、词性特征及语义特征的所述编码特征向量用于后续的文本翻译处理,确定出该商品标题文本中的新词进行原文保留处理。
请参考图6,服务器获取所述词向量相对应的词性向量的具体实施方式,其具体实施步骤如下:
步骤S121,将所述词向量输入至词性标注模型中:
服务器所述词向量输入至所述词性标注模型中,所述词性标注模型为已训练至收敛状态的模型,其根据所述词向量,进行所述商品标题文本中各分词的编码标注,具体的编码标注实施方式,请参考后续步骤的叙述。
步骤S122,所述词性标注模型基于所述预设词典中储存的多个电商分词进行查询,将所述词向量中与任意所述电商分词相对应的分词作为旧词以标注为普通编码,将不与任意所述电商分词相对应的分词作为新词以标注为所述特有编码:
所述词性标注模型一般基于HMM模型及结合维特比算法所显示,该词性标注模型根据预设词典中储存的多个电商分词进行查询,并结合所述维特比算法,确定所述词向量中各分词的词性,具体的,当所述词向量中所对应的商品标题文本为“华为智能手机”时,所述词性标注模型将其标注为[华-S,为-E,智能-S,手机-S],所述“智能”及“手机”为所述预设词典中储存的电商分词,而所述“华为”不为所述预设词典中储存的任意一个电商分词,因此,所述词性标注模型将[华-S,为-E]组成新词,以将该新词标注为特有编码,将[智能-S,手机-S]作为所述预设词典中存在的旧词,以将“智能”及“手机”标注为普通编码,进一步的,所述普通编码一般保险为假值,而所述特有编码一般编写为真值,即新词“华为”其特有编码为1,而旧词“智能”及“手机”的普通编码为0,本领域技术人员可根据实际应用场景设计所述普通编码及特有编码,恕不赘述。
步骤S123,将该些分词的编码组合成所述词向量的编码序列:
所述词性标注模型将所述商品标题文本中各分词的所标注的编码组成所述编码序列,例如,当以上述所示例的商品标题文本为例,通过将“华为”、“智能”及“手机”各自的编码所组成的所述编码序列为[1,0,0]。
步骤S124,将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量:
服务器将所述编码序列转换为向量长度与所述词位置序列及词嵌入序列相等的所述词性向量,以保证所述词性向量可表征所述商品标题文本中各分词的词性特征的同时,保证所述词性向量的规律性,便于后续各向量的融合。
本实施例中,通过所述词性标注模型,获取表征所述词向量中各分词的词性特征的所述词性向量,以初步的确定出所述商品标题文本中的新词及旧词,便于后续所述商品标题文本的翻译处理中,确定出所述商品标题文本的目标语种表达式中需进行原词保留的分词,提升所述商品标题文本的目标翻译文本的语义表达效果,防止特有编码的分词被错误翻译。
请参考图7,关于服务器将所述词位置向量与所述词性向量相融合为词性对齐向量的具体实施方式,其具体实施步骤如下:
步骤S131,将所述词位置向量与词性向量输入至池化融合模型中:
服务器将所述词位置向量与词性向量输入值池化融合模型中,所述池化融合模型为以训练至收敛状态的模型,其通过对所述词位置向量及词性向量进行池化,以提取所述词位置向量及词性向量所表征的位置特征及词性特征,以将该些特征进行融合,生成所述词性对齐向量。
步骤S132,所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征:
所述池化融合模型通过池化所述词位置向量,提取该词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及通过池化所述词性向量,提取该词性向量所表征所述商品标题文本中各分词的词性特征。
所述池化融合模型一般使用最大池化对所述词位置向量及词性向量进行特征提取,以使其最大程度地提取的所述词位置向量及词性向量所对应的所述位置特征及词性特征,当然,本领域技术人员也可使用平均池化进行特征提取,只需保证提取所得的特征可有效地用于表征各分词的所述位置特征及词性特征即可。
步骤S133,将所述位置特征及词性特征进行融合,获取所述词性对齐向量,所述词性对齐向量与所述词位置向量与词性向量的向量长度相同:
所述池化融合模型获取所述词位置向量所表征的各分词的位置特征及所述词性向量所表征的各分词的词性特征后,将所述位置特征及词性特征进行融合,以生成表征各分词的所述位置特征及词性特征的所述词性对齐向量。
为了使所述词性对齐向量与所述词位置向量与词性向量的向量长度相同,通过所述池化融合模型池化所述词位置向量及词性向量所提取所述位置特征及词性特征,可池化压缩所述词位置向量及词性向量提取其各自表征的所述位置特征及词性特征,以使生成的所述词性对齐向量的向量长度与所述词性对齐向量与所述词位置向量与词性向量的向量长度保持相同,保证所述词性对齐向量的规律性,以便于后续将该词性对齐向量与所述词嵌入向量进行融合。
本实施通过池化分别提取所述词位置向量及词性向量各自对应的所述位置特征及词性特征,以生成可同时表征所述商品标题文本中各分词的位置特征及词性特征的所述词性对齐向量,以便多维地确定出该些分词中的新词。
请参考图8,本方法包括如下后置步骤,以根据所述商品标题文本中被识别为新词的品牌分词,进行该商品标题文本对应的电商商品的品牌归类:
步骤S16’,根据所述特有编码相对应的分词,确定所述商品标题文本所对应的品牌标签,以对该商品标题文本所对应的电商商品进行品牌归类:
服务器通过所述编码特征向量,识别出所述商品标题文本中的品牌分词,即识别出所述特有编码相对应的分词后,将查询该分词所对应的在电商平台的各品牌类别中品牌,以确定出该分词的所述品牌标签,以将所述商品标题文本所对应的电商商品确定为所述品牌标签所对应的品牌类别,完成该电商商品进行品牌归类。
本实施例中,通过所述特有编码相对应分词,确定出该分词所属的商品标题文本所对应的电商商品的品牌类别,使电商平台用户在目标语种商品搜索页面中通过商品搜索控件输入该品牌类别所对应的品牌分词或通过在品牌导航列表中查询该品牌列表,使页面中展示所述电商商品,进而有效地提升所述电商商品的曝光度。
进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种商品标题文本翻译装置,按照这一思路,请参阅图9,其中的一个典型实施例中,该装置包括:语义位置特征提取模块11,用于从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量,所述词向量的每个元素对应所述商品标题文本中的一个分词;词性向量获取模块12,用于获取所述词向量相对应的词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,所述词性向量中与各分词相对应的编码根据预设词典查询确定,将相对于该预设词典而发现的新词标注为特有编码;词性对齐向量获取模块13,用于将所述词位置向量与所述词性向量相融合为词性对齐向量;编码特征向量获取模块14,用于将所述词嵌入向量与所述词性对齐向量融合为所述商品标题文本的编码特征向量;机器翻译模块15,用于根据所述编码特征向量进行机器翻译获得所述商品标题文本的目标语种表达式,该目标语种表达式保留与所述特有编码相对应的分词的原文。
一种实施例中,所述语义位置特征提取模块11包括:词位置向量转换子模块,用于根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的词位置向量;词嵌入向量转换子模块,用于对所述词向量进行语义特征提取,生成用于表征各分词在所述商品标题文本中相应的上下文语义特征的所述词嵌入向量。
一种实施例中,所述词性向量获取模块12包括:词性标记模块输入子模块,用于将所述词向量输入至词性标注模型中;编码标记子模块,用于所述词性标注模型基于所述预设词典中储存的多个电商分词进行查询,将所述词向量中与任意所述电商分词相对应的分词作为旧词以标注为普通编码,将不与任意所述电商分词相对应的分词作为新词以标注为所述特有编码;编码序列组合子模块,用于将该些分词的编码组合成所述词向量的编码序列;词性向量转换子模块,用于将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量。
进一步的实施例中,所述词性对齐向量获取模块13包括:池化融合模型输入子模块,用于将所述词位置向量与词性向量输入至池化融合模型中;特征提取子模块,用于所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征;特征融合子模块,用于将所述位置特征及词性特征进行融合,获取所述词性对齐向量,所述词性对齐向量与所述词位置向量与词性向量的向量长度相同。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述商品标题文本翻译方法所实现的计算机程序。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品标题文本翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种商品标题文本翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行本发明的商品标题文本翻译装置中的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有商品标题文本翻译装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种非易失性存储介质,所述的商品标题文本翻译方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例商品标题文本翻译方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请应用可提取商品标题文本中各分词的语义、位置及词性特征,进而多维度地识别出该些分词中的专有分词,提升专有词的识别准确性,使商品标题文本中的品牌分词或店铺分词可在符合目标语种的语境的前提下准确翻译,进而便于跨界电商平台根据翻译商品标题文本中的品牌名称或店铺名称对电商商品进行品牌或店铺分类,以提升跨界电商平台中商品在不同语种的买家用户中的曝光程度,使不同语种的买家用户可通过其语境下的品牌名称或店铺名称搜索到相应品牌或店铺的商品,进而提升平台的转化率,促进跨界电商交易。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种商品标题文本翻译方法,其特征在于,包括如下步骤:
从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量,所述词向量的每个元素对应所述商品标题文本中的一个分词;
获取所述词向量相对应的词性向量,所述词性向量用于指示所述词向量中各个分词相对应的词性,所述词性向量中与各分词相对应的编码根据预设词典查询确定,将相对于该预设词典而发现的新词标注为特有编码;
将所述词位置向量与所述词性向量相融合为词性对齐向量;
将所述词嵌入向量与所述词性对齐向量融合为所述商品标题文本的编码特征向量;
根据所述编码特征向量进行机器翻译获得所述商品标题文本的目标语种表达式,该目标语种表达式保留与所述特有编码相对应的分词的原文。
2.根据权利要求1所述的方法,其特征在于,本方法包括如下后置步骤:
根据所述特有编码相对应的分词获取与其相对应的目标语种的词表达式;
将所述目标语种表达式中的所述原文对应替换为所述词表达式获得所述商品标题文本的目标语种标题文本。
3.根据权利要求1所述的方法,其特征在于,从商品标题文本的词向量中分别提取语义特征和位置特征,获得相应的词嵌入向量和词位置向量的步骤,包括:
根据预设的位置编码算法,将所述词向量转换为用于表征各分词在所述商品标题文本中相对位置的词位置向量;
对所述词向量进行语义特征提取,生成用于表征各分词在所述商品标题文本中相应的上下文语义特征的所述词嵌入向量。
4.根据权利要求1所述的方法,其特征在于,获取所述词向量相对应的词性向量的步骤,包括:
将所述词向量输入至词性标注模型中;
所述词性标注模型基于所述预设词典中储存的多个电商分词进行查询,将所述词向量中与任意所述电商分词相对应的分词作为旧词以标注为普通编码,将不与任意所述电商分词相对应的分词作为新词以标注为所述特有编码;
将该些分词的编码组合成所述词向量的编码序列;
将所述编码序列转换为向量长度与所述词位置向量及词嵌入向量相等的所述词性向量。
5.根据权利要求4所述的方法,其特征在于,所述词性标注模型基于HMM模型所实现。
6.根据权利要求1所述的方法,其特征在于,将所述词位置向量与所述词性向量相融合为词性对齐向量的步骤,包括:
将所述词位置向量与词性向量输入至池化融合模型中;
所述池化融合模型提取所述词位置向量所表征的各分词在所述商品标题文本中的位置特征,以及提取词组特征向量所表征的分词的词性特征;
将所述位置特征及词性特征进行融合,获取所述词性对齐向量,所述词性对齐向量与所述词位置向量与词性向量的向量长度相同。
7.根据权利要求1至6任意一项所述的方法,其特征在于,本方法包括如下后置步骤:
根据所述特有编码相对应的分词,确定所述商品标题文本所对应的品牌标签,以对该商品标题文本所对应的电商商品进行品牌归类。
8.一种电子设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任一项所述的方法的步骤。
9.一种非易失性存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108721.0A CN113836950B (zh) | 2021-09-22 | 2021-09-22 | 商品标题文本翻译方法及其装置、设备与介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108721.0A CN113836950B (zh) | 2021-09-22 | 2021-09-22 | 商品标题文本翻译方法及其装置、设备与介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836950A true CN113836950A (zh) | 2021-12-24 |
CN113836950B CN113836950B (zh) | 2024-04-02 |
Family
ID=78960377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111108721.0A Active CN113836950B (zh) | 2021-09-22 | 2021-09-22 | 商品标题文本翻译方法及其装置、设备与介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836950B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298049A (zh) * | 2021-12-31 | 2022-04-08 | 广州华多网络科技有限公司 | 命名实体识别方法及其装置、设备、介质、产品 |
CN114358821A (zh) * | 2021-12-27 | 2022-04-15 | 创优数字科技(广东)有限公司 | 商品细类特征提取方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
US20180365231A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating parallel text in same language |
CN110442880A (zh) * | 2019-08-06 | 2019-11-12 | 上海海事大学 | 一种机器翻译译文的翻译方法、装置及存储介质 |
CN111539229A (zh) * | 2019-01-21 | 2020-08-14 | 波音公司 | 神经机器翻译模型训练方法、神经机器翻译方法及装置 |
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
US20210157991A1 (en) * | 2019-11-25 | 2021-05-27 | National Central University | Computing device and method for generating machine translation model and machine-translation device |
-
2021
- 2021-09-22 CN CN202111108721.0A patent/CN113836950B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365231A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating parallel text in same language |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN111539229A (zh) * | 2019-01-21 | 2020-08-14 | 波音公司 | 神经机器翻译模型训练方法、神经机器翻译方法及装置 |
CN110442880A (zh) * | 2019-08-06 | 2019-11-12 | 上海海事大学 | 一种机器翻译译文的翻译方法、装置及存储介质 |
US20210157991A1 (en) * | 2019-11-25 | 2021-05-27 | National Central University | Computing device and method for generating machine translation model and machine-translation device |
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114358821A (zh) * | 2021-12-27 | 2022-04-15 | 创优数字科技(广东)有限公司 | 商品细类特征提取方法、装置、计算机设备和存储介质 |
CN114358821B (zh) * | 2021-12-27 | 2023-06-30 | 创优数字科技(广东)有限公司 | 商品细类特征提取方法、装置、计算机设备和存储介质 |
CN114298049A (zh) * | 2021-12-31 | 2022-04-08 | 广州华多网络科技有限公司 | 命名实体识别方法及其装置、设备、介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113836950B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
CN113836950B (zh) | 商品标题文本翻译方法及其装置、设备与介质 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN111738791B (zh) | 一种文本处理方法、装置、设备和存储介质 | |
EP3975139B1 (en) | Querying semantic data from unstructured documents | |
CN112668341B (zh) | 文本正则化方法、装置、设备和可读存储介质 | |
CN113239157B (zh) | 对话模型的训练方法、装置、设备和存储介质 | |
CN114492470A (zh) | 商品标题文本翻译方法及其装置、设备、介质、产品 | |
CN111125457A (zh) | 一种深度跨模态哈希检索方法及装置 | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
WO2024104438A1 (zh) | 多媒体检索方法、装置、设备、介质及程序产品 | |
CN111639228A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN113435214B (zh) | 电商标题翻译方法及其相应的装置、设备、介质 | |
CN113392649B (zh) | 一种识别方法、装置、设备及存储介质 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN113806536A (zh) | 文本分类方法及其装置、设备、介质、产品 | |
JP2000148754A (ja) | マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |