CN111274813B - 语言序列标注方法、装置存储介质及计算机设备 - Google Patents

语言序列标注方法、装置存储介质及计算机设备 Download PDF

Info

Publication number
CN111274813B
CN111274813B CN201811481219.2A CN201811481219A CN111274813B CN 111274813 B CN111274813 B CN 111274813B CN 201811481219 A CN201811481219 A CN 201811481219A CN 111274813 B CN111274813 B CN 111274813B
Authority
CN
China
Prior art keywords
language
cross
vector
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811481219.2A
Other languages
English (en)
Other versions
CN111274813A (zh
Inventor
黄睿
李辰
王涛
包祖贻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811481219.2A priority Critical patent/CN111274813B/zh
Publication of CN111274813A publication Critical patent/CN111274813A/zh
Application granted granted Critical
Publication of CN111274813B publication Critical patent/CN111274813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明公开了一种语言序列标注方法、装置存储介质及计算机设备。其中,该方法包括:基于源语言向量和目标语言向量生成跨语言向量;根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;根据语言对应关系将源语言序列标注数据转换成转换数据;源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;基于跨语言序列标注模型对目标语言进行序列标注。本发明解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。

Description

语言序列标注方法、装置存储介质及计算机设备
技术领域
本发明涉及数据处理领域,具体而言,涉及一种语言序列标注方法、装置存储介质及计算机设备。
背景技术
在一些应用场景中,需要在各种不同种类的语言上进行序列标注。例如,输入文本(比如,我今天去了安徽歙县)识别出实体(比如,安徽歙县是地名);又例如,输入文本(比如,我买了一个歙砚)识别出实体(比如,歙砚是商品),但是换成输入另一种语言的“我今天去了安徽歙县,或者我买了一个歙砚”(例如,英语,泰语,越南语,阿拉伯语等),在该语言为没有人工标注数据的语言(资源匮乏语言,例如,越南语,泰语)的情况下,也就无法对应地识别出商品名“安徽歙县是地名”或者“歙砚是商品”。
相关技术中,可以采用自动生成在目标语言(资源匮乏语言)上的标注数据,例如,在源语言(资源丰富语言)与目标语言(资源匮乏语言)之间存在平行语料X和X’的情况下,若语料X拥有标注数据Y,则可以采用标注映射的方式将语料X上的标注数据Y映射到语料X’上生成标注数据Y’,但是平行语料的情况并不能涵盖所有的语料,在非平行语料的情况下,无法实施。还可以根据翻译工具,将源语言的标注数据翻译到目标语言上,但是需要目标语言具有相应的翻译工具,没有标注数据的目标语言一般也缺乏相应的翻译工具的资源。另外,还可以在源语言中训练一个序列标注模型,并直接将该模型应用到目标语言上。这种方法在上述源语言和目标语言相似度很低的情况下(如英语和越南语),效果极差,容易出错,并且对目标语言原有的少量标注数据造成影响。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语言序列标注方法、装置存储介质及计算机设备,以至少解决相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
根据本发明实施例的一个方面,提供了一种语言序列标注方法,包括:基于源语言向量和目标语言向量生成跨语言向量;根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;根据所述语言对应关系将源语言序列标注数据转换成转换数据;对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;基于所述跨语言序列标注模型对目标语言进行序列标注。基于所述跨语言序列标注模型对目标语言进行序列标注。
根据本发明实施例的另一方面,还提供了另一种语言序列标注方法,包括:接收目标语言序列标注请求;响应于所述请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,所述跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,所述转换数据根据由所述源语言序列标注数据转换得到,所述语言对应关系包括将源语言和目标语言对应起来的关系。
根据本发明实施例的另一方面,还提供了一种语言序列标注装置,包括:第一生成模块,用于基于源语言向量和目标语言向量生成跨语言向量;第二生成模块,用于根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;转换模块,用于根据所述语言对应关系将源语言序列标注数据转换成转换数据;训练模块,用于对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;标注模块,用于基于所述跨语言序列标注模型对目标语言进行序列标注。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的语言序列标注方法。
根据本发明实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时执行上述中任意一项所述的语言序列标注方法。
在本发明实施例中,采用根据源语言向量和目标语言向量生成跨语言向量,根据跨语言向量生成源语言和目标语言的对应关系,根据对应关系将源语言序列标注数据转换成转换数据的方式,通过源语言序列标注数据和转换数据训练获得跨语言序列标注模型,根据该模型可以生成目标语言的序列标注数据,对目标语言进行序列标注,达到了根据源语言及其源语言序列标注数据,对目标语言进行序列标注的目的,从而实现了对标注资源匮乏的目标语言进行准确完整的序列标注的技术效果,进而解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现语言序列标注方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例1的一种语言序列标注方法的流程图;
图3是根据本发明实施例1的另一种语言序列标注方法的流程图;
图4是根据本发明实施例1的另一种语言序列标注方法的流程图;
图5是根据本发明实施例1优选实施方式的一种语言序列标注方法的流程图;
图6是根据本发明实施例2的一种语言序列标注方法的流程图;
图7是根据本发明实施例3的一种语言序列标注装置的示意图;
图8是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
资源丰富语言(源语言):有大量人工标注数据的语言;
资源匮乏语言(目标语言):没有或者有少量人工标注的语言;
生成式对抗网络GAN(Generative Adversarial Networks):这是一种深度学习模型,包括:生成模型和判别模型,通过两者的互相博弈学习产生相当好的输出,其中,生成模型是给定某种隐含信息,来随机产生观测数据,而判别模型通过输入变量来进行预测。例如,判别模型:给定一张图,判断这张图里的动物是猫还是狗,生成模型,给一系列的猫的图片,生成一张新的猫。在训练的过程中,生成模型的目的是尽量生成真实的图片对欺骗判别模型,而判别模型的目的则是尽量把生成模型生成的图片和真实的图片区别开来,这样两者就构成了一个动态的博弈过程,最终生成模型可以生成一张以假乱真的图片,而判别模型则可以判别生成模型生成的图片是不是真实的图片;
词表Phrase table:短语表,用于将源语言的词和目标语言的词对应起来的表;
命名实体named entity:就是人名,地名,机构名,以及其他所有以名称为标识的实体,其中,该实体是客观存在并可相互区别的事物,还可以包括,数字,日期,货币,地址等等;
Char-CNN,指Char级别的CNN,即字符级别(Character-Level)的卷积神经网络(Convolutional Neural Networks,简称为CNN);
LSTM,指长短期记忆网络(Long Short-Term Memory),是一种时间递归神经网络。其中,Bi-LSTM是一种双向LSTM。
CRF,指条件随机域(Conditional Random Field),是一种判别模型,用于在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题。该CRF模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,能够解决其它判别式模型难以避免的标记偏置问题。
实施例1
根据本发明实施例,还提供了一种语言序列标注方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语言序列标注方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:传输模块、显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的语言序列标注方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语言序列标注方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的语言序列标注方法。图2是根据本发明实施例1的一种语言序列标注方法的流程图,如图2所示,该方法包括以下步骤:
步骤S202,基于源语言向量和目标语言向量生成跨语言向量。
作为一种可选的实施例,上述步骤的执行主体可以是计算机,服务器,处理器等。
作为一种可选的实施例,上述源语言向量可以是词向量,短语向量,语句向量,或者文档向量。词向量的数据量较小,对运算资源的要求较小,短语向量的数据量较大,对运算资源的要求也较高,语句向量与文档向量比短语向量的数据量更大,对运算资源的要求也更高。但是,在同一语句的处理过程中,以词向量为单位进行处理,运算次数多,速度较慢。以短语向量为单位进行处理,运算次数较少,速度较快,以语句向量和文档向量为单位,运算次数更少,速度较快。
作为一种可选的实施例,上述目标语言向量与上述源语言向量类似,该目标语言向量也可以是词向量,短语向量,语句向量,或者文档向量。需要说明的是,上述源语言向量和目标语言向量,可以为同一种语言向量。例如,上述源语言向量和目标语言向量均为词向量,上述跨语言向量为跨语言词向量。上述源语言向量和目标语言向量均为短语向量,上述跨语言向量为跨语言短语向量。
作为一种可选的实施例,上述目标语言向量基于目标语言的语义空间建立,上述源语言向量基于源语言的语义空间建立,上述跨语言向量基于上述目标语言的语义空间,以及源语言的语义空间建立。
需要说明的是,基于源语言向量和目标语言向量生成跨语言向量,在上述依据源语言向量确定对应的目标语言向量,以及依据目标语言向量确定对应的源语言向量时,可以是基于无监督机器翻译实现的。
步骤S204,根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系。
作为一种可选的实施例,上述跨语言向量是相对于目标语言向量和源语言向量而言,上述语言对应关系是相对于源语言向量和目标语言向量而言。上述语言对应关系用于将源语言和目标语言对应起来,用于将源语言转换为目标语言,例如,可以是将源语言翻译为目标语言。
作为一种可选的实施例,上述根据跨语言向量生成语言对应关系,可以是选取一定数量的源语言向量,根据跨语言向量从目标语言的语义空间中,选取与该源语言向量最接近的目标语言向量,根据选取的源语言向量和与之对应的目标语言向量,建立源语言和目标语言的对应关系。
作为一种可选的实施例,上述根据跨语言向量生成语言对应关系,还可以是选取一定数量的目标语言向量,根据跨语言向量从源语言的语义空间中,选取与该目标语言向量最接近的源语言向量,根据选取的目标语言向量和与之对应的源语言向量,建立源语言和目标语言的对应关系。
作为一种可选的实施例,上述根据跨语言向量生成语言对应关系,还可以是选取一定数量的目标语言向量和源语言向量,分别根据跨语言向量从源语言的语义空间或目标语言的语义空间中,选取与该目标语言向量或源语言向量,最接近的源语言向量或目标语言向量,根据选取的目标语言向量和源语言向量,以及与之对应的源语言向量和目标语言向量,建立源语言和目标语言的对应关系。
作为一种可选的实施例,上述选取的一定数量的目标语言向量或者源语言向量,可以是在目标语言或者源语言中使用频率较高的常用词汇。还可以是在目标语言或者源语言中某一领域内的使用频率较高的专业词汇等。
需要说明的是,根据跨语言向量生成语言对应关系,将源语言与目标语言对应起来时,可以是基于无监督机器翻译实现的。
步骤S206,根据语言对应关系将源语言序列标注数据转换成转换数据。
作为一种可选的实施例,上述语言对应关系是相对于源语言向量和目标语言向量而言,在将源语言的序列标注数据转换为转换数据的过程中,需要以上述语言向量为单位,进行转换。上述源语言向量和目标语言向量可以为词向量,短语向量,语句向量,或者文档向量。上述跨语言向量也可以为词向量,短语向量,语句向量,或者文档向量。
作为一种可选的实施例,上述跨语言向量为词向量的情况下,将源语言序列标注数据参照该语言对应关系,逐字逐句的转换为转换数据。上述跨语言向量为短语向量的情况下,将源语言序列标注数据参照该语言对应关系,按照短语逐一的转换为转换数据。上述跨语言向量为语句向量的情况下,将源语言序列标注数据参照该语言对应关系,按照语句为单位逐一的转换为转换数据。上述跨语言向量为文档向量的情况下,将源语言序列标注数据参照该语言对应关系,按照文档为单位逐一的转换为转换数据。
作为一种可选的实施例,上述转换数据可以是翻译数据,将源语言翻译为目标语言的翻译数据。
步骤S208,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
作为一种可选的实施例,上述根据源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。可以通过源语言序列标注数据和对应转换数据,直接进行训练。还可以对上述源语言序列标注数据和转换数据进行加权,然后根据加权后的源语言序列标注数据和转换数据对该跨语言序列标注模型进行训练。
作为一种可选的实施例,上述训练上述跨语言序列标注模型的数据,包括源语言序列标注数据,和转换数据,还可以是包括目标语言序列标注数据。另外,对上述源语言序列标注数据,转换数据,和目标语言序列标注数据在对上述跨语言序列标注模型进行训练之前,也可以进行加权处理。
步骤S210,基于跨语言序列标注模型对目标语言进行序列标注。
根据上述跨语言序列标注模型,根据源语言及其源语言序列标注数据,确定目标语言的序列标注数据,对目标语言进行序列标注。
在本发明实施例中,通过上述步骤,采用根据源语言向量和目标语言向量生成跨语言向量,根据跨语言向量生成源语言和目标语言的对应关系,根据对应关系将源语言序列标注数据转换成转换数据的方式,通过源语言序列标注数据和转换数据训练获得跨语言序列标注模型,根据该模型可以生成目标语言的序列标注数据,对目标语言进行序列标注,采用跨语言向量,通过训练得到跨语言序列标注模型,达到了对目标语言进行序列标注的目的,从而实现了对标注资源匮乏的目标语言进行准确完整的序列标注的技术效果,进而解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
图3是根据本发明实施例1的另一种语言序列标注方法的流程图,如图3所示,基于源语言向量和目标语言向量生成跨语言向量包括:
步骤S302,采用生成式对抗网络学习,得到将源语言向量和目标语言向量对应起来的线性变换;
步骤S304,将源语言向量和目标语言向量经过线性变换,得到跨语言向量。
作为一种可选的实施例,上述跨语言向量是相对于源语言的语义空间和目标语言的语义空间而言,可以利用生成式对抗网络GAN可以得到一个从源语言的语义空间到目标语言的语义空间的线性变换。
作为一种可选的实施例,上述在建立GAN时,同时训练一个生成器和判别器,该生成器用于将源语言的语义空间中的数据映射到目标语言的语义空间,判别器用来区分出上述源语言的语义空间的数据和目标语言的语义空间的数据。
作为一种可选的实施例,上述同时训练一个生成器和判别器时,可以由判别器对生成器映射的源语言向量和目标语言向量进行检验和校正。从而使得到的线性变换可以尽量的将上述源语言和目标语言的语义空间对齐。从而使经过GAN线性变换的语言向量更准确。
作为一种可选的实施例,上述将源语言向量和目标语言向量经过线性变换,得到跨语言向量,可以是将经过GAN线性变换的语言向量作为跨语言向量。
作为一种可选的实施例,根据跨语言向量,生成语言对应关系包括:在跨语言向量中,通过语言最近邻查找的方式,生成语言对应关系。
作为一种可选的实施例,上述根据跨语言向量,生成语言对应关系。通过在目标语言的语义空间中寻找与该跨语言向量语言最近邻的方式,生成连接源语言和目标语言的对应关系。在上述源语言的语言向量和目标语言的语言向量均为词向量的情况下,上述对应关系可以是词表phrase table。
作为一种可选的实施例,根据语言对应关系将源语言序列标注数据转换成转换数据包括以下至少之一:在跨语言向量包括跨语言词向量的情况下,将源语言序列标注数据参照语言对应关系逐字逐句地翻译成转换数据;在跨语言向量包括跨语言语句向量的情况下,将源语言序列标注数据参照语言对应关系以语句为单位翻译成转换数据;在跨语言向量包括跨语言文档向量的情况下,将源语言序列标注数据参照语言对应关系以整个文档为单位翻译成转换数据。
作为一种可选的实施例,上述根据语言对应关系将源语言序列标注数据转换成转换数据的过程中,词向量的数据量较小,对运算资源的要求较小,语句向量的数据量较大,对运算资源的要求也较高,文档向量比语句向量的数据量更大,对运算资源的要求也更高。但是,在同一语句的处理过程中,以词向量为单位进行处理,运算次数多,速度最慢,语句向量的运算次数较少,速度较快,文档向量的运算次数更少,速度更快。
图4是根据本发明实施例1的另一种语言序列标注方法的流程图,如图4所示,作为一种可选的实施例,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括:
步骤S402,在目标语言存在目标语言序列标注数据的情况下,分别确定目标语言序列标注数据,源语言序列标注数据以及转换数据在进行训练时的权重;
步骤S404,依据权重对目标语言序列标注数据,源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
作为一种可选的实施例,上述对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型之前,需要先选取一个模型训练框架,在本实施例中,在源语言向量和目标语言向量均为词向量的情况下,可以采用multi-task作为模型训练框架。
作为一种可选的实施例,上述确定对该模型训练框架进行训练的数据中是否具有目标语言序列标注数据,在不具有目标语言序列标注数据的情况下,采用上述源语言序列标注数据以及转换数据对该模型训练框架进行训练。在具有目标语言序列标注数据的情况下,采用上述源语言序列标注数据,目标语言序列标注数据,以及转换数据对该模型训练框架进行训练。
作为一种可选的实施例,上述根据上述源语言序列标注数据以及转换数据,或者上述源语言序列标注数据,目标语言序列标注数据,以及转换数据对模型训练框架,进行训练时,可以对上述数据进行加权,对不同的权重的数据进行适当的加权,从而使训练获得的跨语言序列标注模型更加准确和稳定。
作为一种可选的实施例,目标语言序列标注数据,源语言序列标注数据以及转换数据中,目标语言序列标注数据的权重最大。源语言序列标注数据以及转换数据的权重较小。
作为一种可选的实施例,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括以下至少之一:将跨语言向量作为模型的输入,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享字符级卷积神经网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享长短记忆网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过共享与分离的线性层,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型,其中,线性层的参数包括:跨语言共享参数和针对不同语言独立的参数;通过跨语言共享条件随机域的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
作为一种可选的实施例,上述将跨语言向量作为模型的输入,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型,可以是对模型的输入层采用跨语言词向量,这样使得不同语言在输入层就有高度的一致性。
作为一种可选的实施例,上述通过跨语言共享字符级卷积神经网络Char-CNN的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。在本实施例中,在拉丁语系的语言字母表几乎一致,并且很多相近语言(如英语和西语)的单词拼写相似度很高,共享字符Char级别的CNN使得模型具有更强的跨语言一致性。
作为一种可选的实施例,上述通过跨语言共享长短记忆网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。在本实施例中,跨语言共享LSTM网络,其中,LSTM网络是序列标注模型中最重要的一部分,共享LSTM层的参数可以对齐不同语言在语义级别的信息。
作为一种可选的实施例,上述通过共享与分离的线性层,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型,其中,线性层的参数包括:跨语言共享参数和针对不同语言独立的参数。在本实施例中,共享与分离的线性层中有一半跨语言共享参数,也有一半针对不同语言独立的参数,采用gate的方式将两部分线性层的输出加起来。
作为一种可选的实施例,上述通过跨语言共享条件随机域CRF的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。在本实施例中,不同语言最后标注的标签都一样,共享CRF显著提高资源匮乏语言的标注精确度。
作为一种可选的实施例,语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
上述通过非监督机器翻译的方式,可以在训练跨语言词向量和生成词表(对应关系)phrase table都不需要任何监督数据。有效提高语言翻译的自动化程度,并提高翻译的效率和速度。
图5是根据本发明实施例1优选实施方式的一种语言序列标注方法的流程图,如图5所示,需要说明的是,本实施例还提供了一种语言序列标注方法,作为优选的实施方式,下面对该优选实施方式进行详细说明。
在Lazada和AliExpress的场景中,需要在各种语言上做序列标注任务(如命名实体识别以找出商品名)。训练一个序列标注模型需要在该语言上有大量的人工标注数据,而只有少部分语言(源语言)是有这种标注数据的(如英语、中文)。大部分其他语言(目标语言)都没有人工的标注数据(如越南语、泰语)。本实施方式充分利用源语言(资源丰富语言)上的标注数据,解决目标语言(资源匮乏语言)上的序列标注问题,使国际化产品在目标语言完全没有人工标注的情况下也可以快速上线。同时,本实施方式也能很好地应用于目标语言存在少量标注的情境,并保留目标语言原有的少量标注。
本实施方式通过非监督机器翻译将源语言上的数据连同标注一起翻译到目标语言上,然后综合利用源语言序列标注数据(source_data)和转换数据(trans_data)一起训练一个跨语言的序列标注模型,在具有目标语言序列标注数据(target_data)的情况下,包括目标语言标注数据。主要流程如下:
1).采用GAN(生成式对抗神经网络)对齐单语词向量生成跨语言词向量;
2).在跨语言词向量空间中,通过最近邻查找生成源语言和目标语言之间相对应的词表phrase table;
3).根据phrase table,将源语言上的source_data逐字逐句地翻译到目标语言上来生成trans_data;
4).利用source_data、target_data(如有)和trans_data一起混合训练跨语言的序列标注模型;
5).训练好的模型即可用于目标语言上的序列标注任务本系统的核心在于无监督机器翻译(上述1)、2)、3)步)和跨语言的序列标注模型(上述4)步),下面具体介绍:
5.1)无监督机器翻译,
5.1.1)跨语言词向量对于源语言的词向量空间(X)和目标语言的词向量空间(Y),采用GAN学习得到一个线性变换(例如,Y≈WX+b)。在GAN学习时,可以同时训练一个生成器和一个判别器,其中,生成器用来将源语言的词向量空间X的数据尽可能映射到目标语言的词向量空间Y,判别器用来尽可能区分出目标语言的词向量空间Y里的数据和生成器映射的源语言的词向量空间X的数据。最终以经过生成器线性变换的词向量作为跨语言词向量。这个线性变换将两种语言的词向量空间对齐起来,且这个学习过程可以是完全无监督的。
5.1.2)基于phrase table的无监督翻译,在源语言和目标语言中各筛选出词频较高的一些词汇(如词频最高的前10万个)。通过在词向量空间中寻找对应语言最近邻的方式,生成连接源语言和目标语言的phrase table。将源语言上的标注数据source_data参照phrase table逐字逐句地翻译到目标语言上,这样标注也一一对应过来。对于phrasetable中没有的单词,可以直接将该单词原原本本地保留下来。由于在后续的模型训练中使用的是跨语言词向量,因此该单词在目标语言中的语义也可以很好地被表示。
5.2)跨语言序列标注模型,
5.2.1)3-task混合训练;采用multi-task模型训练的框架,将source_data、target_data(如有)、trans_data三部分数据作为三个task混合训练模型。三个task采用不同的权重,target_data权重可以设置为最大,其他两个task权重设置为较小。
5.2.2)跨语言词向量;模型的输入层采用之前预训练的跨语言词向量,这样使得不同语言在输入层就有高度的一致性。
5.2.3)跨语言共享Char-CNN;拉丁语系的语言字母表几乎一致,并且很多相近语言(如英语和西语)的单词拼写相似度很高,共享Char级别的CNN使得模型具有更强的跨语言一致性。
5.2.4)跨语言共享BiLSTM;LSTM网络是序列标注模型中最重要的一部分,共享LSTM层的参数可以对齐不同语言在语义级别的信息。
5.2.5)共享与分离的线性层;线性层中有一半跨语言共享参数,也有一半针对不同语言独立的参数。采用gate的方式将两部分线性层的输出加起来。
5.2.6)跨语言共享CRF层;不同语言最后标注的标签都一样,共享CRF显著提高目标语言的标注精确度。
通过上述优选实施方式,采用完全无监督的机器翻译,跨语言向量(跨语言词向量)和语言关系(词表)都不需要任何监督数据;将源语言标注数据,翻译数据,以及目标语言标注数据(如有)结合起来以多任务的方式混合训练,使得模型能更好地完成目标语言上的序列标注;在目标语言上完全没有标注或者有少量标注的情境下,都能达到准确,快速地对目标语言进行序列标注,有效地提升了用户体验。
实施例2
根据本申请的另一方面,本申请还提供了另一种语言序列标注方法,如图6所示的语言序列标注方法。图6是根据本发明实施例2的一种语言序列标注方法的流程图,如图6所示,该方法包括以下步骤:
步骤S602,接收目标语言序列标注请求。
作为一种可选的实施例,上述执行步骤的主体可以是用于执行目标语言序列标注的执行端,可以为服务器,计算机,或者其他智能终端,上述发送目标语言序列标注请求的终端,可以是服务器,计算机,或者其他智能终端。
作为一种可选的实施例,上述接收目标语言序列标注请求之前,还可以对该目标语言序列标注请求进行加密,过滤,验证,筛选等处理方式进行处理。
步骤S602,响应于请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,转换数据根据由源语言序列标注数据转换得到,语言对应关系包括将源语言和目标语言对应起来的关系。
作为一种可选的实施例,上述语言对应关系包括将源语言和目标语言对应起来的关系,可以是根据跨语言向量生成语言对应关系,可以是选取一定数量的源语言向量和/或目标语言向量,根据跨语言向量从目标语言和/或源语言的语义空间中,选取与该源语言向量和/或目标语言向量,最接近的目标语言向量和/或源语言向量,根据选取的源语言向量和/或目标语言向量,以及与之对应的目标语言向量和/或源语言向量,建立源语言和目标语言的对应关系。
作为一种可选的实施例,上述执行主体响应于该请求,执行目标语言序列标注请求。上述源语言向量可以是词向量,短语向量,语句向量,或者文档向量。词向量的数据量较小,对运算资源的要求较小,短语向量的数据量较大,对运算资源的要求也较高,语句向量与文档向量比短语向量的数据量更大,对运算资源的要求也更高。但是,在同一语句的处理过程中,以词向量为单位进行处理,运算次数多,速度较慢。以短语向量为单位进行处理,运算次数较少,速度较快,以语句向量和文档向量为单位,运算次数更少,速度较快。上述目标语言向量与上述源语言向量类似。
作为一种可选的实施例,上述转换数据根据由源语言序列标注数据转换得到,可以是根据语言对应关系将源语言序列标注数据转换成转换数据,在跨语言向量为词向量的情况下,将源语言序列标注数据参照该语言对应关系,逐字逐句的转换为转换数据。上述跨语言向量为短语向量的情况下,将源语言序列标注数据参照该语言对应关系,按照短语逐一的转换为转换数据。上述跨语言向量为语句向量的情况下,将源语言序列标注数据参照该语言对应关系,按照语句为单位逐一的转换为转换数据。上述跨语言向量为文档向量的情况下,将源语言序列标注数据参照该语言对应关系,按照文档为单位逐一的转换为转换数据。
作为一种可选的实施例,语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
作为一种可选的实施例,上述通过非监督机器翻译的方式,可以在训练跨语言词向量和生成词表(对应关系)phrase table都不需要任何监督数据。有效提高语言翻译的自动化程度,并提高翻译的效率和速度。
作为一种可选的实施例,跨语言序列标注模型通过将跨语言向量作为输入,对源语言序列标注数据以及转换数据进行训练得到,其中,跨语言向量基于源语言向量和目标语言向量生成。
作为一种可选的实施例,可以是基于源语言向量和目标语言向量生成跨语言向量,根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系。上述跨语言向量是相对于目标语言向量和源语言向量而言,上述语言对应关系是相对于源语言向量和目标语言向量而言。上述语言对应关系用于将源语言和目标语言对应起来,用于将源语言转换为目标语言,例如,可以是将源语言翻译为目标语言。
本实施例中,通过接收目标语言序列标注请求,响应该请求,采用根据源语言向量和目标语言向量生成跨语言向量,根据跨语言向量生成源语言和目标语言的对应关系,根据对应关系将源语言序列标注数据转换成转换数据的方式,通过源语言序列标注数据和转换数据训练获得跨语言序列标注模型,根据该模型可以生成目标语言的序列标注数据,对目标语言进行序列标注,达到了根据源语言及其源语言序列标注数据,对目标语言进行序列标注的目的,从而实现了对标注资源匮乏的目标语言进行准确完整的序列标注的技术效果,进而解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
根据本发明实施例,还提供了一种用于实施上述实施例1的语言序列标注装置,图7是根据本发明实施例3的一种语言序列标注装置的示意图,如图7所示,该装置包括:第一生成模块702,第二生成模块704,转换模块706,训练模块708和标注模块710,下面对该装置进行详细说明。
第一生成模块702,用于基于源语言向量和目标语言向量生成跨语言向量;第二生成模块704,与上述第一生成模块702相连,用于根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;转换模块706,与上述第二生成模块704相连,用于根据语言对应关系将源语言序列标注数据转换成转换数据;训练模块708,与上述转换模块706相连,用于源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;标注模块710,与上述训练模块708相连,用于基于跨语言序列标注模型对目标语言进行序列标注。
此处需要说明的是,上述第一生成模块702,第二生成模块704,转换模块706,训练模块708和标注模块710对应于实施例1中的步骤S202至步骤S210,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的语言序列标注方法中以下步骤的程序代码:基于源语言向量和目标语言向量生成跨语言向量;根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;根据语言对应关系将源语言序列标注数据转换成转换数据;源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;基于跨语言序列标注模型对目标语言进行序列标注。
可选地,图8是根据本发明实施例的一种计算机终端的结构框图。如图8所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器802、存储器804、以及外设接口。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的语言序列标注方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语言序列标注方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:基于源语言向量和目标语言向量生成跨语言向量;根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;根据语言对应关系将源语言序列标注数据转换成转换数据;源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;基于跨语言序列标注模型对目标语言进行序列标注。
可选的,上述处理器还可以执行如下步骤的程序代码:基于源语言向量和目标语言向量生成跨语言向量包括:采用生成式对抗网络学习,得到将源语言向量和目标语言向量对应起来的线性变换;将源语言向量和目标语言向量经过线性变换,得到跨语言向量。
可选的,上述处理器还可以执行如下步骤的程序代码:根据跨语言向量,生成语言对应关系包括:在跨语言向量中,通过语言最近邻查找的方式,生成语言对应关系。
可选的,上述处理器还可以执行如下步骤的程序代码:根据语言对应关系将源语言序列标注数据转换成转换数据包括以下至少之一:在跨语言向量包括跨语言词向量的情况下,将源语言序列标注数据参照语言对应关系逐字逐句地翻译成转换数据;在跨语言向量包括跨语言语句向量的情况下,将源语言序列标注数据参照语言对应关系以语句为单位翻译成转换数据;在跨语言向量包括跨语言文档向量的情况下,将源语言序列标注数据参照语言对应关系以整个文档为单位翻译成转换数据。
可选的,上述处理器还可以执行如下步骤的程序代码:对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括:在目标语言存在目标语言序列标注数据的情况下,分别确定目标语言序列标注数据,源语言序列标注数据以及转换数据在进行训练时的权重;依据权重对目标语言序列标注数据,源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
可选的,上述处理器还可以执行如下步骤的程序代码:目标语言序列标注数据,源语言序列标注数据以及转换数据中,目标语言序列标注数据的权重最大。
可选的,上述处理器还可以执行如下步骤的程序代码:对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括以下至少之一:将跨语言向量作为模型的输入,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享字符级卷积神经网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享长短记忆网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过共享与分离的线性层,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型,其中,线性层的参数包括:跨语言共享参数和针对不同语言独立的参数;通过跨语言共享条件随机域的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
可选的,上述处理器还可以执行如下步骤的程序代码:语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
可选的,上述处理器还可以执行如下步骤的程序代码:另一种语言序列标注方法,包括:接收目标语言序列标注请求;响应于请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,转换数据根据由源语言序列标注数据转换得到,语言对应关系包括将源语言和目标语言对应起来的关系。
可选的,上述处理器还可以执行如下步骤的程序代码:语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
可选的,上述处理器还可以执行如下步骤的程序代码:跨语言序列标注模型通过将跨语言向量作为输入,对源语言序列标注数据以及转换数据进行训练得到,其中,跨语言向量基于源语言向量和目标语言向量生成。
采用本发明实施例,提供了一种语言序列标注方法的方案。采用根据源语言向量和目标语言向量生成跨语言向量,根据跨语言向量生成源语言和目标语言的对应关系,根据对应关系将源语言序列标注数据转换成转换数据的方式,通过源语言序列标注数据和转换数据训练获得跨语言序列标注模型,根据该模型可以生成目标语言的序列标注数据,对目标语言进行序列标注,达到了根据源语言及其源语言序列标注数据,对目标语言进行序列标注的目的,从而实现了对标注资源匮乏的目标语言进行准确完整的序列标注的技术效果,进而解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
本领域普通技术人员可以理解,图所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
根据本申请的实施例,还提供了一种存储介质的实施例。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1或实施例2所提供的资源调度方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于源语言向量和目标语言向量生成跨语言向量;根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;根据语言对应关系将源语言序列标注数据转换成转换数据;源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;基于跨语言序列标注模型对目标语言进行序列标注。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于源语言向量和目标语言向量生成跨语言向量包括:采用生成式对抗网络学习,得到将源语言向量和目标语言向量对应起来的线性变换;将源语言向量和目标语言向量经过线性变换,得到跨语言向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据跨语言向量,生成语言对应关系包括:在跨语言向量中,通过语言最近邻查找的方式,生成语言对应关系。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:根据语言对应关系将源语言序列标注数据转换成转换数据包括以下至少之一:在跨语言向量包括跨语言词向量的情况下,将源语言序列标注数据参照语言对应关系逐字逐句地翻译成转换数据;在跨语言向量包括跨语言语句向量的情况下,将源语言序列标注数据参照语言对应关系以语句为单位翻译成转换数据;在跨语言向量包括跨语言文档向量的情况下,将源语言序列标注数据参照语言对应关系以整个文档为单位翻译成转换数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括:在目标语言存在目标语言序列标注数据的情况下,分别确定目标语言序列标注数据,源语言序列标注数据以及转换数据在进行训练时的权重;依据权重对目标语言序列标注数据,源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:目标语言序列标注数据,源语言序列标注数据以及转换数据中,目标语言序列标注数据的权重最大。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型包括以下至少之一:将跨语言向量作为模型的输入,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享字符级卷积神经网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过跨语言共享长短记忆网络的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;通过共享与分离的线性层,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型,其中,线性层的参数包括:跨语言共享参数和针对不同语言独立的参数;通过跨语言共享条件随机域的方式,对源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:另一种语言序列标注方法,包括:接收目标语言序列标注请求;响应于请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,转换数据根据由源语言序列标注数据转换得到,语言对应关系包括将源语言和目标语言对应起来的关系。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:跨语言序列标注模型通过将跨语言向量作为输入,对源语言序列标注数据以及转换数据进行训练得到,其中,跨语言向量基于源语言向量和目标语言向量生成。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种语言序列标注方法,其特征在于,包括:
基于源语言向量和目标语言向量生成跨语言向量;
根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;
根据所述语言对应关系将源语言序列标注数据转换成转换数据;
对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;
基于所述跨语言序列标注模型对目标语言进行序列标注。
2.根据权利要求1所述的方法,其特征在于,基于源语言向量和目标语言向量生成跨语言向量包括:
采用生成式对抗网络学习,得到将源语言向量和目标语言向量对应起来的线性变换;
将所述源语言向量和所述目标语言向量经过所述线性变换,得到所述跨语言向量。
3.根据权利要求1所述的方法,其特征在于,根据所述跨语言向量,生成所述语言对应关系包括:
在所述跨语言向量中,通过语言最近邻查找的方式,生成所述语言对应关系。
4.根据权利要求1所述的方法,其特征在于,根据所述语言对应关系将所述源语言序列标注数据转换成所述转换数据包括以下至少之一:
在所述跨语言向量包括跨语言词向量的情况下,将所述源语言序列标注数据参照所述语言对应关系逐字逐句地翻译成所述转换数据;
在所述跨语言向量包括跨语言语句向量的情况下,将所述源语言序列标注数据参照所述语言对应关系以语句为单位翻译成所述转换数据;
在所述跨语言向量包括跨语言文档向量的情况下,将所述源语言序列标注数据参照所述语言对应关系以整个文档为单位翻译成所述转换数据。
5.根据权利要求1所述的方法,其特征在于,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型包括:
在目标语言存在目标语言序列标注数据的情况下,分别确定所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据在进行训练时的权重;
依据权重对所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型。
6.根据权利要求5所述的方法,其特征在于,所述目标语言序列标注数据,所述源语言序列标注数据以及所述转换数据中,所述目标语言序列标注数据的权重最大。
7.根据权利要求1所述的方法,其特征在于,对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型包括以下至少之一:
将所述跨语言向量作为模型的输入,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型;
通过跨语言共享字符级卷积神经网络的方式,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型;
通过跨语言共享长短记忆网络的方式,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型;
通过共享与分离的线性层,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型,其中,所述线性层的参数包括:跨语言共享参数和针对不同语言独立的参数;
通过跨语言共享条件随机域的方式,对所述源语言序列标注数据以及所述转换数据进行训练,得到所述跨语言序列标注模型。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述语言对应关系包括:
通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
9.一种语言序列标注方法,其特征在于,包括:
接收目标语言序列标注请求;
响应于所述请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,所述跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,所述转换数据为在基于源语言向量和目标语言向量生成跨语言向量,根据所述跨语言向量生成语言对应关系的情况下,根据所述语言对应关系将源语言序列标注数据转换成得到的,所述语言对应关系包括将源语言和目标语言对应起来的关系。
10.根据权利要求9所述的方法,其特征在于,所述语言对应关系包括:通过非监督机器翻译的方式,将源语言和目标语言对应起来的关系。
11.根据权利要求9所述的方法,其特征在于,所述跨语言序列标注模型通过将跨语言向量作为输入,对源语言序列标注数据以及转换数据进行训练得到,其中,所述跨语言向量基于源语言向量和目标语言向量生成。
12.一种语言序列标注装置,其特征在于,包括:
第一生成模块,用于基于源语言向量和目标语言向量生成跨语言向量;
第二生成模块,用于根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;
转换模块,用于根据所述语言对应关系将源语言序列标注数据转换成转换数据;
训练模块,用于对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;
标注模块,用于基于所述跨语言序列标注模型对目标语言进行序列标注。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的语言序列标注方法。
14.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时执行权利要求1至11中任意一项所述的语言序列标注方法。
CN201811481219.2A 2018-12-05 2018-12-05 语言序列标注方法、装置存储介质及计算机设备 Active CN111274813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481219.2A CN111274813B (zh) 2018-12-05 2018-12-05 语言序列标注方法、装置存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481219.2A CN111274813B (zh) 2018-12-05 2018-12-05 语言序列标注方法、装置存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111274813A CN111274813A (zh) 2020-06-12
CN111274813B true CN111274813B (zh) 2023-05-02

Family

ID=71001340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481219.2A Active CN111274813B (zh) 2018-12-05 2018-12-05 语言序列标注方法、装置存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111274813B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287692B (zh) * 2020-10-28 2023-11-07 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN116805004B (zh) * 2023-08-22 2023-11-14 中国科学院自动化研究所 零资源跨语言对话模型训练方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN108132932A (zh) * 2017-12-27 2018-06-08 苏州大学 带有复制机制的神经机器翻译方法
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN108132932A (zh) * 2017-12-27 2018-06-08 苏州大学 带有复制机制的神经机器翻译方法
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Katrin Tomanek 等.Efficient annotation with the Jena ANnotation Environment (JANE).LAW '07: Proceedings of the Linguistic Annotation Workshop.2007,全文. *
丁海波.基于组块的句法分析技术研究.中国优秀硕士学位论文全文数据库.2015,(第5期),全文. *
胡亚楠 ; 舒佳根 ; 钱龙华 ; 朱巧明 ; .基于机器翻译的跨语言关系抽取.中文信息学报.2013,(第05期),全文. *

Also Published As

Publication number Publication date
CN111274813A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111930940B (zh) 一种文本情感分类方法、装置、电子设备及存储介质
US20200410396A1 (en) Implicit bridging of machine learning tasks
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN111310440B (zh) 文本的纠错方法、装置和系统
CN111695344B (zh) 文本的标注方法和装置
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
US20220222447A1 (en) Translation method and apparatus, electronic device, and computer-readable storage medium
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111695354A (zh) 基于命名实体的文本问答方法、装置及可读存储介质
WO2020073533A1 (zh) 自动问答方法及装置
CN112925898B (zh) 基于人工智能的问答方法、装置、服务器及存储介质
CN111274813B (zh) 语言序列标注方法、装置存储介质及计算机设备
CN110807197A (zh) 识别模型的训练方法及装置、风险网站识别方法及装置
CN113627530A (zh) 相似问题文本生成方法、装置、设备及介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN111460804B (zh) 文本处理方法、装置和系统
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN110929519B (zh) 实体属性抽取方法及装置
Kulkarni et al. College chat-bot
CN115098665A (zh) 一种对话数据扩展方法、装置及设备
CN114781384A (zh) 命名实体智能标注方法、装置、设备及存储介质
US11842165B2 (en) Context-based image tag translation
CN115688774A (zh) 语言数据的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant