CN111695344B - 文本的标注方法和装置 - Google Patents

文本的标注方法和装置 Download PDF

Info

Publication number
CN111695344B
CN111695344B CN201910146695.7A CN201910146695A CN111695344B CN 111695344 B CN111695344 B CN 111695344B CN 201910146695 A CN201910146695 A CN 201910146695A CN 111695344 B CN111695344 B CN 111695344B
Authority
CN
China
Prior art keywords
model
sample data
language
labeling
semantic representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910146695.7A
Other languages
English (en)
Other versions
CN111695344A (zh
Inventor
包祖贻
李辰
刘恒友
徐光伟
李林琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910146695.7A priority Critical patent/CN111695344B/zh
Publication of CN111695344A publication Critical patent/CN111695344A/zh
Application granted granted Critical
Publication of CN111695344B publication Critical patent/CN111695344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本的标注方法和装置。其中,该方法包括:获取第一语种的待标注文本;基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。本发明解决了现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。

Description

文本的标注方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文本的标注方法和装置。
背景技术
在英文、中文等应用范围广泛的语种上,经过长时间的积累,由人工标注了大量的词典、数据,这些数据使得监督学习的机器学习算法能够得到充分的训练,学习的模型在各个自然语言处理的任务上都能够得到较好的效果。然而,在很多小语种上,例如越南语、泰语等,人工标注的资源非常稀缺,这就使得传统的监督学习机器学习算法并不能取得比较好的效果。而且对世界上每一种语言都标注大量数据的代价是非常昂贵的,因此在很多语言上难以获取到足够标注数据。
目前对小语种的标注可以借助翻译的迁移学习方法,即使用已有的翻译算法、模型将高资源语言的标注数据翻译到低资源语言上,利用翻译的数据训练低资源语言上的模型。该方法的缺陷在于:1、需要的翻译模型本身需要大量的标注数据,训练代价非常高昂,在很多语言上并不能满足;2、受翻译模型本身性能的限制,翻译的数据和真实数据并不一致。
针对现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本的标注方法和装置,以至少解决现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。
根据本发明实施例的一个方面,提供了一种文本的标注方法,包括:获取第一语种的待标注文本;基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。
根据本发明实施例的另一方面,还提供了一种文本的标注装置,包括:获取模块,用于获取第一语种的待标注文本;标注模块,用于基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。
根据本发明实施例的一个方面,提供了一种文本的标注方法,包括:获取第一语种的待标注文本;基于语言模型获取待标注文本的语义表示,其中,语言模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,语言模型的损失函数至少包括:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失;基于标注模型根据待标注文本的语义表示,对待标注文本进行标注,得到待标注文本的标注信息,其中,标注模型根据第二样本数据训练得到。
在本发明实施例中,通过在训练过程中加入表示语义空间距离的空间约束损失对高资源样本和低资源样本的深度语义表示进行对齐,从而将深度语义表示作为桥梁,将高资源的语言的序列标注模型迁移到低资源的语言,进而使得能够将现有的标注资源快速迁移到小语种上。由此,本申请上述实施例解决了现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现文本的标注方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例1的一种文本的标注方法的流程图;
图3是根据本申请实施例1的一种文本的标注方法的结构示意图;
图4是根据本申请实施例2的一种文本的标注装置的示意图;
图5是根据本申请实施例3的一种文本的标注装置的示意图;
图6是根据本申请实施例4的一种文本的标注装置的示意图;以及
图7是根据本申请实施例5的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
低资源语言:是指该语言的各种人工标注的词典、训练数据较少,这样的语言由于缺少资源,传统的监督学习效果不佳。
跨语言迁移学习:是指将一种语言的知识、信息迁移到另一种语言,一般是从高资源语言迁移到低资源语言,辅助低资源语言的模型学习。
语言模型:是一种机器学习模型,用于建模一段连续序列的概率分布的模型。
实施例1
根据本发明实施例,还提供了一种文本的标注方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本的标注方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本的标注方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的标注方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的文本的标注方法。图2是根据本申请实施例1的一种文本的标注方法的流程图。
步骤S21,获取第一语种的待标注文本。
具体的,上述第一语种可以是使用范围较小的低资源语言,例如:越南语、希腊语、泰语等。待标注文本为需要进行数据标注的文本,可以是语句或词语。
步骤S23,基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;
其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。
具体的,上述标注信息用于表示对待标注文本的标注结果。文本标注用于根据任务需求对文本中的信息进行标记,例如,对文本中的商品名称进行标记、对文本中的品牌进行标记、对文本中的情感信息进行标记等。在上述方案中,通过将待标注文本输入至序列标注模型,由序列标注模型对待标注文本进行标注,从而得到待标注文本的标注信息。
上述第二语种可以是使用范围较大的高资源语言,例如联合国通用语种:汉语、英语、法语、西班牙语、俄语、阿拉伯语。上述第二样本数据是第二语种下已标注的文本,第一样本数据是第一语种下未标注的文本。
第一语义表示可以是从第一样本数据提取出的语义向量,第二语义表示可以是从第二样本数据中提取出的语义向量。
在一种可选的实施例中,以商品评论的业务场景为例,需要识别各个词语的词性。第一语种可以为泰语,第二语种可以为汉语,第一样本数据为未标注的泰语文本,第二样本数据为已标注的汉语文本,待标注文本为泰语文本。首先获取第一样本数据对应的第一特征向量和第二样本数据对应的第二特征向量,再将第一特征向量和第二特征向量输入至待训练的初始模型中,得到模型对第一样本数据和第二样本数据的标注结果。然后计算模型的损失函数,该损失函数包括如下两部分:模型预测得到的第二样本数据的标注结果与第二样本数据的实际标注数据之间的损失,以及第一语义表示和第二语义表示之间的损失。通过迭代的方式对模型进行训练,直至模型的损失函数小于预设值,从而得到了序列标注模型。
需要说明的是,由于第一语种的标注资源较少,因此如果仅使用第一语种的标注资源作为样本训练序列标注模型,则会由于训练数据较少导致训练结果准确度较低。上述方案利用标注资源丰富的语种的标注数据来辅助低资源语言上模型的学习,通过在训练过程中对高资源样本和低资源样本的深度语义表示进行对齐,从而将深度语义表示作为桥梁,将高资源的语言的序列标注模型迁移到低资源的语言,进而使得能够将现有的标注资源快速迁移到小语种上。
由此,本申请上述实施例解决了现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。
还需要说明的是,相较于借助翻译的迁移学习方法,本方案无需平行双语预料,使用资源更少,在实际中更具有可行性和易用性。同时,保留了单语文本本身的特点,不会因为翻译的质量影响标记结果。
作为一种可选的实施例,损失函数至少用于表示:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失。
具体的,第一语义表示和第二语义表示的空间约束损失,用于表示第一样本数据和第二样本数据在语义上的距离,空间约束损失越小,说明第一样本数据和第二样本数据的语义越相似。
上述方案利用标注资源丰富的语种的标注数据来辅助低资源语言上模型的学习,通过在训练过程中加入表示语义空间距离的空间约束损失对高资源样本和低资源样本的深度语义表示进行对齐,从而将深度语义表示作为桥梁,将高资源的语言的序列标注模型迁移到低资源的语言,进而使得能够将现有的标注资源快速迁移到小语种上。
作为一种可选的实施例,序列标注模型包括:语言模型和标注模型,上述方法还包括:获取第一样本数据和第二样本数据;根据第一样本数据和第二样本数据对初始语言模型进行训练,得到语言模型;根据第二样本数据和语言模型对初始标注模型进行训练,得到标注模型。
具体的,上述语言模型用于获取语义信息,标注模型用于基于语言模型输出的语义信息进行标注。上述样本数据包括第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据。
在一种可选的实施例中,仍以第一语种为泰语,第二语种为汉语为例。由于汉语具有大量的已标注资源,因此可以直接获取第二样本数据;由于第二样本数据是未标注的泰语,因此也较容易获取。将第一样本数据和第二样本数据输入至初始语言模型,对语言模型进行训练。再根据第二样本数据对初始标注模型进行训练,从而得到标注模型。
作为一种可选的实施例,根据第一样本数据和第二样本数据对初始模型进行训练,得到语言模型,包括:将第一样本数据和第二样本数据输入至初始语言模型,得到第一语义表示和第二语义表示;根据第一样本数据、第一语义表示、第二样本数据和第二语义表示,确定语言模型的损失函数;基于语言模型的损失函数的最小值,得到语言模型的网络参数,其中,语言模型的网络参数用于表征语言模型。
具体的,上述第一样本数据的第一语义表示可以是对第一样本数据进行特征提取得到的语义表示。
在一种可选的实施例中,上述语言模型可以为双向LSTM(Long Short-TermMemory,长短期记忆网络)。可以获取第一样本数据对应的第一词向量序列,再将第一样本数据对应的第一词向量序列输入至共享双向LSTM(Long Short-Term Memory,长短期记忆网络),由共享双向LSTM对第一词向量序列进行特征提取从而得到第一样本数据的语义表示。可以使用同样的方式得到第二样本数据对应的第二语义表示。
上述语言模型的损失函数至少包括两部分,一部分为初始语言模型输出的第一语义表示和第二语义表示的困惑度,另一部分为第一样本数据和第二样本数据在语义上的损失。
在对初始网络进行训练的过程中,可以通过迭代训练的方式,使语言模型的损失函数越来越小,直至语言模型的损失函数最小。
作为一种可选的实施例,将第一样本数据和第二样本数据输入至初始语言模型,得到第一语义表示和第二语义表示,包括:根据第一样本数据确定第一词向量序列,并根据第二样本数据确定第二词向量序列;将第一词向量序列和第二词向量序列分别输入至初始语言模型,得到第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示。
具体的,上述初始语言模型可以为多层的共享双向LSTM,通过初始语言模型对第一词向量序列进行特征提取,得到的第一隐层表示即为第一语义表示,通过预设的初始语言模型对第二词向量序列进行特征提取,得到的第二隐层表示即为第二语义表示。
作为一种可选的实施例,根据第一样本数据、第一语义表示、第二样本数据和第二语义表示,确定语言模型的损失函数,包括:获取空间约束损失和困惑度损失函数,其中,空间约束损失用于表示第一语义表示和第二语义表示之间的距离,困惑度损失函数用于表示第一语义表示的困惑度与第二语义表示的困惑度之和;确定空间约束损失和困惑度损失函数之和为语言模型的损失函数。
具体的,上述空间约束损失用于在训练过程中对英语和越南语的深度语义表示进行约束,以使得这个表示可以在两个语言中通用,可以是第一语义表示和第二语义表示之间的空间距离,例如:第一语义表示和第二语义表示的欧式距离等。困惑度损失函数用于表示对语义提取结果的质疑程度,即确定第一语义表示和第二语义表示正确的概率。模型损失函数为模型本身的损失函数,即对第二样本数据的标注结果进行预测后,与第二样本数据的实际标注数据之间的损失函数。
使用上述二者之和作为损失函数对初始语言模型进行训练,其中,空间约束损失用于使第一语种和第二语种在语义上对齐,困惑度损失函数用于将确定语义的语言模型的损失计算在其中,从而能够以确定语义的语言模型作为桥梁,将多资源语种的标注资源迁移至低资源语种。
作为一种可选的实施例,获取空间约束损失,包括:获取语言模型中,每一层输出的第一语义表示和第二语义表示之间的空间距离;根据每一层输出的第一语义表示和第二语义表示,以及空间距离,确定每一层的空间约束损失;确定每一层的空间约束损失之和为空间约束损失。
具体的,对第一词向量和第二词向量进行特征提取的神经网络模型为多层模型,因此每层都能够得到每一层对应的隐层表示,即上述语义表示,在计算空间约束损失时,可以将每一层对应的空间约束损失之和作为模型整体的空间约束损失。
在一种可选实施例中,可以使用如下公式计算空间约束损失,对于第i隐层表示,空间约束损失为
Figure BDA0001980268270000081
其中,distance为空间中的距离度量,可以是欧式距离,空间约束损失为各层损失之和,即∑iloss_regi
作为一种可选的实施例,获取困惑度损失函数,包括:根据第一语种的词向量矩阵确定第一语义表示的困惑度,并根据第二语种的词向量矩阵确定第二语义表示的困惑度;确定第一语义表示的困惑度与第二语义表示的困惑度之和为困惑度损失函数。
在一种可选的实施例中,假设Emb_A为第一语种的词向量矩阵,Emb_B为第二语种的词向量矩阵,可以将Emb_A,Emb_B作为softmax的参数矩阵,计算得到第一语义表示的困惑度和第二语义表示的困惑度。
作为一种可选的实施例,基于语言模型的损失函数的最小值,得到语言模型的网络参数,其中,语言模型的网络参数用于表征语言模型,包括:将第二语义表示输入至初始标注模型,得到初始标注模型对第二样本数据的预测标注结果;根据预测标注结果和第二样本数据的实际标注结果,确定标注模型的损失函数;基于标注模型的损失函数的最小值,得到标注模型的网络参数,其中,标注模型的网络参数用于表征标注模型。
具体的,第二样本数据为第二语种下已知标注结果的文本。在上述步骤中,初始标注模型对第二样本数据的标注结果进行预测,得到预测结果后,与第二样本数据的实际标注结果进行求差,从而得到标注模型的损失函数。
在一种可选的实施例中,仍以第二语种为汉语为例,将已知标记结果的汉语文本输入至初始模型,由初始模型对汉语文本的标记结果进行预测,得到预测的标记结果,再确定汉语文本的实际标注结果和预测的标注结果之间的距离,即为标注模型的损失函数。
作为一种可选的实施例,基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息,包括:获取待标注文本的词向量序列;将词向量序列输入至语言模型,得到待标注文本的对应的语义表示;将待标注文本的对应的语义表示输入至标注模型,其中,标注模型对词向量序列进行标注,得到词向量序列的标注信息。
在上述方案中,首先将待标注文本转换为词向量序列,再通过语言模型根据词向量序列提取待标注文本的语义表示。得到待标注文本的语义表示后,将语义表示输入至标注模型,由标注模型根据待标注文本的语义表示,对待标注文本进行标注。
在上述步骤中,将待标注文本转换为词向量序列,根据词向量序列确定待标注文本的语义表示,再将语义表示输入至标注模型,由标注模型对待标注文本进行标注。
作为一种可选的实施例,根据待标注文本的词向量序列,包括:获取第一语种的词向量矩阵;从第一语种的词向量矩阵中映射得到待标注文本的词向量序列。
具体的,第一语种的词向量矩阵用于记录在第一语种中,词语与向量的对应关系。在获得第一语种的词向量矩阵后,即可将待标注文本映射在第一语种的词向量矩阵中,从而得到待标注文本的词向量序列。
在一种可选的实施例中,可以将待标注文本进行分词,得到待标注文本的词序列,再将待标注文本的词序列映射至词向量矩阵中,得到待标注文本的词向量序列。
本申请上述实施例通过语言模型建模文本的深度语义表示,再通过对不同语言的深度语义表示进行分布对齐,得到跨语言的深度语义表示,这种学习过程中自动对齐的深度语义表示,可用于训练跨语言序列标注模型,提升低资源语言序列标注效果。
以商品评论的词性标注,可以使用英语迁移到越南语为例。使用迁移学习方法训练序列标注模型可以包括如下几个步骤:
(1).对英语和越南语的句子经过各自对应的向量矩阵,映射为向量表示,得到句子的词向量序列;
(2).英语和越南语的词向量序列经过多层的共享双向LSTM,两个方向的LSTM单元从左至右和从右至左,产生句子上文和下文的隐层表示;
(3).确定对不同语言的深度语义表示之间的空间约束损失,使得网络学习得到的语义表示在不同语言之间是相似的,即有跨语言的特性。
(4).英语和越南语的句子在多层双向LSTM的隐层输出,通过捆绑的输入词向量矩阵,得到英语和越南语句子分别对应的困惑度;
(5).向在多层双向LSTM的隐层输出通过跨语言序列标注模型,输出序列标注结果。
上述方案训练语言模型时使用单语预料,通过步骤(1)、(2)、(3)以及(4)训练语言模型;再通过步骤(5)训练标注模型,从而得到跨语言序列标注模型。
图3是根据本申请实施例1的一种文本的标注方法的结构示意图,结合图3所示,,以英语和越南语为例是上述方法进行说明,首先使用大量英语和越南语的无标注评论文本通过步骤(1)、(2)、(3)以及(4)训练语言模型,并在训练过程中对英语和越南语的深度语义表示进行约束,使得这个表示可以在两个语言中通用。然后依托于这个通用的深度语义表示,我们使用英文的标注数据训练词性标注模型,这个训练好的模型就可以直接迁移到越南语上使用,即对越南语的评论数据进行词性标注。
本系统的核心在于语言模型的学习过程中,通过空间约束自动对齐多层双向LSTM的隐层表示,即深度语义表示,下面详细介绍本系统使用的各种特征:
(1).输入语言A和B,各输入句子SA=[wa1,wa2,…],SB=[wb1,wb2,…],对句子SA、SA中的每个词,根据对映关系,经过各自语言的词向量矩阵Emb_A,Emb_B,得到句子的词向量序列EA=[ea1,ea2,…],EB=[eb1,eb2,…];
(2).句子的词向量序列EA=[ea1,ea2…],EB=[eb1,eb2,…]经过多层的共享双向LSTM,得到多层的隐层表示HA_i=[ha1_i,ha2_i,…],HB_i=[hb1_i,hb2_i,…],其中i表示第i层;
(3).对于第i隐层表示,我们添加空间约束损失为
Figure BDA0001980268270000101
Figure BDA0001980268270000102
其中distance为空间中的距离度量,整体空间约束损失为各层损失之和,为∑iloss_regi
(4).使用捆绑的输入词向量矩阵,即Emb_A,Emb_B作为softmax的参数矩阵,计算得到语言模型的困惑度;
(5).将(3)中的各隐层表示HA_i,HB_i输出到标注模型作为跨语言的词表示。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本的标注方法的文本的标注装置,图4是根据本申请实施例2的一种文本的标注装置的示意图,如图4所示,该装置400包括:
获取模块402,用于获取第一语种的待标注文本。
标注模块404,用于基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;
其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。
此处需要说明的是,上述获取模块402和标注模块404对应于实施例1中的步骤S21至步骤S23,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,损失函数至少用于表示:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失。
作为一种可选的实施例,序列标注模型包括:语言模型和标注模型,上述装置还包括:获取模块,用于获取序列标注模型,其中,获取模块包括:第一获取子模块,用于获取第一样本数据和第二样本数据;第一训练子模块,用于根据第一样本数据和第二样本数据对初始语言模型进行训练,得到语言模型;第二训练子模块,用于根据第二样本数据和语言模型对初始标注模型进行训练,得到标注模型。
作为一种可选的实施例,第一训练子模块包括:第一输入单元,用于将第一样本数据和第二样本数据输入至初始语言模型,得到第一语义表示和第二语义表示;第一确定单元,用于根据第一样本数据、第一语义表示、第二样本数据和第二语义表示,确定语言模型的损失函数;第一获取单元,用于基于语言模型的损失函数的最小值,得到语言模型的网络参数,其中,语言模型的网络参数用于表征语言模型。
作为一种可选的实施例,第一输入单元包括:第一确定子单元,用于根据第一样本数据确定第一词向量序列,并根据第二样本数据确定第二词向量序列;第一输入子单元,用于将第一词向量序列和第二词向量序列分别输入至初始语言模型,得到第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示。
作为一种可选的实施例,第一确定单元包括:第一获取子单元,用于获取空间约束损失和困惑度损失函数,其中,空间约束损失用于表示第一语义表示和第二语义表示之间的距离,困惑度损失函数用于表示第一语义表示的困惑度与第二语义表示的困惑度之和;第二确定子单元,用于确定空间约束损失和困惑度损失函数之和为语言模型的损失函数。
作为一种可选的实施例,第二获取子单元包括:第三获取子单元,用于获取语言模型中,每一层输出的第一语义表示和第二语义表示之间的空间距离;第三确定子单元,用于根据每一层输出的第一语义表示和第二语义表示,以及空间距离,确定每一层的空间约束损失;第四确定子单元,用于确定每一层的空间约束损失之和为空间约束损失。
作为一种可选的实施例,第一获取子单元还包括:第五确定子单元,用于根据第一语种的词向量矩阵确定第一语义表示的困惑度,并根据第二语种的词向量矩阵确定第二语义表示的困惑度;第六确定子单元,用于确定第一语义表示的困惑度与第二语义表示的困惑度之和为困惑度损失函数。
作为一种可选的实施例,第一获取单元包括:第二输入子单元,用于将第二语义表示输入至初始标注模型,得到初始标注模型对第二样本数据的预测标注结果;第七确定子单元,用于根据预测标注结果和第二样本数据的实际标注结果,确定标注模型的损失函数;第四获取子单元,用于基于标注模型的损失函数的最小值,得到标注模型的网络参数,其中,标注模型的网络参数用于表征标注模型。
作为一种可选的实施例,标注模块包括:第二获取子模块,用于获取待标注文本的词向量序列;第一输入子模块,用于将词向量序列输入至语言模型,得到待标注文本的对应的语义表示;第二输入子模块,用于将待标注文本的对应的语义表示输入至标注模型,其中,标注模型对词向量序列进行标注,得到词向量序列的标注信息。
作为一种可选的实施例,第二获取子模块包括:第二获取单元,用于获取第一语种的词向量矩阵;映射单元,用于从第一语种的词向量矩阵中映射得到待标注文本的词向量序列。
实施例3
根据本发明实施例,还提供了一种文本的标注方法的文本的标注装置,图5是根据本申请实施例3的一种文本的标注装置的示意图,如图5所示,该方法包括:
步骤S51,获取第一语种的待标注文本。
具体的,上述第一语种可以是使用范围较小的低资源语言,例如:越南语、希腊语、泰语等。待标注文本为需要进行数据标注的文本,可以是语句或词语。
步骤S53,基于语言模型获取待标注文本的语义表示,其中,语言模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,语言模型的损失函数至少包括:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失。
上述第二语种可以是使用范围较大的高资源语言,例如联合国通用语种:汉语、英语、法语、西班牙语、俄语、阿拉伯语。上述第二样本数据是第二语种下已标注的文本,第一样本数据是第一语种下未标注的文本。
第一语义表示可以是从第一样本数据提取出的语义向量,第二语义表示可以是从第二样本数据中提取出的语义向量。第一语义表示和第二语义表示的空间约束损失,用于表示第一样本数据和第二样本数据在语义上的距离,空间约束损失越小,说明第一样本数据和第二样本数据的语义越相似。
上述空间约束损失用于在训练过程中对高资源语言和低资源语言的深度语义表示进行约束,以使得这个表示可以在两个语言中通用,可以是第一语义表示和第二语义表示之间的空间距离,例如:第一语义表示和第二语义表示的欧式距离等。困惑度损失函数用于表示对语义提取结果的质疑程度,即确定第一语义表示和第二语义表示正确的概率。模型损失函数为模型本身的损失函数,即对第二样本数据的标注结果进行预测后,与第二样本数据的实际标注数据之间的损失函数。
步骤S55,基于标注模型根据待标注文本的语义表示,对待标注文本进行标注,得到待标注文本的标注信息,其中,标注模型根据第二样本数据训练得到。
具体的,上述标注信息用于表示对待标注文本的标注结果。文本标注用于根据任务需求对文本中的信息进行标记,例如,对文本中的商品名称进行标记、对文本中的品牌进行标记、对文本中的情感信息进行标记等。在上述方案中,可以先将待标注文本转换为词向量序列,再通过语言模型根据词向量序列提取待标注文本的语义表示。得到待标注文本的语义表示后,将语义表示输入至标注模型,由标注模型根据待标注文本的语义表示,对待标注文本进行标注。
需要说明的是,由于第一语种的标注资源较少,因此如果仅使用第一语种的标注资源作为样本训练序列标注模型,则会由于训练数据较少导致训练结果准确度较低。上述方案利用标注资源丰富的语种的标注数据来辅助低资源语言上模型的学习,通过在训练过程中加入表示语义空间距离的空间约束损失对高资源样本和低资源样本的深度语义表示进行对齐,从而将语言模型作为桥梁,将高资源的语言的序列标注模型迁移到低资源的语言,进而使得能够将现有的标注资源快速迁移到小语种上。
由此,本申请上述实施例解决了现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。
还需要说明的是,相较于借助翻译的迁移学习方法,本方案无需平行双语预料,使用资源更少,在实际中更具有可行性和易用性。同时,保留了单语文本本身的特点,不会因为翻译的质量影响标记结果。
实施例4
根据本发明实施例,还提供了一种用于实施实施例3中的文本的标注方法的文本的标注装置,图6是根据本申请实施例4的一种文本的标注装置的示意图,如图6所示,该装置600包括:
第一获取模块602,用于获取第一语种的待标注文本。
第二获取模块604,用于基于语言模型获取待标注文本的语义表示,其中,语言模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,语言模型的损失函数至少包括:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失。
标注模块606,用于基于标注模型根据待标注文本的语义表示,对待标注文本进行标注,得到待标注文本的标注信息,其中,标注模型根据第二样本数据训练得到。
此处需要说明的是,上述第一获取模块602、第二获取模块604和标注模块606对应于实施例3中的步骤S51至步骤S55,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行文本的标注方法中以下步骤的程序代码:获取第一语种的待标注文本;基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐。
可选地,图7是根据本申请实施例5的一种计算机终端的结构框图。如图7所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器702、存储器704、以及外设接口706。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本的标注方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的标注方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取第一语种的待标注文本;基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,序列标注模型在训练的过程中通过损失函数对第一样本和第二样本进行对齐。
可选的,损失函数至少用于表示:第一样本数据的第一语义表示与第二样本数据的第二语义表示之间的空间约束损失。
可选的,上述处理器还可以执行如下步骤的程序代码:序列标注模型包括:语言模型和标注模型,获取序列标注模型还包括:获取第一样本数据和第二样本数据;根据第一样本数据和第二样本数据对初始语言模型进行训练,得到语言模型;根据第二样本数据和语言模型对初始标注模型进行训练,得到标注模型。
可选的,上述处理器还可以执行如下步骤的程序代码:将第一样本数据和第二样本数据输入至初始语言模型,得到第一语义表示和第二语义表示;根据第一样本数据、第一语义表示、第二样本数据和第二语义表示,确定语言模型的损失函数;基于语言模型的损失函数的最小值,得到语言模型的网络参数,其中,语言模型的网络参数用于表征语言模型。
可选的,上述处理器还可以执行如下步骤的程序代码:根据第一样本数据确定第一词向量序列,并根据第二样本数据确定第二词向量序列;将第一词向量序列和第二词向量序列分别输入至初始语言模型,得到第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示。
可选的,上述处理器还可以执行如下步骤的程序代码:获取空间约束损失和困惑度损失函数,其中,空间约束损失用于表示第一语义表示和第二语义表示之间的距离,困惑度损失函数用于表示第一语义表示的困惑度与第二语义表示的困惑度之和;确定空间约束损失和困惑度损失函数之和为语言模型的损失函数。
可选的,上述处理器还可以执行如下步骤的程序代码:获取语言模型中,每一层输出的第一语义表示和第二语义表示之间的空间距离;根据每一层输出的第一语义表示和第二语义表示,以及空间距离,确定每一层的空间约束损失;确定每一层的空间约束损失之和为空间约束损失。
可选的,上述处理器还可以执行如下步骤的程序代码:根据第一语种的词向量矩阵确定第一语义表示的困惑度,并根据第二语种的词向量矩阵确定第二语义表示的困惑度;确定第一语义表示的困惑度与第二语义表示的困惑度之和为困惑度损失函数。
可选的,上述处理器还可以执行如下步骤的程序代码:将第二语义表示输入至初始标注模型,得到初始标注模型对第二样本数据的预测标注结果;根据预测标注结果和第二样本数据的实际标注结果,确定标注模型的损失函数;基于标注模型的损失函数的最小值,得到标注模型的网络参数,其中,标注模型的网络参数用于表征标注模型。
可选的,上述处理器还可以执行如下步骤的程序代码:获取待标注文本的词向量序列;将词向量序列输入至语言模型,得到待标注文本的对应的语义表示;将待标注文本的对应的语义表示输入至标注模型,其中,标注模型对词向量序列进行标注,得到词向量序列的标注信息。
可选的,上述处理器还可以执行如下步骤的程序代码:获取第一语种的词向量矩阵;从第一语种的词向量矩阵中映射得到待标注文本的词向量序列。
采用本发明实施例,提供了一种文本的标注方法。通过在训练过程中加入表示语义空间距离的空间约束损失对高资源样本和低资源样本的深度语义表示进行对齐,从而将深度语义表示作为桥梁,将高资源的语言的序列标注模型迁移到低资源的语言,进而使得能够将现有的标注资源快速迁移到小语种上。由此,本申请上述实施例解决了现有技术中小语种的标注资源稀缺,导致监督学习机器算法的使用效果较差的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端70还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本的标注方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取第一语种的待标注文本;基于序列标注模型对待标注文本进行标注,得到待标注文本的标注信息;其中,序列标注模型根据样本数据训练得到,样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种文本的标注方法,包括:
获取第一语种的待标注文本;
基于序列标注模型对所述待标注文本进行标注,得到所述待标注文本的标注信息;
其中,所述序列标注模型根据样本数据训练得到,所述样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐;
其中,所述方法还包括:获取所述序列标注模型,其中,所述序列标注模型包括:语言模型和标注模型;
获取所述序列标注模型,包括:获取所述第一样本数据和所述第二样本数据;根据所述第一样本数据和所述第二样本数据对初始语言模型进行训练,得到所述语言模型;根据所述第二样本数据和所述语言模型对初始标注模型进行训练,得到所述标注模型;
根据所述第一样本数据和所述第二样本数据对初始模型进行训练,得到所述语言模型,包括:将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到第一语义表示和第二语义表示;根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数;基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,其中,所述语言模型的网络参数用于表征所述语言模型;
基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,包括:将所述第二语义表示输入至所述初始标注模型,得到所述初始标注模型对所述第二样本数据的预测标注结果;根据所述预测标注结果和所述第二样本数据的实际标注结果,确定所述标注模型的损失函数;基于所述标注模型的损失函数的最小值,得到所述标注模型的网络参数,其中,所述标注模型的网络参数用于表征所述标注模型。
2.根据权利要求1所述的方法,其中,所述损失函数至少用于表示:所述第一样本数据的第一语义表示与所述第二样本数据的第二语义表示之间的空间约束损失。
3.根据权利要求1所述的方法,其中,将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到所述第一语义表示和所述第二语义表示,包括:
根据所述第一样本数据确定第一词向量序列,并根据所述第二样本数据确定第二词向量序列;
将所述第一词向量序列和所述第二词向量序列分别输入至所述初始语言模型,得到所述第一词向量序列对应的第一语义表示和所述第二词向量序列对应的第二语义表示。
4.根据权利要求2所述的方法,其中,根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数,包括:
获取所述空间约束损失和困惑度损失函数,其中,所述空间约束损失用于表示所述第一语义表示和所述第二语义表示之间的距离,所述困惑度损失函数用于表示所述第一语义表示的困惑度与所述第二语义表示的困惑度之和;
确定所述空间约束损失和所述困惑度损失函数之和为所述语言模型的损失函数。
5.根据权利要求4所述的方法,其中,获取所述空间约束损失,包括:
获取所述语言模型中,每一层输出的第一语义表示和第二语义表示之间的空间距离;
根据每一层输出的第一语义表示和第二语义表示,以及所述空间距离,确定所述每一层的空间约束损失;
确定所述每一层的空间约束损失之和为所述空间约束损失。
6.根据权利要求5所述的方法,其中,获取困惑度损失函数,包括:
根据所述第一语种的词向量矩阵确定所述第一语义表示的困惑度,并根据所述第二语种的词向量矩阵确定所述第二语义表示的困惑度;
确定所述第一语义表示的困惑度与所述第二语义表示的困惑度之和为所述困惑度损失函数。
7.根据权利要求1至6中任意一项所述的方法,其中,基于序列标注模型对所述待标注文本进行标注,得到所述待标注文本的标注信息,包括:
获取所述待标注文本的词向量序列;
将所述词向量序列输入至所述语言模型,得到所述待标注文本的对应的语义表示;
将所述待标注文本的对应的语义表示输入至所述标注模型,其中,所述标注模型对所述词向量序列进行标注,得到所述词向量序列的标注信息。
8.根据权利要求7所述的方法,其中,获取所述待标注文本的词向量序列,包括:
获取所述第一语种的词向量矩阵;
从所述第一语种的词向量矩阵中映射得到所述待标注文本的词向量序列。
9.一种文本的标注装置,包括:
获取模块,用于获取第一语种的待标注文本;
标注模块,用于基于序列标注模型对所述待标注文本进行标注,得到所述待标注文本的标注信息;
其中,所述序列标注模型根据样本数据训练得到,所述样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐;
其中,所述装置还用于执行:获取所述序列标注模型,其中,所述序列标注模型包括:语言模型和标注模型;
所述装置还用于通过如下步骤来获取所述序列标注模型:获取所述第一样本数据和所述第二样本数据;根据所述第一样本数据和所述第二样本数据对初始语言模型进行训练,得到所述语言模型;根据所述第二样本数据和所述语言模型对初始标注模型进行训练,得到所述标注模型;
所述装置还用于通过如下步骤来根据所述第一样本数据和所述第二样本数据对初始模型进行训练,得到所述语言模型:将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到第一语义表示和第二语义表示;根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数;基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,其中,所述语言模型的网络参数用于表征所述语言模型;
所述装置还用于通过如下步骤来基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数:将所述第二语义表示输入至所述初始标注模型,得到所述初始标注模型对所述第二样本数据的预测标注结果;根据所述预测标注结果和所述第二样本数据的实际标注结果,确定所述标注模型的损失函数;基于所述标注模型的损失函数的最小值,得到所述标注模型的网络参数,其中,所述标注模型的网络参数用于表征所述标注模型。
10.一种文本的标注方法,包括:
获取第一语种的待标注文本;
基于语言模型获取所述待标注文本的语义表示,其中,所述语言模型根据样本数据训练得到,所述样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述语言模型的损失函数至少包括:所述第一样本数据的第一语义表示与所述第二样本数据的第二语义表示之间的空间约束损失;
基于标注模型根据所述待标注文本的语义表示,对所述待标注文本进行标注,得到所述待标注文本的标注信息,其中,所述标注模型根据所述第二样本数据训练得到;
其中,所述方法还包括:获取所述标注模型;获取所述语言模型;
获取所述标注模型,包括:获取所述第一样本数据和所述第二样本数据;根据所述第一样本数据和所述第二样本数据对初始语言模型进行训练,得到所述语言模型;根据所述第二样本数据和所述语言模型对初始标注模型进行训练,得到所述标注模型;
获取所述语言模型,包括:将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到所述第一语义表示和所述第二语义表示;根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数;基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,其中,所述语言模型的网络参数用于表征所述语言模型;
基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,包括:将所述第二语义表示输入至所述初始标注模型,得到所述初始标注模型对所述第二样本数据的预测标注结果;根据所述预测标注结果和所述第二样本数据的实际标注结果,确定所述标注模型的损失函数;基于所述标注模型的损失函数的最小值,得到所述标注模型的网络参数,其中,所述标注模型的网络参数用于表征所述标注模型。
11.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:获取第一语种的待标注文本;基于序列标注模型对所述待标注文本进行标注,得到所述待标注文本的标注信息;其中,
所述序列标注模型根据样本数据训练得到,所述样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐;
其中,所述存储介质所在设备还用于执行如下步骤:获取所述序列标注模型,其中,所述序列标注模型包括:语言模型和标注模型;
所述存储介质所在设备还用于通过如下步骤来获取所述序列标注模型:获取所述第一样本数据和所述第二样本数据;根据所述第一样本数据和所述第二样本数据对初始语言模型进行训练,得到所述语言模型;根据所述第二样本数据和所述语言模型对初始标注模型进行训练,得到所述标注模型;
所述存储介质所在设备还用于通过如下步骤来根据所述第一样本数据和所述第二样本数据对初始模型进行训练,得到所述语言模型:将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到第一语义表示和第二语义表示;根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数;基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,其中,所述语言模型的网络参数用于表征所述语言模型;
所述存储介质所在设备还用于通过如下步骤来基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数:将所述第二语义表示输入至所述初始标注模型,
得到所述初始标注模型对所述第二样本数据的预测标注结果;根据所述预测标注结果和所述第二样本数据的实际标注结果,确定所述标注模型的损失函数;基于所述标注模型的损失函数的最小值,得到所述标注模型的网络参数,其中,所述标注模型的网络参数用于表征所述标注模型。
12.一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如下步骤:获取第一语种的待标注文本;基于序列标注模型对所述待标注文本进行标注,得到所述待标注文本的标注信息;其中,所述序列标注模型根据样本数据训练得到,所述样本数据包括:第一语种下未标注的第一样本数据和第二语种下已标注的第二样本数据,所述序列标注模型在训练的过程中通过损失函数对所述第一样本和所述第二样本进行对齐;
所述程序运行时还用于执行如下步骤:获取所述序列标注模型,其中,所述序列标注模型包括:语言模型和标注模型;
所述程序运行时还用于执行如下步骤来获取所述序列标注模型:获取所述第一样本数据和所述第二样本数据;根据所述第一样本数据和所述第二样本数据对初始语言模型进行训练,得到所述语言模型;根据所述第二样本数据和所述语言模型对初始标注模型进行训练,得到所述标注模型;
所述程序运行时还用于执行如下步骤来根据所述第一样本数据和所述第二样本数据对初始模型进行训练,得到所述语言模型:将所述第一样本数据和第二样本数据输入至所述初始语言模型,得到第一语义表示和第二语义表示;根据所述第一样本数据、所述第一语义表示、所述第二样本数据和所述第二语义表示,确定所述语言模型的损失函数;基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数,其中,所述语言模型的网络参数用于表征所述语言模型;
所述程序运行时还用于执行如下步骤来基于所述语言模型的损失函数的最小值,得到所述语言模型的网络参数:将所述第二语义表示输入至所述初始标注模型,得到所述初始标注模型对所述第二样本数据的预测标注结果;根据所述预测标注结果和所述第二样本数据的实际标注结果,确定所述标注模型的损失函数;基于所述标注模型的损失函数的最小值,得到所述标注模型的网络参数,其中,所述标注模型的网络参数用于表征所述标注模型。
CN201910146695.7A 2019-02-27 2019-02-27 文本的标注方法和装置 Active CN111695344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910146695.7A CN111695344B (zh) 2019-02-27 2019-02-27 文本的标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910146695.7A CN111695344B (zh) 2019-02-27 2019-02-27 文本的标注方法和装置

Publications (2)

Publication Number Publication Date
CN111695344A CN111695344A (zh) 2020-09-22
CN111695344B true CN111695344B (zh) 2023-05-30

Family

ID=72474380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910146695.7A Active CN111695344B (zh) 2019-02-27 2019-02-27 文本的标注方法和装置

Country Status (1)

Country Link
CN (1) CN111695344B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033660B (zh) * 2021-03-24 2022-08-02 支付宝(杭州)信息技术有限公司 一种通用小语种检测方法、装置以及设备
CN113239967A (zh) * 2021-04-14 2021-08-10 北京达佳互联信息技术有限公司 文字识别模型训练方法、识别方法、相关设备及存储介质
CN112989801B (zh) * 2021-05-11 2021-08-13 华南师范大学 一种序列标注方法、装置及设备
CN115563951A (zh) * 2022-10-14 2023-01-03 美的集团(上海)有限公司 文本序列的标注方法、装置、存储介质和电子设备
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN107818487A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种产品信息处理方法、装置、设备及客户端
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946693B2 (en) * 2015-11-12 2018-04-17 Guangzhou Shenma Mobile Information Technology Co., Ltd. Displaying of webpage comments in an order according to the number of webpage comments
US10726325B2 (en) * 2017-04-13 2020-07-28 Adobe Inc. Facilitating machine-learning and data analysis by computing user-session representation vectors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818487A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种产品信息处理方法、装置、设备及客户端
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hailin Yang等.Recognition of Chinese Text in Historical Documents with Page-Level Annotations.2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR).2018,第199-204页. *
南江霞.中文文本自动标注技术研究及其应用.中国优秀硕士学位论文全文数据库.2015,全文. *
鲁强 ; 刘兴昱 ; .基于迁移学习的知识图谱问答语义匹配模型.计算机应用.2018,(第07期),第22-28页. *

Also Published As

Publication number Publication date
CN111695344A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111695344B (zh) 文本的标注方法和装置
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
US11010673B2 (en) Method and system for entity relationship model generation
CN107783967A (zh) 用于自动化的文档翻译的技术
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CA2971884C (en) Method and device for general machine translation engine-oriented individualized translation
CN108415939B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
KR20150130476A (ko) 컴퓨터 애플리케이션에 대한 언어 번역 현지화를 위한 기법
CN110807197A (zh) 识别模型的训练方法及装置、风险网站识别方法及装置
CN107122190A (zh) 一种多语言静态页面生成方法、服务器和存储介质
KR102409667B1 (ko) 기계 번역의 학습 데이터 구축을 위한 방법
CN104423951A (zh) 用于用户界面的方法和装置
CN114625349A (zh) 前端页面生成方法、装置、终端设备及存储介质
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
CN111460804B (zh) 文本处理方法、装置和系统
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN111859862A (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN110362734A (zh) 文本识别方法、装置、设备及计算机可读存储介质
CN115455922A (zh) 表单校验方法、装置、电子设备和存储介质
KR20230138714A (ko) 번역문 검수 에디터 제공 방법
CN114781384A (zh) 命名实体智能标注方法、装置、设备及存储介质
CN114580347A (zh) 结合rpa及ai的招投标信息确定方法、装置及存储介质
CN107729499A (zh) 信息处理方法、介质、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant