CN110413736B - 跨语言文本表示方法和装置 - Google Patents

跨语言文本表示方法和装置 Download PDF

Info

Publication number
CN110413736B
CN110413736B CN201910678829.XA CN201910678829A CN110413736B CN 110413736 B CN110413736 B CN 110413736B CN 201910678829 A CN201910678829 A CN 201910678829A CN 110413736 B CN110413736 B CN 110413736B
Authority
CN
China
Prior art keywords
text
language
model
representation
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910678829.XA
Other languages
English (en)
Other versions
CN110413736A (zh
Inventor
王硕寰
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201910678829.XA priority Critical patent/CN110413736B/zh
Publication of CN110413736A publication Critical patent/CN110413736A/zh
Application granted granted Critical
Publication of CN110413736B publication Critical patent/CN110413736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种跨语言文本表示方法和装置,其中,方法包括:获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,第一跨语言表示模型包括第一通用向量子模型和文本表示子模型;获取待处理文本对应的目标语种的第二训练文本;根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型;根据第二通用向量子模型和文本表示子模型获取目标语种的第二跨语言表示模型。由此,基于语义对齐处理挖掘不同语种之间的通用向量,基于通用向量进行跨语言文本处理,保证了跨语言处理模型的表示效果。解决了现有技术中,跨语言处理模型难以跨越语种不同的障碍导致的表示效果较差的技术问题。

Description

跨语言文本表示方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种跨语言文本表示方法和装置。
背景技术
跨语言的语义表示技术,其目标是使用不同语言的大量文本进行学习,构建跨语义的语义表示,协助只有少量标注数据的跨语言的文本表示任务(例如机器翻译、跨语言的检索、问答、推理、情感分类等)。
相关技术中,如图1所示,跨语言的语义表示技术分为单语语料和多语平行的语料表示技术,其中,单语语料指的是在跨语言语义表示的基础上,学习跨语言的任务模型(例如:跨语言的推理、阅读理解、检索、情感分析等)。例如,使用有标注英语的情感分类数据训练跨语言的语义表示模型,得到一个可以应用多语言的情感分类模型。避免了同样的文本表示任务在不同语言的重复标注,同时具备利用其他语言的语料进行同样的文本表示的能力。其中,多语平行的语料表示技术指的是,在跨语言语义表示的基础上,学习机器翻译模型等。目前最典型的跨语言的语义表示技术,是多语言BERT和XLM等模型,其使用不同语言的单语语料进行训练,得到跨语言的语义表示模型。
然后,上述跨语言的语义表示模型仅仅将多语言的语义表示学习到一起,并没有考虑到不同语种之间的差异性,影响了跨语言表示的效果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种跨语言文本表示方法,解决了现有技术中,跨语言处理模型难以跨越语种不同的障碍导致的表示效果较差的技术问题。本发明的第二个目的在于提出一种跨语言文本表示装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种跨语言文本表示方法,包括以下步骤:获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,所述第一跨语言表示模型包括第一通用向量子模型和文本表示子模型;获取待处理文本对应的第二语种的第二训练文本,其中,所述第二语种与所述第一语种不同,所述第一训练文本和所述第二训练文本语义相同;根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型;根据所述第二通用向量子模型和所述文本表示子模型获取所述第二语种的第二跨语言表示模型,以便于基于所述第二跨语言表示模型对所述待处理文本进行文本表示。
另外,本发明实施例的跨语言文本表示方法,还具有如下附加的技术特征:
可选地,在所述获取第一语种的第一跨语言表示模型之前,包括:获取所述第一语种的训练文本并标注与所述训练文本对应的标注文本表示结果;将所述训练文本输入所述第一通用向量子模型,获取通用向量;将所述通用向量输入至所述文本表示子模型,获取文本表示结果;判断所述文本表示结果与所述标注文本表示结果是否一致;若不一致,则获取所述文本表示结果与所述标注文本表示结果的差异信息,根据所述差异信息调整所述第一跨语言表示模型的模型参数,直至所述文本表示结果与所述标注文本表示结果一致。
可选地,所述根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型,包括:将所述第一训练文本输入所述第一通用向量子模型获取第一通用向量;将所述第二训练文本输入所述第一通用向量子模型获取第二通用向量;判断所述第一通用向量与所述第二通用向量是否一致;当所述第一通用向量与所述第二通用向量不一致时,调整所述第一通用向量子模型的模型参数,直至所述第一通用向量与所述第二通用向量一致时得所到所述第二通用向量子模型。
可选地,所述文本表示子模型为文本翻译子模型时,则所述方法还包括:将所述待处理文本输入所述文本翻译子模型;通过所述文本翻译子模型根据所述第二通用向量子模型输出的待处理通用向量,获取特定向量;通过所述文本翻译子模型根据所述特定向量获取与所述第一语种对应的翻译文本。
可选地,所述文本表示子模型为情感分析子模型时,则所述方法还包括:将所述待处理文本输入所述情感分析子模型;通过所述情感分析子模型根据所述第二通用向量子模型输出的待处理通用向量,获取特定向量;通过所述情感分析子模型根据所述特定向量获取情感分析结果。
本发明第二方面实施例提出了一种跨语言文本表示装置,包括:第一获取模块,用于获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,所述第一跨语言表示模型包括第一通用向量子模型和文本表示子模型;第二获取模块,用于获取待处理文本对应的第二语种的第二训练文本,其中,所述第二语种与所述第一语种不同,所述第一训练文本和所述第二训练文本语义相同;训练模块,用于根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型;第三模块,用于根据所述第二通用向量子模型和所述文本表示子模型获取所述第二语种的第二跨语言表示模型,以便于基于所述第二跨语言表示模型对所述待处理文本进行文本表示。
另外,本发明实施例的跨语言文本表示装置,还具有如下附加的技术特征:
可选地,还包括:第四获取模块,用于获取所述第一语种的训练文本并标注与所述训练文本对应的标注文本表示结果;第五获取模块,用于将所述训练文本输入所述第一通用向量子模型,获取通用向量;第六获取模块,用于将所述通用向量输入至所述文本表示子模型,获取文本表示结果;判断模块,用于判断所述文本表示结果与所述标注文本表示结果是否一致;模型调整模块,用于在所述文本表示结果与所述标注文本表示结果不一致时,获取所述文本表示结果与所述标注文本表示结果的差异信息,根据所述差异信息调整所述第一跨语言表示模型的模型参数,直至所述文本表示结果与所述标注文本表示结果一致。
可选地,所述训练模块,包括:第一获取单元,用于将所述第一训练文本输入所述第一通用向量子模型获取第一通用向量;第二获取单元,用于将所述第二训练文本输入所述第一通用向量子模型获取第二通用向量;判断单元,用于判断所述第一通用向量与所述第二通用向量是否一致;模型调整单元,用于在所述第一通用向量与所述第二通用向量不一致时,调整所述第一通用向量子模型的模型参数,直至所述第一通用向量与所述第二通用向量一致时得所到所述第二通用向量子模型。
本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的跨语言文本表示方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的跨语言文本表示方法。
本发明实施例提供的技术方案至少具有如下附加的技术特征:
获取第一语种对应的第一训练文本和第一跨语言表示模型,获取待处理文本对应的第二语种的第二训练文本,其中,第二语种与第一语种不同,第一训练文本和第二训练文本语义相同,进而,根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型,最后,根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,以便于基于第二跨语言表示模型对待处理文本进行文本表示。由此,基于语义对齐处理挖掘不同语种之间的通用向量,基于通用向量进行跨语言文本处理,保证了跨语言处理模型的表示效果。解决了现有技术中,跨语言处理模型难以跨越语种不同的障碍导致的表示效果较差的技术问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为现有技术所提供的一种跨语言技术表示的场景示意图;
图2为本发明实施例所提供的一种跨语言文本表示方法的流程示意图;
图3为本发明实施例所提供的一种第一跨语言表示模型的结构示意图;
图4为本发明实施例所提供的另一种第一跨语言表示模型的结构示意图;
图5为本发明实施例所提供的一种跨语言文本表示方法的应用场景示意图;
图6为本发明实施例所提供的另一种跨语言文本表示方法的应用场景示意图;
图7为本发明实施例所提供的又一种跨语言文本表示方法的应用场景示意图;
图8为本发明实施例提供的一种跨语言文本表示装置的结构示意图;
图9为本发明实施例提供的另一种跨语言文本表示装置的结构示意图;以及
图10为本发明实施例提供的又一种跨语言文本表示装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的跨语言文本表示方法和装置。
针对上述背景技术中提到的,现有技术在进行跨语言文本表示时,没有考虑到语种之间的差异性导致根据跨语言文本表示的结果不够准确的技术问题,本发明提出了一种去除不同语种之间的障碍的跨语言文本表示方法。
在本发明实施例提出的跨语言文本表示方法中,将不同语言的表示进行对齐,例如中文“这是一只猫”和英文的“This is a cat”,在其语义相同的基础上,会进一步的将其语义表示进行对齐,由此,不同语言的相同语义的句子输出的向量一致,保证了跨语言表示模型的输出结果的精确性。
具体而言,图2为本发明实施例所提供的一种跨语言文本表示方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤101,获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,第一跨语言表示模型包括第一通用向量子模型和文本表示子模型。
应当理解的是,第一跨语言表示模型包括第一通用向量子模型和文本表示子模型,其中,第一通用向量子模型用于提取输入的文本的通用向量,文本表示子模型用于基于输入的通用向量进行有关语义表示处理,比如,进行情感分析,翻译文本的获取等。
当然了,在不同的应用场景中,文本表示子模型和第一通用向量子模型的组成不同,作为一种可能的示例,如图3所示,当文本表示子模型为文本翻译子模型时,则第一通用向量子模型可以包括跨语言表示模块和对抗语言分类器模块,其中,跨语言表示模块用于提取第一语种对应的文本的特定向量,对抗语言分类器用于去除语种的影响获取该特定向量的通用向量。文本翻译子模型包括向量变换模块和翻译模块,其中,向量变换模块用于将上述通用向量转换为第一语种的特定向量,进而,将特定向量输入至翻译模块获取翻译出的第一语种的翻译文本。
另外,上述第一语种对应的第一训练文本为第一语种的某些训练文本,用于后续对跨语言表示模型的无监督训练。
在本发明的一个实施例中,为了避免第一通用向量子模型在将第一语种对应的文本转换为通用向量后,经由文本表示子模型将通用向量转换为特定语义时不损失其基本语义,需要对预先实现对第一跨语言表示模型的训练。
具体而言,在本发明的一个实施例中,在获取第一语种的第一跨语言表示模型之前,获取第一语种的训练文本并标注与训练文本对应的标注文本表示结果,比如,获取第一语种的训练文本,以及与该训练文本对应真实的语义结果,进而,将训练文本输入到第一通用向量子模型,获取该训练文本的通用向量,将通用向量输入至文本表示子模型,获取文本表示结果,判断文本表示结果与标注文本表示结果是否一致,如果不一致,则表明第一通用向量子模型提取的通用向量可能在转换为特定向量时具有语义损失,因而,获取文本表示结果与标注文本表示结果的差异信息,根据差异信息调整第一通用向量子模型的模型参数,直至文本表示结果与标注文本表示结果一致,在本实施例中,还可以调节第一跨语言表示模型中的文本表示子模型的模型参数,以强化第一语种的语义,避免在通用语义向量和特定语义向量在转化过程中导致的语义损失。
继续以上述图3所示的场景为例进行说明,在预先训练第一跨语言表示模型时,输入训练文本A,并标注训练文本A对应的准确的翻译文本a,此时,将训练文本A输入到第一跨语言表示模型后,得到翻译文本b,将翻译文本b与翻译文本a进行差异信息比对,根据比对结果调整第一跨语言表示模型,直至该第一跨语言表示模型输出的翻译文本b和翻译文本a一致,或者差异在预设范围内。
在不同的场景中,对第一跨语言表示模型进行模型优化的方式不同,以图4所示出的翻译场景为例,当第一语种对应的第一跨语言表示模型的功能是将第一语种的文本A翻译为第二语种的文本b后,可以将文本b与第二语种的真实文本B进行差异比较,根据比较结果优化该第一通用向量子模型。
步骤102,获取待处理文本对应的第二语种的第二训练文本,其中,第二语种与第一语种不同,第一训练文本和第二训练文本语义相同。
具体的,获取待处理文本对应的第二语种的第二训练文本,该第二训练文本与第一训练文本的语义相同,比如,第一训练文本为“这是一只猫”,则第二训练文本为:“Thisis a cat”,为了实现跨语言的文本处理任务,本发明中的第一语种和第二语种不同,其中,第二语种可以为一种也可以为多种,即本发明中训练完成后的第二通用向量子模型可以供多种类型的语种复用实现跨语言的文本表示任务。
步骤103,根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型。
不难理解的是,如果直接复用第一跨语言表示模型,则第一通用向量子模型可能会受到第二语种的语种类型的影响,导致通用向量不够精确,从而影响最后的文本表示结果,因而,为了保证最后的跨语言表示结果,需要进一步的对第一通用向量子模型进行去除语种影响的无监督训练。
具体而言,根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型,以使得第二通用向量子模型可以将第一训练文本和第二训练文本训练得到一致的通用向量,去除语种的影响。
在本发明的一个实施例中,将第一训练文本输入第一通用向量子模型获取第一通用向量,将第二训练文本输入第一通用向量子模型获取第二通用向量,进而,当第一通用向量与第二通用向量不一致时,调整第一通用向量子模型的模型参数,直至第一通用向量与第二通用向量一致时得所到第二通用向量子模型,从而训练完成后的第二通用向量子模型可以将具有同样语义的第一语种的文本和第二语种的文本提取的通用向量一致。
需要说明的是,上述实施例的本质是发觉不同语种之间语义的共同点,寻找二者的通用向量,去除二者之间的语种的影响,本质上是基于语义对齐的方式进行的训练。
步骤104,根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,以便于基于第二跨语言表示模型对待处理文本进行文本表示。
具体地,根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,该第二跨语言表示模型可以实现第二语种与第一语种之间的跨语言文本表示任务。
作为一种可能的示例,当文本表示子模型为文本翻译子模型时,得到的第二跨语言表示模型可以实现第一语言到第二语言的翻译任务。
在本示例中,将待处理文本输入文本翻译子模型,通过文本翻译子模型根据第二通用向量子模型输出的待处理通用向量,获取特定向量,进而,通过文本翻译子模型根据特定向量获取与第一语种对应的翻译文本。
当然,为了进一步丰富库语言文本表示的功能,还可以预先训练多种的跨语言表示模型,基于跨语言表示模型的模型训练,可以同时实现多种语言之间双向的文本表示处理。
举例而言,如图5所示,当第一语种为英语,第二语种为法语后图中白色表示英语,灰色表示法语),预先训练得到第一跨语言表示模型,该第一跨语言表示模型用于将英语文本翻译为英语,得到第一语种对应的第一跨语言表示模型后,基于语义对齐的方式,使用语义相同的法语和英语的训练文本训练第一通用向量子模型,得到第二通用向量子模型后,根据第二通用向量子模型和第一跨语言表示模型的文本表示子模型,可以实现法语到英语的跨语言的翻译模型的文本表示。
同时,当第一语种为法语,第二语种为英语后(图中白色表示英语,灰色表示法语),预先训练得到第一跨语言表示模型,该第一跨语言表示模型用于将法语文本翻译为法语,得到第一语种对应的第一跨语言表示模型后,基于语义对齐的方式,使用语义相同的法语和英语的训练文本训练第一通用向量子模型,得到第二通用向量子模型后,根据第二通用向量子模型和第一跨语言表示模型的文本表示子模型,可以实现英语到法语的跨语言的翻译模型的文本表示。
也就是说,参照图5,在基于语义对齐的方式进行第二通用向量子模型后,可以互相交互两个第一跨语言训练模型上的文本表示子模型即可实现针对每个语种的第二跨语言表示模型的获取。
作为一种可能的示例,当文本表示子模型为情感分析子模型时,得到的第二跨语言表示模型可以实现对英语中到情感分析的文本处理。
在本示例中,将待处理文本输入情感分析子模型,通过情感分析子模型根据第二通用向量子模型输出的待处理通用向量,获取特定向量,通过情感分析子模型根据特定向量获取情感分析结果。比如,若到处理文本为“我今天实际上有点丧”则输出的情感分析结果为“难过”。
举例而言,如图6所示,当第一语种为英语,第二语种为法语时(图中白色表示英语,灰色表示法语),预先训练得到第一跨语言表示模型,该第一跨语言表示模型用于将英语文本表示为情感分析结果,得到第一语种对应的第一跨语言表示模型后,基于语义对齐的方式,使用语义相同的法语和英语的训练文本训练第一通用向量子模型,得到第二通用向量子模型后,根据第二通用向量子模型和第一跨语言表示模型的文本表示子模型,可以实现法语的跨语言的情感分析表示。
为了进一步强调出本发明中的第二语种可以为多个,下面结合图7进行举例,当第一语种为英语,第二语种为法语和日语时(图中白色表示英语,灰色表示法语,黑色表示日语),预先训练得到第一跨语言表示模型,该第一跨语言表示模型用于将英语文本表示为情感分析结果,得到第一语种对应的第一跨语言表示模型后,基于语义对齐的方式,使用语义相同的法语、日语和英语的训练文本训练第一通用向量子模型,得到第二通用向量子模型后,根据第二通用向量子模型和第一跨语言表示模型的文本表示子模型,可以实现法语或日语的跨语言的情感分析表示。
综上,本发明实施例的跨语言文本表示方法,获取第一语种对应的第一训练文本和第一跨语言表示模型,获取待处理文本对应的第二语种的第二训练文本,其中,第二语种与第一语种不同,第一训练文本和第二训练文本语义相同,进而,根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型,最后,根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,以便于基于第二跨语言表示模型对待处理文本进行文本表示。由此,基于语义对齐处理挖掘不同语种之间的通用向量,基于通用向量进行跨语言文本处理,保证了跨语言处理模型的表示效果。解决了现有技术中,跨语言处理模型难以跨越语种不同的障碍导致的表示效果较差的技术问题。
为了实现上述实施例,本发明还提出一种跨语言文本表示装置。
图8为本发明实施例提供的一种跨语言文本表示装置的结构示意图。
如图8所示,该跨语言文本表示装置包括:第一获取模块10、第二获取模块20、训练模块30和第三获取模块40。
其中,第一获取模块10,用于获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,第一跨语言表示模型包括第一通用向量子模型和文本表示子模型。
第二获取模块20,用于获取待处理文本对应的第二语种的第二训练文本,其中,第二语种与第一语种不同,第一训练文本和第二训练文本语义相同。
训练模块30,用于根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型。
第三获取模块40,用于根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,以便于基于第二跨语言表示模型对待处理文本进行文本表示。
在本发明的一个实施例中,如图9所示,在如图8所示的基础上,该装置还包括:第四获取模块50、第五获取模块60、第六获取模块70、判断模块80和模型调整模块90,其中,
第四获取模块50,用于获取第一语种的训练文本并标注与训练文本对应的标注文本表示结果。
第五获取模块60,用于将训练文本输入第一通用向量子模型,获取通用向量。
第六获取模块70,用于将通用向量输入至文本表示子模型,获取文本表示结果。
判断模块80,用于判断文本表示结果与标注文本表示结果是否一致。
模型调整模块90,用于在文本表示结果与标注文本表示结果不一致时,获取文本表示结果与标注文本表示结果的差异信息,根据差异信息调整第一跨语言表示模型的模型参数,直至文本表示结果与标注文本表示结果一致。
在本发明的一个实施例中,如图10所示,在如图8所示的基础上,训练模块30包括:第一获取单元31、第二获取单元32、判断单元33、模型调整单元34,其中,
第一获取单元31,用于将第一训练文本输入第一通用向量子模型获取第一通用向量。
第二获取单元32,用于将第二训练文本输入第一通用向量子模型获取第二通用向量。
判断单元33,用于判断第一通用向量与第二通用向量是否一致。
模型调整单元34,用于在第一通用向量与第二通用向量不一致时,调整第一通用向量子模型的模型参数,直至第一通用向量与第二通用向量一致时得所到第二通用向量子模型。
需要说明的是,前述对跨语言文本表示方法实施例的解释说明也适用于该实施例的跨语言文本表示装置,此处不再赘述。
综上,本发明实施例的跨语言文本表示装置,获取第一语种对应的第一训练文本和第一跨语言表示模型,获取待处理文本对应的第二语种的第二训练文本,其中,第二语种与第一语种不同,第一训练文本和第二训练文本语义相同,进而,根据第一训练文本和第二训练文本训练第一通用向量子模型得到第二通用向量子模型,最后,根据第二通用向量子模型和文本表示子模型获取第二语种的第二跨语言表示模型,以便于基于第二跨语言表示模型对待处理文本进行文本表示。由此,基于语义对齐处理挖掘不同语种之间的通用向量,基于通用向量进行跨语言文本处理,由此,保证了跨语言处理模型的表示效果。解决了现有技术中,跨语言处理模型难以跨越语种不同的障碍导致的表示效果较差的技术问题。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的跨语言文本表示方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的跨语言文本表示方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种跨语言文本表示方法,其特征在于,包括以下步骤:
获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,所述第一跨语言表示模型包括第一通用向量子模型和文本表示子模型;
获取待处理文本对应的第二语种的第二训练文本,其中,所述第二语种与所述第一语种不同,所述第一训练文本和所述第二训练文本语义相同;
基于语义对齐的方式,根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型;
根据所述第二通用向量子模型和所述文本表示子模型获取所述第二语种的第二跨语言表示模型,以便于基于所述第二跨语言表示模型对所述待处理文本进行文本表示。
2.如权利要求1所述的方法,其特征在于,在所述获取第一语种的第一跨语言表示模型之前,包括:
获取所述第一语种的训练文本并标注与所述训练文本对应的标注文本表示结果;
将所述训练文本输入所述第一通用向量子模型,获取通用向量;
将所述通用向量输入至所述文本表示子模型,获取文本表示结果;
判断所述文本表示结果与所述标注文本表示结果是否一致;
若不一致,则获取所述文本表示结果与所述标注文本表示结果的差异信息,根据所述差异信息调整所述第一跨语言表示模型的模型参数,直至所述文本表示结果与所述标注文本表示结果一致。
3.如权利要求1所述的方法,其特征在于,所述根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型,包括:
将所述第一训练文本输入所述第一通用向量子模型获取第一通用向量;
将所述第二训练文本输入所述第一通用向量子模型获取第二通用向量;
判断所述第一通用向量与所述第二通用向量是否一致;
当所述第一通用向量与所述第二通用向量不一致时,调整所述第一通用向量子模型的模型参数,直至所述第一通用向量与所述第二通用向量一致时得所到所述第二通用向量子模型。
4.如权利要求1所述的方法,其特征在于,所述文本表示子模型为文本翻译子模型时,则所述方法还包括:
将所述待处理文本输入所述文本翻译子模型;
通过所述文本翻译子模型根据所述第二通用向量子模型输出的待处理通用向量,获取特定向量;
通过所述文本翻译子模型根据所述特定向量获取与所述第一语种对应的翻译文本。
5.如权利要求1所述的方法,其特征在于,所述文本表示子模型为情感分析子模型时,则所述方法还包括:
将所述待处理文本输入所述情感分析子模型;
通过所述情感分析子模型根据所述第二通用向量子模型输出的待处理通用向量,获取特定向量;
通过所述情感分析子模型根据所述特定向量获取情感分析结果。
6.一种跨语言文本表示装置,其特征在于,包括:
第一获取模块,用于获取第一语种对应的第一训练文本和第一跨语言表示模型,其中,所述第一跨语言表示模型包括第一通用向量子模型和文本表示子模型;
第二获取模块,用于获取待处理文本对应的第二语种的第二训练文本,其中,所述第二语种与所述第一语种不同,所述第一训练文本和所述第二训练文本语义相同;
训练模块,用于基于语义对齐的方式,根据所述第一训练文本和所述第二训练文本训练所述第一通用向量子模型得到第二通用向量子模型;
第三获取模块,用于根据所述第二通用向量子模型和所述文本表示子模型获取所述第二语种的第二跨语言表示模型,以便于基于所述第二跨语言表示模型对所述待处理文本进行文本表示。
7.如权利要求6所述的装置,其特征在于,还包括:
第四获取模块,用于获取所述第一语种的训练文本并标注与所述训练文本对应的标注文本表示结果;
第五获取模块,用于将所述训练文本输入所述第一通用向量子模型,获取通用向量;
第六获取模块,用于将所述通用向量输入至所述文本表示子模型,获取文本表示结果;
判断模块,用于判断所述文本表示结果与所述标注文本表示结果是否一致;
模型调整模块,用于在所述文本表示结果与所述标注文本表示结果不一致时,获取所述文本表示结果与所述标注文本表示结果的差异信息,根据所述差异信息调整所述第一跨语言表示模型的模型参数,直至所述文本表示结果与所述标注文本表示结果一致。
8.如权利要求6所述的装置,其特征在于,所述训练模块,包括:
第一获取单元,用于将所述第一训练文本输入所述第一通用向量子模型获取第一通用向量;
第二获取单元,用于将所述第二训练文本输入所述第一通用向量子模型获取第二通用向量;
判断单元,用于判断所述第一通用向量与所述第二通用向量是否一致;
模型调整单元,用于在所述第一通用向量与所述第二通用向量不一致时,调整所述第一通用向量子模型的模型参数,直至所述第一通用向量与所述第二通用向量一致时得所到所述第二通用向量子模型。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的跨语言文本表示方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的跨语言文本表示方法。
CN201910678829.XA 2019-07-25 2019-07-25 跨语言文本表示方法和装置 Active CN110413736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678829.XA CN110413736B (zh) 2019-07-25 2019-07-25 跨语言文本表示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678829.XA CN110413736B (zh) 2019-07-25 2019-07-25 跨语言文本表示方法和装置

Publications (2)

Publication Number Publication Date
CN110413736A CN110413736A (zh) 2019-11-05
CN110413736B true CN110413736B (zh) 2022-02-25

Family

ID=68363381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678829.XA Active CN110413736B (zh) 2019-07-25 2019-07-25 跨语言文本表示方法和装置

Country Status (1)

Country Link
CN (1) CN110413736B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI753325B (zh) * 2019-11-25 2022-01-21 國立中央大學 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
CN111625243B (zh) * 2020-05-13 2023-07-18 北京字节跳动网络技术有限公司 跨语言任务处理方法、装置及电子设备
CN111382568B (zh) * 2020-05-29 2020-09-11 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111797607B (zh) * 2020-06-04 2024-03-29 语联网(武汉)信息技术有限公司 一种稀疏名词对齐方法及系统
US11694042B2 (en) * 2020-06-16 2023-07-04 Baidu Usa Llc Cross-lingual unsupervised classification with multi-view transfer learning
CN112182151B (zh) * 2020-09-23 2021-08-17 清华大学 基于多语言的阅读理解任务识别方法及装置
CN112861516B (zh) * 2021-01-21 2023-05-16 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN114417879B (zh) * 2021-12-29 2022-12-27 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
CN107861947B (zh) * 2017-11-07 2021-01-05 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN108960317B (zh) * 2018-06-27 2021-09-28 哈尔滨工业大学 基于词向量表示和分类器联合训练的跨语言文本分类方法
CN109271644A (zh) * 2018-08-16 2019-01-25 北京紫冬认知科技有限公司 一种翻译模型训练方法及装置
CN109325231B (zh) * 2018-09-21 2023-07-04 中山大学 一种多任务模型生成词向量的方法
CN109635116B (zh) * 2018-12-17 2023-03-24 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备

Also Published As

Publication number Publication date
CN110413736A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413736B (zh) 跨语言文本表示方法和装置
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
US10755701B2 (en) Method and apparatus for converting English speech information into text
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
CN104573099B (zh) 题目的搜索方法及装置
US11507888B2 (en) Training method and device for machine translation model and storage medium
CN109726397B (zh) 中文命名实体的标注方法、装置、存储介质和电子设备
CN105095186A (zh) 语义解析方法和装置
CN106844340B (zh) 基于人工智能的新闻摘要生成和显示方法、装置及系统
CN110175335A (zh) 翻译模型的训练方法和装置
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN111881297A (zh) 语音识别文本的校正方法及装置
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN117194612A (zh) 大模型训练方法、装置、计算机设备集存储介质
CN112149418A (zh) 一种基于词向量表示学习的中文分词方法及系统
CN116912663A (zh) 基于多粒度解码器的文本-图像检测方法
CN115964484A (zh) 基于多标签分类模型实现的法律多意图识别方法和装置
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN114185573A (zh) 一种人机交互机器翻译系统的实现和在线更新系统及方法
Boito et al. Investigating alignment interpretability for low-resource NMT
CN113362815A (zh) 语音交互方法、系统、电子设备及存储介质
CN112464644A (zh) 自动断句模型建立方法及自动断句方法
Bal et al. Bilingual machine translation: Bengali to English
Martínek et al. Dialogue act recognition using visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant