CN114626363B - 一种基于翻译的跨语言短语结构分析方法及装置 - Google Patents
一种基于翻译的跨语言短语结构分析方法及装置 Download PDFInfo
- Publication number
- CN114626363B CN114626363B CN202210526372.2A CN202210526372A CN114626363B CN 114626363 B CN114626363 B CN 114626363B CN 202210526372 A CN202210526372 A CN 202210526372A CN 114626363 B CN114626363 B CN 114626363B
- Authority
- CN
- China
- Prior art keywords
- phrase structure
- sentence
- language
- module
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于翻译的跨语言短语结构分析方法及装置,涉及自然语言处理技术领域。包括:获取待分析的句子;将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。本发明解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是指一种基于翻译的跨语言短语结构分析方法及装置。
背景技术
短语结构分析又被称为句法结构分析或成分结构分析,短语结构分析的目标是给定输入句子,构建整个句子的句法结构并输出其完整的短语结构。近几年来,随着深度学习和预训练模型在自然语言处理领域的应用和研究,有监督的短语结构句法分析任务已经达到很高的准确率,但是,这类针对单语言数据集的句法结构分析模型,其性能难以泛化到其他语言的句法结构任务中。当前已有科研工作者提出了多语言的句法结构分析模型,但是其受限于标注语料语言,即只有统一风格标注的树库才能进行。而短语结构树库语料的标注构建需要语言专家大量的时间精力,目前已经存在的短语结构树库主要是语言使用率较高的英语、中文、德语以及法语等语言,其余大部分语言短语树库语料标注数据数量很少或者没有标注数据。基于此,利用标注资源丰富的源语言帮助标注稀缺的目标语言实现跨语言句法分析成为必然趋势。
跨语言句法分析模型方法主要分为三类:模型迁移、标注映射以及树库翻译方法。迁移模型直接用源语言训练的模型来解析目标语言,可以将源语言和目标语言的词向量映射到统一空间中,使得源语言和目标语言更容易交互,但是模型很难只获取到与语言无关的句法结构特征,这种特征在不同语言的树库预料上是统一的。这种直接模型迁移的方法很难获得性能表现好的跨语言句法结构分析模型。而标注映射是用平行语料和对齐来映射源语言句子的标注信息。这类模型方法是直接将源语言的解析器直接应用到目标语言中,然后利用平行语料来将树库对齐,这种目标语言树库是自动生成的,所以包含很大噪声,树库数据困难存在的致命问题就导致最终的模型性能也不高。最后一类跨语言方法主要是通过翻译来生成平行语料,然后再通过标注信息映射来得到目标语言的语料树库,本专利的跨语言句法结构分析也属于这一类方法,相比于前面两种跨语言方法,这种基于翻译的跨语言句法分析模型可以直接获取到比较可信的目标语言句法树库,且这种翻译方法可以迁移应用到几乎所有语言的句法分析任务中,但是,短语树结构的映射方法比较复杂,存在词难以对齐的问题,但是,当前对于这类跨语言句法分析的研究较少。多语言短语结构分析模型也可以实现一定程度的跨语言能力,需要多种语言统一风格的短语结构标注数据,多语言任务性能的提升很大程度上得益于多语言预训练模型包含的知识。
基于模型迁移的跨语言短语结构分析模型,因为深度学习难以解释并且准确获取语言无关且句法结构专有的知识,模型最终获取的信息通常是句法信息和语言信息混杂而成,这就导致了直接基于模型迁移的方法进行跨语言短语结构解析的性能不可靠。
基于标注映射的跨语言短语结构分析模型,因为引入了平行语料可以获取更多源语言和目标语言的共性知识,所以该类方法性能会有所提升,但是因为没有获取目标语言的语料库,而是直接应用源语言句法模型输出的结构,所以模型性能也不够可靠。
基于翻译的跨语言短语结构分析模型,这种方法相对来说引入了更多的外部数据和知识,包括翻译的平行语句,对齐模型,以及标注映射方法,这样使得模型最终可以获得较高质量的翻译树库,但是不同语言的句子之间存在难以对齐问题,不同处理方法获取的目标语言树库使得最终句法模型的性能不同。
多语言短语结构分析模型,和跨语言短语结构分析模型任务比起来,跨语言主要针对模型和方法的迁移能力,而跨语言侧重于模型的泛化能力,跨语言需要训练或微调对应语言具有充足数据,但不能深层次解决跨语言面对的语料库缺少或者没有标注数据的问题。构建大规模短语结构句法黄金标准语料库是一项费时费力成本较高的工作,常需要语言学专家的长期标注,而多种语言的统一风格的短语结构树库标注数据需要更多的资源。
因此,亟需解决当前大部分语言缺少短语结构树库或者完全没有响应标注数据的问题,虽然理论上存在模型迁移、标注映射以及多语言短语结构模型等针对跨语言短语结构分析任务,但是每种方法都存在多种限制问题,因为没有高质量的目标语言短语树库语料,使得最终模型的性能不好。
发明内容
本发明针对当前大部分语言缺少短语结构树库或者完全没有响应标注数据的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于翻译的跨语言短语结构分析方法,该方法由电子设备实现,该方法包括:
S1、获取待分析的句子。
S2、将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块。
S3、根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
可选地,S2中的跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库。
S22、将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库。
S23、根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块。
可选地,短语结构树库构建模块包括翻译模块、对齐模型以及调整模块。
S22中的将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将源语言句子输入到翻译模块,得到目标语言句子。
S222、将源语言句子以及目标语言句子输入到对齐模型,输出句子对中词语的对齐概率;其中,句子对包括源语言句子以及目标语言句子。
S223、将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库。
可选地,S221中的将源语言句子输入到翻译模块,得到目标语言句子包括:
采用翻译工具包将源语言句子翻译为目标语言句子。
对目标语言句子进行检查;其中,检查的方法为比较源语言句子和目标语言句子的长度。
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对检查后的目标语言句子进行分词,得到最终的目标语言句子。
可选地,S222中的对齐模型为无监督的fast_align对齐模型。
对齐模型的训练数据集的获取方法包括:
获取对齐语句,将对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。
可选地,调整模块包括替换单元、删除单元以及树结构扭转单元。
S223中的将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库包括:
将句子对中词语的对齐概率输入到替换单元,替换单元选择句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对。
将替换后的句子对输入到删除单元,删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对。
将删除后的句子对输入到树结构扭转单元,得到目标语言短语结构树库。
可选地,短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块。
S23中的根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块包括:
S231、根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量。
S232、将输入向量输入到编码器模块,得到编码的语义向量。
S233、将编码的语义向量输入到解码器模块,得到解码结果。
可选地,S231中的根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
可选地,S232中的将输入向量输入到编码器模块,得到编码的语义向量包括:
将内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
另一方面,本发明提供了一种基于翻译的跨语言短语结构分析装置,该装置应用于实现基于翻译的跨语言短语结构分析方法,该装置包括:
获取模块,用于获取待分析的句子;
输入模块,用于将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
输出模块,用于根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
可选地,输入模块,进一步用于:
S21、获取源语言短语结构树库。
S22、将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库。
S23、根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块。
可选地,短语结构树库构建模块包括翻译模块、对齐模型以及调整模块。
可选地,输出模块,进一步用于:
S221、获取源语言短语结构树库中的源语言句子,将源语言句子输入到翻译模块,得到目标语言句子。
S222、将源语言句子以及目标语言句子输入到对齐模型,输出句子对中词语的对齐概率;其中,句子对包括源语言句子以及目标语言句子。
S223、将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库。
可选地,输出模块,进一步用于:
采用翻译工具包将源语言句子翻译为目标语言句子。
对目标语言句子进行检查;其中,检查的方法为比较源语言句子和目标语言句子的长度。
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对检查后的目标语言句子进行分词,得到最终的目标语言句子。
可选地,对齐模型为无监督的fast_align对齐模型。
可选地,输出模块,进一步用于:
获取对齐语句,将对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。
可选地,调整模块包括替换单元、删除单元以及树结构扭转单元。
可选地,输出模块,进一步用于:
将句子对中词语的对齐概率输入到替换单元,替换单元选择句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对。
将替换后的句子对输入到删除单元,删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对。
将删除后的句子对输入到树结构扭转单元,得到目标语言短语结构树库。
可选地,短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块。
可选地,输出模块,进一步用于:
S231、根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量。
S232、将输入向量输入到编码器模块,得到编码的语义向量。
S233、将编码的语义向量输入到解码器模块,得到解码结果。
可选地,输出模块,进一步用于:
可选地,输出模块,进一步用于:
将内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于翻译的跨语言短语结构分析方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于翻译的跨语言短语结构分析方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。虽然迁移模型,标注映射等研究尝试将源语言的短语结构信息应用到目标语言中去,但是目前的迁移模型,映射模型再结合预训练模型还不能获取足够有效的短语结构知识信息,所以跨语言的短语结构分析需要更高质量的目标语言短语结构树库语料。本专利提出了一套新的基于翻译的方法,其基于源语言短语结构树库来构建目标语言的短语结构树库,然后用构建的新的目标语言的短语结构树库训练得到一个目标语言的短语结构解析器。本专利提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于翻译的跨语言短语结构分析方法流程示意图;
图2是本发明实施例提供的基于预训练的自我注意力机制解析器示意图;
图3是本发明实施例提供的内容和位置注意力分开计算示意图;
图4是本发明实施例提供的中-英句子对齐信息示意图;
图5是本发明实施例提供的中-英短语结构树库翻译举例示意图;
图6是本发明实施例提供的基于翻译的跨语言短语结构分析装置框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种基于翻译的跨语言短语结构分析方法,该方法可以由电子设备实现。如图1所示的基于翻译的跨语言短语结构分析方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待分析的句子。
S2、将待分析的句子输入到构建好的跨语言短语结构分析模型。
其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块。
可选地,S2中的跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库。
S22、将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库。
可选地,短语结构树库构建模块包括翻译模块、对齐模型以及调整模块。
S22中的将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将源语言句子输入到翻译模块,得到目标语言句子。
可选地,S221中的将源语言句子输入到翻译模块,得到目标语言句子包括:
采用翻译工具包将源语言句子翻译为目标语言句子。
对目标语言句子进行检查;其中,检查的方法为比较源语言句子和目标语言句子的长度。
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对检查后的目标语言句子进行分词,得到最终的目标语言句子。
一种可行的实施方式中,因为树库翻译涉及到的源语言和目标语言是不确定的,所以为了翻译风格统一方便进一步的对齐操作,可以采用谷歌提供的python翻译工具包Googletrans,其版本为4.0.0rc1,该工具包的作用主要是将源树库语句翻译成目标语言语句。翻译完成之后,需要进一步检查翻译的质量,本专利中主要通过比较翻译句子(即目标语言句子)长度和源语言句子长度,进而确定是否翻译正确,因为在Googletrans翻译过程中存在翻译不完全的情况,例如只翻译了句子的一半。
对于翻译的结果,存在一些需要分词的语言,如:汉语,韩语,越南语等。对这些语言需要训练一个和目标语料相同分词风格的分词器,这样才能进行对齐操作,如果没有目标语料,那么可以采用NLU(Natural Language Understanding, 自然语言理解)(https://nlu.johnsnowlabs.com/)提供的分词工具进行分词,也可以根据实际情况选择性能比较好的分词工具。
S222、将源语言句子以及目标语言句子输入到对齐模型,输出句子对中词语的对齐概率。
其中,句子对包括源语言句子以及目标语言句子。
可选地,S222中的对齐模型为无监督的fast_align对齐模型。
对齐模型的训练数据集的获取方法包括:
获取对齐语句,将对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。
一种可行的实施方式中,在获取对齐语料,并训练词对齐工具的过程中,使用的对
齐模型可以是无监督的fast_align(详见https://github.com/clab/fast_align),为了训
练一个高质量的词对齐模型,首先需要获取尽可能多的对齐语句,本专利实验主要通过
OPUS来获取对齐语句,获取工具为python包Opus Tools,首先安装pip install Opus
Tools,然后需要去OPUS官方网站(https://opus.nlpl.eu/)上查看所需要的对齐语料有哪
些,也可以通过命令行查看有哪些语料包含源树库语言和目标树库语言。然后选择袭击需
要的对齐语料并且将他们处理成fast_align需要的格式,即“源语言句子目标语言句
子”和“目标语言句子源语言句子”。
对于处理好的对齐语料需要进一步检查两项指标,首先是确认一下对齐语料是否存在源句子或者目标句子缺失的情况,这种数据错误会导致fast_align模型无法对齐,进而报错。然后需要检查源句子目标句子是否有需要分词操作,例如对于中文句子,从OPUS获取的对齐语句可能有些需要分词。
最后使用训练的对齐模型对处理好的翻译语句进行对齐,并且输出对齐的概率分布,以便进一步确定该对齐是否可靠。
S223、将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库。
可选地,调整模块包括替换单元、删除单元以及树结构扭转单元。
一种可行的实施方式中,将句子短语树结构移植并调整的过程可以包括:在进行树库翻译之前,首先需要检查词对齐以确保获取到的对齐信息更准确,需要格外检查的部分是词性不同情况下的对齐,需要根据情况判断并确定最终的对齐,要么按照一定的概率舍弃对齐,这更有助于接下来的结构翻译,要么根据词性重新修改标签。
S223中的将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库包括:
S2231、将句子对中词语的对齐概率输入到替换单元,替换单元选择句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对。
一种可行的实施方式中,首先选择前个高可信对齐的词,对齐词需要词性一
致,然后直接用目标词替换源句子中的词。注意,如果这里源词和目标词是一对一的,那么
目标词直接继承源词所有的短语结构,如果源词和目标词是一对多的关系,那么目标词构
建一个小的短语结构,并且这个短语结构的父节点继承源词的所有短语结构,最后,如果源
词和目标词是多对一的关系,目标词继承源词父节点的所有短语结构。
S2232、将替换后的句子对输入到删除单元,删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对。
一种可行的实施方式中,对于替换之后无法对齐的源词的短语结构需要删除,这样做的目的是为了让翻译的句子短语结构更合理。且此处需要累加删除词的对齐可信度,进而可以作为翻译句子结构保存度的度量标注。
S2233、将删除后的句子对输入到树结构扭转单元,得到目标语言短语结构树库。
一种可行的实施方式中,在每个短语跨度内,为了确保目标语言的词序,首先需要每个跨度内部进行树结构扭转,对于二叉树结构的扭转,即将左孩子节点和右孩子节点互换位置,然后依次对更上层短语结构也进行此类调整,这样最终就可以得到词顺序合理目标翻译语句的树结构。注意对于部分词顺序无法调整合理的句子,其属于不连续句法结构解析任务,本专利任务会舍弃这类数据。
S23、根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块。
可选地,短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块。
S23中的根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块包括:
S231、根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量。
可选地,S231中的根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
一种可行的实施方式中,本专利的基础模型采用以Transformer模型为基础的编
码器—解码器结构,如图2所示。本专利的基于预训练的self-attention parser(自我注意
力机制解析器)模型给训练集每棵短语结构树计算得出一个分数,该分数可以被分解
为:
这里的表示从句子中从位置到位置跨度的短语,其短语标签为。为了规
避一元节点的问题,将一元标签用::缀在其父二元节点标签,而在树二元化过程中产生的
空值赋值为。该模型的训练目标是最大化树的最终得分,对于所有的
树结构 ,其损失函数为最小化以下hinge loss(合页损失函数),其中为带标签span上
的Hamming loss(汉明损失):
对于输入模型的句子,首先通过预训练模型将将每个词映
射为一个向量,然后通过一个线性层将预训练表示转换为维度为d/2的内容向量,其
中d为编码器输入维度,还需要另一个表示当前token位置向量,这里的是一个可学习的
位置向量表示。在输入编码器之前,将句子中每个token的内容向量和位置向量拼接起来。
S232、将输入向量输入到编码器模块,得到编码的语义向量。
可选地,S232中的将输入向量输入到编码器模块,得到编码的语义向量包括:
将内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
一种可行的实施方式中,在编码器中,将内容向量和位置向量进一步分别输入编码器的多个Multi-Head self-attention layer(多头自我注意层)。其计算公式如下:
本专利中每个多注意力层使用8个头,编码器端总共选用两层8头自注意力层,编
码器中对于内容向量和位置向量的是分别输入每个多头自注意力层,然后再拼接进一
步输入一个残差网络。分开计算注意力的模型性能更好,且相比直接拼内容和位置向量计
算注意力,编码器的参数少了一半,且计算量也少了一般,也避免了参数矩阵稀疏问题。具
体的内容和位置注意力分开计算的方法详细如图3所示,为了图片更简洁方便展示,只画了
单头情况下内容和位置注意力分开计算的情况。
S233、将编码的语义向量输入到解码器模块,得到解码结果。
一种可行的实施方式中,将encoder编码的语义向量输入一个chart-baseddecoder(基于动态规划解码器),该解码器给每个span的不同标签进行打分:
S3、根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
举例来说,以中-英为例可以包括:将CTB(Chinese Treebank,中文短语结构树库)用本专利提出的基于翻译的跨院短语结构分析方法得到英文的短语结构解析器,首先基于源语言树库获取目标语言树库,然后再通过基于预训练的self-attention解析器训练得到目标语言的短语结构解析器。
首先,获取CTB中文短语结构树库中的句子,然后将这些句子用Googletrans翻译
得到其对应的英语句子,需要检查翻译句子的质量,避免翻译句子只翻译一半句子的情况,
将翻译结果最终处理成“中文句子翻译得到的英文句子”这种格式用于对齐操作。注意
这里的中文句子是已经分词过的,所以不用进一步分词。
接着,在OPUS中查找中-英对齐语料,用于训练fast_align对齐模型。查看中文和英文对应的对齐语料命令行如下:
opus_get --source zh --target de --list
例如获取WMT-News中-英对齐语料,然后将其处理成fastalign格式,命令行如下:
opus_read -d WMT-News -s zh -t en -w zh-en.txt -ln -wm moses -cm ' ||| '
注意,这里最好不要单独下载对齐语料,然后在本地处理生成fast_align需要的对齐文档,因为可能数据量很大而且需要单独重新处理。
接下来,用获取到的OPUS的对齐语料,拼接源句子和翻译得到的句子对,并且特殊标记,用于最终只输出拼接源句子和翻译得到的句子对的对齐信息。用这些句子无监督训练fast_align词对齐工具,注意训练fast_align的句子对不宜过少,这样会导致训练对齐模型的效果不好,训练的句子对也不宜过多,因为句子太多之后fast_align无法处理可能会报错,并且训练所需实践很长。以百万级别比较合适。最终得到词对齐的信息如图4如所示,其中每个位置后面的概率表示当前位置的对齐概率。然后基于对齐信息进行翻译树库,举例如图5所示。
最后将翻译得到的树库输入基于预训练的self-attention句法结构解析模型进行训练得到目标语言的句法结构解析器。近年来基于BERT(Bidirectional EncoderRepresentation from Transformers,预训练的语言表征模型)以及BERT变种的预训练模型飞速发展,且越来越多的工作集中于多语言预训练模型,为了句法模型的普适性,本专利选用XLM-Roberta预训练模型,该模型首次在部分任务上超过单语言预训练模型,且选用XLM-Roberta多语言预训练模型,不用再每次训练模型时候专门准备目标语言对应的预训练模型。
如果目标语言有少量的标注数据,可以联合翻译数据和已有树库训练得到目标语言的句法解析器,也可以翻译多个源语言树库到一个目标语言树库,需要注意一点是,最终输入模型的句法结构树得是统一风格的,这样可以进一步提升目标语言句法结构解析器的质量。
本发明实施例中,解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。虽然迁移模型,标注映射等研究尝试将源语言的短语结构信息应用到目标语言中去,但是目前的迁移模型,映射模型再结合预训练模型还不能获取足够有效的短语结构知识信息,所以跨语言的短语结构分析需要更高质量的目标语言短语结构树库语料。本专利提出了一套新的基于翻译的方法,其基于源语言短语结构树库来构建目标语言的短语结构树库,然后用构建的新的目标语言的短语结构树库训练得到一个目标语言的短语结构解析器。本专利提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。
如图6所示,本发明实施例提供了一种基于翻译的跨语言短语结构分析装置600,该装置600应用于实现基于翻译的跨语言短语结构分析方法,该装置600包括:
获取模块610,用于获取待分析的句子;
输入模块620,用于将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
输出模块630,用于根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
可选地,输入模块620,进一步用于:
S21、获取源语言短语结构树库。
S22、将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库。
S23、根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块。
可选地,短语结构树库构建模块包括翻译模块、对齐模型以及调整模块。
可选地,输出模块630,进一步用于:
S221、获取源语言短语结构树库中的源语言句子,将源语言句子输入到翻译模块,得到目标语言句子。
S222、将源语言句子以及目标语言句子输入到对齐模型,输出句子对中词语的对齐概率;其中,句子对包括源语言句子以及目标语言句子。
S223、将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库。
可选地,输出模块630,进一步用于:
采用翻译工具包将源语言句子翻译为目标语言句子。
对目标语言句子进行检查;其中,检查的方法为比较源语言句子和目标语言句子的长度。
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对检查后的目标语言句子进行分词,得到最终的目标语言句子。
可选地,对齐模型为无监督的fast_align对齐模型。
可选地,输出模块630,进一步用于:
获取对齐语句,将对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。
可选地,调整模块包括替换单元、删除单元以及树结构扭转单元。
可选地,输出模块630,进一步用于:
将句子对中词语的对齐概率输入到替换单元,替换单元选择句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对。
将替换后的句子对输入到删除单元,删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对。
将删除后的句子对输入到树结构扭转单元,得到目标语言短语结构树库。
可选地,短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块。
可选地,输出模块630,进一步用于:
S231、根据目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量。
S232、将输入向量输入到编码器模块,得到编码的语义向量。
S233、将编码的语义向量输入到解码器模块,得到解码结果。
可选地,输出模块630,进一步用于:
可选地,输出模块630,进一步用于:
将内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
本发明实施例中,解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。虽然迁移模型,标注映射等研究尝试将源语言的短语结构信息应用到目标语言中去,但是目前的迁移模型,映射模型再结合预训练模型还不能获取足够有效的短语结构知识信息,所以跨语言的短语结构分析需要更高质量的目标语言短语结构树库语料。本专利提出了一套新的基于翻译的方法,其基于源语言短语结构树库来构建目标语言的短语结构树库,然后用构建的新的目标语言的短语结构树库训练得到一个目标语言的短语结构解析器。本专利提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。
图7是本发明实施例提供的一种电子设备700的结构示意图,该电子设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)701和一个或一个以上的存储器702,其中,存储器702中存储有至少一条指令,至少一条指令由处理器701加载并执行以实现下述基于翻译的跨语言短语结构分析方法:
S1、获取待分析的句子。
S2、将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块。
S3、根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于翻译的跨语言短语结构分析方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于翻译的跨语言短语结构分析方法,其特征在于,所述方法包括:
S1、获取待分析的句子;
S2、将所述待分析的句子输入到构建好的跨语言短语结构分析模型;其中,所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
S3、根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果;
所述S2中的跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库;
S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库;
S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块;
所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块;
所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将所述源语言句子输入到所述翻译模块,得到目标语言句子;
S222、将所述源语言句子以及目标语言句子输入到所述对齐模型,输出句子对中词语的对齐概率;其中,所述句子对包括源语言句子以及目标语言句子;
S223、将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库;
所述S221中的将所述源语言句子输入到所述翻译模块,得到目标语言句子包括:
采用翻译工具包将所述源语言句子翻译为目标语言句子;
对所述目标语言句子进行检查;其中,所述检查的方法为比较源语言句子和目标语言句子的长度;
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对所述检查后的目标语言句子进行分词,得到最终的目标语言句子;
所述S222中的对齐模型为无监督的fast_align对齐模型;
所述对齐模型的训练数据集的获取方法包括:
获取对齐语句,将所述对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作;
所述调整模块包括替换单元、删除单元以及树结构扭转单元;
所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库包括:
将所述句子对中词语的对齐概率输入到所述替换单元,所述替换单元选择所述句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对;
所述用句子对中的目标词替换源词包括:
若所述源词和目标词是一对一的关系,则所述目标词继承源词所有短语结构;
若所述源词和目标词是一对多的关系,则所述目标词构建一个短语结构,短语结构的父节点继承源词的所有短语结构;
若所述源词和目标词是多对一的关系,则所述目标词继承源词父节点的所有短语结构;
将所述替换后的句子对输入到所述删除单元,所述删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对;
将所述删除后的句子对输入到所述树结构扭转单元,得到目标语言短语结构树库;
所述短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块;
所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块包括:
S231、根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量;
S232、将所述输入向量输入到所述编码器模块,得到编码的语义向量;
S233、将所述编码的语义向量输入到所述解码器模块,得到解码结果;
所述S231中的根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
所述S232中的将所述输入向量输入到所述编码器模块,得到编码的语义向量包括:
将所述内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
2.一种基于翻译的跨语言短语结构分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析的句子;
输入模块,用于将所述待分析的句子输入到构建好的跨语言短语结构分析模型;其中,所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
输出模块,用于根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果;
所述跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库;
S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库;
S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块;
所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块;
所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将所述源语言句子输入到所述翻译模块,得到目标语言句子;
S222、将所述源语言句子以及目标语言句子输入到所述对齐模型,输出句子对中词语的对齐概率;其中,所述句子对包括源语言句子以及目标语言句子;
S223、将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库;
所述S221中的将所述源语言句子输入到所述翻译模块,得到目标语言句子包括:
采用翻译工具包将所述源语言句子翻译为目标语言句子;
对所述目标语言句子进行检查;其中,所述检查的方法为比较源语言句子和目标语言句子的长度;
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对所述检查后的目标语言句子进行分词,得到最终的目标语言句子;
所述S222中的对齐模型为无监督的fast_align对齐模型;
所述对齐模型的训练数据集的获取方法包括:
获取对齐语句,将所述对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作;
所述调整模块包括替换单元、删除单元以及树结构扭转单元;
所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库包括:
将所述句子对中词语的对齐概率输入到所述替换单元,所述替换单元选择所述句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对;
所述用句子对中的目标词替换源词包括:
若所述源词和目标词是一对一的关系,则所述目标词继承源词所有短语结构;
若所述源词和目标词是一对多的关系,则所述目标词构建一个短语结构,短语结构的父节点继承源词的所有短语结构;
若所述源词和目标词是多对一的关系,则所述目标词继承源词父节点的所有短语结构;
将所述替换后的句子对输入到所述删除单元,所述删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对;
将所述删除后的句子对输入到所述树结构扭转单元,得到目标语言短语结构树库;
所述短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块;
所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块包括:
S231、根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量;
S232、将所述输入向量输入到所述编码器模块,得到编码的语义向量;
S233、将所述编码的语义向量输入到所述解码器模块,得到解码结果;
所述S231中的根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
所述S232中的将所述输入向量输入到所述编码器模块,得到编码的语义向量包括:
将所述内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526372.2A CN114626363B (zh) | 2022-05-16 | 2022-05-16 | 一种基于翻译的跨语言短语结构分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526372.2A CN114626363B (zh) | 2022-05-16 | 2022-05-16 | 一种基于翻译的跨语言短语结构分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114626363A CN114626363A (zh) | 2022-06-14 |
CN114626363B true CN114626363B (zh) | 2022-09-13 |
Family
ID=81907196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210526372.2A Active CN114626363B (zh) | 2022-05-16 | 2022-05-16 | 一种基于翻译的跨语言短语结构分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626363B (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100037813A (ko) * | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
EP3616083A4 (en) * | 2017-04-23 | 2021-01-13 | Nuance Communications, Inc. | MULTILINGUAL SEMANTIC ANALYZER BASED ON TRANSFERRED LEARNING |
CN108549646B (zh) * | 2018-04-24 | 2022-04-15 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
CN111382574B (zh) * | 2020-03-11 | 2023-04-07 | 中国科学技术大学 | 一种虚拟现实与增强现实场景下结合句法的语义解析系统 |
CN111914551B (zh) * | 2020-07-29 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 自然语言处理方法、装置、电子设备及存储介质 |
CN112084796B (zh) * | 2020-09-15 | 2021-04-09 | 南京文图景信息科技有限公司 | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 |
CN112989796B (zh) * | 2021-03-10 | 2023-09-22 | 北京大学 | 一种基于句法指导的文本命名实体信息识别方法 |
CN113297841A (zh) * | 2021-05-24 | 2021-08-24 | 哈尔滨工业大学 | 基于预训练双语词向量的神经机器翻译方法 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
-
2022
- 2022-05-16 CN CN202210526372.2A patent/CN114626363B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114626363A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287278B (zh) | 评论生成方法、装置、服务器及存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
US20230196127A1 (en) | Method and device for constructing legal knowledge graph based on joint entity and relation extraction | |
US9767095B2 (en) | Apparatus, system, and method for computer aided translation | |
CN102084417B (zh) | 现场维护语音到语音翻译的系统和方法 | |
CN109471793B (zh) | 一种基于深度学习的网页自动化测试缺陷定位方法 | |
US20130097586A1 (en) | System and Method For Automating Test Automation | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN110569332B (zh) | 一种语句特征的提取处理方法及装置 | |
US20210319344A1 (en) | Natural language question answering | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN110263340B (zh) | 评论生成方法、装置、服务器及存储介质 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
US20230186033A1 (en) | Guided text generation for task-oriented dialogue | |
CN111597800A (zh) | 同义句的获取方法及装置、设备及存储介质 | |
CN114626363B (zh) | 一种基于翻译的跨语言短语结构分析方法及装置 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
WO2022180990A1 (ja) | 質問生成装置 | |
CN116243901A (zh) | 一种用于前端页面多语言项目快速开发的方法及系统 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
CN111597827B (zh) | 一种提高机器翻译准确度的方法及其装置 | |
CN113673247A (zh) | 基于深度学习的实体识别方法、装置、介质及电子设备 | |
CN115965017B (zh) | 一种基于开发平台的多语言录入和解析系统及方法 | |
WO2022180989A1 (ja) | モデル生成装置及びモデル生成方法 | |
US20230214597A1 (en) | Clause based semantic parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |