CN113535971A

CN113535971A - 用于自动生成知识图谱的设备

Info

Publication number: CN113535971A
Application number: CN202110405331.3A
Authority: CN
Inventors: A·伊乌尔希纳; H·阿德尔-武; J·斯特洛特根; L·朗格
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-04-16
Filing date: 2021-04-15
Publication date: 2021-10-22
Also published as: US20210326530A1; US12061871B2; DE202020102105U1

Abstract

用于自动分析多语种文本的设备（100），该设备包括嵌入器（25）和时态标记器（30），所述嵌入器被设立为，向所述多语种文本（10）中的文本组成部分（10a，10b）分别分配数字表示（12a，12b），所述时态标记器被设立为，根据所分配的数字表示（12a，12b）来标识和标记所述多语种文本（10）中的时态表达，其中所述嵌入器（25）被设立为，尽可能地如此分配时态表达的数字表示（12a，12b），使得不可能基于所述数字表示（12a，12b）来确定所属的文本组成部分（10a，10b）是以哪种语言撰写的。

Description

用于自动生成知识图谱的设备

技术领域

本发明涉及一种用于自动分析多语种（multilingual）文本的设备，一种用于对所述设备进行训练的训练系统，一种用于自动生成知识图谱（Wissensgraphen）的设备以及一种机器可读存储介质。

背景技术

本体（Ontologie），也称为知识图谱（英语：knowledge graph），是实体及这些实体之间关系的结构化表示。本体用于以正式形式在计算机实现的应用程序之间交换知识。

在从文本中提取信息以填充知识图谱时，时间表达（Zeitausdrücken）的识别也起着重要作用：例如，实体之间的某些关系仅在有限的时间内有效（例如人员的居住地或雇主）。所谓的“时态标记（Temporal Tagging）”致力于对文本中时间表达的自动识别。迄今为止对此的工作（Arbeit）均使用单语种模型，即语言特定的模型，这些模型只能应用于特定语言的文本，但不能应用于其他语言的文本。

Yaroslav Ganin等人在2015年的arXiv预印本arXiv：1505.07818v1的“Domain-Adversarial Training of Neural Networks（神经网络的域对抗训练）”中公开了一种方法：基于来自源域的经标记的数据和来自目标域的未经标记的数据来训练神经网络（也就是说，不需要来自目标域的经标记的数据）。在训练的进一步过程中，该方案促进了以下特征的出现：这些特征（i）针对在源域中的主要学习任务是有辨识力的（diskriminierend），而（ii）鉴于域之间的迁移（Verschiebung）方面并没有区别。本文公开的方法也作为梯度反转方法（英语：gradient reversal training）而已知。

发明内容

与现有技术公开的相比，独立权利要求1的主题具有以下优点：该主题可以应用于多种语言的文本。此外，跨语言的迁移性能（Transferleistung）也是可能的。

有利的扩展是从属权利要求的主题，其他方面是并列权利要求的主题。

例如，如果模型从英语文本中学习到“today（今天）”是一种时间表达，但是在德语训练文本中从未出现“heute（今天）”一词，则单语种模型就不能将措辞“heute”解释为时间措辞。但是，多语种模型则可以从其他源（例如通过多语种嵌入）得知“today”和“heute”具有相似的含义并且由此也可以将词语“heute”正确地标识（identifizieren）为时间表达。

因此，该问题的解决方案可以分为两个子步骤：

1. 基于多种语言的数据来训练和应用多语种模型

2. 将数字表示对齐（英语：alignment），也称为词语表示（英语：embeddings（嵌入）），从而可以跨语言地识别语义相似性。

因此在第一方面中，本发明涉及一种用于对以能够预给定的多种语言中的多种语言的形式的多语种文本进行自动分析的设备，所述设备包括嵌入器（英语：embedder）和时态标记器（英语：temporal tagger），其中所述嵌入器被设立为，向所述多语种文本中的文本组成部分（例如，词语或词语的部分）分别分配数字表示（即词语表示），其中所述时态标记器被设立为，根据所分配的嵌入来标识和标记所述多语种文本中的时态表达，其中所述嵌入器被设立为，尽可能地如此分配时态表达的数字表示，使得不可能基于所述数字表示来确定所属的文本组成部分是以哪种语言撰写的。

可能的是，通过唯一的神经模型来解决上述两个问题，其中所述唯一的神经模型基于不同语言的数据来被训练并且通过对抗训练（特别是梯度反转训练）为词语嵌入生成多语种向量空间，在该向量空间中鉴别器（第二神经网络）不能区分特定词语来自哪种语言。

本发明可以用于从文本中自动提取时态表达。这是填充知识图谱情况下的重要子方面，因为某些事实仅在特定时间内有效。这种有效期必须在知识图谱中被标记，以便在应用该图谱时不会产生错误。

虽然，从Ganin等人（2015）已知的方法原则上可以应用于句子中出现的所有表达，但实际上在一种有利的实施方式中进行（vorgehen）：并非首先提取时态表达然后以梯度反转执行语言标识，而是并行应用两者，即，将以梯度反转进行的语言标识应用于所有表达，而无关于这些表达是否为时态表达。现在已经认识到，使用这种方法识别时态表达是有利的，因为时态表达跨大量语言地都具有相似的结构。

相反，如果例如想要提取语法结构、诸如第四格宾格等，则跨语言的这种迁移就可能不是如此目的明确的（zielführend），因为在一种语言中的第四格宾格可能在另一种语言中具有完全另一种语法功能。

因此，本发明使得能够针对时态标记来使用多语种模型（而不是单语种模型）。这比使用基于规则的模型更为有利，因为所述基于规则的模型无法良好地迁移到新语言。

在实验中已经表明，利用所提出的所述模型进行的到未知语言的迁移与现有技术中已知的比较模型相比而言所起到的作用要好得多。

本发明的另一方面的另一个优点是利用梯度反转来改善多语种嵌入空间（从现有技术中已知这种方法仅在较高网络级别上可用，并且输入中的多语种嵌入仅是一种达到目的的手段，但不是改善的焦点）。

本发明的这个方面可以用于从文本中自动提取时态表达。这是填充知识图谱情况下的重要子方面，因为某些事实、即实体和/或关系仅在特定时间内有效。这种有效期可以在知识图谱中被标记，以便在应用该图谱时不会产生错误。

因此，提出了一种（特别是神经的）多语种模型，所述模型可以从不同语言的文本中自动提取时态表达，以便可以将这些时态表达作为关于事实的附加信息插入到知识图谱中。

此外，提出使用对抗训练（特别是梯度反转训练）来训练所述模型，以便生成多语种词语嵌入空间，在所述多语种词语嵌入空间中无法将语言彼此区分开。

在对抗训练中可以规定，使得用于训练时态标记器的目标函数与用于训练鉴别器的目标函数交替（abwechseln），并且例如通过梯度反转确保对所述嵌入向量空间进行更新，使得所述鉴别器尽可能地无法将语言区分开来。也就是说认识到了，这导致来自不同语言的语义相似的时态表达获得相似的词语表示。

结果，所述模型可以应用于任意语言的文本，而不必明确说明它是哪种语言。在此，所述模型还可以应用于并非来自如下语言集合的语言，其中基于所述语言集合训练了该模型。唯一的前提是该语言在多语种嵌入中存在。所述模型与单语种系统或基于规则的系统相比之下的迁移性能就在于此。

也就是说，在训练阶段中可以假定训练数据具有来自不同语言的特征性时态表达。基于所述训练数据对所述嵌入器、特别是神经模型（例如，先进技术的BERT模型）进行训练或者（在BERT的情况下）进行适配。在BERT的情况下可以通过微调（fine-tuning）来进行：BERT典型地已基于语言模型任务被预训练，并且可以通过微调与目标任务相适配。

为此可以使用多语种嵌入，即，具有针对来自所有语言的嵌入的唯一的向量空间。具体地，可以执行以下步骤：首先可以将所述训练数据划分为批次（英语：Batches），其中确保每个批次都包含来自多种、特别是所有语言的示例。

利用训练批次通过对抗训练来训练所述神经模型。在此：

a）一方面，这样训练时态标记器的输出，使得所述时态标记器在训练数据中识别出尽可能所有的时态表达；

b）另一方面，这样训练所述鉴别器，使得所述鉴别器在给定该批次的多语种嵌入的情况下尝试确定该训练示例的语言。通过梯度反转训练生成嵌入向量空间，在其中所述鉴别器无法（或很难）将各个语言彼此区分开。

为了应用该模型，可以假定提供了多语种文本，即来自不同语言的单个或多个文本。

现在可以将经训练的时态标记器应用于这些文本。不需要向所述时态标记器出示所述文本源自哪种语言的信息，因为词语表示空间是多语种的并且所述时态标记器已经被训练以与语言无关的方式识别时间表达。

然后可以以已知的方式将已识别的时态表达用于自动构建或填充知识图谱。

附图说明

下面参照附图更详细地阐述本发明的实施方式。在附图中：

图1示意性地示出了用于分析多语种文本的设备的实施例的结构；

图2示意性地示出了训练系统的实施例的结构。

具体实施方式

图1示意性地示出了用于分析多语种文本的设备（100）的结构。将可以包括一个或多个文档并且可以用多种语言撰写的文本（10）首先输送到分析器（25），该分析器从文本（10）中提取文本组成部分（10a，10b）。替代地，也可以将文本组成部分（10a，10b）直接输送到用于分析多语种文本的设备（100）。将这些文本组成部分输送到嵌入器（25），在本实施例中该嵌入器由人工神经网络、例如BERT模型给出，该人工神经网络对于每个文本组成部分（10a，10b）确定所属的数字表示（12a，12b）。

将这些数字表示（12a，12b）输送到时态标记器（30），该时态标记器同样由神经网络给出并且对于其中每个数字表示（12a，12b）确定标志（Flag）（13a，13b），所述标志表明：对于相应数字表示（12a，12b）所属的文本组成部分（10a，10b）是否是时态表达。

将标志（13a，13b）与文本组成部分（10a，10b）一起输送到合并器（Zusammenführer）（32），该合并器（32）将标志（13a，13b）合并到分别所属的文本组成部分（10a，10b），以便由此确定经时态标记的文本组成部分（11a，11b）。

可以将这些经时态标记的文本组成部分输送到可选的知识图谱构建器（40），向所述知识图谱构建器提供现有知识图谱（41），并且所述知识图谱构建器在经时态标记的文本组成部分（11a，11b）中标识实体和这些实体之间的关系，将所标识的时态表达分配给所述实体和/或所述关系，并在生成知识图谱时将所述所标识的时态表达考虑作为分别所分配的实体和/或关系的表征（Charakterisierung）。

用于分析多语种文本的设备（100）可以是例如计算机系统，其中所提到的组成部分（20、25、30、32、40）可以实现为存储在机器可读存储介质（101）上的计算机程序。

图2示意性地示出了用于训练用于分析多语种文本的设备（100）的训练系统（200）的结构。如图1所示，将文本组成部分（10a，10b）输送到嵌入器（25），该嵌入器（25a）由此确定数字表示（12a，12b），如图1中所描述的，可以借助于时态标记器（30）由所述数字表示确定时态标志（13a，13b）。将数字表示（12a，12b）输送到鉴别器（50），鉴别器（50）尝试根据这些数字表示（12a，12b）确定所属的文本组成部分（10a，10b）属于哪种语言。在本实施例中，鉴别器（50）通过人工神经网络给出。

所估计的相应语言以在所估计的语言标志（14a，14b）中编码的方式传送到评估器（Bewerter）（60），实际的语言标志（15a，15b）也是如此，其中所述实际的语言标志作为基础事实（Ground Truth）说明语言组成部分（10a，10b）的实际语言如何。现在，评估器（60）使用成本函数来确定：所估计的语言标志（14a，14b）和实际的语言标志（15a，15b）的一致性有多好，并更改鉴别器（50）的参数以使得一致性尽可能地好，以及更改嵌入器（25）的参数以使得一致性尽可能地差。在数学上，这是通过以下方式实现的：在反向传播（Rückpropagation）梯度时，嵌入器（25）的参数的梯度的符号位（Vorzeichen）和鉴别器（50）的梯度的符号位相反。

时态标记器（30）可以作为训练系统（200）的一部分或在训练系统（200）之外被训练。优选地，将训练数据划分为批次，其中确保每个批次都包含来自所有语言的示例。利用所述训练数据来训练时态标记器（30），使得所述时态标记器在训练数据中识别出尽可能所有的时间表达，并使用相同的训练数据来训练嵌入器（25）和鉴别器（50）。

训练系统（200）可以是例如计算机系统，其中所提到的组成部分（50、60）可以被实现为存储在机器可读存储介质（102）上的计算机程序。

应当理解，这些方法不仅如所描述的那样可以完全以软件来实现。而且它们也可以以硬件来实现或以软件和硬件的混合形式来实现。

Claims

1.用于自动分析多语种文本的设备（100），所述设备包括嵌入器（25）和时态标记器（30），所述嵌入器被设立为，向所述多语种文本（10）中的文本组成部分（10a，10b）分别分配数字表示（12a，12b），所述时态标记器被设立为，根据所分配的所述数字表示（12a，12b）来标识和标记所述多语种文本（10）中的时态表达，其中所述嵌入器（25）被设立为，尽可能地如此分配时态表达的数字表示（12a，12b），使得不可能基于所述数字表示（12a，12b）来确定所属的所述文本组成部分（10a，10b）是以哪种语言撰写的。

2.根据权利要求1所述的设备，其中，所述嵌入器（25）被设立为，将所有语言的所有时态表达映射到唯一的向量空间。

3.根据权利要求1或2所述的设备，其中，所述嵌入器（25）包括机器学习系统，所述机器学习系统已被训练为如此分配时态表达的数字表示，使得对于鉴别器（50）而言尽可能无法根据所述数字表示（12a，12b）来决定所述时态表达属于哪种语言，其中所述鉴别器被设立为，根据所述数字表示（12a，12b）确定提供给所述鉴别器的文本组成部分（10a，10b）属于哪种语言。

4.根据权利要求3所述的设备，其中，所述机器学习系统包括神经网络。

5.根据权利要求4所述的设备，其中，所述神经网络是BERT模型。

6.根据权利要求3至5中任一项所述的设备，其中，所述鉴别器（50）包括第二机器学习系统。

7.根据权利要求6所述的设备（100），其中，所述第二机器学习系统包括第二神经网络。

8.根据权利要求7所述的设备（100），其中，鉴别器（50）和嵌入器（25）已被共同地对抗训练。

9.根据权利要求8所述的设备（100），其中，所述鉴别器（50）已经利用梯度反转方法被训练。

10.根据权利要求6至9中任一项所述的设备（100），其中，所述鉴别器（50）已被训练为能够根据所述时态表达的数字表示（12a，12b）来尽可能好地决定所述时态表达属于哪种语言。

11.根据权利要求3至10中任一项所述的设备（100），其中，所述时态标记器（30）包括第三机器学习系统。

12.根据权利要求11所述的设备（100），其中，所述第三机器学习系统包括第三神经网络。

13.根据权利要求11或12中任一项所述的设备（100），其中，所述时态标记器（30）已被训练为能够根据所述数字表示（12a，12b）尽可能好地决定所属的文本模块（10a，10b）是否为时态表达。

14.根据权利要求13和8所述的设备（100），其中，鉴别器（50）和嵌入器（25）以及时态标记器（30）已被共同地对抗训练。

15.根据权利要求3至14中任一项所述的设备，其中，在训练鉴别器（50）和嵌入器（25）时使用的训练数据已被划分为批次，使得每个批次都包含来自可预给定的多种语言中的分别所选的多种语言的训练示例。

16.根据权利要求15所述的设备，其中，在训练鉴别器（50）和嵌入器（25）时使用的训练数据已被划分为批次，使得每个批次都包含来自可预给定的多种语言中的每种语言的训练示例。

17.根据权利要求3至16中任一项所述的设备，其中，鉴别器（50）、嵌入器（25）和时态标记器（30）已基于相同的训练示例被训练。

18.用于训练根据权利要求3至17中任一项所述的设备的训练系统（200），所述训练系统包括鉴别器（50），所述鉴别器被设立为，根据数字表示（13a，13b）确定属于所述鉴别器的文本组成部分（10a，10b）属于哪种语言，并且所述训练系统被设立为，对鉴别器（50）和嵌入器（25）共同进行对抗训练。

19.根据权利要求18所述的训练系统（200），所述训练系统被设立为，使用梯度反转方法来训练鉴别器（50）和嵌入器（25）。

20.根据权利要求18或19所述的训练系统（200），所述训练系统被设立为，将在训练鉴别器（50）和嵌入器（25）时使用的训练数据划分为批次，使得每个批次都包含来自可预给定的多种语言中的分别所选的多种语言的训练示例。

21.根据权利要求20所述的训练系统（200），所述训练系统被设立为，将在训练鉴别器（50）和嵌入器（25）时使用的训练数据划分为批次，使得每个批次都包含来自可预给定的多种语言中的每种语言的训练示例。

22.根据权利要求18至21中任一项所述的训练系统（200），所述训练系统被设立为，借助于所述时态标记器（30）确定所属的文本组成部分（10a，10b）是否为时态表达，以及鉴于以下表达执行鉴别器（50）和/或嵌入器（25）的训练，其中针对所述表达已经确定了所属的文本组成部分（10a，10b）是时态表达。

23.训练系统（30），所述训练系统被设立为，还根据如下训练目标来训练时态标记器（30）：所述时态标记器能够根据数字表示（12a，12b）尽可能好地决定所属的文本模块（10a，10b）是否为时态表达。

24.根据权利要求23所述的训练系统（30），所述训练系统被设立为，基于相同的训练示例来训练时态标记器（30）、嵌入器（25）和鉴别器（50）。

25.机器可读存储介质（101），在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求1至17中任一项所述的设备（100）。

26.机器可读存储介质（102），在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求18至24中任一项所述的训练系统（120）。

27.用于自动生成知识图谱的设备（100），所述设备包括根据权利要求1至17中任一项所述的用于自动分析多语种文本的设备，其中所述用于自动生成知识图谱的设备（100）被设立为，标识和标记多语种文本中的时态表达，并且根据所标识的时态表达生成所述知识图谱。

28.根据权利要求27所述的设备（100），所述设备进一步被设立为，在多语种文本中标识实体和所述实体之间的关系，并根据所标识的实体和关系生成所述知识图谱。

29.根据权利要求28所述的设备，所述设备进一步被设立为，将所标识的时态表达分配给所述实体和/或所述关系，并根据所述分配来生成所述知识图谱。

30.根据权利要求29所述的设备，所述设备进一步被设立为，在生成所述知识图谱时将所标识的时态表达考虑作为分别所分配的实体和/或关系的表征。

31.机器可读存储介质，在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求27至30中任一项所述的设备。