CN113535971A - 用于自动生成知识图谱的设备 - Google Patents

用于自动生成知识图谱的设备 Download PDF

Info

Publication number
CN113535971A
CN113535971A CN202110405331.3A CN202110405331A CN113535971A CN 113535971 A CN113535971 A CN 113535971A CN 202110405331 A CN202110405331 A CN 202110405331A CN 113535971 A CN113535971 A CN 113535971A
Authority
CN
China
Prior art keywords
temporal
training
discriminator
embedder
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110405331.3A
Other languages
English (en)
Inventor
A·伊乌尔希纳
H·阿德尔-武
J·斯特洛特根
L·朗格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113535971A publication Critical patent/CN113535971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

用于自动分析多语种文本的设备(100),该设备包括嵌入器(25)和时态标记器(30),所述嵌入器被设立为,向所述多语种文本(10)中的文本组成部分(10a,10b)分别分配数字表示(12a,12b),所述时态标记器被设立为,根据所分配的数字表示(12a,12b)来标识和标记所述多语种文本(10)中的时态表达,其中所述嵌入器(25)被设立为,尽可能地如此分配时态表达的数字表示(12a,12b),使得不可能基于所述数字表示(12a,12b)来确定所属的文本组成部分(10a,10b)是以哪种语言撰写的。

Description

用于自动生成知识图谱的设备
技术领域
本发明涉及一种用于自动分析多语种(multilingual)文本的设备,一种用于对所述设备进行训练的训练系统,一种用于自动生成知识图谱(Wissensgraphen)的设备以及一种机器可读存储介质。
背景技术
本体(Ontologie),也称为知识图谱(英语:knowledge graph),是实体及这些实体之间关系的结构化表示。本体用于以正式形式在计算机实现的应用程序之间交换知识。
在从文本中提取信息以填充知识图谱时,时间表达(Zeitausdrücken)的识别也起着重要作用:例如,实体之间的某些关系仅在有限的时间内有效(例如人员的居住地或雇主)。所谓的“时态标记(Temporal Tagging)”致力于对文本中时间表达的自动识别。迄今为止对此的工作(Arbeit)均使用单语种模型,即语言特定的模型,这些模型只能应用于特定语言的文本,但不能应用于其他语言的文本。
Yaroslav Ganin等人在2015年的arXiv预印本arXiv:1505.07818v1的“Domain-Adversarial Training of Neural Networks(神经网络的域对抗训练)”中公开了一种方法:基于来自源域的经标记的数据和来自目标域的未经标记的数据来训练神经网络(也就是说,不需要来自目标域的经标记的数据)。在训练的进一步过程中,该方案促进了以下特征的出现:这些特征(i)针对在源域中的主要学习任务是有辨识力的(diskriminierend),而(ii)鉴于域之间的迁移(Verschiebung)方面并没有区别。本文公开的方法也作为梯度反转方法(英语:gradient reversal training)而已知。
发明内容
与现有技术公开的相比,独立权利要求1的主题具有以下优点:该主题可以应用于多种语言的文本。此外,跨语言的迁移性能(Transferleistung)也是可能的。
有利的扩展是从属权利要求的主题,其他方面是并列权利要求的主题。
例如,如果模型从英语文本中学习到“today(今天)”是一种时间表达,但是在德语训练文本中从未出现“heute(今天)”一词,则单语种模型就不能将措辞“heute”解释为时间措辞。但是,多语种模型则可以从其他源(例如通过多语种嵌入)得知“today”和“heute”具有相似的含义并且由此也可以将词语“heute”正确地标识(identifizieren)为时间表达。
因此,该问题的解决方案可以分为两个子步骤:
1. 基于多种语言的数据来训练和应用多语种模型
2. 将数字表示对齐(英语:alignment),也称为词语表示(英语:embeddings(嵌入)),从而可以跨语言地识别语义相似性。
因此在第一方面中,本发明涉及一种用于对以能够预给定的多种语言中的多种语言的形式的多语种文本进行自动分析的设备,所述设备包括嵌入器(英语:embedder)和时态标记器(英语:temporal tagger),其中所述嵌入器被设立为,向所述多语种文本中的文本组成部分(例如,词语或词语的部分)分别分配数字表示(即词语表示),其中所述时态标记器被设立为,根据所分配的嵌入来标识和标记所述多语种文本中的时态表达,其中所述嵌入器被设立为,尽可能地如此分配时态表达的数字表示,使得不可能基于所述数字表示来确定所属的文本组成部分是以哪种语言撰写的。
可能的是,通过唯一的神经模型来解决上述两个问题,其中所述唯一的神经模型基于不同语言的数据来被训练并且通过对抗训练(特别是梯度反转训练)为词语嵌入生成多语种向量空间,在该向量空间中鉴别器(第二神经网络)不能区分特定词语来自哪种语言。
本发明可以用于从文本中自动提取时态表达。这是填充知识图谱情况下的重要子方面,因为某些事实仅在特定时间内有效。这种有效期必须在知识图谱中被标记,以便在应用该图谱时不会产生错误。
虽然,从Ganin等人(2015)已知的方法原则上可以应用于句子中出现的所有表达,但实际上在一种有利的实施方式中进行(vorgehen):并非首先提取时态表达然后以梯度反转执行语言标识,而是并行应用两者,即,将以梯度反转进行的语言标识应用于所有表达,而无关于这些表达是否为时态表达。现在已经认识到,使用这种方法识别时态表达是有利的,因为时态表达跨大量语言地都具有相似的结构。
相反,如果例如想要提取语法结构、诸如第四格宾格等,则跨语言的这种迁移就可能不是如此目的明确的(zielführend),因为在一种语言中的第四格宾格可能在另一种语言中具有完全另一种语法功能。
因此,本发明使得能够针对时态标记来使用多语种模型(而不是单语种模型)。这比使用基于规则的模型更为有利,因为所述基于规则的模型无法良好地迁移到新语言。
在实验中已经表明,利用所提出的所述模型进行的到未知语言的迁移与现有技术中已知的比较模型相比而言所起到的作用要好得多。
本发明的另一方面的另一个优点是利用梯度反转来改善多语种嵌入空间(从现有技术中已知这种方法仅在较高网络级别上可用,并且输入中的多语种嵌入仅是一种达到目的的手段,但不是改善的焦点)。
本发明的这个方面可以用于从文本中自动提取时态表达。这是填充知识图谱情况下的重要子方面,因为某些事实、即实体和/或关系仅在特定时间内有效。这种有效期可以在知识图谱中被标记,以便在应用该图谱时不会产生错误。
因此,提出了一种(特别是神经的)多语种模型,所述模型可以从不同语言的文本中自动提取时态表达,以便可以将这些时态表达作为关于事实的附加信息插入到知识图谱中。
此外,提出使用对抗训练(特别是梯度反转训练)来训练所述模型,以便生成多语种词语嵌入空间,在所述多语种词语嵌入空间中无法将语言彼此区分开。
在对抗训练中可以规定,使得用于训练时态标记器的目标函数与用于训练鉴别器的目标函数交替(abwechseln),并且例如通过梯度反转确保对所述嵌入向量空间进行更新,使得所述鉴别器尽可能地无法将语言区分开来。也就是说认识到了,这导致来自不同语言的语义相似的时态表达获得相似的词语表示。
结果,所述模型可以应用于任意语言的文本,而不必明确说明它是哪种语言。在此,所述模型还可以应用于并非来自如下语言集合的语言,其中基于所述语言集合训练了该模型。唯一的前提是该语言在多语种嵌入中存在。所述模型与单语种系统或基于规则的系统相比之下的迁移性能就在于此。
也就是说,在训练阶段中可以假定训练数据具有来自不同语言的特征性时态表达。基于所述训练数据对所述嵌入器、特别是神经模型(例如,先进技术的BERT模型)进行训练或者(在BERT的情况下)进行适配。在BERT的情况下可以通过微调(fine-tuning)来进行:BERT典型地已基于语言模型任务被预训练,并且可以通过微调与目标任务相适配。
为此可以使用多语种嵌入,即,具有针对来自所有语言的嵌入的唯一的向量空间。具体地,可以执行以下步骤:首先可以将所述训练数据划分为批次(英语:Batches),其中确保每个批次都包含来自多种、特别是所有语言的示例。
利用训练批次通过对抗训练来训练所述神经模型。在此:
a)一方面,这样训练时态标记器的输出,使得所述时态标记器在训练数据中识别出尽可能所有的时态表达;
b)另一方面,这样训练所述鉴别器,使得所述鉴别器在给定该批次的多语种嵌入的情况下尝试确定该训练示例的语言。通过梯度反转训练生成嵌入向量空间,在其中所述鉴别器无法(或很难)将各个语言彼此区分开。
为了应用该模型,可以假定提供了多语种文本,即来自不同语言的单个或多个文本。
现在可以将经训练的时态标记器应用于这些文本。不需要向所述时态标记器出示所述文本源自哪种语言的信息,因为词语表示空间是多语种的并且所述时态标记器已经被训练以与语言无关的方式识别时间表达。
然后可以以已知的方式将已识别的时态表达用于自动构建或填充知识图谱。
附图说明
下面参照附图更详细地阐述本发明的实施方式。在附图中:
图1示意性地示出了用于分析多语种文本的设备的实施例的结构;
图2示意性地示出了训练系统的实施例的结构。
具体实施方式
图1示意性地示出了用于分析多语种文本的设备(100)的结构。将可以包括一个或多个文档并且可以用多种语言撰写的文本(10)首先输送到分析器(25),该分析器从文本(10)中提取文本组成部分(10a,10b)。替代地,也可以将文本组成部分(10a,10b)直接输送到用于分析多语种文本的设备(100)。将这些文本组成部分输送到嵌入器(25),在本实施例中该嵌入器由人工神经网络、例如BERT模型给出,该人工神经网络对于每个文本组成部分(10a,10b)确定所属的数字表示(12a,12b)。
将这些数字表示(12a,12b)输送到时态标记器(30),该时态标记器同样由神经网络给出并且对于其中每个数字表示(12a,12b)确定标志(Flag)(13a,13b),所述标志表明:对于相应数字表示(12a,12b)所属的文本组成部分(10a,10b)是否是时态表达。
将标志(13a,13b)与文本组成部分(10a,10b)一起输送到合并器(Zusammenführer)(32),该合并器(32)将标志(13a,13b)合并到分别所属的文本组成部分(10a,10b),以便由此确定经时态标记的文本组成部分(11a,11b)。
可以将这些经时态标记的文本组成部分输送到可选的知识图谱构建器(40),向所述知识图谱构建器提供现有知识图谱(41),并且所述知识图谱构建器在经时态标记的文本组成部分(11a,11b)中标识实体和这些实体之间的关系,将所标识的时态表达分配给所述实体和/或所述关系,并在生成知识图谱时将所述所标识的时态表达考虑作为分别所分配的实体和/或关系的表征(Charakterisierung)。
用于分析多语种文本的设备(100)可以是例如计算机系统,其中所提到的组成部分(20、25、30、32、40)可以实现为存储在机器可读存储介质(101)上的计算机程序。
图2示意性地示出了用于训练用于分析多语种文本的设备(100)的训练系统(200)的结构。如图1所示,将文本组成部分(10a,10b)输送到嵌入器(25),该嵌入器(25a)由此确定数字表示(12a,12b),如图1中所描述的,可以借助于时态标记器(30)由所述数字表示确定时态标志(13a,13b)。将数字表示(12a,12b)输送到鉴别器(50),鉴别器(50)尝试根据这些数字表示(12a,12b)确定所属的文本组成部分(10a,10b)属于哪种语言。在本实施例中,鉴别器(50)通过人工神经网络给出。
所估计的相应语言以在所估计的语言标志(14a,14b)中编码的方式传送到评估器(Bewerter)(60),实际的语言标志(15a,15b)也是如此,其中所述实际的语言标志作为基础事实(Ground Truth)说明语言组成部分(10a,10b)的实际语言如何。现在,评估器(60)使用成本函数来确定:所估计的语言标志(14a,14b)和实际的语言标志(15a,15b)的一致性有多好,并更改鉴别器(50)的参数以使得一致性尽可能地好,以及更改嵌入器(25)的参数以使得一致性尽可能地差。在数学上,这是通过以下方式实现的:在反向传播(Rückpropagation)梯度时,嵌入器(25)的参数的梯度的符号位(Vorzeichen)和鉴别器(50)的梯度的符号位相反。
时态标记器(30)可以作为训练系统(200)的一部分或在训练系统(200)之外被训练。优选地,将训练数据划分为批次,其中确保每个批次都包含来自所有语言的示例。利用所述训练数据来训练时态标记器(30),使得所述时态标记器在训练数据中识别出尽可能所有的时间表达,并使用相同的训练数据来训练嵌入器(25)和鉴别器(50)。
训练系统(200)可以是例如计算机系统,其中所提到的组成部分(50、60)可以被实现为存储在机器可读存储介质(102)上的计算机程序。
应当理解,这些方法不仅如所描述的那样可以完全以软件来实现。而且它们也可以以硬件来实现或以软件和硬件的混合形式来实现。

Claims (31)

1.用于自动分析多语种文本的设备(100),所述设备包括嵌入器(25)和时态标记器(30),所述嵌入器被设立为,向所述多语种文本(10)中的文本组成部分(10a,10b)分别分配数字表示(12a,12b),所述时态标记器被设立为,根据所分配的所述数字表示(12a,12b)来标识和标记所述多语种文本(10)中的时态表达,其中所述嵌入器(25)被设立为,尽可能地如此分配时态表达的数字表示(12a,12b),使得不可能基于所述数字表示(12a,12b)来确定所属的所述文本组成部分(10a,10b)是以哪种语言撰写的。
2.根据权利要求1所述的设备,其中,所述嵌入器(25)被设立为,将所有语言的所有时态表达映射到唯一的向量空间。
3.根据权利要求1或2所述的设备,其中,所述嵌入器(25)包括机器学习系统,所述机器学习系统已被训练为如此分配时态表达的数字表示,使得对于鉴别器(50)而言尽可能无法根据所述数字表示(12a,12b)来决定所述时态表达属于哪种语言,其中所述鉴别器被设立为,根据所述数字表示(12a,12b)确定提供给所述鉴别器的文本组成部分(10a,10b)属于哪种语言。
4.根据权利要求3所述的设备,其中,所述机器学习系统包括神经网络。
5.根据权利要求4所述的设备,其中,所述神经网络是BERT模型。
6.根据权利要求3至5中任一项所述的设备,其中,所述鉴别器(50)包括第二机器学习系统。
7.根据权利要求6所述的设备(100),其中,所述第二机器学习系统包括第二神经网络。
8.根据权利要求7所述的设备(100),其中,鉴别器(50)和嵌入器(25)已被共同地对抗训练。
9.根据权利要求8所述的设备(100),其中,所述鉴别器(50)已经利用梯度反转方法被训练。
10.根据权利要求6至9中任一项所述的设备(100),其中,所述鉴别器(50)已被训练为能够根据所述时态表达的数字表示(12a,12b)来尽可能好地决定所述时态表达属于哪种语言。
11.根据权利要求3至10中任一项所述的设备(100),其中,所述时态标记器(30)包括第三机器学习系统。
12.根据权利要求11所述的设备(100),其中,所述第三机器学习系统包括第三神经网络。
13.根据权利要求11或12中任一项所述的设备(100),其中,所述时态标记器(30)已被训练为能够根据所述数字表示(12a,12b)尽可能好地决定所属的文本模块(10a,10b)是否为时态表达。
14.根据权利要求13和8所述的设备(100),其中,鉴别器(50)和嵌入器(25)以及时态标记器(30)已被共同地对抗训练。
15.根据权利要求3至14中任一项所述的设备,其中,在训练鉴别器(50)和嵌入器(25)时使用的训练数据已被划分为批次,使得每个批次都包含来自可预给定的多种语言中的分别所选的多种语言的训练示例。
16.根据权利要求15所述的设备,其中,在训练鉴别器(50)和嵌入器(25)时使用的训练数据已被划分为批次,使得每个批次都包含来自可预给定的多种语言中的每种语言的训练示例。
17.根据权利要求3至16中任一项所述的设备,其中,鉴别器(50)、嵌入器(25)和时态标记器(30)已基于相同的训练示例被训练。
18.用于训练根据权利要求3至17中任一项所述的设备的训练系统(200),所述训练系统包括鉴别器(50),所述鉴别器被设立为,根据数字表示(13a,13b)确定属于所述鉴别器的文本组成部分(10a,10b)属于哪种语言,并且所述训练系统被设立为,对鉴别器(50)和嵌入器(25)共同进行对抗训练。
19.根据权利要求18所述的训练系统(200),所述训练系统被设立为,使用梯度反转方法来训练鉴别器(50)和嵌入器(25)。
20.根据权利要求18或19所述的训练系统(200),所述训练系统被设立为,将在训练鉴别器(50)和嵌入器(25)时使用的训练数据划分为批次,使得每个批次都包含来自可预给定的多种语言中的分别所选的多种语言的训练示例。
21.根据权利要求20所述的训练系统(200),所述训练系统被设立为,将在训练鉴别器(50)和嵌入器(25)时使用的训练数据划分为批次,使得每个批次都包含来自可预给定的多种语言中的每种语言的训练示例。
22.根据权利要求18至21中任一项所述的训练系统(200),所述训练系统被设立为,借助于所述时态标记器(30)确定所属的文本组成部分(10a,10b)是否为时态表达,以及鉴于以下表达执行鉴别器(50)和/或嵌入器(25)的训练,其中针对所述表达已经确定了所属的文本组成部分(10a,10b)是时态表达。
23.训练系统(30),所述训练系统被设立为,还根据如下训练目标来训练时态标记器(30):所述时态标记器能够根据数字表示(12a,12b)尽可能好地决定所属的文本模块(10a,10b)是否为时态表达。
24.根据权利要求23所述的训练系统(30),所述训练系统被设立为,基于相同的训练示例来训练时态标记器(30)、嵌入器(25)和鉴别器(50)。
25.机器可读存储介质(101),在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求1至17中任一项所述的设备(100)。
26.机器可读存储介质(102),在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求18至24中任一项所述的训练系统(120)。
27.用于自动生成知识图谱的设备(100),所述设备包括根据权利要求1至17中任一项所述的用于自动分析多语种文本的设备,其中所述用于自动生成知识图谱的设备(100)被设立为,标识和标记多语种文本中的时态表达,并且根据所标识的时态表达生成所述知识图谱。
28.根据权利要求27所述的设备(100),所述设备进一步被设立为,在多语种文本中标识实体和所述实体之间的关系,并根据所标识的实体和关系生成所述知识图谱。
29.根据权利要求28所述的设备,所述设备进一步被设立为,将所标识的时态表达分配给所述实体和/或所述关系,并根据所述分配来生成所述知识图谱。
30.根据权利要求29所述的设备,所述设备进一步被设立为,在生成所述知识图谱时将所标识的时态表达考虑作为分别所分配的实体和/或关系的表征。
31.机器可读存储介质,在所述机器可读存储介质上存储有被构造为计算机程序的根据权利要求27至30中任一项所述的设备。
CN202110405331.3A 2020-04-16 2021-04-15 用于自动生成知识图谱的设备 Pending CN113535971A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE202020102105.2 2020-04-16
DE202020102105.2U DE202020102105U1 (de) 2020-04-16 2020-04-16 Vorrichtung zum automatisierten Erzeugen eines Wissensgraphen

Publications (1)

Publication Number Publication Date
CN113535971A true CN113535971A (zh) 2021-10-22

Family

ID=70681067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110405331.3A Pending CN113535971A (zh) 2020-04-16 2021-04-15 用于自动生成知识图谱的设备

Country Status (3)

Country Link
US (1) US12061871B2 (zh)
CN (1) CN113535971A (zh)
DE (1) DE202020102105U1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112380355B (zh) * 2020-11-20 2024-08-13 华南理工大学 一种时隙异构知识图谱的表示与存储方法
CN112528037B (zh) * 2020-12-04 2024-04-09 北京百度网讯科技有限公司 基于知识图谱的边关系预测方法、装置、设备及存储介质
DE102022204296A1 (de) 2022-05-02 2023-11-02 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zur Verarbeitung von temporalen Ausdrücken aus unstrukturierten Texten für ein Befüllen einer Wissensdatenbank

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459995B2 (en) * 2016-12-22 2019-10-29 Shutterstock, Inc. Search engine for processing image search queries in multiple languages
US20200012890A1 (en) * 2018-07-06 2020-01-09 Capital One Services, Llc Systems and methods for data stream simulation
US11593559B2 (en) * 2019-06-27 2023-02-28 Microsoft Technology Licensing, Llc Enhanced natural language query segment tagging
WO2021061555A1 (en) * 2019-09-25 2021-04-01 Google Llc Contrastive pre-training for language tasks
TWI753325B (zh) * 2019-11-25 2022-01-21 國立中央大學 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
CN115039171A (zh) * 2020-01-28 2022-09-09 谷歌有限责任公司 使用有效文字标准化的语言无关的多语言建模

Also Published As

Publication number Publication date
US20210326530A1 (en) 2021-10-21
DE202020102105U1 (de) 2020-04-29
US12061871B2 (en) 2024-08-13

Similar Documents

Publication Publication Date Title
CN113535971A (zh) 用于自动生成知识图谱的设备
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110609983B (zh) 一种政策文件结构化分解方法
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN113821616A (zh) 领域自适应的槽位填充方法、装置、设备及存储介质
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN116882413A (zh) 一种中文实体识别方法、装置及设备
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN115640810A (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN115544256A (zh) 一种基于nlp算法模型的自动数据分类分级方法及系统
CN114490935A (zh) 异常文本的检测方法、装置、计算机可读介质及电子设备
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
RU2595489C2 (ru) Выделение временных выражений для текстов на естественном языке
März et al. Data centric domain adaptation for historical text with OCR errors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination