CN113672738A - 用于确定知识图谱的至少一部分的设备和方法 - Google Patents

用于确定知识图谱的至少一部分的设备和方法 Download PDF

Info

Publication number
CN113672738A
CN113672738A CN202110526840.1A CN202110526840A CN113672738A CN 113672738 A CN113672738 A CN 113672738A CN 202110526840 A CN202110526840 A CN 202110526840A CN 113672738 A CN113672738 A CN 113672738A
Authority
CN
China
Prior art keywords
classifier
sentence
digital representation
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110526840.1A
Other languages
English (en)
Inventor
A·弗里德里希
H·阿德尔-武
J·C·欣格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113672738A publication Critical patent/CN113672738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及确定知识图谱的至少一部分的设备和方法,提供文本语料库,对于来自文本语料库的语句,确定第一分类器的第一输入、第二分类器的第二输入和第三分类器的第三输入,第一输入包括语句的至少一部分的数字表示,第二、三输入分别包括来自语句的词的至少一部分的数字表示,利用第一分类器根据第一输入确定第一概率的数字表示,其说明语句是否与知识图谱有关,如果第一概率的数字表示满足第一条件,则利用第二分类器根据第二输入确定第二概率的数字表示,其定义词的第一类型,利用第三分类器根据第三输入确定第三概率的数字表示,其定义词的边的第二类型,将词分配给第一类型的知识图谱的节点,并且利用第二类型的边与知识图谱的另一节点关联。

Description

用于确定知识图谱的至少一部分的设备和方法
技术领域
本发明涉及用于确定知识图谱的至少一部分的设备和方法。
背景技术
Luan等人的2018:Yi Luan等人的Multi-Task Identification of Entities,Relations, and Coreference for Scientific Knowledge Graph Construction(Conference on Empirical Methods in Natural Language Processing, 2018)公开一种用于从文本语料库中确定知识图谱的可能性。
发明内容
知识图谱包括节点和边。边以节点开始和结束。知识图谱的表示例如包括三元组,其中每个三元组都包括边和边开始的节点以及边结束的节点。节点或者边定义知识图谱的一部分。根据独立权利要求所述的设备和方法创造从文本语料库中自动地确定知识图谱的至少一部分的可能性。
用于确定知识图谱的至少一部分的方法规定,提供文本语料库,其中为来自文本语料库的语句确定用于第一分类器确定第一输入,确定用于第二分类器的第二输入,以及确定用于第三分类器的第三输入,其中第一输入包括语句的至少一部分的数字表示,其中第二输入包括来自语句的词的至少一部分的数字表示,其中第三输入包括来自语句的词的至少一部分的数字表示,其中利用第一分类器根据第一输入确定第一概率的数字表示,所述第一概率的数字表示说明语句是否与知识图谱有关,其中如果第一概率的数字表示满足第一条件,则利用第二分类器根据第二输入确定第二概率的数字表示,所述第二概率的数字表示定义来自语句的词的第一类型,其中利用第三分类器根据第三输入确定第三概率的数字表示,所述第三概率的数字表示定义用于词的边的第二类型,其中将来自语句的词分配给第一类型的知识图谱的节点,并且将其利用第二类型的边与知识图谱的另一节点关联。由此使得能够从自由文本、即不具有人工注释的文本中、例如从材料科学出版物中自动提取信息,所述信息使得能够构建知识图谱。在此,对关系进行解释,所述关系大多数在文本中未明确地给出。通过以下方式预测(vorherhersagen)对应于该关系的边:即该边结束的节点对应于特定的第一类型和特定的第二类型的词。后者在该示例中定义边。在该示例中,边的起始节点对应于来自语句的另一词,例如分配给特定的第一类型的词。边被分配给以下两个词,即所述边开始和结束于所述两个词。
优选地,利用第一函数将语句的第一词映射到第一数字表示上,其中利用与第一函数不同的第二函数将第一词映射到第二数字表示上,其中利用第一函数将语句的第二词映射到第三数字表示上,其中利用第二函数将第二词映射到第四数字表示上,其中利用第三函数将第一数字表示、第二数字表示、第三数字表示和第四数字映射到第一张量上,所述第一张量定义第一输入和/或第二输入。由此,使用来自语句的多个词用于对语句进行分类,其中为词中的每一个确定至少两个不同的数字表示、即嵌入。这改善语句的分类。
优选地,提供训练数据,所述训练数据包括多个元组,其中在每个元组中给文本语料库的语句分配尤其是二进制的参量的值,所述参量定义该语句是否与知识图谱有关;分配第一名称,所述第一名称定义第一类型;分配第二名称,所述第二名称定义第二类型;并且其中根据训练数据训练第一函数、第二函数、第三函数、第一分类器、第二分类器和/或第三分类器的至少一个参数。这些元组可以包括来自文本语料库的由专家注释的词。
可以规定,提供训练数据,所述训练数据包括多个元组,其中在每个元组中给文本语料库的语句分配用于该语句的第一概率的数字表示、用于来自该语句的词的第二概率的数字表示以及用于来自语句的词的第三概率的数字表示,其中根据训练数据训练第一函数、第二函数、第三函数、第一分类器、第二分类器和/或第三分类器的至少一个参数。这些元组可以包括词的位置,其定义来自文本语料库的由专家注释的词。
第一分类器可以包括第一层,所述第一层根据第一输入确定用于语句的向量,其中第一分类器包括第二层,所述第二层根据向量尤其二进制地确定第一概率的数字表示。这能够实现逐语句分类。
第二分类器可以包括第一层,所述第一层根据第二输入确定用于来自语句的词的向量,其中第二分类器包括第二层,所述第二层根据向量确定第二概率的多个数字表示,其中多个数字表示中的每个数字表示被分配给知识图谱的节点的类型。这能够实现具有预先给定词汇的序列标注,所述词汇定义这些类型。
可以规定,当来自文本语料库的语句中的词分配给知识图谱的节点的类型时,则将该词分配给知识图谱的节点。由此可以产生用于知识图谱的大量节点。
第三分类器可以包括第一层,所述第一层根据第三输入确定用于来自语句的词的向量,其中第三分类器包括第二层,所述第二层根据向量确定第三概率的多个数字表示,其中多个数字表示中的每个数字表示被分配给知识图谱的边的类型。知识图谱例如通过以下方式代表实验(Experiment),即给实验节点分配其他节点,所述其他节点例如代表在实验中设置的材料或设备。第三分类器为实验节点与其他节点之一之间的边标识边的类型。边的类型可以定义材料在实验中的用途。这能够实现具有预先给定的词汇的序列标注,所述词汇定义这些类型。
优选地规定,根据来自该语句中的多个词来确定用于语句的第一输入、第二输入和/或第三输入。由于必须处理较少的输入数据,因此仅考虑来自同一语句的词使知识图谱的确定变得容易。
用于确定知识图谱的至少一部分的设备被构造用于执行该方法。
附图说明
其他有利的实施方式从以下描述和附图中得出。在附图中:
图1示出用于确定知识图谱的至少一部分的设备的示意图,
图2示出用于确定知识图谱的至少一部分的方法中的步骤,
图3示出用于不同数字表示的函数的示意图。
具体实施方式
图1示意性地示出用于确定知识图谱102的至少一部分的设备100。知识图谱102由三元组定义,所述三元组定义边、边开始的节点以及边结束的节点。知识图谱的一部分是节点或边。
借助于以下语句描述利用在下面描述的分类器的行动:
The SOFC with Pt / SmNiO3 demonstrated dramatic power output(具有Pt/SmNiO3的SOFC展示巨大的功率输出)。
第一分类器104识别出该语句是相关的,也就是说该语句包含应该被写入知识图谱中的信息。
第二分类器106识别概念。概念可以是不同类型的。在语句中例如识别出:SOFC是设备类型的,Pt是材料类型的,SmNiO3是材料类型的,并且demonstrated(展示)是描述实验的动词类型的。描述实验的动词类型的词被定义为知识图谱中的节点,边可以从所述节点发出。下面将描述实验的这种节点称为实验节点。
在该示例中,由第二分类器识别的所有概念都作为节点被接纳在知识图谱中。
第三分类器108识别出:SOFC是实验设备类型的,Pt是实验阳极材料类型的,并且SmNiO 3是用于实验的所使用的燃料类型的。这些词定义节点,从实验节点发出的边在该节点处结束。所识别的类型定义边的名称。
在知识图谱中,将SOFC节点与实验节点关联(verbunden)并且将其写到边“设备”上,类似地,将Pt节点与实验节点关联,并且写到边“阳极材料”上。
设备100包括第一分类器104、第二分类器106和第三分类器108。
设备100被构造用于提供文本语料库110。文本语料库包括多个语句112。每个语句112包括多个词112-1、...、112-n。词的数量n在每个语句112中可以是不同的。设备100被构造用于为来自文本语料库110的语句112提供用于第一分类器104的第一输入、用于第二分类器106的第二输入和用于第三分类器108的第三输入。
第一分类器104包括第一层104-1,所述第一层104-1被构造用于根据第一输入确定用于语句112的向量。第一分类器104包括第二层104-2,所述第二层被构造用于根据向量确定第一概率的数字表示。在该示例中,分类以二进制方式区分,也就是说所述分类在两个类别之间区分。在该示例中,概率本身不是二进制的,也就是说不是0或1,而是数字概率值。
设备100被构造用于利用第一函数将语句112的第一词映射到第一数字表示上。设备100可以被构造用于利用不同于第一函数的第二函数将第一词映射到第二数字表示上。第一函数根据第一函数的参数将词例如映射到以下嵌入(Embedding)之一上:
word2vec、mat2vec、bpe、BERT、SciBERT。
第二函数根据第二函数的参数将词例如映射到以下嵌入中的与此相比另一个上:
word2vec、mat2vec、bpe、BERT、SciBERT。
在该示例中,为此在设备100中布置嵌入层,利用所述嵌入层可以映射语句112的词。
在该示例中,组合多个预训练的嵌入层类型,也即 word2vec、mat2vec、byte-pair-encoding(字节对编码)嵌入和BERT嵌入以及SciBERT嵌入。
word2vec例如在 Tomas Mikolov, Kai Chen, Greg Corrado, and JeffreyDean. 2013. Efficient estimation of word representations in vector space. InICLR Workshop中得以描述。
mat2vec例如在Vahe Tshitoyan, John Dagdelen, Leigh Weston, AlexanderDunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder, andAnubhav Jain. 2019. Unsupervised word embeddings capture latent knowledgefrom materials science literature. Nature, 571:95–98中得以描述。
byte-pair-encoding例如在Benjamin Heinzerling and Michael Strube.2018. BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275Languages. In Proceedings of the Eleventh International Conference onLanguage Resources and Evaluation (LREC 2018), Miyazaki, Japan. EuropeanLanguage Resources Association (ELRA)中得以描述。
BERT 嵌入例如在Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. 2019. BERT: Pre-training of deep bidirectional transformers forlanguage understanding. In Proceedings of the 2019 Conference of the NorthAmerican Chapter of the Association for Computational Linguistics: HumanLanguage Technologies, pages 4171–4186, Minneapolis, Minnesota. Associationfor Computational Linguistics中得以描述。
SCIBERT嵌入例如在 Iz Beltagy, Kyle Lo, and Arman Cohan. 2019.Scibert: A pretrained language model for scientific text. In Proceedings ofthe 2019 Conference on Empirical Methods in Natural Language Processing andthe 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3606–3611中得以描述。
最后三个是基于子词的嵌入,因此它们特别良好地适用于代表复杂的长的词。Mat2vec是借助于word2vec算法在材料科学文本上被训练的嵌入,因此它们特别良好地适用于代表特定于域的词。
设备100被构造用于利用第一函数将第二词映射到第三数字表示上。第二词是同一语句112的另一词。
设备100可以被构造用于利用第二函数将第二词映射到第四数字表示上。
可以利用第三函数将第一数字表示和第三数字表示映射到第一张量(Tensor)上,所述第一张量定义第一输入和/或第二输入。可以规定,利用第三函数将第一数字表示、第二数字表示、第三数字表示和第四数字表示映射到第一张量上,所述第一张量定义第一输入和/或第二输入。
第三函数可以包括构成第一张量的数字表示的级联。
第二分类器106包括第一层106-1,所述第一层被构造用于根据第二输入确定用于来自语句112的词的向量。第二分类器106包括第二层106-2,所述第二层被构造用于根据向量确定第二概率的多个数字表示。
第三分类器108包括第一层108-1,所述第一层被构造用于根据第三输入确定用于来自语句112的词的向量。第三分类器108包括第二层108-2,所述第二层被构造用于根据向量确定第三概率的多个数字表示。
设备100被构造用于如果来自语句112的词分配给第一类型,则将词分配给知识图谱102的节点。
设备100被构造用于如果来自语句112的词分配给第二类型,则将词分配给知识图谱102的边结束的节点。
设备100被构造用于从文本语料库110中对语句112如下进行分类,即语句112是否与确定知识图谱有关。
设备100被构造用于执行在下面描述的用于确定知识图谱的至少一部分的方法。
设备100可以包括至少一个处理器和至少一个存储器,其被构造用于执行在下面描述的用于确定知识图谱的至少一部分的方法。
第一分类器104可以被实施为BiLSTM模型,也就是说被实施为双向长短期存储器(Bidirektionales Long short-term memory)。
第二分类器106可以被实施为BiLSTM-CRF模型,也就是说被实施为具有条件随机场(Conditional Random Field)层的双向长短期存储器。
第三分类器108可以被实施为BiLSTM-CRF模型,也就是说被实施为具有条件随机场层的双向长短期存储器。
在该示例中在训练分类器之后执行用于确定知识图谱102的至少一部分的方法。在训练之后,也可以独立于训练步骤地执行所述方法。
在步骤200中,提供训练数据。在该示例中,训练数据包括多个元组。
在一个方面中,在每个元组中,给文本语料库110的语句112分配尤其是二进制的参量的值,分配第一名称,分配第二名称,所述参量定义该语句是否与知识图谱有关,所述第一名称定义第一类型,所述第二名称定义第二类型。
在另一方面中,在每个元组中,给文本语料库110的语句112分配用于该语句112的第一概率的数字表示、用于第一类型的第二概率的数字表示以及用于第二类型的第三概率的数字表示。
在训练中,根据训练数据来训练第一函数、第二函数、第三函数、第一分类器104、第二分类器106和/或第三分类器108的至少一个参数。
在该示例中规定,利用梯度下降方法确定用于第一函数、第二函数、第三函数、第一分类器104,第二分类器106和第三分类器108的参数,对于所述参数,用于第一分类器的第一偏差(Abweichung)、用于第二分类器的第二偏差和用于第三分类器的第三偏差的总和满足条件。在该示例中,对于以下参数满足该条件,即对于所述参数,总和的值相对于用于总和的利用其他参数确定的其他值是更小的或最小的值。
在该示例中,第一偏差由对于词从元组中确定的第一数字表示与来自元组的对此的值之间的第一差来定义。
在该示例中,第二偏差由对于词从元组中确定的第二数字表示与来自元组的对此的值之间的第二差来定义。
在该示例中,第三偏差由对于词从元组中确定的第三数字表示与来自元组的对此的值之间的第三差来定义。
训练数据可以划分成部分。对于训练数据的各个部分,可以以迭代的方式重复步骤200。
在步骤202中,提供文本语料库110。
在步骤204中,为来自文本语料库110的语句112确定用于第一分类器104的第一输入。第一输入包括语句112的至少一部分的数字表示。
在该示例中,在步骤204-11中,利用第一函数将语句112的第一词映射到第一数字表示上。在步骤204-21中,可以利用第二函数将第一词映射到第二数字表示上。
在该示例中,在步骤204-21中,利用第一函数将语句112的第二词映射到第三数字表示上。在步骤204-22中可以利用第二函数将第二词映射到第四数字表示上。
在步骤204-3中,可以利用第三函数将第一数字表示、第二数字表示、第三数字表示和第四数字表示映射到第一张量上,所述第一张量定义第一输入。第一张量还可以根据语句的所有n个词或多个词被确定。可以设置数量m个函数,利用所述函数对于词的至少其部分确定m个不同的数字表示。这在图3中示意性地示出。
在步骤206中,确定用于第二分类器106的第二输入。第二输入包括来自语句112的词的至少一部分的数字表示。
在该示例中,第一张量定义用于第二分类器106的第二输入。
在步骤208中,确定用于第三分类器108的第三输入。
第三输入在该示例中与第二输入相同。
在步骤210中,利用第一分类器104根据第一输入确定第一概率的数字表示,所述第一概率的数字表示说明语句112是否与知识图谱102有关。
在该示例中,确定在0和1之间的第一概率的数字表示的值。
在该示例中,第一分类器104利用第一层104-1根据第一输入确定用于语句112的向量,并且利用第二层104-2根据向量确定第一概率的数字表示。
对于该语句分类,具有BiLSTM结构的人工神经网络的注意力(Attention)层可以将语句表示计算为BiLSTM隐状态的加权表示,并且在二进制分类中对Softmax层进行分类:语句是否描述与知识图谱相关的信息。
在步骤212中检验:第一概率的数字表示是否满足第一条件。在该示例中,当数字表示的值超过阈值时,满足条件。这意味着,当确定语句与知识图谱有关时。
如果第一概率的数字表示满足第一条件,则执行步骤214。否则,针对来自文本语料库110的其他语句执行步骤204。
在步骤214中,利用第二分类器106根据第二输入来确定第二概率的数字表示,其说明第一类型。
第二分类器106利用第一层106-1根据第二输入确定用于来自语句112的词的向量。在该示例中,第二分类器106利用第二层106-2根据向量确定第二概率的多个数字表示,其中多个数字表示中的每个数字表示被分配给知识图谱102的节点的类型。
节点的类型的示例对于描述一个材料科学实验或多个材料科学实验的知识图谱而言是材料、值、设备。
材料类型的词例如包含化学式或化合物的命名、例如氧化物或碳氢化合物。
值类型的词例如包含值说明、例如750°C,或包含比较级(Komparative)、例如大于、等于、在…之间。
设备类型的词例如包含设备的名称、例如机器、装置,或包含设备的特定于域的缩写。
利用第三分类器108根据第三输入来确定第三概率的数字表示,其说明第二类型。
第三分类器108利用第一层108-1根据第三输入确定用于来自语句112的词的向量。第三分类器108利用第二层108-2根据向量确定第三概率的多个数字表示。在该示例中,多个数字表示中的每个数字表示被分配给知识图谱102的边的类型。
边的类型的示例对于该知识图谱而言包括阳极材料、阴极材料、动力燃料。
阳极材料类型的词例如包含表示作为阳极可使用的材料的词成分。
动力燃料类型的词例如包含表示动力燃料的组分的词成分。
在步骤216中,将来自语句112的第一词分配给知识图谱102的节点。可以规定,将来自语句112的第二词分配给节点。例如,第一词表示在语句中描述的材料。例如,第二词表示在实验中使用的设备。
在可选的步骤218中,可以检验该节点是否是实验节点。如果该节点是实验节点,则对来自语句的其他词执行步骤204。否则,执行步骤220。
在该示例中,在步骤220中,在知识图谱中在节点和实验节点之间插入边。可以用由所识别的边类型所定义的名称来标出边。随后对于来自文本语料库110的其他语句执行步骤204。
如果来自文本语料库110的语句112的词分配给相应的第一类型,则在该示例中,该词被分配给知识图谱102的节点。在这种情况下,利用第二类型的边将该节点与实验节点关联。
在该示例中,当来自文本语料库110的所有语句都已被处理时,该方法结束。也可以规定,仅针对来自文本语料库110的事先定义的多个语句执行该方法。
从而使得能够从未注释的例如材料科学的出版物中自动提取信息,所述信息使得能够构建知识图谱。为此规定,自动地识别来自文本语料库的相关语句。如果语句描述例如材料科学的实验,则该语句例如是相关的。此外规定,自动地识别来自语句的词,所述词作为知识图谱中的节点是相关的。例如,如果词描述尤其是材料科学的实验的概念时,该词例如与节点相关。来自材料科学领域的概念的示例是材料或度量单位。此外规定,自动地识别来自文本语料库的词,所述词可以通过知识图谱中的边与实验节点关联。例如,在知识图谱中用名称录入边,所述名称说明概念在尤其是材料科学的实验中描述哪个角色。来自材料科学领域的角色的示例是阳极材料、阴极材料。该方案也可应用于材料科学以外的其他域。可以将分类器构造为一个或多个模型、尤其是人工神经网络,其被训练,用于自动地从科学出版物中提取关于实验的信息,以便可以将所述信息写入知识图谱中。第一分类器可以被构造为尤其是二进制的分类模型,其被训练用于对于语句以二进制的方式说明所述语句是否与实验相关。第二分类器和第三分类器可以各自被实现为序列标注模型。序列标注模型使用多个预先给定的名称,并且如下对词进行分类,即词以最大概率可以被分配给所述名称中的哪一个。用于第二分类器的名称可以是定义可能概念的类型。用于第三分类器的名称可以是定义可能角色的类型。可能的角色和可能的概念可以是来自为分配给文本语料库的域定义的词集中的词。通过对于例如来自文本语料库的所有词重复步骤,确定第一概念集合、也即来自文本语料库的与节点相关的词,并且确定第二角色集合、即来自文本语料库的作为边结束的节点相关的词。为此找到的用于节点的词可以被接纳到知识图谱中,并且通过边与实验节点关联。于是,可以由域专家使用知识图谱,用以有针对性地搜索关于特定实验的信息和有关系的工作。

Claims (11)

1.一种用于确定知识图谱(102)的至少一部分的方法,其特征在于,提供(202)文本语料库(110),其中对于来自所述文本语料库(110)的语句(112),确定(204)用于第一分类器(104)的第一输入,确定(206)用于第二分类器(106)的第二输入并且确定(208)用于第三分类器(108)的第三输入,其中所述第一输入包括所述语句(112)的至少一部分的数字表示,其中所述第二输入包括来自所述语句(112)的词的至少一部分的数字表示,其中所述第三输入包括来自所述语句(112)的词的至少一部分的数字表示,其中利用所述第一分类器(104)根据所述第一输入确定(210)第一概率的数字表示,所述第一概率的数字表示说明所述语句(112)是否与所述知识图谱(102)有关,其中如果所述第一概率的数字表示满足(212)第一条件,则利用所述第二分类器(106)根据所述第二输入确定(214)第二概率的数字表示,所述第二概率的数字表示定义用于来自所述语句(112)的词的第一类型,其中利用所述第三分类器(108)根据所述第三输入确定(214)第三概率的数字表示,所述第三概率的数字表示定义用于所述词的边的第二类型,其中将来自所述语句(112)的词分配给所述第一类型的知识图谱(102)的节点,并且利用第二类型的边与所述知识图谱的另一节点关联(220)。
2.根据权利要求1所述的方法,其特征在于,利用第一函数将所述语句(112)的第一词映射(204-11)到第一数字表示上,其中利用不同于所述第一函数的第二函数将所述第一词映射(204-21)到第二数字表示上,其中利用所述第一函数将所述语句(112)的第二词映射(204-12)到第三数字表示上,其中利用所述第二函数将所述第二词映射(204-22)到第四数字表示上,其中利用第三函数将所述第一数字表示、所述第二数字表示、所述第三数字表示和所述第四数字表示映射(204-3)到第一张量上,所述第一张量定义所述第一输入和/或所述第二输入。
3.根据前述权利要求中任一项所述的方法,其特征在于,提供训练数据,所述训练数据包括多个元组,其中在每个元组中,给所述文本语料库(110)的语句(112)分配尤其是二进制的参量的值,所述参量定义所述语句是否与所述知识图谱有关;分配第一名称,所述第一名称定义第一类型;分配第二名称,所述第二名称定义第二类型;以及其中根据所述训练数据来训练(200)所述第一函数、所述第二函数、所述第三函数、所述第一分类器(104)、所述第二分类器(106)和/或所述第三分类器(108)的至少一个参数。
4.根据权利要求1至3中任一项所述的方法,其特征在于,提供训练数据,所述训练数据包括多个元组,其中在每个元组中,给所述文本语料库(110)的语句(112)分配用于所述语句(112)的第一概率的数字表示、用于来自所述语句的词的第二概率的数字表示和用于来自所述语句(110)的词的第三概率的数字表示,并且其中根据所述训练数据来训练(200)所述第一函数、所述第二函数、所述第三函数、所述第一分类器(104)、所述第二分类器(106)和/或所述第三分类器(108)的至少一个参数。
5.根据前述权利要求中任一项所述的方法,其特征在于,所述第一分类器(104)包括第一层(104-1),所述第一层根据所述第一输入确定用于所述语句(112)的向量,其中所述第一分类器(104)包括第二层(104-2),所述第二层根据所述向量确定所述第一概率的数字表示。
6.根据前述权利要求中任一项所述的方法,其特征在于,所述第二分类器(106)包括第一层(106-1),所述第一层根据所述第二输入确定(214-1)用于来自所述语句(112)的词的向量,其中所述第二分类器(106)包括第二层(106-2),所述第二层根据所述向量确定(214-2)所述第二概率的多个数字表示,其中所述多个数字表示中的每个数字表示被分配给用于所述知识图谱(102)的节点的类型。
7.根据权利要求6所述的方法,其特征在于,如果来自所述文本语料库(110)的语句(112)的词分配给所述知识图谱(102)的节点的类型,则所述词被分配(218)给所述知识图谱(102)的节点。
8.根据前述权利要求中任一项所述的方法,其特征在于,所述第三分类器(108)包括第一层(108-1),所述第一层根据所述第三输入确定用于来自所述语句(112)的词的向量,其中所述第三分类器(108)包括第二层(108-2),所述第二层根据所述向量确定所述第三概率的多个数字表示,其中所述多个数字表示中的每个数字表示被分配给用于所述知识图谱(102)的边的类型。
9.根据前述权利要求中任一项所述的方法,其特征在于,根据来自所述语句(112)的多个词确定(208)用于所述语句(112)的所述第一输入、所述第二输入和/或所述第三输入。
10.一种用于确定知识图谱(102)的至少一部分的设备(100),其特征在于,所述设备(100)被构造用于执行根据权利要求1至9中任一项所述的方法。
11.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,当通过计算机执行所述计算机可读指令时运行根据权利要求1至9中任一项所述的方法。
CN202110526840.1A 2020-05-15 2021-05-14 用于确定知识图谱的至少一部分的设备和方法 Pending CN113672738A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020206135.1 2020-05-15
DE102020206135.1A DE102020206135A1 (de) 2020-05-15 2020-05-15 Vorrichtung und Verfahren zum Bestimmen wenigstens eines Teils eines Knowledge Graphs

Publications (1)

Publication Number Publication Date
CN113672738A true CN113672738A (zh) 2021-11-19

Family

ID=78280329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110526840.1A Pending CN113672738A (zh) 2020-05-15 2021-05-14 用于确定知识图谱的至少一部分的设备和方法

Country Status (4)

Country Link
US (1) US11947910B2 (zh)
JP (1) JP2021179991A (zh)
CN (1) CN113672738A (zh)
DE (1) DE102020206135A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102508131B1 (ko) * 2021-12-20 2023-03-09 (주)씨어스테크놀로지 지식그래프에 대한 그래프 연결강화 시스템 및 방법
EP4216099A1 (de) * 2022-01-24 2023-07-26 Robert Bosch GmbH Vorrichtung und computerimplementiertes verfahren zur analyse eines hierarchischen dokuments insbesondere zum befüllen eines wissensgraphen
EP4310727A1 (en) 2022-07-20 2024-01-24 Thesee Improved online scoring

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP4453377B2 (ja) * 2004-01-30 2010-04-21 株式会社デンソー 音声認識装置、プログラム及びナビゲーション装置
CN116362247A (zh) * 2023-02-23 2023-06-30 浙江大学 一种基于mrc框架的实体抽取方法

Also Published As

Publication number Publication date
US20210357588A1 (en) 2021-11-18
US11947910B2 (en) 2024-04-02
DE102020206135A1 (de) 2021-11-18
JP2021179991A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111712834B (zh) 用于推断现实意图的人工智能系统
CN111222305B (zh) 一种信息结构化方法和装置
CN113672738A (zh) 用于确定知识图谱的至少一部分的设备和方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN113127624B (zh) 问答模型的训练方法及装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN113268610B (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
WO2018105656A1 (ja) ルールセットを選択可能な推論エンジンを有するプログラム記録媒体、装置及び方法
CN112559734B (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN111194401B (zh) 意图识别的抽象和可移植性
Windiatmoko et al. Developing facebook chatbot based on deep learning using rasa framework for university enquiries
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN110347802A (zh) 一种文本分析方法及装置
US20220101115A1 (en) Automatically converting error logs having different format types into a standardized and labeled format having relevant natural language information
CN113791757A (zh) 软件需求和代码映射方法及系统
CN111859967A (zh) 实体识别方法、装置,电子设备
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN113297842A (zh) 文本数据增强方法
Zhang et al. Complicating the social networks for better storytelling: An empirical study of Chinese historical text and novel
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN112529743B (zh) 合同要素抽取方法、装置、电子设备及介质
Hsu et al. An interpretable generative adversarial approach to classification of latent entity relations in unstructured sentences
CN114896396A (zh) 文本分类及模型训练方法、系统、设备及存储介质
Da et al. Converting the Vietnamese television news into 3D sign language animations for the deaf
WO2021223856A1 (en) Apparatuses and methods for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination