CN111339314A - 一种三元组数据的生成方法、装置和电子设备 - Google Patents

一种三元组数据的生成方法、装置和电子设备 Download PDF

Info

Publication number
CN111339314A
CN111339314A CN202010101249.7A CN202010101249A CN111339314A CN 111339314 A CN111339314 A CN 111339314A CN 202010101249 A CN202010101249 A CN 202010101249A CN 111339314 A CN111339314 A CN 111339314A
Authority
CN
China
Prior art keywords
entity
text
identifying
relation
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010101249.7A
Other languages
English (en)
Other versions
CN111339314B (zh
Inventor
黄昉
李双婕
史亚冰
蒋烨
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010101249.7A priority Critical patent/CN111339314B/zh
Publication of CN111339314A publication Critical patent/CN111339314A/zh
Application granted granted Critical
Publication of CN111339314B publication Critical patent/CN111339314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种三元组数据的生成方法、装置和电子设备,涉及知识图谱技术领域。具体实现方案为:一种三元组数据的生成方法,包括:获取文本;识别所述文本中的第一实体;将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。本申请实施例提供的一种三元组数据的生成方法、装置和电子设备,可以解决现有技术中存在的对三元组数据生成效果较差的问题。

Description

一种三元组数据的生成方法、装置和电子设备
技术领域
本申请涉及知识图谱技术领域,具体涉及一种三元组数据的生成方法、装置和电子设备。
背景技术
关系抽取是指从自然语言文本中抽取实体关系数据,也被称作SPO三元组数据,得到实体pair(主体S-客体O)与他们之间的关系(P)构成的三元组知识。
现有技术中,在对自然语言文本进行三元组数据生成时,通常是挖掘实体与实体之间的相关语义关系,从自然语义文本中抽取对应实体,以生成三元组数据,例如,针对文本“姚明(Yao Ming),1980年9月12日出生于上海市徐汇区”,采用常规的方法可以生成如下三元组数据(姚明,出生于,1980年9月12日)及(姚明,出生于,上海市徐汇区),然而,由于自然语言文本中的关系的表达可能较为模糊甚至存在歧义,例如,上述例子中的“出生于”既可表示出生日期,也可表示出生地点,从到导致针对同一种关系可能抽取出多种不同的三元组数据,可见,现有技术中存在对三元组数据生成效果较差的问题。
发明内容
本申请提供一种三元组数据的生成方法、装置和电子设备,以解决现有技术中存在的对三元组数据生成效果较差的问题。
第一方面,本申请提供一种三元组数据的生成方法,其特征在于,包括:
获取文本;
识别所述文本中的第一实体;
将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;
生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
这样,在识别到文本中的第一实体后,由关系分类模型按照目标预设关系在文本中识别与所述第一实体相对应的第二实体,以生成三元组数据,其中,由于所述三元组数据中的关系为目标预设关系,而目标预设关系可以准确的对实体之间的关系进行表达,从而避免了由于自然语言文本中的关系表达的歧义,而引起的对三元组数据生成效果差的问题。
可选地,所述目标预设关系包括至少两种预设关系,所述识别所述文本中与所述第一实体对应的第二实体,包括:
基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
该实施方式中,通过将目标预设关系设置为包括至少两种预设关系,如此,可以同时在文本中识别到与所述第一实体存在不同关系的不同第二实体,以生成不同的三元组数据,从而有利于提高三元组数据识别的效率,同时,进一步提高知识图谱的完备性。
可选地,所述识别所述文本中的第一实体,包括:
识别所述文本中的至少两个第一实体;
所述识别所述文本中与所述第一实体对应的第二实体,包括:
识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
该实施方式中,通过对文本中识别不同的实体作为第一实体,以生成不同的三元组数据,如此,可以针对同一文本中的同一关系识别出不同的三元组表达形式,以进一步丰富知识图谱中关系的表达形式,进而满足用户在检索时,针对同一检索对象,输入不同的检索条件,均可识别到相对准确的检索结果。
可选地,所述生成三元组数据,包括:
抽取所述文本中的所有实体对,所述实体对包括一个第一实体和一个与所述第一实体相对应的所述第二实体;
针对每组所述实体对对应生成一组所述三元组数据。
该实施方式中,通过根据上述实体识别结果,在文本中抽取出对应的实体对,并生成对应的三元组数据,以完成对三元组数据的抽取过程。
可选地,在所述获取文本之后,所述方法还包括:
将所述文本编码为向量形式,以生成文本向量;
所述识别所述文本中的第一实体,包括:
识别所述文本向量中的第一实体在所述文本向量中的位置信息;
所述将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,包括:
将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
该实施方式中,通过将文本转换成文本向量,并由对应的实体识别模型和关系分类模型分别对所述第一实体的位置信息和第二实体的位置信息进行识别,从而提供了一种对文本进行三元组数据抽取的具体实现方式。
可选地,所述第一实体和所述第二实体分别位于所述文本向量的不同位置。
该实施方式中,通过从文本向量中的不同位置抽取第一实体和第二实体,可以有效的避免所抽取的第一实体和第二实体为重叠实体的问题。
第二方面,本申请提供一种三元组数据的生成装置,包括:
获取模块,用于获取文本;
第一识别模块,用于识别所述文本中的第一实体;
第二识别模块,用于将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;
生成模块,用于生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
可选地,所述目标预设关系包括至少两种预设关系;
所述第二识别模块具体用于:基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
可选地,所述第一识别模块具体用于,识别所述文本中的至少两个第一实体;
第二识别模块具体用于,识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
可选地,所述生成模块,包括:
抽取子模块,用于抽取所述文本中的所有实体对,所述实体对包括一个第一实体和一个与所述第一实体相对应的所述第二实体;
生成子模块,用于针对每组所述实体对对应生成一组所述三元组数据。
可选地,所述装置还包括:
编码模块,用于将所述文本编码为向量形式,以生成文本向量;
所述第一识别模块具体用于,识别所述文本向量中的第一实体在所述文本向量中的位置信息;
所述第二识别模块具体用于,将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
可选地,所述第一实体和所述第二实体分别位于所述文本向量的不同位置。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的三元组数据的生成方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请提供的三元组数据的生成方法。
上述申请中的一个实施例具有如下优点或有益效果:在识别到文本中的第一实体后,由关系分类模型按照目标预设关系在文本中识别与所述第一实体相对应的第二实体,以生成三元组数据,其中,由于所述三元组数据中的关系为目标预设关系,而目标预设关系可以准确的对实体之间的关系进行表达,从而避免了由于自然语言文本中的关系表达的歧义,而引起的对三元组数据生成效果差的问题。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例中所提供的三元组数据的生成方法的流程图之一;
图2是本申请实施例中所提供的三元组数据的生成方法的流程图之二;
图3是本申请实施例中所提供的三元组数据的生成方法的流程图之三;
图4是本申请实施例中所提供的三元组数据的生成装置的结构示意图之一;
图5是本申请实施例中所提供的三元组数据的生成装置的结构示意图之二;
图6是用来实现本申请实施例的三元组数据的生成方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参见图1,图1是本申请提供的一种三元组数据的生成方法,包括:
步骤S101.获取文本。
其中,所述文本可以是从互联网上所获取的互联网文本,也可以是从本地数据库中所获取的本地文本,其中,所述文本的形式可以是携带有三元组数据的句子,或者包括多个句子的文字段落、文章等。例如:“梁朝伟是刘嘉玲的丈夫”、“姚明(Yao Ming),1980年9月12日出生于上海市徐汇区”等。
步骤S102.识别所述文本中的第一实体。
其中,所述第一实体可以是所述文本中具有特定含义的名词,例如,人名、地名、书名、职业名称、日期等。具体地,以上述例子为例,所述第一实体可以是:梁朝伟、刘嘉玲、姚明、1980年9月12日、上海市徐汇区中的一种或多种。
具体地,可以通过实体识别模型识别所述文本中的第一实体,所述实体识别模型可以是由深度学习模型训练得到。
步骤S103.将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体。
其中,可以预先对所述关系分类模型进行训练,使得其能够对实体之间的关系进行分类,具体地,通过训练使得关系分类模型学习各种实体之间的所述目标预设关系,当从文本中获取到第一实体时,关系分类模型可以通过目标预设关系确定所述文本中与第一实体存在所述目标预设关系的第二实体,例如,当所述文本为:“刘德华,1961年9月27日出生于中国香港,籍贯广东新会”,所述关系分类模型预先学习到如下目标预设关系:出生日期,当识别到第一实体为刘德华时,所述通过所述关系分类模型对所述文本进行识别,并得到如下识别结果:在所述出生日期关系下识别到的第二实体为:1961年9月27。
此外,可以搭建上述实体识别模型和关系分类模型的联合模型,并将所述实体识别模型的输出端与所述关系分类模型的输入的连接,如此,可以先将所述文本输入实体识别模型,由实体识别模型对所述文本中的实体进行识别,当所述实体识别模型识别到实体结果后,直接将所述实体识别结果和所述文本作为输入关系分类模型,由所述关系分类模型按照目标预设关系,识别与所述第一实体相对应的第二实体,从而实现对文本中实体之间的关系的识别,进而方便后续根据识别结果抽取具有关系的实体,以生成三元组数据。
上述实体识别模型和关系分类模型均可由膨胀门卷积神经网络模型(DilateGated Convolutional Neural Network,DGCNN)进行训练得到。
步骤S104.生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
其中,由于上述步骤S103在目标预设关系下识别到了与第一实体存在所述目标预设关系的第二实体,从而可以根据识别结果在所述文本中抽取对应的三元组数据,其中,三元组数据的输出形式可以为:(第一实体,目标预设关系,第二实体),第一实体与所述第二实体之间存在所述目标预设关系,例如,根据上述步骤识别到:第一实体为:刘德华,所述目标预设关系为:出生日期,第二实体为:1961年9月27的情况下,则可在所述文本“刘德华,1961年9月27日出生于中国香港,籍贯广东新会”中抽取出如下三元组数据:(刘德华,出生日期,1961年9月27)。
具体地,通过上述方法,可以在海量的互联网文本中挖掘出大量高质量的实体关系数据,所抽取出实体关系数据可以用于构建知识图谱,该知识图谱可以作为浏览器的数据库的组成部分,以满足用户对关联实体的检索需求,从而有效的提高了用户检索和浏览实体的效率,提升用户体验,典型的产品应用有实体问答、实体推荐等。
本申请实施例所提供的三元组数据的生成方法,在识别到文本中的第一实体后,由关系分类模型按照目标预设关系在文本中识别与所述第一实体相对应的第二实体,以生成三元组数据,其中,由于所述三元组数据中的关系为目标预设关系,而目标预设关系可以准确的对实体之间的关系进行表达,从而避免了由于自然语言文本中的关系表达的歧义,而引起的对三元组数据生成效果差的问题。
可选地,所述目标预设关系包括至少为两种预设关系,所述识别所述文本中与所述第一实体对应的第二实体,包括:
基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
其中,所述目标预设关系可以包括至少两种预设关系,此时,所述三元组数据可以包括:所述第一实体、所述预设关系和所述第二实体,所述三元组数据的输出形式可以为:(第一实体,预设关系,第二实体),其中,第一实体与第二实体之间存在所述预设关系。如此,在所述关系分类模型对所述文本进行关系识别时,可以同时在文本中识别到与所述第一实体存在不同关系的不同第二实体,以生成不同的三元组数据,从而有利于提高三元组数据识别的效率,同时,进一步提高知识图谱的完备性。
例如,针对上述文本“刘德华,1961年9月27日出生于中国香港,籍贯广东新会”,所述关系分类模型预先学习到如下预设关系:出生日期、出生地址、籍贯、妻子、作品,当识别到第一实体为刘德华时,所述通过所述关系分类模型对所述文本进行识别,并得到如下识别结果:在所述出生日期关系下识别到的第二实体为:1961年9月27;在所述出生地址关系下识别到的第二实体为:中国香港;在所述籍贯关系下识别到的第二实体为:广东新会;在所述妻子关系下和作品关系下无法识别到相应的第二实体。进而可以输出如下三元组数据:(刘德华,出生日期,1961年9月27)、(刘德华,出生地址,中国香港)、(刘德华,籍贯,广东新会),由于所述妻子关系下和作品关系下无法识别到相应的第二实体,故而无需在该两种关系下生成对应的三元组数据。
上述预设关系可以包括各种人与人之间的关系、人与物之间的关系、物与物之间的关系、人与职业之间的关系等等一些常见的关系,例如:丈夫、妻子、父亲、母亲、导演、作者、同类等,通过预先对关系分类模型进行训练,得到关系分类模型可以识别出实体之间的各种关系。
可选地,所述识别所述文本中的第一实体,包括:
识别所述文本中的至少两个第一实体;
所述识别所述文本中与所述第一实体对应的第二实体,包括:
识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
具体地,由于同一关系的表达可以存在多种三元组数据的表达形式,例如,针对文本“梁朝伟是刘嘉玲的丈夫”既可以表达为梁朝伟是刘嘉玲的丈夫,也可以表达为刘嘉玲的丈夫是梁朝伟,如此,当所述第一实体为梁朝伟时,所述三元组数据可以为(梁朝伟,丈夫,刘嘉玲);当所述第一实体为刘嘉玲时,所述三元组数据可以为(刘嘉玲,丈夫,梁朝伟);因此,在识别三元组数据时,可以将所述文本中的所有实体分别作为实体,并识别对应的第二实体,进而分别生成对应的三元组数据,如此,可以针对同一文本中的同一关系识别出不同的三元组表达形式,以进一步丰富知识图谱中关系的表达形式,进而满足用户在检索时,针对同一检索对象,输入不同的检索条件,均可识别到相对准确的检索结果。
请参见图2,为了进一步对上述三元组数据的生成方法进行解释说明,下文提供了一种上述三元组数据的生成方法的具体实现步骤,包括:
步骤S201、获取文本。
本步骤与上述实施例中的步骤S101的实现步骤相同,且能达到相同的技术效果,为避免重复,在此不再赘述。
步骤S202、将所述文本编码为向量形式,以生成文本向量。
其中,由于实体识别模型和关系分类模型通常只能识别向量形式的数据,而无法直接对文本中的文字进行识别,因此,实体识别模型和关系分类模型可以先将文本转换为其能够识别的向量文本,从而方便关系实体识别模型和关系分类模型对所述文本中的信息进行识别。
具体地,请参见图3,下文以所述实体识别模型对所述文本中的识别过程为例,对所述实体识别模型的具体识别过程进行进一步说明,在获取到文本后,先对所述文本中的文字进行序列标注,例如可以案子句子的顺序,对每个文字逐一标注顺序,以得到句子的词序列,然后通过实体识别模型的emie层将每个序列字翻译成字向量,以得到句向量层(Sentence embedding),该句向量层即为所述文本向量。
步骤S203、识别所述文本向量中的第一实体在所述文本向量中的位置信息。
其中,识别模型可以识别所述文本向量中的第一实体在所述文本向量的位置信息,以位置信息的形式表示所述第一实体,具体地,当所述实体识别模型为DGCNN模型时,在接收到上述Sentence embedding的文本向量数据后,通过average-pooling将文本向量转换为定长向量表示,然后利用CRF算法(conditional random field algorithm,条件随机场算法)对所述第一实体的位置信息进行抽取。以获得第一实体的位置信息。
步骤S204、将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
具体地,所述关系分类模型与所述实体识别模型的处理过程类似,其区别在于,在所述关系分类模型的输入端除了输入序列文本外,还输入所述第一实体的位置信息,由所述关系分类模型识别与所述第一实体相对应的第二实体在文本向量中的位置信息,此外,所述关系分类模型在识别所述第二实体的位置信息时,可以通过指针的形式存储所述第二实体在所述文本向量中的起始位置和终止位置,从而完成对第二实体的位置的识别,输出识别结果Dense。
步骤S205、分别根据所述第一实体的位置信息和所述第二实体的位置信息,在所述文本向量中抽取所述实体对中的所述第一实体和所述第二实体,生成三元组数据。
具体地,在具体生成三元组数据时,通过上述步骤所识别到的第一实体的位置信息和第二实体的位置信息即可从文本中抽取出对应的第一实体和第二实体。
例如,请参见图3,输入的文本为梁朝伟是刘嘉玲丈夫,对该文本的过程依次为:对按照句子顺序对所述文本中的每个文字进行序列标注,以得到词序列,然后由所述实体识别模型对所述词序列中的实体进行识别,其中,当所述实体识别模型识别到的第一实体为梁朝伟时,可以输出如下识别结果[1,1,1,0,0,0,0,0,0],当所述实体识别模型识别到的第一实体为刘嘉玲时,可以输出如下识别结果[0,0,0,0,1,1,1,0,0]其中,通过将第一实体所在位置的值置1,以便于标识所述第一实体的位置。然后由所述关系分类模型在置0的位置识别与所述第一实体相对应的第二实体的位置信息,如此,可以避免在关系分类模型在识别第二实体时,识别到第一实体,并将第一实体本身作为与第一实体相对应的实体。即通过此种标注方式可以实现从文本向量中的不同位置识别所述第一实体和第二实体。具体地,由图3可知,当第一实体为梁朝伟时,关系分类模型识别到的第二实体为刘嘉玲,当第一实体为刘嘉玲时,关系分类模型识别到的第二实体为梁朝伟。
此外,通过以位置标注的形式对第一实体进行标注,以便于关系分类模型根据第一实体和第二实体位于文本中的位置,根据常规的语序,确定第一实体和第二实体在文本中是为主体还是客体。从而进一步提高对三元组数据抽取的准确性。
请参见图4,图4是本申请实施例提供的一种三元组数据的生成装置400,包括:
获取模块401,用于获取文本;
第一识别模块402,用于识别所述文本中的第一实体;
第二识别模块403,用于将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;
生成模块404,用于生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
可选地,所述目标预设关系包括至少为两种预设关系;
所述第二识别模块403具体用于:基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
可选地,所述第一识别模块402具体用于:识别所述文本中的至少两个第一实体;
所述第二识别模块403具体用于:识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
可选地,所述生成模块404包括:
抽取子模块,用于抽取所述文本中的所有实体对,所述实体对包括一个第一实体和一个与所述第一实体相对应的所述第二实体;
生成子模块,用于针对每组所述实体对对应生成一组所述三元组数据。
可选地,请参见图5,所述三元组数据的生成装置400还包括:
编码模块405,用于将所述文本编码为向量形式,以生成文本向量;
所述识别模块402具体用于,识别所述文本向量中的第一实体在所述文本向量中的位置信息;
所述第二识别模块403具体还用于:将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
可选地,所述第一实体和所述第二实体分别位于所述文本向量的不同位置。
本实施例提供的装置能够实现图1至图3所示的方法实施例中实现的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的三元组数据的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的三元组数据的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的三元组数据的生成方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的三元组数据的生成方法对应的程序指令/模块(例如,附图4所示的获取模块401、识别模块402、确定模块403和生成模块404)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的三元组数据的生成方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据三元组数据的生成方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至三元组数据的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
三元组数据的生成方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与三元组数据的生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在识别到文本中的第一实体后,由关系分类模型按照目标预设关系在文本中识别与所述第一实体相对应的第二实体,以生成三元组数据,其中,由于所述三元组数据中的关系为目标预设关系,而目标预设关系可以准确的对实体之间的关系进行表达,从而避免了由于自然语言文本中的关系表达的歧义,而引起的对三元组数据生成效果差的问题。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种三元组数据的生成方法,其特征在于,包括:
获取文本;
识别所述文本中的第一实体;
将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;
生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
2.根据权利要求1所述的方法,其特征在于,所述目标预设关系包括至少两种预设关系,所述识别所述文本中与所述第一实体对应的第二实体,包括:
基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
3.根据权利要求1所述的方法,其特征在于,所述识别所述文本中的第一实体,包括:
识别所述文本中的至少两个第一实体;
所述识别所述文本中与所述第一实体对应的第二实体,包括:
识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
4.根据权利要求2或3所述的方法,其特征在于,所述生成三元组数据,包括:
抽取所述文本中的所有实体对,所述实体对包括一个第一实体和一个与所述第一实体相对应的所述第二实体;
针对每组所述实体对对应生成一组所述三元组数据。
5.根据权利要求1所述的方法,其特征在于,在所述获取文本之后,所述方法还包括:
将所述文本编码为向量形式,以生成文本向量;
所述识别所述文本中的第一实体,包括:
识别所述文本向量中的第一实体在所述文本向量中的位置信息;
所述将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,包括:
将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
6.根据权利要求5所述的方法,其特征在于,所述第一实体和所述第二实体分别位于所述文本向量的不同位置。
7.一种三元组数据的生成装置,其特征在于,包括:
获取模块,用于获取文本;
第一识别模块,用于识别所述文本中的第一实体;
第二识别模块,用于将所述文本输入关系分类模型,识别所述文本中与所述第一实体对应的第二实体,其中,所述第二实体为:所述关系分类模型基于目标预设关系确定的实体;
生成模块,用于生成三元组数据,其中,所述三元组数据包括所述第一实体、所述目标预设关系和所述第二实体。
8.根据权利要求7所述的装置,其特征在于,所述目标预设关系包括至少两种预设关系;
所述第二识别模块具体用于:基于所述至少两种预设关系,识别所述文本中与所述第一实体相对应的至少一个所述第二实体,其中,所述至少一个所述第二实体中,不同所述第二实体由所述关系分类模型按照不同的所述预设关系在所述文本中识别得到。
9.根据权利要求7所述的装置,其特征在于,所述第一识别模块具体用于,识别所述文本中的至少两个第一实体;
所述第二识别模块具体用于,识别所述文本中与所述至少两个第一实体中每个所述第一实体相对应的第二实体。
10.根据权利要求8或9所述的装置,其特征在于,所述生成模块,包括:
抽取子模块,用于抽取所述文本中的所有实体对,所述实体对包括一个第一实体和一个与所述第一实体相对应的所述第二实体;
生成子模块,用于针对每组所述实体对对应生成一组所述三元组数据。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
编码模块,用于将所述文本编码为向量形式,以生成文本向量;
所述第一识别模块具体用于,识别所述文本向量中的第一实体在所述文本向量中的位置信息;
所述第二识别模块具体用于,将所述文本向量和所述第一实体的位置信息输入关系分类模型,确定与所述第一实体对应的目标位置信息,其中,所述目标位置信息为:所述关系分类模型按照目标预设关系确定的位置信息,且所述第二实体为所述目标位置信息指示的所述文本中的实体。
12.根据权利要求11所述的方法,其特征在于,所述第一实体和所述第二实体分别位于所述文本向量的不同位置。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202010101249.7A 2020-02-19 2020-02-19 一种三元组数据的生成方法、装置和电子设备 Active CN111339314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010101249.7A CN111339314B (zh) 2020-02-19 2020-02-19 一种三元组数据的生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010101249.7A CN111339314B (zh) 2020-02-19 2020-02-19 一种三元组数据的生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111339314A true CN111339314A (zh) 2020-06-26
CN111339314B CN111339314B (zh) 2024-02-13

Family

ID=71181642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010101249.7A Active CN111339314B (zh) 2020-02-19 2020-02-19 一种三元组数据的生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111339314B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112530533A (zh) * 2020-11-30 2021-03-19 北京百度网讯科技有限公司 病历文档检测方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN109145123A (zh) * 2018-09-30 2019-01-04 国信优易数据有限公司 知识图谱模型的构建方法、智能交互方法、系统及电子设备
US20190065576A1 (en) * 2017-08-23 2019-02-28 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110442725A (zh) * 2019-08-14 2019-11-12 科大讯飞股份有限公司 实体关系抽取方法及装置
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
US20190065576A1 (en) * 2017-08-23 2019-02-28 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN109145123A (zh) * 2018-09-30 2019-01-04 国信优易数据有限公司 知识图谱模型的构建方法、智能交互方法、系统及电子设备
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110442725A (zh) * 2019-08-14 2019-11-12 科大讯飞股份有限公司 实体关系抽取方法及装置
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BINLING NIE, SHOUQIAN SUN: "Knowledge graph embedding via reasoning over entities, relations, and text", 《ELSEVIER》 *
周亚林: "一种基于深度学习的实体关系抽取方法及应用", 《中国优秀硕士论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112463960B (zh) * 2020-10-30 2021-07-27 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112530533A (zh) * 2020-11-30 2021-03-19 北京百度网讯科技有限公司 病历文档检测方法、装置及电子设备
CN112530533B (zh) * 2020-11-30 2024-04-02 北京百度网讯科技有限公司 病历文档检测方法、装置及电子设备

Also Published As

Publication number Publication date
CN111339314B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111709248B (zh) 文本生成模型的训练方法、装置及电子设备
CN110955764B (zh) 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
CN111967268A (zh) 文本中的事件抽取方法、装置、电子设备和存储介质
CN112487814B (zh) 实体分类模型训练方法、实体分类方法、装置及电子设备
CN111241819B (zh) 词向量生成方法、装置及电子设备
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110797005B (zh) 韵律预测方法、装置、设备和介质
CN111325020A (zh) 一种事件论元抽取方法、装置以及电子设备
CN112001169B (zh) 文本纠错的方法、装置、电子设备和可读存储介质
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
US20210312230A1 (en) Information Extraction Method, Extraction Model Training Method, Apparatus and Electronic Device
US20220067439A1 (en) Entity linking method, electronic device and storage medium
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN111950292A (zh) 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN112153206B (zh) 一种联系人匹配方法、装置、电子设备及存储介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN111274407A (zh) 知识图谱中三元组置信度计算方法和装置
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN111339314B (zh) 一种三元组数据的生成方法、装置和电子设备
CN111738015A (zh) 文章情感极性分析方法、装置、电子设备及存储介质
CN110728156A (zh) 翻译方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant