CN114764443A - 一种数据处理方法、装置、设备及介质 - Google Patents

一种数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN114764443A
CN114764443A CN202110053681.8A CN202110053681A CN114764443A CN 114764443 A CN114764443 A CN 114764443A CN 202110053681 A CN202110053681 A CN 202110053681A CN 114764443 A CN114764443 A CN 114764443A
Authority
CN
China
Prior art keywords
vector
knowledge record
entity
attribute
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110053681.8A
Other languages
English (en)
Inventor
蒋卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN202110053681.8A priority Critical patent/CN114764443A/zh
Publication of CN114764443A publication Critical patent/CN114764443A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、设备及介质。由于预先训练有实体链接模型,当确定待处理的文本数据中包含的目标实体后,获取每个目标实体对应的各条知识记录、以及该知识记录对应的目标类型。针对每条知识记录,通过该预先训练完成的实体链接模型,直接基于该文本数据、知识记录、以及该知识记录对应的目标类型,即可确定该知识记录是否与该文本数据中包含的目标实体匹配,从而实现实体链接,简化了实体链接过程,提高了确定知识记录是否与该文本数据中包含的目标实体匹配的效率,且通过该实体链接模型可以对任一实体对应的知识记录进行识别,确定该知识记录是否与该文本数据中包含的目标实体匹配,提高了实体链接的灵活性和泛化能力。

Description

一种数据处理方法、装置、设备及介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
实体链接技术是知识图谱的核心技术之一,旨在对一段语句中的某个字符串映射到知识图谱中对应的知识记录所描述的实体。在很多时候,存在同名异实体或者同实体异名的现象,因此这个映射过程需要进行消歧,比如,输入的语句是“刘德华与2020年在北京开演唱会”,这句话中的“刘德华”应该是指歌手刘德华,而不是教师刘德华。
目前,一般是利用知识图谱中的图结构实现实体链接的。具体的,将知识图谱中的每个实体确定为一个顶点(vertex),存在关联关系的两个实体之间的连线(edge)表示该两个实体之间的关联关系。比如,将知识图谱中的实体“刘德华”与实体“朱丽倩”均确定为顶点,该两个顶点之间的连线表示两个实体之间的关联关系,实体“刘德华”与实体“朱丽倩”之间的关联关系为“配偶”。根据存在关联关系的两个实体、以及该关联关系,确定三元组信息。根据三元组信息,进行建模(knowledge graph embedding)。后续根据建模后得到的实体向量以及知识图谱中保存的该实体向量所对应的每个实体的知识记录,实现将知识记录与文本数据中包含的目标实体进行实体链接。对于该种方法,需要预先建立大量的实体向量,才能实现后续的实体链接,该实体链接的过程非常的繁琐复杂,当输入的语句中的某一关键词对应知识图谱中的某一新建立的实体,且还未建立关于该实体对应的实体向量时,则无法进行实体链接。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备及介质,用于解决现有无法实体链接的过程非常的繁琐复杂,且无法对知识图谱中的任一知识记录进行实体链接的问题。
本发明实施例提供了一种数据处理方法,所述方法包括:
确定待处理的文本数据中包含的目标实体;
获取所述目标实体对应的各条知识记录、以及所述知识记录对应的目标类型,所述知识记录包括所述目标实体对应的至少一个属性信息;
针对所述每条知识记录,通过预先训练完成的实体链接模型,基于所述文本数据、所述知识记录、以及所述知识记录对应的目标类型,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
本发明实施例提供了一种数据处理装置,所述装置包括:
确定单元,用于确定待处理的文本数据中包含的目标实体;
获取单元,用于获取所述目标实体对应的各条知识记录、以及所述知识记录对应的目标类型,所述知识记录包括所述目标实体对应的至少一个属性信息;
处理单元,用于针对所述每条知识记录,通过预先训练完成的实体链接模型,基于所述文本数据、所述知识记录、以及所述知识记录对应的目标类型,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
本发明实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述数据处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述数据处理方法的步骤。
由于本发明实施例中预先训练有实体链接模型,后续在实体链接过程中,当确定待处理的文本数据中包含的目标实体后,获取每个目标实体对应的各条知识记录、以及该知识记录对应的目标类型。针对每条知识记录,通过该预先训练完成的实体链接模型,直接基于该文本数据、知识记录、以及该知识记录对应的目标类型,即可确定该知识记录是否与该文本数据中包含的目标实体匹配,从而实现实体链接,简化了实体链接过程,提高了确定知识记录是否与该文本数据中包含的目标实体匹配的效率,且通过该实体链接模型可以对任一实体对应的知识记录进行识别,确定该知识记录是否与该文本数据中包含的目标实体匹配,提高了实体链接的灵活性和泛化能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理过程示意图:
图2为本发明实施例提供的一种实体链接模型的网络结构示意图;
图3为本发明实施例提供的具体的数据处理方法的流程示意图;
图4为本发明实施例提供的一种实体链接模型的结构示意图;
图5为本发明实施例提供的一种数据处理装置的结构示意图;
图6为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了简化实体链接的过程,提供实体链接的效率、灵活性、以及泛化能力,本发明实施例提供了一种数据处理方法、装置、设备及介质。
实施例1:图1为本发明实施例提供的一种数据处理过程示意图,该过程包括:
S101:确定待处理的文本数据中包含的目标实体。
本发明实施例提供的数据处理方法应用于电子设备,该电子设备可以是如机器人等智能设备,也可以是服务器。
在实际应用场景中,当用户需要查询某一信息时,可以向智能设备输入查询信息。该查询信息可以是输入的查询问句,比如,“A的妻子是谁呀?”,也可以一段描述语句,比如,“A是世界品牌C的代言人”。其中,用户输入查询信息的方式有很多,可以是通过语音方式输入,也可以通过在智能设备的显示屏上输入文本形式的查询信息,当然还可以是输入图片形式的查询信息。具体实施过程中可以根据实际需求进行灵活设置,在此不作具体限定。基于获取到的查询信息对应的文本数据,即待处理的文本数据,进行相应的处理,从而获取到该查询信息所对应的回复信息并发送至智能设备,以使智能设备输出回复信息。其中,该进行数据处理的电子设备可以是采集用户输入的查询信息的智能设备,也可以是其他智能设备或服务器。
其中,若用户输入的是语音形式的查询信息,则获取该查询信息对应的文本数据是通过对该查询信息进行语音识别,根据获取到的语音识别结果所确定的;若用户输入的是文本形式的查询信息,则可以直接将该查询信息确定为该查询信息对应的文本数据;若用户输入的是图片形式的查询信息,则可以通过对该查询信息进行内容识别,根据获取到的内容识别结果所确定的。
在本发明实施例中,可以通过规则匹配的方法确定文本数据中包含的目标实体,即根据预先配置的每个实体以及该文本数据,将与该文本数据匹配的每个实体确定为目标实体;也可以通过实体识别模型方法确定文本数据中包含的目标实体,即通过预先训练完成的实体识别模型,确定该文本数据中包含的目标实体。具体实施过程中,可以根据需求灵活设置,在此不作具体限定。
S102:获取目标实体对应的各条知识记录、以及知识记录对应的目标类型,知识记录包括目标实体对应的至少一个属性信息。
基于上述实施例中的方式,确定了文本数据中包含的每个目标实体之后,从预先保存的知识记录中,获取该目标实体对应的知识记录、以及该知识记录所对应的目标类型。其中,该目标实体对应的知识记录可以是一条,也可以是多条;每条知识记录中包括该目标实体对应的至少一个属性信息。
在一种可能的实施方式中,预先配置有知识图谱,该知识图谱中配置有各实体对应的至少一条知识记录,以及每条知识记录对应的知识类型。通过检索预先配置的知识图谱,即可确定该知识图谱中所保存的目标实体对应的各条知识记录、以及每条知识记录分别对应的目标类型。
其中,通过保存的知识记录以及知识记录对应的知识类型,可以方便区分知识图谱中相同名称的不同实体,比如,目标实体“苹果”对应的知识记录包括有红富士、蛇果,该目标实体“苹果”对应的目标类型为水果,目标实体“苹果”对应的知识记录包括有手机、电脑,该目标实体“苹果”对应的目标类型为电子产品的品牌。
在另一种可能的实施方式中,可以通过预先配置的实体与知识记录的对应关系,确定目标实体对应的每条知识记录。然后根据知识记录与知识类型的对应关系,确定目标实体对应的各条知识记录分别对应的目标类型。
S103:针对每条知识记录,通过预先训练完成的实体链接模型,基于文本数据、知识记录、以及知识记录对应的目标类型,确定知识记录是否与文本数据中包含的目标实体匹配。
在本发明实施例中,为了准确地进行实体链接,预先训练有实体链接模型。当基于上述实施例获取到文本数据、目标实体对应的每条知识记录、以及每条知识记录分别对应的目标类型之后,针对每条知识记录,将文本数据、该知识记录、以及目标类型输入到该预先训练完成的实体链接模型中进行处理。通过该预先训练完成的实体链接模型,基于文本数据、该知识记录、以及目标类型,输出识别结果,根据该识别结果,即可确定该知识记录是否与该文本数据中包含的目标实体匹配。
在一种可能的实施方式中,实体链接模型输出的识别结果可以是该知识记录是否与该文本数据中包含的目标实体匹配的概率值,具体的,当基于上述实施例通过该预先训练完成的实体链接模型,基于文本数据、该知识记录、以及目标类型,输出该知识记录与该文本数据中包含的目标实体匹配的概率值之后,将该概率值与预先配置的概率阈值进行比较。根据比较结果,确定该知识记录是否与该文本数据中包含的目标实体匹配。具体的,若该概率值大于预先配置的概率阈值,则确定该知识记录与该文本数据中包含的目标实体匹配;若该概率值不大于预先配置的概率阈值,则该知识记录与该文本数据中包含的目标实体不匹配。
在另一种可能的实施方式中,实体链接模型输出的识别结果可以是该知识记录是否与该文本数据中包含的目标实体匹配的标识值,根据输出的标识值,确定该知识记录是否与该文本数据中包含的目标实体匹配。具体的,若该标识值为预先配置的第一标识值,则确定该知识记录与该文本数据中包含的目标实体匹配;若该标识值为预先配置的第二标识值,则确定该知识记录与该文本数据中包含的目标实体不匹配。其中,第一标识值用于标识该知识记录与该文本数据中包含的目标实体匹配,比如,“1”,第二标识值用于标识该知识记录与该文本数据中包含的目标实体不匹配,比如,“0”。
由于本发明实施例中预先训练有实体链接模型,后续在实体链接过程中,当确定待处理的文本数据中包含的目标实体后,获取每个目标实体对应的各条知识记录、以及该知识记录对应的目标类型。针对每条知识记录,通过该预先训练完成的实体链接模型,直接基于该文本数据、知识记录、以及该知识记录对应的目标类型,即可确定该知识记录是否与该文本数据中包含的目标实体匹配,从而实现实体链接,简化了实体链接过程,提高了确定知识记录是否与该文本数据中包含的目标实体匹配的效率,且通过该实体链接模型可以对任一实体对应的知识记录进行识别,确定该知识记录是否与该文本数据中包含的目标实体匹配,提高了实体链接的灵活性和泛化能力。
实施例2:为了简化实体链接的过程,提供实体链接的效率、灵活性、以及泛化能力,在上述实施例的基础上,在本发明实施例中,通过预先训练完成的实体链接模型,基于文本数据、知识记录、以及知识记录对应的目标类型,确定知识记录是否与文本数据中包含的目标实体匹配,包括:
通过实体链接模型中的编码网络,分别确定文本数据对应的文本向量、知识记录对应的属性向量、以及目标类型对应的类别向量;以及
通过实体链接模型中的解码网络,基于文本向量、属性向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配。
为了简化实体链接的过程,提供实体链接的效率、灵活性、以及泛化能力,在本发明实施例中,预先训练有实体链接模型。该实体链接模型中主要包括编码网络和解码网络,该编码网路与该解码网络连接。通过该编码网路可以对输入到模型中的数据进行相应的处理,提取输入数据的特征,通过解码网络可以对编码网络输出的数据进行相应的解码,从而使得能够根据模型的输出结果确定该知识记录是否与该文本数据中包含的目标实体匹配。
具体实施过程中,当基于上述实施例获取到待处理的文本数据、目标实体对应的知识记录、以及目标类型之后,将获取到的文本数据、知识记录以及目标类型输入到实体链接模型。通过实体链接模型中的编码网络,对输入的文本数据、知识记录以及目标类型分别进行相应的计算,分别确定文本数据对应的文本向量、知识记录对应的属性向量、以及目标类型对应的类别向量。
实体链接模型中的解码网络可以对编码网络输出的文本向量、属性向量以及类别向量进行相应的处理,输出该知识记录是否与该文本数据中包含的目标实体匹配的结果。
在一种可能的实施方式中,通过实体链接模型中的编码网络,分别确定文本数据对应的文本向量、知识记录对应的属性向量、以及目标类型对应的类别向量,包括:
通过编码网络中的字符层,分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量;以及
通过编码网络中的编码层,分别确定第一编码向量对应的文本向量、以及第二编码向量对应的属性向量。
为了简化实体链接的过程,提供实体链接的效率、灵活性、以及泛化能力,在本发明实施例中,实体链接模型中的编码网络包括有字符层和编码层。
当获取到待处理的文本数据、目标实体对应的知识记录、以及目标类型之后,先通过该实体链接模型中的字符层,将该文本数据、知识记录、以及目标类型中分别包含的每个字符进行量化,确定每个字符对应的字符向量,进而根据文本数据中包含的每个字符对应的字符向量,确定该文本数据对应的第一编码向量,根据该知识记录中包含的每个字符对应的字符向量,确定该知识记录对应的第二编码向量,以及根据目标类型中包含的每个字符对应的字符向量,确定目标类型对应的类别向量。
其中,任一目标实体对应的知识记录中包含有该目标实体的至少一个属性信息,该属性信息包括属性名以及属性名对应的属性值。
在一种可能的实施方式中,通过编码网络中的字符层,确定知识记录对应的第二编码向量,包括:
在字符层中,分别确定知识记录的每个属性信息包含的属性名分别对应的属性名编码向量、属性信息包含的属性值对应的属性值编码向量。
在本发明实施例中,若属性信息中包括属性名和属性值,则为了区分属性信息中属性名对应的编码向量(为了方便说明,记为属性名编码向量)、以及属性信息中属性值对应的编码向量(为了方便说明,记为属性值编码向量),在将文本数据、知识记录以及目标类型输入到实体链接模型中后,即将文本数据、目标实体对应的至少一个属性信息以及目标类型输入到实体链接模型中后,通过该实体链接模型中的字符层,分别确定文本数据对应的第一编码向量、知识记录的每个属性信息包含的属性名分别对应的属性名编码向量、知识记录的每个属性信息包含的属性值分别对应的属性值编码向量、以及知识记录对应的目标类型对应的类别向量。
其中,可以在该字符层中保存编码矩阵,以通过编码矩阵,分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量,也可以通过将现有字符转换模型中的网络层配置在该字符层中,比如,Bert模型等,从而实现分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量。
在一种可能的实施方式中,通过编码网络中的字符层,分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量,包括:
在字符层中,通过第一编码矩阵,分别确定文本数据对应的第一编码向量、以及知识记录对应的第二编码向量;以及通过第二编码矩阵,确定目标类型对应的类别向量。
在实际应用场景中,与文本数据、知识记录不同的是,每个知识记录所对应的知识类型一般是根据自身需求进行设置的,在相同的知识记录的情况下,由于需求的改变,使得该知识记录对应的知识类型也会发生变化。比如,在某些场景下,某一实体“苹果”对应的类型为水果,而在另一场景下某一实体“苹果”对应的类型为电子产品的品牌。因此,在本发明实施例中,在实体链接模型中的字符层配置有用于分别确定文本数据以及知识记录对应的编码向量的编码矩阵(为了方便说明,记为第一编码矩阵),比如,字级别的编码矩阵、词级别的编码矩阵,并根据当前设置的每个知识记录所能够对应的类型,在该字符向量中还配置有用于确定目标类型对应的类别向量的编码矩阵(为了方便描述,记为第二编码矩阵)比如,类别编码矩阵。其中,第一编码矩阵与第二编码矩阵不同。
需要说明的是,通过同一编码矩阵所确定的编码向量的维数相等,比如,通过第一编码矩阵,分别确定的文本数据对应的第一编码向量以及知识记录对应的第二编码向量的维数相同。而不同编码矩阵所确定的编码向量的维数可以相等也可以不相等,比如第一编码向量可以与类别向量的维数相等也可以不相等。具体实施过程中可以根据实际需求进行灵活设置。
在具体实施过程中,在字符层中,通过第一编码矩阵,分别确定文本数据对应的第一编码向量、知识记录的每个属性信息包含的属性名分别对应的属性名编码向量、以及知识记录的每个属性信息包含的属性值分别对应的属性值编码向量;并通过第二编码矩阵,确定目标类型对应的类别向量。
基于上述实施例中的方法,实体链接模型中的字符层获取到第一编码向量以及第二编码向量后,便将第一编码向量以及第二编码向量输出至实体链接模型中的编码层。通过该编码层,分别确定第一编码向量对应的文本向量、及第二编码向量对应的属性编码向量。
在一种可能的实施方式中,通过编码网络中的编码层,确定第二编码向量对应的属性向量,包括:
在编码层中,分别确定每个属性名编码向量分别对应的属性名向量、以及每个属性值编码向量分别对应的属性值向量。
由于属性信息中包括属性名和属性值,则基于上述实施例获取到的第二编码向量中包括属性名编码向量、以及属性值编码向量。通过实体链接模型中的字符层将获取到第一编码向量、属性名编码向量以及属性值编码向量输出至实体链接模型中的编码层。通过该编码层,分别对第一编码向量、属性名编码向量以及属性值编码向量进行相应的处理,确定第一编码向量对应的文本向量、每个属性名编码向量分别对应的属性名向量、以及每个属性值编码向量分别对应的属性值向量。
在本发明实施例中,为了获取到文本向量、每个属性值向量以及每个属性名向量,在实体链接模型中的编码层中保存有编码器,比如,长短期记忆网络(LSTM,Long Short-Term Memory)、循环神经网络(Recurrent Neural Network,RNN)以及门控循环单元(GatedRecurrent Unit,GRU)。通过实体链接模型中的编码层中保存的编码器,分别确定第一编码向量对应的文本向量、每个属性名编码向量分别对应的属性名向量、以及每个属性值编码向量分别对应的属性值向量。
在一种可能的实施方式中,通过编码网络中的编码层,分别确定第一编码向量对应的文本向量、以及第二编码向量对应的属性向量,包括:
在编码层中,通过第一编码器,分别确定第一编码向量对应的文本向量、以及每个属性值编码向量分别对应的属性值向量,以及通过第二编码器,确定每个属性名编码向量分别对应的属性名向量。
由于文本数据和属性值中一般包含有较多的字符,而属性名中包含的字符较少,因此,在本发明实施例中,在实体链接模型的编码层中保存有第一编码器和第二编码器。其中,第一编码器用于对包含有较多的字符的数据进行计算的编码器,第二编码器用于对包含有较少的字符的数据进行计算的编码器。具体实施过程中,在该编码层中,通过第一编码器,分别确定第一编码向量对应的文本向量,以及每个属性值编码向量分别对应的属性值向量,并通过第二编码器,确定每个属性名编码向量分别对应的属性名向量。
需要说明的是,通过同一编码器所确定的向量(包括文本向量、属性名向量、以及属性值向量)的维数相等,比如,通过第一编码器,分别确定的第一编码向量对应的文本向量、以及每个属性值编码向量分别对应的属性值向量的维数相等。而不同编码器所确定的向量的维数可以相等也可以不相等,比如属性名向量可以与属性值向量的维数相等也可以不相等。具体实施过程中可以根据实际需求进行灵活设置。
在一种可能的实施方式中,该方法还包括:通过编码网络中的编码层,对类别向量进行归一化处理;以及将归一化处理后的类别向量输入至解码网络。
为了避免发生过度拟合,实体链接模型中的字符层还会将获取到的类别向量输出至实体链接模型中的编码层。通过该编码层对该类别向量进行归一化处理,以减小类别向量所包含的每个元素的元素值的大小。具体的,通过实体链接模型中的编码层,对类别向量所包含的每个元素的元素值的大小进行归一化处理,比如,线性函数归一化处理、0均值标准化等。实体链接模型中的编码层获取到归一化处理后的类别向量后,将归一化处理后的类别向量输出给实体链接模型中的下一网络层,即输出至解码网络。
在一种可能实施方式中,通过实体链接模型中的解码网络,基于文本向量、属性向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配,包括:
通过解码网络中的第一处理层,基于每个属性向量、文本向量以及类别向量,确定权重向量,其中,权重向量中包含有知识记录中包含的每个属性信息分别对应的权重值;
通过解码网络中的融合层,基于权重向量以及属性向量,确定融合属性向量;以及
通过解码网络中的第二处理层,基于融合属性向量、文本向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配。
为了方便确定知识记录与文本数据中包含的目标实体是否匹配,在本发明实施例中,实体链接模型的解码网络中包含有第一处理层、融合层、以及第二处理层。为了方便说明实体链接模型中的每个网络层之间的连接结构,现结合图2进行说明,图2为本发明实施例提供的一种实体链接模型的网络结构示意图,如图2所示,实体链接模型中的字符层与编码层连接,编码层之后连接的网络层为第一处理层、融合层以及第二处理层,第一处理层之后连接的网络层为融合层,融合层之后连接的网络层为第二处理层。
在本发明实施例中,实体链接模型中的编码层之后连接的网络层为第一处理层,通过编码层获取到文本向量、属性向量、以及类别向量并输入至该第一处理层。通过该第一处理层,基于获取到的文本向量、属性向量以及类别向量,进行处理,确定权重向量。其中,权重向量中包含有输入到模型的知识记录中包含的每个属性信息分别对应的权重值。
在一种可能的实施方式中,通过解码网络中的第一处理层,基于每个属性向量、文本向量以及类别向量,确定权重向量,包括:
针对知识记录中包含的每个属性信息,通过第一处理层根据该属性信息对应的第一综合向量,确定该属性信息对应的权重值,其中,第一综合向量包含该属性信息对应的属性名向量、文本向量以及类别向量;
针对每条知识记录,根据该知识记录中包含的每个属性信息分别对应的权重值,确定该知识记录对应的权重向量。
本发明实施例中,属性信息中包括属性名和属性值,则实体链接模型中的编码层输出的属性向量中包括属性名向量、以及属性值向量。而由于实体链接模型中的第一处理层主要是用于确定输入到模型的知识记录中包含的每个属性信息分别对应的权重值的,因此,该第一处理层只需获取编码层输出的文本向量、每个属性名向量、以及类别向量即可。针对知识记录中包含的每个属性信息,通过实体链接模型中的第一处理层,进行相应的处理,确定该属性信息对应的第一综合向量。
其中,该属性信息对应的第一综合向量中包含有该属性信息对应的属性名向量、文本向量以及类别向量。
在一种可能的实施方式中,为了可以确定知识记录中包含的每个属性信息分别对应的第一综合向量,在该第一处理层中设置有拼接(concat)子层。当编码层获取到文本向量、每个属性名向量以及类别向量并输出至第一处理层中的拼接子层。通过该拼接子层,针对知识记录包含的每个属性信息,将该属性信息对应的属性名向量、文本向量以及类别向量进行拼接,将拼接后的向量确定为该属性信息对应的第一综合向量。
在本发明实施例中,实体链接模型中的第一处理层,在获取到任一属性信息对应的第一综合向量之后,便对该第一综合向量进行处理,根据该第一综合向量中的每个元素的元素值,确定该属性信息对应的权重值,也可以在获取到每个属性信息对应的第一综合向量之后,针对每个属性信息对应的第一综合向量,根据该属性信息对应的第一综合向量包含的每个元素的元素值,确定该属性信息对应的权重值。
其中,如线性预测、输入索引输出(query key value,QKV)网络、注意力分值结构网络(attention score-function)等可以根据多个输入量预测一个输出量的方法均可以应用到本发明实施例中,以实现根据任一属性信息对应的第一综合向量包含的每个元素的元素值,确定该属性信息对应的权重值。
在一种可能的实施方式中,若通过线性预测的方式,根据任一属性信息对应的第一综合向量包含的每个元素的元素值,确定该属性信息对应的权重值,则根据预先配置的第一综合向量的维数,确定该第一综合向量中每个元素所对应的权重值(为了方便说明,记为第一参考权重值)。当通过实体链接模型中的第一处理层,获取到任一属性信息对应的第一综合向量后,针对第一综合向量中包含的每个元素,根据该第一综合向量中该元素的元素值以及预先配置的该元素对应的第一参考权重值,确定加权值。根据每个元素分别对应的加权值,确定该属性所对应的权重值。
在一种可能的实施方式中,将每个元素分别对应的加权值相加,将获取到的加权和值确定为该属性所对应的权重值。
通过实体链接模型中的第一处理层,确定了每个属性信息分别对应的权重值之后,根据每个属性信息分别对应的权重值,确定所述知识记录对应的权重向量。
在一种可能的实施方式中,按照预先配置的每个属性信息的排序顺序,将每个属性信息分别对应的权重值进行排序,将排序后的每个权重值按序拼接,将拼接后得到的向量确定为该知识记录对应的权重向量。
在一种可能的实施方式中,为了方便后续计算,避免过拟合,当基于上述实施例中的方法,实体链接模型中的第一处理层确定包含每个属性信息分别对应的权重值的权重向量后,对该权重向量包含的每个权重值进行归一化处理,根据归一化处理后的权重向量,对该权重向量进行更新。其中,通过对权重向量进行归一化处理,可以使得归一化后的权重向量中包含的每个权重值的大小均在0-1之间的范围内。
在一种可能的实施方式中,实体链接模型中的第一处理层确定包含每个属性信息分别对应的权重值的权重向量后,根据预设的归一化函数(为了方便描述,记为第一归一化函数),比如softmax、sigmoid等,对获取到的权重向量进行归一化处理。
在本发明实施例中,实体链接模型中与该第一处理层之后连接的网络层为融合层。当基于上述实施例,第一处理层获取到权重向量之后,将该权重向量输入至该实体链接模型中的融合层。其中,实体链接模型中的融合层还会与实体链接模型中的编码层进行连接,当该编码层获取到属性向量之后,还会将该属性向量输入至该融合层。通过实体连接模型中的融合层,基于权重向量以及属性向量,确定融合属性向量。
在一种可能的实施方式中,通过解码网络中的融合层,基于权重向量以及属性向量,确定融合属性向量,包括:
在融合层中,基于权重向量以及每个属性值向量,确定融合属性向量。
具体的,针对知识记录中包含的每个属性信息,确定权重向量中该属性信息对应的权重值(为了方便描述,记为目标权重值),根据该属性信息对应的属性值向量以及该目标权重值,确定加权向量。根据每个属性信息对应的加权向量,确定融合属性向量。
在一种可能的实施方式中,可以将每个属性信息对应的加权向量相加,将相加后获取到的和向量确定为融合属性向量。
在本发明实施例中,实体链接模型中的融合层之后连接的网络层为第二处理层。当基于上述实施例通过该融合层确定融合属性向量之后,该融合层会将该融合属性向量输入至第二处理层。其中,实体链接模型中的第二处理层还与实体链接模型中的编码层连接,通过编码层获取到文本向量以及类别向量并输入至第二处理层。通过实体链接模型中的第二处理层,基于融合属性向量、文本向量以及类别向量,可以确定输入的知识记录是否与该文本数据中包含的目标实体匹配。
在一种可能的实施方式中,通过解码网络中的第二处理层,基于融合属性向量、文本向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配,包括:
通过第二处理层,根据第二综合向量中包含的每个元素的元素值,确定知识记录是否与文本数据中包含的目标实体匹配的概率值,其中,第二综合向量包括融合属性向量、文本向量、以及类别向量;以及
基于概率值与预先配置的概率阈值,确定知识记录是否与文本数据中包含的目标实体匹配。
本发明实施例中,为了可以确定第二综合向量,在实体链接模型的第二处理层中也设置有拼接子层。当实体链接模型的第二处理层中的拼接子层获取到编码层输出的文本向量和类别向量、以及融合层输出的融合属性向量之后,直接将该文本向量、类别向量、以及融合属性向量进行拼接,将拼接后的向量确定为该知识记录对应的第二综合向量。
实体链接模型中的第二处理层获取到第二综合向量之后,根据该第二综合向量中所包含的每个元素的元素值,确定该知识记录对应的预测值。根据确定的预测值,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。其中,如线性预测、输入索引输出(query key value,QKV)网络、注意力分值结构网络(attention score-function)等根据多个输入量预测一个输出量的方法均可以应用到本发明实施例中,以实现根据第二综合向量中的每个元素的元素值,确定该知识记录对应的预测值。
在一种可能的实施方式中,若通过线性预测的方式,预先配置第二综合向量中每个元素所对应的权重值(为了方便说明,记为第二参考权重值)。当实体链接模型中的第二处理层,获取到第二综合向量后,针对第二综合向量中包含的每个元素,根据该元素的元素值以及预先配置的该元素对应的第二参考权重值,确定该元素对应的加权值。根据每个元素分别对应的加权值,确定该知识记录对应的预测值。根据该预测值,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。
在一种可能的方式中,可以将每个元素分别对应的加权值相加,将获取到的和值确定为该知识记录对应的预测值。
在本发明实施例中,可以直接将该预测值确定为该知识记录与该文本数据中包含的目标实体匹配的概率值,也可以通过预先配置的数学算法,对该预测值进行相应的处理,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。
为了方便确定该知识记录与该文本数据中包含的目标实体匹配,当基于上述实施例中的方法,通过实体链接模型中的第二处理层,确定了预测值后,可以对该预测值进行归一化处理,根据归一化处理后的预测值,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。其中,通过对预测值进行归一化处理,可以使得后续根据归一化处理后的预测值,所确定的该知识记录与该文本数据中包含的目标实体匹配的概率值的大小在0-1之间的范围内,方便后续确定目标实体是否与文本数据匹配。
其中,实体链接模型中的第二处理层获取到预测值后,可以根据预设的归一化函数(为了方便描述,记为第二归一化函数),比如softmax、sigmoid、tanh等函数,对获取到的预测值进行归一化处理。
由于softmax在对多个数值进行归一化的过程中,可以考虑每个数值的大小,则在预测值表征的是知识记录与文本数据中包含的目标实体不匹配的第一概率值,以及该知识记录与该文本数据中包含的目标实体匹配的第二概率值时,可以通过softmax函数,对该预测值进行归一化处理,从而保证确定的该知识记录与该文本数据中包含的目标实体匹配的概率值的准确性。
其中,第二归一化函数可以与第一归一化函数相同,也可以不同,在此不做具体限定。
在一种可能的实施方式中,当通过实体链接模型中的第二处理层获取到该知识记录与该文本数据中包含的目标实体匹配的概率值之后,该第二处理层可以输出该概率值。后续根据将该概率值与预先配置的概率阈值进行比较,根据比较结果,确定该知识记录是否与该文本数据中包含的目标实体匹配。
在另一种可能的实施方式中,当通过实体链接模型中的第二处理层获取到该知识记录与该文本数据中包含的目标实体匹配的概率值之后,可以通过该第二处理层,将该概率值与预先配置的概率阈值进行比较,根据比较结果,确定该知识记录是否与该文本数据中包含的目标实体匹配,然后将确定的该知识记录是否与该文本数据中包含的目标实体匹配的结果输出。
实施例3:为了简化实体链接的过程,提供实体链接的效率、灵活性、以及泛化能力,在上述实施例的基础上,在本发明实施例中,实体链接模型通过如下方式训练:
获取样本集中任一样本数据,样本数据中包括样本文本数据、样本文本数据对应的样本知识记录、以及样本知识记录对应的样本类型,样本数据对应有标签,标签用于标识样本知识记录与样本文本数据中包含的实体是否匹配;
通过原始实体链接模型,基于样本数据,确定样本知识记录与样本文本数据中包含的实体是否匹配的识别结果;以及
基于标签以及识别结果,对原始实体链接模型进行训练,以获取训练完成的实体链接模型。
为了获取到实体链接模型,在本发明实施例中,需要预先收集用于实体链接模型训练的样本集,该样本集中包含有大量的样本数据,任一样本数据中包括有样本文本数据、该样本文本数据对应的样本知识记录、以及该样本知识记录对应的样本类型,且任一样本数据均对应有标签。其中,任一样本数据对应的标签用于标识该样本数据中的样本知识记录与该样本文本数据中包含的实体是否匹配。基于收集到的每个样本数据以及每个样本数据对应的标签,对原始实体链接模型进行训练,以对原始实体链接模型中的参数值进行调整。
需要说明的是,任一样本数据对应的标签可以用数字、字符串等形式进行标识,也可以用其它形式进行标识,只要可以区分出该样本数据中的样本知识记录与该样本文本数据中包含的实体是否匹配的形式均可应用于本发明实施例中。比如,标识该样本数据中的样本知识记录与该样本文本数据中包含的实体匹配的标签用“1”表示,标识该样本数据中的样本知识记录与该样本文本数据中包含的实体不匹配的标签用“0”表示。
需要说明的是,在本发明实施例中用于实体链接模型的训练的电子设备可以与上述实施例中进行数据处理的电子设备相同,也可以不同,在此不作具体限定。
具体实施过程中,原始实体链接模型中的每个参数都是随机初始化的,比如,用于字符层中的参数、编码层中的编码器(包括第一编码器以及第二编码器)的参数等均是随机初始化的。通过原始实体链接模型,基于任一样本数据,可以确定该样本数据中的样本知识记录与该样本文本数据中包含的实体是否匹配的识别结果。根据该识别结果以及该样本数据对应的标签,对原始实体链接模型进行训练,以调整原始实体链接模型的各参数的参数值。
在一种可能的实施方式中,通过原始实体链接模型,基于任一样本数据,可以确定该样本数据中的样本知识记录与该样本文本数据中包含的实体匹配的识别结果,包括:
通过原始实体链接模型中的字符层中的第一编码矩阵,分别确定样本文本数据对应的第一编码向量、样本知识记录的每个样本属性信息的属性名分别对应的属性名编码向量、样本知识记录的每个样本属性信息的属性值分别对应的属性值编码向量;并通过原始实体链接模型中的字符层中的第二编码矩阵,确定样本类型对应的类别向量。
在一种可能的实施方式中,通过上述实施例中的方法,确定的每个编码向量(包括第一编码向量、属性名编码向量、属性值编码向量以及类别向量)可能会非常的多,不利于对原始实体链接模型进行训练,且容易出现过拟合的问题。因此,在本发明实施例中,在对原始实体链接模型进行训练时,可以在获取到原始实体链接模型中的字符层输出的编码向量,即对字符层输出的第一编码向量、属性名编码向量、属性值编码向量以及类别向量之后,从获取到的每个编码向量中,选择部分编码向量,并将所选的编码向量中包含的每个元素的元素值均配置为0,从而实现减少原始实体链接模型中后续的网络层对该部分编码向量的计算,并减少原始实体链接模型后续的计算量,避免了过拟合的问题。
具体的,在对原始实体链接模型中设置有过滤(dropout)层,该dropout层分别与原始实体链接模型中的字符层以及编码层进行连接。通过原始实体链接模型中的dropout层,针对每个编码向量,随机确定该编码向量对应的随机值,判断该随机值是否小于预先配置的概率阈值,若小于,则将该编码向量确定为0;若不小于,则保持该编码向量不变。其中,该随机值为预先配置的数值范围内的任一值。后续原始实体链接模型中的编码层可以获取到dropout层输出的处理后的每个编码向量,编码层根据获取到的每个编码向量,进行相应的处理。
需要说明的是,获取到训练完成的实体链接模型之后,后续在应用训练完成的实体链接模型的过程时,该实体链接模型中的dropout层不生效。
通过原始实体链接模型中的编码层中的第一编码器,分别确定第一编码向量对应的文本向量、以及每个属性值编码向量分别对应的属性值向量;并通过第二编码器,确定每个属性名编码向量分别对应的属性名向量。同时还通过原始实体链接模型中的编码层,对类别向量进行归一化处理;根据归一化处理后的类别向量,对该类别向量进行更新。
通过原始实体链接模型中的第一处理层,针对样本知识记录中包含的每个样本属性信息,确定包含该样本属性信息对应的第一综合向量,第一综合向量中包括该样本属性信息对应的属性名向量、文本向量以及类别向量;针对每个样本属性信息分别对应的第一综合向量,根据该样本属性信息对应的第一综合向量,确定该样本属性信息对应的权重值;根据每个样本属性信息对应的权重值,确定权重向量。
通过原始实体链接模型中的融合层,基于第一处理层输出的权重向量以及编码层输出的每个属性值向量,确定融合属性向量。
通过原始实体链接模型中的第二处理层,根据第二综合向量中包含的每个元素的元素值,确定样本知识记录与该样本文本数据包含的实体匹配的概率值,第二综合向量中包含有融合属性向量、文本向量和类别向量;基于概率值与预先配置的概率阈值,确定样本知识记录与该样本文本数据包含的实体匹配。
对实体链接模型训练的样本集中包含大量的样本数据,对每个样本数据都进行上述操作,当满足预设的收敛条件时,该实体链接模型训练完成。
其中,收敛条件可以为基于样本集中的每个样本数据对应的识别结果以及对应的标签,所确定的损失值小于预先配置的损失值阈值,或确定的损失值一直处于下降趋势且趋于平缓,或对原始实体链接模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,在进行模型训练时,可以把样本集中的样本数据分为训练样本和测试样本,先基于训练样本对原始实体链接模型进行训练,再基于测试样本对上述已训练的实体链接模型的可靠程度进行验证。
实施例4:为了方便说明本发明实施例提供的数据处理方法,下面结合具体的实施方式进行说明,图3为本发明实施例提供的具体的数据处理方法的流程示意图,该流程包括:
S301:获取训练完成的实体链接模型。
在本发明实施例中用于实体链接模型的训练的电子设备可以与上述实施例中进行数据处理的电子设备相同,也可以不同,在此不作具体限定。
其中,在进行实体链接模型训练的过程中,一般采用离线的方式,预先通过进行模型训练的电子设备以及样本数据,对原始实体链接模型进行训练,以获得训练完成的实体链接模型。基于上述实施例中训练完成的实体链接模型,将上述训练完成的实体链接模型保存到后续进行数据处理的电子设备中。
S302:确定待处理的文本数据中包含的目标实体,获取目标实体对应的各条知识记录、以及知识记录对应的目标类型,知识记录包括目标实体对应的至少一个属性信息。
在实际应用过程中,基于用户输入的查询信息,获取该查询信息对应的文本数据,将该查询信息对应的文本数据确定为待处理的文本数据。
确定该文本数据中包含的目标实体。然后获取该目标实体对应的各条知识记录、以及知识记录对应的目标类型。
比如,待处理的文本数据为“刘德华1961年9月27日出生于中国香港,籍贯广东新会,中国香港男演员、歌手、作词人、制片人”,与该文本数据包含的目标实体为“刘德华”,该目标实体对应的知识记录为“性别:男;配偶:朱丽倩;别名:华仔;处女作:《彩云曲》;职业:演员”,其中,“性别”、“配偶”、“别名”、“处女作”、“职业”均为知识记录中包含的每个属性信息的属性名,“男”、“朱丽倩”、“华仔”、“《彩云曲》”、“演员”均为知识记录中包含的每个属性信息的属性值,知识记录对应的目标类型为“人物”。
再比如,获取目标实体为“刘德华”对应的知识记录为“性别:男;职业:教师”,其中,“性别”、“职业”均为知识记录中包含的每个属性信息的属性名,“男”、“教师”均为知识记录中包含的每个属性信息的属性值,知识记录对应的目标类型为“人物”。
S303:通过实体链接模型中的字符层,分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量。
图4为本发明实施例提供的一种实体链接模型的结构示意图。如图4所示,当获取到待处理的文本数据、目标实体对应的各条知识记录、以及目标类型之后,针对每条知识记录,将待处理的文本数据、知识记录、以及目标类型同时输入到实体链接模型中的字符层。在该字符层中设置有第一编码矩阵(1st char embedding)以及第二编码矩阵(2nd charembedding)。
通过实体链接模型中的字符层中的第一编码矩阵,分别确定文本数据对应的第一编码向量、知识记录的每个属性信息包含的属性名分别对应的属性名编码向量、知识记录的每个属性信息包含的属性值分别对应的属性值编码向量;并通过实体链接模型中的字符层中的第二编码矩阵,确定目标类型对应的类别向量(class embedding)。
S304:通过实体链接模型中的编码层,分别确定第一编码向量对应的文本向量、每个属性名编码向量分别对应的属性名向量、以及每个属性值编码向量分别对应的属性值向量,并对类别向量进行归一化处理;根据归一化处理后的类别向量,将归一化处理后的类别向量输入至第一处理层。
具体的,如图4所示,在实体链接模型中的编码层中设置有第一编码器、以及第二编码器。其中,第一编码器用于对包含有较多的字符的数据进行计算的编码器,第二编码器用于对包含有较少的字符的数据进行计算的编码器。
通过实体链接模型中的编码层中的第一编码器,分别确定第一编码向量对应的文本向量(PE)、以及每个属性值编码向量分别对应的属性值向量(AVE);并通过第二编码器,确定每个属性名编码向量分别对应的属性名向量(ANE)。
S305:通过实体链接模型中的第一处理层,基于每个属性名向量、文本向量及类别向量,确定权重向量。
权重向量中包含有每个属性信息分别对应的权重值。
具体的,如图4所示,在实体链接模型的第一处理层中设置有拼接(concat)子层以及线性预测(Linear)模块。当实体链接模型的第一处理层中的拼接子层获取到编码层输出的文本向量、每个属性名向量、以及类别向量(CE)之后,第一处理层根据每个属性名向量的第一数量,确定将文本向量以及类别向量的复制次数,使得复制后的文本向量的第二数量以及复制后的类别向量的数量第三数量,均与第一数量相等。然后针对知识记录中包含的每个属性信息,从当前保存的每个文本向量中划分出一个文本向量,并从当前保存的每个类别向量中划分出一个类别向量,将该属性信息对应的属性名信息、当前划分出的文本向量以及当前划分出的类别向量进行拼接,将拼接后的向量确定为该属性信息对应的第一综合向量;针对每个属性信息对应的第一综合向量,通过用于线性预测的Linear模块,根据该属性信息对应的第一综合向量中的每个元素的元素值,确定该属性信息对应的权重值;确定包含每个属性信息分别对应的权重值的权重向量,对该权重向量中的每个权重值进行归一化处理,比如通过softmax函数,从而根据归一化处理后的权重向量,对该权重向量(attention weights)进行更新。
S306:通过实体链接模型中的融合层,基于权重向量以及每个属性值向量,确定融合属性向量。
S307:通过实体链接模型中的第二处理层,基于融合属性向量、文本向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配。
具体的,如图4所示,在实体链接模型的第二处理层中也设置有拼接(concat)子层以及线性预测(Linear)模块。当实体链接模型的第二处理层中的拼接子层获取到编码层输出的文本向量和类别向量、以及融合层输出的融合属性向量(KE)之后,直接将该文本向量、类别向量、以及融合属性向量进行拼接,将拼接后的向量确定为第二综合向量。通过第二处理层中的用于线性预测的Linear模块,根据第二综合向量中的每个元素的元素值,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。对该预测值进行归一化处理,比如,通过sigmoid函数,根据归一化处理后的预测值,确定该知识记录与该文本数据中包含的目标实体匹配的概率值。
当通过实体链接模型中的第二处理层获取到该知识记录与该文本数据中包含的目标实体匹配的概率值之后,可以通过该第二处理层,将该概率值与预先配置的概率阈值进行比较,根据比较结果,确定知识记录是否与文本数据中包含的目标实体匹配,然后将确定的知识记录是否与文本数据中包含的目标实体匹配的结果输出。
比如,输入的数据包括待处理的文本数据为“刘德华1961年9月27日出生于中国香港,籍贯广东新会,中国香港男演员、歌手、作词人、制片人”,确定该文本数据包含的目标实体为“刘德华”,获取该目标实体“刘德华”对应的知识记录为“性别:男;职业:教师”,该知识记录对应的目标类型为“人物”。通过实体链接模型,基于文本数据、知识记录以及目标类型,输出标识值“0”。根据该标识值“0”可知知识记录“性别:男;职业:教师”与输入的文本数据中包含的目标实体“刘德华”不匹配。
输入的数据包括待处理的文本数据为“刘德华1961年9月27日出生于中国香港,籍贯广东新会,中国香港男演员、歌手、作词人、制片人”,确定该文本数据包含的目标实体为“刘德华”,获取该目标实体“刘德华”对应的知识记录为“性别:男;配偶:朱丽倩;别名:华仔;处女作:《彩云曲》;职业:演员”,该知识记录对应的目标类型为“人物”。通过实体链接模型,基于文本数据、知识记录以及目标类型,输出标识值“1”。根据该标识值“1”可知知识记录“性别:男;配偶:朱丽倩;别名:华仔;处女作:《彩云曲》;职业:演员”与输入的文本数据中包含的目标实体“刘德华”不匹配。
实施例5:图5为本发明实施例提供的一种数据处理装置的结构示意图,本发明提供了一种数据处理装置,该装置包括:
确定单元51,用于确定待处理的文本数据中包含的目标实体;
获取单元52,用于获取目标实体对应的各条知识记录、以及知识记录对应的目标类型,知识记录包括目标实体对应的至少一个属性信息;
处理单元53,用于针对每条知识记录,通过预先训练完成的实体链接模型,基于文本数据、知识记录、以及知识记录对应的目标类型,确定知识记录是否与文本数据中包含的目标实体匹配。
在一种可能的实施方式中,处理单元53具体用于:通过实体链接模型中的编码网络,分别确定文本数据对应的文本向量、知识记录对应的属性向量及目标类型对应的类别向量;通过实体链接模型中的解码网络,基于文本向量、属性向量及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配。
在一种可能的实施方式中,处理单元53具体用于:通过编码网络中的字符层,分别确定文本数据对应的第一编码向量、知识记录对应的第二编码向量、以及目标类型对应的类别向量;通过编码网络中的编码层,分别确定第一编码向量对应的文本向量、以及第二编码向量对应的属性向量。
在一种可能的实施方式中,处理单元53具体用于:
通过解码网络中的第一处理层,基于每个属性向量、文本向量以及类别向量,确定权重向量,其中,权重向量中包含有知识记录中包含的知识记录对应的权重值;通过解码网络中的融合层,基于权重向量以及属性向量,确定融合属性向量;通过解码网络中的第二处理层,基于融合属性向量、文本向量、以及类别向量,确定知识记录是否与文本数据中包含的目标实体匹配。
在一种可能的实施方式中,处理单元53还用于:通过编码网络中的编码层,对类别向量进行归一化处理;将归一化处理后的类别向量输入至解码网络。
在一种可能的实施方式中,处理单元53具体用于:在字符层中,通过第一编码矩阵,分别确定文本数据对应的第一编码向量、以及知识记录对应的第二编码向量;以及通过第二编码矩阵,确定目标类型对应的类别向量。
在一种可能的实施方式中,处理单元53具体用于:
在字符层中,分别确定知识记录的每个属性信息包含的属性名分别对应的属性名编码向量、属性信息包含的属性值对应的属性值编码向量。
在一种可能的实施方式中,处理单元53具体用于:
在编码层中,分别确定每个属性名编码向量分别对应的属性名向量、以及每个属性值编码向量分别对应的属性值向量。
在一种可能的实施方式中,处理单元53具体用于:
在编码层中,通过第一编码器,分别确定第一编码向量对应的文本向量、以及每个属性值编码向量分别对应的属性值向量,以及通过第二编码器,确定每个属性名编码向量分别对应的属性名向量。
在一种可能的实施方式中,处理单元53具体用于:针对知识记录中包含的每个属性信息,通过第一处理层,根据该属性信息对应的第一综合向量,确定该属性信息对应的权重值,其中,第一综合向量包含该属性信息对应的属性名向量、文本向量以及类别向量;根据每个属性信息分别对应的权重值,确定所述知识记录对应的权重向量。
在一种可能的实施方式中,处理单元53具体用于:
在融合层中,基于权重向量以及每个属性值向量,确定融合属性向量。
在一种可能的实施方式中,处理单元53具体用于:
通过第二处理层,根据第二综合向量中包含的每个元素的元素值,确定知识记录是否与文本数据中包含的目标实体匹配的概率值,其中,第二综合向量包括融合属性向量、文本向量、以及类别向量;基于概率值与预先配置的概率阈值,确定知识记录是否与文本数据中包含的目标实体匹配。
在一种可能的实施方式中,实体链接模型通过如下方式训练:
获取样本集中任一样本数据,样本数据中包括样本文本数据、样本文本数据对应的样本知识记录、以及样本知识记录对应的样本类型,样本数据对应有标签,标签用于标识样本知识记录与样本文本数据中包含的实体是否匹配;通过原始实体链接模型,基于样本数据,确定样本知识记录与样本文本数据中包含的实体是否匹配的识别结果;基于标签以及识别结果,对原始实体链接模型进行训练,以获取训练完成的实体链接模型。
实施例6:如图6为本发明实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图6所示,包括:处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信;
存储器63中存储有计算机程序,当程序被处理器61执行时,使得处理器61执行如下步骤:
确定待处理的文本数据中包含的目标实体;获取目标实体对应的各条知识记录、以及知识记录对应的目标类型,知识记录包括目标实体对应的至少一个属性信息;针对每条知识记录,通过预先训练完成的实体链接模型,基于文本数据、知识记录、以及知识记录对应的目标类型,确定知识记录是否与文本数据中包含的目标实体匹配。
由于上述电子设备解决问题的原理与数据处理方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口62用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例7:在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
确定待处理的文本数据中包含的目标实体;获取目标实体对应的各条知识记录、以及知识记录对应的目标类型,知识记录包括目标实体对应的至少一个属性信息;针对每条知识记录,通过预先训练完成的实体链接模型,基于文本数据、知识记录、以及知识记录对应的目标类型,确定知识记录是否与文本数据中包含的目标实体匹配。
本发明实施例提供的计算机可读介质解决问题的原理与数据处理方法解决问题的原理相同,具体内容可参见上述方法实施例。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
确定待处理的文本数据中包含的目标实体;
获取所述目标实体对应的各条知识记录、以及所述知识记录对应的目标类型,所述知识记录包括所述目标实体对应的至少一个属性信息;
针对所述每条知识记录,通过预先训练完成的实体链接模型,基于所述文本数据、所述知识记录、以及所述知识记录对应的目标类型,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练完成的实体链接模型,基于所述文本数据、所述知识记录、以及所述知识记录对应的目标类型,确定所述知识记录是否与所述文本数据中包含的目标实体匹配,包括:
通过所述实体链接模型中的编码网络,分别确定所述文本数据对应的文本向量、所述知识记录对应的属性向量、以及所述目标类型对应的类别向量;
通过所述实体链接模型中的解码网络,基于所述文本向量、所述属性向量、以及所述类别向量,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
3.根据权利要求2所述的方法,其特征在于,所述通过所述实体链接模型中的编码网络,分别确定所述文本数据对应的文本向量、所述知识记录对应的属性向量、以及所述目标类型对应的类别向量,包括:
通过所述编码网络中的字符层,分别确定所述文本数据对应的第一编码向量、所述知识记录对应的第二编码向量、以及所述目标类型对应的类别向量;
通过所述编码网络中的编码层,分别确定所述第一编码向量对应的文本向量、以及所述第二编码向量对应的属性向量。
4.根据权利要求2所述的方法,其特征在于,所述通过所述实体链接模型中的解码网络,基于所述文本向量、所述属性向量、以及所述类别向量,确定所述知识记录是否与所述文本数据中包含的目标实体匹配,包括:
通过所述解码网络中的第一处理层,基于每个所述属性向量、所述文本向量以及所述类别向量,确定权重向量,其中,所述权重向量中包含有所述知识记录中包含的每个属性信息分别对应的权重值;
通过所述解码网络中的融合层,基于所述权重向量以及所述属性向量,确定融合属性向量;
通过所述解码网络中的第二处理层,基于所述融合属性向量、所述文本向量、以及所述类别向量,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过所述编码网络中的编码层,对所述类别向量进行归一化处理;
将归一化处理后的类别向量输入至所述解码网络。
6.根据权利要求3所述的方法,其特征在于,所述通过所述编码网络中的字符层,分别确定所述文本数据对应的第一编码向量、所述知识记录对应的第二编码向量、以及所述目标类型对应的类别向量,包括:
在所述字符层中,通过第一编码矩阵,分别确定所述文本数据对应的第一编码向量、以及所述知识记录对应的第二编码向量;以及通过第二编码矩阵,确定所述目标类型对应的类别向量。
7.根据权利要求3所述的方法,其特征在于,所述通过所述编码网络中的编码层,分别确定所述第一编码向量对应的文本向量、以及所述第二编码向量对应的属性向量,包括:
在所述编码层中,通过第一编码器,分别确定所述第一编码向量对应的文本向量、以及每个所述属性值编码向量分别对应的属性值向量,以及通过第二编码器,确定每个所述属性名编码向量分别对应的属性名向量。
8.一种数据处理装置,其特征在于,所述装置包括:
确定单元,用于确定待处理的文本数据中包含的目标实体;
获取单元,用于获取所述目标实体对应的各条知识记录、以及所述知识记录对应的目标类型,所述知识记录包括所述目标实体对应的至少一个属性信息;
处理单元,用于针对所述每条知识记录,通过预先训练完成的实体链接模型,基于所述文本数据、所述知识记录、以及所述知识记录对应的目标类型,确定所述知识记录是否与所述文本数据中包含的目标实体匹配。
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述数据处理方法的步骤。
CN202110053681.8A 2021-01-15 2021-01-15 一种数据处理方法、装置、设备及介质 Pending CN114764443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110053681.8A CN114764443A (zh) 2021-01-15 2021-01-15 一种数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110053681.8A CN114764443A (zh) 2021-01-15 2021-01-15 一种数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114764443A true CN114764443A (zh) 2022-07-19

Family

ID=82363217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110053681.8A Pending CN114764443A (zh) 2021-01-15 2021-01-15 一种数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114764443A (zh)

Similar Documents

Publication Publication Date Title
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
EP4390753A1 (en) Text data processing method, neural network training method, and related devices
CN113239702A (zh) 意图识别方法、装置、电子设备
CN110019952B (zh) 视频描述方法、系统及装置
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
CN117216393A (zh) 信息推荐方法、信息推荐模型的训练方法及装置、设备
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN118132687A (zh) 语句处理和类目模型的训练方法、装置、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115270792A (zh) 一种医疗实体识别方法及装置
CN114764443A (zh) 一种数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination