CN113537263A - 二分类模型的训练方法及装置、实体链接方法及装置 - Google Patents

二分类模型的训练方法及装置、实体链接方法及装置 Download PDF

Info

Publication number
CN113537263A
CN113537263A CN202010317893.8A CN202010317893A CN113537263A CN 113537263 A CN113537263 A CN 113537263A CN 202010317893 A CN202010317893 A CN 202010317893A CN 113537263 A CN113537263 A CN 113537263A
Authority
CN
China
Prior art keywords
entity
training
linked
sentence
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010317893.8A
Other languages
English (en)
Other versions
CN113537263B (zh
Inventor
李长亮
朱自强
汪美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd, Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202010317893.8A priority Critical patent/CN113537263B/zh
Priority claimed from CN202010317893.8A external-priority patent/CN113537263B/zh
Publication of CN113537263A publication Critical patent/CN113537263A/zh
Application granted granted Critical
Publication of CN113537263B publication Critical patent/CN113537263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供二分类模型的训练方法及装置、实体链接方法及装置,其中所述二分类模型的训练方法包括:获取待链接实体和所述待链接实体对应的参考语句;确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。通过本方法使得神经网络模型具有根据输入的语句挖掘更深层次语句之间的关系的能力,使得实体链接过程简洁高效,且准确率高。

Description

二分类模型的训练方法及装置、实体链接方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种二分类模型的训练方法及装置、实体链接方法及装置、计算设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,知识图谱也得到了长足的发展,在实际应用中,经常会用到实体链接(entity linking),实体链接就是将一段文本中的某些字符串映射到知识图谱中对应的实体上,使二者进行关联。
目前的实体链接分为两个步骤,第一步为命名实体识别,即从原始文本中找出可能被链接的待链接实体,第二部为将找到的待链接实体与知识图谱中已经存在的实体进行关联,即实体消歧,在进行实体消歧时,若知识图谱中存在多个与待链接实体同名的候选实体时,仅仅凭借实体的名称来进行实体链接就会变得非常困难,至使实体链接无法顺利进行。
因此,如何解决上述问题,可以使得实体链接可以又快又准确,就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种二分类模型的训练方法及装置、实体链接方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种二分类模型的训练方法,包括:
获取待链接实体和所述待链接实体对应的参考语句;
确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;
将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
可选的,获取待链接实体和所述待链接实体对应的参考语句,包括:
获取训练文本;
接收确定指令,根据所述确定指令在所述训练文本中确定待链接实体;
根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句。
可选的,根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句,包括:
在所述训练文本中确定包含所述待链接实体的句子作为所述待链接实体对应的参考语句。
可选的,根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,包括:
将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;
将每个候选属性语句分别与参考语句拼接生成对应的训练语句。
可选的,将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型,包括:
将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,获取每次二分类模型的输出结果;
在所述输出结果的准确率小于预设阈值的情况下,继续训练所述二分类模型;
在所述输出结果的准确率大于等于所述预设阈值的情况下,结束训练,获得二分类模型。
根据本申请实施例的第二方面,提供了一种实体链接方法,包括:
获取待链接实体和所述待链接实体对应的参考语句;
确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句;
将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述实施例中二分类模型的训练方法训练获得;
根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
可选的,获取待链接实体和所述待链接实体对应的参考语句,包括:
获取原始文本;
接收确定指令,根据所述确定指令在所述原始文本中确定待链接实体;
根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句。
可选的,根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句,包括:
在所述原始文本中确定包含所述待链接实体的句子为所述待链接实体对应的参考语句。
可选的,根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句,包括:
将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;
将每个候选属性语句分别与参考语句拼接生成对应的待检测语句。
可选的,所述分类结果包括每个待检测语句对应的分类概率值;
根据所述分类结果确定目标候选实体,包括:
选取分类概率值最高的待检测语句作为目标待检测语句;
选取目标待检测语句对应的候选实体为目标候选实体。
根据本申请实施例的第三方面,提供了一种二分类模型的训练装置,包括:
第一获取模块,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第一确定模块,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第一生成模块,被配置为根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;
训练模块,被配置为将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
根据本申请实施例的第四方面,提供了一种实体链接装置,包括:
第二获取模块,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第二确定模块,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第二生成模块,被配置为根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句;
输入模块,被配置为将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述实施例中二分类模型的训练方法训练获得;
链接模块,被配置为根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述二分类模型的训练方法或实体链接方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述二分类模型的训练方法或实体链接方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述二分类模型的训练方法或实体链接方法的步骤。
本申请实施例提供的二分类模型的训练方法,在知识图谱中获取与待链接实体对应的候选实体,并根据每个候选实体对应的属性信息和待链接实体的参考语句组成训练语句,为每个训练语句配置训练标签,再将训练语句和对应的训练标签输入至二分类模型中进行训练,使得二分类模型具有根据输入的属性信息和参考语句挖掘二者之间更深层次之间的关系的能力,二分类模型可以高效准确地判断属性信息和参考语句之间关联的概率,进而确定待链接实体与候选实体之间相关联的概率。
本申请实施例提供的实体链接方法,将待链接实体的上下文信息作为参考语句与知识图谱中候选实体对应的属性信息拼接生成待检测语句,输入至经过上述二分类模型的训练方法训练成功的二分类模型,二分类模型通过挖掘参考语句和属性信息之间的深层次关系,输出分类结果,再根据分类结果选择在候选实体中选择目标候选实体,将待链接实体与目标候选实体进行链接,通过本方法无需创建规则或限制待链接实体的属性信息与知识图谱中的候选实体进行匹配,当待链接实体的上下文中无明确属性信息时,也可以使得实体链接过程简洁高效,且准确率高。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的二分类模型的训练方法的流程图;
图3是本申请实施例提供的二分类模型训练过程中获取待链接实体和所述待链接实体对应的参考语句方法的流程图;
图4是本申请实施例提供的实体链接方法的流程图;
图5是本申请实施例提供的实体链接过程中获取待链接实体和所述待链接实体对应的参考语句的流程图;
图6是本申请实施例提供的二分类模型的训练装置的结构示意图;
图7是本申请实施例提供的实体链接装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
二分类模型:根据输入的数据得到对应的概率,根据概率获得非是即否的神经网络模型。
知识图谱:又称为科学知识图谱,被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,知识图谱旨在利用可视化的图谱形象地描述客观世界中存在的概念、实体、事件及其相互之间的关系,知识图谱也可以被看为是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱包括开放领域知识图谱和专业领域知识图谱,开放领域知识图谱面向的是通用领域,构建常识性的知识为主,包括结构化的百科知识,它强调的更多的是一种知识的广度,对知识的深度方面不做更多的要求,它的使用者一般是普通的用户。专业领域知识图谱面向一个特定的行业领域,如金融领域、军事领域、科技领域、党政领域等,它的数据来源是来源于特定行业的知识,是基于行业的数据来构建,要有一定的行业的深度,能够解决行业人员较为专业的问题,它的使用者一般是这个行业内的从业人员。
实体链接:(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。
待链接实体:在文本中获取的等待与知识图谱中的实体进行实体链接的实体。
参考语句:在文章中,待链接实体所在的语句。
候选实体:在知识图谱中与待链接实体重名的实体。
候选实体对应的属性信息:候选实体在知识图谱中已经存在的属性信息。
候选属性语句:候选实体对应的属性信息组成的语句。
训练语句:在模型训练过程中,根据候选属性语句和参考语句拼接的语句。
训练标签:在模型训练过程中,训练语句对应的标签。
训练文本:在模型训练过程中,包含待链接实体的文本。
原始文本:在模型应用过程中,包含待链接实体的文本。
待检测语句:在模型应用过程中,根据候选属性语句和参考语句拼接生成的语句。
分类结果:二分类模型在应用过程中输出的结果。
目标待检测语句:在模型应用过程中,根据分类结果确定的待检测语句。
目标候选实体:在模型应用过程中,根据目标待检测语句确定的候选实体。
在本申请中,提供了一种二分类模型的训练方法及装置、实体链接方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示二分类模型的训练方法中的步骤。图2示出了根据本申请一实施例的二分类模型的训练方法的流程图,包括步骤202至步骤208。
步骤202:获取待链接实体和所述待链接实体对应的参考语句。
待链接实体为在文本中获取的等待与知识图谱中的实体进行实体链接的实体,参考语句为在文章中,待链接实体所在的语句。
可选的,参见图3,步骤202可通过下述步骤302至步骤306实现。
步骤302:获取训练文本。
训练文本为在训练二分类模型的过程中,确定待链接实体的文本,获取训练文本的方式有很多,如可以从网络上读取,也可以从计算机已存文档中获取,也可以通过智能设备扫描如报纸、杂志上的文章获取,在本申请中对训练文本的获取方式不做限定。
在本申请提供的实施例中,从网络中获取一篇新闻,新闻内容如下“A市政府最近发生了人事变动。原副市长张某,因身体原因,被调离工作岗位。毕业于B大学的李某,出任副市长一职。”,则该新闻内容即为训练文本。
步骤304:接收确定指令,根据所述确定指令在所述训练文本中确定待链接实体。
接收一个确定指令,所述确定指令可以为人工输入,也可以为在计算机中鼠标取词的方式,在本申请中不对接收确定指令的形式做限定。根据接收的确定指令,在训练文本中确定待链接实体,所述待链接实体即为需要与知识图谱中的实体进行链接的实体。
在本申请提供的实施例中,通过鼠标取词的方式,当鼠标放在训练文本的“李某”处超过2秒时,确定“李某”即为待链接实体。
步骤306:根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句。
在确定了待链接实体之后,包含所述待链接实体的句子即为所述待链接实体对应的参考语句,在确认参考语句时,以语句结束符作为标识,需要保证参考语句为一句完整的话,语句结束符包括句号、叹号、问号等。
在本申请提供的实施例中,待链接实体“李某”所在的语句为“毕业于B大学的李某,出任副市长一职。”因此将该语句作为参考语句。
步骤204:确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息。
在确定待链接实体后,在预设的知识图谱中获取与所述待链接实体对应的候选实体,在知识图谱中经常会出现有相同名称的实体,将知识图谱中与待链接实体有相同名称的实体称为候选实体,每个候选实体都有对应的属性信息,获取每个候选实体对应的属性信息。
在本申请提供的实施例中,在预设的党政领域知识图谱中获取到两个与待链接实体同名的“李某”,即在所述知识图谱中有两个候选实体,为了便于区分,我们将这两个候选实体标识为“李某1”和“李某2”,同时在知识图谱中获取“李某1”的属性信息为(李某,大学,B大学)、(李某,年龄,32),(李某,职位,A市C局局长;“李某2”的属性信息为(李某,大学,D大学)、(李某,年龄,58),(李某,职位,E市F局科长)。
步骤206:根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签。
具体的,将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句,再将每个候选属性语句分别与参考语句拼接生成对应的训练语句;并为每个训练语句配置对应的训练标签。训练标签符合二分类的要求即可,如是或否、正确或错误等等。
在本申请提供的实施例中,将候选实体“李某1”的属性信息转换为“李某1”对应的属性语句1为“大学是B大学,年龄是32,职位是A市C局局长。”;将候选实体“李某2”的属性信息转换为“李某2”对应的属性语句2为“大学是D大学,年龄是58,职位是E市F局科长。”。
将属性语句1与参考语句拼接生成训练语句1“大学是B大学,年龄是32,职位是A市C局局长;毕业于B大学的李某,出任副市长一职。”;将属性语句2与参考语句拼接生成训练语句2“大学是D大学,年龄是58,职位是E市F局科长;毕业于B大学的李某,出任副市长一职。”。并为训练语句1配置训练标签为“正确”,为训练语句2配置训练标签为“错误”。
步骤208:将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
预训练的二分类模型为经过初步训练的二分类模型,二分类模型可以为长短期记忆网络模型,可以为Transformer模型,也以为Bert模型,在本申请中基于Bert模型在理解文本上下文语义的优势,优选使用Bert模型做二分类模型。将每个训练语句及其对应的训练标签输入至二分类模型中,进行迭代训练,直至输出结果中正确标签对应的训练语句的概率大于等于预设阈值时结束训练,并获取对应的二分类模型。
需要注意的是,本申请提供的训练停止条件只是一种情况,在实际应用中也可以设置为预设的训练批次进行训练,本申请中不对训练停止条件做限定。
在本申请提供的实施例中,将训练语句1和、对应的“正确”标签、训练语句2和对应的“错误”标签输入至Bert模型中进行迭代训练,使得Bert模型根据训练数据及对应的标签进行训练,当Bert模型根据训练数据输出结果的准确率大于预设阈值80%的情况下,结束训练,二分类模型训练完成。
本申请实施例提供的二分类模型训练方法,在知识图谱中获取与待链接实体对应的候选实体,并根据每个候选实体对应的属性信息和待链接实体的参考语句组成训练语句,为每个训练语句配置训练标签,再将训练语句和对应的训练标签输入至二分类模型中进行训练,使得二分类模型具有根据输入的属性信息和参考语句挖掘二者之间更深层次之间的关系的能力,二分类模型可以高效准确地判断属性信息和参考语句之间关联的概率,进而确定待链接实体与候选实体之间相关联的概率。
图4示出了根据本申请一实施例的实体链接方法的流程图,包括步骤402至步骤410。
步骤402:获取待链接实体和所述待链接实体对应的参考语句。
可选的,参见图5,步骤402可通过下述步骤502至步骤506实现。
步骤502:获取原始文本。
原始文本为在实际应用过程中,包含待链接实体的文本。
步骤502与上述步骤302方法一致,关于步骤502的具体解释,参见前述第一实施例中的步骤302的详细内容,在此就不再赘述,在本申请中不对原始文本的获取方式做限定。
在本申请提供的实施例中,通过保存与计算机本地的一篇文档中获取原始文本,原始文本的内容为“付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”。
步骤504:接收确定指令,根据所述确定指令在所述原始文本中确定待链接实体。
步骤504与上述步骤304方法一致,关于步骤504的具体解释,参见前述第一实施例中的步骤304的详细内容,在此就不再赘述。
在本申请提供的实施例中,通过接收的确定指令确定待链接实体为“付某”。
步骤506:根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句。
步骤506与上述步骤306方法一致,关于步骤506的具体解释,参见前述第一实施例中的步骤306的详细内容,在此就不再赘述。
在本申请提供的实施例中,待链接实体“付某”所在的语句为“付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”,因此将该语句作为参考语句。
步骤404:确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息。
步骤404与上述步骤204方法一致,关于步骤404的具体解释,参见前述第一实施例中的步骤204的详细内容,在此就不再赘述。
在本申请提供的实施例中,在预设的知识图谱中获取到四个与待链接实体同名的“付某”,即知识图谱中存在四个候选实体,为了便于区分,将四个候选实体标识为“付某1”、“付某2”、“付某3”和“付某4”,同时在知识图谱中获取“付某1”的属性信息为(付某,性别,男)、(付某,年龄,43),(付某,职位,G市H局局长);“付某2”的属性信息为(付某,性别,男)、(付某,年龄,15),(付某,职位,学生);“付某3”的属性信息为(付某,性别,女)、(付某,年龄,28),(付某,职位,M市N局职员);“付某4”的属性信息为(付某,性别,男)、(付某,年龄,69),(付某,职位,退休员工)。
步骤406:根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句。
待检测语句为在实际应用过程中,根据候选属性语句和参考语句拼接生成的语句,候选属性语句为候选实体对应的属性信息组成的语句。
具体的,将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句,再将每个候选属性语句分别与参考语句拼接生成对应的待检测语句。
本申请提供的实施例中,将候选实体“付某1”的属性信息转换为属性语句1“性别是男,年龄是43,职位是G市H局局长”;将候选实体“付某2”的属性信息转换为属性语句2“性别是男,年龄是15,职位是学生”;将候选实体“付某3”的属性信息转换为属性语句3“性别是女,年龄是28,职位是M市N局职员”;将候选实体“付某4”的属性信息转换为属性语句4“性别是男,年龄是69,职位是退休员工”。
将属性语句1与参考语句拼接生成待检测语句1“性别是男,年龄是43,职位是G市H局局长;付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”;将属性语句2与参考语句拼接生成待检测语句2“性别是男,年龄是15,职位是学生;付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”;将属性语句3与参考语句拼接生成待检测语句3“性别是女,年龄是28,职位是M市N局职员;付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”;将属性语句4与参考语句拼接生成待检测语句4“性别是男,年龄是69,职位是退休员工;付某在担任G市H局局长期间,取得了突出的成绩,被调任G市市长一职。”。
步骤408:将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述实施例中二分类模型的训练方法训练获得。
所述二分类模型根据上述二分类模型的训练方法训练获得。将每个待检测语句输入至二分类模型中,二分类模型根据每个待检测语句输出对应的分类结果。
在本申请提供的实施例中,将待检测语句1输入至二分类模型中,获得分类结果1为“正确,92%”;将待检测语句2输入至二分类模型中,获得分类结果2为“错误,11%”;将待检测语句3输入至二分类模型中,获得分类结果3为“错误,48%”;将待检测语句4输入至二分类模型中,获得分类结果4为“错误,40%”。
步骤410:根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
根据分类结果,选择概率值最高的待检测语句为目标待检测语句,进而根据目标待检测语句确定目标候选实体,目标待检测语句为根据分类结果确定的待检测语句,目标候选实体为目标待检测语句对应的候选实体。在确定目标候选实体后,即可将待链接实体与所述目标候选实体进行链接。
在本申请提供的实施例中,选择概率值最高的分类结果1对应的待检测语句1为目标待检测语句,进而确定目标候选实体为候选实体“付某1”,至此,即可将待链接实体“付某”与候选实体“付某1”进行链接,实现实体消歧。
本申请实施例提供的实体链接方法,将待链接实体的上下文信息作为参考语句与知识图谱中候选实体对应的属性信息拼接生成待检测语句,输入至经过上述二分类模型的训练方法训练成功的二分类模型,二分类模型通过挖掘参考语句和属性信息之间的深层次关系,输出分类结果,再根据分类结果选择在候选实体中选择目标候选实体,将待链接实体与目标候选实体进行链接,通过本方法无需创建规则或限制待链接实体的属性信息与知识图谱中的候选实体进行匹配,当待链接实体的上下文中无明确属性信息时,也可以使得实体链接过程简洁高效,且准确率高。
与上述方法实施例相对应,本申请还提供了二分类模型的训练装置实施例,图6示出了本申请一个实施例的二分类模型的训练装置的结构示意图。如图6所示,该装置包括:
第一获取模块602,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第一确定模块604,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第一生成模块606,被配置为根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;
训练模块608,被配置为将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
可选的,所述第一获取模块602,进一步被配置为获取训练文本;接收确定指令,根据所述确定指令在所述训练文本中确定待链接实体;根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句。
可选的,所述第一获取模块602,进一步被配置为在所述训练文本中确定包含所述待链接实体的句子作为所述待链接实体对应的参考语句。
可选的,所述第一生成模块606,进一步被配置为将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;将每个候选属性语句分别与参考语句拼接生成对应的训练语句。
可选的,所述训练模块608,进一步被配置为将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,获取每次二分类模型的输出结果;在所述输出结果的准确率小于预设阈值的情况下,继续训练所述二分类模型;在所述输出结果的准确率大于等于所述预设阈值的情况下,结束训练,获得二分类模型。
本申请实施例提供的二分类模型训练装置,在知识图谱中获取与待链接实体对应的候选实体,并根据每个候选实体对应的属性信息和待链接实体的参考语句组成训练语句,为每个训练语句配置训练标签,再将训练语句和对应的训练标签输入至二分类模型中进行训练,使得二分类模型具有根据输入的属性信息和参考语句挖掘二者之间更深层次之间的关系的能力,二分类模型可以高效准确地判断属性信息和参考语句之间关联的概率,进而确定待链接实体与候选实体之间相关联的概率。
与上述方法实施例相对应,本申请还提供了实体链接装置实施例,图7示出了本申请一个实施例的实体链接装置的结构示意图。如图7所示,该装置包括:
第二获取模块702,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第二确定模块704,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第二生成模块706,被配置为根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句;
输入模块708,被配置为将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述实施例中二分类模型的训练方法训练获得;
链接模块710,被配置为根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
可选的,所述第二获取模块702,进一步被配置为获取原始文本;接收确定指令,根据所述确定指令在所述原始文本中确定待链接实体;根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句。
可选的,所述第二获取模块702,进一步被配置为在所述原始文本中确定包含所述待链接实体的句子为所述待链接实体对应的参考语句。
可选的,所述第二生成模块706,被配置为将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;将每个候选属性语句分别与参考语句拼接生成对应的待检测语句。
可选的,所述分类结果包括每个待检测语句对应的分类概率值;
所述链接模块710,进一步被配置为选取分类概率值最高的待检测语句作为目标待检测语句;选取目标待检测语句对应的候选实体为目标候选实体。
本申请实施例提供的实体链接装置,将待链接实体的上下文信息作为参考语句与知识图谱中候选实体对应的属性信息拼接生成待检测语句,输入至经过上述二分类模型的训练方法训练成功的二分类模型,二分类模型通过挖掘参考语句和属性信息之间的深层次关系,输出分类结果,再根据分类结果选择在候选实体中选择目标候选实体,将待链接实体与目标候选实体进行链接,通过本方法无需创建规则或限制待链接实体的属性信息与知识图谱中的候选实体进行匹配,当待链接实体的上下文中无明确属性信息时,也可以使得实体链接过程简洁高效,且准确率高。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的二分类模型的训练方法或实体链接方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述二分类模型的训练方法或实体链接方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的二分类模型的训练方法或实体链接方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述二分类模型的训练方法或实体链接方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述二分类模型的训练方法或实体链接方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种二分类模型的训练方法,其特征在于,包括:
获取待链接实体和所述待链接实体对应的参考语句;
确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;
将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
2.如权利要求1所述的二分类模型的训练方法,其特征在于,获取待链接实体和所述待链接实体对应的参考语句,包括:
获取训练文本;
接收确定指令,根据所述确定指令在所述训练文本中确定待链接实体;
根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句。
3.如权利要求2所述的二分类模型的训练方法,其特征在于,根据所述待链接实体在所述训练文本中确定所述待链接实体对应的参考语句,包括:
在所述训练文本中确定包含所述待链接实体的句子作为所述待链接实体对应的参考语句。
4.如权利要求1所述的二分类模型的训练方法,其特征在于,根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,包括:
将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;
将每个候选属性语句分别与参考语句拼接生成对应的训练语句。
5.如权利要求1所述的二分类模型的训练方法,其特征在于,将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型,包括:
将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,获取每次二分类模型的输出结果;
在所述输出结果的准确率小于预设阈值的情况下,继续训练所述二分类模型;
在所述输出结果的准确率大于等于所述预设阈值的情况下,结束训练,获得二分类模型。
6.一种实体链接方法,其特征在于,包括:
获取待链接实体和所述待链接实体对应的参考语句;
确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句;
将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述权利要求1-5任意一项二分类模型的训练方法训练获得;
根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
7.如权利要求6所述的实体链接方法,其特征在于,获取待链接实体和所述待链接实体对应的参考语句,包括:
获取原始文本;
接收确定指令,根据所述确定指令在所述原始文本中确定待链接实体;
根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句。
8.如权利要求7所述的实体链接方法,其特征在于,根据所述待链接实体在所述原始文本中确定所述待链接实体对应的参考语句,包括:
在所述原始文本中确定包含所述待链接实体的句子为所述待链接实体对应的参考语句。
9.如权利要求6所述的实体链接方法,其特征在于,根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句,包括:
将每个候选实体的属性信息转换为每个候选实体对应的候选属性语句;
将每个候选属性语句分别与参考语句拼接生成对应的待检测语句。
10.如权利要求6所述的实体链接方法,其特征在于,所述分类结果包括每个待检测语句对应的分类概率值;
根据所述分类结果确定目标候选实体,包括:
选取分类概率值最高的待检测语句作为目标待检测语句;
选取目标待检测语句对应的候选实体为目标候选实体。
11.一种二分类模型的训练装置,其特征在于,包括:
第一获取模块,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第一确定模块,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第一生成模块,被配置为根据每个所述候选实体对应的属性信息与所述参考语句生成每个候选实体对应的训练语句,并为每个所述训练语句配置训练标签;
训练模块,被配置为将每个所述训练语句和对应的训练标签输入至预训练的二分类模型中进行迭代训练,直至达到训练停止条件,获得二分类模型。
12.一种实体链接装置,其特征在于,包括:
第二获取模块,被配置为获取待链接实体和所述待链接实体对应的参考语句;
第二确定模块,被配置为确定与所述待链接实体对应的至少一个候选实体和每个候选实体对应的属性信息;
第二生成模块,被配置为根据每个所述候选实体的属性信息与所述参考语句分别生成每个候选实体对应的待检测语句;
输入模块,被配置为将每个所述待检测语句输入至二分类模型,以使所述二分类模型根据每个输入的待检测语句输出对应的分类结果,其中,所述二分类模型根据上述权利要求1-5任意一项二分类模型的训练方法训练获得;
链接模块,被配置为根据所述分类结果确定目标候选实体,并将所述待链接实体与所述目标候选实体进行链接。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-5或者6-10任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5或者6-10任意一项所述方法的步骤。
CN202010317893.8A 2020-04-21 二分类模型的训练方法及装置、实体链接方法及装置 Active CN113537263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317893.8A CN113537263B (zh) 2020-04-21 二分类模型的训练方法及装置、实体链接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317893.8A CN113537263B (zh) 2020-04-21 二分类模型的训练方法及装置、实体链接方法及装置

Publications (2)

Publication Number Publication Date
CN113537263A true CN113537263A (zh) 2021-10-22
CN113537263B CN113537263B (zh) 2024-07-12

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110457369A (zh) * 2019-08-07 2019-11-15 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110457369A (zh) * 2019-08-07 2019-11-15 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US20210232761A1 (en) Methods and systems for improving machine learning performance
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN110633577A (zh) 文本脱敏方法以及装置
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN111125295B (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN110609886A (zh) 一种文本分析方法及装置
CN110929015B (zh) 一种多文本分析方法及装置
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN116595026A (zh) 信息查询方法
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN116501858B (zh) 文本处理及数据查询方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN110688838B (zh) 一种成语同义词列表的生成方法及装置
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN110750989B (zh) 一种语句分析的方法及装置
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN114492410A (zh) 合约信息提取方法及装置
CN113537263B (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN114358313A (zh) 数据处理方法及装置
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN114138947A (zh) 文本处理方法及装置
JP6526607B2 (ja) 学習装置、学習方法、および学習プログラム
CN111079013A (zh) 一种基于推荐模型的信息推荐方法及装置
CN117891927B (zh) 基于大语言模型的问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant