CN114519396A - 实体表征模型的训练方法、装置、电子设备、存储介质 - Google Patents

实体表征模型的训练方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114519396A
CN114519396A CN202210161016.5A CN202210161016A CN114519396A CN 114519396 A CN114519396 A CN 114519396A CN 202210161016 A CN202210161016 A CN 202210161016A CN 114519396 A CN114519396 A CN 114519396A
Authority
CN
China
Prior art keywords
sample
entity
training
characterization
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210161016.5A
Other languages
English (en)
Inventor
付桂振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210161016.5A priority Critical patent/CN114519396A/zh
Publication of CN114519396A publication Critical patent/CN114519396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于人工智能领域,提供了一种实体表征模型的训练方法、装置、电子设备、存储介质,方法包括:获取样本语句,根据字符粒度将样本语句拆分为多个样本单词,得到由多个样本单词组成的词序列;获取预设有多个参考实体的知识图谱;根据词序列从参考实体中确定至少一个样本实体;通过拼接样本实体和词序列得到样本序列,将样本序列输入至实体表征模型进行实体表征的训练。根据本实施例的技术方案,能够根据词序列从知识图谱获取领域内的样本实体,确保了实体表征训练的语义表达的充分性,对于领域外的独立实体通过样本单词进行间接表征,避免了采用领域外的独立实体进行训练引起的误差,提高了实体表征模型训练的准确性。

Description

实体表征模型的训练方法、装置、电子设备、存储介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种实体表征模型的训练方法、装置、电子设备、存储介质。
背景技术
随着人工智能技术的发展,自然语言处理(Nature Language processing,NLP)的应用越来越广泛,涉及到许多实体相关的任务,比如命名实体识别、关系分类、问答系统等,解决这些问题的关键在于对输入的语句进行有效的实体表征。业界通常的做法是将实体以及该实体自身的语义信息用一个固定维度的向量来表征,向量涵盖实体的信息越丰富越有利于后续任务的开展。现有技术中,实体表征模型通常结合领域知识图谱和图神经网络来生成实体表征,在预测之前,需要将样本语句按照实体粒度拆分成多个独立实体,以多个邻接的独立实体作为训练数据进行模型训练,但是在知识图谱的领域实体不完整的情况下,很可能出现独立实体不在知识图谱的领域内的情况,在训练过程中,对于领域外的独立实体很难进行有效表征,实体表征模型的训练很容易失败,导致实体表征模型的准确度和完整性较低。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种实体表征模型的训练方法、装置、电子设备、存储介质,能够结合字符级的词序列和知识图谱中的样本实体进行实体表征的训练,提高实体表征模型的训练准确性。
第一方面,本发明实施例提供了一种实体表征模型的训练方法,包括:
获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;
获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;
根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;
通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。
在一些实施例中,在所述获取预设的知识图谱之前,所述方法还包括:
在所述知识图谱中配置多个所述参考实体;
根据预设数据集为所述参考实体标注所述参考信息。
在一些实施例中,所述根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体,包括:
从所述词序列中连续选取至少两个所述样本单词,得到样本词组;
根据所述样本词组和所述参考信息,从所述参考实体中匹配出至少一个所述样本实体。
在一些实施例中,所述实体表征模型包括RoBERTa模型,所述将所述样本序列输入至实体表征模型进行实体表征的训练,包括:
通过所述RoBERTa模型对所述样本序列进行语义编码,得到所述样本单词所对应的第一token和所述样本实体所对应的第二token;
根据所述第一token、所述第二token,所述样本序列进行实体表征的训练,得到所述样本实体的语义表征向量。
在一些实施例中,所述实体表征模型还包括Transformer模型,所述根据所述第一token、所述第二token,所述样本序列进行实体表征的训练,得到所述样本实体的语义表征向量,包括:
将所述第一token、所述第二token和所述样本序列输入至所述Transformer模型;
通过所述Transformer模型确定第一注意力矩阵,所述第一注意力矩阵表征多个所述第一token之间的注意力关系;
通过所述Transformer模型确定第二注意力矩阵,所述第二注意力矩阵表征所述第二token和所述第一token之间的注意力关系;
根据所述词序列和所述第一注意力矩阵得到第一特征向量,根据所述样本实体和所述第二注意力矩阵得到第二特征向量;
根据所述第一特征向量和所述第二特征向量得到所述语义表征向量。
在一些实施例中,所述通过所述Transformer模型确定第二注意力矩阵,包括:
获取所述样本实体所对应的起始位置嵌入信息和结束位置嵌入信息,所述起始位置嵌入信息为所述样本实体所对应的排序最前的所述样本单词中的位置嵌入信息,所述结束位置嵌入信息为所述样本实体所对应的排序最末的所述样本单词中的位置嵌入信息;
根据所述起始位置嵌入信息和所述结束位置嵌入信息确定所述样本实体的目标位置嵌入信息;
根据所述目标位置嵌入信息、所述第一token和所述第二token确定所述第二注意力矩阵。
在一些实施例中,所述根据所述第一特征向量和所述第二特征向量得到所述语义表征向量,包括:
获取预设的损失权重;
根据所述损失权重分别对所述第一特征向量和所述第二特征向量进行损失计算;
将损失计算得到的特征向量进行合并,得到所述语义表征向量。
第二方面,本发明实施例提供了一种实体表征模型的训练装置,包括:
词序列获取单元,用于获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;
知识图谱获取单元,用于获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;
实体获取单元,用于根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;
训练单元,用于通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的实体表征模型的训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序用于执行如第一方面所述的实体表征模型的训练方法。
本发明实施例包括:获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。根据本实施例的技术方案,按照字符粒度将样本语句拆分为样本单词组成的词序列,根据词序列从知识图谱获取领域内的样本实体,确保了实体表征训练的语义表达的充分性,对于知识图谱领域外的独立实体通过样本单词进行间接表征,有效避免了采用领域外的独立实体进行训练引起的误差,提高了实体表征模型训练的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的实体表征模型的训练方法的流程图;
图2是本发明另一个实施例提供的标注知识图谱的流程图;
图3是本发明另一个实施例提供的选取样本实体的流程图;
图4是本发明另一个实施例提供的计算token的流程图;
图5是本发明另一个实施例提供的实体表征训练的流程图;
图6是本发明另一个实施例提供的得到目标位置嵌入信息的流程图;
图7是本发明另一个实施例提供的损失计算的流程图;
图8是本发明另一个实施例提供的实体表征模型的训练装置的结构图;
图9是本发明另一个实施例提供的电子设备的装置图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种实体表征模型的训练方法、装置、电子设备、存储介质,方法包括:获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。根据本实施例的技术方案,按照字符粒度将样本语句拆分为样本单词组成的词序列,根据词序列从知识图谱获取领域内的样本实体,确保了实体表征训练的语义表达的充分性,对于知识图谱领域外的独立实体通过样本单词进行间接表征,有效避免了采用领域外的独立实体进行训练引起的误差,提高了实体表征模型训练的准确性。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR(Virtual Reality,虚拟现实)/AR(AugmentedReality,增强现实)设备等等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
需要说明的是,本发明实施例的数据可以保存在服务器中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
如图1所示,图1是本发明一个实施例提供的一种实体表征模型的训练方法的流程图,该实体表征模型的训练方法包括但不限于有以下步骤:
步骤S110,获取样本语句,根据字符粒度将样本语句拆分为多个样本单词,得到由多个样本单词组成的词序列;
步骤S120,获取预设的知识图谱,知识图谱中预先设定有多个参考实体,每个参考实体标注有参考信息;
步骤S130,根据词序列与参考信息进行匹配,从参考实体中确定至少一个样本实体;
步骤S140,通过拼接样本实体和词序列得到样本序列,将样本序列输入至实体表征模型进行实体表征的训练。
需要说明的是,获取到样本语句之后,根据字符粒度拆分得到多个样本单词,以字符级的单词作为训练数据,由于拆分的粒度比起独立实体粒度更小,在训练过程中不需要在知识图谱中进行独立实体的关联,而是通过字符级的单词实现实体的间接表征,能够有效避免实体不在知识图谱领域内导致训练出错,例如,输入的样本语句为“二甲双胍用于治疗糖尿病”,则按照字符粒度,以每个字作为一个样本单词。
需要说明的是,知识图谱的参考实体可以根据领域的不同设定,例如对于医疗领域的知识图谱,参考实体可以是疾病名称或者药物名称,参考信息可以是疾病或者药物的简称、学名或者定义等,能够实现对参考实体的标注即可,本实施例对此不多作限定。
需要说明的是,由于词序列有多个样本单词组成,因此可以逐个样本单词与参考信息匹配,也可以连续选取多个样本单词构成词组进行查询,例如在词序列“二、甲、双、胍、用、于、治、疗、糖、尿、病”中,可以通过“胍”进行样本实体的查询,也可以通过“二甲双胍”进行查询,由于“二甲双胍”为一种药物,因此可以在医疗领域的知识图谱中查找出对应的样本实体。
需要说明的是,样本实体可以直接拼接在词序列后,例如对于词序列“二、甲、双、胍、用、于、治、疗、糖、尿、病”,查找出的样本实体“二甲双胍”,则拼接之后得到的样本序列为“二、甲、双、胍、用、于、治、疗、糖、尿、病、二甲双胍”,由于输入语句被拆分成了字符级的样本单词,本实施例在词序列的基础上,从知识图谱中获取样本实体,能够确保样本序列中的样本实体属于知识图谱的领域内,并且,可以将样本语句的具备的实体直接进行语义建模,实现了实体语义表达的充分性。另外,相比于通过独立实体进行字符级别的细粒度的拆分,来对实体进行间接表征,避免了语义空间的变换,降低了误差的累积,保持了实体的语义完整性。
另外,参照图2,在一实施例中,在执行图1所示实施例的步骤S120之前,还包括但不限于有以下步骤:
步骤S210,在知识图谱中配置多个参考实体;
步骤S220,在根据预设数据集为参考实体标注参考信息。
需要说明的是,知识图谱的参考实体可以在训练之前根据具体的领域和实际需求设定,例如对于医疗领域,可以根据所有的药品名称或者疾病名称建立参考实体,能够确保知识图谱的全面性即可。
需要说明的是,为了确保标注的全面性,可以通过预设数据集对参考实体进行参考信息的标注,例如wikipedia,当然也可以用其他数据集,选取大量基础数据集进行模型预训练,模型能够学到更加丰富的领域知识,泛化能力也更好在此不多作限定。
另外,参照图3,在一实施例中,图1所示实施例的步骤S130还包括但不限于有以下步骤:
步骤S310,从词序列中连续选取至少两个样本单词,得到样本词组;
步骤S320,根据样本词组和参考信息,从参考实体中匹配出至少一个样本实体。
需要说明的是,由于词序列中的样本单词以字符粒度拆分得到,对于中文使用场景,仅一个文字所代表的含义较多,很难准确匹配到对应的样本实体,例如上述词序列中,若仅以“糖”进行样本实体的查找,涉及“糖”字的概念非常多,例如药品中的“葡萄糖”和疾病中的“糖尿病”,二者属于完全不同的概念,若都采用会对实体表征的准确性造成较大的影响,为了提高样本实体查询的准确性和效率,可以至少两个选取两个样本单词组合成样本词组进行查询。
需要说明的,由于样本语句通常是连贯的句子,例如“二、甲、双、胍”四个样本单词都拆分于词组“二甲双胍”,因此在选取样本单词组合样本词组时,可以连续选取多个样本单词,使其组成具有特定含义的词组进行查询,能够有效提高查询的准确性,具体的连续选取样本单词的数量可以根据实际需求调整,并且在匹配失败的情况下进一步增加或者减少样本单词的数量,直到匹配成功为止。
另外,在一实施例中,实体表征模型包括RoBERTa模型,参照图4,图1所示实施例的步骤S140还包括但不限于有以下步骤:
步骤S410,通过RoBERTa模型对样本序列进行语义编码,得到样本单词所对应的第一token和样本实体所对应的第二token;
步骤S420,根据第一token、第二token,样本序列进行实体表征的训练,得到样本实体的语义表征向量。
需要说明的是,RoBERTa模型具有不失一般性的特点,在通过预先训练之后,在自然语言处理中具有较好的表现,尤其具有较好的语义表征能力,因此,本实施例采用RoBERTa模型作为实体表征模型的预训练模型,对输入的样本序列进行语义编码,能够训练出的语义表征向量准确性更高,RoBERTa模型的具体配置和训练过程为本领域技术人员熟知的技术,为了叙述简便在此不多作赘述。
需要说明的是,在将样本序列输入RoBERTa模型之后,可以对样本单词和样本实体进行语义编码,从而得到各自的token,由于在原有的词汇基础上扩充了样本实体,在通过RoBERTa模型进行预训练时,可以将第一token和第二token作为单个token对待,并且为了数据的多样性进行随机token替换,可以将样本实体替换为样本单词,也可以将样本单词替换为样本实体,本领域技术人员熟知如何在RoBERTa模型中进行token替换,在此对具体操作不多作赘述。
另外,在一实施例中,实体表征模型还包括Transformer模型,参照图5,图4所示实施例的步骤S420还包括但不限于有以下步骤:
步骤S510,将第一token、第二token和样本序列输入至Transformer模型;
步骤S520,通过Transformer模型确定第一注意力矩阵,第一注意力矩阵表征多个第一token之间的注意力关系;
步骤S530,通过Transformer模型确定第二注意力矩阵,第二注意力矩阵表征第二token和第一token之间的注意力关系;
步骤S540,根据词序列和第一注意力矩阵得到第一特征向量,根据样本实体和第二注意力矩阵得到第二特征向量;
步骤S550,根据第一特征向量和第二特征向量得到语义表征向量。
需要说明的是,Transformer模型广泛应用于自然语言处理领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。基于自注意力机制的Transformer模型是目前代表最先进水平的神经网络架构,其中包括编码器与解码器。编码器负责提取文本的特征信息,为文本中每个词提取一个特征向量,从而得到整个文本的特征向量。解码器负责利用编码器提取的特征向量生成符合特征信息的关键词作为输出。在此基础上,当第一token、第二token和样本序列输入Transformer模型之后,计算第一token之间的第一注意力矩阵,以及第一token和第二token之间的第二注意力矩阵,通过第一注意力矩阵表征样本单词之间的注意力关系,通过第二注意力矩阵表征样本单词与样本实体之间的注意力关系,能够在后续训练过程中有效提高实体表征的准确性。
需要说明的是,对于基于自注意力机制的Transformer模型而言,在得到注意力矩阵之后,通过注意力矩阵与输入信息可以得到特征向量,在本实施例中,通过第一注意力矩阵和样本单词,可以提取出词序列的第一特征向量,同理,通过第二注意力矩阵和样本实体,可以提取出样本实体的第二特征向量,在具备注意力矩阵的情况下,本领域技术人员熟知如何进行特征提取,在此不多作赘述。
需要说明的是,在第一特征向量和第二特征向量后,可以进行简单的特征融合得到语义表征向量,也可以通过推理层推理得到,本实施例对此不多作限定。
另外,参照图6,在一实施例中,图5所示实施例的步骤S530,还包括但不限于有以下步骤:
步骤S610,获取所述样本实体所对应的起始位置嵌入信息和结束位置嵌入信息,所述起始位置嵌入信息为所述样本实体所对应的排序最前的所述样本单词中的位置嵌入信息,所述结束位置嵌入信息为所述样本实体所对应的排序最末的所述样本单词中的位置嵌入信息;
步骤S620,根据所述起始位置嵌入信息和所述结束位置嵌入信息确定所述样本实体的目标位置嵌入信息;
步骤S630,根据所述目标位置嵌入信息、所述第一token和所述第二token确定所述第二注意力矩阵。
需要说明的是,嵌入位置信息是语义识别过程中每个样本数据的重要信息,作为每个样本数据在语句中的位置标识,通常以标志向量的形式与样本数据相关联,而样本单词通过拆分样本语句得到,因此每个样本单词的嵌入位置信息是可知的,例如在词序列“二、甲、双、胍、用、于、治、疗、糖、尿、病”中,每个样本单词的嵌入位置信息可以按照其在词序列中的顺序表示,例如依次为C2至C12,其中,C1为词序列的起始标识,C13位序列的结束标识。而样本实体并非词序列中的内容,而是通过样本词组匹配得到,因此为了建立样本实体和样本词组之间的关联关系,使得后续训练过程中能够增强样本实体和样本词组的注意力,从而提高实体表征的准确性,可以根据样本实体的边界字符进行均值求和得到目标位置嵌入信息,例如在上述词序列中,匹配出的样本实体为“二甲双胍”,其对应的边界字符为“二”和“胍”,起始位置嵌入信息为C2,结束位置嵌入信息为C6,则样本实体“二甲双胍”的目标位置嵌入信息为(C2+C6)/2。
需要说明的是,目标位置嵌入信息可以体现第一token和第二token之间的注意力关系,例如,样本实体“二甲双胍”的目标位置嵌入信息为(C2+C6)/2,则可以确定其关联的样本单词的嵌入位置信息为C2至C6,根据C2至C6的样本单词所对应的第一token与样本实体所对应的第二token进行第二注意力矩阵的计算。
需要说明的是,在确定目标位置嵌入信息之后,可以将其关联至样本实体,使得样本实体输入至实体表征模型计算注意力时,模型能够根据该目标位置嵌入信息确定其关联的样本单词,使得实体表征的训练不仅仅侧重于某一局部的词义表达,而是能够结合样本实体从语义层面更加全面地表达实体间的语义关系。
另外,在一实施例中,参照图7,图5所示实施例的步骤S550还包括但不限于有以下步骤:
步骤S710,获取预设的损失权重;
步骤S720,根据损失权重分别对第一特征向量和第二特征向量进行损失计算;
步骤S730,将损失计算得到的特征向量进行合并,得到语义表征向量。
需要说明的是,为了实现实体表征的训练,可以在实体表征模型设置常见的推理层,以第一特征向量和第二特征向量作为数据基础进行推理。损失函数的计算是常用的推理方法,在本实施例中,可以通过相同的损失权重对第一特征向量和第二特征向量进行损失计算,具体的损失函数可以根据实际需求选取。
需要说明的是,通过损失计算,能够根据第一特征向量和第二特征向量得到最终的预测结果,例如对第一特征向量损失计算后得到的特征词为“胍”和“糖”,对第二特征向量进行损失计算得到的特征词为“糖尿病”,得出的语义表征向量所对应的语义为“二甲双胍”和“糖尿病”,能够用于下游相关任务进行实体识别、实体链接等操作。
另外,参照图8,本发明实施例提供了一种实体表征模型的训练装置,该实体表征模型的训练装置800包括:
词序列获取单元810,用于获取样本语句,根据字符粒度将样本语句拆分为多个样本单词,得到由多个样本单词组成的词序列;
知识图谱获取单元820,用于获取预设的知识图谱,知识图谱中预先设定有多个参考实体,每个参考实体标注有参考信息;
实体获取单元830,用于根据词序列与参考信息进行匹配,从参考实体中确定至少一个样本实体;
训练单元840,用于通过拼接样本实体和词序列得到样本序列,将样本序列输入至实体表征模型进行实体表征的训练。
另外,参照图9,本发明的一个实施例还提供了一种电子设备,该电子设备900包括:存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。
处理器920和存储器910可以通过总线或者其他方式连接。
实现上述实施例的实体表征模型的训练方法所需的非暂态软件程序以及指令存储在存储器910中,当被处理器920执行时,执行上述实施例中的应用于设备的实体表征模型的训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S550、图6中的方法步骤S610至步骤S630、图7中的方法步骤S710至步骤S730。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的实体表征模型的训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S550、图6中的方法步骤S610至步骤S630、图7中的方法步骤S710至步骤S730。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性存储介质)和通信存储介质(或暂时性存储介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除存储介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的存储介质。此外,本领域普通技术人员公知的是,通信存储介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送存储介质。
本申请可用于众多通用或专用的计算机装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、基于微处理器的装置、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机程序的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的程序。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种实体表征模型的训练方法,其特征在于,包括:
获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;
获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;
根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;
通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。
2.根据权利要求1所述的实体表征模型的训练方法,其特征在于,在所述获取预设的知识图谱之前,所述方法还包括:
在所述知识图谱中配置多个所述参考实体;
根据预设数据集为所述参考实体标注所述参考信息。
3.根据权利要求1所述的实体表征模型的训练方法,其特征在于,所述根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体,包括:
从所述词序列中连续选取至少两个所述样本单词,得到样本词组;
根据所述样本词组和所述参考信息,从所述参考实体中匹配出至少一个所述样本实体。
4.根据权利要求1所述的实体表征模型的训练方法,其特征在于,所述实体表征模型包括RoBERTa模型,所述将所述样本序列输入至实体表征模型进行实体表征的训练,包括:
通过所述RoBERTa模型对所述样本序列进行语义编码,得到所述样本单词所对应的第一token和所述样本实体所对应的第二token;
根据所述第一token、所述第二token,所述样本序列进行实体表征的训练,得到所述样本实体的语义表征向量。
5.根据权利要求4所述的实体表征模型的训练方法,其特征在于,所述实体表征模型还包括Transformer模型,所述根据所述第一token、所述第二token,所述样本序列进行实体表征的训练,得到所述样本实体的语义表征向量,包括:
将所述第一token、所述第二token和所述样本序列输入至所述Transformer模型;
通过所述Transformer模型确定第一注意力矩阵,所述第一注意力矩阵表征多个所述第一token之间的注意力关系;
通过所述Transformer模型确定第二注意力矩阵,所述第二注意力矩阵表征所述第二token和所述第一token之间的注意力关系;
根据所述词序列和所述第一注意力矩阵得到第一特征向量,根据所述样本实体和所述第二注意力矩阵得到第二特征向量;
根据所述第一特征向量和所述第二特征向量得到所述语义表征向量。
6.根据权利要求5所述的实体表征模型的训练方法,其特征在于,所述通过所述Transformer模型确定第二注意力矩阵,包括:
获取所述样本实体所对应的起始位置嵌入信息和结束位置嵌入信息,所述起始位置嵌入信息为所述样本实体所对应的排序最前的所述样本单词中的位置嵌入信息,所述结束位置嵌入信息为所述样本实体所对应的排序最末的所述样本单词中的位置嵌入信息;
根据所述起始位置嵌入信息和所述结束位置嵌入信息确定所述样本实体的目标位置嵌入信息;
根据所述目标位置嵌入信息、所述第一token和所述第二token确定所述第二注意力矩阵。
7.根据权利要求6所述的实体表征模型的训练方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量得到所述语义表征向量,包括:
获取预设的损失权重;
根据所述损失权重分别对所述第一特征向量和所述第二特征向量进行损失计算;
将损失计算得到的特征向量进行合并,得到所述语义表征向量。
8.一种实体表征模型的训练装置,其特征在于,包括:
词序列获取单元,用于获取样本语句,根据字符粒度将所述样本语句拆分为多个样本单词,得到由多个所述样本单词组成的词序列;
知识图谱获取单元,用于获取预设的知识图谱,所述知识图谱中预先设定有多个参考实体,每个所述参考实体标注有参考信息;
实体获取单元,用于根据所述词序列与所述参考信息进行匹配,从所述参考实体中确定至少一个样本实体;
训练单元,用于通过拼接所述样本实体和所述词序列得到样本序列,将所述样本序列输入至实体表征模型进行实体表征的训练。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的实体表征模型的训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序用于执行如权利要求1至7中任意一项所述的实体表征模型的训练方法。
CN202210161016.5A 2022-02-22 2022-02-22 实体表征模型的训练方法、装置、电子设备、存储介质 Pending CN114519396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210161016.5A CN114519396A (zh) 2022-02-22 2022-02-22 实体表征模型的训练方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210161016.5A CN114519396A (zh) 2022-02-22 2022-02-22 实体表征模型的训练方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN114519396A true CN114519396A (zh) 2022-05-20

Family

ID=81599740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210161016.5A Pending CN114519396A (zh) 2022-02-22 2022-02-22 实体表征模型的训练方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114519396A (zh)

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN114897060B (zh) 样本分类模型的训练方法和装置、样本分类方法和装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114613493A (zh) 问诊对话模型的评估方法和装置、电子设备及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN116821285A (zh) 基于人工智能的文本处理方法、装置、设备及介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN112101015B (zh) 一种识别多标签对象的方法及装置
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN114519396A (zh) 实体表征模型的训练方法、装置、电子设备、存储介质
CN114612826A (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination