CN112131883A - 语言模型训练方法、装置、计算机设备和存储介质 - Google Patents

语言模型训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112131883A
CN112131883A CN202011065901.0A CN202011065901A CN112131883A CN 112131883 A CN112131883 A CN 112131883A CN 202011065901 A CN202011065901 A CN 202011065901A CN 112131883 A CN112131883 A CN 112131883A
Authority
CN
China
Prior art keywords
training
target
entity
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011065901.0A
Other languages
English (en)
Inventor
贺飞艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011065901.0A priority Critical patent/CN112131883A/zh
Publication of CN112131883A publication Critical patent/CN112131883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请涉及一种语言模型训练方法、装置、计算机设备和存储介质。方法包括:获取训练文本集合;基于训练文本集合中的训练文本以及待训练的语言模型,对各个训练实体进行语义编码,得到训练语义向量;确定存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量;根据第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量;根据第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值;根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。其中,语言模型可以是基于人工智能的语言模型。采用本方法能够提高通过语言模型得到的语义向量的准确性。

Description

语言模型训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种语言模型训练方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的快速发展,语义向量在自然语言处理领域中有着越来越广泛的应用。语义向量是将实体转换至语义空间的向量表示,从而通过语义向量表示实体之间的语义信息。
目前,可以基于人工智能的语言模型学习实体的向量表示,得到实体对应的语义向量。然而,经常存在语义向量表示的语义信息与实体的真实语义不匹配的情况,语义向量无法准确的表示实体的语义信息,即语义向量的准确性比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效的提高语言模型得到的语义向量的准确性的语言模型训练方法、装置、计算机设备和存储介质。
一种语言模型训练方法,所述方法包括:
获取训练文本集合,确定所述训练文本集合对应的训练实体集合;
基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;
根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;
根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
一种语言模型训练装置,所述装置包括:
语义编码模块,用于获取训练文本集合,确定所述训练文本集合对应的训练实体集合;基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
距离向量获取模块,用于确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
参数调整模块,用于根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
在一些实施例中,所述距离向量获取模块还用于确定所述目标关联关系对应的目标关系类型,根据所述目标关系类型确定对应的所述目标关系距离向量,所述目标关系类型根据所述第一训练实体在目标领域中的实体类型确定。
在一些实施例中,所述距离向量获取模块还用于确定所述目标关联关系对应的所述目标关系类型;当确定所述目标关系类型为包含关系类型时,确定所述包含关系类型对应的关系距离向量为所述目标关系距离向量。
在一些实施例中,所述距离向量获取模块还用于获取实体知识网络图,所述实体知识网络图包括各个网络图实体对应的实体节点,以及表示所述实体节点之间的关联关系的边;获取所述训练实体集合中的所述第一训练实体,从所述实体知识网络图中,确定所述训练实体集合中与所述第一训练实体存在边连接的所述第二训练实体;获取所述第一训练实体与所述第二训练实体的边所对应的关联关系,作为所述目标关联关系。
在一些实施例中,所述第二训练实体是实体知识网络图中,与所述第一训练实体存在目标关联关系的网络图实体;所述参数调整模块还用于根据所述第二训练实体对应的所述第二训练语义向量以及所述实体表示向量的向量距离确定知识损失值;获取所述训练文本中与所述第一训练实体对应的文本关联实体;根据所述文本关联实体对应的第三训练语义向量与所述第一训练语义向量的向量距离确定文本损失值;根据所述知识损失值以及所述文本损失值得到所述语言模型对应的所述目标模型损失值。
在一些实施例中,所述参数调整模块还用于获取知识关系权重以及文本关系权重;根据所述知识关系权重调整所述知识损失值,得到调整后的知识损失值,根据所述文本关系权重对所述文本损失值进行调整,得到调整后的文本损失值;对所述调整后的知识损失值以及所述调整后的文本损失值进行求和计算,得到所述语言模型对应的所述目标模型损失值。
在一些实施例中,所述参数调整模块还用于根据所述目标模型损失值确定向量调整方向;根据所述向量调整方向,对所述目标关系距离向量进行调整,得到调整后的目标关系距离向量。
在一些实施例中,所述距离向量获取模块还用于根据所述第一训练实体与所述第二训练实体之间的目标关联关系,确定目标计算方向,所述目标计算方向为相加或者相减;根据所述目标计算方向对所述第一训练实体对应的所述第一训练语义向量和所述目标关系距离向量进行运算,得到所述第二训练实体对应的所述实体表示向量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练文本集合,确定所述训练文本集合对应的训练实体集合;
基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;
根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;
根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练文本集合,确定所述训练文本集合对应的训练实体集合;
基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;
根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;
根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
上述语言模型训练方法、装置、计算机设备和存储介质,通过获取训练文本集合,确定训练文本集合对应的训练实体集合,基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量。通过确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量,由此利用目标关系距离向量表示第一训练实体与第二训练实体之间的目标关联关系。通过根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值,由此根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。由于目标模型损失值是根据表示目标关联关系的目标关系距离向量确定的,使得语言模型能够学习第一训练实体与第二训练实体之间的目标关联关系,学习到的语义向量既可以表示实体的语义,又能够体现实体之间的距离,由此能够有效的提高通过已训练的语言模型得到的语义向量的准确性。
一种文本处理方法,所述方法包括:
获取待处理的目标文本;
将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
一种文本处理装置,所述装置包括:
文本获取模块,用于获取待处理的目标文本;
文本编码模块,用于将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
结果确定模块,用于根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
在一些实施例中,所述目标文本为目标状态记录信息,所述结果确定模块还用于将所述目标状态记录信息中各个目标实体对应的语义编码向量进行融合,得到融合编码向量;从候选编码向量集合中,获取与所述融合编码向量匹配的目标编码向量,所述候选编码向量集合中的候选编码向量,是对历史状态记录信息中的实体进行编码得到的;将所述目标编码向量对应的历史状态记录信息,确定为与所述目标状态记录信息匹配的状态记录信息处理结果。
在一些实施例中,所述装置还包括模型训练模块,用于获取训练文本集合,确定所述训练文本集合对应的训练实体集合;基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的目标文本;
将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理的目标文本;
将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
上述文本处理方法、装置、计算机设备和存储介质,通过获取待处理的目标文本,将目标文本输入至已训练的语言模型中进行语义编码,得到目标文本中各个目标分词对应的语义编码向量。由于语言模型是根据训练文本集合训练得到的,在训练时,语言模型对应的目标模型损失值是根据目标关联关系对应的目标关系距离向量得到的,目标关联关系为训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系,由此能够使得语言模型根据第一训练实体与第二训练实体之间的目标关联关系学习实体的语义以及实体之间的关系,有效的提高了通过已训练的语言模型得到的语义编码向量的准确性。根据目标文本中各个目标分词对应的更加准确的语义编码向量,确定目标文本对应的文本处理结果,从而有效的提高了文本处理结果的准确性。
附图说明
图1为一个实施例中语言模型训练方法的应用环境图;
图2为一个实施例中语言模型训练方法的流程示意图;
图3为另一个实施例中语言模型训练方法的流程示意图;
图4为一个实施例中实体知识网络图的示意图;
图5为一个实施例中语言模型的示意图;
图6为一个实施例中训练语言模型的逻辑示意图;
图7为一个实施例中文本处理方法的流程示意图;
图8为一个实施例中进行状态记录信息查询的界面示意图;
图9为一个实施例中语言模型训练装置的结构框图;
图10为一个实施例中文本处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请各实施例中的语言模型训练方法,可以涉及人工智能(ArtificialIntelligence,简称为AI)技术。例如,可以基于人工智能的语言模型学习训练实体集合中第一训练实体与第二训练实体之间的语义关系。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可以理解的,本申请各实施例中的语言模型训练方法,使用了人工智能技术中的自然语言处理技术以及机器学习等,从而学习训练实体集合中的第一训练实体与第二训练实体之间的语义关系,得到更加准确的语义向量。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答和知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习技术以及自然语言处理,具体通过如下实施例进行说明:
本申请提供的语言模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。当需要进行语言模型训练时,终端102可以将训练文本集合,以及训练文本集合对应的训练实体集合发送至服务器104。服务器104基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量,确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量。服务器104根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离,确定语言模型对应的目标模型损失值。服务器104可以根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
其中,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102和服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种语言模型训练方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取训练文本集合,确定训练文本集合对应的训练实体集合。
训练文本集合是指包括多个训练文本的集合,多个是指两个或者两个以上。训练文本是用于对待训练的语言模型进行训练的文本数据。训练文本的语言可以是根据实际应用需求确定的,例如训练文本具体可以是中文文本,也可以是英文文本。训练实体集合与训练文本集合相对应,是包括多个训练实体的集合。训练实体是指训练文本中用于模型训练的实体,实体(Entity)是指具有特征意义的事物,例如可以包括地名、机构名或者专有名词等中的至少一种,专有名词可以包括多种类型中的至少一种。例如在医疗领域中,专有名词具体可以包括病症、药品或者检查等类型中的至少一种,比如实体具体可以为病症类型中的“肺结核”。一个训练文本中可以包括一个或者多个训练实体,一个训练实体也可以存在于一个或者多个训练文本中。
当需要对语言模型进行训练时,服务器可以获取训练文本集合。其中,训练文本集合可以是终端发送至服务器的,也可以是服务器基于终端发送的模型训练请求从预先设置的存储位置获取的。例如服务器对应的数据库中可以存储有训练文本集合,当需要对语言模型进行训练时,终端可以向服务器发送模型训练请求,模型训练请求携带有训练文本集合对应的训练文本集合标识,服务器可以响应于模型训练请求,根据训练文本集合标识从对应的数据库中获取训练文本集合。
服务器可以确定获取到的训练文本集合对应的训练实体集合。与训练文本集合相对应的,训练实体集合可以是由终端发送至服务器的,服务器可以接收终端发送的与训练文本集合对应的训练实体集合。训练实体集合中的训练实体可以是训练人员根据训练文本人为确定的。服务器也可以根据训练文本集合确定对应的训练实体集合。具体的,训练实体集合可以是基于训练文本集合预先确定的,服务器可以根据训练文本集合获取对应的训练实体集合,例如从数据库中查找得到与预先存储的与训练文本集合对应的训练实体集合。
服务器也可以根据获取到的训练文本集合,获取训练文本集合包括的训练文本中各自对应的训练实体,统计各个训练文本分别对应的训练实体,得到训练文本集合对应的训练实体集合。其中,服务器可以通过多种实体获取方式中的至少一种,获取训练文本中的训练实体。具体的,服务器可以对训练文本集合中的训练文本进行命名实体识别(NamedEntity Recognition,NER),得到训练文本中的训练实体。服务器还可以对训练文本集合中的训练文本进行切分,将训练文本切分成具有语义合理性的分词序列,得到训练文本对应的多个分词(token)。其中,对训练文本进行切分的方式可以采用基于词典或基于统计的分词切分方式。例如,假设训练文本为“今天是星期天”,则可以切分得到的分词序列为“今天/是/星期天”。服务器可以从切分得到的多个分词中提取实体,得到训练文本对应的训练实体。例如可以从分析序列中提取得到训练实体包括“今天”和“星期天”。
步骤204,基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量。
待训练的语言模型是指需要进行训练的语言模型,待训练的语言模型具体可以是多种基于人工智能的语言模型中的一种。例如,待训练的语言模型具体可以是Skip-gram模型或者基于BERT(Bidirectional Encoder Representation from Transformer,基于转换器的双向编码模型)等模型中的一种。语言模型可以用于对实体进行语义编码,得到实体对应的语义向量。语义编码是指将文本转换为向量进行表示,语义编码转换为的向量能够表示实体对应的语义信息。
训练语义向量是通过待训练的语言模型对训练实体进行语义编码得到的向量。训练语义向量具体可以是用于表示对应训练实体的嵌入向量(Embedding),嵌入向量可以是将训练实体从语义空间映射到向量空间的映射结果,通过低维度向量对训练实体进行表示。不同训练语义向量的特征维度可以是相同的,例如具体为200维的等维度向量。训练语义向量可以用于表示训练实体的语义信息,语义是指实体所蕴含的意义。例如当两个训练实体的语义相似时,则两个训练实体各自对应的训练语义向量之间的向量距离需要相近。
经过训练的语言模型可以用于将实体进行语义编码成对应的语义编码向量,通过对待训练的语言模型进行训练,由此能够使得语言模型学习得到训练实体之间的语义关系和语法关系,通过训练后的语言模型进行语义编码得到的语义编码向量,能够更加准确的表示实体对应的语义信息。
在获取到训练文本集合之后,服务器可以利用待训练的语言模型,并基于训练文本集合中的训练文本,对训练实体集合中各个训练实体进行语义编码,得到训练实体集合中的训练实体各自对应的训练语义向量。具体的,服务器可以基于训练文本集合中的训练文本,通过待训练的语言模型分别对各个训练文本中的训练实体进行语义编码,得到各个训练文本中训练实体对应的训练语义向量。由于训练实体集合中的训练实体分别存在于训练文本,一个训练文本包括至少一个训练实体,通过对训练文本集合中各个训练文本的训练实体进行语义编码,从而得到训练实体集合中各个训练实体分别对应的训练语义向量。
举例说明,假设训练文本集合包括训练文本1、训练文本2以及训练文本3,训练文本1中包括训练实体a,训练文本2中包括训练实体b、c以及d,训练文本3中包括训练实体e和f,与训练文本集合对应的,训练实体集合即包括训练实体a、b、c、d、e以及f。服务器可以通过待训练的语言模型,基于训练文本1,可以对训练实体a进行语义编码,基于训练文本2,可以对训练实体b、c以及d进行语义编码,基于训练文本3,可以对训练实体e和f进行语义编码,得到各自对应的训练语义向量。服务器可以分别基于训练文本集合中的训练文本1、训练文本2以及训练文本3,对训练实体集合中的训练实体a、b、c、d、e以及f分别进行语义编码,得到训练实体a、b、c、d、e以及f各自对应的训练语义向量。
在其中一个实施例中,服务器可以获取训练文本对应的训练实体序列,将训练实体序列输入至待训练的语言模型中进行语义编码,得到训练语义向量。其中,训练实体序列是指训练文本中的各个训练实体,根据顺序进行排序得到的序列。训练实体序列中的训练实体可以通过独热编码(One-Hot)向量进行表示,独热编码向量是指对训练实体进行独热编码得到的向量。具体的,服务器可以获取训练文本中的多个训练实体,根据训练实体在训练实体集合中的位置,将训练实体进行独热编码,得到训练实体对应的独热编码向量。例如,假设训练实体集合中包括6个训练实体,训练文本中的训练实体在训练实体集合中的位置为第三个,则可以将训练实体表示为001000。
服务器可以根据多个训练实体各自在训练文本中的顺序对独热编码向量进行排序,得到训练文本对应的训练实体序列,并将训练实体序列输入至待训练的语言模型中,从而使得待训练的语言模型通过训练实体序列得到训练实体的上下文,从上下文中学习训练实体的语义向量表示。服务器可以按照训练实体序列的顺序,基于待训练的语言模型对训练实体对应的独热编码向量进行语义编码,得到训练实体各自对应的训练语义向量。
步骤206,确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量。
目标关联关系是指第一训练实体与第二训练实体之间的关联关系,目标关联关系可以用于表示第一训练实体与第二训练实体之间的语义关系。语义关系可以用于表示训练实体在语义中的关联关系。例如语义关系具体可以包括同义关系、反义关系或者包含关系中的至少一种,包含关系表示训练实体之间在语义上具有上下位的关联关系。例如在医疗领域中,训练实体“结核病”与“肺结核”之间具有包含关系。
目标关联关系可以是根据第一训练实体与第二训练实体之间真实的语义信息预先设置的。第一训练实体是指在训练实体集合中,待训练的语言模型当前处理的训练实体。服务器可以根据训练文本中各个训练实体的顺序,依次确定待处理的训练实体作为第一训练实体。第二训练实体是指训练实体集合中,与第一训练实体存在目标关联关系的训练实体。第二训练实体可以与第一训练实体存在与同一训练文本中,也可以是在不同训练文本中的训练实体。第一训练实体可以对应有一个或者多个第二训练实体,多个是指两个或者两个以上。当第一训练实体对应有多个第二训练实体时,第一训练实体与各个第二训练实体之间的目标关联关系可以是相同的,也可以是不同的。
目标关系距离向量是指目标关联关系对应的关系距离向量,关系距离向量是用于表示存在关联关系的训练实体所对应的训练语义向量之间,在语义上的距离的向量。不同关联关系各自对应的关系距离向量可以是相同的,也可以是不同的。
在其中一个实施例中,关系距离向量在根据实际应用需求进行初始定义之后,可以在语言模型的训练过程中进行调整,服务器可以获取目标关联关系对应的调整后的关系距离向量作为目标关系距离向量,调整后的关系距离向量能够更加准确的表示训练实体所对应的训练语义向量之间的向量距离,由此能够通过目标关系距离向量准确的表示第一训练实体与第二训练实体之间的语义关系,以及对应训练语义向量之间的距离。
具体的,服务器可以确定待训练的语言模型当前处理的训练实体作为第一训练实体,从训练实体集合中确定与第一训练实体存在目标关联关系的第二训练实体。其中,与训练实体存在目标关联关系的第二训练实体可以是根据实体知识库得到的,实体知识库可以包括多个实体对应的信息,信息包括实体的语义信息。实体知识库可以采用实体知识图谱(Knowledge Graph)或者实体知识数据表等至少一种形式记录实体的信息。例如,实体知识图谱可以用于描述训练实体之间的关联关系,实体知识图谱中的节点可以表示训练实体,节点与节点之间连接的边可以表示训练实体之间的关联关系。服务器可以从实体知识图谱中,获取与第一训练实体直接存在边连接的至少一个训练实体,作为第二训练实体,第一训练实体与第二训练实体之间的边表示对应的目标关联关系。服务器可以根据目标关联关系获取对应的关系距离向量,作为目标关系距离向量。由此在语言模型的训练过程中融入训练实体之间的语义信息,使得学习得到的语义向量能够准确的表示实体对应的语义信息,以及实体之间的距离,从而提高了语义向量的准确性。
步骤208,根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量。
实体表示向量是指用于表示第二训练实体的向量,第二训练实体对应的实体表示向量,是根据第一训练实体对应的第一训练语义向量,以及第一训练实体与第二训练实体之间的目标关联关系对应的目标关系距离向量确定的。由于目标关系距离向量可以用于表示第一训练实体与第二训练实体在语义上的向量距离,当目标关系距离向量以及训练语义向量准确时,根据第一训练语义向量以及目标关系距离向量确定的实体表示向量,能够准确的表示第二训练实体的语义信息。在向量空间中,可以表现为实体表示向量与第二训练实体对应的第二训练语义向量的距离相近。
具体的,服务器可以根据待训练的语言模型对第一训练实体进行的语义编码,得到第一训练实体对应的第一训练语义向量。服务器可以基于第一训练实体与第二训练实体之间的目标关联关系,并根据第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量。其中,实体表示向量可以是根据第一训练语义向量和目标关系距离向量进行运算得到的,第一训练语义向量与目标关系距离向量之间的目标计算方向可以根据目标关联关系确定。目标计算方向用于表示第一训练语义向量与目标关系距离向量的计算方向,目标计算方向可以为相加或者相减。
例如,当第一训练实体与第二训练实体的目标关联关系为包含关系,且第一训练实体为第二训练实体的上位实体时,可以根据目标关联关系确定目标计算方向为相减,服务器可以根据目标计算方向对第一训练语义向量与目标关系距离向量进行相减运算,得到第二训练实体对应的实体表示向量。
步骤210,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值。
目标模型损失值是指根据第一训练实体和第二训练实体确定的语言模型的模型损失值,模型损失值(loss值)可以用于表示待训练的语言模型进行语义编码得到的训练语义向量,与能够准确表示对应实体的语义信息的语义向量的差异,由此评估语言模型的训练语义向量与能够准确表示语义信息的语义向量的差异程度。其中,差异与模型损失值成正相关关系,差异越大,则模型损失值越大。
由于实体表示向量是根据第一训练语义向量和目标关系距离向量确定的,可以用于表示第一训练实体与第二训练实体之间的语义关系得到的第二训练实体的向量,因此可以根据第二训练实体对应的第二训练语义向量以及实体表示向量,确定目标模型损失值,由此能够通过训练实体之间的语义关系确定对应的向量表示损失。
具体的,服务器可以确定第二训练实体对应的训练语义向量作为第二训练语义向量,第二训练语义向量是通过待训练的语言模型进行语义编码得到的。服务器可以获取第二训练语义向量与实体表示向量的向量距离。向量距离是指第二训练语义向量与实体表示向量的距离,向量距离可以用于表示第二训练语义向量与实体表示向量之间的向量相似度。其中,向量相似度是指第二训练语义向量与实体表示向量之间的相似程度。向量距离与向量相似度成负相关关系,向量相似度越高,则向量距离越小。
服务器可以根据第二训练语义向量以及实体表示向量的向量距离,确定语言模型对应的目标模型损失值。其中,目标模型损失值具体可以是根据向量距离,并采用损失函数进行计算得到的。损失函数例如可以是对数(log)损失函数。
在其中一个实施例中,根据第二训练语义向量以及实体表示向量确定的语言模型的目标模型损失值具体可以表示为:
Figure BDA0002713750430000161
其中,N表示训练实体集合中第一训练实体的数量。t表示第一训练实体,i表示第二训练实体,t的取值可以从1到N。Rwt表示训练实体集合中与第一训练实体存在目标关联关系的第二训练实体的集合。wt表示第一训练实体对应的第一训练语义向量,wi表示第二训练实体对应的第二训练语义向量,d表示第一训练实体与第二训练实体对应的目标关系距离向量。wt+d表示第二训练实体对应的实体表示向量。可以理解的,wt+d表示第一训练实体与第二训练实体之间的目标关联关系对应的目标计算方向为相加,在其他实施例中,实体表示向量还可以表示为wt-d。
p表示第二训练语义向量与实体表示向量的条件概率,也可以用于表示对应的向量距离。向量距离越大,则对应的条件概率越低。其中,语言模型具体可以为skip-gram模型,第二训练语义向量与实体表示向量的条件概率p可以是通过skip-gram模型中的softmax函数输出的结果。softmax函数具体可以表示为:
Figure BDA0002713750430000162
其中,T表示训练文本中训练实体的数量,v训练实体集合包括的训练实体的数量。
步骤212,根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
服务器根据目标模型损失值调整语言模型的模型参数,通过无监督学习的方式,将训练实体的知识融入待训练的语言模型,由此得到已训练的语言模型。其中,知识包括训练实体之间的语义信息以及语法信息,通过已训练的语言模型能够更加准确对实体进行语义编码,得到的语义向量能够更加准确的表示对应实体的语义信息,以及实体之间的关联关系,从而有效的提高了语义向量的准确性,有利于基于准确的语义向量进行多种应用场景的文本处理。文本处理可以根据实际应用场景确定,例如具体可以包括文本分类处理、文本识别处理、文本标注处理、实体关系判断处理或者文本生成处理等的至少一种。
具体的,服务器可以根据目标模型损失值,朝着使目标模型损失值下降的方向调整语言模型的模型参数,直至模型收敛,得到已训练的语言模型。其中,服务器具体可以采用例如negative sampling(负采样)的方式调整模型参数,负采样的个数可以根据实际应用需求确定,例如具体可以为20。模型收敛可以是指目标模型损失值小于预设损失值,预设损失值可以是根据实际应用需求预先设置的损失值。
本实施例应用于语言模型的训练阶段,通过获取训练文本集合,确定训练文本集合对应的训练实体集合,基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量。通过确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量,由此利用目标关系距离向量表示第一训练实体与第二训练实体之间的目标关联关系。通过根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值,由此根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。由于目标模型损失值是根据表示目标关联关系的目标关系距离向量确定的,由此在语言模型的训练过程中融入训练实体之间的语义信息,使得语言模型能够根据训练实体之间的关联关系进行无监督学习,使得学习到的语义向量既可以表示实体的语义,又能够体现实体之间的距离,从而有效的提高了通过已训练的语言模型得到的语义向量的准确性。
在一个实施例中,如图3所示,提供了一种语言模型训练方法,包括以下步骤:
步骤302,获取训练文本集合,确定训练文本集合对应的训练实体集合。
步骤304,基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量。
步骤306,确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体。
步骤308,确定目标关联关系对应的目标关系类型。
目标关系类型是指目标关联关系对应的关系类型,关系类型是指训练实体之间的关联关系对应的类型。对于不同的训练实体,所对应的关联关系也可以是不同的。例如,关联关系对应的类型具体可以包括同义关系类型、包含关系类型或者反义关系类型中的至少一种。同义关系类型是指对应的训练实体之间的语义相同或者相似。例如在医疗领域中,“肺结核”与“肺痨”属于存在同义关系类型的关联关系的实体,“肺结核”与“结核病”属于存在包含关系类型的关联关系的实体。
步骤310,根据目标关系类型确定对应的目标关系距离向量,目标关系类型根据第一训练实体在目标领域中的实体类型确定。
在确定第一训练实体与第二训练实体存在的目标关联关系之后,服务器可以确定目标关联关系对应的目标关系类型。其中,目标关系类型可以是根据第一训练实体在目标领域中的实体类型确定的。目标领域是指第一训练实体所在的领域。实体类型是指第一训练实体根据目标领域进行分类得到的类型。
举例说明,假设第一训练实体具体为“肺结核”,则对应的目标领域为医学领域。例如在医学领域中,可以将医学领域中的实体分类得到包括“疾病”、“症状”、“药品”或者“检查”等中的至少一种,则第一训练实体“肺结核”在医学领域中的实体类型具体为“疾病”。
根据不同的实体类型,可以对应有不同的目标关系类型。目标关联关系对应的目标关系类型,可以是根据第一训练实体与第二训练实体之间的关联关系,以及第一训练实体对应的实体类型确定的。服务器可以获取第一训练实体对应的实体类型,根据实体类型和目标关联关系确定对应的目标关系类型。可以理解的,当第一训练实体对应的实体类型不同时,即使第一训练实体与第二训练实体在语义上的关系相同,但对应的目标关系类型也是不同的,由此能够区分不同实体类型的实体所对应的目标关系类型,从而更加准确的学习不同实体类型的实体对应的语义信息,提高了语义向量的准确性。
例如在医疗领域中,假设第一训练实体具体为“肺结核”,第二训练实体具体为“结核病”,第一训练实体对应的实体类型具体为“疾病”,则目标关系类型具体为“疾病”包含关系类型。假设第一训练实体具体为“腹痛”,第二训练实体具体为“疼痛”,第一训练实体对应的实体类型具体为“症状”,则目标关系类型具体为“症状”包含关系类型。
具体的,服务器可以确定关系距离向量集合,关系距离向量集合包括预先设置的各个关系类型分别对应的关系距离向量。对于不同的关系类型,可以对应设置有不同的关系距离向量。服务器可以从关系距离向量集合中,根据目标关联关系对应的目标关系类型,确定与目标关系类型对应的目标关系距离向量。其中,关系距离向量集合中的关系距离向量可以是根据实际应用需求设置固定的,也可以根据目标模型损失值进行调整得到的。
在其中一个实施例中,在模型训练过程中,服务器可以根据语言模型对应的目标模型损失值,对目标关系距离向量进行调整,得到调整后的关系距离向量。当重复获取目标关系距离向量时,服务器可以获取调整后的关系距离向量作为目标关系距离向量,由此能够在调整语言模型的模型参数的过程中,根据目标模型损失值同步调节目标关联关系对应的目标关系距离向量,从而通过语言模型学习得到不同类型的实体之间的关系距离向量,有效的提高了各个关系类型分别对应的关系距离向量的准确性。
在其中一个实施例中,服务器可以根据第一训练实体在目标领域中的实体类型,确定第一训练实体与第二训练实体之间的目标关联关系对应的目标关系类型。当确定目标关系类型为包含关系类型时,服务器可以确定包含关系类型对应的关系距离向量为目标关系距离向量。具体的,对于不同的关系类型,可以配置有各自对应的关系距离向量。例如在关系距离向量集合中,包括根据关系类型进行分类的关系距离向量子集,关系距离向量子集包括对应关系类型的关系距离向量。例如关系类型可以包括包含关系类型、同义关系类型或者反义关系类型中的至少一种,对关系类型对应的,关系距离向量集合可以包括包含关系距离向量子集、同义关系距离向量子集或者反义关系距离向量子集中的至少一种。当确定目标关系类型为包含关系类型时,服务器可以从包含关系距离向量子集中,确定与第一训练实体的实体类型对应的关系距离向量作为目标关系距离向量。
例如在医学领域中,包含关系距离向量子集可以包括疾病包含关系距离向量、病症包含关系距离向量、药品包含关系距离向量或者检查包含关系距离向量中的至少一个。假设第一训练实体为“肺结核”,第二训练实体为“结核病”,“肺结核”与“结核病”之间的目标关联关系对应的目标关系类型为包含关系类型,“肺结核”对应的实体类型为“疾病”,服务器可以从关系距离向量子集中确定疾病包含关系距离向量作为目标关系距离向量。
在其中一个实施例中,由于同义关系类型对应的关联关系表示对应的训练实体之间的语义相同或者相近,因此,可以将同义关系类型对应的关系距离向量确定为零向量。当服务器确定目标关系类型为同义关系类型时,服务器可以确定零向量作为目标关联关系对应的目标关系距离向量,根据零向量和第一训练语义向量确定第二训练实体对应的实体表示向量。可以理解的,由于根据第一训练语义向量和零向量进行相加运算或者相减运算,得到的实体表示向量与第一训练语义向量相同,因此,当确定目标关系类型为同义关系类型时,服务器可以直接将第一训练实体对应的第一训练语义向量,确定为第二训练实体对应的实体表示向量。
在其中一个实施例中,当确定目标关系类型为同义关系类型时,根据第二训练语义向量以及实体表示向量的向量距离确定的目标模型损失值具体可以表示为:
Figure BDA0002713750430000201
其中,N表示训练实体集合中第一训练实体的数量。t表示第一训练实体,i表示第二训练实体,t的取值可以从1到N。Rwt表示训练实体集合中与第一训练实体存在目标关联关系的第二训练实体的集合。wt表示第一训练实体对应的第一训练语义向量,也可以表示第二训练实体对应的实体表示向量。wi表示第二训练实体对应的第二训练语义向量。p表示第二训练语义向量与实体表示向量的条件概率。
步骤312,根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量。
步骤314,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值。
步骤316,根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
本实施例中,在确定存在目标关联关系的第一训练实体以及第二训练实体之后,通过确定目标关联关系对应的目标关系类型,根据目标关系类型确定对应的目标关系距离向量。由于目标关系类型是根据第一训练实体在目标领域中的实体类型确定的,不同实体类型的第一训练实体对应的目标关系类型是不同的,由此能够区分不同实体类型的实体所对应的目标关系类型,从而更加准确的学习不同实体类型的实体各自对应的语义信息,不同实体类型的实体之间可以对应不同的关系距离向量,有效的提高了学习得到的语义向量的准确性。
在一个实施例中,上述确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体的步骤包括:获取实体知识网络图,实体知识网络图包括各个网络图实体对应的实体节点,以及表示实体节点之间的关联关系的边;获取训练实体集合中的第一训练实体,从实体知识网络图中,确定训练实体集合中与第一训练实体存在边连接的第二训练实体;获取第一训练实体与第二训练实体的边所对应的关联关系,作为目标关联关系。
实体知识网络图可以是根据实体对应的真实语义知识建立的,用于表示实体之间的语义上的关联关系的网络图。实体知识网络图中包括多个节点,以及节点之间相连接的边。其中,实体知识网络图中的节点用于表示实体,可以将实体知识网络图中表示的实体记作网络图实体,将用于表示网络图实体的节点记作实体节点。实体知识网络图中连接实体节点的边可以用于表示对应的网络图实体之间的关联关系。
服务器可以基于实体知识网络图,确定存在目标关联关系的第一训练实体以及第二训练实体。具体的,服务器可以获取实体知识网络图,实体知识网络图可以是预先建立并配置在服务器中的。例如,实体知识网络图可以预先建立并存储在服务器对应的数据库中,服务器可以根据存储位置从数据库中获取实体知识网络图。服务器可以获取训练实体集合中,当前处理的训练实体作为第一训练实体。其中,当前处理的训练实体可以是当前正在处理或者当前准备处理的训练实体。
服务器可以从实体知识网络图中,确定第一训练实体对应的实体节点,获取与第一训练实体对应的实体节点存在边连接的网络图实体。由于实体知识网络图是根据训练实体集合中各个实体的真实语义信息建立的,因此实体知识网络图中的网络图实体与训练实体集合中的训练实体相对应。服务器可以将通过边连接的网络图实体,确定为与第一训练实体存在边连接的第二训练实体。服务器可以获取第一训练实体与第二训练实体相连接的边所对应的关联关系,作为第一训练实体与第二训练实体的目标关联关系。
举例说明,如图4所示,图4为一个实施例中实体知识网络图的示意图。假设在实体知识网络图中,网络图实体包括A、B、C、D、E、F、G、H、I以及J。A与B之间存在边的连接,A与C之间存在边的连接,A与D之间存在边的连接,A与E之间存在边的连接,B与F之间存在边的连接,F与G之间存在边的连接,D与H之间存在边的连接,H与I之间存在边的连接,H与J之间存在边的连接。当A为第一训练实体时,服务器可以根据实体知识网络图确定B、C、D以及E为与A存在边连接的第二训练实体,A分别与B、C、D以及E之间的边所对应的关联关系为各自对应的目标关联关系。例如A与B之间的目标关联关系可以为同义关系,A与C之间的目标关联关系可以为同义关系,A与D之间的目标关联关系可以为包含关系,A与E之间的目标关联关系可以为反义关系。
在本实施例中,实体知识网络图可以清楚、准确的表示根据知识确定的实体之间的语义关系,通过获取实体知识网络图,从实体知识网络图中确定与第一训练实体存在边连接的第二训练实体,并且获取第一训练实体与第二训练实体的边所对应的关联关系作为目标关联关系,由此能够快速、准确的确定在语义上存在目标关联关系的第一训练实体和第二训练实体,从而在语言模型的训练过程中融入训练实体之间的语义知识,使得语言模型学习训练实体的语义信息,有助于提高学习得到的语义向量的准确性。
在一个实施例中,第二训练实体是实体知识网络图中,与第一训练实体存在目标关联关系的网络图实体;上述根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值的步骤包括:根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定知识损失值;获取训练文本中与第一训练实体对应的文本关联实体;根据文本关联实体对应的第三训练语义向量与第一训练语义向量的向量距离确定文本损失值;根据知识损失值以及文本损失值得到语言模型对应的目标模型损失值。
第二训练实体具体可以是从实体知识网络图中,确定的与第一训练实体存在目标关联关系的网络图实体,第二训练实体与第一训练实体之间的目标关联关系具体为语义上的关联关系。其中,本实施例中从实体知识网络图中确定与第一训练实体存在目标关联关系的第二训练实体的方式,与上述实施例中确定第二训练实体的方式相类似,故在此不再赘述。
服务器可以根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离,确定语言模型的知识损失值。其中,知识损失值是指表示实体之间的知识差异的损失值。可以理解的,由于第二训练实体为根据外部实体知识约束,确定的与第一训练实体存在语义上的关联关系的训练实体,第一训练实体与第二训练实体可以不是存在于同一训练文本中的。因此,可以根据第二训练实体确定语言模型的知识损失值。
在语言模型的训练过程中,除了引入外部实体知识约束以外,语言模型还可以通过训练文本集合中的各个训练文本进行无监督学习,从而得到已训练的语言模型。服务器可以从第一训练实体所在的训练文本中,获取第一训练实体对应的文本关联实体。其中,文本关联实体是指基于训练文本确定的与第一训练实体存在文本关系的实体,文本关联实体具体可以是在训练文本中,第一训练实体对应的上文实体或者下文实体。
具体的,服务器可以获取预先配置的上下文窗口,根据上下文窗口的大小,将第一训练实体作为中心实体,获取中心实体左右的,且在上下文窗口内的训练文本中的训练实体,作为第一训练实体对应的文本关联实体。例如,服务器可以将训练文本对应的训练实体序列输入至待训练的语言模型,训练实体序列是指训练文本中的各个训练实体,按照训练文本顺序进行排序得到的序列。假设训练文本对应的训练实体序列为“A、B、C、D”,上下文窗口为1,则当第一训练实体为A时,与A对应的文本关联实体可以为B。当第一训练实体为B时,与B对应的文本关联实体可以包括C和D。
服务器可以获取语言模型对文本关联实体进行语义编码得到的训练语义向量,将文本关联实体对应的训练语义向量作为第三训练语义向量。服务器可以根据第三训练语义向量与第一训练实体对应的第一训练语义向量的向量距离,确定语言模型的文本损失值。其中,根据第三训练语义向量与第一训练语义向量的向量距离确定文本损失值的方式,与上述实施例中根据第二训练语义向量和实体表示向量的向量距离确定知识损失值的方式相类似,故在此不再赘述。
在其中一个实施例中,根据第三训练语义向量以及第一训练语义向量确定的语言模型的文本损失值具体可以表示为:
Figure BDA0002713750430000241
其中,T表示训练文本中的训练实体的数量,c表示上下文窗口的大小。t表示第一训练实体。j表示第一训练实体的上下文,t+j表示第一训练实体对应的文本关联实体。-c小于等于j小于等于c,j取整数。wt表示第一训练实体对应的第一训练语义向量,wt+j表示文本关联实体对应的第三训练语义向量。p表示第一训练语义向量与第三训练语义向量的条件概率,也可以用于表示第一训练语义向量与第三训练语义向量的向量距离。向量距离越大,则对应的条件概率越低。其中,语言模型具体可以为skip-gram模型,第一训练语义向量与第三训练语义向量的条件概率p可以是通过skip-gram模型中的softmax函数输出的结果。softmax函数具体可以表示为:
Figure BDA0002713750430000251
服务器可以根据语言模型对应的知识损失值以及文本损失值,确定语言模型对应的目标模型损失值。其中,目标模型损失值可以是根据知识损失值以及文本损失值进行运算得到的。例如目标损失值可以是根据知识损失值和文本损失值进行相加运算或者加权运算得到的。服务器可以根据知识损失值以及文本损失值得到的目标模型损失值,调整语言模型的模型参数,由此训练得到已训练的语言模型。
如图5所示,图5为一个实施例中语言模型的示意图。语言模型具体可以为skip-gram模型。skip-gram模型的输入可以是中心实体,中心实体可以表示为t。通过skip-gram模型中的至少一个目标隐层,对中心实体进行语义编码,目标隐层可以包括多个可以表示特征的神经元。其中,多个是指两个或者两个以上。目标隐层可以根据学习的模型参数,将中心实体编码得到对应特征维度的语义向量,根据语义向量预测中心实体周围的预测实体,以及各自对应的概率。预测实体可以分别表示为t-1、t-2、t+1或者t+2等。在skip-gram模型的训练过程中,通过引入外部实体知识约束,并且共享skip-gram模型的语义向量,利用知识损失值以及文本损失值共同确定的目标模型损失值,对语言模型的模型参数进行调整,由此使得语言模型在根据训练文本进行无监督学习的同时,受到外部实体知识的约束,基于实体知识充分学习实体对应的语义信息,根据训练得到的语言模型得到的语义向量能够准确的表示对应实体的语义信息,使得语义相似的实体对应的语义向量之间的向量距离相近。
在其中一个实施例中,服务器可以根据知识损失值和文本损失值进行加权运算,得到语言模型对应的目标模型损失值。具体的,服务器可以获取知识关系权重以及文本关系权重。其中,知识关系权重可以是根据与第一训练语义向量存在知识关系的第二训练语义向量得到的知识损失值的权重,文本关系权重可以是根据与第一训练语义向量存在文本关系的第三训练语义向量得到的文本损失值的权重。知识关系权重和文本关系权重可以是根据实际应用需求预先配置的,也可以是在训练过程中由语言模型学习得到的。
服务器可以根据知识关系权重调整知识损失值,得到调整后的知识损失值,根据文本关系权重对文本损失值进行调整,得到调整后的文本损失值,由此通过知识关系权重和文本关系权重平衡知识损失值和文本损失值。其中,调整损失值的方式具体可以是进行乘积运算,得到各自调整后的损失值。服务器可以对调整后的知识损失值以及调整后的文本损失值进行求和计算,计算得到调整后的知识损失值以及调整后的文本损失值的和值,将计算得到的和值作为语言模型对应的目标模型损失值。
在其中一个实施例中,计算得到的语言模型对应的目标模型损失值具体可以表示为:
Figure BDA0002713750430000261
其中,γ可以是根据知识关系权重和文本关系权重得到的目标权重。目标模型损失值的表达式中的参数含义与上述实施例中的参数含义相类似,故在此不再赘述。
在其中一个实施例中,如图6所示,图6为一个实施例中训练语言模型的逻辑示意图。在确定语言模型对应的目标模型损失值之后,服务器可以将目标模型损失值与预设损失值进行比对,判断目标模型损失值是否小于预设损失值。其中,确定目标模型损失值的方式与上述实施例中确定目标模型损失值的方式相类似,故在此不再赘述。当目标模型损失值大于或者等于预设损失值时,服务器可以重复通过调整后的语言模型对各个训练实体进行语义编码,通过无监督学习的方式训练语言模型,直到模型收敛。当目标模型损失值小于预设损失值时,确定模型收敛,则语言模型训练结束,得到已训练的语言模型。训练得到的语言模型能够准确的对实体进行语义编码,得到能够准确表示实体对应的语义信息以及语法信息的语义向量,从而有效的提高了语义向量的准确性。
在本实施例中,通过第二训练语义向量以及实体表示向量的向量距离确定知识损失值,根据与第一训练实体对应的文本关联实体的第三训练语义向量,与第一训练语义向量的向量距离确定文本损失值,根据知识损失值以及文本损失值得到语言模型对应的目标模型损失值,由此在模型训练的过程中,共享语言模型的语义向量表示,利用知识损失值以及文本损失值共同确定的目标模型损失值,对语言模型的模型参数进行调整,由此使得语言模型在根据训练文本进行无监督学习的同时,受到外部实体知识的约束,基于外部实体知识充分学习实体对应的语义信息,根据训练得到的语言模型得到的语义向量能够准确的表示对应实体的语义信息,从而有效的提高了语义向量的准确性。
在一个实施例中,上述方法还包括:根据目标模型损失值确定向量调整方向;根据向量调整方向,对目标关系距离向量进行调整,得到调整后的目标关系距离向量。
向量调整方向是指对目标关系距离向量进行调整的调整方向,向量调整方向具体可以包括需要调整的目标关系距离向量的方向和大小。服务器可以在调整语言模型的模型参数时,同步对目标关系距离向量进行调整,从而通过语言模型学习得到实体之间的关系距离向量。
具体的,在确定语言模型对应的目标模型损失值之后,服务器可以根据语言模型对应的目标模型损失值确定目标关系距离向量对应的向量调整方向,向量调整方向使得目标模型损失值下降的调整方向。服务器可以根据确定的向量调整方向,对目标关系距离向量进行调整,得到调整后的目标关系距离向量。其中,调整方式具体可以包括调整目标关系距离向量的大小或者方向中的至少一种。当服务器重复获取关系距离向量时,可以将对应的调整后的目标关系距离向量,作为目标关联关系对应的目标关系距离向量,由此在调整语言模型的模型参数的同时,调整第一训练实体与第二训练实体之间的关系距离向量。
在本实施例中,通过目标模型损失值确定向量调整方向,根据向量调整方向对目标关系距离向量进行调整,得到调整后的目标关系距离向量。由此通过目标模型损失值,在调整语言模型的模型参数时,同步调整第一训练语义向量与第二训练语义向量的目标关系距离向量,有助于根据调整后的目标关系距离向量确定第二训练实体对应的实体表示向量。
在一个实施例中,上述根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量的步骤包括:根据第一训练实体与第二训练实体之间的目标关联关系,确定目标计算方向,目标计算方向为相加或者相减;根据目标计算方向对第一训练实体对应的第一训练语义向量和目标关系距离向量进行运算,得到第二训练实体对应的实体表示向量。
服务器可以根据第一训练语义向量和目标关系距离向量进行运算,得到第二训练实体对应的实体表示向量。具体的,服务器可以根据第一训练实体与第二训练实体之间的目标关联关系,确定目标计算方向。其中,目标计算方向是指用于计算实体表示向量的计算方向,目标计算方向具体可以为相加或者相减。
例如,当第一训练实体与第二训练实体之间的目标关联关系为反义关系时,则目标计算方向具体为相减。当第一训练实体与第二训练实体之间的目标关联关系为包含关系,且第一训练实体为第二训练实体的上位实体时,则目标计算方向具体为相减,当第一训练实体为第二训练实体的上位实体时,则目标计算方向具体为相加。
服务器可以根据目标计算方向,对第一训练实体对应的第一训练语义向量和目标关系距离向量进行相加运算或者相减运算,将运算得到的向量确定为第二训练实体对应的实体表示向量。
在本实施例中,通过根据第一训练实体与第二训练实体之间的目标关联关系,确定目标计算方向,根据目标计算方向对第一训练语义向量和目标关系距离向量进行运算,得到第二训练实体对应的实体表示向量,从而有效的提高了第二训练实体对应的实体表示向量的准确性。
本申请还提供一种应用场景,该应用场景应用上述的语言模型训练方法。具体地,该语言模型训练方法在该应用场景的应用如下:该语言模型训练方法具体可以应用于医疗领域中,训练文本集合为医疗领域中的医疗语料文本集合,例如具体可以包括电子病历(electronic health record,简称EHR)、医学课本、医学百科或者医学论文等中的文本数据。训练实体可以为医学实体,是在医学领域中具有特征意义的。语言模型可以通过医疗语料文本集合进行无监督学习,学习得到医疗领域中的各个医疗实体的语义向量表示。具体的,服务器可以提取医疗语料文本中的医疗实体,得到医疗语料文本对应的医疗实体序列,根据各个医疗实体在医疗实体集合中的位置,将医疗实体进行独热编码成对应的独热向量。服务器可以将医疗实体序列对应的独热向量序列输入至待训练的语言模型,利用语言模型中的至少一个隐层对医疗实体进行语义编码,得到相同特征维度的训练语义向量,例如可以编码为200维的向量表示。服务器可以根据语言模型当前处理的中心实体,根据预设的上下文窗口,从医疗实体序列中获取中心实体对应的文本关联实体,根据各自对应的训练语义向量确定语言模型的文本损失值。同时,服务器可以引入外部实体知识约束,共享语言模型的语义向量,获取与中心实体存在目标关联关系的知识关联实体,目标关联关系可以是语义上的关联关系。例如知识关联实体可以为中心实体的同义实体。存在目标关联关系的知识关联实体可以是根据基于外部实体知识建立的实体知识网络图获取的。服务器可以获取目标关联关系对应的目标关系距离向量,目标关系距离向量可以是根据实际需求预先设置,并且在语言模型训练过程中进行调整的。服务器可以根据目标关系距离向量确定知识关联实体对应的实体表示向量,并根据知识关联实体对应的训练语义向量和实体表示向量的向量距离确定语言模型的知识损失值。服务器可以通过文本损失值和知识损失值各自对应的权重,综合文本损失值和知识损失值,得到语言模型的目标损失值,并基于目标损失值对语言模型的模型参数进行调整,以此对语言模型进行训练,直到模型收敛,得到已训练的语言模型。在语言模型的训练过程中,通过引入外部实体知识约束,语言模型在通过训练文本的上下文学习向量表示的同时,还可以学习实体之间的语义关系,由此使得已训练的语言模型得到的语义向量能够更加准确的表示对应实体的语义信息,以及实体之间的距离,例如在语义上相似的实体所对应的语义向量之间的向量距离也是相近的,从而有效的提高了语义向量的准确性。
在一个实施例中,如图7所示,提供了一种文本处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤702,获取待处理的目标文本。
目标文本是指需要或者准备进行处理的文本,目标文本的语言可以根据实际应用需要确定的,例如目标文本具体可以是中文语句,也可以是英文语句。待处理的目标文本可以是与用于训练语言模型的训练文本属于同一领域的文本数据,例如当训练文本为医疗领域中的语料文本时,待处理的目标文本也可以是医疗领域的文本数据。
步骤704,将目标文本输入至已训练的语言模型中进行语义编码,得到目标文本中各个目标分词对应的语义编码向量,其中,语言模型根据训练文本集合训练得到,在训练时,语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,目标关联关系为训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系。
一个目标文本可以包括多个目标分词,可以对目标文本进行切分,得到多个目标分词(token)。多个是指至少两个。其中,进行切分的方式可以采用基于词典或基于统计的分词切分方式。语义编码是指将文本转换成向量进行表示。语义编码向量是对目标分词进行语义编码得到的向量,语义编码向量可以用于表示对应目标分词的语义信息,在语义上相似的目标分词所对应的语义编码向量之间的向量距离也是相近的。
语言模型可以是预先根据训练文本集合进行训练得到的。在训练时,语言模型对应的目标模型损失值可以根据目标关联关系对应的目标关系距离向量得到。目标关联关系是指训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系,目标关系距离向量可以是表示第一训练实体对应的第一训练语义向量,与第二训练实体对应的第二训练语义向量之间的距离的向量。第一训练实体是指语言模型当前处理的训练实体,第二训练实体是指在语义上与第一训练实体存在目标关联关系的训练实体。在训练模型时,可以通过根据目标关联关系对应的目标关系距离向量得到的目标模型损失值,调整语言模型的模型参数,直到模型收敛,确定语言模型训练结束,得到已训练的语言模型,通过获取与第一训练实体存在目标关联关系的第二训练实体,使得语言模型学习第一训练实体与第二训练实体之间的语义关系,由此能够通过已训练的语言模型对目标分词进行语义编码,得到目标分词对应的更加准确的语义编码向量。
服务器可以获取待处理的目标文本,对目标文本进行切分,将目标文本切分成具有语义合理性的目标分词,服务器可以将目标文本输入至已训练的语言模型中,利用已训练的语言模型对目标分词进行语义编码,得到目标文本中各个目标分词对应的语义编码向量,得到的语义编码向量能够准确的表示对应目标分词的语义信息。
步骤706,根据目标文本中各个目标分词对应的语义编码向量,确定目标文本对应的文本处理结果。
文本处理结果可以根据应用场景确定,例如文本处理结果可以包括文本标注结果、文本分类结果、句子关系判断结果、文本查询结果或者文本生成结果的至少一个。文本标注是指对文本进行标注,例如对文本进行命名实体识别(Named Entity Recognition,NER)或者对文本中的分词进行词性识别等。文本分类结果是指对文本进行分类,例如进行情感分类或者垃圾邮件分类。情感分类将文本分为表达正面情感的文本或者表达负面情感的文本。垃圾邮件分类将邮件分为垃圾邮件或者非垃圾邮件。句子关系判断结果例如可以用于确定句子与句子的关系,句子间的关系可以是问句与答案的关系,也可以是上下文之间的关系,例如判断第二语句是否为第一语句的下一个语句。文本查询是指基于待查询的文本,查询与文本相对应的关联文本。例如在医疗领域中,查询与目标病历相似的关联病历。文本生成结果例如是对文本进行翻译或者生成文本的摘要等。
具体的,服务器可以将目标文本中各个目标分词对应的语义编码向量进行融合处理,得到目标文本对应的目标融合向量。服务器可以将目标融合向量输入到任务处理模型中,通过任务处理模型对目标融合向量进行处理,得到目标文本对应的文本处理结果。其中,融合处理具体可以是将语义编码向量进行拼接处理,例如具体为进行纵向拼接。任务处理模型可以是根据实际应用场景确定的,与文本处理结果相对应的。例如当文本处理结果为文本分类结果时,任务处理模型具体可以为文本分类模型。
在本实施例中,通过获取待处理的目标文本,将目标文本输入至已训练的语言模型中进行语义编码,得到目标文本中各个目标分词对应的语义编码向量。由于语言模型是根据训练文本集合训练得到的,在训练时,语言模型对应的目标模型损失值是根据目标关联关系对应的目标关系距离向量得到的,目标关联关系为训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系,由此能够使得语言模型根据第一训练实体与第二训练实体之间的目标关联关系进行无监督学习,使得学习到的语义向量既可以表示实体的语义,又能够体现实体之间的距离,有效的提高了通过已训练的语言模型得到的语义编码向量的准确性。根据目标文本中各个目标分词对应的更加准确的语义编码向量,确定目标文本对应的文本处理结果,从而有效的提高了文本处理结果的准确性。
在一个实施例中,目标文本具体为目标状态记录信息,上述根据目标文本中各个目标分词对应的语义编码向量,确定目标文本对应的文本处理结果的步骤包括:将目标状态记录信息中各个目标实体对应的语义编码向量进行融合,得到融合编码向量;从候选编码向量集合中,获取与融合编码向量匹配的目标编码向量,候选编码向量集合中的候选编码向量,是对历史状态记录信息中的实体进行编码得到的;将目标编码向量对应的历史状态记录信息,确定为与目标状态记录信息匹配的状态记录信息处理结果。
目标文本具体可以为目标状态记录信息,目标状态记录信息是指待处理的状态记录信息。状态记录信息是指用于记录用户对应的用户状态的信息,用户状态可以包括但不限于用户对应的身体状态或者心理状态。例如在医疗领域中,状态具体可以是指患者的病症等身体或者心理状态,状态记录信息具体可以为EHR(electronic health record,电子健康记录),又称电子病历,是通过计算机设备保存、管理、传输和重现的数字化的用户医疗记录信息。服务器可以对目标状态记录信息进行命名实体识别(Named EntityRecognition,NER),得到目标状态记录信息中的各个目标实体,利用预训练的语言模型对各个目标实体分别进行语义编码,得到各个目标实体分别对应的语义编码向量。
服务器可以将各个目标实体对应的语义编码向量进行融合,得到目标状态记录信息对应的融合编码向量。其中,融合方式具体可以为纵向拼接,服务器可以将各个语义编码向量进行纵向拼接,得到融合编码向量。例如目标状态记录信息包括10个目标实体,已训练的语言模型可以将目标实体编码成200维的语义编码向量,根据10个200维的语义编码向量进行纵向拼接,可以得到2000维的融合编码向量。
候选编码向量集合是包括多个候选编码向量的集合,多个是指两个或者两个以上。候选编码向量是指对候选状态记录信息进行语义编码得到的向量。候选状态记录信息是指候选用户对应的历史状态记录信息,候选编码向量是对历史状态记录信息汇总的实体进行编码得到的。
服务器可以将融合编码向量与候选编码向量集合中的候选编码向量进行匹配,获取与融合编码向量匹配的候选编码向量,作为目标编码向量。其中,匹配的方式可以为向量相似度匹配。具体的,服务器可以计算融合编码向量分别与各个候选编码向量的向量相似度,向量相似度可以是融合编码向量与候选编码向量的余弦相似度,根据向量相似度确定与融合编码向量匹配的目标编码向量。例如,可以确定向量相似度最大的候选编码向量作为目标编码向量。
服务器可以获取目标编码向量对应的历史状态记录信息,将历史状态记录信息确定为与目标状态记录信息匹配的状态记录信息处理结果。其中,状态记录信息处理结果具体可以是基于目标状态记录信息的状态记录信息查询结果。
如图8所示,图8为一个实施例中进行状态记录信息查询的界面示意图。当需要查询与目标状态记录信息相似的历史状态记录信息时,终端可以确定待处理的目标状态记录信息,例如可以是待查询的电子病历。例如用户可以从终端展示的候选病历中,通过选择操作确定待查询的目标病历。例如用户可以选择候选病历2作为目标病历。当接收到查询操作,例如接收到显示界面中的“查询”控件的点击操作时,终端可以向服务器发送查询请求。服务器可以响应于查询请求,利用已训练的语言模型对目标状态记录信息中的各个目标实体进行语义编码,得到语义编码向量,将各个目标实体对应的语义编码向量进行融合,得到目标状态记录信息对应的融合编码向量。服务器可以通过融合编码向量进行向量匹配,得到与融合编码向量匹配的目标编码向量,将目标编码向量对应的历史状态记录信息确定为与目标状态记录信息匹配的状态记录信息查询结果,例如状态记录信息查询结果可以为与目标病历对应的多个历史病历。服务器可以将状态记录信息查询结果返回至终端,终端通过显示界面对状态记录信息查询结果进行展示。
在本实施例中,通过将目标状态记录信息中各个目标实体对应的语义编码向量进行融合,得到融合编码向量,由此能够通过融合编码向量准确的表示对应的目标状态记录信息。通过从候选编码向量集合中获取与融合编码向量匹配的目标编码向量,将目标编码向量对应的历史状态记录信息,确定为与目标状态记录信息匹配的状态记录信息处理结果,从而有效的提高了状态记录信息处理结果的准确性。
在一个实施例中,上述文本处理方法还包括对待训练的语言模型进行训练,得到已训练的语言模型的步骤,具体包括:获取训练文本集合,确定训练文本集合对应的训练实体集合;基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量;确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量;根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量;根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值;根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
应该理解的是,虽然图2、3和7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3和7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语言模型训练装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:语义编码模块902、距离向量获取模块904和参数调整模块906,其中:
语义编码模块902,用于获取训练文本集合,确定训练文本集合对应的训练实体集合;基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量。
距离向量获取模块904,用于确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量;根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量。
参数调整模块906,用于根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值;根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
在本实施例中,通过确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量,由此利用目标关系距离向量表示第一训练实体与第二训练实体之间的目标关联关系。通过根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量,根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值,由此根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。由于目标模型损失值是根据表示目标关联关系的目标关系距离向量确定的,由此在语言模型的训练过程中融入训练实体之间的语义信息,使得语言模型能够学习得到训练实体之间的关联关系,学习到的语义向量既可以表示实体的语义,又能够体现实体之间的距离,从而有效的提高了通过已训练的语言模型得到的语义向量的准确性。
在一个实施例中,上述距离向量获取模块904还用于确定目标关联关系对应的目标关系类型,根据目标关系类型确定对应的目标关系距离向量,目标关系类型根据第一训练实体在目标领域中的实体类型确定。
在一个实施例中,上述距离向量获取模块904还用于确定目标关联关系对应的目标关系类型;当确定目标关系类型为包含关系类型时,确定包含关系类型对应的关系距离向量为目标关系距离向量。
在一个实施例中,上述距离向量获取模块904还用于获取实体知识网络图,实体知识网络图包括各个网络图实体对应的实体节点,以及表示实体节点之间的关联关系的边;获取训练实体集合中的第一训练实体,从实体知识网络图中,确定训练实体集合中与第一训练实体存在边连接的第二训练实体;获取第一训练实体与第二训练实体的边所对应的关联关系,作为目标关联关系。
在一个实施例中,第二训练实体是实体知识网络图中,与第一训练实体存在目标关联关系的网络图实体;上述参数调整模块906还用于根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定知识损失值;获取训练文本中与第一训练实体对应的文本关联实体;根据文本关联实体对应的第三训练语义向量与第一训练语义向量的向量距离确定文本损失值;根据知识损失值以及文本损失值得到语言模型对应的目标模型损失值。
在一个实施例中,上述参数调整模块906还用于获取知识关系权重以及文本关系权重;根据知识关系权重调整知识损失值,得到调整后的知识损失值,根据文本关系权重对文本损失值进行调整,得到调整后的文本损失值;对调整后的知识损失值以及调整后的文本损失值进行求和计算,得到语言模型对应的目标模型损失值。
在一个实施例中,上述参数调整模块906还用于根据目标模型损失值确定向量调整方向;根据向量调整方向,对目标关系距离向量进行调整,得到调整后的目标关系距离向量。
在一个实施例中,上述距离向量获取模块904还用于根据第一训练实体与第二训练实体之间的目标关联关系,确定目标计算方向,目标计算方向为相加或者相减;根据目标计算方向对第一训练实体对应的第一训练语义向量和目标关系距离向量进行运算,得到第二训练实体对应的实体表示向量。
在一个实施例中,如图10所示,提供了一种文本处理装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:文本获取模块1002、文本编码模块1004和结果确定模块1006,其中:
文本获取模块1002,用于获取待处理的目标文本。
文本编码模块1004,用于将目标文本输入至已训练的语言模型中进行语义编码,得到目标文本中各个目标分词对应的语义编码向量,其中,语言模型根据训练文本集合训练得到,在训练时,语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,目标关联关系为训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系。
结果确定模块1006,用于根据目标文本中各个目标分词对应的语义编码向量,确定目标文本对应的文本处理结果。
在本实施例中,通过获取待处理的目标文本,将目标文本输入至已训练的语言模型中进行语义编码,得到目标文本中各个目标分词对应的语义编码向量。由于语言模型是根据训练文本集合训练得到的,在训练时,语言模型对应的目标模型损失值是根据目标关联关系对应的目标关系距离向量得到的,目标关联关系为训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系,由此能够使得语言模型根据第一训练实体与第二训练实体之间的目标关联关系进行无监督学习,学习得到的语义向量既可以表示实体的语义,又能够体现实体之间的距离,有效的提高了通过已训练的语言模型得到的语义编码向量的准确性。根据目标文本中各个目标分词对应的更加准确的语义编码向量,确定目标文本对应的文本处理结果,从而有效的提高了文本处理结果的准确性。
在一个实施例中,目标文本为目标状态记录信息,上述结果确定模块1006还用于将目标状态记录信息中各个目标实体对应的语义编码向量进行融合,得到融合编码向量;从候选编码向量集合中,获取与融合编码向量匹配的目标编码向量,候选编码向量集合中的候选编码向量,是对历史状态记录信息中的实体进行编码得到的;将目标编码向量对应的历史状态记录信息,确定为与目标状态记录信息匹配的状态记录信息处理结果。
在一个实施例中,上述文本处理装置1000还包括模型训练模块,用于获取训练文本集合,确定训练文本集合对应的训练实体集合;基于训练文本集合中的训练文本以及待训练的语言模型,对训练实体集合中各个训练实体进行语义编码,得到训练语义向量;确定训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取目标关联关系对应的目标关系距离向量;根据第一训练实体对应的第一训练语义向量以及目标关系距离向量,确定第二训练实体对应的实体表示向量;根据第二训练实体对应的第二训练语义向量以及实体表示向量的向量距离确定语言模型对应的目标模型损失值;根据目标模型损失值调整语言模型的模型参数,得到已训练的语言模型。
关于语言模型训练装置的具体限定可以参见上文中对于语言模型训练方法的限定,关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述语言模型训练装置和文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语言模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型训练方法或者文本处理方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种语言模型训练方法,其特征在于,所述方法包括:
获取训练文本集合,确定所述训练文本集合对应的训练实体集合;
基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;
根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;
根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标关联关系对应的目标关系距离向量包括:
确定所述目标关联关系对应的目标关系类型,根据所述目标关系类型确定对应的所述目标关系距离向量,所述目标关系类型根据所述第一训练实体在目标领域中的实体类型确定。
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标关联关系对应的目标关系类型,根据所述目标关系类型确定对应的所述目标关系距离向量包括:
确定所述目标关联关系对应的所述目标关系类型;
当确定所述目标关系类型为包含关系类型时,确定所述包含关系类型对应的关系距离向量为所述目标关系距离向量。
4.根据权利要求1所述的方法,其特征在于,所述确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体包括:
获取实体知识网络图,所述实体知识网络图包括各个网络图实体对应的实体节点,以及表示所述实体节点之间的关联关系的边;
获取所述训练实体集合中的所述第一训练实体,从所述实体知识网络图中,确定所述训练实体集合中与所述第一训练实体存在边连接的所述第二训练实体;
获取所述第一训练实体与所述第二训练实体的边所对应的关联关系,作为所述目标关联关系。
5.根据权利要求1所述的方法,其特征在于,所述第二训练实体是实体知识网络图中,与所述第一训练实体存在目标关联关系的网络图实体;
所述根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值包括:
根据所述第二训练实体对应的所述第二训练语义向量以及所述实体表示向量的向量距离确定知识损失值;
获取所述训练文本中与所述第一训练实体对应的文本关联实体;
根据所述文本关联实体对应的第三训练语义向量与所述第一训练语义向量的向量距离确定文本损失值;
根据所述知识损失值以及所述文本损失值得到所述语言模型对应的所述目标模型损失值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述知识损失值以及所述文本损失值得到所述语言模型对应的所述目标模型损失值包括:
获取知识关系权重以及文本关系权重;
根据所述知识关系权重调整所述知识损失值,得到调整后的知识损失值,根据所述文本关系权重对所述文本损失值进行调整,得到调整后的文本损失值;
对所述调整后的知识损失值以及所述调整后的文本损失值进行求和计算,得到所述语言模型对应的所述目标模型损失值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标模型损失值确定向量调整方向;
根据所述向量调整方向,对所述目标关系距离向量进行调整,得到调整后的目标关系距离向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量包括:
根据所述第一训练实体与所述第二训练实体之间的目标关联关系,确定目标计算方向,所述目标计算方向为相加或者相减;
根据所述目标计算方向对所述第一训练实体对应的所述第一训练语义向量和所述目标关系距离向量进行运算,得到所述第二训练实体对应的所述实体表示向量。
9.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的目标文本;
将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
10.根据权利要求9所述的方法,其特征在于,所述目标文本为目标状态记录信息,所述根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果包括:
将所述目标状态记录信息中各个目标实体对应的语义编码向量进行融合,得到融合编码向量;
从候选编码向量集合中,获取与所述融合编码向量匹配的目标编码向量,所述候选编码向量集合中的候选编码向量,是对历史状态记录信息中的实体进行编码得到的;
将所述目标编码向量对应的历史状态记录信息,确定为与所述目标状态记录信息匹配的状态记录信息处理结果。
11.根据权利要求9所述的方法,其特征在于,所述方法还包括对待训练的语言模型进行训练,得到所述已训练的语言模型;所述对待训练的语言模型进行训练,得到所述已训练的语言模型包括:
获取训练文本集合,确定所述训练文本集合对应的训练实体集合;
基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;
根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;
根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
12.一种语言模型训练装置,其特征在于,所述装置包括:
语义编码模块,用于获取训练文本集合,确定所述训练文本集合对应的训练实体集合;基于所述训练文本集合中的训练文本以及待训练的语言模型,对所述训练实体集合中各个训练实体进行语义编码,得到训练语义向量;
距离向量获取模块,用于确定所述训练实体集合中存在目标关联关系的第一训练实体以及第二训练实体,获取所述目标关联关系对应的目标关系距离向量;根据所述第一训练实体对应的第一训练语义向量以及所述目标关系距离向量,确定所述第二训练实体对应的实体表示向量;
参数调整模块,用于根据所述第二训练实体对应的第二训练语义向量以及所述实体表示向量的向量距离确定所述语言模型对应的目标模型损失值;根据所述目标模型损失值调整所述语言模型的模型参数,得到已训练的语言模型。
13.一种文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理的目标文本;
文本编码模块,用于将所述目标文本输入至已训练的语言模型中进行语义编码,得到所述目标文本中各个目标分词对应的语义编码向量,其中,所述语言模型根据训练文本集合训练得到,在训练时,所述语言模型对应的目标模型损失值根据目标关联关系对应的目标关系距离向量得到,所述目标关联关系为所述训练文本集合对应的训练实体集合中,第一训练实体与第二训练实体之间的关联关系;
结果确定模块,用于根据所述目标文本中各个目标分词对应的所述语义编码向量,确定所述目标文本对应的文本处理结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202011065901.0A 2020-09-30 2020-09-30 语言模型训练方法、装置、计算机设备和存储介质 Pending CN112131883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011065901.0A CN112131883A (zh) 2020-09-30 2020-09-30 语言模型训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011065901.0A CN112131883A (zh) 2020-09-30 2020-09-30 语言模型训练方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112131883A true CN112131883A (zh) 2020-12-25

Family

ID=73843667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011065901.0A Pending CN112131883A (zh) 2020-09-30 2020-09-30 语言模型训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112131883A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688233A (zh) * 2021-07-30 2021-11-23 达观数据(苏州)有限公司 一种用于知识图谱语义搜索的文本理解的方法
CN114281959A (zh) * 2021-10-27 2022-04-05 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
US20230070715A1 (en) * 2021-09-09 2023-03-09 Canon Medical Systems Corporation Text processing method and apparatus
WO2023045187A1 (zh) * 2021-09-23 2023-03-30 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN117272073A (zh) * 2023-11-23 2023-12-22 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN111274818A (zh) * 2020-01-17 2020-06-12 腾讯科技(深圳)有限公司 词向量的生成方法、装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN111274818A (zh) * 2020-01-17 2020-06-12 腾讯科技(深圳)有限公司 词向量的生成方法、装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688233A (zh) * 2021-07-30 2021-11-23 达观数据(苏州)有限公司 一种用于知识图谱语义搜索的文本理解的方法
US20230070715A1 (en) * 2021-09-09 2023-03-09 Canon Medical Systems Corporation Text processing method and apparatus
WO2023045187A1 (zh) * 2021-09-23 2023-03-30 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN114281959A (zh) * 2021-10-27 2022-04-05 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN114281959B (zh) * 2021-10-27 2024-03-19 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
CN117272073A (zh) * 2023-11-23 2023-12-22 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置
CN117272073B (zh) * 2023-11-23 2024-03-08 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN112069302B (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
WO2020073533A1 (zh) 自动问答方法及装置
CN111444715B (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN110750998B (zh) 一种文本输出方法、装置、计算机设备和存储介质
CN111881292B (zh) 一种文本分类方法及装置
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN114281931A (zh) 文本匹配方法、装置、设备、介质及计算机程序产品
CN112380867A (zh) 文本处理、知识库的构建方法、装置和存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035341

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination