CN116028632A - 一种领域语言模型的确定方法和相关装置 - Google Patents

一种领域语言模型的确定方法和相关装置 Download PDF

Info

Publication number
CN116028632A
CN116028632A CN202111242581.6A CN202111242581A CN116028632A CN 116028632 A CN116028632 A CN 116028632A CN 202111242581 A CN202111242581 A CN 202111242581A CN 116028632 A CN116028632 A CN 116028632A
Authority
CN
China
Prior art keywords
node
nodes
knowledge
training
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111242581.6A
Other languages
English (en)
Inventor
刘文阁
程轶
刘亚飞
蔡庆玲
梁小丹
郑冶枫
王巨宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Sun Yat Sen University
Original Assignee
Tencent Technology Shenzhen Co Ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Sun Yat Sen University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111242581.6A priority Critical patent/CN116028632A/zh
Publication of CN116028632A publication Critical patent/CN116028632A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种领域语言模型的确定方法和相关装置,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,可从图结构化的知识图谱中转化出序列化的图谱知识语料,图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。

Description

一种领域语言模型的确定方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种领域语言模型的确定方法和相关装置。
背景技术
自然语言处理技术在通用领域有广泛的应用,例如利用通用语言模型进行内容搜索、智能问答等服务。
然而,专业领域相对于通用领域来说,具有大量在本领域中体现特定含义的专业术语,通用语言模型难以在专业领域中起到较好的应用。为此,相关技术中采用通过收集足量的专业领域中训练语料后,对初始化的语言模型进行该专业领域的针对性训练,才能得到适用该专业领域的语言模型。
然而,这种方式需要耗费时间收集专业领域的训练语料,而且整体训练非常耗时,导致需要付出大量的时间成本才能得到所需的语言模型,上述相关技术难以适应目前的互联网快速发展。
发明内容
为了解决上述技术问题,本申请提供了一种领域语言模型的确定方法和相关装置,整体训练耗时更低,大大提高了确定领域语言模型的效率,降低了时间成本。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种领域语言模型的确定方法,所述方法包括:
获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
另一方面,本申请实施例提供了一种领域语言模型的确定装置,所述装置包括获取单元、遍历单元、序列化单元和训练单元:
所述获取单元,用于获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
所述遍历单元,用于基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
所述序列化单元,用于根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
所述训练单元,用于通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行以上方面所述的方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的方法。
又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权以上方面所述的方法。
由上述技术方案可以看出,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,该知识图谱中通过实体节点和实体节点间的路径标识了该专业领域中专业词汇和专业词汇间的关联关系。通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,并基于待定节点、关联节点集合和之间的关联关系,可以从图结构化的知识图谱中转化出序列化的图谱知识语料,这种序列化的图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,相对于相关技术中对完全初始化的语言模型的训练方式,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种领域语言模型的确定场景示意图;
图2为本申请实施例提供的一种领域语言模型的确定方法的方法流程图;
图3为本申请实施例提供的一种知识图谱的示意图;
图4为本申请实施例提供的一种通过领域语言模型进行内容搜索的场景示意图;
图5为本申请实施例提供的一种通过领域语言模型进行智能客服的场景示意图;
图6为本申请实施例提供的一种基于预训练语言模型进行领域训练的示意图;
图7为本申请实施例提供的一种领域语言模型的确定装置的装置结构图;
图8为本申请实施例提供的一种终端设备的结构图;
图9为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
针对专业领域的语言模型,需要收集足量的专业领域语料并重新训练初始化的语言模型后才能得到,总体耗时很长,难以适应互联网产品的更新、迭代速度。
为此,本申请实施例提供了一种领域语言模型的确定方法和相关装置,通过对专业领域的知识图谱的序列化处理,得到大量的图谱知识语料,根据这些语料直接对已经完成通用语言预训练的预训练语言模型进行领域训练,就能得到适用于该专业领域的领域语言模型。
本申请实施例所提供的领域语言模型的确定方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的领域语言模型的确定方法可基于人工智能实现,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述自然语言处理技术(Nature Language processing,NLP)、机器学习(Machine Learning,ML)/深度学习等方向。
前述计算机设备可以具备自然语言处理能力。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在本申请实施例中,计算机设备通过对专业领域的知识图谱进行序列化处理得到图谱知识语料,并可以基于图谱知识语料确定出用于训练预训练语言模型的图谱训练样本。
前述计算机设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例中,计算机设备可以通过深度学习的方式对预训练语言模型进行训练而学习专业领域的知识,得到领域语言模型。
图1为本申请实施例提供的一种领域语言模型的确定场景示意图。其中以服务器100作为前述的计算机设备进行说明。
在需要获取针对专业领域的语言模型时,服务器100获取该专业领域的知识图谱200。该专业领域可以是相对于通用领域更为细分的领域,例如医疗领域、IT领域等。
专业领域的知识图谱(knowledge-graph)蕴含着该专业领域的知识,比如在医疗领域,需要知道疾病名字,症状,药品,检查等知识,在IT领域,需要知道编程,程序语言,面向对象,敏捷开发等专有词汇。通过知识图谱中实体节点和实体节点间的路径标识了该专业领域中专业词汇和专业词汇间的关联关系。
服务器100通过在知识图谱200中以规定的路径数量(例如K=2)遍历出待定节点周边的关联节点集合,并基于待定节点、关联节点集合和之间的关联关系,可以从图结构化的知识图谱中转化出序列化的图谱知识语料,例如在医疗领域,示例性的图谱知识语料可以为:胃炎具有腹痛具有腹泻的症状。
相对于图结构化的信息,这种序列化的图谱知识语料能够被语言模型所理解并基于训练学习到其中的专业领域知识。故服务器100可以根据从知识图谱200中序列化得到的图谱知识语料,对已经完成了通用语言预训练的预训练语言模型300直接进行领域训练(post-training),使得使已经掌握通用语言知识的预训练语言模型300学习到该专业领域的知识,成为适用于该专业领域的领域语言模型400。领域语言模型400可以在该专业领域中为用户提供各类与语言相关的服务,例如内容搜索、智能问答等。
相对于相关技术中对完全初始化的语言模型的训练方式,完成领域训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,将预训练语言模型训练成领域语言模型的整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。
图2为本申请实施例提供的一种领域语言模型的确定方法的方法流程图,所述方法包括:
S201:获取专业领域的知识图谱。
本步骤提及的专业领域需要确定出适应于该专业领域的领域语言模型,可以是新产品将要涉及的领域,也可以是基于开发需求、业务需求确定的领域,本申请不做限定。专业领域相对于通用领域,具有相应的专业词汇等专业知识,专业词汇有着领域专属的含义,或者区别于通用领域的特定含义。比如在医疗领域的专有词汇“克罗恩”,这个词汇在一般的语料中很少出现,但如果结合医疗领域的知识图谱,就可以很迅速的得到关于“克罗恩”这个词汇的信息,属于消化内科的一种疾病以及它的常见症状等。
所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系。从而可以通过图结构的知识图谱携带专业领域的相关专业知识。
常见的表示形式是三元组的形式《实体1,关系,实体2》表示实体1与实体2之间具备某种关系。
示例性的,图3示出了一种涉及医疗领域的知识图谱,为了便于说明,图3仅为只知识图谱中的一个子集,e以及e1-e5均为该知识图谱中的实体节点,r1-r5用于标识所连接实体节点间的关联关系。
其中,e代表的实体为胃炎、e1代表的实体为腹痛、e2代表的实体为腹泻、e3代表的实体为发烧、e4代表的实体为恶心、e5代表的实体为3小时。r1-r4所标识的关联关系为“具有。。。症状”,r5所标识的关联关系为“持续时长”。
S202:基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合。
待定节点为用于作为中心在知识图谱中进行遍历的实体节点,针对每一个待定节点的遍历可以并行进行,也可以依次进行,本申请不做限定。
知识图谱中每一个实体节点都可以作为待定节点,也可以将其中一部分实体节点确定为待定节点。具体需要多少个待定节点可以基于实际业务需求、知识图谱的规模等确定。
在一种可能的实现方式中,S202包括:
根据所述知识图谱中实体节点的数量以及完成所述领域训练所需的语料规模确定采样比例;
根据所述采样比例从所述知识图谱中确定出部分实体节点作为所述待定节点。
由于需要一定规模的图谱训练样本才能在后续对预训练语言模型完成领域训练(post-training),故从知识图谱中序列化出的图谱知识语料的数量需要有所保障。
然而有些专业领域相对较为冷门,目前能够得到的知识图谱规模可能较小,复杂度也较低。这种情况下可以将该知识图谱中大部分或全部实体节点作为待定节点,分别以一个待定节点为中心在知识图谱中进行关联节点集合的遍历。
有些专业领域相对较为热门,通过S201获取的知识图谱的规模可能很大,复杂度也很高。在此情况下,若将全部实体节点均作为待定节点,最终将获得大量的图谱知识语料,对于完成领域训练来说就过于冗余了,而且遍历耗时也很可观。这种情况下,可以仅选择知识图谱中的一部分实体节点作为待定节点,得到能够完成领域训练的规模即可。
在基于一个待定节点在知识图谱中进行遍历时,可以通过K的数值来限定遍历的范围,即确定出的关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点。
当K=1时,只需要遍历待定节点在知识图谱中最近的邻居节点,即通过一条路径与待定节点相连的实体节点,例如在图3示出的场景中,若将e作为待定节点,遍历得到的关联节点集合中包括有e1-e4,若将e1作为待定节点,遍历得到的关联节点集合中包括有e和e5。
当K>1时,确定出的关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K。以K=2为例,遍历到的关联节点中有与待定节点之间仅一条路径相连的实体节点,也包括与待定节点之间需要经过两条路径相连的实体节点。例如在图3示出的场景中,若将e作为待定节点,遍历得到的关联节点集合中除了包括有e1-e4,还包括e5。
在一种可能的实现方式中,可以根据完成所述领域训练所需的语料规模确定K的数值。由此,本申请可以通过有针对性的调整K的数值,来控制遍历知识图谱的计算量和耗时,并以此达到在预训练语言模型的基础上,高效率的完成领域训练以得到领域语言模型的目的。
S203:根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料。
根据S202中基于待定节点在知识图谱中的遍历,可以明确在知识图谱中与待定节点间路径距离较近(小于或等于K)的关联节点,这些关联节点与待定节点间的路径数量相对较少,在专业领域中具有较强的语义联系。通过序列化所得到的语料能够较为明确的体现出专业领域中的专业知识,得到大量蕴含知识的语句,有助于后续预训练语言模型对专业领域中知识的学习。
由于通过关联关系能够明确关联节点集合中的关联节点与待定节点在语义上的关系,从而基于该关系能够体现出专业领域的专业知识。在进行序列化时,可以将关联节点与待定节点间的关联关系将这两类节点所代表的实体进行语义上的组合,形成序列化的语料,这些语料中将会通过语义的角度体现出上述专业知识。
例如在图3示出的场景中,若关联节点集合中包括e1-e4,那么序列化得到的图谱知识语料示例性的可以包括:胃炎具有腹痛具有腹泻具有发烧具有恶心的症状。
需要说明的是,基于一个待定节点和对应的关联节点集合,可以生成至少一个图谱知识语料,基于不同的待定节点可生成的图谱知识语料的数量可以相同也可以不同。
S204:通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型。
其中,预训练语言模型(pre-trained-language-model)为完成了预训练的通用语言模型,例如可以属于自然语言处理领域的一种深度学习模型,针对初始化的语言模型,在大规模无标注语料通过自监督的方式学习语句本身的特征从而对模型参数进行调整而得到预训练语言模型,得到的预训练语言模型的参数中蕴含基本的语言学规律。
在本申请实施例中,预训练语言模型可以是双向编码翻译(BidirectionalEncoder Representation from Transformers,BERT)模型,也可以是xlnet模型、robert模型(均为BERT模型的改进版)、albert模型(一种中文预训练模型)、基于全词遮盖的双向编码翻译(Bidirectional Encoder Representation from Transformers-Whole WordMasking,BERT-WWM)模型等,也可以是较为简单的长短期记忆网络(Long Short-TermMemory,LSTM)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型等。
而领域训练(post-training)是指,针对经过大规模无标注语料进行预训练之后得到预训练语言模型,在某一个专业领域(或者说细分领域),通过适量的样本在进行领域自适应的训练,旨在学习该专业领域独有的特征。其训练方式与预训练阶段的训练方式可以完全一致,只是领域训练所需语料为该专业领域的语料且语料的数据量远远小于对初始化的语言模型进行预训练所需数据量。
故通过S203序列化得到的图谱知识语料不仅能够体现出该专业领域的专业知识,数量也不需要非常多,使得基于知识图谱序列化图谱知识语料不需要消耗大量时间,相对于相关技术中收集专业领域中语料时间大大减少。
通过本申请实施例提供的确定方法得到的领域语言模型,可以准确的理解前述专业领域中的专业知识,从而能够在前述专业领域中为用户提供各类服务。
在一种可能的实现方式中,所述方法还包括:
获取用户在所述专业领域下输入的目标文本;
通过所述领域语言模型提取所述目标文本的目标特征向量;
根据所述目标特征向量确定所述目标文本对应的服务内容。
在获取用户输入的涉及专业领域的目标文本时,可以通过领域语言模型提取出目标文本的目标特征向量,由于领域语言模型可以准确理解专业领域中的专业知识,该目标特征向量中携带的语义信息能够正确的编码,从而为后续的服务提供准确的依据。
当目标文本对应的服务为搜索服务时,可以根据目标特征向量确定对应的搜索内容。例如图4示出的医疗领域中,领域语言模型能够准确提取用户的输入文本“克罗恩可以吃达喜吗”的语义特征向量,从而为用户提供与输入文本相关的搜索项,例如对应输入文本的搜索项1-3,还可以根据输入文本为用户提供语义相似的其他搜索关键词,例如“猜你想问”。
当目标文本对对应的服务为智能问答或智能客服时,可以根据目标特征向量明确目标文本的语义信息,并基于此确定出应该回复的内容。例如图5示出的医疗领域中,领域语言模型能够准确提取用户的输入文本“克罗恩病吃达喜有效果吗”的语义特征向量,从而得到符合的回复内容“请问您患病多久了?”。
由此可见,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,该知识图谱中通过实体节点和实体节点间的路径标识了该专业领域中专业词汇和专业词汇间的关联关系。通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,并基于待定节点、关联节点集合和之间的关联关系,可以从图结构化的知识图谱中转化出序列化的图谱知识语料,这种序列化的图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,相对于相关技术中对完全初始化的语言模型的训练方式,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。
在一种可能的实现方式中,S203可以包括:
S2031:将所述待定节点作为关联队列的首节点,并依据所述待定节点在所述知识图谱中的拓扑关系,将遍历得到的所述关联节点作为队列节点加入所述关联队列,所述队列节点用于标识所对应关联节点以及与所述待定节点间的关联关系;
S2032:根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到所述多个图谱知识语料。
具体可以基于如下的处理逻辑:
Figure BDA0003319744930000111
Figure BDA0003319744930000121
输出:以X为中心,最大路径长度为K的知识图谱子图的序列化表达S。
这里提及的X为一个待定节点,该待定节点对应的关联队列中首节点为该待定节点,之后的每一个节点为遍历得到的关联节点,关联节点在关联队列中的位置与该关联节点与所述待定节点在所述知识图谱中的拓扑关系有关,从而通过关联队列中的位置关系可以有效的形成具有实际语义的序列化的图谱知识语料。
例如图3示出的场景中,待定节点e的关联队列为:
【《NULL,e,0》,《r1,e1,1》,《r2,e2,1》,《r3,e3,1》,《r4,e4,1》】
最终序列化得到的图谱知识语料可以为:e r1 e1 r2 e2 r3 e3 r4 e4
若e代表胃炎节点,r1,r2,r3,r4的关系表示:具有。。症状
e1,e2,e3,e4分别代表:“腹痛”,“腹泻”,“发烧”,“恶心”
则以胃炎为待定节点,路径长度为1的序列化的图谱知识语料S可以为:胃炎具有腹痛具有腹泻具有发烧具有恶心的症状。
基于上述处理逻辑,本申请实施例还提供了一种在K≥2的情况下的遍历方式,在这种可能的实现方式中,以小于K的i作为示例进行说明S203的一种具体实现。
在所述知识图谱中遍历与所述待定节点间的路径数量为i的实体节点,作为所述待定节点的第i级关联节点,i<K;
在所述知识图谱中遍历与所述第i级关联节点邻接的实体节点,将首次遍历到的实体节点作为所述待定节点的第i+1级关联节点;
根据所述待定节点的第1级关联节点至第K级关联节点确定所述关联节点集合。
也就是说,遍历的过程是以待定节点为中心,由近及远进行遍历,例如在图3示出的场景中,先遍历距离e的路径数量为1的关联节点,从而得到e1-e4作为第1级关联节点,再遍历与第1级关联节点邻接的实体节点,得到e5,作为第2级关联节点。将第1级关联节点和第2级关联节点确定待定节点e的关联节点集合:e1-e5。
例如图3示出的场景中,待定节点e的关联队列为:
【《NULL,e,0》,《r1,e1,1》,《r5,e5,2》,《r2,e2,1》,《r3,e3,1》,《r4,e4,1》】
则以胃炎为待定节点,路径长度为2的序列化的图谱知识语料S可以为:胃炎具有持续3小时的腹痛具有腹泻具有发烧具有恶心的症状。
可见,具体基于队列的序列化方式,可以得到较为复杂的序列化的图谱知识语料,提高后续生成训练样本的质量。
除了基于全部队列节点生成图谱知识语料之外,还可以基于关联队列中的部分队列节点生成图谱知识语料。
以多个图谱知识语料中的一个图谱知识语料作为目标知识语料,该目标知识语料为将所述关联队列的部分队列节点进行序列化得到的。在一种可能的实现方式中,S2032包括:
根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点;
基于所述部分队列节点的出队顺序进行序列化得到所述目标知识语料。
在对关联队列中部分队列节点进行序列化时,需要考虑队列节点间相对于所述待定节点的父子节点关系,由此在序列化后得到目标知识语料时,其中的语义才能较为通顺,便于预训练语言模型在领域训练时进行知识学习,提高训练效率。
例如基于前述示例中的关联队列:【《NULL,e,0》,《r1,e1,1》,《r5,e5,2》,《r2,e2,1》,《r3,e3,1》,《r4,e4,1》】
在根据部分队列节点的出队顺序仅序列化时,可以得到的图谱知识语料包括:胃炎具有持续3小时的腹痛症状;胃炎具有腹泻具有发烧具有恶心的症状等。
接下来说明如何在关联队列中采样部分队列节点。若队列节点中包括第一节点和第二节点,所述第一节点为所述第二节点的父节点,那么在一种可能的实现方式中,
若所述第一节点被采样到所述部分队列节点中,所述第二节点属于可被采样的队列节点;
若所述第一节点未被采样到所述部分队列节点中,所述第二节点属于不可被采样的队列节点。
也就是说,例如在图3示出的场景中,若e1被采样到所述部分队列节点中,那么e5也具有被采样的条件,基于实际需要,可将e5采样到所述部分队列节点中,或者不将e5采样到所述部分队列节点中。
若e1未被采样到所述部分队列节点中,那么e5不具备被采样的条件,不论什么情况都不会被采样到所述部分队列节点中。
通过部分队列节点生成图谱知识语料的方式,可以增加一个待定节点所能生成图谱知识语料的数量以及多样性,而且针对某一专业领域的知识图谱规模较小的场景,通过上述方式能够确定出大量的图谱知识语料,增加后续训练样本的生成数量,以达到满足完成领域训练的要求。
接下来说明本申请实施例提供的将预训练语言模型进行领域训练得到领域语言模型的方式。
在一种可能的实现方式中,针对S204,包括:
S2041:通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,所述图谱知识语料中的被遮盖部分作为所对应图谱训练样本的样本标签。
S2042:通过所述预训练语言模型提取所述图谱训练样本的特征向量,并通过分类器对所述图谱训练样本中被遮盖部分的预测结果。
S2043:根据所述预测结果与所述样本标签间的差异对所述预训练语言模型进行参数调整,得到针对所述专业领域的领域语言模型。
在对预训练语言模型进行领域训练时,需要对图谱知识语料中的部分实体节点和/或关联关系进行遮盖(mask)处理,得到图谱训练样本,将该图谱训练样本作为预训练语言模型的输入,预训练语言模型通过对图谱训练样本进行语义特征向量提取,由于图谱训练样本中缺少了部分实体节点和/或关联关系,即预训练语言模型并不知道这部分遮盖的实际内容是什么,故需要预训练语言模型在提取特征向量时,基于已经学习的专业领域知识对剩余部分的特征向量尽可能准确(贴合专业领域的专业知识)进行提取,以便后续的分类器能够借助预训练语言模型提供的特征向量中的上下文信息,准确预测出被遮盖的部分是什么。
虽然领域训练所需训练样本的规模要小于对初始化的语言模型进行预训练所需的样本量,但是也有一定要求,本申请实施例提供了一种确定图谱训练样本的方式,可以基于一个图谱知识语料生成多个图谱训练样本,在冷门领域的知识图谱信息较少的情况下得到足以实现领域训练的训练样本数量。
而且,由于本申请所生成的图谱知识语料相对于相关技术来说,可以更为复杂,例如基于关联队列所生成的图谱知识语料可以包含较多的实体和关联关系,从而具备了基于多种遮盖方式生成多个图谱训练样本的基础。
相关技术中难以获取足量的用于领域训练的训练样本,故针对一个专业领域的领域语言模型的获取,相关技术中必须要借助预训练所采用的大规模无标注语料结合少量的与专业领域相关的图谱知识语料,对初始化的语言模型进行预训练后才能得到领域语言模型,导致针对不同的专业领域,每一次都需要重新进行一次预训练才能得到对应的领域语言模型。
而如前所述,本申请中从知识图谱中序列化得到的图谱知识语料更为丰富多样,而且针对一个图谱知识语料可以生成多个训练样本,从而获取足以完成领域训练所需的样本量。故针对一个专业领域,直接使用已经预训练完成的预训练语言模型进行对应的领域训练即可得到对应该专业领域的领域语言模型,而不需要每次都重新进行耗时较长的预训练,提高了训练效率。
在一种可能的实现方式中,针对S2041,若所述图谱知识语料中包括多个关联关系,通过N种遮盖方式对所述图谱知识语料进行遮盖处理,得到与所述N种遮盖方式一一对应的N个图谱训练样本,所述N种遮盖方式分别指示遮盖的部分实体节点和/或关联关系不完全相同。
例如图谱知识语料为:胃炎具有持续3小时的腹痛具有腹泻具有发烧具有恶心的症状,通过不同遮盖方式可以至少得到训练样本1和训练样本2。其中训练样本1为:胃炎具有持续3小时的[mask]具有[mask]具有发烧具有恶心的症状,训练样本2为:胃炎具有[mask]的腹痛具有腹泻具有[mask]具有[mask]的症状。
如图6所示,适用BERT模型的遮盖方式进行领域训练,对图谱知识语料:胃炎具有腹痛具有腹泻具有恶心的症状,遮盖掉其中的实体节点“腹痛”和“恶心”,得到训练样本:胃炎具有[mask]具有腹泻具有[mask]的症状,并将遮盖的部分作为该训练样本的样本标签。
将该训练样本输入预训练语言模型提取特征向量P=BERT(mased_X),并根据分类器预测训练样本中被遮盖的部分,基于预测结果与样本标签的区别,对预训练语言模型进行调整得到领域语言模型。
在一种可能的实现方式中,本申请实施例还提供了一种模型迁移的方式。
S11:获取待迁移专业领域的目标知识图谱,所述待迁移专业领域与所述专业领域具有相关性;
S12:通过对所述目标知识图谱进行遍历和序列化得到多个目标图谱知识语料;
S13:通过所述多个目标图谱知识语料对所述领域语言模型进行领域训练,得到针对所述待迁移专业领域的多领域语言模型。
S11-S12的实现方式可以参照S201-S203,此处不再赘述。
在S13中,用于领域训练的领域语言模型属于已经适用于前述专业领域的语言模型了,故在待迁移专业领域下完成领域训练后,将进一步适用于待迁移专业领域,成为多领域语言模型。
由于待迁移专业领域与S201中提及的专业领域之间具有一定的相关性,该相关性可以体现在专业知识上一定程度的相通,故在需要针对待迁移专业领域的领域语言模型时,可以借助针对专业领域的领域语言模型作为迁移依据,不仅可以提高针对待迁移专业领域的领域语言模型的训练效率,也可以基于待迁移专业领域和前述专业领域间的相通性,提高领域语言模型的质量。
在前述针对领域语言模型的确定方法的实施例的基础上,图7为一种领域语言模型的确定装置的装置结构图,所述领域语言模型的确定装置700包括获取单元701、遍历单元702、序列化单元703和训练单元704:
所述获取单元701,用于获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
所述遍历单元702,用于基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
所述序列化单元703,用于根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
所述训练单元704,用于通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
在一种可能的实现方式中,所述序列化单元还用于:
将所述待定节点作为关联队列的首节点,并依据所述待定节点在所述知识图谱中的拓扑关系,将遍历得到的所述关联节点作为队列节点加入所述关联队列,所述队列节点用于标识所对应关联节点以及与所述待定节点间的关联关系;
根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到所述多个图谱知识语料。
在一种可能的实现方式中,目标知识语料为所述多个图谱知识语料中的一个图谱知识语料,所述目标知识语料为将所述关联队列的部分队列节点进行序列化得到的;
所述序列化单元还用于:
根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点;
基于所述部分队列节点的出队顺序进行序列化得到所述目标知识语料。
在一种可能的实现方式中,所述队列节点中包括第一节点和第二节点,所述第一节点为所述第二节点的父节点,所述序列化单元还用于:
若所述第一节点被采样到所述部分队列节点中,所述第二节点属于可被采样的队列节点;
若所述第一节点未被采样到所述部分队列节点中,所述第二节点属于不可被采样的队列节点。
在一种可能的实现方式中,所述训练单元还用于:
通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,所述图谱知识语料中的被遮盖部分作为所对应图谱训练样本的样本标签;
通过所述预训练语言模型提取所述图谱训练样本的特征向量,并通过分类器对所述图谱训练样本中被遮盖部分的预测结果;
根据所述预测结果与所述样本标签间的差异对所述预训练语言模型进行参数调整,得到针对所述专业领域的领域语言模型。
在一种可能的实现方式中,所述训练单元还用于:
若所述图谱知识语料中包括多个关联关系,通过N种遮盖方式对所述图谱知识语料进行遮盖处理,得到与所述N种遮盖方式一一对应的N个图谱训练样本,所述N种遮盖方式分别指示遮盖的部分实体节点和/或关联关系不完全相同。
在一种可能的实现方式中,若K≥2,所述遍历单元还用于:
在所述知识图谱中遍历与所述待定节点间的路径数量为i的实体节点,作为所述待定节点的第i级关联节点,i<K;
在所述知识图谱中遍历与所述第i级关联节点邻接的实体节点,将首次遍历到的实体节点作为所述待定节点的第i+1级关联节点;
根据所述待定节点的第1级关联节点至第K级关联节点确定所述关联节点集合。
在一种可能的实现方式中,所述获取单元还用于获取待迁移专业领域的目标知识图谱,所述待迁移专业领域与所述专业领域具有相关性;
所述序列化单元还用于通过对所述目标知识图谱进行遍历和序列化得到多个目标图谱知识语料;
所述训练单元还用于通过所述多个目标图谱知识语料对所述领域语言模型进行领域训练,得到针对所述待迁移专业领域的多领域语言模型。
在一种可能的实现方式中,所述装置还包括第一确定单元:
所述第一确定单元,用于根据所述知识图谱中实体节点的数量以及完成所述领域训练所需的语料规模确定采样比例;
所述第一确定单元还用于根据所述采样比例从所述知识图谱中确定出部分实体节点作为所述待定节点。
在一种可能的实现方式中,所述装置还包括第二确定单元:
所述第二确定单元,用于根据完成所述领域训练所需的语料规模确定K的数值。
在一种可能的实现方式中,所述装置还包括提取单元和服务单元:
所述获取单元还用于获取用户在所述专业领域下输入的目标文本;
所述提取单元,用于通过所述领域语言模型提取所述目标文本的目标特征向量;
所述服务单元,用于根据所述目标特征向量确定所述目标文本对应的服务内容。
由此可见,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,该知识图谱中通过实体节点和实体节点间的路径标识了该专业领域中专业词汇和专业词汇间的关联关系。通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,并基于待定节点、关联节点集合和之间的关联关系,可以从图结构化的知识图谱中转化出序列化的图谱知识语料,这种序列化的图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,相对于相关技术中对完全初始化的语言模型的训练方式,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述领域语言模型的确定装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图8所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(Wireless Fidelity,简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图8中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;优选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),优选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1480还具有以下功能:
获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图9所示,图9为本申请实施例提供的服务器1500的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种领域语言模型的确定方法,其特征在于,所述方法包括:
获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料,包括:
将所述待定节点作为关联队列的首节点,并依据所述待定节点在所述知识图谱中的拓扑关系,将遍历得到的所述关联节点作为队列节点加入所述关联队列,所述队列节点用于标识所对应关联节点以及与所述待定节点间的关联关系;
根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到所述多个图谱知识语料。
3.根据权利要求2所述的方法,其特征在于,目标知识语料为所述多个图谱知识语料中的一个图谱知识语料,所述目标知识语料为将所述关联队列的部分队列节点进行序列化得到的;
所述根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到多个图谱知识语料,包括:
根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点;
基于所述部分队列节点的出队顺序进行序列化得到所述目标知识语料。
4.根据权利要求3所述的方法,其特征在于,所述队列节点中包括第一节点和第二节点,所述第一节点为所述第二节点的父节点,所述根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点,包括:
若所述第一节点被采样到所述部分队列节点中,所述第二节点属于可被采样的队列节点;
若所述第一节点未被采样到所述部分队列节点中,所述第二节点属于不可被采样的队列节点。
5.根据权利要求1所述的方法,其特征在于,所述通过所述多个图谱知识语料对已经完成预训练的预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,包括:
通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,所述图谱知识语料中的被遮盖部分作为所对应图谱训练样本的样本标签;
通过所述预训练语言模型提取所述图谱训练样本的特征向量,并通过分类器对所述图谱训练样本中被遮盖部分的预测结果;
根据所述预测结果与所述样本标签间的差异对所述预训练语言模型进行参数调整,得到针对所述专业领域的领域语言模型。
6.根据权利要求5所述的方法,其特征在于,所述通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,包括:
若所述图谱知识语料中包括多个关联关系,通过N种遮盖方式对所述图谱知识语料进行遮盖处理,得到与所述N种遮盖方式一一对应的N个图谱训练样本,所述N种遮盖方式分别指示遮盖的部分实体节点和/或关联关系不完全相同。
7.根据权利要求1-6任意一项所述的方法,其特征在于,若K≥2,所述基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,包括:
在所述知识图谱中遍历与所述待定节点间的路径数量为i的实体节点,作为所述待定节点的第i级关联节点,i<K;
在所述知识图谱中遍历与所述第i级关联节点邻接的实体节点,将首次遍历到的实体节点作为所述待定节点的第i+1级关联节点;
根据所述待定节点的第1级关联节点至第K级关联节点确定所述关联节点集合。
8.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
获取待迁移专业领域的目标知识图谱,所述待迁移专业领域与所述专业领域具有相关性;
通过对所述目标知识图谱进行遍历和序列化得到多个目标图谱知识语料;
通过所述多个目标图谱知识语料对所述领域语言模型进行领域训练,得到针对所述待迁移专业领域的多领域语言模型。
9.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
根据所述知识图谱中实体节点的数量以及完成所述领域训练所需的语料规模确定采样比例;
根据所述采样比例从所述知识图谱中确定出部分实体节点作为所述待定节点。
10.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
根据完成所述领域训练所需的语料规模确定K的数值。
11.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
获取用户在所述专业领域下输入的目标文本;
通过所述领域语言模型提取所述目标文本的目标特征向量;
根据所述目标特征向量确定所述目标文本对应的服务内容。
12.一种领域语言模型的确定装置,其特征在于,所述装置包括获取单元、遍历单元、序列化单元和训练单元:
所述获取单元,用于获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
所述遍历单元,用于基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
所述序列化单元,用于根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
所述训练单元,用于通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-11中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-11中任意一项所述的方法。
15.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-11任意一项所述的方法。
CN202111242581.6A 2021-10-25 2021-10-25 一种领域语言模型的确定方法和相关装置 Pending CN116028632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111242581.6A CN116028632A (zh) 2021-10-25 2021-10-25 一种领域语言模型的确定方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111242581.6A CN116028632A (zh) 2021-10-25 2021-10-25 一种领域语言模型的确定方法和相关装置

Publications (1)

Publication Number Publication Date
CN116028632A true CN116028632A (zh) 2023-04-28

Family

ID=86072970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111242581.6A Pending CN116028632A (zh) 2021-10-25 2021-10-25 一种领域语言模型的确定方法和相关装置

Country Status (1)

Country Link
CN (1) CN116028632A (zh)

Similar Documents

Publication Publication Date Title
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN110490213B (zh) 图像识别方法、装置及存储介质
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
CN111816159B (zh) 一种语种识别方法以及相关装置
CN109902296B (zh) 自然语言处理方法、训练方法及数据处理设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110634474B (zh) 一种基于人工智能的语音识别方法和装置
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN112214605A (zh) 一种文本分类方法和相关装置
CN112749252A (zh) 一种基于人工智能的文本匹配方法和相关装置
CN112862021B (zh) 一种内容标注方法和相关装置
CN113822038A (zh) 一种摘要生成方法和相关装置
CN112328783A (zh) 一种摘要确定方法和相关装置
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质
CN116933149A (zh) 一种对象意图预测方法、装置、电子设备和存储介质
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN111723783B (zh) 一种内容识别方法和相关装置
CN114840563B (zh) 一种字段描述信息的生成方法、装置、设备及存储介质
CN116028632A (zh) 一种领域语言模型的确定方法和相关装置
CN113821609A (zh) 一种答案文本的获取方法及装置、计算机设备和存储介质
CN113703883A (zh) 一种交互方法和相关装置
CN111709789A (zh) 一种用户转化率的确定方法及相关设备
CN111475732B (zh) 一种信息处理方法和装置
CN116975295B (zh) 一种文本分类方法、装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination