CN116484220A - 语义表征模型的训练方法、装置、存储介质及计算机设备 - Google Patents
语义表征模型的训练方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116484220A CN116484220A CN202310437594.1A CN202310437594A CN116484220A CN 116484220 A CN116484220 A CN 116484220A CN 202310437594 A CN202310437594 A CN 202310437594A CN 116484220 A CN116484220 A CN 116484220A
- Authority
- CN
- China
- Prior art keywords
- training
- query
- model
- determining
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 169
- 238000012512 characterization method Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义表征模型的训练方法、装置、存储介质及计算机设备,涉及数字医疗技术领域。其中方法包括:获取多个文档文件,在每个文档文件中确定查询标签,确定与每个查询标签对应的正样本;确定每个查询标签对应的困难负样本,创建包含每个查询标签以及与查询标签对应的正样本和困难负样本的训练数据集,其中,训练数据集包括包含预设数量的查询标签以及与查询标签对应的正样本和困难负样本的训练批次;获得预训练语言模型,确定出每个训练批次中每个查询标签对应的负样本;基于包含每个查询标签对应的负样本的训练数据集使用对比学习损失函数对预训练语言模型进行训练得到语义表征模型。上述方法能提高训练出的语义表征模型的准确性。
Description
技术领域
本发明涉及数字医疗技术领域,尤其是涉及一种语义表征模型的训练方法、装置、存储介质及计算机设备。
背景技术
随着医疗技术的日趋成熟,医疗技术领域内文本数量也随之快速增长,在大范围地文本搜索场景下,基于内容理解的搜索至关重要。能否快速地在海量的文本内搜索出所要得到的文本文档,对医疗工作的快速推进有着重要的作用,能否快速的在海量的医疗技术领域的文档中快速准确的找出所要获取的医学文档,对疾病辅助诊断以及健康管理方面有着重要的意义。
当前,业界主流的做法是建立语义模型,其中,直接使用BERT的CLS的特征信息作为输入的向量表示、使用文本所有词的特征信息的平均值作为向量表示、使用文本所有词的特征表示的最大值作为输入文本的向量对模型进行训练。
但是,以该种模型训练方式训练的语义模型,在医疗文本搜索的数据非常稀缺的情况下,无法构造高质量的数据,导致语义模型的准确率大幅降低。
发明内容
有鉴于此,本申请提供了一种语义表征模型的训练方法、装置、存储介质及计算机设备,主要目的在于解决传统方法训练出的语义模型的准确率过低的技术问题。
根据本发明的第一个方面,提供了一种语义表征模型的训练法,该方法包括:
获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
根据本发明的第二个方面,提供了一种语义表征模型的训练装置,该装置包括:
样本确定模块,用于获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
数据集获取模块,用于确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
模型获取模块,用于获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
模型训练模块,用于基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语义表征模型的训练方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语义表征模型的训练方法。
本发明提供的一种语义表征模型的训练方法、装置、存储介质及计算机设备,能够构造出高质量的查询标签(query)、正样本(document)和困难负样本(hard negative)数据集,并使用对比学习损失函数基于包括query、document、hard negative和得到的负样本(negative)对预训练模型进行训练。本申请通过构建query和document搜索数据的方法,操作简单,运算量小,训练质量较高,正样本语义相关性高的方式训练语义模型,能大幅提高训练出的高语义表征模型的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语义表征模型的训练方法的流程示意图;
图2示出了本发明实施例提供的一种语义表征模型的训练装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
现如今,医学文档信息查询成为很多医学诊断与医学研究场景中用户快速获取所需医疗信息的主要渠道。当前的医疗技术领域,业界主流的做法是建立语义模型,其中,直接使用BERT的CLS的特征信息作为输入的向量表示、使用文本所有词的特征信息的平均值作为向量表示、使用文本所有词的特征表示的最大值作为输入文本的向量对模型进行训练。但是,以该种模型训练方式训练的语义模型,在医疗文本搜索的数据非常稀缺的情况下,无法构造高质量的数据,导致语义模型的准确率大幅降低。
针对上述问题,在一个实施例中,如图1所示,提供了一种语义表征模型的训练方法,应当注意的,是本申请实施例中以该方法适用于医疗文档领域为例进行介绍,本申请同样适用于其他技术领域。现以该方法应用于计算机设备为例进行说明,包括以下步骤:
101、获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本。
其中,在一种可能的实现方式中,所述文档文件可以为医疗领域的技术或医学研究领域的学术论文等文档,如胃部病变的研究论文等相关医学文档。查询标签可以为query标签,正样本可以为query标签对应的document数据。
具体的,可以在文档文件中选定出特定的能够对文档文件中的信息具有概括性的文字信息作为query标签,并在query标签所在的文档文件中选择出特定的语句或语句的组合作为query标签对应的document数据。
102、确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集。
其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次(batch)。
具体的,可以基于tf-idf算法,全部文档文件中选择出与每个query标签相关性较高的文档,将该文档作为该query标签的困难负样本(hard negative)。进一步的,可以创建至少一个batch,并为每个batch中添加预设数量的查询标签以及与该查询标签对应的正样本和困难负样本。
103、获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中。
其中,预训练语言模型可以包括骨干网络、Condenser模型以及对比学习模型。进一步的,骨干网络为获取到的BERT模型架构的初始模型,基于第一文档数据集对初始模型进行训练,得到的预训练模型。其中,第一文档数据集可以为pubmed数据集等外部数据集,初始模型可以为pubmedBert模型。进一步的,通过Condenser模型对预训练模型进行调整,具体的,可以基于第二文档数据集内的文档,通过Condenser模型结构对预训练模型进行调整,其中,第二文档数据集为存放内部文档的数据库,内部文档为语义表征模型在实际使用中需要进行文本搜索的文档。使用上述方式得到预训练语言模型,能够增强预训练语言模型的CLS token的语义表征能力,得到BERT架构的模型,作为后续步骤中对比学习的基模型。
具体的,在对语义表征模型进行训练时,可以在训练批次中确定每个query标签,并在该query标签处于同一批次的其他query标签的正样本作为该query标签的负样本。
104、基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
具体的,获得训练数据集所包含的多个训练批次,其中,每个训练批次包含预设数量的query标签以及与每个query标签对应的正样本、困难负样本以及在步骤103中确定出的负样本。通过多个训练批次使用对比学习损失函数对预训练语言模型进行训练,得到语义表征模型。
本实施例提供的语义表征模型的训练方法,能够在医疗领域中训练人工智能模型从海量的电子医学档案中查询用户所需的档案信息,有助于为用户提供诊断、研究的参考资料。具体的,能够构造出高质量的查询标签(query)、正样本(document)和困难负样本(hard negative)数据集,并使用对比学习损失函数基于包括query、document、hardnegative和得到的负样本(negative)对预训练模型进行训练。本申请通过构建query和document搜索数据的方法,操作简单,运算量小,训练质量较高,正样本语义相关性高的方式训练语义模型,能大幅提高训练出的用于选择出医疗领域文档的高语义表征模型的准确性。
在一个实施例中,步骤101中所述的在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本的实现方法可以为:首先,确定每个所述文档文件的标题信息,并将所述标题信息作为所述文档文件对应的查询标签。具体的,对每个文档文件进行识别,定位出文档文件的标题信息,将标题信息作为query标签。然后,确定每个所述文档文件的摘要信息,并将所述摘要信息确定为所述文档文件对应的查询标签的正样本。具体的,识别出每个文档文件的摘要信息,将该摘要信息作为此文本文件对应的query标签的document。在本申请的实施例中,能够在医疗文本领域中搜索数据相对缺失的情况下,使用标题信息和摘要信息构建出高质量的用于训练对比学习的训练集,提高了训练出的模型的精确度。
在一个实施例中,步骤101中所述的在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本的实现方法还可以为:首先,确定所述查询标签对应的文档文件中每个段落的起始句和终止句。具体的,当存在不具有摘要信息的文档文件中时,定位文档文件的每一个段落,并确定每个段落的起始句与结尾句。然后,将所述文档文件中全部所述段落的所述起始句和所述终止句进行拼接,得到与所述文档文件对应的所述查询标签的正样本。在本申请的实施例中,能够在文档文件不存在摘要时,通关定位出位于段落首尾的关键句,并将其合并作为查询标签的正样本,提高了对于不同类型文档文件的适应性。
在一个实施例中,步骤102中所述的确定每个所述查询标签对应的困难负样本的方法为:首先,针对所述查询标签,确定每个所述文档文件中所述查询标签出现的频率。具体的,可以基于tf-idf算法确定在文档文件中与该文档文件对应的query标签对应的文字出现的频率。然后,对全部所述文档文件按照预设的顺序排列,得到文档文件队列。具体的,可以按照多个文档文件中query标签出现的频率,由高到低进行排列,得到文档文件队列。进一步的,具体排列形式可以根据实际情况确定。最后,在文档文件队列中选择预设次序的文档文件作为所述查询标签的所述困难负样本。其中,预设次序可以基于相关的实验或测试获得,分析当取得何种名次时,得到的困难负样本为最优的困难负样本。作为示例,可以选取30名左右的文档文件作为该query标签的困难负样本。在本申请的实施例中,能够快速地确定出每个query标签对应的困难负样本,提高了模型的训练效率。
在一个实施例中,步骤102中所述的确定出每个所述训练批次中每个查询标签对应的负样本的方法可以为:首先,执行循环过程直至满足预设条件。其中,所述循环过程包括:从每个所述训练批次内选取出一个所述查询标签,并确定所述训练批次内被选取出的所述查询标签之外的全部所述查询标签对应的正样本。具体的,在训练批次的多个查询标签中选择出一个查询标签,并确定训练批次中其他查询标签对应的正样本。进一步的,将所述正样本确定为所述选取出的所述查询标签的负样本。具体的,将训练批次中除去被选择出的查询标签之外其他查询标签对应的正样本,作为被选择出的查询标签的负样本。所述预设条件为:所述训练批次内每个所述查询标签都被确定出与所述查询标签对应的所述负样本。最后,将与每个所述查询标签对应的所述负样本添加到所述训练批次。具体的,可以将获取到查询标签的负样本与该查询标签进行对应,并将其加入到训练批次中,得到新的训练数据集。其中,该确定负样本的过程为在对模型进行训练的阶段实施。在本申请的实施例中,在模型训练阶段能够快速地确定出每个query标签对应的负样本,提高了模型的训练效率。
在一个实施例中,步骤104的实现方法可以为:首先,将所述训练数据集中的每个所述查询标签输入到所述预训练语言模型中,得到与所述查询标签对应的查询标签表征向量。具体的,可以将每一个将query标签输入到CoPubmedBert模型中,得到query标签表征向量。然后,将每个所述查询标签表征向量对应的所述正样本、所述负样本和所述困难负样本分别输入到所述预训练语言模型中,得到与所述查询标签表征向量对应正样本表征向量、负样本表征向量和困难负样本表征向量。具体的,将分别每个query标签对应的正样本、负样本和困难负样本输入到CoPubmedBert模型中,得到与每个query标签对应的正样本表征向量、负样本表征向量和困难负样本表征向量。最后,基于所述每个所述查询标签表征向量,以及与每个所述查询标签表征向量对应的所述正样本表征向量、所述负样本表征向量和所述困难负样本表征向量,使用对比学习损失函数对所述预训练语言模型进行训练,得到所述语义表征模型。本申请提供的实施例,能够利用有监督的对比学习的方法训练出高质量的语义表征模型,提高了训练出的模型的精准度。
本实施例提供的语义表征模型的训练方法,在医疗文本领域的搜索数据相对缺失的情况下,能够构造出高质量的查询标签(query)、正样本(document)和困难负样本(hardnegative)数据集,并使用对比学习损失函数基于包括query、document、hard negative和得到的负样本(negative)对预训练模型进行训练,其中,预训练模型为在pubmed数据集上进行了预训练的BERT模型架构的模型,并在Condenser模型结构上使用医疗文档数据集上进行调整,利用condenser模型解决BERT模型CLS的特征信息表征能力不足的问题,并利用有监督的对比学习的方法训练出高质量的语义表征模型。本申请通过构建query和document搜索数据的方法,操作简单,运算量小,训练质量较高,正样本语义相关性高的方式训练语义模型,能大幅提高训练出的高语义表征模型的准确性。
进一步的,作为图1所示方法的具体实现,本实施例提供了一种语义表征模型的训练装置,如图2所示,该装置包括:样本确定模块21、数据集获取模块22、模型获取模块23和模型训练模块24。
样本确定模块21,可用于获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
数据集获取模块22,可用于确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
模型获取模块23,可用于获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
模型训练模块24,可用于基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
在具体的应用场景中,所述样本确定模块21,具体可用于确定每个所述文档文件的标题信息,并将所述标题信息作为所述文档文件对应的查询标签;确定每个所述文档文件的摘要信息,并将所述摘要信息确定为所述文档文件对应的查询标签的正样本。
在具体的应用场景中,所述样本确定模块21,具体还可用于确定所述查询标签对应的文档文件中每个段落的起始句和终止句;将所述文档文件中全部所述段落的所述起始句和所述终止句进行拼接,得到与所述文档文件对应的所述查询标签的正样本
在具体的应用场景中,所述数据集获取模块22,具体可用于针对所述查询标签,确定每个所述文档文件中所述查询标签出现的频率;对全部所述文档文件按照预设的顺序排列,得到文档文件队列;在文档文件队列中选择预设次序的文档文件作为所述查询标签的所述困难负样本。
在具体的应用场景中,所述模型获取模块23,具体可用于执行循环过程直至满足预设条件,其中,所述循环过程包括:从每个所述训练批次内选取出一个所述查询标签,并确定所述训练批次内被选取出的所述查询标签之外的全部所述查询标签对应的正样本;将所述正样本确定为所述选取出的所述查询标签的负样本;所述预设条件为:所述训练批次内每个所述查询标签都被确定出与所述查询标签对应的所述负样本。
在具体的应用场景中,所述模型获取模块23,具体可用于获得BERT模型架构的初始模型,基于第一文档数据集对所述初始模型进行训练,得到预训练模型;基于第二文档数据集,通过Condenser模型结构对所述预训练模型进行调整,得到所述预训练语言模型。
在具体的应用场景中,所述模型训练模块24,具体可用于将所述训练数据集中的每个所述查询标签输入到所述预训练语言模型中,得到与所述查询标签对应的查询标签表征向量;将每个所述查询标签表征向量对应的所述正样本、所述负样本和所述困难负样本分别输入到所述预训练语言模型中,得到与所述查询标签表征向量对应正样本表征向量、负样本表征向量和困难负样本表征向量;基于所述每个所述查询标签表征向量,以及与每个所述查询标签表征向量对应的所述正样本表征向量、所述负样本表征向量和所述困难负样本表征向量,使用对比学习损失函数对所述预训练语言模型进行训练,得到所述语义表征模型。
需要说明的是,本实施例提供的一种语义表征模型的训练装置所涉及各功能单元的其它相应描述,可以参考图1中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1所示的语义表征模型的训练方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及图2所示的语义表征模型的训练装置实施例,为了实现上述目的,本实施例还提供了一种语义表征模型的训练的实体设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的方法。
可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种语义表征模型的训练的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先,获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;然后,确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;再后,获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;最后,基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。与现有技术相比,能显著提高训练出的语义表征模型的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种语义表征模型的训练方法,其特征在于,所述方法包括:
获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
2.根据权利要求1所述的方法,其特征在于,所述在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本,包括:
确定每个所述文档文件的标题信息,并将所述标题信息作为所述文档文件对应的查询标签;
确定每个所述文档文件的摘要信息,并将所述摘要信息确定为所述文档文件对应的查询标签的正样本。
3.根据权利要求2所述的方法,其特征在于,所述确定与每个所述查询标签对应的正样本,还包括:
确定所述查询标签对应的文档文件中每个段落的起始句和终止句;
将所述文档文件中全部所述段落的所述起始句和所述终止句进行拼接,得到与所述文档文件对应的所述查询标签的正样本。
4.根据权利要求1所述的方法,其特征在于,所述确定每个所述查询标签对应的困难负样本,包括:
针对所述查询标签,确定每个所述文档文件中所述查询标签出现的频率;
对全部所述文档文件按照预设的顺序排列,得到文档文件队列;
在文档文件队列中选择预设次序的文档文件作为所述查询标签的所述困难负样本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述确定出每个所述训练批次中每个查询标签对应的负样本,包括
执行循环过程直至满足预设条件,其中,所述循环过程包括:
从每个所述训练批次内选取出一个所述查询标签,并确定所述训练批次内被选取出的所述查询标签之外的全部所述查询标签对应的正样本;
将所述正样本确定为所述选取出的所述查询标签的负样本;
所述预设条件为:所述训练批次内每个所述查询标签都被确定出与所述查询标签对应的所述负样本;
将与每个所述查询标签对应的所述负样本添加到所述训练批次。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述预训练语言模型的获取方法包括:
获得BERT模型架构的初始模型,基于第一文档数据集对所述初始模型进行训练,得到预训练模型;
基于第二文档数据集,通过Condenser模型结构对所述预训练模型进行调整,得到所述预训练语言模型。
7.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型,包括:
将所述训练数据集中的每个所述查询标签输入到所述预训练语言模型中,得到与所述查询标签对应的查询标签表征向量;
将每个所述查询标签表征向量对应的所述正样本、所述负样本和所述困难负样本分别输入到所述预训练语言模型中,得到与所述查询标签表征向量对应正样本表征向量、负样本表征向量和困难负样本表征向量;
基于所述每个所述查询标签表征向量,以及与每个所述查询标签表征向量对应的所述正样本表征向量、所述负样本表征向量和所述困难负样本表征向量,使用对比学习损失函数对所述预训练语言模型进行训练,得到所述语义表征模型。
8.一种语义表征模型的训练装置,其特征在于,所述装置包括:
样本确定模块,用于获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
数据集获取模块,用于确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
模型获取模块,用于获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本;
模型训练模块,用于基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437594.1A CN116484220A (zh) | 2023-04-17 | 2023-04-17 | 语义表征模型的训练方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437594.1A CN116484220A (zh) | 2023-04-17 | 2023-04-17 | 语义表征模型的训练方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484220A true CN116484220A (zh) | 2023-07-25 |
Family
ID=87224625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310437594.1A Pending CN116484220A (zh) | 2023-04-17 | 2023-04-17 | 语义表征模型的训练方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484220A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094401A (zh) * | 2023-10-19 | 2023-11-21 | 恒生电子股份有限公司 | 问答查询方法、装置、计算设备和计算机可读存储介质 |
-
2023
- 2023-04-17 CN CN202310437594.1A patent/CN116484220A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094401A (zh) * | 2023-10-19 | 2023-11-21 | 恒生电子股份有限公司 | 问答查询方法、装置、计算设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10795939B2 (en) | Query method and apparatus | |
US11620321B2 (en) | Artificial intelligence based method and apparatus for processing information | |
CN107436875B (zh) | 文本分类方法及装置 | |
WO2016206210A1 (zh) | 信息推送方法和装置 | |
US20210303864A1 (en) | Method and apparatus for processing video, electronic device, medium and product | |
TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
CN106919711B (zh) | 基于人工智能的标注信息的方法和装置 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
US20200117751A1 (en) | Context-aware computing apparatus and method of determining topic word in document using the same | |
US20200050906A1 (en) | Dynamic contextual data capture | |
CN112052297B (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
US20240037134A1 (en) | Method and apparatus for searching for clipping template | |
CN116484220A (zh) | 语义表征模型的训练方法、装置、存储介质及计算机设备 | |
CN115525757A (zh) | 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN113220951B (zh) | 一种基于智能内容的医学临床支持方法和系统 | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN117216578A (zh) | 基于元学习的可自定义标签深度学习模型构建方法及系统 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115985506A (zh) | 一种信息提取方法及装置、存储介质、计算机设备 | |
CN115841862A (zh) | 病例报告表生成方法、装置、设备及存储介质 | |
KR20110138850A (ko) | 사용자 적응형 이미지 관리 시스템 및 사용자 적응형 이미지 관리 방법 | |
CN116030375A (zh) | 视频特征提取、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |