CN116484854A - 规范化名称的确定方法、系统、设备及介质 - Google Patents
规范化名称的确定方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116484854A CN116484854A CN202310472275.4A CN202310472275A CN116484854A CN 116484854 A CN116484854 A CN 116484854A CN 202310472275 A CN202310472275 A CN 202310472275A CN 116484854 A CN116484854 A CN 116484854A
- Authority
- CN
- China
- Prior art keywords
- name
- feature vector
- normalized
- sample
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 257
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 241000157593 Milvus Species 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 2
- 229960001138 acetylsalicylic acid Drugs 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理领域及数字医疗领域,提供一种规范化名称的确定方法、系统、设备及介质。所述方法包括:获取待规范化名称;将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。能够快速精准的确定待规范化名称的规范化名称。
Description
技术领域
本发明涉及自然语言处理领域及数字医疗领域,特别涉及一种规范化名称的确定方法、系统、设备及介质。
背景技术
随着科技的迅猛发展,机器学习技术已经在医疗领域得到了深入的应用,为传统医疗技术应用带来了极大的创新。在医疗领域中,有些名称可能会有多种不同的称呼,需要对名称进行规范化处理,以便用户可以根据各称呼查询到同一名称。业界现有的名称规范化的方法主要包括人工标注方法、基于字面相似度的方式和基于深度学习的语义匹配方法。人工标注方法是通过人工整理各种名称的全称、别名、缩略名,然后通过精准匹配以实现名称的规范化。基于字面相似度的方式常见于利用ES搜索引擎的BM25算法,将得到的一个字面相似度很高的全称作为规范化名称。基于深度学习的语义匹配方法主要是通过基于深度学习的有监督训练,将待规范化的名称和预存的多个不同的名称进行语义匹配,进而得到规范化名称。
发明人意识到,上述人工标注方法成本极高,在工程上难以有效应用。基于字面相似度的方式针对字面相似度差异很小的各名称,很难有效地进行区分,还会造成字面相似度低,但语义相同的名称不能被规范化。而基于深度学习的语义匹配方法需要进行大量的人工数据标注,费时费力。
发明内容
本发明的目的在于提供一种规范化名称的确定方法、系统、设备及介质。以解决现有的名称规范化方法无法对字面相似度高且语义差异大的样本,以及字面相似度低且语义相似度高的样本进行准确区分,导致规范化名称的识别率低的问题。
第一方面,提供了一种规范化名称的确定方法,包括:
获取待规范化名称;
将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
第二方面,提供了一种规范化名称的确定系统,包括:
待规范化名称获取模块,用于获取待规范化名称;
特征向量获取模块,用于将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
名称确定模块,用于将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器计算机程序时实现上述意图识别方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器时实现上述意图识别方法的步骤。
本发明的规范化名称的确定方法、系统、设备及介质。通过获取待规范化名称,并将其输入至预先训练好的特征向量提取模型中,从而获取待规范化名称的特征向量。然后将待规范化名称的特征向量输入到预先设置的向量检索引擎中,通过计算向量检索引擎中,预存的各名称的特征向量和该待规范化名称的特征向量的相似度,选择相似度最高的特征向量对应的名称即可作为规范化名称。能够精准确定规范化名称。在本发明中,针对现有技术中,进行名称规范化识别时,对于字面相似低且语义相似度高的样本,无法准确区分的问题。通过使用特征向量提取模型,利用RoBERTa网络强大的语义表征能力,可以更加准确的提取待规范化名称的特征向量,从而为后续准确识别规范化名称奠定了基础。且使用向量检索引擎和特征向量提取模型进行规范化名称的确定,极大的加快了线上获取规范化名称的响应时间,能够快速的对输入的待规范化名称做出响应,加快了标准化服务的整体响应周期。借助于深度学习模型的语义表征优势,实现了对于字面相似度低且语义相似度高的名称的标准化,为传统的对于名称的规范化带来了极大的创新。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图:
图1显示为本发明一实施例中规范化名称的确定方法的一应用环境示意图;
图2显示为本发明一实施例中规范化名称的确定方法的流程示意图;
图3显示为本发明一实施例中步骤S200的流程示意图;
图4显示为本发明一实施例中步骤S220的流程示意图;
图5显示为本发明一实施例中步骤S230的流程示意图;
图6显示为本发明一实施例中规范化名称的确定系统的结构框图;
图7是本发明一实施例中计算机设备的一结构示意图;
图8是本发明一实施例中计算机设备的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的规范化名称的确定方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端可以向客户端发送确定的规范化的名称。通过获取待规范化名称,并将其输入至预先训练好的特征向量提取模型中,从而获取待规范化名称的特征向量。然后将待规范化名称的特征向量输入到预先设置的向量检索引擎中,通过计算向量检索引擎中,预存的各名称的特征向量和该待规范化名称的特征向量的相似度,选择相似度最高的特征向量对应的名称即可作为规范化名称。能够精准确定规范化名称。在本发明中,针对现有技术中,进行名称规范化识别时,对于字面相似低且语义相似度高的样本,无法准确区分的问题。通过使用特征向量提取模型,利用RoBERTa网络强大的语义表征能力,可以更加准确的提取待规范化名称的特征向量,从而为后续准确识别规范化名称奠定了基础。且使用向量检索引擎和特征向量提取模型进行规范化名称的确定,极大的加快了线上获取规范化名称的响应时间,能够快速的对输入的待规范化名称做出响应,加快了标准化服务的整体响应周期。借助于深度学习模型的语义表征优势,实现了对于字面相似度低且语义相似度高的名称的标准化,为传统的对于名称的规范化带来了极大的创新。且特征向量提取模型是预训练得到的,在训练过程中,针对有监督的名称标准化方法,降低了人工数据标注成本,同时也降低了对训练样本的质量要求。通过ES搜索引擎获取负样本,对比原有的字面相似度匹配方法,提升了字面相似度高语义差异大的困难样本区分能力,且仅使用少量样本即可完成训练,实现了在冷启动阶段,样本量稀少时模型的准确度问题。克服了深度学习模型所需的大量高质量人工标注数据集的问题。同时借于深度学习模型的语义表征优势,实现了字面相似度低语义相似度高的名称的标准化。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的规范化名称的确定方法的一个流程示意图,包括如下步骤:
S100、获取待规范化名称。
在本实施例中,由于某些名称可能会存在多种叫法,例如阿司匹林,其别名是巴米尔,全名是阿司匹林。虽然两种名称表达的意思相同,但在数据库中,为了快速查找,通常不会将一个物品的所有名称都存入数据库中。这会导致当输入的名称不是该物品的规范化名称是,无法查到该物品。因此,确定某一物品的规范化名称时,首先需要获取物品的待规范化名称。待规范化名称可以是医院名称,也可以是药品名称,还可以是各科室的名称或地区名称等一切需要规范化的名称,在此不做限定。
S200、将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成。
RoBERTa(Robustly optimized BERT approach)网络是对于BERT网络的改进,通过上百G的数据预训练,在自然语言处理的各个任务中都超出了以前任务的最高指标。其强大的语义表征能力,得到了众多专家学者的认可,因此本申请选取RoBERTa作为预训练模型。将待规范化名称输入到预先训练好的特征向量提取模型中,由于特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成。通过RoBERTa的多层注意力机制运算,以及在训练时耗用时长较久,从而可以有效的提取待规范化名称的特征向量。
在步骤S200中,所述特征向量提取模型是通过训练获得的,所述特征向量提取模型的训练过程包括:
S210、获取待训练样本集中的各样本;其中,所述样本包括第一名称和第二名称。
待训练样本集中可以包括少量的样本,每个样本包括第一名称和第二名称。第一名称可以是标准名,第二名称可以是缩略名或别名。示例性地,对于“中华人民共和国”,其标准名为“中华人民共和国”,缩略名为“CN”,别名为“中国”。需要说明的是,第一名称和第二名称具体包括的名称不做限定,还可为第一名称是缩略名,第二名称是别名或标准名,或第一名称是别名和标准名,第二名称是缩略名等情况。
S220、针对每一个样本:将第一名称和第二名称分别作为正样本和标准样本,并基于预设的词典,构建ES搜索引擎,使用所述ES搜索引擎获取所述标准样本的一个或多个负样本。
在训练阶段,对于每一个待训练样本集中的样本,需要确定正样本、负样本和标准样本。其中,可将第一名称和第二名称分别作为正样本和标准样本。需要说明的是,所述将第一名称和第二名称分别作为正样本和标准样本之前,还包括:判断第一名称和/或第二名称包括的名称数量是否为一个;若是,则将第一名称和第二名称分别作为正样本和标准样本;若否,则从名称数量超过一个的第一名称或第二名称中,随机选择一个名称作为对应的正样本或标准样本。示例性地,若第一名称包括别名,第二名称包括缩略名和标准名。显然,第二名称包括的名称数量超过一个,则从第二名称包括的缩略名和标准名中,随机选择一个作为标准样本。作为另一示例,当第一名称包括标准名和别名,第二名称包括缩略名和英文名时,则需要从标准名和别名中随机选择一个作为第一名称,从缩略名和英文名中随机选择一个作为第二名称。进一步地,为了获取负样本,本实施例中,通过ES(Elasticsearch)搜索引擎,获取标准样本的一个或多个负样本,从而解决了字面相似度高且语义差异大的困难样本,区分难度大的问题。ES搜索引擎是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值,通过倒排索引的方式实现对海量数据的快速查询。
在本发明一实施例中,在步骤S220中,所述使用所述ES搜索引擎获取所述标准样本的一个或多个负样本,包括:
S2201、按照预设的分词规则,对所述标准样本进行分词,获得所述标准样本的一个或多个索引词。
在将标准样本输入ES搜索引擎前,需要先对标准样本进行分词处理。示例性地,可将标准样本与预存的词典进行比对,将词典中与标准样本重合出现的词语作为一个分词。例如,使用LK分词器对标准样本进行分词处理,通过将标准样本进行最细粒度的拆分,得到各种词语组合。如,“这个苹果不大好吃”拆分为"这个,苹果,不大好,不大,好吃"等索引词,会穷尽各种可能的组合,从而得到多个不同个索引词。
S2202、将各索引词输入至所述ES搜索引擎中,与所述ES搜索引擎中预存的各词条进行关键字匹配,获得与各索引词匹配的各词条;其中,每个索引词匹配一个词条。
将得到的各索引词输入至ES搜索引擎中,通过倒排索引的方式,将每个索引词与ES搜索引擎中预存的各词条进行关键字匹配,从而对于每一个索引词,会获得对应的一个词条。需要说明的是,本实施例所述的关键字匹配是通过计算索引词与词条的余弦相似度获得,选择相似度最高的词条即可作为该索引词的词条。因此,这种方式并不局限于索引词与词条必须完全匹配,这使得能够查询到更多的字面相似度高的词语,从而不需人为收集,即可根据少量的样本扩大了模型中负样本的数量,使得模型具有良好的鲁棒性。
S2203、根据词条的位置标识访问对应的数据库,并从所述数据库中获取对应的名称作为所述标准样本的负样本;其中,每个词条对应一个或多个位置标识。
由于在ES搜索引擎中,每个词条对应一个位置标识,位置标识中包括数据库名称和名称编号。其中,数据库名称可以指向一个唯一确定的数据库,名称编号表示含词条的名称在数据库中的位置。获取到与各索引词匹配的各词条后,对于每个匹配的词条,通过位置标识中的数据库名称可以访问该词条所在的数据库。然后通过位置标识中的名称编号,可从数据库中查找到含有该词条的所有名称,并将这些名称作为标准样本的负样本。示例性地,对于标准样本为“中国医科大学”的样本,其索引词为:中国、医科、大学。与医科对应的词条可以是“医学”、“医科”、“医疗科学”等,而“医学”对应的名称可以是中国医学院、上海医学研究所等,“医科”对应的名称可以是上海医科大学、重庆医科院等,“医疗科学”对应的名称可以是中国医疗科学研究中心、中国国际医疗科学中心等。对于其他索引词,查找过程类似,在此不做详述。因此,通过标准样本的各索引词,可以查到一批字面相似度高的样本。这些样本中,有些是字面相似度高且语义差异大,有些是字面相似度高且语义差异小,这种样本作为困难负样本,都会有效提升模型最后的识别率。需要说明的是,考虑到需要较多的负样本,因此数据库可以有多个,每个数据库均存储有一部分负样本。这种分布式的方式在查找时,只需通过倒排索引的方法,查找词条对应的数据库中的样本即可,极大的减少了查询时间。通过召回一批相似度高但语义相似度大的困难样本,并将这些困难样本作为负样本,极大提升了模型的训练难度。对比原有的字面相似度匹配方法,解决了字面相似度高语义差异大的样本区分难度大的问题。
S230、将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练,并基于训练得到的正样本特征向量、负样本特征向量和标准样本特征向量,更新待训练的特征向量提取模型的权重,得到特征向量提取模型。
训练时,将获得的正样本、标准样本和负样本,分成不同的批次,依次输入至待训练的特征向量提取模型中进行训练,然后根据结果,使用反向传播方法,不断更新待训练的特征向量提取模型的各权重。在预设的迭代次数中,选择损失函数最小时的模型,即可作为训练好的特征向量提取模型。
在本发明一实施例中,在步骤S230中,所述将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练,并基于训练得到的正样本特征向量、负样本特征向量和标准样本特征向量,更新待训练的特征向量提取模型的权重,包括:
S2301、将正样本、标准样本和负样本输入至待训练的特征向量提取模型中,通过语义信息编码和非线性运算,提取所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量;
S2302、基于所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量,根据损失函数计算所述标准样本的损失值;其中,q为标准样本的特征向量,k+为正样本的特征向量,/>为第i个负样本的特征向量,K为负样本的总量,τ为温度超参数;
S2303、按照预设的权重更新法则,根据所述损失值和当前的权重值,得到新的权重值;
S2304、使用新的权重值作为待训练的特征向量提取模型的权重。
将正样本、标准样本和负样本按照预设的批次,分批次输入至RoBERTa网络中,通过RoBERTa网络对输入的各样本进行语义编码和非线性运算,可以将样本中的特征向量提取出来。然后使用InfoNCE作为度量损失函数,通过使正样本的特征向量和标准样本的特征向量逐渐靠近,负样本的特征向量和标准样本的特征向量逐渐远离的方式,得到标准样本的损失值。然后根据损失值,通过权重更新法则,更新待训练的特征向量提取模型中的各参数和权重,得到更新后的特征向量提取模型。再次进行训练,直至损失函数收敛。训练结束,得到训练好的特征向量提取模型,封装使用。在本实施例中,权重更新法则为:按照链式求导法则进行求导。具体地,误差反向传播梯度计算公式为:Gradp=((wp-1)TGradp-1)δ,其中,δ为当前梯度的损失函数值,Gradp为第p层的误差反向传播梯度,wp-1为第p-1次迭代训练时神经元的权重,根据反向传播梯度,使用下式计算权重更新值:wp=wp-1-ε·Gradp,其中,ε为学习率,wp表示当前神经元的权重。
在本发明一实施例中,在步骤S2302中,所述通过语义信息编码和非线性运算,提取所述正样本的特征向量,包括:
S23021、对所述正样本进行语义信息编码,得到正样本语义向量;
S23022、按照预设的多头注意力机制,对所述正样本语义向量进行非线性运算和语序信息编码,得到正样本的特征向量。
本实施例中,由于正样本都是由语句级文本组成,语句文本中前后词语具有一定的关联性,如果只是简单的使用卷积神经网络,经过池化层后容易丢失掉词语之间的关联信息,造成后续识别率下降。因此,需要通过对正样本进行语义信息编码,编码后的信息不仅具有文本语句序列中前后词语之间的关联性信息,还具有文本语句序列的动态的顺序信息。从而保护正样本中语序间前后词语关联的完整性,降低了学习难度,从而提升了对规范化名称识别的准确率。然后通过六个多头注意力机制,通过将六个注意力头的结果进行拼接后,然后采用多跳连接的方式,得到正样本的特征向量,实现文本信息的提取和分析。由于每个注意力头关注不同的语义信息,因此该多头自注意力机制网络可以关注到更多的语义维度。在模型高层利用多头自注意力机制结合提取到的句法信息以便模型进行有效建模,从而弥补传统的多头注意力模型捕获句子隐含语义和结构信息能力较弱的缺点。使得最终的模型具有较高的鲁棒性。
考虑到待训练样本集中,可能存在一些未对齐的样本,即第一名称和第二名称相同,为了提升模型整体的识别率,在本发明一实施例中,第一名称和第二名称相同时,增加输入的对应正样本、标准样本和负样本的数量,以降低错误负样本的影响。
在本发明一实施例中,所述将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练之前,还包括:分别对正样本、标准样本和负样本进行词嵌入,得到词嵌入后的正样本、词嵌入后的标准样本和词嵌入后的负样本。为了保证当同一个词语出现在句子的不同位置时,这个词语对应的词向量表示不同,从而保证输入至RoBERTa网络的语句的顺序性。需要对正样本、标准样本和负样本分别进行词嵌入处理。作为示例,对于“中国社会科学院”这个正样本,位置编码的方式可以采相对位置编码的方法,“中国”的位置编码为1,“社会”的位置编码为2,“科学院”的位置编码为3,从而得到各词语之间的相对顺序关系。
S300、将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
在本发明一实施例中,在步骤S300中,所述将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称,包括:
S310、将所述待规范化名称的特征向量输入至预设的向量检索引擎中,计算并保存所述待规范化名称的特征向量和各名称的特征向量的余弦相似度;
S320、将各余弦相似度按照降序排序;
S330、选择余弦相似度最高的特征向量,并将余弦相似度最高的特征向量对应的名称作为规范化名称;其中,每个特征向量对应一个名称。
为方便线上名称标准化的快速响应,本实施例中,使用Milvus向量检索引擎进行索引。Milvus向量检索引擎是一款开源的向量相似度搜索引擎,可与多种AI模型相结合。Milvus提供向量化的非结构数据检索服务。Milvus对多模态特征向量和Milvus库中目标图像的特征向量进行相似度计算,返回最为相似的图片ID。根据此ID可以在MySQL中获得对应的相似图像,将最终检索结果返回给用户。具体地,获得特征向量提取模型中提取到的待规范化名称特征向量后,将其输入到Milvus向量检索引擎中,通过计算余弦相似度其中,a为待规范化名称的特征向量,b为名称的特征向量,||a||为待规范化名称的特征向量的模,||b||为称的特征向量的模。由于每个特征向量对应一个名称,将Milvus向量检索引擎中预存的各名称的向量分别与待规范化名称的特征向量进行余弦相似度计算后,按照余弦相似度从高到低的顺序进行排序,并选择余弦相似度最高的名称作为规范化名称即可。通过对原有名称库中的所有名称进行语义表征,并通过Milvus向量检索引擎进行索引。在线上推理阶段,直接通过Milvus向量近似算法召回相似度最高的名称作为规范化名称。从而可快速的查到待规范化名称的规范化名称。
应理解,上述实施例中各步骤的序号的大小并不意味着顺序的先后,各过程的顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种规范化名称的确定系统。规范化名称的确定系统10与上述实施例中规范化名称的确定方法一一对应。如图6所示,该规范化名称的确定系统10包括待规范化名称获取模块11、特征向量获取模块12和名称确定模块13。各功能模块详细说明如下:
待规范化名称获取模块11,用于获取待规范化名称;
特征向量获取模块12,用于将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
名称确定模块13,用于将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
在一实施例中,特征向量获取模块12,具体用于:
获取待训练样本集中的各样本;其中,所述样本包括第一名称和第二名称;
针对每一个样本:将第一名称和第二名称分别作为正样本和标准样本,并基于预设的词典,构建ES搜索引擎,使用所述ES搜索引擎获取所述标准样本的一个或多个负样本;
将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练,并基于训练得到的正样本特征向量、负样本特征向量和标准样本特征向量,更新待训练的特征向量提取模型的权重,得到特征向量提取模型。
在一实施例中,特征向量获取模块12,还用于:
按照预设的分词规则,对所述标准样本进行分词,获得所述标准样本的一个或多个索引词;
将各索引词输入至所述ES搜索引擎中,与所述ES搜索引擎中预存的各词条进行关键字匹配,获得与各索引词匹配的各词条;其中,每个索引词匹配一个词条;
根据词条的位置标识访问对应的数据库,并从所述数据库中获取对应的名称作为所述标准样本的负样本;其中,每个词条对应一个或多个位置标识。
在一实施例中,特征向量获取模块12,还用于:
分别对正样本、标准样本和负样本进行词嵌入,得到词嵌入后的正样本、词嵌入后的标准样本和词嵌入后的负样本。
在一实施例中,特征向量获取模块12,还用于:
将正样本、标准样本和负样本输入至待训练的特征向量提取模型中,通过语义信息编码和非线性运算,提取所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量;
基于所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量,根据损失函数计算所述标准样本的损失值;其中,q为标准样本的特征向量,k+为正样本的特征向量,/>为第i个负样本的特征向量,K为负样本的总量,τ为温度超参数;
按照预设的权重更新法则,根据所述损失值和当前的权重值,得到新的权重值;
使用新的权重值作为待训练的特征向量提取模型的权重。
在一实施例中,特征向量获取模块12,还用于:
对所述正样本进行语义信息编码,得到正样本语义向量;
按照预设的多头注意力机制,对所述正样本语义向量进行非线性运算和语序信息编码,得到正样本的特征向量。
在一实施例中,名称确定模块13,具体用于:
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,计算并保存所述待规范化名称的特征向量和各名称的特征向量的余弦相似度;
将各余弦相似度按照降序排序;
选择余弦相似度最高的特征向量,并将余弦相似度最高的特征向量对应的名称作为规范化名称;其中,每个特征向量对应一个名称。
本发明提供了一种的规范化名称的确定装置,通过获取待规范化名称,并将其输入至预先训练好的特征向量提取模型中,从而获取待规范化名称的特征向量。然后将待规范化名称的特征向量输入到预先设置的向量检索引擎中,通过计算向量检索引擎中,预存的各名称的特征向量和该待规范化名称的特征向量的相似度,选择相似度最高的特征向量对应的名称即可作为规范化名称。能够精准确定规范化名称。在本发明中,针对现有技术中,进行名称规范化识别时,对于字面相似低且语义相似度高的样本,无法准确区分的问题。通过使用特征向量提取模型,利用RoBERTa网络强大的语义表征能力,可以更加准确的提取待规范化名称的特征向量,从而为后续准确识别规范化名称奠定了基础。且使用向量检索引擎和特征向量提取模型进行规范化名称的确定,极大的加快了线上获取规范化名称的响应时间,能够快速的对输入的待规范化名称做出响应,加快了标准化服务的整体响应周期。借助于深度学习模型的语义表征优势,实现了对于字面相似度低且语义相似度高的名称的标准化,为传统的对于名称的规范化带来了极大的创新。且特征向量提取模型是预训练得到的,在训练过程中,针对有监督的名称标准化方法,降低了人工数据标注成本,同时也降低了对训练样本的质量要求。通过ES搜索引擎获取负样本,对比原有的字面相似度匹配方法,提升了字面相似度高语义差异大的困难样本区分能力,且仅使用少量样本即可完成训练,实现了在冷启动阶段,样本量稀少时模型的准确度问题,降低了对于各种名称的人工整理成本,加快了标准化服务的整体研发周期。克服了深度学习模型所需的大量高质量人工标注数据集的问题。同时借于深度学习模型的语义表征优势,实现了字面相似度低语义相似度高的名称的标准化。
关于规范化名称的确定系统的具体限定可以参见上文中对于规范化名称的确定方法的限定,在此不再赘述。上述规范化名称的确定系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件格式内嵌于或独立于计算机设备中的处理器中,也可以以软件格式存储于计算机设备中的存储器中,以便于处理器调用以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,计算机设备可以是服务端,其内部结构图可以如图7所示。计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。非易失性存储介质存储有操作系统、计算机程序和数据库。内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。计算机设备的网络接口用于与外部的供应商端通过网络连接通信。计算机程序被处理器时以实现一种意图识别方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,计算机设备可以是供应商端,其内部结构图可以如图8所示。计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入系统。其中,计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括非易失性存储介质、内存储器。非易失性存储介质存储有操作系统和计算机程序。内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机程序被处理器时以实现一种意图识别方法供应商端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器计算机程序时实现以下步骤:
获取待规范化名称;
将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器时实现以下步骤:
获取待规范化名称;
将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及供应商端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,计算机程序在时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种格式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种规范化名称的确定方法,其特征在于,包括:
获取待规范化名称;
将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
2.根据权利要求1所述的规范化名称的确定方法,其特征在于,所述特征向量提取模型是通过训练获得的,所述特征向量提取模型的训练过程包括:
获取待训练样本集中的各样本;其中,所述样本包括第一名称和第二名称;
针对每一个样本:将第一名称和第二名称分别作为正样本和标准样本,并基于预设的词典,构建ES搜索引擎,使用所述ES搜索引擎获取所述标准样本的一个或多个负样本;
将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练,并基于训练得到的正样本特征向量、负样本特征向量和标准样本特征向量,更新待训练的特征向量提取模型的权重,得到特征向量提取模型。
3.根据权利要求2所述的规范化名称的确定方法,其特征在于,所述使用所述ES搜索引擎获取所述标准样本的一个或多个负样本,包括:
按照预设的分词规则,对所述标准样本进行分词,获得所述标准样本的一个或多个索引词;
将各索引词输入至所述ES搜索引擎中,与所述ES搜索引擎中预存的各词条进行关键字匹配,获得与各索引词匹配的各词条;其中,每个索引词匹配一个词条;
根据词条的位置标识访问对应的数据库,并从所述数据库中获取对应的名称作为所述标准样本的负样本;其中,每个词条对应一个或多个位置标识。
4.根据权利要求2所述的规范化名称的确定方法,其特征在于,所述将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练之前,还包括:分别对正样本、标准样本和负样本进行词嵌入,得到词嵌入后的正样本、词嵌入后的标准样本和词嵌入后的负样本。
5.根据权利要求2所述的规范化名称的确定方法,其特征在于,所述将正样本、标准样本和负样本输入至待训练的特征向量提取模型中进行训练,并基于训练得到的正样本特征向量、负样本特征向量和标准样本特征向量,更新待训练的特征向量提取模型的权重,包括:
将正样本、标准样本和负样本输入至待训练的特征向量提取模型中,通过语义信息编码和非线性运算,提取所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量;
基于所述正样本的特征向量、所述标准样本的特征向量和所述负样本的特征向量,根据损失函数计算所述标准样本的损失值;其中,q为标准样本的特征向量,k+为正样本的特征向量,/>为第i个负样本的特征向量,K为负样本的总量,τ为温度超参数;
按照预设的权重更新法则,根据所述损失值和当前的权重值,得到新的权重值;
使用新的权重值作为待训练的特征向量提取模型的权重。
6.根据权利要求5所述的规范化名称的确定方法,其特征在于,所述通过语义信息编码和非线性运算,提取所述正样本的特征向量,包括:
对所述正样本进行语义信息编码,得到正样本语义向量;
按照预设的多头注意力机制,对所述正样本语义向量进行非线性运算和语序信息编码,得到正样本的特征向量。
7.根据权利要求1所述的规范化名称的确定方法,其特征在于,所述将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称,包括:
将所述待规范化名称的特征向量输入至预设的向量检索引擎中,计算并保存所述待规范化名称的特征向量和各名称的特征向量的余弦相似度;
将各余弦相似度按照降序排序;
选择余弦相似度最高的特征向量,并将余弦相似度最高的特征向量对应的名称作为规范化名称;其中,每个特征向量对应一个名称。
8.一种规范化名称的确定系统,其特征在于,所述系统包括:
待规范化名称获取模块,用于获取待规范化名称;
特征向量获取模块,用于将所述待规范化名称输入至特征向量提取模型中,提取所述待规范化名称的特征向量;其中,所述特征向量提取模型是由RoBERTa网络与InfoNCE分类器串联组成;
名称确定模块,用于将所述待规范化名称的特征向量输入至预设的向量检索引擎中,对所述待规范化名称的特征向量和预存的各名称的特征向量进行相似度计算,选择相似度最高的特征向量对应的名称作为规范化名称。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472275.4A CN116484854A (zh) | 2023-04-24 | 2023-04-24 | 规范化名称的确定方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472275.4A CN116484854A (zh) | 2023-04-24 | 2023-04-24 | 规范化名称的确定方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484854A true CN116484854A (zh) | 2023-07-25 |
Family
ID=87211615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310472275.4A Pending CN116484854A (zh) | 2023-04-24 | 2023-04-24 | 规范化名称的确定方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484854A (zh) |
-
2023
- 2023-04-24 CN CN202310472275.4A patent/CN116484854A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021439B (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN112015900B (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN115438166A (zh) | 基于关键词和语义的搜索方法、装置、设备及存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN110134965B (zh) | 用于信息处理的方法、装置、设备和计算机可读存储介质 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
WO2021159812A1 (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN114153995B (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN116956954A (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN116484854A (zh) | 规范化名称的确定方法、系统、设备及介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
CN111460206B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |