CN117034928A - 模型构建方法、装置、设备及存储介质 - Google Patents
模型构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117034928A CN117034928A CN202211078361.9A CN202211078361A CN117034928A CN 117034928 A CN117034928 A CN 117034928A CN 202211078361 A CN202211078361 A CN 202211078361A CN 117034928 A CN117034928 A CN 117034928A
- Authority
- CN
- China
- Prior art keywords
- entity
- character
- error correction
- text
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 307
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 76
- 230000000873 masking effect Effects 0.000 claims description 61
- 238000012545 processing Methods 0.000 claims description 35
- 238000005457 optimization Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 description 19
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000016444 Benign adult familial myoclonic epilepsy Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 150000002016 disaccharides Chemical class 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 208000016427 familial adult myoclonic epilepsy Diseases 0.000 description 1
- 235000019387 fatty acid methyl ester Nutrition 0.000 description 1
- ZGNITFSDLCMLGI-UHFFFAOYSA-N flubendiamide Chemical compound CC1=CC(C(F)(C(F)(F)F)C(F)(F)F)=CC=C1NC(=O)C1=CC=CC(I)=C1C(=O)NC(C)(C)CS(C)(=O)=O ZGNITFSDLCMLGI-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229940127554 medical product Drugs 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000004357 third molar Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例公开了一种模型构建方法、装置、设备及存储介质,该方法包括:获取纠错数据集,纠错数据集包括目标场景下的多个纠错文本;针对多个纠错文本中的任一纠错文本,调用语言模型,对任一纠错文本中的各个字符进行特征提取,得到各个字符的字符特征;针对任一纠错文本中任一字符的字符特征,获取基于任一字符的字符特征将任一字符识别为各个字符的概率,与任一字符为各个字符的参考概率之间的概率差异;按照减小概率差异的方向,优化语言模型中的特征提取参数,得到优化后的语言模型;基于优化后的语言模型和实体识别网络,构建目标场景下的实体识别模型。本申请实施例可提升字符特征的准确性,进而提升实体识别结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型构建方法、装置、设备及存储介质。
背景技术
目前,随着计算机技术的持续发展,实体识别模型已被广泛应用于各种系统(如问答系统、对话系统以及搜索系统等);具体的,在获取到目标对象输入的文本后,可采用实体识别模型中的语言模型对获取到的文本中的各个字符进行特征提取,从而基于各个字符的字符特征,识别出文本中的实体以响应相应的文本;但医疗等专业名词较为不常见的场景下,目标对象往往会输入错误,使输入的错误文本中包括错误实体(即拼写错误的实体),导致语言模型提取到的字符特征的准确性较低,从而使得实体识别模型进行实体识别的准确性较低,在此种情况下,难以识别出错误文本中的错误实体。基于此,如何提升字符特征的准确性,进而提升实体识别的准确性成为了研究热点。
发明内容
本申请实施例提供了一种模型构建方法、装置、设备及存储介质,可采用纠错数据集对语言模型进行优化,从而采用优化后的语言模型构建实体识别模型,以提升通过实体识别模型中的语言模型进行特征提取所得到的字符特征的准确性,进而提升实体识别的准确性,以使实体识别模型支持识别出文本中的错误实体。
一方面,本申请实施例提供了一种模型构建方法,所述方法包括:
获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
另一方面,本申请实施例提供了一种模型构建装置,所述装置包括:
获取单元,用于获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
处理单元,用于针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
所述处理单元,还用于针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
所述处理单元,还用于按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
所述处理单元,还用于基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行如下步骤:
获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
再一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述所提及的模型构建方法。
本申请实施例可获取用于优化语言模型的纠错数据集,该纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体;然后,可调用语言模型对各个纠错文本中的各个字符进行特征提取,得到各个纠错文本中的各个字符的字符特征,从而基于各个纠错文本中各字符的字符特征对语言模型进行优化,得到优化后的语言模型,以提高优化后的语言模型的模型性能,并得到更加精确的实体识别模型,基于此,可提升通过实体识别模型中的语言模型所提取到的字符特征的准确性,进而提升实体识别的准确性。另外,由于字符特征也可反映上下文关系等,那么通过纠错数据集优化后的语言模型能够更加准确地提取出包含错误实体的文本中的各个字符的字符特征,以更加精确地反映包含错误实体的文本所涉及的上下文关系等,进而使得实体识别模型支持识别出文本中的参考实体(即拼写正确的实体)和错误实体。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种模型构建方案的流程示意图;
图1b是本申请实施例提供的一种终端和服务器交互的示意图;
图2是本申请实施例提供的一种模型构建方法的流程示意图;
图3是本申请实施例提供的一种标注序列的示意图;
图4是本申请实施例提供的另一种模型构建方法的流程示意图;
图5a是本申请实施例提供的一种BK树的示意图;
图5b是本申请实施例提供的又一种模型构建方法的流程示意图;
图6是本申请实施例提供的一种模型构建装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着互联网技术的不断发展,人工智能(Artificial Intelligence,AI)技术也随之得到更好的发展。所谓的人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于AI技术中的机器学习/深度学习技术,本申请实施例提出了一种模型构建方案,以提升字符特征的准确性,进而提升进行实体识别的准确性,并使得实体识别模型支持识别出文本中的参考实体和错误实体。需要说明的是,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
参见图1a所示,本申请实施例所提出的模型构建方案的大致原理如下:首先,可获取用于对语言模型进行模型优化的纠错数据集,该纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体;然后,可采用纠错数据集中的每个纠错文本,优化语言模型中的特征提取参数,得到优化后的语言模型,以基于优化后的语言模型和实体识别网络,构建目标场景下的实体识别模型,该实体识别模型用于对目标场景下的文本进行实体识别。
经实践表明,本申请实施例提出的模型构建方案可至少具有如下几点有益效果:①可提升字符特征的准确性,即可提升通过实体识别模型中的语言模型进行特征提取的准确性;②可基于更加准确的字符特征,得到更加准确的实体识别结果,即可提升对文本进行实体识别的准确性;③可使得实体识别模型不仅能识别出文本中的参考实体,还支持识别出文本中的错误实体。
在具体实现中,上述所提及的模型构建方案可由一个计算机设备执行,该计算机设备可以是终端或者服务器;其中,此处所提及的终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等;终端内可运行各式各样的客户端(application,APP),如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端,等等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算(cloud computing)、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等;所谓的云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。并且,本申请实施例所提及的计算机设备可以位于区块链网络外,也可以位于区块链网络内,对此不作限定;所谓的区块链网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
或者,在其他实施例中,上述所提及的模型构建方案也可由服务器和终端共同执行;终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。例如:可由终端负责获取用于对语言模型进行模型优化的纠错数据集,并将纠错数据集发送至服务器,使得服务器可采用纠错数据集中的每个纠错文本,对语言模型进行模型优化,得到优化后的语言模型,并将优化后的语言模型发送至终端,再由终端基于优化后的语言模型和实体识别网络,构建实体识别模型,如图1b所示。又如,可由终端负责获取纠错数据集,并将纠错数据集发送至服务器,使得服务器可采用纠错数据集中的每个纠错文本,对语言模型进行模型优化,得到优化后的语言模型,并基于优化后的语言模型和实体识别网络,构建实体识别模型,等等。应当理解的是,此处只是示例性地阐述了终端和服务器共同执行上述模型构建方案的两种情况,并非穷举。
基于上述模型构建方案的相关描述,本申请实施例提出一种模型构建方法,该模型构建方法可以由上述所提及的计算机设备(终端或服务器)执行;或者,该模型构建方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该模型构建方法为例进行说明;请参见图2,该模型构建方法可包括以下步骤S201-S205:
S201,获取用于对语言模型进行模型优化的纠错数据集,纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符。
其中,语言模型可以是双向特征表示的自编码预训练语言模型,即BERT(Bidirectional Encoder Representation from Transformers,一种预训练的语言表征模型)系列模型,BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(Masked Language Model,掩码语言模型),以致能生成深度的双向语言表征。可选的,上述语言模型也可以是单向语言模型或双向特征表示的自回归预训练语言模型,等等;本申请对此不作限定。需要说明的是,为了便于阐述,后续均以语言模型是BERT系列模型为例进行说明。
在本申请实施例中,上述错误实体是指:拼写错误的实体,且错误实体的错误类型包括但不限于:语音体系的(即字音)、视觉的(即字形)、顺序混淆的(即语序混乱)、重复的(即多字)以及缺失的(即少字),等等;本申请对错误实体的具体类型不作限定。相应的,上述目标场景包括但不限于:医疗场景、好物推荐场景以及购物场景等,本申请对此不作限定;为了便于阐述,后续均以医疗场景为例进行说明。
示例性的,当目标场景为医疗场景时,包括各错误类型下的错误实体的纠错文本可以如表1所示:
表1
其中,一个纠错文本可以为一个句子,且纠错文本中的错误实体均被拼写错误。需要说明的是,纠错数据集是本申请实施例提出的一个大规模的专家标注数据集;可选的,该纠错数据集可包含了大约20万个纠错样本对(即纠错文本和相应的纠错信息),如表1中每一行数据中的句子和纠正内容即可作为一个纠错样本对。并且,与现有的开放域纠错数据集相比,当目标场景为医疗场景时,本申请实施例提出的纠错数据集可包含从目标医典收集的大量医疗查询,且本申请实施例中的纠错数据集主要针对医疗实体的纠错。
在具体的实现中,上述纠错数据集的获取方式包括但不限于以下几种:
第一种获取方式:计算机设备可以先获取纠错数据集的数据下载链接,再根据该数据下载链接对纠错数据集进行下载,以得到纠错数据集。
第二种获取方式:计算机设备自身的存储空间中存储有纠错文本,那么计算机设备可在存储的纠错文本中选取多个纠错文本,并将选取的纠错文本作为纠错数据集中的纠错文本,等等。
S202,针对多个纠错文本中的任一纠错文本,调用语言模型,对任一纠错文本中的各个字符进行特征提取,得到各个字符的字符特征。
需要说明的是,计算机设备可调用语言模型,分别对各个纠错文本中的各个字符(token)进行特征提取,得到各个纠错文本中的各个字符的字符特征。
在本申请实施例中,一个字符的字符特征可以包括字符的自身特征(即内部特征),也可以包括语境上下文特征,还可以包括词性上下文特征,等等;本申请对字符特征所包含的信息不作限定。
S203,针对任一纠错文本中任一字符的字符特征,获取基于任一字符的字符特征将任一字符识别为各个字符的概率,与任一字符为各个字符的参考概率之间的概率差异。
其中,任一字符为各个字符的参考概率是指:该任一字符为各个字符的实际概率,用于指示该任一字符所表示的实际字符;例如,当上述任一纠错文本为“拨智齿的过程”,且上述任一字符为“齿”时,该任一字符为各个字符的参考概率可以为(0,0,1,0,0,0)。基于此,计算机设备可基于将该任一字符识别为各个字符的概率和该任一字符为各个字符的参考概率,计算交叉熵损失或负对数似然损失等,以获取基于任一字符的字符特征将任一字符识别为各个字符的概率,与任一字符为各个字符的参考概率之间的概率差异;也就是说,计算机设备可计算相应的损失值,并将计算得到的损失值作为上述概率差异。
S204,按照减小概率差异的方向,优化语言模型中的特征提取参数,得到优化后的语言模型。
S205,基于优化后的语言模型和实体识别网络,构建目标场景下的实体识别模型,实体识别模型用于对目标场景下的文本进行实体识别。
在本申请实施例中,当目标场景为医疗场景时,上述实体识别模型也可称为医疗实体NER(Named Entity Recognition,命名实体识别)或错误医疗实体识别模型等,即医学领域中的命名实体识别,指的是将重要的医疗实体(如疾病、症状等),从医疗文本中抽取出来,其结果(即实体识别结果)是关系提取等后续医疗任务的基础。相应的,在医疗场景下(即医疗临床领域等),能够准确地识别电子医疗数据中的命名实体,对于构建完善的医疗知识库、精准的对象画像、智能医疗决策支持等都具有重要意义。同样的,在医疗实体纠错领域,医疗实体NER也是重要的基础模型之一。其中,本申请中的实体识别即是指命名实体识别。
具体的,在医疗人工智能应用中,有比较多的场景,比如问答、对话以及搜索等是需要对象输入文本的,由于医疗专业名字的不常见性,对象往往会输入错误,而错误文本(如错误问句或错误搜索等)输入会导致相应系统返回比较差的答案和反馈。因此,构建更加准确的实体识别模型以对文本进行精确地实体识别,并识别出文本中的错误实体具有重大意义;那么进一步的,在医疗场景下,计算机设备可通过实体识别模型识别出文本中的错误实体,并针对医疗场景下对象的输入进行纠错,进而使得相应系统能够基于纠错后的实体返回准确的答案和反馈等。
需要说明的是,命名实体识别属于自然语言处理中的序列标注任务,在医疗场景中,是指从文本中识别出特定命名指向的医疗实体词,比如疾病名、药品名以及症状等等。在此种情况下,可向实体识别模型输入自然语言序列(即包含至少一个字符的文本),那么计算机设备可通过实体识别模型给出对应标签序列;需要说明的是,本申请实施例可采用BIO标注进行解析,也可采用BIOSE标注进行解析,等等;本申请对此不作限定。可选的,在采用BIO标注进行解析时,可同时加入START(开始)和END(结束)来使转移矩阵更加健壮,其中,START表示句子的开始,END表示句子的结束;在此种情况下,标注标签共有5个:[B,I,O,START,END],且B可用于表示实体的开头,I可用于表示实体的中间或结尾,O可用于表示不属于实体。
在具体的实现中,实体识别模型可包括语言模型和实体识别网络,其中,实体识别网络可以包括CRF(conditional random fields,条件随机场)层,也可以包括循环神经网络等,本申请对此不作限定。示例性的,以实体识别网络包括CRF层为例进行说明,在对任一文本进行实体识别时,计算机设备可将基于该任一文本中的各个字符的字符特征输出的Emission_score(发射分数),作为CRF层的输入,那么相应的,可输出符合标注转移约束条件的、最大可能的预测标注序列,并进一步的得到该任一文本中各个字符的标签,如图3所示;在此种情况下,该任一文本可包括5个字符,且该任一文本中各个字符的标签可依次为B、I、O、O以及B。
本申请实施例可获取用于优化语言模型的纠错数据集,该纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体;然后,可调用语言模型对各个纠错文本中的各个字符进行特征提取,得到各个纠错文本中的各个字符的字符特征,从而基于各个纠错文本中各字符的字符特征对语言模型进行优化,得到优化后的语言模型,以提高优化后的语言模型的模型性能,并得到更加精确的实体识别模型,基于此,可提升通过实体识别模型中的语言模型所提取到的字符特征的准确性,进而提升实体识别的准确性。另外,由于字符特征也可反映上下文关系等,那么通过纠错数据集优化后的语言模型能够更加准确地提取出包含错误实体的文本中的各个字符的字符特征,以更加精确地反映包含错误实体的文本所涉及的上下文关系等,进而使得实体识别模型支持识别出文本中的参考实体(即拼写正确的实体)和错误实体。
请参见图4,是本申请实施例提供的另一种模型构建方法的流程示意图。该模型构建方法可以由上述所提及的计算机设备(终端或服务器)执行;或者,该模型构建方法可由终端和服务器共同执行。为便于阐述,后续均以计算机设备执行该模型构建方法为例进行说明;请参见图4,该模型构建方法可包括以下步骤S401-S409:
S401,获取用于对语言模型进行模型优化的纠错数据集,纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符。
在本申请实施例中,计算机设备可获取用于对初始语言模型进行模型优化的训练数据集,该训练数据集包括目标场景下的多个训练文本,且每个训练文本包括至少一个参考实体,一个参考实体包括至少一个训练字符;基于此,可采用训练数据集中的多个训练文本对初始语言模型进行模型优化,得到上述语言模型。其中,一个参考实体是指:拼写正确的实体,即拼写无误的实体,且参考实体也可称为正确实体。
具体的,在采用训练数据集中的多个训练文本对初始语言模型进行模型优化,得到上述语言模型时,针对多个训练文本中的任一训练文本,计算机设备可调用初始语言模型,对任一训练文本中的各个训练字符进行特征提取,得到各个训练字符的字符特征;然后,针对该任一训练文本中任一训练字符的字符特征,可获取基于任一训练字符的字符特征识别为各个训练字符的概率,与任一训练字符为各个训练字符的参考概率之间的训练概率差异;基于此,可按照减小训练概率差异的方向,优化初始语言模型中的特征提取参数,得到语言模型。
需要说明的是,当语言模型为BERT系列模型,且目标场景为医疗场景时,如果直接使用原始的BERT模型作为语言模型,会使得命名实体识别的结果达不到理想的预期,故本申请实施例可采用预训练的中文医疗语言模型MedBert(一种使用医疗场景下的训练数据集进行预训练后的BERT模型),作为上述待使用纠错数据集进行优化的语言模型;在此种情况下,可将BERT模型作为初始语言模型,并在利用训练数据集(即正常的医疗数据)进行初始语言模型预训练之后,得到语言模型(即MedBert),从而可采用所标注的纠错数据集(即医疗纠错数据)进行语言模型的进一步微调,以得到优化后的语言模型。
其中,从模型层面上,预训练中文医疗语言模型MedBert(即上述语言模型)和普通BERT(即原始的BERT)模型的相同部分在于,都是采用transformer(一种网络模型)的encoder(编码器)部分,但不同的是,本申请实施例对训练数据的mask(掩码)方式和训练数据都是来自医疗场景等。基于此,计算机设备可对上述任一训练文本中的字符进行掩码处理,以更新任一训练文本,得到更新后的训练文本,从而提取更新后的训练文本中的各个训练字符的字符特征,以优化初始语言模型。其中,对任一训练文本中的字符进行掩码处理的具体实施过程,与对任一纠错文本中的字符进行掩码处理的具体实施过程相同,具体见下述所示,本申请在此不作赘述。
S402,针对多个纠错文本中的任一纠错文本,调用语言模型,对任一纠错文本中的各个字符进行特征提取,得到各个字符的字符特征。
需要说明的是,当上述语言模型为BERT系列模型(如中文医疗语言模型)时,计算机设备可按照预设的掩码概率,获取上述任一纠错文本中的第一掩码位置;并基于目标掩码方式和所述第一掩码位置,确定任一纠错文本中的第二掩码位置;其中,目标掩码方式用于指示任一纠错文本中的掩码位置的选取方式,且目标掩码方式包括以下至少一项:字符掩码方式、全词掩码方式以及实体掩码方式;基于此,计算机设备可采用掩码字符对所述第二掩码位置上的字符进行掩码处理,以更新上述任一纠错文本,其中,更新后的纠错文本中的各个字符被用于特征提取。在此种情况下,计算机设备可先对上述任一纠错文本中的字符进行掩码处理,得到更新后的纠错文本;并调用语言模型,对更新后的纠错文本中的各个字符进行特征提取,得到更新后的纠错文本中的各个字符的字符特征。
其中,上述掩码概率可以是按照经验设置的,也可以是按照实际需求设置的,本申请对此不作限定;例如,掩码概率可以为15%或20%等。并且,上述掩码字符可以为[mask],也可以为随机选取的一个字符,还可以为需被进行掩码处理的字符本身,本申请对此不作限定;需要说明的是,针对任一纠错文本,当该任一纠错文本中的第二掩码位置的数量为多个时,用于对该任一纠错文本中的第二掩码位置上的字符进行掩码处理的掩码字符可以相同,也可以不同,本申请对此不作限定。
在本申请实施例中,上述任一纠错文本中的第二掩码位置的确定方式包括:将第一掩码位置作为任一纠错文本中的第二掩码位置;或者,确定第一掩码位置上的字符所组成的完整词,并将完整词所在的字符位置作为任一纠错文本中的第二掩码位置;或者,确定第一掩码位置上的字符所组成的目标实体,并将目标实体所在的字符位置作为任一纠错文本中的第二掩码位置。
具体的,若目标掩码方式包括字符掩码方式,那么计算机设备可将第一掩码位置作为任一纠错文本中的第二掩码位置;若目标掩码方式包括全词掩码方式,那么计算机设备可确定第一掩码位置上的字符所组成的完整词,并将完整词所在的字符位置作为任一纠错文本中的第二掩码位置;若目标掩码方式包括实体掩码方式,那么计算机设备可确定第一掩码位置上的字符所组成的目标实体,并将目标实体所在的字符位置作为任一纠错文本中的第二掩码位置。进一步的,若目标掩码方式包括字符掩码方式、全词掩码方式以及实体掩码方式的混合掩码方式时,计算机设备可依次选取一个掩码方式来确定一个第一掩码位置所对应的第二掩码位置,也可随机选取一个掩码方式来确定一个第一掩码位置所对应的第二掩码位置,本申请对此不作限定。
需要说明的是,计算机设备可基于WordPiece(一种词拆分方法)的分词方式将一个完整的词切分成若干子词(即字符),在生成训练样本(即对任一纠错文本或训练文本中的字符进行掩码处理,以得到更新后的文本)时,在字符掩码方式中,这些被分开的子词会随机被掩码;在全词掩码方式和实体掩码方式中,如果一个完整的词或实体的部分子词被掩码,则同属该词或相应实体的其他部分的子词也会被掩码。
例如,当目标掩码方式包括实体掩码方式时,假设任一纠错文本中包括“肚子很痛”这一症状实体,且肚子很痛可被分词为肚子和很痛,或被分词为肚、子、很以及痛,那么当其中一个子词所在的字符位置被作为第一掩码位置时,计算机设备可将该实体所在的字符位置作为第二掩码位置,从而使得只要该实体中的一个子词被掩码,该实体的其余部分都会被掩码。
又如,当目标掩码方式包括全词掩码方式时,假设任一纠错文本中包括“有用”这一完整的词,那么当该词中的其中一个子词所在的字符位置被作为第一掩码位置时,计算机设备可将该词所在的字符位置作为第二掩码位置,从而使得该词中的一个子词被掩码时,该词的其余部分都会被掩码。
S403,针对任一纠错文本中任一字符的字符特征,获取基于任一字符的字符特征将任一字符识别为各个字符的概率,与任一字符为各个字符的参考概率之间的概率差异。
需要说明的是,当计算机设备对上述任一纠错文本中的字符进行掩码处理,以得到更新后的纠错文本中的各个字符的字符特征后,计算机设备可针对更新后的纠错文本中的任一字符的字符特征,获取相应的概率差异,以优化语言模型中的特征提取参数。
S404,按照减小概率差异的方向,优化语言模型中的特征提取参数,得到优化后的语言模型。
在本申请实施例中,在优化语言模型的时候,可去掉Next Sentence Prediction(下一句预测)任务,仅保留Masked Language Model任务,也就是说,计算机设备可仅对实体识别模型中的语言模型进行模型优化。
需要说明的是,在采用纠错数据集对语言模型进行模型优化时(即在微调的时候),计算机设备可设置较低的训练学习率,如3*10^-5或4*10^-5等,本申请对此不作限定。
S405,基于优化后的语言模型和实体识别网络,构建目标场景下的实体识别模型,实体识别模型用于对目标场景下的文本进行实体识别。
在本申请实施例中,在经过纠错数据集中的所有纠错文本对语言模型进行微调之后,计算机设备可利用测试纠错数据集进行测试,以验证本申请实施例所构建的实体识别模型进行实体识别的效果。
S406,获取目标场景下的混淆集,混淆集包括目标场景下的多个纠错字符对,且一个纠错字符对包括至少一个错误实体和对应的至少一个错误实体被纠错后的实体。
具体的,上述纠错数据集还可包括每个纠错文本中的错误实体对应的纠错信息,目标场景是指医疗场景,且一个纠错文本包括至少一个错误医疗实体;基于此,在获取目标场景下的混淆集时,计算机设备可遍历多个纠错文本,基于当前遍历的纠错文本中的目标错误医疗实体和目标错误医疗实体对应的纠错信息,确定目标错误医疗实体被纠错后的目标医疗实体;并基于目标错误医疗实体和目标医疗实体,确定目标纠错字符对中的错误实体和对应的被纠错后的实体,并将目标纠错字符对保存至混淆集中;在遍历完多个纠错文本后,得到目标场景下的混淆集。其中,一个错误实体对应的纠错信息可以为相应错误实体中错误字符被纠错后的字符,也可以为相应错误实体被纠错后的实体,本申请对此不作限定,如表1所示。
在本申请实施例中,计算机设备在基于目标错误医疗实体和目标医疗实体,确定目标纠错字符对中的错误实体和对应的被纠错后的实体时,若混淆集中已包括目标医疗实体,即混淆集中已包括目标纠错字符对,那么计算机设备可采用目标错误医疗实体更新目标纠错字符对,使目标纠错字符对包括目标错误医疗实体;若混淆集中未包括目标医疗实体,即混淆集中未包括目标纠错字符对,那么计算机设备可采用目标错误医疗实体和目标医疗实体,生成目标纠错字符对。那么相应的,计算机设备在将目标纠错字符对保存至混淆集中时,若混淆集中已包括目标纠错字符对,那么计算机设备可对混淆集中的目标纠错字符对进行更新;若混淆集中未包括目标纠错字符对,那么计算机设备可将目标纠错字符对添加至混淆集中。
需要说明的是,在开放域纠错任务中有几个公共混淆集,但这些混淆集不能很好地应用于医学领域;因此,在纠错数据集(即医疗纠错数据集)的基础上,本申请实施例构建了一个字典式的混淆集(即医疗混淆集),该混淆集可包括基于纠错数据集中的所有拼写错误所涉及的大量正确-错误字符对(即纠错字符对);基于此,在给定一个医学领域容易出错的特征(即实体)后,可根据混淆集很容易找到相应实体对应的常见错误实体。
进一步的,通过对混淆集的统计分析,本申请实施例所提出的混淆集中可包括2623个被拼错的不同字符,且大多数汉字有一到二十个相应的错误字符;示例性的,混淆集中被拼错的字符可如表2所示:
表2:医疗混淆集中的7个例子
相应的,本申请实施例分析了混淆集中出现的所有81020个高频医疗实体,这意味着这些实体在医疗场景中更容易出现拼写错误;示例性的,本申请实施例从混淆集中找到的前5个高频实体和对应的错误实体集如表3所示:
表3:前5个高频实体
S407,调用实体识别模型中的语言模型,对待处理文本中的各个字符进行特征提取,得到待处理文本中的各个字符的字符特征。
其中,实体识别模型中的语言模型是指优化后的语言模型,也就是说,计算机设备可调用优化后的语言模型,对待处理文本中的各个字符进行特征提取,得到待处理文本中的各个字符的字符特征。
S408,调用实体识别模型中的实体识别网络基于待处理文本中的各个字符的字符特征,对待处理文本进行实体识别,得到待处理文本的识别实体。
S409,若在混淆集中查找到与识别实体匹配的目标错误实体,则采用目标错误实体对应的实体替换识别实体,以实现对待处理文本的纠错处理。
在本申请实施例中,可将采用混淆集对待处理文本进行纠错处理的模块称为混淆集替换模块,且当目标场景为医疗场景时,还可称为医疗混淆集替换模块;基于此,计算机设备可先通过实体识别模型识别出待处理文本中的识别实体,然后通过混淆集替换模块检查识别实体是否为混淆集中的常见错误实体,如果是,则再直接替换相应的实体。
在一种实施方式中,计算机设备可将混淆集中与识别实体相同的错误实体,作为与识别实体匹配的目标错误实体。例如,假设混淆集中包括纠错字符对“感冒-(感昌,感帽,赶冒)”,且识别实体为“赶冒”,那么计算机设备可在混淆集中查找到与识别实体匹配的目标错误实体“赶冒”,从而将目标错误实体对应的实体“感冒”替换识别实体。
另一种实施方式中,若混淆集中不存在与识别实体相同的错误实体,且混淆集中不存在与识别实体相同的参考实体(即任一错误实体被纠错后的实体),则计算机设备可将混淆集中与识别实体的拼音相同的任一错误实体,作为与识别实体匹配的目标错误实体,等等。例如,假设混淆集中包括纠错字符对“感冒-(感昌,感帽,赶冒)”,且识别实体为“敢冒”,那么计算机设备可将混淆集中的错误实体“感帽”或错误实体“赶冒”作为目标错误实体,从而将目标错误实体对应的实体“感冒”替换识别实体。
可选的,在其他实施例中,计算机设备可不执行步骤S408和S409,而是采用一种hard(直接)模式对待处理文本进行纠错处理;也就是说,在采用实体识别模型中的语言模型(即优化后的语言模型)对待处理文本中的各个字符进行特征提取后,计算机设备可直接利用关键词匹配的方式,基于待处理文本中的各个字符的字符特征,搜索待处理文本中是否有混淆集中出现过的错误词,如果有混淆集中出现过的错误词,则直接将正确的词替换掉错误词。
需要说明的是,在其他实施例中,若未在混淆集中查找到目标错误实体,计算机设备也可不执行步骤S409。进一步的,在其他实施例中,若未在混淆集中查找到目标错误实体,且未在目标参考实体集中查找到识别实体,则从字典库中选取出识别实体对应的至少一个候选替换实体,目标参考实体集包括多个参考实体;然后,分别确定所述至少一个候选替换实体中的各个候选替换实体与识别实体之间的距离,并采用距离最近的候选替换实体替换识别实体,以实现对待处理文本的纠错处理。可选的,计算机设备可基于识别实体的拼音(即字音),从字典库中选取出与识别实体的拼音相匹配的至少一个候选替换实体;也可基于识别实体的字形,从字典库中选取出与识别实体的字形相匹配的至少一个候选替换实体;还可基于识别实体的拼音和字形,从字典库中选取出与识别实体相匹配的至少一个候选替换实体,等等;本申请对此不作限定。
其中,目标参考实体集也可称为常见词库或常见正确实体库,在此种情况下,计算机设备可先检查识别实体是否在目标参考实体集和混淆集中,若存在于目标参考实体集中,则不变;若存在于混淆集中,则直接替换改正;若都不存在,即不存在于目标参考实体集中,且不存在于混淆集中,则确定候选替换实体以替换识别实体。可选的,采用候选替换实体以替换识别实体的实现可由混淆集外实体纠错模块完成。
在具体的实现中,计算机设备可利用结构树(如BK树,即Burkhard-Keller树,一种基于树的数据结构)进行召回,以得到距离最近的候选替换实体(即距离识别实体最近的候选替换实体)。在此种情况下,上述字典库中的各个实体以结构树的形式被存储,结构树包括多个节点和至少一条边,一个节点用于表示字典库中的一个实体(即结构树中的节点数量与字典库中实体的数量相同),一条边连接有两个节点,且一条边包括一个整数权重,用于指示相连的两个节点对应实体之间的编辑距离;示例性的,假设一个节点u到节点v的边缘有一些边缘权重w(即连接节点u到节点v的边包括权重w),那么w是将实体(即字符串)u转换为实体v所需的编辑距离。其中,BK树用于根据编辑距离概念执行拼写检查,也用于近似字符串匹配;基于该数据结构,可以实现许多软件中的各种自动校正特征。
其中,两个实体(即字符串)之间的编辑距离是指:只用插入、删除和替换三种操作,将一个实体变成另一个实体所需的最少步数;相应的,字符串A到B的编辑距离是指:只用插入、删除和替换三种操作,最少需要多少步可以把A变成B。例如,从FAME到GATE需要两步(两次替换),从GAME到ACM则需要三步(删除G和E再添加C)。
需要说明的是,BK树的核心思想是:令d(x,y)表示实体x到y的编辑距离,那么d(x,y)=0当且仅当x=y(编辑距离为0,即实体相等),d(x,y)=d(y,x)(从x变到y的最少步数等于从y变到x的最少步数),且d(x,y)+d(y,z)>=d(x,z)(从x变到z所需的步数不会超过x先变成y再变成z的步数),这一个性质叫做三角形不等式,即就像一个三角形一样,两边之和必然大于第三边。
那么相应的,针对至少一个候选替换实体中的任一候选替换实体,计算机设备可在结构树中确定任一候选替换实体对应的节点,与识别实体对应的节点相连的目标边;并将目标边所指示的编辑距离,作为任一候选替换实体与识别实体之间的距离。在此种情况下,在得到至少一个候选替换实体后,可利用结构树选取距离最近的候选替换实体,作为最后的实体替换词,以替换识别实体。
例如,如图5a所示,假设至少一个候选替换实体包括实体A、实体B以及实体C,识别实体为实体D,且结构树中的各个边指示了各实体与识别实体之间的编辑距离,那么计算机设备可分别确定实体A、实体B以及实体C与识别实体之间的距离依次为5、8以及3,从而采用距离最近的候选替换实体(即实体C)替换识别实体。
需要说明的是,当目标场景为医疗场景时,本申请所提出的模型构建方法的整体框架主要包括基于医疗纠错数据(即纠错数据集)和大规模医疗语言模型的医疗命名实体识别模型(即实体识别模型),以及后处理模型,其中后处理模型包括医疗实体检测模型(即医疗混淆集替换模块和混淆集外实体纠错模块),如图5b所示。可见,本申请可利用纠错数据集进行混淆集的生成,并通过医疗预训练语言模型(即上述语言模型)和医疗纠错微调的医疗实体发现算法(即实体识别模型),进行错误医疗实体识别,以识别句子中正确和错误的医疗实体,然后针对错误医疗实体进行医疗混淆集的替换,并利用结构树进行召回替换的方式,来对句子(即待处理文本)进行进一步的模型后处理,最后输出纠错后的句子。换句话说,针对医疗场景下的对象输入纠错,本申请提出基于医疗预训练语言模型与混淆集增广的实体识别与统计规则后处理的方法来对对象输入进行检错和纠错。
可选的,若未在混淆集中查找到目标错误实体,且未在目标参考实体集中查找到识别实体,计算机设备也可利用语言模型的召回方式来替换识别实体,还可基于各个实体的实体特征,计算各个候选替换实体与识别实体之间的距离,从而将距离最近的候选替换实体替换识别实体,等等;本申请对此不作限定。
需要说明的是,当目标场景为医疗场景时,本申请所提出的模型构建方法可应用于各种医疗功能或医疗产品中,从而对输入文本中的错误实体进行纠错,以实现更加精准的响应结果,如基于纠错后的实体对短文本进行自动化有效分类等。例如,可应用于健康助手,在对象输入咨询搜索或者预问诊的时候,由于医疗实体,比如药名、疾病名以及症状比较专业等很多专业术语容易打错,输入错误;如果系统没有针对实体进行纠错,那么很有可能返回错误或者漏掉正确的回复。又如,可应用于医疗问答对话,对象输入的问题中可能包含错误医疗实体,需要利用纠正引擎对输入先进行纠错,来扩大问答或者对话的正确召回,等等。
在本申请中,为了更好地说明实体识别模型的模型性能,当目标场景为医疗场景时,本申请可采用规则生成的总数为3万的医疗实体纠错数据来对实体识别模型进行实验验证,且本申请可采用误纠率和召回率作为硬性指标。其中,误纠率是指:正确的句子被改错的比率,且较大的误纠率将会对系统和对象体验带来负面效果;召回率是指:错误的句子被全部纠正的比率;基于此,本申请实施例的目标就是要让纠对句子数量远远大于被改错句子的数量,即K*RECALL>>(1-K)*FAR;其中,K为句子出错概率,RECALL是指召回率,且FAR是指误纠率。
基于此,本申请还采用常见基础模型,以及基于规则和公共混淆集替换模型分别对上述医疗实体纠错数据进行了实验分析,从而与本申请中的实体识别模型所涉及的召回率和误纠率进行比较;其中,常见基础模型表示只采用通用语言模型来对数据进行纠错验证,基于规则和混淆集替换模型表示的是只基于公共混淆集和实体识别模型(包括通用语言模型)进行纠错。可见,本申请通过纠错数据集微调和混淆集替换之后,纠错效果是最好的,即是比较有效的对医疗场景下的数据进行纠错的,具体比较结果如表4所示:
表4
召回率 | 错误率 | |
常见基础模型 | 78% | 78% |
基于规则和混淆集替换模型 | 40% | 15% |
本申请提出的模型 | 85% | 12% |
本申请实施例可对目标场景下的语言模型和目标场景下的纠错数据集,进行目标场景下的实体识别训练和预测,也就是说,可采用纠错数据集对语言模型进行微调,使得优化后的语言模型可以更好地适应错误实体(即纠错实体),并基于优化后的语言模型构建实体识别模型,从而在利用实体识别模型进行实体识别(即实体抽取)时,能够将拼写错误的实体也识别出来,为后面直接利用混淆集进行正确实体对错误实体的替换做准备。进一步的,本申请实施例可获取混淆集,以利用混淆集进行错误实体替换,并可利用BK树等对不常见的错误实体进行召回,从而实现对待处理文本的纠错处理,进而能够基于纠错后的文本召回更加精确的结果。
基于上述模型构建方法的相关实施例的描述,本申请实施例还提出了一种模型构建装置,该模型构建装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该模型构建装置可以执行图2或图4所示的模型构建方法;请参见图6,所述模型构建装置可以运行如下单元:
获取单元601,用于获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
处理单元602,用于针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
所述处理单元602,还用于针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
所述处理单元602,还用于按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
所述处理单元602,还用于基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
在一种实施方式中,获取单元601还可用于:获取用于对初始语言模型进行模型优化的训练数据集,所述训练数据集包括所述目标场景下的多个训练文本,且每个训练文本包括至少一个参考实体,一个参考实体包括至少一个训练字符;
处理单元602,还可用于:针对所述多个训练文本中的任一训练文本,调用所述初始语言模型,对所述任一训练文本中的各个训练字符进行特征提取,得到所述各个训练字符的字符特征;
针对所述任一训练文本中任一训练字符的字符特征,获取基于所述任一训练字符的字符特征识别为所述各个训练字符的概率,与所述任一训练字符为所述各个训练字符的参考概率之间的训练概率差异;
按照减小所述训练概率差异的方向,优化所述初始语言模型中的特征提取参数,得到所述语言模型。
另一种实施方式中,处理单元602还可用于:按照预设的掩码概率,获取所述任一纠错文本中的第一掩码位置;
基于目标掩码方式和所述第一掩码位置,确定所述任一纠错文本中的第二掩码位置;其中,所述目标掩码方式用于指示所述任一纠错文本中的掩码位置的选取方式,且所述目标掩码方式包括以下至少一项:字符掩码方式、全词掩码方式以及实体掩码方式;
采用掩码字符对所述第二掩码位置上的字符进行掩码处理,以更新所述任一纠错文本,其中,所述更新后的纠错文本中的各个字符被用于特征提取。
另一种实施方式中,任一纠错文本中的第二掩码位置的确定方式包括:
将所述第一掩码位置作为所述任一纠错文本中的第二掩码位置;
或者,确定所述第一掩码位置上的字符所组成的完整词,并将所述完整词所在的字符位置作为所述任一纠错文本中的第二掩码位置;
或者,确定所述第一掩码位置上的字符所组成的目标实体,并将所述目标实体所在的字符位置作为所述任一纠错文本中的第二掩码位置。
另一种实施方式中,获取单元601还可用于:获取所述目标场景下的混淆集,所述混淆集包括所述目标场景下的多个纠错字符对,且一个纠错字符对包括至少一个错误实体和对应的所述至少一个错误实体被纠错后的实体;
处理单元602还可用于:调用所述实体识别模型中的语言模型,对待处理文本中的各个字符进行特征提取,得到所述待处理文本中的各个字符的字符特征;
调用所述实体识别模型中的实体识别网络基于所述待处理文本中的各个字符的字符特征,对所述待处理文本进行实体识别,得到所述待处理文本的识别实体;
若在所述混淆集中查找到与所述识别实体匹配的目标错误实体,则采用所述目标错误实体对应的实体替换所述识别实体,以实现对所述待处理文本的纠错处理。
另一种实施方式中,处理单元602还可用于:若未在所述混淆集中查找到所述目标错误实体,且未在目标参考实体集中查找到所述识别实体,则从字典库中选取出所述识别实体对应的至少一个候选替换实体,所述目标参考实体集包括多个参考实体;
分别确定所述至少一个候选替换实体中的各个候选替换实体与所述识别实体之间的距离,并采用距离最近的候选替换实体替换所述识别实体,以实现对所述待处理文本的纠错处理。
另一种实施方式中,所述纠错数据集还包括所述每个纠错文本中的错误实体对应的纠错信息,所述目标场景是指医疗场景,且一个纠错文本包括至少一个错误医疗实体;获取单元601在获取所述目标场景下的混淆集时,可具体用于:
遍历所述多个纠错文本,基于当前遍历的纠错文本中的目标错误医疗实体和所述目标错误医疗实体对应的纠错信息,确定所述目标错误医疗实体被纠错后的目标医疗实体;
基于所述目标错误医疗实体和所述目标医疗实体,确定目标纠错字符对中的错误实体和对应的被纠错后的实体,并将所述目标纠错字符对保存至混淆集中;
在遍历完所述多个纠错文本后,得到所述目标场景下的混淆集。
根据本申请的一个实施例,图2或图4所示的方法所涉及的各个步骤均可由图6所示的模型构建装置中的各个单元来执行的。例如,图2中所示的步骤S201可由图6中所示的获取单元601执行,步骤S202-S205均可由图6中所示的处理单元602执行。又如,图4中所示的步骤S401和S406均可由图6所示的获取单元601执行,步骤S402-S405和步骤S407-S409均可由图6所示的处理单元602执行,等等。
根据本申请的另一个实施例,图6所示的模型构建装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,模型构建装置也可以包括其他单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的模型构建装置,以及来实现本申请实施例的模型构建方法。所述计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述计算设备中,并在其中运行。
本申请实施例可获取用于优化语言模型的纠错数据集,该纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体;然后,可调用语言模型对各个纠错文本中的各个字符进行特征提取,得到各个纠错文本中的各个字符的字符特征,从而基于各个纠错文本中各字符的字符特征对语言模型进行优化,得到优化后的语言模型,以提高优化后的语言模型的模型性能,并得到更加精确的实体识别模型,基于此,可提升通过实体识别模型中的语言模型所提取到的字符特征的准确性,进而提升实体识别的准确性。另外,由于字符特征也可反映上下文关系等,那么通过纠错数据集优化后的语言模型能够更加准确地提取出包含错误实体的文本中的各个字符的字符特征,以更加精确地反映包含错误实体的文本所涉及的上下文关系等,进而使得实体识别模型支持识别出文本中的参考实体(即拼写正确的实体)和错误实体。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图7,该计算机设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中,计算机设备内的处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。
计算机存储介质704可以存储在计算机设备的存储器中,所述计算机存储介质704用于存储计算机程序,所述计算机程序包括程序指令,所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例所述的处理器701可以用于进行一系列的模型构建,具体包括:获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图4所示的模型构建方法的实施例中的各个方法步骤。
本申请实施例可获取用于优化语言模型的纠错数据集,该纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体;然后,可调用语言模型对各个纠错文本中的各个字符进行特征提取,得到各个纠错文本中的各个字符的字符特征,从而基于各个纠错文本中各字符的字符特征对语言模型进行优化,得到优化后的语言模型,以提高优化后的语言模型的模型性能,并得到更加精确的实体识别模型,基于此,可提升通过实体识别模型中的语言模型所提取到的字符特征的准确性,进而提升实体识别的准确性。另外,由于字符特征也可反映上下文关系等,那么通过纠错数据集优化后的语言模型能够更加准确地提取出包含错误实体的文本中的各个字符的字符特征,以更加精确地反映包含错误实体的文本所涉及的上下文关系等,进而使得实体识别模型支持识别出文本中的参考实体(即拼写正确的实体)和错误实体。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图4所示的模型构建方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (11)
1.一种模型构建方法,其特征在于,包括:
获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于对初始语言模型进行模型优化的训练数据集,所述训练数据集包括所述目标场景下的多个训练文本,且每个训练文本包括至少一个参考实体,一个参考实体包括至少一个训练字符;
针对所述多个训练文本中的任一训练文本,调用所述初始语言模型,对所述任一训练文本中的各个训练字符进行特征提取,得到所述各个训练字符的字符特征;
针对所述任一训练文本中任一训练字符的字符特征,获取基于所述任一训练字符的字符特征识别为所述各个训练字符的概率,与所述任一训练字符为所述各个训练字符的参考概率之间的训练概率差异;
按照减小所述训练概率差异的方向,优化所述初始语言模型中的特征提取参数,得到所述语言模型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
按照预设的掩码概率,获取所述任一纠错文本中的第一掩码位置;
基于目标掩码方式和所述第一掩码位置,确定所述任一纠错文本中的第二掩码位置;其中,所述目标掩码方式用于指示所述任一纠错文本中的掩码位置的选取方式,且所述目标掩码方式包括以下至少一项:字符掩码方式、全词掩码方式以及实体掩码方式;
采用掩码字符对所述第二掩码位置上的字符进行掩码处理,以更新所述任一纠错文本,其中,所述更新后的纠错文本中的各个字符被用于特征提取。
4.根据权利要求3所述的方法,其特征在于,所述任一纠错文本中的第二掩码位置的确定方式包括:
将所述第一掩码位置作为所述任一纠错文本中的第二掩码位置;
或者,确定所述第一掩码位置上的字符所组成的完整词,并将所述完整词所在的字符位置作为所述任一纠错文本中的第二掩码位置;
或者,确定所述第一掩码位置上的字符所组成的目标实体,并将所述目标实体所在的字符位置作为所述任一纠错文本中的第二掩码位置。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述目标场景下的混淆集,所述混淆集包括所述目标场景下的多个纠错字符对,且一个纠错字符对包括至少一个错误实体和对应的所述至少一个错误实体被纠错后的实体;
调用所述实体识别模型中的语言模型,对待处理文本中的各个字符进行特征提取,得到所述待处理文本中的各个字符的字符特征;
调用所述实体识别模型中的实体识别网络基于所述待处理文本中的各个字符的字符特征,对所述待处理文本进行实体识别,得到所述待处理文本的识别实体;
若在所述混淆集中查找到与所述识别实体匹配的目标错误实体,则采用所述目标错误实体对应的实体替换所述识别实体,以实现对所述待处理文本的纠错处理。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若未在所述混淆集中查找到所述目标错误实体,且未在目标参考实体集中查找到所述识别实体,则从字典库中选取出所述识别实体对应的至少一个候选替换实体,所述目标参考实体集包括多个参考实体;
分别确定所述至少一个候选替换实体中的各个候选替换实体与所述识别实体之间的距离,并采用距离最近的候选替换实体替换所述识别实体,以实现对所述待处理文本的纠错处理。
7.根据权利要求5所述的方法,其特征在于,所述纠错数据集还包括所述每个纠错文本中的错误实体对应的纠错信息,所述目标场景是指医疗场景,且一个纠错文本包括至少一个错误医疗实体;所述获取所述目标场景下的混淆集,包括:
遍历所述多个纠错文本,基于当前遍历的纠错文本中的目标错误医疗实体和所述目标错误医疗实体对应的纠错信息,确定所述目标错误医疗实体被纠错后的目标医疗实体;
基于所述目标错误医疗实体和所述目标医疗实体,确定目标纠错字符对中的错误实体和对应的被纠错后的实体,并将所述目标纠错字符对保存至混淆集中;
在遍历完所述多个纠错文本后,得到所述目标场景下的混淆集。
8.一种模型构建装置,其特征在于,包括:
获取单元,用于获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;
处理单元,用于针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;
所述处理单元,还用于针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;
所述处理单元,还用于按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;
所述处理单元,还用于基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。
9.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078361.9A CN117034928A (zh) | 2022-09-05 | 2022-09-05 | 模型构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211078361.9A CN117034928A (zh) | 2022-09-05 | 2022-09-05 | 模型构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117034928A true CN117034928A (zh) | 2023-11-10 |
Family
ID=88628650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211078361.9A Pending CN117034928A (zh) | 2022-09-05 | 2022-09-05 | 模型构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034928A (zh) |
-
2022
- 2022-09-05 CN CN202211078361.9A patent/CN117034928A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN110309267B (zh) | 基于预训练模型的语义检索方法和系统 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
US11521713B2 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
CN111639190A (zh) | 医疗知识图谱构建方法 | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112149400A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Wu et al. | A novel community answer matching approach based on phrase fusion heterogeneous information network | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN111563097A (zh) | 一种无监督式的题目聚合方法、装置、电子设备及存储介质 | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
CN111858962B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |