CN115936010A - 文本缩写数据处理方法、装置 - Google Patents
文本缩写数据处理方法、装置 Download PDFInfo
- Publication number
- CN115936010A CN115936010A CN202211695833.5A CN202211695833A CN115936010A CN 115936010 A CN115936010 A CN 115936010A CN 202211695833 A CN202211695833 A CN 202211695833A CN 115936010 A CN115936010 A CN 115936010A
- Authority
- CN
- China
- Prior art keywords
- full
- term
- abbreviated
- name
- name term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000001502 supplementing effect Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 28
- 238000012795 verification Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 241000725303 Human immunodeficiency virus Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请的实施例提供了一种文本缩写数据处理方法、装置。该方法包括:获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。本申请实施例的技术方案可以提高识别和理解文本中缩写数据的效率。
Description
技术领域
本申请涉及数据处理及人工智能技术领域,具体而言,涉及一种文本缩写数据处理方法、装置。
背景技术
在文献文本中,对于一些重复出现的长形式的术语往往采用缩写形式替代,如此可以避免长术语和复杂术语带来的阅读理解困难问题。但同时也会带来一些问题,即缩写术语本身携带的语义信息量较少,不利于文本语义表示,影响文本解析和知识提取,导致降低识别和理解文本中缩写数据的效率。基于此,如何提高识别和理解文本中缩写数据的效率是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种文本缩写数据处理方法、装置、计算机程序产品或计算机程序、计算机可读介质及电子设备,进而至少在一定程度上可以提高识别和理解文本中缩写数据的效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本缩写数据处理方法,所述方法包括:获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
根据本申请实施例的一个方面,提供了一种文本缩写数据处理装置,所述装置包括:第一获取单元,被用于获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;识别单元,被用于通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;构建单元,被用于基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;第二获取单元,被用于获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中所述的文本缩写数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本缩写数据处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本缩写数据处理方法。
在本申请的一些实施例所提供的技术方案中,通过识别到的缩写全称术语词对,构建记录有缩写术语与至少一个全称术语之间对应关系的缩写全称术语词对库,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语,可以避免缩写术语本身携带的语义信息量少,影响文本解析和知识提取的情况发生,有助于增强文本之间语义关联,消除因术语不齐带来的文本“富”语义和关联关系解析困难等问题,提高了识别和理解文本中缩写数据的效率,为全文本的深层次知识挖掘提供可能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本申请一个实施例的文本缩写数据处理方法的流程图;
图2示出了根据本申请一个实施例的文本缩写数据处理装置的框图;
图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
还需要说明的是:本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
在对本申请中的文本缩写数据处理方案进行阐述之前,下面将对本申请中涉及到的相关概念进行简单介绍。
在文献文本中,对于一些重复出现的长形式的术语往往采用缩写形式替代。通过使用缩写形式的词可以简练表达想表述的内容,帮助准确地掌握文章结构,在本申请中,可将长形式的术语定义为全称术语,缩写形式的术语定义为缩写术语。例如,“HIV”表示“Human Immunodeficiency Virus”,“Pro”表示“Protein”,、“TLR”表示“Toll-likereceptor”。缩写术语的构词特征往往没有规则,一般分为三种情况,分别是缩略词(Abbreviation),首字母缩写词(Acronym),以及字母数字符号组合(Mixed)。在文献文本中,缩写术语通常在第一次出现时会和它对应的全称术语成对的出现,之后会用其缩写术语词代替全称术语。
可见,相比术语的全称形式,缩写形式更为普遍,这就给缩写的全称识别带来了很大的挑战,如何正确找到缩写的正确扩展边界,成为缩写术语识别及其对应的全称术语识别的关键所在。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图1示出了根据本申请的一个实施例的文本缩写数据处理方法的流程图,该文本缩写数据处理方法可以由具有计算处理功能的设备来执行。参照图1所示,该文本缩写数据处理方法至少包括步骤110至步骤170,详细介绍如下:
在步骤110中,获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本。
在本申请中,所述目标知识领域可以是指某一个专业领域,比如医学专业领域,军事专业领域,人工智能专业领域,政务专业领域等等,本申请对此不做过多限定。进一步的,目标知识领域内的文本可以是指某一个专业领域内的多个专业文本,例如医学专业领域内的英文论文,期刊文献文本。
比如,在医学专业领域的病毒学知识领域中,可以采用语义网等数据关联技术对病毒学研究中存在的潜在知识进行关联和组织,具体的,病毒学知识领域的参考文本语料可以来源于PubMed数据库,通过参考Web of Science的Journal Citation Reports栏目中病毒学学科期刊列表,通过PMC FTP service服务器批量下载XML格式的开放存取数据集,得到若干篇XML格式的全文文章,并通过python的xmltodict包解析XML文件,得到参考文本集合。
继续参照图1,在步骤130中,通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语。
在本申请的一个实施例中,可以按照如下步骤121至步骤123训练缩写术语识别模型和缩写全称术语词对识别模型:
步骤121,获取属于目标知识领域的训练文本集合和验证文本集合,所述训练文本集合包括至少一个训练文本,所述验证文本集合包括至少一个验证文本,所述训练文本和验证文本中均包括缩写全称术语词对和缩写术语,以及缩写全称术语词对和缩写术语的标注标签。
步骤122,基于所述训练文本集合中的训练文本,对预先构建的机器学习模型进行训练,得到至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型。
步骤123,基于所述验证文本集合中的验证文本,从至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型中分别选定所述缩写术语识别模型和所述缩写全称术语词对识别模型。
在本实施例的一个具体实施方式中,训练文本集合和验证文本集合也可以从PubMed数据库中获得。在得到训练文本和验证文本之后,进一步以“.”和“?”为断句标准切割,形成第一待标注语料,用于缩写术语识别语料。通过正则表达式进一步筛选含有括号对的句子,形成第二待标注语料,用于缩写全称术语词对识别语料。
进一步的,针对第一待标注语料,标注缩写术语的标注标签,针对第二待标注语料,标注缩写全称术语词对的标注标签,为避免错误标注,去除语料中单字母(m,g n,p,G,M,F,S等)以及第一个字母大写,后面个字母全为小写的字母组合(Cre,Flu,Can,Mab,This等)。
在本申请中,机器学习模型采用的基础模型可以是BB-BLC模型(即用于训练缩写术语识别模型)。相对于Bert通用领域预训练模型,可以使用BioBert模型,选取bioBert-base-cased-v1.2-pytorch中的深度学习框架。
在BB-BLC模型中,BERT层的输出将句子的每个词转化为三个Embedding相加,分别是字符嵌入(Token Embeddings)、句子嵌入(Segment Embeddings)和位置嵌入(PositionEmbeddings),之后将相加后的序列向量输入到真双向Transformer注意力机制中进行特征提取,并使用Fine-Tuning微调模式得到富含前后语义信息的序列向量。BiLSTM层负责获得特征向量,用于对BERT输入的向量进行双向编码,以表征上下文相关的语义信息,使用BiLSTM能够更好地捕捉到较长距离的顺序依赖关系。CRF层能很好地表达标签转移关系,在解码过程中会考虑到前后字符的标签信息。CRF层的作用是获得最终的术语标签,其输入为给定的一组观测序列X,计算对应的状态序列Y的概率。对于每个可能的状态序列,计算其分数s,将分数最高的序列作为识别结果。
在此基础上,还提出一种规则和深度学习相结合的混合模型BBF-BLC-R(即用于训练缩写全称术语词对识别模型),用于提升缩写全称术语词对识别和修正效果,该模型主要使用BBF-BLC模型通过融合外部特征发现候选缩写全称术语词对,然后使用R模型通过用户自定义规则对提取的缩写全称术语词对进行修正。
在本申请中,外部特征主要包括词性特征、边界词特征、构词特征、词干特征、符号特征和前缀词特征。
在本申请中,缩写全称术语词对修正规则主要划分为两步:第一,依据缩写全称术语词对的首字母结构特征增大扩展定义范围。第二,通过缩写与全称的字母对应的子集关系和顺序关系对扩展范围进行约束。
在本申请中,通过训练文本训练机器学习模型,使模型具备识别文本中缩写术语和缩写全称术语词对的能力,得到至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型,为了能够得到识别能力最优的模型,进一步可以通过验证文本分别从至少一个候选缩写术语识别模型中和至少一个候选缩写全称术语词对识别模型选定所述缩写术语识别模型和所述缩写全称术语词对识别模型。
继续参照图1,在步骤150中,基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系。
在如图1所示步骤150的一个实施例中,基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,可以按照如下步骤151至步骤152执行:
步骤151,针对每一个目标缩写全称术语词对,查询所述缩写全称术语词对库中是否存在所述目标缩写全称术语词对中的目标缩写术语,所述目标缩写全称术语词对为识别到的所述缩写全称术语词对中的任意一个。
步骤152,如果所述缩写全称术语词对库中不存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
在本实施例中,还可以执行如下步骤153至156:
步骤153,如果所述缩写全称术语词对库中存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对中的全称术语作为第一全称术语,将所述缩写全称术语词对库中的与所述目标缩写术语对应的全称术语作为第二全称术语。
步骤154,计算所述第一全称术语和第二全称术语的综合相似度。
步骤155,如果所述综合相似度未超过相似度阈值,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
步骤156,如果所述综合相似度超过相似度阈值,则不将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
在上述步骤154的一个实施例中,计算所述第一全称术语和第二全称术语的综合相似度,可以按照如下步骤1541至步骤1543执行:
步骤1541,计算所述第一全称术语和第二全称术语的语义相似度。
步骤1542,计算所述第一全称术语和第二全称术语的结构相似度。
步骤1543,基于所述语义相似度和所述结构相似度,采用线性加权的方式计算所述综合相似度。
在本申请中,由于同一全称术语可能存在多种形式变体,比如,缩写术语“MC”对应的全称术语可以是“Microphone Controller”,也可以是“Move the Crowd”。基于此,在查询所述缩写全称术语词对库中是否存在所述目标缩写全称术语词对中的目标缩写术语时,可以基于语义相似度的全称术语对齐策略和基于结构相似度的全称术语对齐策略,来判断缩写术语对应的不同形式的全称术语的含义是否相同,如果不相同,则需要将缩写全称术语词对列入缩写全称术语词对库,如果相同,则无需将缩写全称术语词对列入缩写全称术语词对库。
在本申请中,针对不同的对齐策略,分别设计对应的解决方案,可以采用线性加权的混合方法整合两种相似度,得到最终的全称术语综合相似度,缩写术语对齐是根据全称术语对齐结果进行归纳和整理得到。具体的,可以定义缩写全称术语词对集合{{Li,Si},{Lj,Sj},...,{Ln,Sn}},其中{Li,Si}表示第i个全称术语Li的缩写术语是Si,{Lj,Sj}表示第j个全称术语Lj的缩写术语是Sj。
具体的,可以通过构建自定义规则,判断缩写术语Si和Sj是否结构相似。其自定义规则如下:
a.去除缩写术语中含有的标点符号,包括:“(”,“)”,“-”,“‘’’,“,”,“.”,“/”,“%”和“”。
b.如果缩写术语的最后一个字符是小写“s”,则去掉“s”。
经过上述规则约束,如果缩写术语Si和Sj结构相似,计算全称术语Li和Lj的相似度。
进一步的,基于语义相似度的全称术语对齐策略的基本思路:采用BioBert向量计算全称术语Li和Lj的语义相似度Simsem(Li,Lj)。
基于结构相似度的全称术语对齐策略的基本思路:首先,为了减少无意义停用词带来的变体现象,对所有全称术语统一去除停用词;其次,为了减轻单复数、时态等词形变化带来的变体现象,对所有全称术语统一进行词形还原;最后,采用模糊匹配算法Jaccard计算全称术语li和lj的结构相似度Simstr(Li,L)。
在本申请中,可以采用线性加权的混合策略计算全称术语li和lj的综合相似度Sim(Li,Lj),如公式(1)所示。
Sim(Li,Lj)=αSimsem(Li,Lj)+βSimstr(Li,Lj) (1)
其中,α和β为可调节参数。
设置阈值γ,将Sim(Li,Lj)>γ的全称术语Lj视为全称术语Li的变体。至此,全称术语对齐完成。如果全称术语Li和Lj对齐,则缩写术语Si和Sj也自动对齐。基于此,将对齐的全称术语看成具有相同含义的全称术语,对齐的缩写术语看成具有相同含义的缩写术语。
在本申请中,基于缩写术语识别、缩写全称术语词对识别以及缩写全称术语对齐结果,根据缩写术语和全称术语的数量对应关系,进一步设计标准化的缩写全称术语词对库构建规则,其中,一对一表示同一缩写术语对应同一全称术语,一对二表示同一缩写术语对应两个全称术语,一对三表示同一缩写术语对应三个全称术语,一对多表示同一缩写术语对应多个全称术语。
基于此,可以将标准化的缩写全称术语词对库分为:缩写全称通用词对库和缩写全称一般词对库。其中,符合一对一关系的缩写全称术语词对被列入缩写全称通用词对库,其它则被列入缩写全称一般词对库。
继续参照图1,在步骤170中,获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
在如图1所示步骤170的一个实施例中,基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语,可以按照如下步骤171至步骤173执行:
步骤171,通过预先训练的缩写术语识别模型识别独立分布于所述待处理文本中的缩写术语,作为待补全缩写术语。
步骤172,在所述缩写全称术语词对库中查询与所述待补全缩写术语对应的全称术语,作为候选全称术语。
步骤173,基于所述候选全称术语,确定目标全称术语,并将所述目标全称术语作为所述待补全缩写术语对应的全称术语进行全称术语补全。
在本申请中,待处理文本是指需要对单独分布在其中的缩写术语补全全称术语的文本。在一些实际应用场景中,如果待处理文本中存在部分缩写术语没有通过全称缩写词对的文本特征给出其缩写的定义扩展范围,将无法根据全称缩写词对的文本特点正确识别出其缩写所对应的全称术语。因此,通过为待处理文本中的缩写术语补全全称术语,可以充分挖掘待处理文本中的深层次信息,同时,还可以提高识别和理解待处理文本中缩写术语的效率,比如,在翻译场景中,基于为待处理文本中的缩写术语补全的全称术语,可以很大程度上提高对文本翻译的效率和准确性。
在上述步骤171之前,即在通过预先训练的缩写术语识别模型识别独立分布于待处理文本中的缩写术语之前,还可以执行如下步骤161至步骤162:
步骤161,通过所述缩写全称术语词对识别模型识别分布于所述待处理文本中的缩写全称术语词对。
步骤162,将分布于所述待处理文本中的缩写全称术语词对列入所述缩写全称术语词对库。
在本申请中,由于预先构建的缩写全称术语词对库中并不能穷尽目标知识领域内的所有缩写全称术语词对,因此,将分布于所述待处理文本中的缩写全称术语词对列入所述缩写全称术语词对库,有利于丰富缩写全称术语词对库中缩写全称术语词对,为后续中对待处理文本的缩写术语进行全称术语补全提供更有力的支持。
在上述步骤173中,基于所述候选全称术语,确定目标全称术语,可以按照如下步骤1731至步骤1732执行:
步骤1731,如果所述候选全称术语的数量为一个,则将所述候选全称术语确定为所述目标全称术语。
步骤1732,如果所述候选全称术语的数量为多个,则从多个候选全称术语中选定与所述待处理文本的语义特征相匹配的全称术语,作为所述目标全称术语。
在本申请的一个实施例中,还可以执行如下步骤1721:
步骤1721,如果在所述缩写全称术语词对库中未查询到与所述待补全缩写术语对应的全称术语,则通过人工术语补全的方式为独立分布于待处理文本中的缩写术语补全全称术语,并基于所述待补全缩写术语和人工术语补全的全称术语构造缩写全称术语词对,以将构造的缩写全称术语词对列入所述缩写全称术语词对库。
如果在所述缩写全称术语词对库中查询到与所述待补全缩写术语对应的多个候选全称术语(词对库中的同一缩写术语对应的多个候选全称术语的含义不同),可以通过考虑缩写术语的在待处理文本中上下文扩展语义信息来推断当前上下文中该缩写术语的具体含义,进而从多个候选全称术语中选定与所述待处理文本的语义特征相匹配的全称术语。也就是说,相同的缩写术语在不同的上下文中所表达的语义信息是有差异的。其缩写术语词向量生成可以通过BioBert得到。
具体的,以单个待处理文本为单元,定义待补全缩写术语集{S11,S21,...,Sij},其中,Sij表示第i篇待处理文本第j个缩写术语Sij并未识别出其所对应的全称术语Lij,待补全数据集{{SeS11},{SeS21},...,{SeSij}},其中,SeSij表示第i篇待处理文本第j个缩写术语Sij所在的句子集和SeSij,已补全缩写全称术语集{{S′11L′11},{S′21L′21},...,{S′mnL′mn}},其中,S′mnL′mn表示第m篇待处理文本第n个缩写术语S′mn对应的全称术语是L′mn,已补全数据集{{Se′S′11},{SeS′21},...,{Se′S′mn}},其中,Se′S′mn表示第m篇待处理文本第n个缩写术语S′mn所在的句子集和Se′S′mn。
首先,根据构建的缩写全称术语词对库,判断待补全缩写术语Sij是否属于缩写全称通用词对库,如果匹配成功,则将这些缩写术语直接进行缩写全称映射。
其次,根据构建的缩写全称术语词对库,判断待补全缩写术语Sij是否属于缩写全称一般词对库,如果匹配成功,找到待补全数据集SeSij和已补全数据集Se′S′mn中所有含有相同缩写术语的句子,根据不同上下文得到不同句子中相同缩写的不同语义向量,并计算Sij和S′mn的相似度得分Scoresim。
然后,设置阈值δ,将Scoresim>δ的已补全数据集中该缩写术语S′mn所对应的全称术语L′mn称为缩写术语Sij的候选全称术语。
最后,统计候选全称术语集L′mn中相同全称术语的出现频次,将平均相似度得分Score′sim最高的全称术语L′mn作为该文献缩写术语Sij所对应的最合适的全称术语Lij。
如果待补全缩写术语同时不属于缩写全称通用词对库和缩写全称一般词对库,则需要人工辅助补全该缩写术语所对应的全称术语。
在本申请中,通过识别到的缩写全称术语词对,构建记录有缩写术语与至少一个全称术语之间对应关系的缩写全称术语词对库,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语,可以避免缩写术语本身携带的语义信息量少,影响文本解析和知识提取的情况发生,有助于增强文本之间语义关联,消除因术语不齐带来的文本“富”语义和关联关系解析困难等问题,提高了识别和理解文本中缩写数据的效率,为全文本的深层次知识挖掘提供可能。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本缩写数据处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本缩写数据处理方法的实施例。
图2示出了根据本申请的一个实施例的文本缩写数据处理装置的框图。
参照图2所示,根据本申请的一个实施例的文本缩写数据处理装置200,包括:第一获取单元201、识别单元202、构建单元203和第二获取单元204。
其中,第一获取单元201,被用于获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;识别单元202,被用于通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;构建单元203,被用于基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;第二获取单元204,被用于获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
在本申请的一些实施例中,基于前述方案,所述构建单元203配置为:针对每一个目标缩写全称术语词对,查询所述缩写全称术语词对库中是否存在所述目标缩写全称术语词对中的目标缩写术语,所述目标缩写全称术语词对为识别到的所述缩写全称术语词对中的任意一个;如果所述缩写全称术语词对库中不存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
在本申请的一些实施例中,基于前述方案,所述构建单元203还配置为:如果所述缩写全称术语词对库中存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对中的全称术语作为第一全称术语,将所述缩写全称术语词对库中的与所述目标缩写术语对应的全称术语作为第二全称术语;计算所述第一全称术语和第二全称术语的综合相似度;如果所述综合相似度未超过相似度阈值,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库;如果所述综合相似度超过相似度阈值,则不将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
在本申请的一些实施例中,基于前述方案,所述构建单元203还配置为:计算所述第一全称术语和第二全称术语的语义相似度;计算所述第一全称术语和第二全称术语的结构相似度;基于所述语义相似度和所述结构相似度,采用线性加权的方式计算所述综合相似度。
在本申请的一些实施例中,基于前述方案,所述第二获取单元204配置为:通过预先训练的缩写术语识别模型识别独立分布于所述待处理文本中的缩写术语,作为待补全缩写术语;在所述缩写全称术语词对库中查询与所述待补全缩写术语对应的全称术语,作为候选全称术语;基于所述候选全称术语,确定目标全称术语,并将所述目标全称术语作为所述待补全缩写术语对应的全称术语进行全称术语补全。
在本申请的一些实施例中,基于前述方案,所述构建单元203还配置为:在通过预先训练的缩写术语识别模型识别独立分布于待处理文本中的缩写术语之前,通过所述缩写全称术语词对识别模型识别分布于所述待处理文本中的缩写全称术语词对;将分布于所述待处理文本中的缩写全称术语词对列入所述缩写全称术语词对库。
在本申请的一些实施例中,基于前述方案,所述第二获取单元204配置为:如果所述候选全称术语的数量为一个,则将所述候选全称术语确定为所述目标全称术语;如果所述候选全称术语的数量为多个,则从多个候选全称术语中选定与所述待处理文本的语义特征相匹配的全称术语,作为所述目标全称术语。
在本申请的一些实施例中,基于前述方案,所述构建单元203还配置为:如果在所述缩写全称术语词对库中未查询到与所述待补全缩写术语对应的全称术语,则通过人工术语补全的方式为独立分布于待处理文本中的缩写术语补全全称术语,并基于所述待补全缩写术语和人工术语补全的全称术语构造缩写全称术语词对,以将构造的缩写全称术语词对列入所述缩写全称术语词对库。
在本申请的一些实施例中,基于前述方案,所述装置还包括:训练单元,被用于获取属于目标知识领域的训练文本集合和验证文本集合,所述训练文本集合包括至少一个训练文本,所述验证文本集合包括至少一个验证文本,所述训练文本和验证文本中均包括缩写全称术语词对和缩写术语,以及缩写全称术语词对和缩写术语的标注标签;基于所述训练文本集合中的训练文本,对预先构建的机器学习模型进行训练,得到至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型;基于所述验证文本集合中的验证文本,从至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型中分别选定所述缩写术语识别模型和所述缩写全称术语词对识别模型。
图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图3示出的电子设备的计算机系统300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理单元(Central Processing Unit,CPU)301,其可以根据存储在只读存储器(Read-Only Memory,ROM)302中的程序或者从储存部分308加载到随机访问存储器(Random Access Memory,RAM)303中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 303中,还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(Input/Output,I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分307;包括硬盘等的储存部分308;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入储存部分308。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中所述的文本缩写数据处理方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的文本缩写数据处理方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本缩写数据处理方法,其特征在于,所述方法包括:
获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;
通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;
基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;
获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
2.根据权利要求1所述的方法,其特征在于,所述基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,包括:
针对每一个目标缩写全称术语词对,查询所述缩写全称术语词对库中是否存在所述目标缩写全称术语词对中的目标缩写术语,所述目标缩写全称术语词对为识别到的所述缩写全称术语词对中的任意一个;
如果所述缩写全称术语词对库中不存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果所述缩写全称术语词对库中存在所述目标缩写全称术语词对中的目标缩写术语,则将所述目标缩写全称术语词对中的全称术语作为第一全称术语,将所述缩写全称术语词对库中的与所述目标缩写术语对应的全称术语作为第二全称术语;
计算所述第一全称术语和第二全称术语的综合相似度;
如果所述综合相似度未超过相似度阈值,则将所述目标缩写全称术语词对列入所述缩写全称术语词对库;
如果所述综合相似度超过相似度阈值,则不将所述目标缩写全称术语词对列入所述缩写全称术语词对库。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第一全称术语和第二全称术语的综合相似度,包括:
计算所述第一全称术语和第二全称术语的语义相似度;
计算所述第一全称术语和第二全称术语的结构相似度;
基于所述语义相似度和所述结构相似度,采用线性加权的方式计算所述综合相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语,包括:
通过预先训练的缩写术语识别模型识别独立分布于所述待处理文本中的缩写术语,作为待补全缩写术语;
在所述缩写全称术语词对库中查询与所述待补全缩写术语对应的全称术语,作为候选全称术语;
基于所述候选全称术语,确定目标全称术语,并将所述目标全称术语作为所述待补全缩写术语对应的全称术语进行全称术语补全。
6.根据权利要求5所述的方法,其特征在于,在通过预先训练的缩写术语识别模型识别独立分布于待处理文本中的缩写术语之前,所述方法还包括:
通过所述缩写全称术语词对识别模型识别分布于所述待处理文本中的缩写全称术语词对;
将分布于所述待处理文本中的缩写全称术语词对列入所述缩写全称术语词对库。
7.根据权利要求5所述的方法,其特征在于,所述基于所述候选全称术语,确定目标全称术语,包括:
如果所述候选全称术语的数量为一个,则将所述候选全称术语确定为所述目标全称术语;
如果所述候选全称术语的数量为多个,则从多个候选全称术语中选定与所述待处理文本的语义特征相匹配的全称术语,作为所述目标全称术语。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
如果在所述缩写全称术语词对库中未查询到与所述待补全缩写术语对应的全称术语,则通过人工术语补全的方式为独立分布于待处理文本中的缩写术语补全全称术语,并基于所述待补全缩写术语和人工术语补全的全称术语构造缩写全称术语词对,以将构造的缩写全称术语词对列入所述缩写全称术语词对库。
9.根据权利要求1至8任一项所述的方法,其特征在于,按照如下步骤训练缩写术语识别模型和缩写全称术语词对识别模型:
获取属于目标知识领域的训练文本集合和验证文本集合,所述训练文本集合包括至少一个训练文本,所述验证文本集合包括至少一个验证文本,所述训练文本和验证文本中均包括缩写全称术语词对和缩写术语,以及缩写全称术语词对和缩写术语的标注标签;
基于所述训练文本集合中的训练文本,对预先构建的机器学习模型进行训练,得到至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型;
基于所述验证文本集合中的验证文本,从至少一个候选缩写术语识别模型和至少一个候选缩写全称术语词对识别模型中分别选定所述缩写术语识别模型和所述缩写全称术语词对识别模型。
10.一种文本缩写数据处理装置,其特征在于,所述装置包括:
第一获取单元,被用于获取属于目标知识领域的参考文本集合,所述参考文本集合包括至少一个参考文本;
识别单元,被用于通过预先训练的缩写全称术语词对识别模型识别分布于各个参考文本中的缩写全称术语词对,所述缩写全称术语词对中包括缩写术语和与缩写术语相对应的全称术语;
构建单元,被用于基于识别到的所述缩写全称术语词对,构建缩写全称术语词对库,所述缩写全称术语词对库记录了缩写术语与至少一个全称术语之间的对应关系;
第二获取单元,被用于获取属于目标知识领域的待处理文本,并基于所述缩写全称术语词对库,为独立分布于待处理文本中的缩写术语补全全称术语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211695833.5A CN115936010A (zh) | 2022-12-28 | 2022-12-28 | 文本缩写数据处理方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211695833.5A CN115936010A (zh) | 2022-12-28 | 2022-12-28 | 文本缩写数据处理方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115936010A true CN115936010A (zh) | 2023-04-07 |
Family
ID=86655756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211695833.5A Pending CN115936010A (zh) | 2022-12-28 | 2022-12-28 | 文本缩写数据处理方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115936010A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117193739A (zh) * | 2023-11-03 | 2023-12-08 | 建信金融科技有限责任公司 | 一种脚本编辑方法和装置 |
-
2022
- 2022-12-28 CN CN202211695833.5A patent/CN115936010A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117193739A (zh) * | 2023-11-03 | 2023-12-08 | 建信金融科技有限责任公司 | 一种脚本编辑方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN106649742B (zh) | 数据库维护方法和装置 | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
CN113901797B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
CN115292457B (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
US11416678B2 (en) | Question group extraction method, question group extraction device, and recording medium | |
CN112002323A (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
CN103678318A (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
WO2021042529A1 (zh) | 文章摘要自动生成方法、装置及计算机可读存储介质 | |
CN115936010A (zh) | 文本缩写数据处理方法、装置 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN114357195A (zh) | 基于知识图谱的问答对生成方法、装置、设备及介质 | |
CN113901218A (zh) | 一种稽查业务基础规则抽取方法及装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN110705308B (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
Berdichevskaia | Atypical lexical abbreviations identification in Russian medical texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |