CN117555995A - 一种分级式缩略语句匹配确认方法及系统 - Google Patents
一种分级式缩略语句匹配确认方法及系统 Download PDFInfo
- Publication number
- CN117555995A CN117555995A CN202410040773.6A CN202410040773A CN117555995A CN 117555995 A CN117555995 A CN 117555995A CN 202410040773 A CN202410040773 A CN 202410040773A CN 117555995 A CN117555995 A CN 117555995A
- Authority
- CN
- China
- Prior art keywords
- abbreviation
- term
- recorded
- text
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012790 confirmation Methods 0.000 title claims abstract description 23
- 238000012795 verification Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 102100022595 Broad substrate specificity ATP-binding cassette transporter ABCG2 Human genes 0.000 description 21
- 101000823298 Homo sapiens Broad substrate specificity ATP-binding cassette transporter ABCG2 Proteins 0.000 description 21
- 239000003814 drug Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 101000956263 Homo sapiens Uncharacterized protein C19orf48 Proteins 0.000 description 4
- 102100038573 Uncharacterized protein C19orf48 Human genes 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000036457 multidrug resistance Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000010056 antibody-dependent cellular cytotoxicity Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 3
- 238000002565 electrocardiography Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 2
- 206010057249 Phagocytosis Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000005888 antibody-dependent cellular phagocytosis Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 230000008782 phagocytosis Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 102000004625 Aspartate Aminotransferases Human genes 0.000 description 1
- 108010003415 Aspartate Aminotransferases Proteins 0.000 description 1
- 108010074051 C-Reactive Protein Proteins 0.000 description 1
- 102100032752 C-reactive protein Human genes 0.000 description 1
- 229940009098 aspartate Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 210000003651 basophil Anatomy 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种分级式缩略语句匹配确认方法及系统,涉及人工智能技术领域,包括步骤:构建缩略语数据库,输入文本,进行元素识别,并与所述缩略语数据库中的收录词条进行匹配;确定识别的元素在所述缩略语数据库中是否能匹配到对应的收录词条,确定识别的元素所匹配到的词条是否唯一,若唯一,将该元素直接认定为目标术语,若不唯一,将该元素认定为待定术语并通过机筛和人工方式确认其对应的唯一收录词条,若识别元素无法匹配,则进行查询,获取未收录术语所对应的未收录词条,更新至缩略语数据库中,导出文本缩略语文档。本发明使研究人员能够直观的了解到文本中出现的缩略语及其释义,方便使用文本缩略语文档与文本信息进行对照阅读。
Description
技术领域
本发明属于人工智能技术领域,特别是涉及一种分级式缩略语句匹配确认方法。
背景技术
中英文缩略语在各个领域的使用越来越广泛,缩略语以其简洁、便捷的特点,有效地提高了语言交流的效率,尤其在医学领域的相关专业文献书籍中,针对同一专业术语通常存在中文、英文及其缩略语,特别是在国际交流和跨国企业中,使用缩略语可以避免语言障碍,促进信息共享和合作。在撰写学术论文时,使用中英文缩略语也可以提高论文的可读性和引用率。
在临床研究领域中,缩略语被广泛使用以简化复杂术语和短语。这些缩略语旨在研究文献、报告和交流中更高效地传递信息,节省时间和空间。然而,这些缩略语的使用并非毫无挑战。
临床研究领域涉及大量专业术语和缩略语,通常只有该领域的专家对其熟悉。因此,对于新手或不熟悉此领域的人来说,阅读和理解相关文献和报告可能变得困难。同时,同一缩略语在不同上下文或不同地区的研究机构中可能有不同的含义,这可能导致混淆和误解。为了解决这个问题,临床研究人员通常会在文章中首次出现缩略语时显示其全称,并在括号中备注其缩略形式。这样,他们在后续的陈述中可以直接使用该缩略语。因此,通常会采用表格形式列出全文中出现的所有缩略语,以专门的缩略语表的形式展现,以便读者查找。
然而,这增加了研究人员的工作量和难度。他们需要在文献中逐句查找并解释缩略语,这会打断他们的撰写过程,降低效率。如果研究人员缺乏经验或专业知识,他们可能会出现错误解释、解释不够专业或未能将所有相关缩略语提取并总结到缩略语表格中的情况,从而影响文章的质量。
目前,虽然存在大量从文本中自动识别和抽取缩略语的研究方法,如基于规则的提取方法:通过建立规则库,利用正则表达式等匹配方法从文本中提取缩略语。该方法需要人工定义规则,精度较高,但灵活性较低;基于统计的提取方法:利用词频统计、关联规则等方法,发现文本中的高频词汇组合,从中提取出可能的缩略语。该方法精度较高,但需要大量的训练数据;基于深度学习的提取方法:利用神经网络、循环神经网络等模型,对文本进行端到端的训练,直接从输入文本中提取缩略语。该方法需要大量的训练数据和计算资源,但可以获得较高的性能。
但是上述文本缩略语自动识别导出方法均需要大量的训练数据和计算资源,不适用于日常工作需求,同时,当前文本质量参差不齐,可能存在部分术语无法直接识别或者识别错误的情况,因此,需要提供一种新型的缩略语句匹配确认方法,以确保正确、专业地使用和解释缩略语,从而提高文章的质量和读者的理解,减少误差歧义。
发明内容
基于以上问题,本发明公开了一种分级式缩略语句匹配确认方法及系统。
为实现上述目的,本发明提供如下技术方案:
本发明提供了一种分级式缩略语句匹配确认方法,S1:构建缩略语数据库,所述缩略语数据库包括多项收录词条,所述收录词条至少包括中文释义、英文释义、英文缩略语;
S2:输入文本,进行元素识别,并与所述缩略语数据库中的收录词条进行匹配;确定识别的元素在所述缩略语数据库中是否能匹配到对应的收录词条;
若是,则进入步骤S2.1,若否,则进入步骤S2.2;
S2.1:确定识别的元素所匹配到的词条是否唯一,
若唯一,将该元素直接认定为目标术语;
若不唯一,将该元素认定为待定术语,将所述待定术语及所涉及的所有收录词条均导出至待定缩略语文档中,根据语境自主选择所述待定术语的初始认定词条;人工核实所述待定缩略语文档,针对所述待定术语选择其对应的正确的收录词条,并进行确认;确认完成后的所述待定术语转化为目标术语;
S2.2:将该元素认定为未收录术语,将未收录术语导出至未收录缩略语文档中,针对所述未收录术语进行查询,获取所述未收录术语所对应的未收录词条,人工核实所述未收录缩略语文档,并进行确认;将确认完成后的未收录词条补充至所述缩略语数据库中,并该未收录术语转化为目标术语;
S3:将目标术语的收录词条导出至文本缩略语文档中,记录出现频次。
优选地,所述元素为中文类元素、英文类元素及缩略语元素中的至少一种,
所述中文类元素中的首尾字符均为中文,所述缩略语元素为字母、数字、符号中一种或多种的组合。
优选地,在步骤S2.1中,若识别的元素所匹配到的词条唯一,将该元素直接认定为目标术语,并打上第一标记。
优选地,在待定缩略语文档中,所述待定术语的所有收录词条以下拉列表的方式展现。
优选地,初始认定词条的自主选择方法为:获取该待定术语所对应的N项收录词条(N≥2),并将其分别定义为第i待定词条(i=1,2,…,N),在所述文本的全文范围内搜索第i待定词条中英文释义、中文释义及中文别称中至少一项的出现频次,并进行排序,将出现频次最多的第k待定词条判定为初始认定词条,其余词条在下拉列表中的排序根据频次由多到少进行排列。
优选地,人工核实所述待定缩略语文档,若发现待定术语的初始认定词条有误,则从所述待定术语的下拉列表中选择正确的收录词条,再次确认之后,自动删除其他词条,得到该待定术语位移对应的收录词条。
优选地,步骤S2.2中,将未收录术语在文本中打上第三标记,并导出至未收录缩略语文档中。
优选地,在所述未收录缩略语文档中,所述未收录术语对应有未收录词条,所述未收录词条与所述缩略语数据库中的收录词条表现内容相同,预判该未收录术语属于所述未收录词条中的英文释义、中文释义及缩略语中的其中一种,并填充至所述未收录词条中对应的位置内。
优选地,所述未收录缩略语文档中的未收录词条后设有备注栏,针对所述未收录术语进行查询,获取所述未收录术语所对应的未收录词条,并将获取来源填充至所述备注栏中。
优选地,若存在至少两个目标术语所对应同一条收录词条,则将其认定为同一目标术语,且出现频次进行叠加计算。
优选地,在步骤S3中,所述目标术语均有其对应的唯一一个收录词条,在所述文本中,获取所述目标术语第一次出现的位置,并将其替换为“中文释义(英文释义、英文缩略语)”的表现方式。
优选地,在元素识别后,增加判断机制,所述判断机制的方法为:设所识别的元素K1包括M个字符,将该元素的前后至少i个字符与元素K 1的组合与所述缩略语数据库中的收录词条进行比对,判断是否存在收录在所述缩略语数据库中的包含所述元素K 1的元素K 2,若存在,则将所述元素K 2认定为目标术语,且所述元素K 1的出现频次减一;其中所述i的取值为大于等于1的整数。
本发明还提供一种分级式缩略语句匹配确认系统,用于实现如上述所述的一种分级式缩略语句匹配确认方法。
优选地,包括缩略语数据库、输入模块、识别模块、匹配模块、分析模块、计数模块及中央处理器。
具体的,上述模块的功能为:
缩略语数据库:储存收录词条,接受来自分析模块的未收录词条并更新;
输入模块:获取研究人员输入的操作命令以及输入的文本等;
识别模块:获取输入模块的文本,对文本进行元素识别和提取,
匹配模块:基于识别模块中识别的元素,与缩略语数据库中的收录词条进行匹配;
分析模块:接受匹配模块的匹配结果,针对待定词条选择初始认定词条,针对未收录词条进行查询,并反馈至匹配模块。
计数模块:记录目标术语的出现频次。
中央处理器:调用存储器中的指令,并执行。
与现有技术相比,本发明有以下优势:
本发明提出了一种分级式缩略语句匹配确认方法及系统,通过在文本中自动识别元素,并与预设的缩略语数据库进行匹配,帮助操作人员更准确地寻找文本中的专业术语,提高文本中专业术语的准确性和一致性,缩略语数据库可以帮助研究人员更好地理解和使用缩略语,提高行业规范和标准化程度。同时缩略语数据库具有实时更新性,通过在识别匹配中针对识别到的未收录术语,进行查询确认,主动对缩略语数据库进行补充,提升缩略语数据库中数据的全面性。
本发明提出了一种分级式缩略语句匹配确认方法及系统,针对上传的文本可以自动识别其中的专业术语元素,且基于元素与缩略语数据库中的词条匹配结果进行多级识别,基于其是否匹配及匹配的数量将其划分为三种不同的情形,并分别进行匹配,能够精准地对文本中的专业术语进行缩略语匹配和替换,通过机器选择和人工选择双重确定方式,进一步提升文本缩略语文档的准确性和完整性,减少人工进行选定修改的情况出现,进一步减少研究人员撰写和检查文献过程中的工作量,提升文献的撰写效率。
本发明提出了一种分级式缩略语句匹配确认方法及系统,可以自动将文本的文本缩略语文档导出为独立的文档,供研究人员进行查询和比对,能够直观的了解到文本中出现的缩略语及其释义,方便使用文本缩略语文档与文本信息进行对照阅读,降低了研究人员撰写文献过程中的检查难度,提升了文献的撰写效率。
附图说明
附图1是本发明一种分级式缩略语句匹配确认方法的流程示意图;
附图2是本发明一种分级式缩略语句匹配确认方法最终导出的中文版文本缩略语文档部分示意图;
附图3是本发明一种分级式缩略语句匹配确认方法最终导出的英文版文本缩略语文档部分示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明提供了一种分级式缩略语句匹配确认方法,如图1所示,具体步骤包括:
首先,构建缩略语数据库。所述缩略语数据库中至少包括中文释义、英文释义、英文缩略语;若存在中文别称的话,缩略语数据库中也可包括中文别称,其中中文别称实际上是本领域技术人员在日常生活使用中,针对该专业术语的通俗用语,由于在技术人员的文档中,存在部分文档中混入中文别称,而未使用专业术语,此类文档在分类及阅读过程中容易造成歧义,因此需要将此类用语纠正为中文释义。
在本实施例中,缩略语句为临床医药领域内的缩略语句,具体的,该缩略语数据库可以如下表所示:
表一、缩略语数据库部分展示
缩略语 | 英文释义 | 中文释义 | 中文别称 |
ADA | Anti-drug antibody | 抗药抗体 | / |
ADCC | Antibody-dependent cell-mediated cytotoxicity | 抗体依赖性细胞介导的细胞毒性 | / |
ADCP | Antibody-dependent cell-mediated phagocytosis | 抗体依赖性细胞吞噬作用 | 抗体依赖性细胞介导的吞噬作用 |
AST | Aspartate aminotransterase | 天门冬氨酸氨基转移酶 | 谷草转氨酶 |
…… | …… | …… | …… |
该缩略语数据库为云端数据库,并实时进行更新,在初始状态下,该缩略语数据库为提前预设的数据库,其中包含了大量专业术语的中文官方释义、英文官方释义、英文官方缩略语及中文别称,但是在后续文献文本的匹配中,会出现缩略语数据库中未收录的专业术语,此时将进行联网匹配及补充。
缩略语数据库中所收录的专业术语优选为名词,其中针对具体的一个专业术语,其所对应的“缩略语-英文释义-中文释义”为该专业术语所对应的一个收录词条,若存在中文别称的话,则也可将所对应的“缩略语-英文释义-中文释义-中文别称”为该专业术语所对应的一个收录词条。
然后,输入文本,从所述文本中进行元素识别,获取目标术语,并与所述缩略语数据库中的收录词条进行匹配,并将该目标术语所对应的收录词条导出至文本缩略语文档中。
可以理解的,该目标术语可以为中文释义、英文释义、英文缩略语及中文别称中任意一种。
该元素识别的约束规则为:
元素可以为中文类元素、英文类元素及缩略语元素中的至少一种,其中中文类元素为该元素的首尾字符均为中文,缩略语元素可以是字母、数字、符号中一种或多种的组合;例如,基线C-反应蛋白属于中文类元素,%Baso为缩略语元素,其中文释义和英文释义分别为嗜碱性粒细胞百分比和Basophils in percentage,Rac_AUC0-τ为缩略语元素,其中文释义和英文释义分别为AUC0-τ蓄积比和Observed accumulation ratio based on AUC0-τ。
针对中文类元素,选取为名词且属于特定的技术领域,在本实施例中,该元素为医药学和统计学相关技术领域;具体包括药理学、临床药理学、临床医学、免疫学、统计学、流行病学等多种技术领域,除此之外,本发明中提供的技术方案也可应用于其他技术领域中。
针对英文类元素及缩略语元素,则均进行识别选取。
可以理解的,根据识别结果,存在以下几种情况:
情景一:自所述文本中,所识别的元素在缩略语数据库中可匹配到对应的收录词条,且该元素有且仅有一条对应的收录词条;
情景二:自所述文本中,所识别的元素在缩略语数据库中可匹配到对应的收录词条,但该元素至少有两条对应的收录词条;
情景三:自所述文本中,所识别的元素在缩略语数据库中无法匹配到对应的收录词条。
针对情景一,自所述文本中,所识别的元素在缩略语数据库中可匹配到对应的收录词条,将该元素认定为目标术语,且在所述文本中打上第一标记,若目标术语在词条中为中文别称,则在打上第一标记的同时,将其替换为对应的中文释义;将所述目标术语的收录词条导出至文本缩略语文档中,并记录该目标术语的出现频次。文本缩略语文档的表现形式与缩略语数据库中相同。
目标术语第一次出现在文本中的位置处,无论该目标术语是中文释义、英文释义、英文缩略语中的哪一种表现形式,均进行替换,若所述文本为中文文本,则替换为“中文释义(英文释义、英文缩略语)”的表现方式,若所述文本问英文文本,则替换为“英文释义(英文缩略语)”的表现方式,在后续文本出现的位置则不做更改。
可以理解是的,若存在至少两个目标术语所对应同一条收录词条,则将其认定为同一目标术语,且进行出现频次的叠加;例如,在同一文本中的不同位置出现了一次BCRP和一次乳腺癌耐药蛋白,实际上BCRP及乳腺癌耐药蛋白为同一专业术语,则将BCRP和乳腺癌耐药蛋白认定为同一目标术语导出,且出现频次为两次。
另一种情况下,存在字符重叠的元素,尤其是所识别的元素为中文元素和缩略语元素时,即认定的目标术语包含在另一目标术语中,例如多药耐药相关蛋白(MRP)与多药耐药(MDR),其中在专业术语多药耐药相关蛋白(MRP)中包含有专业术语多药耐药(MDR),因此,在识别过程中容易出现误识别过程。
基于上述情况,在元素识别后,增加判断机制,所述判断机制的方法为:设所识别的元素K 1包括M个字符,将该元素的前后至少i个字符与元素K 1的组合与所述缩略语数据库中的收录词条进行比对,判断是否存在收录在所述缩略语数据库中的包含所述元素K 1的元素K 2,若存在,则将所述元素K 2认定为目标术语,且在所述元素K 1的频次记录中减一;其中所述i的取值可以自行定义。
针对情景二,常见于所识别的元素为缩略语元素,例如:CT可以指代(ComputedTomography)计算机断层扫描,也可以指代(Chemotherapy)化学疗法;ECG通常指代(Electrocardiogram)心电图,但在神经学领域中,ECG也可以指代(Electroencephalogram)脑电图;CDC可以指(Centers for Disease Control andPrevention)疾病控制与预防中心,也可以指(Central Drugs Committee)中央药物委员会等。因此,同一元素可能在缩略语数据库中可匹配到对应的收录词条至少有两条。
当所识别的元素在缩略语数据库中可匹配到对应的收录词条,但该元素至少有两条对应的收录词条时,将该元素在文本中打上第二标记,所述第二标记与情景一的第一标记的标记方式不同;并将该元素认定为待定术语,将该待定术语及所涉及的收录词条均预先导出至待定缩略语文档中,在待定缩略语文档中的表示形式为在同一栏中,该待定术语所对应的英文释义、中文释义及中文别称均以下拉列表的方式展现。
算法将根据该待定术语的语境自主选择初始认定词条,具体方法为:获取该待定术语所对应的多项收录词条,并将其定义为第i待定词条(i=1,2,…,N),一般来说,收录词条中的英文释义、中文释义及中文别称均可确定且不会存在疑义,因此在文本的全文范围内搜索第i待定词条中英文释义、中文释义及中文别称中至少一项的出现频次,并进行排序,将出现频次最多的第k待定词条判定为初始认定词条,其余词条在下拉列表中的排序根据频次由多到少进行排列。
研究人员在进行待定缩略语文档的人工核实时,待定术语展现的为初始认定词条。但研究人员经核实发现该初始认定词条有误,则可从可选框中选择正确的收录词条,所述可选框可以为下拉列表,或者单独弹出的弹窗等多种不同的展现方式,可选框中的收录词条的排序根据系统中记录的频次由多到少进行排列,研究人员再次确认之后,自动删除其他词条,将该待定术语转化为目标术语,并将其导入文本缩略语文档中。
针对情景三,自所述文本中,所识别的元素在缩略语数据库中无法匹配到对应的收录词条,将该元素在文本中打上第三标记,所述第三标记与情景一的第一标记级情景二中的第二标记的标记方式均不相同,并将该元素认定为未收录术语,导出至未收录缩略语文档中。未收录缩略语文档中的表现形式与缩略语数据库中相同,除此之外,还增加备注栏,用于增添备注信息。该未收录术语在未收录缩略语文档中对应有未收录词条,具体包括内容与缩略语数据库中的收录词条表现内容相同,算法将自动预判该未收录术语属于未收录词条中的英文释义、中文释义及缩略语中的其中一种,并填充至未收录词条中对应的位置内,其余位置暂时为空白,未填充内容。
具体的,未收录缩略语文档可以如下表所示:
表二、未收录缩略语文档部分展示
缩略语 | 英文释义 | 中文释义 | 中文别称 | 备注 |
CDC | *** | *** | *** | *** |
*** | *** | 计算机断层扫描 | *** | *** |
由于该未收录术语在数据库中未找到匹配的收录词条,因此将进行查询,查询的来源至少包括互联网百科信息和行业网站、相关领域学术书籍、论文、临床记录等电子文档。对查询结果进行解析和抽取,获取该未收录术语对应的未收录词条,并在备注栏中填充词条来源,再经研究人员核实确认,若发现有误,则研究人员可自行进行修改,并再次确认之后,将该未收录词条导入文本缩略语文档中,并将该未收录词条补充更新至缩略语数据库中,完成缩略语库的完善。
同时,存在该识别的未收录术语实际上识别错误,并不属于专业术语范畴,这类未收录术语将经过研究人员核实确认后进行删除。
经过上述三种情境下的识别和匹配,且通过研究人员的完全确认之后,最终基于文本导出完整的文本缩略语文档,如图2所示,其中所涉及的所有目标术语、待定术语及未收录术语,经过确认之后,均有其对应的唯一一个收录词条,则上述术语第一次出现在文本中的位置处,无论该目标术语是中文释义、英文释义、英文缩略语及中文别称中的哪一种表现形式,均进行替换,若所述文本为中文文本,则替换为“中文释义(英文释义、英文缩略语)”的表现方式,若所述文本为英文文本,则替换为“英文释义(英文缩略语)”的表现方式,在后续文本出现的位置则不做更改。例如,输入中文文本,原先的文本信息中在缩略语BCRP首次出现时,只有缩略语BCRP,则通过算法识别匹配后,自动进行形式的补充及修改,表现为:乳腺癌耐药蛋白(Breast cancer resistance protein、BCRP),则后续文本中该术语的出现形式无论是乳腺癌耐药蛋白还是BCRP均不会进行修改。若输入的是纯英文文本,则原先的文本信息中在缩略语BCRP首次出现时,只有缩略语BCRP,则通过算法识别匹配后,自动进行形式的补充及修改,表现为:Breast cancer resistance protein(BCRP),则后续文本中该术语的出现形式无论是Breast cancer resistance protein还是BCRP均不会进行修改。
可以理解的是,其中所述的第一标记、第二标记和第三标记可以是更改文本信息中文字的颜色,也可以是在文本信息中,在缩略语和解释处进行颜色的填充,又或是在插入的内容处进行批注等,只要能够让研究人员在文本信息中快速直接地了解到对原先的文本信息进行的更改即可,对标记的形式不做具体限定。
本发明的另一个实施例中,如果输入的是纯英文文本,其导出文本缩略语文档的方式与上述中文文本的方式相似,但最终输出的文本缩略语文档中仅包含两列,如附图3所示,其中包括缩略语和英文释义两列。
本发明还公开一种分级式缩略语句匹配确认系统,包括缩略语数据库、输入模块、识别模块、匹配模块、分析模块、计数模块及中央处理器。
具体的,上述模块的功能为:
缩略语数据库:储存收录词条,接受来自分析模块的未收录词条并更新;
输入模块:获取研究人员输入的操作命令以及输入的文本等;
识别模块:获取输入模块的文本,对文本进行元素识别和提取,
匹配模块:基于识别模块中识别的元素,与缩略语数据库中的收录词条进行匹配;
分析模块:接受匹配模块的匹配结果,针对待定词条选择初始认定词条,针对未收录词条进行查询,并反馈至匹配模块。
计数模块:记录目标术语的出现频次。
处理器:调用存储器中的指令,并执行。
以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
Claims (10)
1.一种分级式缩略语句匹配确认方法,其特征在于:
S1:构建缩略语数据库,所述缩略语数据库包括多项收录词条,所述收录词条至少包括中文释义、英文释义及英文缩略语;
S2:输入文本,进行元素识别,并与所述缩略语数据库中的收录词条进行匹配;确定识别的元素在所述缩略语数据库中是否能匹配到对应的收录词条;
若是,则进入步骤S2.1,若否,则进入步骤S2.2;
S2.1:确定识别的元素所匹配到的词条是否唯一,
若唯一,将该元素直接认定为目标术语;
若不唯一,将该元素认定为待定术语,将所述待定术语及所涉及的所有收录词条均导出至待定缩略语文档中,根据语境自主选择所述待定术语的初始认定词条;人工核实所述待定缩略语文档,针对所述待定术语选择其对应的正确的收录词条,并进行确认;确认完成后的所述待定术语转化为目标术语;
S2.2:将该元素认定为未收录术语,将未收录术语导出至未收录缩略语文档中,针对所述未收录术语进行查询,获取所述未收录术语所对应的未收录词条,人工核实所述未收录缩略语文档,并进行确认;将确认完成后的未收录词条补充至所述缩略语数据库中,并将该未收录术语转化为目标术语;
S3:将目标术语的收录词条导出至文本缩略语文档中,记录出现频次。
2.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:所述元素为中文类元素、英文类元素及缩略语元素中的至少一种,
所述中文类元素中的首尾字符均为中文,所述缩略语元素为字母、数字、符号中一种或多种的组合。
3.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:在步骤S2.1中,若识别的元素所匹配到的词条唯一,将该元素直接认定为目标术语,并打上第一标记;若识别的元素在缩略语数据库中匹配到至少两条对应的收录词条,将该元素认定为待定术语并在文本中打上第二标记;
步骤S2.2中,将未收录术语在文本中打上第三标记,并导出至未收录缩略语文档中。
4.根据权利要求3中所述的一种分级式缩略语句匹配确认方法,其特征在于:初始认定词条的自主选择方法为:获取该待定术语所对应的N项收录词条(N≥2),并将其分别定义为第i待定词条(i=1,2,…,N),在所述文本的全文范围内搜索第i待定词条中英文释义、中文释义及中文别称中至少一项的出现频次,并进行排序,将出现频次最多的第k待定词条判定为初始认定词条,其余词条在下拉列表中的排序根据频次由多到少进行排列。
5.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:人工核实所述待定缩略语文档,若发现待定术语的初始认定词条有误,则从所述待定术语的下拉列表中选择正确的收录词条,再次确认之后,自动删除其他词条,得到该待定术语唯一对应的收录词条。
6.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:在所述未收录缩略语文档中,所述未收录术语对应有未收录词条,所述未收录词条与所述缩略语数据库中的收录词条表现内容相同,预判该未收录术语属于所述未收录词条中的英文释义、中文释义及缩略语中的其中一种,并填充至所述未收录词条中对应的位置内。
7.根据权利要求6中所述的一种分级式缩略语句匹配确认方法,其特征在于:所述未收录缩略语文档中的未收录词条后设有备注栏,针对所述未收录术语进行查询,获取所述未收录术语所对应的未收录词条,并将获取来源填充至所述备注栏中。
8.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:在步骤S3中,所述目标术语均有其对应的唯一一个收录词条,在所述文本中,获取所述目标术语第一次出现的位置,并进行替换,若所述文本为中文文本,则替换为“中文释义(英文释义、英文缩略语)”的表现方式,若所述文本问英文文本,则替换为“英文释义(英文缩略语)”的表现方式。
9.根据权利要求1中所述的一种分级式缩略语句匹配确认方法,其特征在于:在元素识别后,增加判断机制,所述判断机制的方法为:设所识别的元素K 1包括M个字符,将该元素的前后至少i个字符与元素K 1的组合与所述缩略语数据库中的收录词条进行比对,判断是否存在收录在所述缩略语数据库中的包含所述元素K 1的元素K 2,若存在,则将所述元素K 2认定为目标术语,且所述元素K 1的出现频次减一;其中所述i的取值为大于等于1的整数。
10.一种分级式缩略语句匹配确认系统,其特征在于:用于实现如权利要求1-9中所述的一种分级式缩略语句匹配确认方法,包括缩略语数据库、输入模块、识别模块、匹配模块、分析模块、计数模块及中央处理器;
具体的,上述模块的功能为:
缩略语数据库:储存收录词条,接受来自分析模块的未收录词条并更新;
输入模块:获取研究人员输入的操作命令以及输入的文本等;
识别模块:获取输入模块的文本,对文本进行元素识别和提取;
匹配模块:基于识别模块中识别的元素,与缩略语数据库中的收录词条进行匹配;
分析模块:接受匹配模块的匹配结果,针对待定词条选择初始认定词条,针对未收录词条进行查询,并反馈至匹配模块;
计数模块:记录目标术语的出现频次;
中央处理器:调用存储器中的指令,并执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040773.6A CN117555995B (zh) | 2024-01-11 | 2024-01-11 | 一种分级式缩略语句匹配确认方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040773.6A CN117555995B (zh) | 2024-01-11 | 2024-01-11 | 一种分级式缩略语句匹配确认方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117555995A true CN117555995A (zh) | 2024-02-13 |
CN117555995B CN117555995B (zh) | 2024-04-12 |
Family
ID=89823655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410040773.6A Active CN117555995B (zh) | 2024-01-11 | 2024-01-11 | 一种分级式缩略语句匹配确认方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117555995B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1983271A (zh) * | 2005-12-16 | 2007-06-20 | 国际商业机器公司 | 用于定义和翻译聊天缩略语的系统和方法 |
CN101093478A (zh) * | 2007-07-25 | 2007-12-26 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
CN101650605A (zh) * | 2009-09-25 | 2010-02-17 | 中国电信股份有限公司 | 一种智能汉字输入方法和系统 |
CN103530840A (zh) * | 2013-10-10 | 2014-01-22 | 中国中医科学院 | 一种准确快速的电子病历录入系统 |
JP2016009415A (ja) * | 2014-06-26 | 2016-01-18 | 日本電気株式会社 | 用語集作成支援システムおよび方法、プログラム |
CN109614493A (zh) * | 2018-12-29 | 2019-04-12 | 重庆邂智科技有限公司 | 一种基于监督词向量的文本缩写识别方法及系统 |
WO2019094895A1 (en) * | 2017-11-13 | 2019-05-16 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US20210304749A1 (en) * | 2020-03-28 | 2021-09-30 | Tata Consultancy Services Limited | Method and system for extraction of key-terms and synonyms for the key-terms |
CN113704406A (zh) * | 2021-08-30 | 2021-11-26 | 临沂职业学院 | 一种流行缩略语的中文释义匹配系统与方法 |
CN114925698A (zh) * | 2022-04-07 | 2022-08-19 | 中国人民解放军国防科技大学 | 缩略语消歧方法、装置、计算机设备和存储介质 |
-
2024
- 2024-01-11 CN CN202410040773.6A patent/CN117555995B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1983271A (zh) * | 2005-12-16 | 2007-06-20 | 国际商业机器公司 | 用于定义和翻译聊天缩略语的系统和方法 |
CN101093478A (zh) * | 2007-07-25 | 2007-12-26 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
CN101650605A (zh) * | 2009-09-25 | 2010-02-17 | 中国电信股份有限公司 | 一种智能汉字输入方法和系统 |
CN103530840A (zh) * | 2013-10-10 | 2014-01-22 | 中国中医科学院 | 一种准确快速的电子病历录入系统 |
JP2016009415A (ja) * | 2014-06-26 | 2016-01-18 | 日本電気株式会社 | 用語集作成支援システムおよび方法、プログラム |
WO2019094895A1 (en) * | 2017-11-13 | 2019-05-16 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN109614493A (zh) * | 2018-12-29 | 2019-04-12 | 重庆邂智科技有限公司 | 一种基于监督词向量的文本缩写识别方法及系统 |
US20210304749A1 (en) * | 2020-03-28 | 2021-09-30 | Tata Consultancy Services Limited | Method and system for extraction of key-terms and synonyms for the key-terms |
CN113704406A (zh) * | 2021-08-30 | 2021-11-26 | 临沂职业学院 | 一种流行缩略语的中文释义匹配系统与方法 |
CN114925698A (zh) * | 2022-04-07 | 2022-08-19 | 中国人民解放军国防科技大学 | 缩略语消歧方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
王敬东;张智雄;: "基于逆序扫描和共现分析的缩略语快速提取算法", 计算机应用研究, no. 03, 21 March 2017 (2017-03-21) * |
Also Published As
Publication number | Publication date |
---|---|
CN117555995B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145260B (zh) | 一种文本信息自动提取方法 | |
US20240028651A1 (en) | System and method for processing documents | |
CN103678684B (zh) | 一种基于导航信息检索的中文分词方法 | |
US10460162B2 (en) | Method, device, and system, for identifying data elements in data structures | |
US8239750B2 (en) | Extracting semantics from data | |
EP0844583A2 (en) | Method and apparatus for character recognition | |
US20100246999A1 (en) | Method and Apparatus for Editing Large Quantities of Data Extracted from Documents | |
US10042880B1 (en) | Automated identification of start-of-reading location for ebooks | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
CN110688863B (zh) | 一种文档翻译系统及文档翻译方法 | |
CN103440232A (zh) | 一种科技论文标准化自动检测编辑方法 | |
US20200380067A1 (en) | Classifying content of an electronic file | |
Pletschacher et al. | Europeana newspapers OCR workflow evaluation | |
CN117094311B (zh) | 一种关于中文语法纠错的误纠过滤器的建立方法 | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN113626418A (zh) | 数据分析系统和数据分析方法 | |
CN111191429A (zh) | 数据表格自动填充的系统和方法 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN110399493B (zh) | 一种基于增量学习的作者消歧方法 | |
CN113705226A (zh) | 医学文本实体标注方法和装置 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN112131341A (zh) | 文本相似度计算方法、装置、电子设备和存储介质 | |
CN114494679A (zh) | 一种双层pdf生成及校对方法和装置 | |
CN117555995B (zh) | 一种分级式缩略语句匹配确认方法及系统 | |
CN114970554B (zh) | 一种基于自然语言处理的文档校验方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |