CN112836047B - 一种基于句子语义替换的电子病历文本数据增强方法 - Google Patents
一种基于句子语义替换的电子病历文本数据增强方法 Download PDFInfo
- Publication number
- CN112836047B CN112836047B CN202110099780.XA CN202110099780A CN112836047B CN 112836047 B CN112836047 B CN 112836047B CN 202110099780 A CN202110099780 A CN 202110099780A CN 112836047 B CN112836047 B CN 112836047B
- Authority
- CN
- China
- Prior art keywords
- sentence
- sample
- text
- original
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及自然语言处理技术领域,公开了一种基于句子语义替换的电子病历文本数据增强方法,将数据集中的一个样本文本作为原始文本,将原始文本拆分成多个句子,将句子整句替换成与原句语义相同或相似的句子,增加样本的数量,实现数据增强,增加生成的文本与原始文本的差异性,防止模型过拟合。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于句子语义替换的电子病历文本数据增强方法。
背景技术
文本分类是自然语言处理中的一项基本任务。机器学习和深度学习在这项任务中获得了很高的准确率。然而,文本分类的高准确率往往取决于训练数据的大小和质量,这在真实的任务中往往是难以满足的,特别是在基于电子病历文本的疾病辅助诊断任务中,我们难以收集到足够的高质量数据。数据增强被广泛应用在深度学习中,使用这项技术可以增加训练数据的个数。Jason W.Wei和Kai Zou在文章《EDA:Easy Data AugmentationTechniques for Boosting Performance on Text Classification Tasks》提出了一种EDA方法,这种方法包含四种操作,分别是同义词替换,随机插入,随机交换和随机删除,能够有效的提高模型的准确率。然而,EDA的四种操作的对象都是词,这样生成的文本与原来的文本差异度较小,容易导致模型过拟合。
中国发明专利申请CN108460015A(公开日为2018年08月28日)公开了一种文本情感分类数据增强分析方法,包括:获取待处理的原始句子文本;对所述原始句子文本进行处理,得到与所述原始句子文本语义相同的处理语句文本;应用所述原始句子文本及所述处理语句文本进行情感分析。该专利是通过替换文本中的词语来实现数据增强的,使生成的文本与原始文本的差异度较小,容易导致模型过拟合。
发明内容
本发明的目的是提供一种能够增加与原文本的差异性且不改变文本的含义的基于句子语义替换的电子病历文本数据增强方法。
为了实现上述目的,本发明提供了一种基于句子语义替换的电子病历文本数据增强方法,包括:
S1、获取待处理的原始文本;
S2、将所述原始文本拆分为多个原始句子,根据逗号、分号或句号将所述原始文本进行分句;
S3、将所述原始句子替换成语义相同或相似的样本句子;包括:。
S3.1、构建句子语料库;将已获得的数据集中的各样本文本进行分类,将样本文本拆分成多个样本句子,属于同一类别的样本文本中的各个样本句子构成该类别的句子语料库;根据疾病类型将各所述样本文本进行分类;
S3.2、根据所述原始句子与所述句子语料库中的每个样本句子的相似度,从句子语料库中采样一个样本句子来替换所述原始句子;在所述原始文本所属类别的句子语料库中进行采样;将原始文本定义为xi,xi是一段文本,由多个句子sj组成,即yj∈{1,...C},yj为文本xi所属的类别,C代表某一具体的类别;将句子语料库定为KC,KC由类别为C的多个样本文本的所有样本句子组成,即yj=C,q为样本文本的个数,C为样本文本所属的类别;
作为优选方案,对相似度向量P进行归一化处理,得到一个概率分布,根据所述概率分布从所述句子语料库中进行采样替换。
作为优选方案,所述预训练语言模型为BERT模型或XLM模型。
作为优选方案,在S3.2中,还包括:
S3.2.1、生成一个随机数r,r为0-1中的任意一个数,若随机数r小于预设的p值,则根据相似度替换该原始句子,否则不进行替换。
作为优选方案,获取一份疾病分类数据集,所述原始文本为所述疾病分类数据集中的一个样本文本,将所述疾病分类数据集根据疾病类型将各样本文本进行分类,对于样本文本数量较少的疾病类型中的各样本文本进行句子替换。
与现有技术相比,本发明的有益效果在于:
本发明通过将原始文本的原始句子整句替换成样本句子,可保证句子的含义与原始句子的含义相差不大,能够增加文本的数量,实现数据增强,增加生成的文本与原始文本的差异性且不改变文本的含义。
附图说明
图1是本发明实施例的文本数据增强方法的流程框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明优选实施例的一种基于句子语义替换的电子病历文本数据增强方法,包括:
S1、获取待处理的原始文本:本实施例从获取的一份疾病分类数据集中,将所述疾病分类数据集根据疾病类型将各样本文本进行分类,从样本文本数量较少的疾病类型中的各样本文本中,选取一份样本文本作为原始文本进行数据增强。
S2、将所述原始文本拆分为多个原始句子:根据逗号、分号或句号将所述原始文本进行分句。
S3、将所述原始句子替换成语义相同或相似的样本句子:
S3.1、构建句子语料库:将已获得的数据集中的各样本文本进行分类,将样本文本拆分成多个样本句子,属于同一类别的样本文本中的各个样本句子构成该类别的句子语料库;本实施例根据疾病类型将各所述样本文本进行分类,使样本数量足够的疾病类型可不受影响。
S3.3、根据所述原始句子与所述句子语料库中的每个样本句子的相似度,从在所述原始文本所属类别的句子语料库中采样一个样本句子来替换所述原始句子:
S3.2.1、生成一个随机数r,r为0-1中的任意一个数,若随机数r小于预设的p值,则进行S3.2.2,根据相似度替换该原始句子;否则不进行替换并再生成一个随机数来判断是否替换下一个原始句子,直到遍历完原始文本中的所有句子。本实施例的预设的p值为0.8,表示一个原始句子有80%的可能性被替换。生成随机数可提高数据增强后的样本数量。
S3.2.2、将原始文本定义为xi,xi是一段文本,由多个句子sj组成,即yj为文本xi所属的类别,C代表某一具体的类别;将句子语料库定为KC,KC由类别为C的多个样本文本的所有样本句子组成,即yj=C,q为样本文本的个数,C为样本文本所属的类别;
S3.2.3、对相似度向量P进行归一化处理,得到一个概率分布,根据所述概率分布从所述句子语料库中进行采样替换。将相似度向量P做归一化后,看作是一个概率分布,然后根据这个概率分布进行句子采样,如:句子语料库中有三个样本句子a、b、c,样本句子a对应的概率值为0.1,样本句子b对应的概率值为0.4,样本句子c对应的概率值为0.5,那么替换原始句子时基就有10%的可能选样本句子a、40%的可能选择样本句子b、50%的可能选择样本句子c。
综上,本发明实施例提供一种基于句子语义替换的电子病历文本数据增强方法,其通过以数据集中的某个样本文本为原始文本,将原始文本拆分为各个原始句子,在以数据集为基础构建的句子语料库中选择一个样本句子替换原始句子,实现数据增强。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (5)
1.一种基于句子语义替换的电子病历文本数据增强方法,其特征在于,包括:
S1、获取待处理的原始文本;
S2、将所述原始文本拆分为多个原始句子,根据逗号、分号或句号将所述原始文本进行分句;
S3、将所述原始句子替换成语义相同或相似的样本句子,包括:
S3.1、构建句子语料库;将已获得的数据集中的各样本文本进行分类,将样本文本拆分成多个样本句子,属于同一类别的样本文本中的各个样本句子构成该类别的句子语料库;根据疾病类型将各所述样本文本进行分类;
S3.2、根据所述原始句子与所述句子语料库中的每个样本句子的相似度,从句子语料库中采样一个样本句子来替换所述原始句子;在所述原始文本所属类别的句子语料库中进行采样;将原始文本定义为xi,xi是一段文本,由多个句子sj组成,即yj∈{1,...C},yj为文本xi所属的类别,C代表某一具体的类别;将句子语料库定为KC,KC由类别为C的多个样本文本的所有样本句子组成,即yj=C,q为样本文本的个数,C为样本文本所属的类别;
2.根据权利要求1所述的基于句子语义替换的电子病历文本数据增强方法,其特征在于,对相似度向量P进行归一化处理,得到一个概率分布,根据所述概率分布从所述句子语料库中进行采样替换。
3.根据权利要求1所述的基于句子语义替换的电子病历文本数据增强方法,其特征在于,所述预训练语言模型为BERT模型或XLM模型。
4.根据权利要求1所述的基于句子语义替换的电子病历文本数据增强方法,其特征在于,在S3.2中,还包括:
S3.2.1、生成一个随机数r,r为0-1中的任意一个数,若随机数r小于预设的p值,则根据相似度替换该原始句子,否则不进行替换。
5.根据权利要求1所述的基于句子语义替换的电子病历文本数据增强方法,其特征在于,获取一份疾病分类数据集,所述原始文本为所述疾病分类数据集中的一个样本文本,将所述疾病分类数据集根据疾病类型将各样本文本进行分类,对于样本文本数量较少的疾病类型中的各样本文本进行句子替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110099780.XA CN112836047B (zh) | 2021-01-25 | 2021-01-25 | 一种基于句子语义替换的电子病历文本数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110099780.XA CN112836047B (zh) | 2021-01-25 | 2021-01-25 | 一种基于句子语义替换的电子病历文本数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836047A CN112836047A (zh) | 2021-05-25 |
CN112836047B true CN112836047B (zh) | 2022-05-27 |
Family
ID=75931495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110099780.XA Active CN112836047B (zh) | 2021-01-25 | 2021-01-25 | 一种基于句子语义替换的电子病历文本数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836047B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
-
2021
- 2021-01-25 CN CN202110099780.XA patent/CN112836047B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
Non-Patent Citations (1)
Title |
---|
Eda:easy data augmentation techniques for boosting performance on text classification tasks;Wei JW et al.;《Conference on empirical methods in natural language processing(EMNLP)》;20191231;6381-6387 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836047A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN108681532B (zh) | 一种面向中文微博的情感分析方法 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN114782965A (zh) | 基于布局关联性的视觉富文档信息抽取方法、系统及介质 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
CN113297851A (zh) | 一种针对易混淆运动损伤实体词的识别方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN116975738A (zh) | 一种面向问句意图识别的多项式朴素贝叶斯分类方法 | |
CN112836047B (zh) | 一种基于句子语义替换的电子病历文本数据增强方法 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN108763487A (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |