CN113111660A

CN113111660A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN113111660A
Application number: CN202110436346.6A
Authority: CN
Inventors: 彭恩伟; 唐国新; 范文历
Original assignee: Maijing Hangzhou Health Management Co ltd
Current assignee: Maijing Hangzhou Health Management Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-13

Abstract

本申请提供一种数据处理方法、装置、设备和存储介质，该方法包括：获取待处理的原始中医数据；基于的表达数据库，对所述原始中医数据进行纠错处理；对纠错后的中医数据进行知识抽取处理，得到中医知识数据；对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据。本申请通过对原始中医数据进行纠错、关系知识抽取处理，然后对中医知识数据进行标准化处理，实现中医数据的自动结构化。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种数据处理方法、装置、设备和存储介质。

背景技术

中医数据是记录患者进行诊疗过程以及反映中医诊疗思想的电子文档，这些数据对于中医临床和科研都有巨大的价值，这种文档有一定的结构形式，但这些电子文档往往都是记录者以自然语言的形式进行记录的，而且里面还包含了一些无效信息，要应用这些宝贵的数据到中医临床和科研中，必须要将其标准化。

研究人员在中医药名词术语规范化做了大量研究，主要通过人工方式建设中医药同义词的方式进行术语规范化，这样做能解决部分术语规范化问题，但是很难做到全面，而且耗费的人力、财力也较大。

因此，针对目前解决方案中存在的上述缺陷，实有必要进行研究，以提供一种新方案，解决现有方案中存在的缺陷，实现对中医文本数据进行自动标准化。

发明内容

本申请实施例的目的在于提供一种数据处理方法、装置、设备和存储介质，通过对原始中医数据进行纠错、关系知识抽取处理，然后对中医知识数据进行标准化处理，实现中医数据的自动结构化。

本申请实施例第一方面提供了一种数据处理方法，包括：获取待处理的原始中医数据；基于的表达数据库，对所述原始中医数据进行纠错处理；对纠错后的中医数据进行知识抽取处理，得到中医知识数据；对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据。

于一实施例中，所述基于预设的表达数据库，对所述原始中医数据进行纠错处理，包括：获取所述原始中医数据中的错误表达数据；从所述表达数据库中，选取出与所述错误表达数据之间的编辑距离最小的正确表达数据；在所述原始中医数据中的将所述错误表达数据替换为所述正确表达数据。

于一实施例中，所述对纠错后的中医数据进行知识抽取处理，得到中医知识数据，包括：将所述纠错后的中医数据输入预设抽取模型，输出所述中医知识数据，所述中医知识数据包括实体信息、关系信息和属性信息中的一种或多种。

于一实施例中，建立所述预设抽取模型的步骤，包括：基于对所述原始中医数据的目标抽取特征，获取标注语料，所述目标抽取特征包括：症状信息和/或疾病信息；以所述标注语料作为训练样本对预设的机器学习模型进行训练，得到所述预设抽取模型。

于一实施例中，所述对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据，包括：判断所述中医知识数据是否为标准词库中的标准词；若所述中医知识数据不是所述标准词库中的标准词，则计算所述中医知识数据与所述标准词库中每个标准词之间的相似度；从所述标准词库中选取出与所述中医知识数据之间的相似度最大的目标标准词；输出所述目标标准词为标准化后的中医术语数据。

于一实施例中，所述对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据，还包括：若所述中医知识数据是所述标准词库中的标准词，输出所述中医知识数据为标准化后的所述中医术语数据。

本申请实施例第二方面提供了一种数据处理装置，包括：获取模块，用于获取待处理的原始中医数据；纠错模块，用于基于的表达数据库，对所述原始中医数据进行纠错处理；抽取模块，用于对纠错后的中医数据进行知识抽取处理，得到中医知识数据；处理模块，用于对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据。

于一实施例中，所述纠错模块用于：获取所述原始中医数据中的错误表达数据；从所述表达数据库中，选取出与所述错误表达数据之间的编辑距离最小的正确表达数据；在所述原始中医数据中的将所述错误表达数据替换为所述正确表达数据。

于一实施例中，所述抽取模块用于：将所述纠错后的中医数据输入预设抽取模型，输出所述中医知识数据，所述中医知识数据包括实体信息、关系信息和属性信息中的一种或多种。

于一实施例中，还包括：建立模块，用于：基于对所述原始中医数据的目标抽取特征，获取标注语料，所述目标抽取特征包括：症状信息和/或疾病信息；以所述标注语料作为训练样本对预设的机器学习模型进行训练，得到所述预设抽取模型。

于一实施例中，所述处理模块用于：判断所述中医知识数据是否为标准词库中的标准词；若所述中医知识数据不是所述标准词库中的标准词，则计算所述中医知识数据与所述标准词库中每个标准词之间的相似度；从所述标准词库中选取出与所述中医知识数据之间的相似度最大的目标标准词；输出所述目标标准词为标准化后的中医术语数据。

于一实施例中，所述处理模块还用于：若所述中医知识数据是所述标准词库中的标准词，输出所述中医知识数据为标准化后的所述中医术语数据。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行所述计算机程序，以实现本申请实施例第一方面及其任一实施例的方法。

本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请提供的数据处理方法、装置、设备和存储介质，通过结合中医药信息领域的经验知识构成的表达数据库，对原始中医数据进行纠错处理，然后对其进行关系知识抽取，并将抽取到的中医知识数据进行标准化处理，实现中医数据的自动结构化和规范化。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的数据处理方法的流程示意图；

图3A为本申请一实施例的纠错处理的流程示意图；

图3B为本申请一实施例的建立预设抽取模型的流程示意图；

图4为本申请一实施例的数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可以被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以实现自动对中医数据进行标准化。

于一实施例中，电子设备1可以是手机、笔记本电脑、台式计算机等设备。

请参看图2，其为本申请一实施例的数据处理方法，该方法可由图1所示的电子设备1来执行，并可应用于中医药数据的处理中场景中，以实现自动对中医数据进行标准化和结构化。该方法包括如下步骤：

步骤201：获取待处理的原始中医数据。

在本步骤中，原始中医数据可以是以自然语言形式记录的中医文本数据，比如医生给病人的诊断记录。也可以是医生给病人的诊断语音数据、视频数据等。可以从预先建立的医疗数据库中获取原始中医数据，也可以实时由医生通过终端录入原始中医数据。

于一实施例中，若原始中医数据是语音数据或者视频数据，则可以从中提取医生的诊断内容，将其转换成文本数据。

步骤202：基于的表达数据库，对原始中医数据进行纠错处理。

在本步骤中，以原始中医数据是自然语言形式的中医文本为例，在实际场景中，中医文本病历记录者需要快速记录信息，导致自然语言形式的中医文本往往含有不少的拼写错误，这对后续的中医知识提取和标准化都不利，对于整个案例来说，也可能会丢失宝贵的信息。因此需要对其进行纠错处理。表达数据库可以预先建立，表达数据库中可以包含多个正确中医表达，通过这些正确中医表达对原始中医数据进行纠错处理，以提高数据表达的准确率。

于一实施例中，如图3A所示，步骤202具体可以包括：获取原始中医数据中的错误表达数据。从表达数据库中，选取出与错误表达数据之间的编辑距离最小的正确表达数据。在原始中医数据中的将错误表达数据替换为正确表达数据。

拼写错误现如今是在记录医案的时候最常见的一种错误。在信息论、语言学和计算机科学领域，编辑距离是用来度量两个序列相似程度的指标。编辑距离指的是在两个单词之间，由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。利用编辑距离算法思想，为拼写错的中医文本与正确文本计算编辑距离，以编辑距离最小的正确文本替换错误文本，从而达到中医文本纠错的目的。

在上述实施例中，为了保证中医文本数据信息的完整性，可以利用自然语言处理的编辑距离技术来定义错误表达与正确表达之间的编辑距离，再从表达数据库的正确表达中选取编辑距离最小的正确表达数据替换原始中医数据中的错误表达数据，实现中医数据的纠错功能。

步骤203：对纠错后的中医数据进行知识抽取处理，得到中医知识数据。

在本步骤中，自然语言状态下的中医文本具有数量多、信息杂的特点，可以采用自然语言处理中的信息抽取技术对中医自然语言信息实体、关系、属性等有效信息进行抽取，得到中医知识数据。

于一实施例中，步骤203可以包括：将纠错后的中医数据输入预设抽取模型，输出中医知识数据，中医知识数据包括实体信息、关系信息和属性信息中的一种或多种。

于一实施例中，如图3B所示，在步骤203之前可以包括建立预设抽取模型的步骤，包括：基于对原始中医数据的目标抽取特征，获取标注语料，目标抽取特征包括：症状信息和/或疾病信息。以标注语料作为训练样本对预设的机器学习模型进行训练，得到预设抽取模型。

于一实施例中，以中医文本数据为例，建立预设抽取模型的步骤可以包括如下步骤：

S1：设计对原始中医数据的目标抽取特征。

在本步骤中，知识抽取主要实现知识概念、知识属性、知识关系、知识分类等知识实体信息的抽取和融合。中医知识抽取将基于中医药学语言系统结合命名实体抽取、关系抽取等自然语言处理关键技术对中医数据进行知识实体信息抽取，得到中医知识数据。首先需要对原始中医数据进行有效信息的特征设计，把人工智能思想与中医思想结合，设计对原始中医数据的目标抽取特征，例如：症状，疾病，处方等目标抽取特征。

S2：训练数据标注。

在实际应用中，中医知识抽取可以是基于统计机器学习的方案。可以利用现有的人工标注好的语料，在相应的机器学习工具下进行训练，生成训练模型，然后使用该模型去标注未知语料，以获取标注语料。

实际场景中，可以由具有中医专业知识的人员对样本数据进行目标抽取特征标注，标注人员需要在给定的目标抽取特征范围内对数据进行标注，目标抽取特征包含但不限于：症状信息和/或疾病信息。例如：原始中医数据是“某患者出现发烧、咳嗽，诊断为感冒”，标注人员需要将其标注成“发烧-症状、咳嗽-症状、感冒-疾病”。在标注过程中可以对样本数据进行错误验证，剔除一些逻辑错误的数据。

S3：训练中医药命名实体识别模型——预设抽取模型。

统计机器学习方法对新词的识别有非常好的效果，同时对已经训练过的词的识别效果更好，识别效果更加精准。传统的统计机器学习的方法一般只考虑已经标记过的数据，但是在真实问题中往往是同时存在有标记数据及未标记数据，如何更有效地利用这些数据成为一个备受关注的问题。中医药词典本质上是中医药命名实体的知识库，以标注语料特征的形式将词典引入到基于条件随机场的中医药命名实体的识别中，可以进一步提高识别准确率和召回率。本实施例中，采用基于词典和条件随机场相结合的命名实体识别算法，将中医药词典和机器学习结合起来使用，可以帮助提高命名实体识别的精度，优化对命名实体识别的效果。

于一实施例中，首先可以采用机器学习模型BERT(Bidirectional EncoderRepresentation from Transformers，一种语言模型)提供预训练的中医文本数据特征表示，例如把“发烧”这两个字分别特征表示为两个300维的向量，“发”的特征表示：[0.981，0.234，0.003，……，0.002]。“烧”的特征表示：[0.723，0.416，0.824，……，0.461]。然后采用机器学习模型Bi-LSTM(Long Short-Term Memory，简称“LSTM”，长短期记忆网络)对中医文本数据进行分类，例如“发”的分类结果是症状的概率为0.8，是疾病的概率为0.2。“烧”的分类结果是症状的概率为0.9，是疾病的概率为0.1。最后采用CRF(conditional randomfield algorithm，条件随机场算法)确保模型输出有效信息的一致性，比如“发”和“烧”分别获得了分类的概率输出，CRF确保“发”和“烧”是同一个类别。采用上述模型算法对步骤S2中得到的标注数据(标注语料)进行训练，可以得到中医药命名实体识别模型，即本实施例的预设抽取模型。

在建立好预设抽取模型后，步骤203具体可以包括：

S4：对纠错后的中医数据进行实体识别。

有了中医药命名实体识别模型之后，将纠错后的中医数据作为测试语料输入该模型，将得到测试语料中的有效实体信息，作为中医知识数据。

在上述实施例中，其中用到了BERT+Bi-LSTM+CRF的算法，BERT提供预训练的中医文本数据特征表示，Bi-LSTM对中医文本数据进行分类，CRF确保输出有效信息的一致性。最后对中医实体、关系、属性等信息进行融合，形成有效的中医知识数据。

在步骤203之后，还需要对中医知识数据进行标准化处理，输出标准化后的中医术语数据。也就是对进行有效信息提取后的中医知识数据，需要进行标准化处理。可以利用文本相似度计算思想对有效的中医知识数据与标准词库中的标准词进行相似度计算，选择相似度最高的标准词作为有效中医文本数据的标准化转换。

于一实施例中，对中医知识数据进行标准化处理，输出标准化后的中医术语数据具体可以包括：

步骤204：判断中医知识数据是否为标准词库中的标准词。

在本步骤中，标准词库可以是预先设定的中医领域的标准术语词库。可以将中医知识数据中每个词与标准词库分别进行比对判别，通过完全匹配来判断中医知识数据中的词是否为标准词，如果是标准词，进入步骤208，如果不是标准词，进入步骤205。

步骤205：计算中医知识数据与标准词库中每个标准词之间的相似度。

在本步骤中，若中医知识数据中的某个词不是标准词库中的标准词，假设该词称为“非标准词”，为了后续计算中医知识数据中的该非标准词与标准词之间的距离，需要将该非标准词进行词向量转换。比如可以采用BERT模型提供的信息对该非标准词进行向量转换，生成该非标准词的词向量。然后计算该词向量与标准词库中每个标准词之间的相似度。

于一实施例中，可以通过计算该非标准词的词向量与标准词向量的余弦相似度来表示相似度度量。

步骤206：从标准词库中选取出与中医知识数据之间的相似度最大的目标标准词。

在本步骤中，可以对步骤205中计算出的相似度值排序，比如在相似度计算完毕后，可以对相似度值从大到小排序，从标准词库中选取出与该词之间的相似度最大的目标标准词。

步骤207：输出目标标准词为标准化后的中医术语数据。

在本步骤中，将目标标准词替换掉中医术语数据中的非标准词，然后输出标准化后的中医术语数据。

步骤208：输出中医知识数据为标准化后的中医术语数据。

在本步骤中，若中医知识数据是标准词库中的标准词，则直接将该中医知识数据作为标准化后的中医术语数据输出。

在所有中医知识数据的主体数据完成标准化后，将标准化的数据进行结构化处理，这里的结构涵盖中医理论上的理、法、方、药，最终形成统一结构的中医术语数据。

上述数据处理方法，通过引入命名实体识别、关系抽取、词向量等计算机技术，结合中医药信息领域专家的经验知识，实现中医数据的自动结构化。将中医药学语言系统中知识本体、专业术语、主题词等规范的知识表示与医学文献中临床病案有机的结合起来，将相关症状、病证、治法、用药等知识实体构建知识体系。与现有技术采用的通过人工方式建设中医药同义词的方式进行术语规范化方法相比，本方案通过知识抽取对中医自然语言形式数据进行中医术语提取，然后通过词向量相似度计算对中医术语进行标准化。不仅有效且全面地将中医数据自动转换成标准的结构化知识，还能为从业人员节省更多时间。

请参看图4，其为本申请一实施例的数据处理装置，该装置可应用于图1所示的电子设备1，并可应用于中医药数据处理场景中，以实现自动对中医数据进行标准化和结构化。该装置包括：获取模块、纠错模块、抽取模块和处理模块，各个模块的原理关系如下：

获取模块，用于获取待处理的原始中医数据。纠错模块，用于基于的表达数据库，对原始中医数据进行纠错处理。抽取模块，用于对纠错后的中医数据进行知识抽取处理，得到中医知识数据。处理模块，用于对中医知识数据进行标准化处理，输出标准化后的中医术语数据。

于一实施例中，纠错模块用于：获取原始中医数据中的错误表达数据。从表达数据库中，选取出与错误表达数据之间的编辑距离最小的正确表达数据。在原始中医数据中的将错误表达数据替换为正确表达数据。

于一实施例中，抽取模块用于：将纠错后的中医数据输入预设抽取模型，输出中医知识数据，中医知识数据包括实体信息、关系信息和属性信息中的一种或多种。

于一实施例中，还包括：建立模块，用于：基于对原始中医数据的目标抽取特征，获取标注语料，目标抽取特征包括：症状信息和/或疾病信息。以标注语料作为训练样本对预设的机器学习模型进行训练，得到预设抽取模型。

于一实施例中，处理模块用于：判断中医知识数据是否为标准词库中的标准词。若中医知识数据不是标准词库中的标准词，则计算中医知识数据与标准词库中每个标准词之间的相似度。从标准词库中选取出与中医知识数据之间的相似度最大的目标标准词。输出目标标准词为标准化后的中医术语数据。

于一实施例中，处理模块还用于：若中医知识数据是标准词库中的标准词，输出中医知识数据为标准化后的中医术语数据。

上述数据处理装置的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理的原始中医数据；

基于的表达数据库，对所述原始中医数据进行纠错处理；

对纠错后的中医数据进行知识抽取处理，得到中医知识数据；

对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据。

2.根据权利要求1所述的方法，其特征在于，所述基于预设的表达数据库，对所述原始中医数据进行纠错处理，包括：

获取所述原始中医数据中的错误表达数据；

从所述表达数据库中，选取出与所述错误表达数据之间的编辑距离最小的正确表达数据；

在所述原始中医数据中的将所述错误表达数据替换为所述正确表达数据。

3.根据权利要求1所述的方法，其特征在于，所述对纠错后的中医数据进行知识抽取处理，得到中医知识数据，包括：

将所述纠错后的中医数据输入预设抽取模型，输出所述中医知识数据，所述中医知识数据包括实体信息、关系信息和属性信息中的一种或多种。

4.根据权利要求3所述的方法，其特征在于，建立所述预设抽取模型的步骤，包括：

基于对所述原始中医数据的目标抽取特征，获取标注语料，所述目标抽取特征包括：症状信息和/或疾病信息；

以所述标注语料作为训练样本对预设的机器学习模型进行训练，得到所述预设抽取模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据，包括：

判断所述中医知识数据是否为标准词库中的标准词；

若所述中医知识数据不是所述标准词库中的标准词，则计算所述中医知识数据与所述标准词库中每个标准词之间的相似度；

从所述标准词库中选取出与所述中医知识数据之间的相似度最大的目标标准词；

输出所述目标标准词为标准化后的中医术语数据。

6.根据权利要求5所述的方法，其特征在于，所述对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据，还包括：

若所述中医知识数据是所述标准词库中的标准词，输出所述中医知识数据为标准化后的所述中医术语数据。

7.一种数据处理装置，其特征在于，包括：

获取模块，用于获取待处理的原始中医数据；

纠错模块，用于基于的表达数据库，对所述原始中医数据进行纠错处理；

抽取模块，用于对纠错后的中医数据进行知识抽取处理，得到中医知识数据；

处理模块，用于对所述中医知识数据进行标准化处理，输出标准化后的中医术语数据。

8.根据权利要求7所述的装置，其特征在于，所述纠错模块用于：

获取所述原始中医数据中的错误表达数据；

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行所述计算机程序，以实现如权利要求1至6中任一项所述的方法。

10.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至6中任一项所述的方法。