CN117457135A

CN117457135A - 一种地址数据治理方法和循环神经网络模型构建方法

Info

Publication number: CN117457135A
Application number: CN202311775652.8A
Authority: CN
Inventors: 岳小波; 张平; 王涌军
Original assignee: Sichuan Huhui Software Co ltd
Current assignee: Sichuan Huhui Software Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-26
Anticipated expiration: 2043-12-22
Also published as: CN117457135B

Abstract

本发明公开了一种地址数据治理方法和循环神经网络模型构建方法，包括收集患者病历数据进行预处理，病历数据包括证件信息、地址信息；将病历数据中的文本进行特征提取，转化为模型可用的向量表示；提取国家标准行政区划地址信息，与转化后的病历数据进行特征合并，输入到循环神经网络模型进行治理。本发明针对地址类随着国家行政区划调整和人员流动等相关数据，提出一套基于患者病历数据中证件信息,地址信息、国家行政区划信息数据分析，结合循环神经网络算法进行地址信息补充和修正。能够更加精确的解决患者地址信息缺失和错误的问题。

Description

一种地址数据治理方法和循环神经网络模型构建方法

技术领域

本发明涉及医疗数据统计领域，具体而言，涉及一种地址数据治理方法和循环神经网络模型构建方法。

背景技术

随着进入大数据时代以及人工智能AI技术在医疗方面的深入运用,对数据质量提出了更高的要求。但是在实际业务过程中，因各种原因会造成住址、工作地址等地址类数据存在缺失、错误，由于是历史数据，无法让业务系统重新补充或修正相应的地址类数据。

此外，地址类数据不能随意补充和修正(例如:解析身份证号码中行政区划信息去治理相关地址数据,治理后的地址信息并不能被认为是完全正确的地址数据)，需要结合国家行政区划信息和患者病历数据中地址信息、患者证件信息等-多元数据进行地址信息补充和修正，保障补充和修正后的地址信息是可信的。

发明内容

有鉴于此，本发明提供一种地址数据治理方法和循环神经网络模型构建方法，针对地址类随着国家行政区划调整和人员流动等相关数据，提出一套基于患者病历数据中证件信息,地址信息、国家行政区划信息数据分析，结合循环神经网络算法进行地址信息补充和修正。

为解决以上技术问题，第一方面，本发明提供了一种地址数据治理方法，包括：收集患者病历数据进行预处理，病历数据包括证件信息、地址信息；将病历数据中的文本进行特征提取，转化为模型可用的向量表示；提取国家标准行政区划地址信息，与转化后的病历数据进行特征合并，输入到循环神经网络模型进行治理。

作为一种可选方式，预处理包括对证件信息、地址信息进行清洗与标准化，以得到具备一致性和可用性的数据；以及，构建个人地址数据集，个人地址数据集包括证件号码、病历地址以及国家标准行政区划信息。

作为一种可选方式，采用词嵌入和/或字符嵌入层将证件信息与地址信息转化为向量，其包括：

将证件号码信息编码成数字特征，并将病历地址信息中的文本数据转化为嵌入向量。

作为一种可选方式，对证件信息进行提取包括：提取证件信息中的数字信息，形成数字序列；若证件信息中包括字符信息，则对该字符进行编码；编码的方式为单热编码和/或嵌入层将字符映射到向量进行表示；

对病历信息进行提取包括：对病历信息中的自然语言文本进行分词与命名实体识别，将地址信息分解为语义单元后实用词嵌入和/或字符嵌入层将分词识别后的文本转化为向量进行表示；其中，语义单元包括地址元素与地点描述。

作为一种可选方式，采用拼接和/或堆叠的方式对国家标准行政区划地址信息与转化后的病历数据进行特征合并。

另一方面，本发明还提供了一种循环神经网络模型的构建方法，包括：

构建LSTM模型，LSTM模型包括一个或多个LSTM层；

定义输入层，输入层用于接受特征向量作为输入；

定义输出层，输出层采用全连接层，用于将模型的输出映射到最终的地址信息预测；其中，采用softmax作为激活函数，用于生成字符或词汇的分布；

指定损失函数，用于度量模型生成的地址信息与真实地址信息之间的差异度；

对模型进行训练，并通过优化来更新模型参数，通过设置准确率评估指标来监测模型性能。

作为一种可选方式，模型的输出在每个时间步都为一个字符或词汇的概率分布；损失函数选用交叉熵损失，交叉熵损失定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。

作为一种可选方式，对模型进行优化为选用为Adam优化器和/或随机梯度下降算法进行优化。

作为一种可选方式，准确率评估指标包括省、市、县、乡、村等五级地址的准确率，评估过程包括：

设置评估参数，评估参数包括：

True Positives (TP)为每个地址级别的正确识别数量，地址级别包括省、市、县、乡、村；

False Positives (FP)为每个地址级别的错误识别数量，地址级别包括省、市、县、乡、村；

False Negatives (FN)为每个地址级别的未识别数量，地址级别包括省、市、县、乡、村；

Total Addresses (N)为总共的地址数量，地址级别包括省、市、县、乡、村；

建立准确率评估公式：

准确率评估公式用于每个地址级别，以评估模型在每个级别上的准确性，并分别计算模型在识别省、市、县、乡、村等级别的准确率；

得到每个地址级别的准确率后，计算模型的综合准确率：

，其中，TP _Province为正确识别的省级地址数量，TP_City为正确识别的市级地址数量，TP_Country为正确识别的县级地址数量，TP_Town为正确识别的乡级地址数量，TP_Village为正确识别的村级地址数量。

作为一种可选方式，使用训练数据集来训练模型，调整模型参数以最小化损失函数；使用验证数据集来监测模型的性能，并防止过拟合；其中，训练过程中可以使用批量训练和/或周期的方式来逐渐提升模型性能。

本发明的有益效果为：

本发明基于患者病历数据中证件号码信息,地址信息数据、国家行政区划信息数据分析，结合循环神经网络算法进行地址信息补充和修正，能够更加精确的解决患者地址信息缺失和错误的问题。

附图说明

图1为本发明实施例提供的数据治理流程示意图；

图2为本发明实施例提供的循环神经网络模型构建步骤示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合具体实施方式对本发明作进一步的详细说明。

实施例1

由于患者在就诊过程中，一般会在不同的科室进行就诊，不同科室的地址信息录入深度存在不同。例如，门诊过程中只需要简单写入地址，如小区、街道、籍贯等；而办理住院时需要填写详细的地址。以及，部分大龄患者的身份证前六位由于历史原因随着行政区划的更迭已无法再与现在的对应，或者随着国家发展要求变更了行政区划的编码。虽然这样能够完成对患者的信息记录，但杂乱的不统一的数据显然是不符合国家相关数据收集规定要求的。

因此，请参阅图1，本实施针对地址类随着国家行政区划调整和人员流动等相关数据，提出一套基于患者病历数据中证件号码信息,地址信息数据、国家行政区划信息数据分析，结合循环神经网络算法进行地址信息补充和修正。其采用如下方法实现的：

首先进行数据预处理，收集患者病历数据，包括证件号码信息、病历中的地址信息（现住址、工作地址、户籍地址）以及国家标准行政区划地址信息。然后清洗和标准化数据，确保数据的一致性和可用性。之后构建一个数据集，其中每个样本包含证件号码、病历地址信息和对应的国家标准行政区划地址信息。

然后，为了将文本数据转化为模型可用的向量表示，可以使用词嵌入或字符嵌入层，将证件号码和地址信息转化为向量。具体为，可以将证件号码信息编码成数字特征，并将病历地址信息中的文本数据转化为嵌入向量。

因此，包括如下三步：

对证件号码信息进行特征提取，证件号码通常包含数字和字符。将证件号码中的数字提取出来，形成一个数字序列。如果证件号码中包含字符信息（如字母），可以对字符进行编码，例如使用单热编码或嵌入层将字符映射到向量表示。

对病历地址信息进行特征提取，病历地址信息通常包括自然语言文本，如地址描述、街道名称、门牌号码等。因此，使用文本预处理技术，如分词和命名实体识别，将地址信息分解为语义单元，如地址元素、地点描述等。使用词嵌入或字符嵌入层将分词后的文本转化为向量表示。

对国家标准行政区划地址信息特征提取，国家标准行政区划地址信息通常以标准编码的形式存在，例如行政区划代码。这些编码可以直接用作特征。如果需要将行政区划信息表示为向量，可以使用独热编码或将编码映射到嵌入向量。

对上述三类信息的特征提取完毕后，将其组合成一个整体的特征向量，作为模型的输入。这可以通过简单地连接特征向量，或者使用更复杂的特征合并方法，如拼接、堆叠等，取决于模型的架构和设计。本实施例不做限制。

实施例2

为了能通过循环神经网络来达到上述实施例1所述的地址数据治理方法，请参阅图2，本实施例用于构建一种基于RNN神经网络基础的LSTM神经网络模型。

首先构建一个LSTM模型的基本架构，可以包括一个或多个LSTM层。定义输入层，接受特征向量作为输入。在LSTM层中，指定LSTM单元的数量和其他超参数，如激活函数、循环丢弃率等。引入注意力机制来改善模型的性能(只关注地址类信息)。

之后，进行输出层设计，输出层是一个全连接层，将LSTM的输出映射到最终的地址信息预测。其激活函数可以是softmax函数，用于生成字符或词汇的分布。

在模型编译阶段，需要指定损失函数、优化器和评估指标。

损失函数选择交叉熵损失，用于度量模型生成的地址信息与真实地址信息之间的差异。落实到本实施例中，分类交叉熵损失函数，是模型的输出在每个时间步都被看作是一个字符或词汇的概率分布，损失函数可以定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。这鼓励模型生成尽可能接近真实地址信息的序列。

然后选择适当的优化器，如Adam或SGD，来更新模型参数。Adam是一种自适应学习率优化算法，通常能够在训练过程中有效地调整学习率，以便快速收敛。随机梯度下降SGD是一种传统的优化算法，也可以用于训练LSTM模型。本实施例对具体的优化器不做限制。

完成模型的基础架设后，设置准确率评估指标，用于监测模型性能。落实到本实施例中，准确率评估指标包括省、市、县、乡、村等五级地址的准确率，评估过程为设置评估参数，评估参数包括：

True Positives (TP)为每个地址级别的正确识别数量，包括省、市、县、乡、村；

False Positives (FP)为每个地址级别的错误识别数量，包括省、市、县、乡、村；

False Negatives (FN)为每个地址级别的未识别数量，包括省、市、县、乡、村；

Total Addresses (N)为总共的地址数量，包括省、市、县、乡、村；

建立准确率评估公式：

得到每个地址级别的准确率后，考虑模型在所有级别上的准确性，计算模型的综合准确率：

最后，对模型进行训练，使用训练数据集来训练模型，调整模型参数以最小化损失函数。使用验证数据集来监测模型的性能，并防止过拟合。此外，训练过程中可以使用批量训练和周期（epochs）的方式来逐渐提升模型性能。

Claims

1.一种地址数据治理方法，其特征在于，包括：

收集患者病历数据进行预处理，所述病历数据包括证件信息、地址信息；

将病历数据中的文本进行特征提取，转化为模型可用的向量表示；

提取国家标准行政区划地址信息，与转化后的病历数据进行特征合并，输入到循环神经网络模型进行治理。

2.根据权利要求1所述的一种地址数据治理方法，其特征在于，所述预处理包括对证件信息、地址信息进行清洗与标准化，以得到具备一致性和可用性的数据；以及，构建个人地址数据集，所述个人地址数据集包括证件号码、病历地址以及国家标准行政区划信息。

3.根据权利要求1所述的一种地址数据治理方法，其特征在于，采用词嵌入和/或字符嵌入层将证件信息与地址信息转化为向量，其包括：

4.根据权利要求3所述的一种地址数据治理方法，其特征在于，

对证件信息进行提取包括：提取证件信息中的数字信息，形成数字序列；若证件信息中包括字符信息，则对该字符进行编码；所述编码的方式为单热编码和/或嵌入层将字符映射到向量进行表示；

对病历信息进行提取包括：对病历信息中的自然语言文本进行分词与命名实体识别，将地址信息分解为语义单元后实用词嵌入和/或字符嵌入层将分词识别后的文本转化为向量进行表示；其中，所述语义单元包括地址元素与地点描述。

5.根据权利要求4所述的一种地址数据治理方法，其特征在于，采用拼接和/或堆叠的方式对国家标准行政区划地址信息与转化后的病历数据进行特征合并。

6.一种循环神经网络模型的构建方法，用于实现上述权利要求1-5任意一项所述的地址数据治理方法，其特征在于，包括：

构建LSTM模型，所述LSTM模型包括一个或多个LSTM层；

定义输入层，所述输入层用于接受特征向量作为输入；

定义输出层，所述输出层采用全连接层，用于将模型的输出映射到最终的地址信息预测；其中，采用softmax作为激活函数，用于生成字符或词汇的分布；

7.根据权利要求6所述的一种循环神经网络模型的构建方法，其特征在于，模型的输出在每个时间步都为一个字符或词汇的概率分布；所述损失函数选用交叉熵损失，所述交叉熵损失定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。

8.根据权利要求6所述的一种循环神经网络模型的构建方法，其特征在于，对模型进行优化为选用为Adam优化器和/或随机梯度下降算法进行优化。

9.根据权利要求7所述的一种循环神经网络模型的构建方法，其特征在于，所述准确率评估指标包括省、市、县、乡、村等五级地址的准确率，评估过程包括：

设置评估参数，所述评估参数包括：

True Positives (TP)为每个地址级别的正确识别数量，所述地址级别包括省、市、县、乡、村；

False Positives (FP)为每个地址级别的错误识别数量，所述地址级别包括省、市、县、乡、村；

False Negatives (FN)为每个地址级别的未识别数量，所述地址级别包括省、市、县、乡、村；

Total Addresses (N)为总共的地址数量，所述地址级别包括省、市、县、乡、村；

建立准确率评估公式：

所述准确率评估公式用于每个地址级别，以评估模型在每个级别上的准确性，并分别计算模型在识别省、市、县、乡、村等级别的准确率；

得到每个地址级别的准确率后，计算模型的综合准确率：

其中，TP _Province为正确识别的省级地址数量，TP_City为正确识别的市级地址数量，TP_Country为正确识别的县级地址数量，TP_Town为正确识别的乡级地址数量，TP_Village为正确识别的村级地址数量。

10.根据权利要求6所述的一种循环神经网络模型的构建方法，其特征在于，

使用训练数据集来训练模型，调整模型参数以最小化损失函数；

使用验证数据集来监测模型的性能，并防止过拟合；其中，

训练过程中可以使用批量训练和/或周期的方式来逐渐提升模型性能。