CN117457135A - 一种地址数据治理方法和循环神经网络模型构建方法 - Google Patents
一种地址数据治理方法和循环神经网络模型构建方法 Download PDFInfo
- Publication number
- CN117457135A CN117457135A CN202311775652.8A CN202311775652A CN117457135A CN 117457135 A CN117457135 A CN 117457135A CN 202311775652 A CN202311775652 A CN 202311775652A CN 117457135 A CN117457135 A CN 117457135A
- Authority
- CN
- China
- Prior art keywords
- address
- model
- information
- medical record
- address information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003062 neural network model Methods 0.000 title claims abstract description 15
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 13
- 238000013523 data management Methods 0.000 title claims description 7
- 238000010276 construction Methods 0.000 title abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012854 evaluation process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种地址数据治理方法和循环神经网络模型构建方法,包括收集患者病历数据进行预处理,病历数据包括证件信息、地址信息;将病历数据中的文本进行特征提取,转化为模型可用的向量表示;提取国家标准行政区划地址信息,与转化后的病历数据进行特征合并,输入到循环神经网络模型进行治理。本发明针对地址类随着国家行政区划调整和人员流动等相关数据,提出一套基于患者病历数据中证件信息,地址信息、国家行政区划信息数据分析,结合循环神经网络算法进行地址信息补充和修正。能够更加精确的解决患者地址信息缺失和错误的问题。
Description
技术领域
本发明涉及医疗数据统计领域,具体而言,涉及一种地址数据治理方法和循环神经网络模型构建方法。
背景技术
随着进入大数据时代以及人工智能AI技术在医疗方面的深入运用,对数据质量提出了更高的要求。但是在实际业务过程中,因各种原因会造成住址、工作地址等地址类数据存在缺失、错误,由于是历史数据,无法让业务系统重新补充或修正相应的地址类数据。
此外,地址类数据不能随意补充和修正(例如:解析身份证号码中行政区划信息去治理相关地址数据,治理后的地址信息并不能被认为是完全正确的地址数据),需要结合国家行政区划信息和患者病历数据中地址信息、患者证件信息等-多元数据进行地址信息补充和修正,保障补充和修正后的地址信息是可信的。
发明内容
有鉴于此,本发明提供一种地址数据治理方法和循环神经网络模型构建方法,针对地址类随着国家行政区划调整和人员流动等相关数据,提出一套基于患者病历数据中证件信息,地址信息、国家行政区划信息数据分析,结合循环神经网络算法进行地址信息补充和修正。
为解决以上技术问题,第一方面,本发明提供了一种地址数据治理方法,包括:收集患者病历数据进行预处理,病历数据包括证件信息、地址信息;将病历数据中的文本进行特征提取,转化为模型可用的向量表示;提取国家标准行政区划地址信息,与转化后的病历数据进行特征合并,输入到循环神经网络模型进行治理。
作为一种可选方式,预处理包括对证件信息、地址信息进行清洗与标准化,以得到具备一致性和可用性的数据;以及,构建个人地址数据集,个人地址数据集包括证件号码、病历地址以及国家标准行政区划信息。
作为一种可选方式,采用词嵌入和/或字符嵌入层将证件信息与地址信息转化为向量,其包括:
将证件号码信息编码成数字特征,并将病历地址信息中的文本数据转化为嵌入向量。
作为一种可选方式,对证件信息进行提取包括:提取证件信息中的数字信息,形成数字序列;若证件信息中包括字符信息,则对该字符进行编码;编码的方式为单热编码和/或嵌入层将字符映射到向量进行表示;
对病历信息进行提取包括:对病历信息中的自然语言文本进行分词与命名实体识别,将地址信息分解为语义单元后实用词嵌入和/或字符嵌入层将分词识别后的文本转化为向量进行表示;其中,语义单元包括地址元素与地点描述。
作为一种可选方式,采用拼接和/或堆叠的方式对国家标准行政区划地址信息与转化后的病历数据进行特征合并。
另一方面,本发明还提供了一种循环神经网络模型的构建方法,包括:
构建LSTM模型,LSTM模型包括一个或多个LSTM层;
定义输入层,输入层用于接受特征向量作为输入;
定义输出层,输出层采用全连接层,用于将模型的输出映射到最终的地址信息预测;其中,采用softmax作为激活函数,用于生成字符或词汇的分布;
指定损失函数,用于度量模型生成的地址信息与真实地址信息之间的差异度;
对模型进行训练,并通过优化来更新模型参数,通过设置准确率评估指标来监测模型性能。
作为一种可选方式,模型的输出在每个时间步都为一个字符或词汇的概率分布;损失函数选用交叉熵损失,交叉熵损失定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。
作为一种可选方式,对模型进行优化为选用为Adam优化器和/或随机梯度下降算法进行优化。
作为一种可选方式,准确率评估指标包括省、市、县、乡、村等五级地址的准确率,评估过程包括:
设置评估参数,评估参数包括:
True Positives (TP)为每个地址级别的正确识别数量,地址级别包括省、市、县、乡、村;
False Positives (FP)为每个地址级别的错误识别数量,地址级别包括省、市、县、乡、村;
False Negatives (FN)为每个地址级别的未识别数量,地址级别包括省、市、县、乡、村;
Total Addresses (N)为总共的地址数量,地址级别包括省、市、县、乡、村;
建立准确率评估公式:
准确率评估公式用于每个地址级别,以评估模型在每个级别上的准确性,并分别计算模型在识别省、市、县、乡、村等级别的准确率;
得到每个地址级别的准确率后,计算模型的综合准确率:
,其中,TP Province为正确识别的省级地址数量,TPCity为正确识别的市级地址数量,TPCountry为正确识别的县级地址数量,TPTown为正确识别的乡级地址数量,TPVillage为正确识别的村级地址数量。
作为一种可选方式,使用训练数据集来训练模型,调整模型参数以最小化损失函数;使用验证数据集来监测模型的性能,并防止过拟合;其中,训练过程中可以使用批量训练和/或周期的方式来逐渐提升模型性能。
本发明的有益效果为:
本发明基于患者病历数据中证件号码信息,地址信息数据、国家行政区划信息数据分析,结合循环神经网络算法进行地址信息补充和修正,能够更加精确的解决患者地址信息缺失和错误的问题。
附图说明
图1为本发明实施例提供的数据治理流程示意图;
图2为本发明实施例提供的循环神经网络模型构建步骤示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步的详细说明。
实施例1
由于患者在就诊过程中,一般会在不同的科室进行就诊,不同科室的地址信息录入深度存在不同。例如,门诊过程中只需要简单写入地址,如小区、街道、籍贯等;而办理住院时需要填写详细的地址。以及,部分大龄患者的身份证前六位由于历史原因随着行政区划的更迭已无法再与现在的对应,或者随着国家发展要求变更了行政区划的编码。虽然这样能够完成对患者的信息记录,但杂乱的不统一的数据显然是不符合国家相关数据收集规定要求的。
因此,请参阅图1,本实施针对地址类随着国家行政区划调整和人员流动等相关数据,提出一套基于患者病历数据中证件号码信息,地址信息数据、国家行政区划信息数据分析,结合循环神经网络算法进行地址信息补充和修正。其采用如下方法实现的:
首先进行数据预处理,收集患者病历数据,包括证件号码信息、病历中的地址信息(现住址、工作地址、户籍地址)以及国家标准行政区划地址信息。然后清洗和标准化数据,确保数据的一致性和可用性。之后构建一个数据集,其中每个样本包含证件号码、病历地址信息和对应的国家标准行政区划地址信息。
然后,为了将文本数据转化为模型可用的向量表示,可以使用词嵌入或字符嵌入层,将证件号码和地址信息转化为向量。具体为,可以将证件号码信息编码成数字特征,并将病历地址信息中的文本数据转化为嵌入向量。
因此,包括如下三步:
对证件号码信息进行特征提取,证件号码通常包含数字和字符。将证件号码中的数字提取出来,形成一个数字序列。如果证件号码中包含字符信息(如字母),可以对字符进行编码,例如使用单热编码或嵌入层将字符映射到向量表示。
对病历地址信息进行特征提取,病历地址信息通常包括自然语言文本,如地址描述、街道名称、门牌号码等。因此,使用文本预处理技术,如分词和命名实体识别,将地址信息分解为语义单元,如地址元素、地点描述等。使用词嵌入或字符嵌入层将分词后的文本转化为向量表示。
对国家标准行政区划地址信息特征提取,国家标准行政区划地址信息通常以标准编码的形式存在,例如行政区划代码。这些编码可以直接用作特征。如果需要将行政区划信息表示为向量,可以使用独热编码或将编码映射到嵌入向量。
对上述三类信息的特征提取完毕后,将其组合成一个整体的特征向量,作为模型的输入。这可以通过简单地连接特征向量,或者使用更复杂的特征合并方法,如拼接、堆叠等,取决于模型的架构和设计。本实施例不做限制。
实施例2
为了能通过循环神经网络来达到上述实施例1所述的地址数据治理方法,请参阅图2,本实施例用于构建一种基于RNN神经网络基础的LSTM神经网络模型。
首先构建一个LSTM模型的基本架构,可以包括一个或多个LSTM层。定义输入层,接受特征向量作为输入。在LSTM层中,指定LSTM单元的数量和其他超参数,如激活函数、循环丢弃率等。引入注意力机制来改善模型的性能(只关注地址类信息)。
之后,进行输出层设计,输出层是一个全连接层,将LSTM的输出映射到最终的地址信息预测。其激活函数可以是softmax函数,用于生成字符或词汇的分布。
在模型编译阶段,需要指定损失函数、优化器和评估指标。
损失函数选择交叉熵损失,用于度量模型生成的地址信息与真实地址信息之间的差异。落实到本实施例中,分类交叉熵损失函数,是模型的输出在每个时间步都被看作是一个字符或词汇的概率分布,损失函数可以定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。这鼓励模型生成尽可能接近真实地址信息的序列。
然后选择适当的优化器,如Adam或SGD,来更新模型参数。Adam是一种自适应学习率优化算法,通常能够在训练过程中有效地调整学习率,以便快速收敛。随机梯度下降SGD是一种传统的优化算法,也可以用于训练LSTM模型。本实施例对具体的优化器不做限制。
完成模型的基础架设后,设置准确率评估指标,用于监测模型性能。落实到本实施例中,准确率评估指标包括省、市、县、乡、村等五级地址的准确率,评估过程为设置评估参数,评估参数包括:
True Positives (TP)为每个地址级别的正确识别数量,包括省、市、县、乡、村;
False Positives (FP)为每个地址级别的错误识别数量,包括省、市、县、乡、村;
False Negatives (FN)为每个地址级别的未识别数量,包括省、市、县、乡、村;
Total Addresses (N)为总共的地址数量,包括省、市、县、乡、村;
建立准确率评估公式:
准确率评估公式用于每个地址级别,以评估模型在每个级别上的准确性,并分别计算模型在识别省、市、县、乡、村等级别的准确率;
得到每个地址级别的准确率后,考虑模型在所有级别上的准确性,计算模型的综合准确率:
,其中,TP Province为正确识别的省级地址数量,TPCity为正确识别的市级地址数量,TPCountry为正确识别的县级地址数量,TPTown为正确识别的乡级地址数量,TPVillage为正确识别的村级地址数量。
最后,对模型进行训练,使用训练数据集来训练模型,调整模型参数以最小化损失函数。使用验证数据集来监测模型的性能,并防止过拟合。此外,训练过程中可以使用批量训练和周期(epochs)的方式来逐渐提升模型性能。
Claims (10)
1.一种地址数据治理方法,其特征在于,包括:
收集患者病历数据进行预处理,所述病历数据包括证件信息、地址信息;
将病历数据中的文本进行特征提取,转化为模型可用的向量表示;
提取国家标准行政区划地址信息,与转化后的病历数据进行特征合并,输入到循环神经网络模型进行治理。
2.根据权利要求1所述的一种地址数据治理方法,其特征在于,所述预处理包括对证件信息、地址信息进行清洗与标准化,以得到具备一致性和可用性的数据;以及,构建个人地址数据集,所述个人地址数据集包括证件号码、病历地址以及国家标准行政区划信息。
3.根据权利要求1所述的一种地址数据治理方法,其特征在于,采用词嵌入和/或字符嵌入层将证件信息与地址信息转化为向量,其包括:
将证件号码信息编码成数字特征,并将病历地址信息中的文本数据转化为嵌入向量。
4.根据权利要求3所述的一种地址数据治理方法,其特征在于,
对证件信息进行提取包括:提取证件信息中的数字信息,形成数字序列;若证件信息中包括字符信息,则对该字符进行编码;所述编码的方式为单热编码和/或嵌入层将字符映射到向量进行表示;
对病历信息进行提取包括:对病历信息中的自然语言文本进行分词与命名实体识别,将地址信息分解为语义单元后实用词嵌入和/或字符嵌入层将分词识别后的文本转化为向量进行表示;其中,所述语义单元包括地址元素与地点描述。
5.根据权利要求4所述的一种地址数据治理方法,其特征在于,采用拼接和/或堆叠的方式对国家标准行政区划地址信息与转化后的病历数据进行特征合并。
6.一种循环神经网络模型的构建方法,用于实现上述权利要求1-5任意一项所述的地址数据治理方法,其特征在于,包括:
构建LSTM模型,所述LSTM模型包括一个或多个LSTM层;
定义输入层,所述输入层用于接受特征向量作为输入;
定义输出层,所述输出层采用全连接层,用于将模型的输出映射到最终的地址信息预测;其中,采用softmax作为激活函数,用于生成字符或词汇的分布;
指定损失函数,用于度量模型生成的地址信息与真实地址信息之间的差异度;
对模型进行训练,并通过优化来更新模型参数,通过设置准确率评估指标来监测模型性能。
7.根据权利要求6所述的一种循环神经网络模型的构建方法,其特征在于,模型的输出在每个时间步都为一个字符或词汇的概率分布;所述损失函数选用交叉熵损失,所述交叉熵损失定义为真实地址信息与模型预测的地址信息之间的交叉熵损失。
8.根据权利要求6所述的一种循环神经网络模型的构建方法,其特征在于,对模型进行优化为选用为Adam优化器和/或随机梯度下降算法进行优化。
9.根据权利要求7所述的一种循环神经网络模型的构建方法,其特征在于,所述准确率评估指标包括省、市、县、乡、村等五级地址的准确率,评估过程包括:
设置评估参数,所述评估参数包括:
True Positives (TP)为每个地址级别的正确识别数量,所述地址级别包括省、市、县、乡、村;
False Positives (FP)为每个地址级别的错误识别数量,所述地址级别包括省、市、县、乡、村;
False Negatives (FN)为每个地址级别的未识别数量,所述地址级别包括省、市、县、乡、村;
Total Addresses (N)为总共的地址数量,所述地址级别包括省、市、县、乡、村;
建立准确率评估公式:
所述准确率评估公式用于每个地址级别,以评估模型在每个级别上的准确性,并分别计算模型在识别省、市、县、乡、村等级别的准确率;
得到每个地址级别的准确率后,计算模型的综合准确率:
其中,TP Province为正确识别的省级地址数量,TPCity为正确识别的市级地址数量,TPCountry为正确识别的县级地址数量,TPTown为正确识别的乡级地址数量,TPVillage为正确识别的村级地址数量。
10.根据权利要求6所述的一种循环神经网络模型的构建方法,其特征在于,
使用训练数据集来训练模型,调整模型参数以最小化损失函数;
使用验证数据集来监测模型的性能,并防止过拟合;其中,
训练过程中可以使用批量训练和/或周期的方式来逐渐提升模型性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775652.8A CN117457135B (zh) | 2023-12-22 | 2023-12-22 | 一种地址数据治理方法和循环神经网络模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775652.8A CN117457135B (zh) | 2023-12-22 | 2023-12-22 | 一种地址数据治理方法和循环神经网络模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117457135A true CN117457135A (zh) | 2024-01-26 |
CN117457135B CN117457135B (zh) | 2024-04-09 |
Family
ID=89591501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311775652.8A Active CN117457135B (zh) | 2023-12-22 | 2023-12-22 | 一种地址数据治理方法和循环神经网络模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117457135B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376864A (zh) * | 2018-09-06 | 2019-02-22 | 电子科技大学 | 一种基于堆叠神经网络的知识图谱关系推理算法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN112612940A (zh) * | 2020-12-23 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 地址信息解析方法、装置、设备及存储介质 |
CN114416892A (zh) * | 2021-11-25 | 2022-04-29 | 南京烽火天地通信科技有限公司 | 一种基于自训练地址切分模型的全国地址归一化方法 |
WO2022126988A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 实体命名识别模型的训练方法、装置、设备及存储介质 |
CN116049333A (zh) * | 2023-02-07 | 2023-05-02 | 浪潮卓数大数据产业发展有限公司 | 一种地址数据治理方法、设备及介质 |
CN116414824A (zh) * | 2021-12-30 | 2023-07-11 | 丰图科技(深圳)有限公司 | 行政区划信息识别和标准化处理的方法、装置及存储介质 |
CN116955335A (zh) * | 2023-07-21 | 2023-10-27 | 北京国信达数据技术有限公司 | 一种基于大数据模型算法的地址数据治理方法及其系统 |
CN117112850A (zh) * | 2023-09-06 | 2023-11-24 | 上海东普信息科技有限公司 | 地址标准化方法、装置、设备及存储介质 |
-
2023
- 2023-12-22 CN CN202311775652.8A patent/CN117457135B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376864A (zh) * | 2018-09-06 | 2019-02-22 | 电子科技大学 | 一种基于堆叠神经网络的知识图谱关系推理算法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
WO2022126988A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 实体命名识别模型的训练方法、装置、设备及存储介质 |
CN112612940A (zh) * | 2020-12-23 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 地址信息解析方法、装置、设备及存储介质 |
CN114416892A (zh) * | 2021-11-25 | 2022-04-29 | 南京烽火天地通信科技有限公司 | 一种基于自训练地址切分模型的全国地址归一化方法 |
CN116414824A (zh) * | 2021-12-30 | 2023-07-11 | 丰图科技(深圳)有限公司 | 行政区划信息识别和标准化处理的方法、装置及存储介质 |
CN116049333A (zh) * | 2023-02-07 | 2023-05-02 | 浪潮卓数大数据产业发展有限公司 | 一种地址数据治理方法、设备及介质 |
CN116955335A (zh) * | 2023-07-21 | 2023-10-27 | 北京国信达数据技术有限公司 | 一种基于大数据模型算法的地址数据治理方法及其系统 |
CN117112850A (zh) * | 2023-09-06 | 2023-11-24 | 上海东普信息科技有限公司 | 地址标准化方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
HAI-NAM CAO等: "Deep neural network based learning to rank for address standardization", 2021 RIVF INTERNATIONAL CONFERENCE ON COMPUTING AND COMMUNICATION TECHNOLOGIES (RIVF), 21 December 2021 (2021-12-21), pages 1 - 6 * |
李晓林等: "非规范化中文地址的行政区划提取算法", 计算机应用, vol. 37, no. 03, 10 March 2017 (2017-03-10), pages 876 - 882 * |
郁汀等: "基于伪语义相似度模型的中文地址匹配方法", 测绘通报, no. 03, 25 March 2022 (2022-03-25), pages 101 - 106 * |
Also Published As
Publication number | Publication date |
---|---|
CN117457135B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086805B (zh) | 一种基于深度神经网络和成对约束的聚类方法 | |
CN110364251B (zh) | 一种基于机器阅读理解的智能交互导诊咨询系统 | |
CN106202955A (zh) | 基于编码智能适配的诊断相关分组方法及系统 | |
CN111080032A (zh) | 一种基于Transformer结构的负荷预测方法 | |
CN110032739A (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN109949929A (zh) | 一种基于深度学习大规模病历的辅助诊断系统 | |
CN104462216B (zh) | 居委标准代码转换系统及方法 | |
CN106383891A (zh) | 一种基于深度哈希的医学图像分布式检索方法 | |
CN113869052B (zh) | 基于ai的房屋地址匹配方法、存储介质及设备 | |
CN113706322A (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN116628510A (zh) | 一种自训练可迭代的人工智能模型训练方法 | |
CN115906857A (zh) | 一种基于词汇增强的中医文本命名实体识别方法 | |
CN116822579A (zh) | 基于对比学习的疾病分类icd自动编码方法和装置 | |
CN116662488A (zh) | 业务文档检索方法、装置、设备及存储介质 | |
CN115422518A (zh) | 基于无数据知识蒸馏的文本验证码识别方法 | |
CN113674824B (zh) | 一种基于区域医疗大数据的疾病编码方法和系统 | |
CN112862604B (zh) | 卡证发行机构的信息处理方法、装置、设备及存储介质 | |
CN113918704A (zh) | 基于机器学习的问答方法、装置、电子设备及介质 | |
CN117457135B (zh) | 一种地址数据治理方法和循环神经网络模型构建方法 | |
CN117316409A (zh) | 一种基于大数据的医院信息管理方法及系统 | |
CN116630062A (zh) | 一种医保欺诈行为检测方法、系统、存储介质 | |
CN117235275A (zh) | 一种基于大语言模型推理的医学疾病编码映射方法及装置 | |
CN116759082A (zh) | 一种基于知识图谱的健康评估系统 | |
CN116541755A (zh) | 一种基于时序图表征学习的金融行为模式分析预测方法 | |
Wang et al. | [Retracted] Evaluation Algorithm for the Effectiveness of Stroke Rehabilitation Treatment Using Cross‐Modal Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |