CN115983237A - 表格类型识别模型训练、预测及表格数据推荐方法和装置 - Google Patents
表格类型识别模型训练、预测及表格数据推荐方法和装置 Download PDFInfo
- Publication number
- CN115983237A CN115983237A CN202310279536.0A CN202310279536A CN115983237A CN 115983237 A CN115983237 A CN 115983237A CN 202310279536 A CN202310279536 A CN 202310279536A CN 115983237 A CN115983237 A CN 115983237A
- Authority
- CN
- China
- Prior art keywords
- vector
- medical data
- original medical
- data table
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种表格类型识别模型的训练方法、表格类型的预测方法及表格数据推荐方法和装置。所述训练方法包括:对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各原始医疗数据表格对应的第一向量;根据各原始医疗数据表格中内容所属的类型,生成各原始医疗数据表格对应的第二向量;将第一向量和第二向量连接,生成样本数据;使用样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。本发明利用神经网络模型来学习和预测原始医疗数据表格中文本内容信息与其类型之间的关系,实现对未知类型的原始医疗数据表格的类型的预测,提升了原始医疗数据表格的识读效率。
Description
技术领域
本发明涉及医保风控技术领域,特别涉及一种表格类型识别模型的训练方法、表格类型的预测方法及表格数据推荐方法和装置。
背景技术
在医疗数据场景下,医院每年都会产生大量的患者就医记录信息,同时每个医院之间的信息系统的数据结构(字段的种类、顺序以及表达方式)不同导致无法按照一个标准来识别不同医院患者就医记录信息。
例如,现代化医院通常均采用医院信息系统(Hospital Information System,HIS)对门诊、住院患者的就医信息进行存储和管理。但目前不同医院使用的HIS系统的厂商不一致,导致不同医院的HIS系统中的表格格式及内容表达形式杂乱,有相当一部分表格的表头和表名的可读性很低,在需要基于这些表格信息进行数据挖掘的应用场景下,例如医保风控领域,需要基于这些表格内容进行医保违规行为的监控。
为了做好数据挖掘,则必然需要对这些表格的内容进行识读,由于前述原因,这些表格格式和内容的杂乱无章,会使得理解表格中的表头和内容的具体含义变得尤为困难,也就无法从不同医院的HIS系统的表格中获取所需要的信息,而基于人工识读的方式,在数量巨大的表格数据的前提下,由于其效率低下而无法实际应用。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种表格类型识别模型的训练方法、表格类型的预测方法及表格数据推荐方法和装置。
第一方面,本发明实施例提供一种表格类型识别模型的训练方法,包括:
对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;
根据各所述原始医疗数据表格中内容所属的类型,生成各所述原始医疗数据表格对应的第二向量;
将所述第一向量和第二向量连接,生成样本数据;
使用所述样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
在一个实施例中,对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量,包括:
将所述原始医疗数据表中每个单元格中的文本信息作为短语,根据所述短语得到所述单元格的Embedding向量;
根据所述原始医疗数据表中同一列各单元格的Embedding向量,计算得到所述列的Embedding向量;
对各列的Embedding向量进行整合,生成与所述原始医疗数据表格对应的第一向量;所述第一向量为行向量,所包含的元素为各列的Embedding向量。
在一个实施例中,对各列的Embedding向量进行整合,生成与所述原始医疗数据表格对应的第一向量的步骤之后,所述方法还包括:
将所述第一向量输入至预设的长短期记忆网络进行处理,通过所述长短期记忆网络输出对应的第一中间向量;
将所述第一中间向量经过预设的全连接层,输出预设维数的隐向量;
所述生成各所述原始医疗数据表格对应的第二向量的步骤之后,所述方法还包括:
将所述第二向量经过所述预设的全连接层,输出预设维数的第二中间向量;所述第二中间向量的维数和所述隐向量的维数相等;
相应地,将所述第一向量和第二向量连接,生成样本数据的步骤,包括:
将所述隐向量和所述第二中间向量进行连接,生成所述样本数据。
在一个实施例中,所述样本数据为正样本数据;或者所述样本数据包括:正样本数据和负样本数据;
所述正样本数据中,所述第二向量是由所述每个原始医疗数据表格中内容所属的正确类型的类型标签所生成的;
所述负样本数据中,所述第二向量是由所述每个原始医疗数据表格中内容所属的错误类型的类型标签生成的。
在一个实施例中,所述对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;根据各所述原始医疗数据表格中内容所属的类型生成对应的第二向量之前,所述方法还包括:
针对每个原始医疗数据表格,随机抽取所述原始医疗数据表格中预设数量的行的数据,生成至少一个第一增补医疗数据表格;和/或,针对每个原始医疗数据表格,随机抽取所述原始医疗数据表格中预设数量的列的数据,生成至少一个第二增补医疗数据表格;
将所述第一增补医疗数据表格和/或所述第二增补医疗数据表格,补充至所述原始医疗数据表格中。
第二方面,本发明实施例提供一种表格类型的预测方法,包括:
对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到所述原始医疗数据表格对应的第一向量;
根据输入的至少一个表格类型,生成对应的第二向量;
将所述待预测的原始医疗数据表格的第一向量和所述第二向量连接,输入预先训练完成的表格类型识别模型;
通过所述表格类型识别模型输出所述原始医疗数据表格为所述输入的至少一个表格类型的概率值;
所述表格类型识别模型是通过如前述的表格类型识别模型的训练方法训练得到的。
第三方面,本发明实施例提供一种表格数据的推荐方法,包括:
接收用户输入待查询的表格类型;
根据输入的表格类型,获取为所述表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
对所述至少一个原始医疗数据表格进行排序并输出。
第四方面,本发明实施例提供一种表格类型识别模型的训练装置,包括:
第一向量生成模块,用于对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;
第二向量生成模块,用于根据各所述原始医疗数据表格中内容所属的类型,生成各所述原始医疗数据表格对应的第二向量;
样本生成模块,用于将所述第一向量和第二向量连接,生成样本数据;
训练模块,用于使用所述样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
第五方面,本发明实施例提供一种表格类型的预测装置,包括:
第三向量生成模块,用于对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到所述原始医疗数据表格对应的第一向量;
第四向量生成模块,用于根据输入的至少一个表格类型,生成对应的第二向量;
预测模块,用于将所述待预测的原始医疗数据表格的第一向量和所述第二向量连接,输入预先训练完成的表格类型识别模型;通过所述表格类型识别模型输出所述原始医疗数据表格为所述输入的至少一个表格类型的概率值;
所述表格类型识别模型是通过如前述的表格类型识别模型的训练方法训练得到的。
第六方面,本发明实施例提供的表格数据的推荐装置,包括:
接收模块,用于接收用户输入待查询的表格类型;
获取模块,用于根据输入的表格类型,获取为所述表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
推荐模块,用于对所述至少一个原始医疗数据表格进行排序并输出。
第七方面,本发明实施例提供的计算设备,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述表格类型识别模型的训练方法,或如前述表格类型的预测方法,或前述的表格数据的推荐方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的上述表格类型识别模型的训练方法、表格类型的预测方法及装置,对原始医疗数据表格的单元格信息进行向量提取,得到原始医疗数据表格对应的第一向量,以及根据各原始医疗数据表格中内容所属类型生成原始医疗数据表格对应的第二向量,然后利用神经网络模型来学习和预测原始医疗数据表格中文本内容信息与其类型之间的关系,从而实现对未知类型的原始医疗数据表格的类型的预测,提升了原始医疗数据表格的识读效率,解决了大量的原始医疗数据表格的识读的难题。
并且,本发明实施例中,生成与原始医疗数据表格对应的第一向量的步骤之后,使用LSTM长短期记忆网络对第一向量进行处理得到第一中间向量,利用第一中间向量进一步生成样本数据以训练神经网络模型,在此种方式下,可通过LSTM模型更好地学习原始医疗数据表格中列文本字段之间存在的内在关系,以更好地理解表格数据的真实内容,进一步提高了神经网络模型对结果预测的准确性。
基于上述表格类型的预测方法得到的各原始医疗数据表格与对应的表格类型之间的概率值,可实现根据输入的类型信息,为用户推荐概率大于预设的概率阈值的原始医疗数据表格,提高了推荐结果的准确性,为用户推荐有价值的数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中表格类型识别模型的训练方法的流程图;
图2为本发明实施例中步骤S11的实现流程图;
图3为本发明实施例中LSTM长短期记忆网络的结构示意图;
图4为本发明实施例中表格类型的预测方法的流程图;
图5为本发明实施例中表格数据的推荐方法的流程图;
图6为本发明实施例中表格类型识别模型的训练装置的结构框图;
图7为本发明实施例中表格类型的预测装置的结构框图;
图8为本发明实施例中表格数据的推荐装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中的问题,本发明实施例提供了一种表格类型识别模型的训练方法,参照图1所示,包括:
S11、对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各原始医疗数据表格对应的第一向量;
S12、根据各原始医疗数据表格中内容所属的类型,生成各原始医疗数据表格对应的第二向量;
S13、将第一向量和第二向量连接,生成样本数据;
S14、使用样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
原始医疗数据表指例如从医保数据系统中获得的各医疗机构HIS系统在医保范围内的与就诊、费用结算、诊疗明细相关的多个方面的表格。原始医疗数据表格会有多种类型,例如:门诊收费表、门诊诊断表、门诊就诊信息表、门诊结算主表、住院收费表、住院诊断表、住院就诊信息表、住院结算主表、化验结果表等等,不同原始医疗数据表单元格中的内容也因此不同。
原始医疗数据表格中包含多项数据,例如可包含:医院、药品、检查项目、疾病、姓名、性别、科室、就诊类型、付款方式、疾病编码、时间日期、计量单位等等。但原始医疗数据表格中,因为不同医院对于表格的格式和内容表达形式各异,比如有些表格中各列的表头使用的是汉字,有些表头使用的是汉语拼音缩写,或者是自定义的数据表达形式,无法按照一个统一的标准来识别原始医疗数据表格到底是哪一种类型的表格。
上述步骤S11中,对原始医疗数据表中行和列的单元格信息,使用预设的特征提取模型或者特征提取算法进行特征向量的提取,并利用每个单元格数据提取的特征向量,得到整个原始医疗数据表的第一向量,这样得到的第一向量可准确地反映原始医疗数据表的内容,作为训练样本的一部分,可更好地对神经网络进行训练,得到更准确的表格类型识别模型。
在上述步骤S12中,一般来说,在具体的业务场景下,不同的原始医疗数据表格划分为若干种类型,比如“门诊收费表”、 “住院诊断表”等类型,这些类型信息可被量化,采用特征向量的方式表示,即上述第二向量;
第二向量的生成方式也可以有多种,比如人为定义(采用设定的整数来表示),也可以借助特征提取模型输出或者特征提取算法计算得到,在此不再赘述。
在上述S13中,例如将512维的第一向量和第二向量进行连接,即可得到1024维的样本,多个样本可构成样本集。
上述步骤S14中,使用样本数据,对预设的神经网络模型进行训练,例如可采用有监督的学习的训练方法,即将样本数据划分为训练集和测试集,通过训练样本进行训练,并通过验证集验证学习效果,并反向调整神经网络模型的参数,使得模型的损失函数不断收敛,直至损失函数的损失达到预设的条件,本发明实施例对训练过程并不做限定,可根据实际采用的神经网络模型采用对应的训练方式,在此仅示例而已。
本发明实施例利用神经网络模型来学习和预测原始医疗数据表格中文本内容信息与其类型之间的关系,从而实现对未知类型的原始医疗数据表格的类型的预测,提升了原始医疗数据表格的识读效率,解决了大量的原始医疗数据表格的识读的难题。
在一个实施例中,上述步骤S11中,对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各原始医疗数据表格对应的第一向量,参照图2所示,可按照下述方式实现:
S21、对原始医疗数据表格中的每个单元格中的文本信息作为短语,根据短语得到该单元格的Embedding向量;
S22、根据原始医疗数据表中同一列各单元格的Embedding向量,计算得到列的Embedding向量;
S23、对各列的Embedding向量进行整合,生成与原始医疗数据表格对应的第一向量;
上述第一向量为行向量,所包含的元素为各列的Embedding向量。
上述步骤S22中,可将原始医疗数据表格中所有同一列的Embedding向量分别求平均值,得到原始医疗数据表格对应的Embedding行向量。但本发明实施例并不限于此种计算方式,例如还可以采用加权平均的方式、或者直接对同一列的Embedding向量进行求和取和值为原始医疗数据表格对应的Embedding行向量等等。
原始医疗数据表格中每一单元格中都包含文本信息。对于这些文本信息的处理,本发明实施例中,例如可以采用Sentence Transformer模型进行向量提取,即将每个单元格中的文本信息作为一个短语,将短语生成对应的Embedding向量。由于每个医疗表格数据中含有几十上百行数据,每一行数据代表的是一次医疗记录,需要预测表格数据整体所属类别,可将每一列所生成的Embedding向量取平均数(或者其他算法计算得到的数据),就会得到这列的Embedding向量,将原始医疗数据表格中所有列的Embedding向量整合后,可形成原始医疗数据表格对应的第一向量,这个第一向量例如可采用行向量的形式,该行向量所包含的元素即各列的Embedding向量,这个行向量进行后续处理后可作为神经网络模型的输入。
一个第一向量的例子如下:[a, b, c, d, e, f],其中a, b,c, d, e, f分别代表原始表格数据中的各列的Embedding向量。
由于每个医疗表格数据中含有几十上百行数据,每一行数据代表的是一次医疗记录,同列的数据所属的类别是相同的,该场景下,由于需要预测表格数据整体所属类别,所以对于同一列的所有单元格所对应的Embedding向量求平均值,同一列中表格中的向量的平均值来代表该列数据的类别,经过该处理过程,一个拥有多行数据的表格最终被转化成只有一行数据的形式(即上述行向量形式的第一向量),该行数据中每一个向量都代表着一列数据的类型。最后每一个医疗表格数据都被处理成Embedding向量的序列形式,用做后续的模型输入,这种方式考虑到列中各单元格文本字段间的相似性,消除单独的误差,提升精准度;同时以一个向量代替一列所有单元格的内容,相比针对每个单元格内容进行单独统计可以显著减少计算量,提升效率。
在一个实施例中,样本数据为正样本数据,或者样本数据可以同时包含正样本数据和负样本数据;
负样本数据可以作为样本数据的扩充,尤其在正样本数据数量不足的情况下,将包含正样本数据和负样本数据的样本数据输入至神经网络模型中对神经网络模型进行训练,可避免训练出的表格类型识别模型过拟合的现象,保证其预测结果的准确性。
在正样本数据中,第二向量是由每个原始医疗数据表格中内容所属的正确类型的类型标签所生成的;
在负样本数据中,第二向量是由每个原始医疗数据表格中内容所属的错误类型的类型标签生成的。
在一个实施例中,上述正样本数据中的第二向量,例如可通过下述方式生成:
对每个原始医疗数据表格对应的正确类型的类型标签,进行独热编码,生成正确类型的独热向量。
根据预设的原始医疗数据表格类型的数量,来决定最终生成的独热向量的数量。
举例来说,例如按照业务场景将医疗数据表格分为了十个类型,在上述门诊收费表、门诊诊断表、门诊就诊信息表、门诊结算主表、住院收费表、住院诊断表、住院就诊信息表、住院结算主表、化验结果表的类型基础上,再增加一个称为“其他”的类型。每个原始医疗数据表格的类型都有对应的类型标签。
类型标签可以通过预先人工确定,或者其他方式确定。
将类型标签进行热独编码,生成对应的独热向量,作为后续模型的输入。
例如,对于某一原始医疗数据表格,其标签为类别一(对应某个具体类别,例如门诊收费表),则该类别标签会被处理为[1,0,0,0,0,0,0,0,0,0]的向量,由于每一原始医疗数据表格都有其对应的类别标签,所以都会生成对应表格数量的类别标签独热编码。
正样本的意义在于,通过机器学习模型,学习原始医疗数据表格的内容与其类型之间的潜在关系,以确定一个未知类型的原始医疗数据表格是某个类型的概率。
上述负样本数据中的第二向量的生成,可参照下述方式实施:
对每个原始医疗数据表格对应的至少一种错误类型的类型标签,进行独热编码,生成至少一个错误类型的独热向量。
还是以前述十种类型为例(门诊收费表、门诊诊断表、门诊就诊信息表、门诊结算主表、住院收费表、住院诊断表、住院就诊信息表、住院结算主表、化验结果表外加其他类型)。
例如:将每一个原医疗表格数据所对应的另外九种错误类型标签也同样处理成独热向量。
基于此,每一个原始医疗数据表格都会对应着一个正确的类型标签和九个错误的类型标签。
具体处理方式可将同一原始医疗数据表格先复制成相同的十个表格,如其对应的正确类别标签为种类一,已经生成的正样本标签,即[1,0,0,0,0,0,0,0,0,0]。那么,对应负样本数据来说,还会生成九个错误的标签,分别是[0,1,0,0,0,0,0,0,0,0]、[0,0,1,0,0,0,0,0,0,0]、[0,0,0,1,0,0,0,0,0,0]、[0,0,0,0,1,0,0,0,0,0]、[,0,0,0,0,0,1,0,0,0]、[0,0,0,0,0,0,0,1,0,0]、[0,0,0,0,0,0,0,0,1,0]、[0,0,0,0,0,0,0,0,0,1]。
若某个原始医疗数据表格正样本的类型标签对应的是门诊收费表,那么,负样本数据对应的类型标签则应该是除了门诊收费表之外的九个类型标签,即:
门诊诊断表、门诊就诊信息表、门诊结算主表、住院收费表、住院诊断表、住院就诊信息表、住院结算主表、化验结果表和其他。
在一个实施例中,如果用于学习的样本数据(不管是正样本数据还是负样本数据)的数量较少,则为了防止模型的过拟合,需要对数据进行适当的扩充,即数据增强,扩充的方法分为两种,分别是根据表格中行数据所做的数据增强和对列数据所做的数据增强。具体实施时,可以仅做行数据的数据增强,或者仅做列数据的数据增强,还可以同时执行行数据的数据增强和列数据的数据增强。即对原始医疗数据表格中的行数据和/或列数据进行扩充。
针对每个原始医疗数据表格,随机抽取原始医疗数据表格中预设数量的行的数据,生成至少一个第一增补医疗数据表格;和/或,针对每个原始医疗数据表格,随机抽取原始医疗数据表格中预设数量的列的数据,生成至少一个第二增补医疗数据表格;
将第一增补医疗数据表格和/或第二增补医疗数据表格,补充至原始医疗数据表格中。
具体来说,其中对行数据做数据扩充的方法例如可以是,对于每一张表格,随机抽取出其中的五分之一行生成新的表格数据,反复抽取十遍,这样就可在原本的数据量基础上增加了十倍的数据量。
对列做数据扩充的方法例如,在表格中的随机位置插入随机数量的空列,并反复多次。这样做的好处在于不仅扩充了数据量,而且可以模拟不同服务商数据存储的方式,可增加模型的泛化能力。
本发明的发明人发现,由于医疗数据大多以表格的数据形式存在,如果采用通过机器学习的方法将每一个字段的内容识别出来,而后人工为每一个字段赋予权重,最后依据权重求和得出最终的预测的方法,可能存在人工定义的权重值准确性不高,导致最终的预测结果不理想的缺点。并且,这种方式无法有效提取数据表内不同字段间的关联,会缺失一定的有效信息。
本发明的发明人考虑到可以使用序列化的神经网络来提取表格中文本内容信息,同时考虑文本字段间的前后顺序,在文本信息提取之后通过深度学习的方法而非人工定义权重的方式预测最终的结果,从数据本身的分布提取出有效信息。
基于此,在一个实施例中,上述步骤S23对各列的Embedding向量进行整合,生成与原始医疗数据表格对应的第一向量的步骤之后,本发明实施例还可执行下述步骤:将第一向量输入至预设的长短期记忆网络进行处理,通过长短期记忆网络输出对应的第一中间向量;
将第一中间向量经过预设的全连接层,输出预设维数的隐向量;
并且,上述S12中生成各原始医疗数据表格对应的第二向量的步骤之后,还可以执行下述步骤:
将第二向量经过预设的全连接层,输出预设维数的第二中间向量;第二中间向量的维数和隐向量的维数相等。
相应地,前述步骤S13将第一向量和第二向量连接,生成样本数据的步骤,可通过将隐向量和第二中间向量进行连接,生成样本数据来实现。
参照图3所示的流程图,左边的分支指示的是表格数据的处理部分,右边的分支指示的是表格类别标签的处理部分,两者汇合后的流程指示的是融合两者对神经网络模型进行训练并预测表格得分的部分。
对于表格数据,使用sentence transformers模型进行向量提取,即前文中提到的Embedding向量的生成部分。
LSTM(Long short-term memory)模型对生成的Embedding向量进行处理,LSTM是长短期记忆网络模型,是一种时间循环神经网络模型。使用这种长短期记忆网络模型能够提取序列间的相互关系,在医疗数据中,由于表格的内容之间并不是彼此割裂的,表格间的内容也存在一定的关系,例如,在药品的列之后往往会跟随着单位或者数量的列信息。利用LSTM模型可以更好地学习这种内在的联系,以更好地理解表格数据的真实内容。
医疗表格数据经过LSTM模型之后会在最后一个时间步中输出一个中间向量,该向量既含有表格中每列的信息,也包含了列之间交互的信息。中间向量再经过Dense(32)这个全连接层后输出一个32维的隐向量。
在表格类别数据的处理部分,表格类别数据所生成的独热向量会被输入右侧的Dense(32)全连接层结构,也会输出一个32维的中间向量,这里设置的32维向量是为了保持和表格数据所生成的向量长度相同。
类别处理部分生成的中间向量与之前LSTM模型生成的32维的中间向量会被连接到一起一同输入到之后的深度神经网络中做进一步融合。此处深度神经网络的作用是深度融合两边的向量得出一个匹配度结果,相比于寻常排序模型将两边向量做简单的内积或者求向量间距离的做法,深度神经网络模型对两边向量进行了一个更好的计算,最终输出代表的是输入医疗表格数据属于输入类型的概率。
本发明实施例并不限定深度神经网络模型的具体类型,比如卷积神经网络(CNN)、图神经网络等等。
在本发明实施例中,对于正样本数据,即原始医疗数据表格的Embedding行向量对应正确的类别标签,其训练的优化目标为1,即匹配度为百分之百;而对于原始医疗数据表格的Embedding行向量对应各错误的类别标签,即表格对应的错误的类别标签,其训练目标为零。
对应地,损失函数用以表征输入正样本时LSTM模型的输出结果与输出正确类型的类型标签的概率之间的建模损失,以及表征输入负样本时LSTM模型的输出结果与输出错误类型的类型标签的概率之间的建模损失。
在训练样本和测试样本中,同时包含了正样本数据和负样本数据,因此,对于损失函数而言,可包含对于这两类数据的损失,以使得模型最终的训练结果,趋于达到上述训练目标,训练完成的模型,可确定原始医疗数据表格属于各类型的概率,从而实现根据输入的查询的数据类型,完成原始医疗数据表格的推荐。
完成上述表格类型识别模型的训练过程后,即可利用该模型进行表格类型的预测,本发明实施例提供了一种表格类型的预测方法,参照图4所示,该方法包括下述步骤:
S41、对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到原始医疗数据表格对应的第一向量;
S42、根据输入的至少一个表格类型,生成对应的第二向量;
上述步骤S42中,将输入的表格类型,生成对应的第二向量的具体实施方式,可参照前述步骤S12的具体实施方式,在此不再赘述。
与前述步骤S12不同的是,本步骤S42中,表格类型可以根据用户的输入操作得来,例如从用户输入的某个类型的查询词或者从用户点击选择的表格类型选项中得来,或者其他方式得到,本发明实施例并不限定。
S43、将待预测的原始医疗数据表格的第一向量和第二向量连接,输入预先训练完成的表格类型识别模型;
本步骤S43的实施,可参照前述S13的实施,在此不再赘述。
S44、通过表格类型识别模型输出原始医疗数据表格为输入的至少一个表格类型的概率值;
上述表格类型识别模型是通过前述表格类型识别模型的训练方法训练得到的。
利用本发明实施例提供的表格类型识别模型,可预测某个原始医疗数据表格为某个特定类型下的概率,实现对于任意原始医疗数据表格所属的类型的确定。
上述步骤S41中待预测的原始医疗数据表格的行和列的内容进行向量提取,得到原始医疗数据表格对应的第一向量的步骤,具体实施方式可参照前述步骤S11的实施方式,在此不再赘述。进一步地,参照图3所示,将各待预测的原始医疗数据表格分别进行向量提取,得到各带预测的原始医疗数据表格对应的第一向量之后,将其经过LSTM模型进行处理,生成中间向量,并经过Dense(32)这个全连接层后输出32维隐向量,这些可参照前述说明,在此不再赘述。
将用户输入的待查询的表格类型的数据进行向量提取,得到第二向量,经过一个Dense(32)这个全连接层后输出 32维中间向量,最终与前述32维隐向量连接后输入训练好的表格类型识别模型中,经过表格类型识别模型输出待预测的原始医疗数据表格属于用户输入的待查询的表格类型的概率值。比如用户输入的是“门诊收费表”的类型,某待预测的原始医疗数据表格对应的模型输出结果为0.85,即表示该原始医疗数据表格属于“门诊收费表”这一类型的概率为85%。
本发明实施例提供的上述表格类型识别模型的训练方法、表格类型的预测方法,对原始医疗数据表格的行和列的文本内容信息进行处理,进行第一向量提取,以及将各原始医疗数据表格的类型进行处理,提取第二向量,然后利用神经网络模型来学习和预测原始医疗数据表格中文本内容信息与其类型之间的关系,从而实现对未知类型的原始医疗数据表格的类型的预测,从数据本身的分布提取出有效信息,提升了原始医疗数据表格的识读效率,解决了大量的原始医疗数据表格的识读的难题。
并且,本发明实施例中,生成与原始医疗数据表格对应的第一向量的步骤之后,使用LSTM长短期记忆网络模型对第一向量进行处理得到第一中间向量,利用第一中间向量进一步生成样本数据以训练神经网络模型,在此种方式下,可通过LSTM模型更好地学习原始医疗数据表格中列文本字段之间存在的内在关系,以更好地理解表格数据的真实内容,进一步提高了神经网络模型对结果预测的准确性。
利用上述表格类型的预测方法,可以利用上述训练好的表格类型识别模型,
将数据格式和内容表达形式各异的各种原始医疗数据表格,计算各种原始医疗数据表格在预设的几种类型下的概率,进而实现通过输入某个表格类型,实现与表格类型对应各个原始医疗数据表格的推荐。
相应地,本发明实施例还提供了一种表格数据的推荐方法,参照图5所示,包括下述步骤:
S51、接收用户输入待查询的表格类型;
本发明实施例并不限于用户输入的方式,例如采用输入框直接输入文字的方式,或者通过预先提供的选项选择的方式,或者通过语音输入的方式等等。
S52、根据输入的表格类型,获取为该表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
S53、对至少一个原始医疗数据表格进行排序并输出。
本发明实施例提供的上述表格数据的推荐方法中,可提供用户交互的界面,供用户输入想要查询的表格类型,比如输入“住院收费表”、“门诊诊断表”或者“住院收费表”等信息,利用前述表格类型的预测方法得到的预测结果,可根据输入的表格类型,获取那些为该表格类型的概率大于预设的概率阈值的所有原始医疗表格,并将获取到的原始医疗数据表格按照概率的大小进行排序,为了方便用户查看,例如可按照概率值从高到低进行排序进行推荐。
举例来说,比如输入“住院收费表”,此时,系统可将预先通过表格类型识别模型预测到的各原始医疗数据表格中,为“住院收费表”这种类型的概率值大于75%的表格筛选出来,并按照各自为“住院收费表”这种类型的概率值,按照从大到小进行排序并展示。
基于上述表格类型的预测方法得到的各原始医疗数据表格与对应的表格类型之间的概率值,可实现根据输入的类型信息,为用户推荐概率大于预设的概率阈值的原始医疗数据表格,提高了推荐结果的准确性,为用户推荐有价值的数据。
基于同一发明构思,本发明实施例还提供了一种表格类型识别模型的训练装置、表格类型的预测装置和表格数据的推荐装置,由于这些装置所解决问题的原理与前述表格类型识别模型的训练方法、表格类型的预测方法和表格数据的推荐方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供了一种表格类型识别模型的训练装置,参照图6所示,包括:
第一向量生成模块61,用于对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各原始医疗数据表格对应的第一向量;
第二向量生成模块62,用于根据各原始医疗数据表格中内容所属的类型,生成各原始医疗数据表格对应的第二向量;
样本生成模块63,用于将第一向量和第二向量连接,生成样本数据;
训练模块64,用于使用样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
本发明实施例提供了一种表格类型的预测装置,参照图7所示,包括:
第三向量生成模块71,用于对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到原始医疗数据表格对应的第一向量;
第四向量生成模块72,用于根据输入的至少一个表格类型,生成对应的第二向量;
预测模块73,用于将待预测的原始医疗数据表格的第一向量和第二向量连接,输入预先训练完成的表格类型识别模型;通过表格类型识别模型输出原始医疗数据表格为输入的至少一个表格类型的概率值;
上述表格类型识别模型是通过如前述的表格类型识别模型的训练方法训练得到的。
本发明实施例提供了一种表格数据的推荐装置,参照图8所示,包括:
接收模块81,用于接收用户输入待查询的表格类型;
获取模块82,用于根据输入的表格类型,获取为表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
推荐模块83,用于对至少一个原始医疗数据表格进行排序并输出。
本发明实施例提供了一种计算设备,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如前述的表格类型识别模型的训练方法,或如前述的表格类型的预测方法,或如前述的表格数据的推荐方法。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现权如前述的表格类型识别模型的训练方法,或如前述的表格类型的预测方法,或如前述的表格数据的推荐方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现如前述的表格类型识别模型的训练方法,或如前述的表格类型的预测方法,或如前述的表格数据的推荐方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种表格类型识别模型的训练方法,其特征在于,包括:
对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;
根据各所述原始医疗数据表格中内容所属的类型,生成各所述原始医疗数据表格对应的第二向量;
将所述第一向量和第二向量连接,生成样本数据;
使用所述样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
2.如权利要求1所述的方法,其特征在于,对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量,包括:
将所述原始医疗数据表中每个单元格中的文本信息作为短语,根据所述短语得到所述单元格的Embedding向量;
根据所述原始医疗数据表中同一列各单元格的Embedding向量,计算得到所述列的Embedding向量;
对各列的Embedding向量进行整合,生成与所述原始医疗数据表格对应的第一向量;所述第一向量为行向量,所包含的元素为各列的Embedding向量。
3.如权利要求2所述的方法,其特征在于,根据所述原始医疗数据表中同一列各单元格的Embedding向量,计算得到所述列对应的Embedding向量,包括:
对所述原始医疗数据表格中所有同一列的Embedding向量分别求平均值,计算得到所述列的Embedding向量。
4.如权利要求2所述的方法,其特征在于,对各列的Embedding向量进行整合,生成与所述原始医疗数据表格对应的第一向量的步骤之后,所述方法还包括:
将所述第一向量输入至预设的长短期记忆网络进行处理,通过所述长短期记忆网络输出对应的第一中间向量;
将所述第一中间向量经过预设的全连接层,输出预设维数的隐向量;
所述生成各所述原始医疗数据表格对应的第二向量的步骤之后,所述方法还包括:
将所述第二向量经过所述预设的全连接层,输出预设维数的第二中间向量;所述第二中间向量的维数和所述隐向量的维数相等;
相应地,将所述第一向量和第二向量连接,生成样本数据的步骤,包括:
将所述隐向量和所述第二中间向量进行连接,生成所述样本数据。
5.如权利要求1-4任一项所述的方法,其特征在于,所述样本数据为正样本数据;或者所述样本数据包括:正样本数据和负样本数据;
所述正样本数据中,所述第二向量是由所述每个原始医疗数据表格中内容所属的正确类型的类型标签所生成的;
所述负样本数据中,所述第二向量是由所述每个原始医疗数据表格中内容所属的错误类型的类型标签生成的。
6.如权利要求1-4任一项所述的方法,其特征在于,所述对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;根据各所述原始医疗数据表格中内容所属的类型生成对应的第二向量之前,所述方法还包括:
针对每个原始医疗数据表格,随机抽取所述原始医疗数据表格中预设数量的行的数据,生成至少一个第一增补医疗数据表格;和/或,针对每个原始医疗数据表格,随机抽取所述原始医疗数据表格中预设数量的列的数据,生成至少一个第二增补医疗数据表格;
将所述第一增补医疗数据表格和/或所述第二增补医疗数据表格,补充至所述原始医疗数据表格中。
7.一种表格类型的预测方法,其特征在于,包括:
对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到所述原始医疗数据表格对应的第一向量;
根据输入的至少一个表格类型,生成对应的第二向量;
将所述待预测的原始医疗数据表格的第一向量和所述第二向量连接,输入预先训练完成的表格类型识别模型;
通过所述表格类型识别模型输出所述原始医疗数据表格为所述输入的至少一个表格类型的概率值;
所述表格类型识别模型是通过如权利要求1-6任一项所述的表格类型识别模型的训练方法训练得到的。
8.一种表格数据的推荐方法,其特征在于,包括:
接收用户输入待查询的表格类型;
根据输入的表格类型,获取为所述表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
对所述至少一个原始医疗数据表格进行排序并输出。
9.一种表格类型识别模型的训练装置,其特征在于,包括:
第一向量生成模块,用于对各原始医疗数据表格的行和列的单元格信息进行向量提取,得到各所述原始医疗数据表格对应的第一向量;
第二向量生成模块,用于根据各所述原始医疗数据表格中内容所属的类型,生成各所述原始医疗数据表格对应的第二向量;
样本生成模块,用于将所述第一向量和第二向量连接,生成样本数据;
训练模块,用于使用所述样本数据,对预设的神经网络模型进行训练,得到对应的表格类型识别模型。
10.一种表格类型的预测装置,其特征在于,包括:
第三向量生成模块,用于对待预测的原始医疗数据表格的行和列的单元格信息进行向量提取,得到所述原始医疗数据表格对应的第一向量;
第四向量生成模块,用于根据输入的至少一个表格类型,生成对应的第二向量;
预测模块,用于将所述待预测的原始医疗数据表格的第一向量和所述第二向量连接,输入预先训练完成的表格类型识别模型;通过所述表格类型识别模型输出所述原始医疗数据表格为所述输入的至少一个表格类型的概率值;
所述表格类型识别模型是通过如权利要求1-6任一项所述的表格类型识别模型的训练方法训练得到的。
11.一种表格数据的推荐装置,其特征在于,包括:
接收模块,用于接收用户输入待查询的表格类型;
获取模块,用于根据输入的表格类型,获取为所述表格类型的概率大于预设的概率阈值的至少一个原始医疗数据表格;
推荐模块,用于对所述至少一个原始医疗数据表格进行排序并输出。
12.一种计算设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-6任一项所述的表格类型识别模型的训练方法,或如权利要求7所述的表格类型的预测方法,或如权利要求8所述的表格数据的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310279536.0A CN115983237B (zh) | 2023-03-21 | 2023-03-21 | 表格类型识别模型训练、预测及表格数据推荐方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310279536.0A CN115983237B (zh) | 2023-03-21 | 2023-03-21 | 表格类型识别模型训练、预测及表格数据推荐方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115983237A true CN115983237A (zh) | 2023-04-18 |
CN115983237B CN115983237B (zh) | 2023-06-13 |
Family
ID=85958304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310279536.0A Active CN115983237B (zh) | 2023-03-21 | 2023-03-21 | 表格类型识别模型训练、预测及表格数据推荐方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983237B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668566A (zh) * | 2020-12-23 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 表格处理方法、装置、电子设备及存储介质 |
CN112836061A (zh) * | 2021-01-12 | 2021-05-25 | 平安科技(深圳)有限公司 | 智能推荐的方法、装置以及计算机设备 |
CN113297975A (zh) * | 2021-05-25 | 2021-08-24 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
US20210406266A1 (en) * | 2020-06-30 | 2021-12-30 | Microsoft Technology Licensing, Llc | Computerized information extraction from tables |
CN115204300A (zh) * | 2022-07-21 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 文本和表格语义交互的数据处理方法、装置及存储介质 |
CN115222066A (zh) * | 2022-07-21 | 2022-10-21 | 中国平安人寿保险股份有限公司 | 模型训练方法和装置、行为预测方法、设备及存储介质 |
CN115512374A (zh) * | 2021-06-04 | 2022-12-23 | 中移雄安信息通信科技有限公司 | 针对表格文本的深度学习特征提取分类方法及装置 |
-
2023
- 2023-03-21 CN CN202310279536.0A patent/CN115983237B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406266A1 (en) * | 2020-06-30 | 2021-12-30 | Microsoft Technology Licensing, Llc | Computerized information extraction from tables |
CN112668566A (zh) * | 2020-12-23 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 表格处理方法、装置、电子设备及存储介质 |
CN112836061A (zh) * | 2021-01-12 | 2021-05-25 | 平安科技(深圳)有限公司 | 智能推荐的方法、装置以及计算机设备 |
CN113297975A (zh) * | 2021-05-25 | 2021-08-24 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN115512374A (zh) * | 2021-06-04 | 2022-12-23 | 中移雄安信息通信科技有限公司 | 针对表格文本的深度学习特征提取分类方法及装置 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN115204300A (zh) * | 2022-07-21 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 文本和表格语义交互的数据处理方法、装置及存储介质 |
CN115222066A (zh) * | 2022-07-21 | 2022-10-21 | 中国平安人寿保险股份有限公司 | 模型训练方法和装置、行为预测方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115983237B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US11720649B2 (en) | System and method for classification of data in a machine learning system | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN112990294B (zh) | 行为判别模型的训练方法、装置、电子设备及存储介质 | |
US20230178199A1 (en) | Method and system of using hierarchical vectorisation for representation of healthcare data | |
CN114462412B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN112465231A (zh) | 地区人口健康状态预测方法、设备和可读存储介质 | |
CN113688239B (zh) | 少样本下的文本分类方法、装置、电子设备及存储介质 | |
CN111582315A (zh) | 样本数据处理方法、装置及电子设备 | |
CN114298314A (zh) | 一种基于电子病历的多粒度因果关系推理方法 | |
CN113344125A (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
Dubey et al. | Smart Underwriting System: An Intelligent Decision Support System for Insurance Approval & Risk Assessment | |
CN115983237B (zh) | 表格类型识别模型训练、预测及表格数据推荐方法和装置 | |
CN113656586B (zh) | 情感分类方法、装置、电子设备及可读存储介质 | |
CN116227478A (zh) | 面向DRGs支付的诊断依据发现方法及系统 | |
US20210174027A1 (en) | Assertion Detection in Multi-Labelled Clinical Text using Scope Localization | |
CN112069322B (zh) | 文本多标签分析方法、装置、电子设备及存储介质 | |
CN112487811B (zh) | 基于强化学习的级联信息提取系统及方法 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN112185457A (zh) | 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法 | |
CN113535888A (zh) | 一种情感分析装置、方法、计算设备及可读存储介质 | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
CN112507126B (zh) | 一种基于循环神经网络的实体链接装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |