CN108563645A

CN108563645A - His系统的元数据翻译方法和装置

Info

Publication number: CN108563645A
Application number: CN201810376930.5A
Authority: CN
Inventors: 陈曦
Original assignee: Chengdu Zhixin Electronic Technology Co Ltd
Current assignee: Suzhou Yiyuan Wanshu Technology Co.,Ltd.
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-09-21
Anticipated expiration: 2038-04-24
Also published as: CN108563645B

Abstract

本申请涉及一种HIS系统的元数据翻译方法和装置，所述方法包括：收集HIS系统中元数据所涉及的中文词汇，并给出每一个中文词汇所对应的多种表达形式，从而建立元数据字典；录入待翻译的元数据，并对其进行整词翻译，然后检查是否能够得出翻译结果；如果是，则将翻译结果输出；如果否，则对元数据进行拆词翻译，然后将翻译结果输出。本申请的方法通过拆解的方式，能够翻译出大部分不规则的医院内部元数据，并且翻译效果良好；针对命名不规则、翻译难度高的医疗元数据，实现机器自动翻译，减少了人力成本。

Description

HIS系统的元数据翻译方法和装置

技术领域

本申请涉及信息管理系统技术领域，具体涉及一种HIS系统的元数据翻译方法和装置。

背景技术

HIS(Hospital Information System，医院信息系统)是应用于医院的一种信息管理系统，该系统以财务信息、病人信息和物资信息为主线，通过对信息的收集、存储、传递、统计和分析，从而实现综合查询、报表输出和信息共享等功能，及时为医院领导及各部门管理人员提供全面的数据服务。

当前存在的情况是，不同医院、甚至同一医院内往往存在多个不同厂商所设计的HIS系统，而不同厂商对HIS系统的表结构、字段都有自己的设计，导致多个系统之间不能进行数据共享，成为一个个数据孤岛。为了能够统一使用各异构HIS系统中的数据，首先需要将各异构HIS系统中的元数据翻译为通用的名称。元数据是描述数据的数据，主要是指HIS系统中数据表的表名及数据表中的各个列字段的字段名。

目前医院HIS系统中存储的元数据都是人为定义的，没有一个通用的、固定的规则；可以是拼音，可以是拼音首字母缩写，可以是英文，可以是英文缩写，也可以是毫无意义的字符。在这种情况下，想要准确地翻译出每个元数据所代表的意义是极其困难的。

相关技术中，对元数据进行翻译主要依靠人工操作，技术人员根据经验做出判断，再联系数据表中所存储的数据进行佐证，从而确定元数据所对应的实际词汇。这种方式工作量大、效率很低，因而成本很高，在实际实施时难以操作。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种HIS系统的元数据翻译方法和装置。

根据本申请实施例的第一方面，提供一种HIS系统的元数据翻译方法，包括：

收集HIS系统中元数据所涉及的中文词汇，并给出每一个中文词汇所对应的多种表达形式，从而建立元数据字典；

录入待翻译的元数据，并对其进行整词翻译，然后检查是否能够得出翻译结果；

如果是，则将翻译结果输出；如果否，则对元数据进行拆词翻译，然后将翻译结果输出。

进一步地，所述多种表达形式包括全拼、拼音首字母、英文和英文缩写。

进一步地，所述方法还包括：

对于进行拆词翻译后仍然不能得出翻译结果的元数据，则直接录入翻译结果，并将该词汇收录到所述元数据字典中。

进一步地，所述进行整词翻译，包括：

在所述元数据字典中进行检索，查看是否存在与待翻译的元数据相同的表达形式；

如果存在，则将该表达形式所对应的中文词汇作为翻译结果；如果不存在，则没有翻译结果。

进一步地，所述进行拆词翻译，包括：

将待翻译的元数据进行动态拆分，得到若干个字符串；

依次对这若干个字符串进行整词翻译；

如果若干个字符串都能够得出整词翻译的翻译结果，则将若干个字符串的整词翻译的翻译结果进行拼接，作为拆词翻译的翻译结果；

如果若干个字符串中的任意一个字符串无法得出整词翻译的翻译结果，则待翻译的元数据不能得出拆词翻译的翻译结果。

进一步地，所述行动态拆分，包括：

待翻译的元数据中共包含N个字符；

将其拆分为两个字符串，其中一个字符串为第一个字符至第n个字符，另一个字符串为第n+1个字符至第N个字符；

其中，2≤n<N且n为整数。

进一步地，所述将翻译结果输出之前，还包括：

如果整词翻译或拆词翻译后存在多个翻译结果，则分别计算每一个翻译结果的权重值；

选择权重值最大的翻译结果，将其确定为最终的翻译结果。

进一步地，所述计算每一个翻译结果的权重值，包括：

利用卷积神经网络训练出元数据相似度模型；

通过元数据相似度模型计算翻译结果与上下文之间的关联程度，将关联程度作为该翻译结果的权重值；

所述上下文包括数据表的表名，以及同一个数据表下的字段的字段名。

进一步地，所述计算每一个翻译结果的权重值，包括：

考察每一个翻译结果出现的频率，将频率值作为该翻译结果的权重值。

根据本申请实施例的第二方面，提供一种HIS系统的元数据翻译装置，包括：

字典模块，用于收集HIS系统中元数据所涉及的中文词汇，并给出每一个中文词汇所对应的多种表达形式，从而建立元数据字典；

录入模块，用于录入待翻译的元数据；

整词翻译模块，用于对待翻译的元数据进行整词翻译；

检查模块，用于检查是否得出翻译结果；

拆词翻译模块，用于对待翻译的元数据进行拆词翻译；

输出模块，用于将翻译结果输出。

根据本申请实施例的第三方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种HIS系统的元数据翻译方法，所述方法包括：

根据本申请实施例的第四方面，提供一种HIS系统的元数据翻译设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的方法通过拆解的方式，能够翻译出大部分不规则的医院内部元数据，并且翻译效果良好；针对命名不规则、翻译难度高的医疗元数据，实现机器自动翻译，减少了人力成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种HIS系统的元数据翻译方法的流程图。

图2是根据一示例性实施例示出的一种HIS系统的元数据翻译方法的程序流程图。

图3是根据一示例性实施例示出的一种HIS系统的元数据翻译装置的电路框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种HIS系统的元数据翻译方法的流程图，包括以下步骤：

步骤100：收集HIS系统中元数据所涉及的中文词汇，并给出每一个中文词汇所对应的多种表达形式，从而建立元数据字典；

步骤200：录入待翻译的元数据，并对其进行整词翻译，然后检查是否能够得出翻译结果；

步骤300：如果是，则将翻译结果输出；如果否，则对元数据进行拆词翻译，然后将翻译结果输出。

本申请的基本思路是，通过建立元数据字典解决有比较明确命名规律或已学习到的元数据的翻译。通过分步解决的方法，即对难解词先拆分成两部分，针对每一部分翻译，最后再将各部分翻译拼接起来获得最后的结果。

在步骤100中，可以通过爬虫搜集或定向搜集医疗用语材料，从中自动提取出HIS系统元数据可能涉及的中文用语，建立元数据字典。

一些实施例中，在该字典中针对同一个中文词汇，所述多种表达形式包括全拼、拼音首字母、英文、英文缩写等形式。

对于一少部分不能通过整词翻译和拆词翻译得出结果的极生僻的元数据，可以采用人工校对方式完成翻译，并在完成翻译后将其收录到元数据字典中。因此，一些实施例中，所述方法还包括：

步骤400：对于进行拆词翻译后仍然不能得出翻译结果的元数据，则直接录入翻译结果，并将该词汇收录到所述元数据字典中。

一些实施例中，所述进行整词翻译，包括：

步骤210：在所述元数据字典中进行检索，查看是否存在与待翻译的元数据相同的表达形式；

步骤220：如果存在，则将该表达形式所对应的中文词汇作为翻译结果；如果不存在，则没有翻译结果。

在元数据字典中，每一个词条包含一个中文词汇，及其所对应的多种表达形式。如果一个待翻译的元数据与某一个词条中的某一种表达形式相同，则将该词条的中文词汇作为翻译结果。

录入待翻译的元数据后，首先利用元数据字典，对数据进行整词翻译。这样对于有一定命名规律可寻的HIS元数据，比如中文命名、全拼音命名、英文命名、英文缩写命名等，可以通过整词翻译直接得到翻译结果。对于之前已经通过步骤400学习过的元数据，也可以直接得到结果。

一些实施例中，所述进行拆词翻译，包括：

步骤310：将待翻译的元数据进行动态拆分，得到若干个字符串；

步骤320：依次对这若干个字符串进行整词翻译；

步骤330：如果若干个字符串都能够得出整词翻译的翻译结果，则将若干个字符串的整词翻译的翻译结果进行拼接，作为拆词翻译的翻译结果；

步骤340：如果若干个字符串中的任意一个字符串无法得出整词翻译的翻译结果，则待翻译的元数据不能得出拆词翻译的翻译结果。

具体地，比如：一个待翻译的元数据为“mzincome”，可将其拆分为[mz,income]，拆词翻译的结果是[门诊，收入]，拼接后得到“门诊收入”。

一些实施例中，所述行动态拆分，包括：

步骤311：待翻译的元数据中共包含N个字符；

步骤312：将其拆分为两个字符串，其中一个字符串为第一个字符至第n个字符，另一个字符串为第n+1个字符至第N个字符；

其中，2≤n<N且n为整数。

以同样的实施例进行说明，元数据为“mzincome”，可以依次将其拆分为[mz,income]、[mzi,ncome]、[mzin,come]、[mzinc,ome]、[mzinco,me]这五种情况。然后依次对这五种情况都进行翻译，能够得出翻译结果的就是正确的拆分，将结果保留；而不能得出翻译结果的是错误的拆分，不保留。最终只有[mz,income]这一种拆分是正确的。

为了描述方便，本实施例仅以拆分为两个字符串的情形进行说明。容易理解的是，根据这一方法，还可以将元数据拆分为三个甚至更多个字符串。

如图2所示，一些实施例中，所述将翻译结果输出之前，还包括：

步骤350：如果整词翻译或拆词翻译后存在多个翻译结果，则分别计算每一个翻译结果的权重值；

步骤360：选择权重值最大的翻译结果，将其确定为最终的翻译结果。

需要说明的是，如果翻译结果不是一对一的情况，可以将所有的翻译结果以及每一个翻译结果所对应的权重值全部进行输出，由工作人员进行参考和判断；也可以只将权重值最大的翻译结果作为最优选择进行输出。

一些实施例中，所述计算每一个翻译结果的权重值，包括：

步骤351：利用卷积神经网络训练出元数据相似度模型；

步骤352：通过元数据相似度模型计算翻译结果与上下文之间的关联程度，将关联程度作为该翻译结果的权重值。

其中，所述上下文包括数据表的表名，以及同一个数据表下的字段的字段名。

在词语翻译中，会出现一对多需要从中选择一个结果的情况。针对这种情况，会预先利用神经网络算法训练一个考虑了上下文关系的元数据相似度模型，在该模型中上下文相关的词和含义相似的词之间的关联程度会更高。对于多个翻译结果，会取出该元数据的上下文，并利用相似度模型比较多个结果与上下文词语之间的关联程度，选择其中关联程度最高的为最终翻译结果。

比如：mz→[名字，门诊]，有两种选择待确认。此时，会引入该元数据的上下文，即表名、兄弟字段名，利用相似度模型比较多个结果与上下文词语之间的相似性，选择其中相似度最高的为最终翻译结果。如果mz出现在病人信息表，则名字的相似度高，若是出现在门诊表，则门诊的相似度会高。

在另外的一些实施例中，所述计算每一个翻译结果的权重值，包括：

这种方式需要考察大量的HIS系统数据库，并统计该翻译结果所对应的中文词汇出现的频率。出现的频率越高，则在一次翻译过程中是正确翻译结果的可能性越大。

本发明针对命名不规则，翻译难度高的医疗元数据，本发明通过拆解的方式，能够翻译出大部分不规则的医院内部元数据，并且翻译效果良好。针对元数据翻译中出现的一对多的情况，结合考虑了上下文关系通过神经网络算法预先训练的相似度模型，能够较好地给出最终需要选择的翻译结果。

图3是根据一示例性实施例示出的一种HIS系统的元数据翻译装置的电路框图。参照图3，该装置包括字典模块301，录入模块302，整词翻译模块303，检查模块304，拆词翻译模块305和输出模块306。

字典模块301，用于收集HIS系统中元数据所涉及的中文词汇，并给出每一个中文词汇所对应的多种表达形式，从而建立元数据字典；

录入模块302，用于录入待翻译的元数据；

整词翻译模块303，用于对待翻译的元数据进行整词翻译；

检查模块304，用于检查是否得出翻译结果；

拆词翻译模块305，用于对待翻译的元数据进行拆词翻译；

输出模块306，用于将翻译结果输出。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处不再作详细阐述说明。

本申请还提供如下的实施例：

一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种HIS系统的元数据翻译方法，所述方法包括：

本申请还提供如下的实施例：

一种HIS系统的元数据翻译设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种HIS系统的元数据翻译方法，其特征在于，包括：

2.根据权利要求1所述的一种HIS系统的元数据翻译方法，其特征在于，所述多种表达形式包括全拼、拼音首字母、英文和英文缩写。

3.根据权利要求1所述的一种HIS系统的元数据翻译方法，其特征在于，还包括：

4.根据权利要求1所述的一种HIS系统的元数据翻译方法，其特征在于，所述进行整词翻译，包括：

5.根据权利要求1至4任一项所述的一种HIS系统的元数据翻译方法，其特征在于，所述进行拆词翻译，包括：

将待翻译的元数据进行动态拆分，得到若干个字符串；

依次对这若干个字符串进行整词翻译；

6.根据权利要求5所述的一种HIS系统的元数据翻译方法，其特征在于，所述行动态拆分，包括：

待翻译的元数据中共包含N个字符；

其中，2≤n<N且n为整数。

7.根据权利要求1至4任一项所述的一种HIS系统的元数据翻译方法，其特征在于，所述将翻译结果输出之前，还包括：

选择权重值最大的翻译结果，将其确定为最终的翻译结果。

8.根据权利要求7所述的一种HIS系统的元数据翻译方法，其特征在于，所述计算每一个翻译结果的权重值，包括：

利用卷积神经网络训练出元数据相似度模型；

9.根据权利要求7所述的一种HIS系统的元数据翻译方法，其特征在于，所述计算每一个翻译结果的权重值，包括：

10.一种HIS系统的元数据翻译装置，其特征在于，包括：

录入模块，用于录入待翻译的元数据；

整词翻译模块，用于对待翻译的元数据进行整词翻译；

检查模块，用于检查是否得出翻译结果；

拆词翻译模块，用于对待翻译的元数据进行拆词翻译；

输出模块，用于将翻译结果输出。

11.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种HIS系统的元数据翻译方法，所述方法包括：

12.一种HIS系统的元数据翻译设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：