CN108920453B

CN108920453B - 数据处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN108920453B
Application number: CN201810589596.1A
Authority: CN
Inventors: 季思伟; 张子锐; 宋海波; 李馨龄
Original assignee: Drug Evaluation Center Of State Food And Drug Administration; Yidu Cloud Beijing Technology Co Ltd
Current assignee: Drug Evaluation Center Of State Food And Drug Administration; Yidu Cloud Beijing Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2023-03-24
Anticipated expiration: 2038-06-08
Also published as: CN108920453A

Abstract

本公开涉及一种数据处理方法、装置、电子设备及计算机可读介质。该方法包括：获取待处理数据，所述待处理数据中包括医学词汇；将所述待处理数据进行分词处理，生成词汇集合；将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签；以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。本公开涉及上文数据处理方法、装置、电子设备及计算机可读介质，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

Description

数据处理方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及医疗信息处理领域，具体而言，涉及一种数据处理方法、装置、电子设备及计算机可读介质。

背景技术

对于药品临床试验及上市后产生的数据而言，将诊断等术语进行统一的编码是非常重要的工作。以上市后不良反应报告为例，不良反应的报告可能来自于政府部门、合作药企、医生或者患者，其中对同一个不良反应可能会出现几个甚至几百个不同的描述，如“2型糖尿病”、“II型糖尿病”和“糖尿病(2型)”实为同义词，但由于医生的书写习惯不同会出现了不同写法，因此需要对这些诊断术语进行统一的编码。

现有技术中，为了解决上述问题，广泛采用的方式是MedDRA(Medical Dictionaryfor Regulatory Activities，ICH国际医学用语词典)编码，用以将这些同义但不同写法的内容进行归类编码。但是MedDRA编码的归一的工作通常需要大量的人工投入，将人工结果回输给计算机后形成较为准确的MedDRA归一扩增词表，这样，计算机才会对一些医学相关术语进行自动归一。基于人工归一结果建立的词表会存在如下问题：归一结果的一致性有待提高，因为每个人对于医学概念的理解不同，就算在有归一标准的前提下也会出现不同的结果；有一些诊断词非常接近如“2型糖尿病”和“II型糖尿病”它们的主题词“糖尿病”是一致的，区别仅仅在于糖尿病类型的不同写法，且这样的写法似乎是可以枚举的，如果人工进行了大量此类数据的标注，就会提高标注的成本和风险。

因此，需要一种新的数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种数据处理方法、装置、电子设备及计算机可读介质，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种数据处理方法，该方法包括：获取待处理数据，所述待处理数据中包括医学词汇；将所述待处理数据进行分词处理，生成医学词汇集合；将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签，所述标准词汇集合中包括结构化词表；以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

在本公开的一种示例性实施例中，还包括：将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。

在本公开的一种示例性实施例中，将所述待处理数据进行分词处理，生成词汇集合包括：通过字符串匹配法对所述待处理数据进行分词处理，生成多个分词词汇；以及通过所述多个分词词汇生成所述词汇集合。

在本公开的一种示例性实施例中，所述字符串匹配法中的机器词典包括：ICH国际医学用语词典中的标准词；以及医学专业词汇。

在本公开的一种示例性实施例中，所述词汇集合中包括一个主诊断词与至少一个属性词，其中，所述主诊断词与至少一个属性词构成结构化词表，将所述词汇集合与标准词汇集合进行比较，以确定所述待处理数据的标签包括：将所述词汇集合中的主诊断词和属性词分别与标准词汇集合中的主诊断词和属性词进行比较，以确定所述待处理数据的标签。

在本公开的一种示例性实施例中，将所述词汇集合中的主诊断词和属性词分别与标准词汇集合中的主诊断词和属性词进行比较，以确定所述待处理数据的标签，包括：将所述词汇集合中的主诊断词与标准词汇集合中的主诊断词进行比较，确定所述待处理数据的主类别；以及将所述词汇集合中的属性词与标准词汇集合中主类别下的属性词进行比较以确定所述待处理数据的标签。

根据本公开的一方面，提出一种数据处理装置，该装置包括：数据模块，用于获取待处理数据，所述待处理数据中包括医学词汇；第一分词模块，用于将所述待处理数据进行分词处理，生成词汇集合；比较模块，用于将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签；以及编码模块，用于根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

在本公开的一种示例性实施例中，还包括：第二分词模块，用于将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的数据处理方法、装置、电子设备及计算机可读介质，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种数据处理方法及装置的系统框图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据另一示例性实施例示出的一种数据处理方法的流程图。

图4是根据另一示例性实施例示出的一种数据处理方法的示意图。

图5是根据一示例性实施例示出的一种数据处理装置的框图。

图6是根据另一示例性实施例示出的一种数据处理装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所提交的数据处理请求提供支持的后台管理服务器。后台管理服务器可以对接收到的数据处理请求等进行分析等处理，并将处理结果(例如词汇集合、待处理数据标签、或者编码后的编码号)反馈给终端设备。

服务器105可例如获取用户利用终端设备101、102、103传送的待处理数据，所述待处理数据中包括医学词汇；服务器105可例如将所述待处理数据进行分词处理，生成词汇集合；服务器105可例如将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签；服务器105可例如根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的数据处理方法可以由服务器105执行，相应地，数据处理装置可以设置于服务器105中。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。数据处理方法20至少包括步骤S202至S208。

如图2所示，在S202中，获取待处理数据，所述待处理数据中包括医学词汇。待处理数据可例如为医生的诊断词，可例如为“右侧输尿管下段结石伴梗阻”。

在S204中，将所述待处理数据进行分词处理，生成医学词汇集合。可例如将待处理的医生诊断词进行分词处理，“右侧输尿管下段结石伴梗阻”分词处理之后，生成的词汇集合可例如为：“结石，右侧，输尿管，下段，梗阻”。

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

字符匹配又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配。

理解法，这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

统计法，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

在一个实施例中，可例如通过字符串匹配法对所述待处理数据进行分词处理，生成多个分词词汇；以及通过所述多个分词词汇生成所述词汇集合。本申请中的分词方法还可例如使用上文中介绍的统计分词方法或理解分词法进行，还可例如通过字符串匹配法、理解分词法与统计分词法中的一种或几种结合进行，本申请不以此为限。其中，所述字符串匹配法中的机器词典包括：ICH国际医学用语词典中的标准词；以及医学专业词汇。

其中，《ICH国际医学用语词典(MedDRA)》，是在ICH主办下创建，是供政府药事管理部门与生物制药工业管理新药上市前后的临床研究各阶段的标准术语集。该术语集支持各种临床数据的编码、检索与分析，如不良事件、医学与社会史、适应症与临床检查。本文叙述了MedDRA的创建原因与历程等背景信息、MedDRA术语的分级结构、MedDRA的规则与习惯、MedDRA在数据编码与分析中的应用，以及ICH参加国/地区政府对MedDRA使用的行政要求。临床研究报告中也称之为《药物注册用医学术语词典》。

在S206中，将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签，所述标准词汇集合中包括结构化词表。其中，所述词汇集合中包括一个主诊断词与至少一个属性词，所述主诊断词与至少一个属性词构成结构化词表。通过对原始医学术语词和标准词进行结构化，可例如分离出如下属性：

其中，主诊断词为某个诊断中的核心病症描述词；

其中，属性词可包括：

方位：方位指示词；

主解剖部位：指疾病发生的解剖部位，系统或器官；

次级解剖部位：指疾病发生解剖部位中的某一部分；

分型：疾病分型；

遗传学异常：指基因检查异常；

TNM：肿瘤的TNM分期；

分期：疾病发展到不同阶段的分期；

病理：细胞病理类型；

转移：肿瘤转移情况；

治疗：疾病的治疗信息；

程度：疾病的程度；

状态：疾病现在的状态；

合并症：与主诊断疾病无明显因果关系的伴随病症；

并发症：由主诊断疾病引发的病症；

在一个实施例中，将待处理的医生诊断词进行分词处理，“右侧输尿管下段结石伴梗阻”分词处理之后，生成的词汇集合可例如为：“结石，右侧，输尿管，下段，梗阻”。

其中，主诊断词：“结石”；

属性词：方位“右侧”；

主解剖部位“输尿管”；

次级解剖部位“下段”；

并发症“梗阻”。

在一个实施例中，将所述词汇集合与标准词汇集合进行比较，以确定所述待处理数据的标签包括：将所述词汇集合中的主诊断词和属性词分别与标准词汇集合中的主诊断词和属性词进行比较，以确定所述待处理数据的标签。其中，标准词汇集合可通过ICH国际医学用语词典中的标准词生成。

在S208中，根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。根据标签，为所述待处理数据确定ICH国际医学用语词典编码。

根据本公开的数据处理方法，通过将医学诊断词进行分词处理，然后将分词后的词汇与标准医学词汇集合中的词汇进行比较，以确定该医学身段词的标签的方式，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

在本公开的一种示例性实施例中，还包括：将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。可例如通过字符串匹配法对ICH国际医学用语词典中的标准词进行分词处理，生成多个分词词汇；以及通过所述多个分词词汇生成标准词汇集合。本申请中的分词方法还可例如使用上文中介绍的统计分词方法或理解分词法进行，还可例如通过字符串匹配法、理解分词法与统计分词法中的一种或几种结合进行。

本公开的数据处理方法，将MedDRA词拆解后形成的词表可以提高相关医学术语向标准表的对应成功率和准确率，可以减少很多人工标注量，同时也可以作为医学知识图谱的一部分，用在临床病历中的其他部分。

图3是根据另一示例性实施例示出的一种数据处理方法的流程图。图3所示的流程是对图2所示的流程中S206“将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签”的详细描述，

如图3所示，在S302中，将所述词汇集合中的主诊断词与标准词汇集合中的主诊断词进行比较，确定所述待处理数据的主类别。

在S302中，将所述词汇集合中的属性词与标准词汇集合中主类别下的属性词进行比较以确定所述待处理数据的标签。

参考图4的示意图，在词汇集合与标准词汇集合比较的过程中，根据诊断词的特点将诊断词分词处理为主诊断词(在图4中为属性词1)+主诊断词的各类属性(在图4中为其中属性词)。对于需要归一的原始诊断词和标准表诊断词均做此类分词处理，并将二者进行对应，对应时以主诊断为核心，其余属性为辅助判断条件。通过这种分词处理并对应比较分词词汇的方法，可以解决大部分的诊断以及其他医学术语的归一问题，节省大量人工工作，

在一个实施例中，首先，将通过诊断数据生成的词汇集合中主诊断词与标准词汇集合中的主诊断词进行比较，确定主诊断词。可认为主诊断词表明了该疾病的主要类别。然后在将其他的属性词分别与主诊断词下的各个属性词进行对应，如果可以对应成功，则确定标签。这个时候可认为，该数据进行了自动归一。

对于有些少量诊断以及其他医学术语，结构化词表不能完全解决，这时可以附加人工的方法进行标注。

根据本公开的数据处理方法，将原始医学术语词进行结构化拆解，并将拆解后的词归类，使一个医学术语词带有多个属性，并将MedDRA标准表中的词进行结构化分词，将分词后的词归类。将原始医学术语词做出的结构化词表与标准表做出的结构化词表对应，即可达到自动化归一的目的。

本公开的数据处理方法，可用于除动物毒理外的针对人类使用的所有药品开发阶段，包括体征、症状、疾病、诊断、适应症、各类检查的名称和定性结果、用药错误与产品质量术语、各种手术及医疗操作、病史/社会史/家族史。

本公开的数据处理方法可以用于药品开发全过程中临床试验以及上市后产生的数据，涵盖体征、症状、疾病、诊断、适应症、各类检查的名称和定性结果、用药错误与产品质量术语、各种手术及医疗操作、病史/社会史/家族史的智能编码。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种数据处理装置的框图。数据处理装置50包括：数据模块502，第一分词模块504，比较模块506，以及编码模块508。

其中，数据模块502用于获取待处理数据，所述待处理数据中包括医学词汇。待处理数据可例如为医生的诊断词，可例如为“右侧输尿管下段结石伴梗阻”。

第一分词模块504用于将所述待处理数据进行分词处理，生成词汇集合。可例如将待处理的医生诊断词进行分词处理，“右侧输尿管下段结石伴梗阻”分词处理之后，生成的词汇集合可例如为：“结石，右侧，输尿管，下段，梗阻”。

比较模块506用于将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签。如上文中的示例，分词处理之后的主诊断词：“结石”；属性词：方位“右侧”；主解剖部位“输尿管”；次级解剖部位“下段”；并发症“梗阻”。这些词汇依次与标准词汇集合中的词汇进行比较，确定所述待处理数据的标签。

编码模块508用于根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

根据本公开的数据处理装置，通过将医学诊断词进行分词处理，然后将分词后的词汇与标准医学词汇集合中的词汇进行比较，以确定该医学身段词的标签的方式，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

图6是根据另一示例性实施例示出的一种数据处理装置的框图。数据处理装置60在数据处理装置50的基础上还包括：第二分词模块602。

第二分词模块602用于将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。可例如通过字符串匹配法对ICH国际医学用语词典中的标准词进行分词处理，生成多个分词词汇；以及通过所述多个分词词汇生成标准词汇集合。本申请中的分词方法还可例如使用上文中介绍的统计分词方法或理解分词法进行，还可例如通过字符串匹配法、理解分词法与统计分词法中的一种或几种结合进行。

本公开的数据处理装置，将MedDRA词拆解后形成的词表可以提高相关医学术语向标准表的对应成功率和准确率，可以减少很多人工标注量，同时也可以作为医学知识图谱的一部分，用在临床病历中的其他部分。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备200。图7显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图8示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图8所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取待处理数据，所述待处理数据中包括医学词汇；将所述待处理数据进行分词处理，生成词汇集合；将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签；以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本公开可实施的范畴。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理数据，所述待处理数据中包括医学词汇；

将所述待处理数据进行分词处理，生成多个分词词汇，通过所述多个分词词汇生成医学词汇集合，其中，进行分词处理的方法包括统计分词法、理解分词法和字符串匹配法中的至少一种；

将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签，所述标准词汇集合中包括结构化词表，所述标准词汇集合通过ICH国际医学用语词典中的标准词生成；以及

根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理；

所述词汇集合中包括一个主诊断词与至少一个属性词，其中，所述主诊断词为诊断中的核心病症描述词，所述属性词包括方位、主解剖部位、次级解剖部位、分型、遗传学异常、TNM、分期、病理、转移、治疗、程度、状态、合并症和并发症，所述主诊断词与至少一个属性词构成结构化词表，所述将所述词汇集合与标准词汇集合进行比较，以确定所述待处理数据的标签包括：

将所述词汇集合中的主诊断词与标准词汇集合中的主诊断词进行比较，确定所述待处理数据的主类别；以及

将所述词汇集合中的属性词与标准词汇集合中主类别下的属性词进行比较以确定所述待处理数据的标签。

2.如权利要求1所述的方法，其特征在于，还包括：

将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。

3.如权利要求1所述的方法，其特征在于，所述字符串匹配法中的机器词典包括：

ICH国际医学用语词典中的标准词；以及

医学专业词汇。

4.一种数据处理装置，其特征在于，包括：

数据模块，用于获取待处理数据，所述待处理数据中包括医学词汇；

第一分词模块，用于将所述待处理数据进行分词处理，生成多个分词词汇，通过所述多个分词词汇生成医学词汇集合，其中，进行分词处理的方法包括统计分词法、理解分词法和字符串匹配法中的至少一种；

比较模块，用于将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签，所述标准词汇集合中包括结构化词表，所述标准词汇集合通过ICH国际医学用语词典中的标准词生成；以及

编码模块，用于根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理；

所述词汇集合中包括一个主诊断词与至少一个属性词，其中，所述主诊断词为诊断中的核心病症描述词，所述属性词包括方位、主解剖部位、次级解剖部位、分型、遗传学异常、TNM、分期、病理、转移、治疗、程度、状态、合并症和并发症，所述主诊断词与至少一个属性词构成结构化词表，所述将所述词汇集合与标准词汇集合进行比较，以确定所述待处理数据的标签包括：将所述词汇集合中的主诊断词与标准词汇集合中的主诊断词进行比较，确定所述待处理数据的主类别；以及将所述词汇集合中的属性词与标准词汇集合中主类别下的属性词进行比较以确定所述待处理数据的标签。

5.如权利要求4所述的装置，其特征在于，还包括：

第二分词模块，用于将ICH国际医学用语词典中的标准词进行分词处理，以生成标准词汇集合。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。