CN112800759A

CN112800759A - 标准化数据的生成方法、医学文本数据的处理方法和装置

Info

Publication number: CN112800759A
Application number: CN202110398321.1A
Authority: CN
Inventors: 方杰; 王东风; 汪知滴; 周月; 纪萍
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-05-14
Anticipated expiration: 2041-04-14
Also published as: CN112800759B

Abstract

本发明实施例提供了标准化数据的生成方法、医学文本数据的处理方法和装置，涉及人工智能技术领域和医学领域。该标准化数据的生成方法包括：获取待数据标准化的目标文本数据；确定目标文本数据的多个分词；针对每一分词，基于多个指定字段的标准化数据库中的标准词，得到与该分词相匹配的标准词，以及该分词所属的指定字段；其中，该分词所属的指定字段为：与该分词相匹配的标准词所属的指定字段；基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据。与现有技术相比，应用本发明实施例提供的方案，可以对不同的信息系统的文本数据进行有效地标准化处理。

Description

标准化数据的生成方法、医学文本数据的处理方法和装置

技术领域

本发明涉及人工智能技术领域和医学领域，特别是涉及标准化数据的生成方法、医学文本数据的处理方法和装置。

背景技术

当前，随着信息技术的不断发展，各行业内部之间的信息交流需求越来越多。但是，现如今，在同一行业内，或者，同一机构内，若干信息系统呈现“信息孤岛”的局面。

针对信息系统所形成的文本数据而言，由于各个信息系统所采用的数据操作规范不统一，因此，无法得到关于文本数据的规范化的标准化数据，这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。

以医疗领域为例，各医疗机构IT系统众多，虽然在医学影像文本数据的数据字段层面进行了标准化统一，但各医疗机构IT系统所采用的数据操作规范不统一，从而，无法进行医疗质量的精细化监管分析。例如：对于包含检查部位名称和检查方法名称的医学影像文本数据而言，在生成该医学影像文本数据的标准化数据时，不同的医疗机构中，所采用的数据操作规范不同，从而，使得所得到的标准化数据的数据内容并不规范。

基于此，现在亟需一种文本数据的标准化数据的生成方法，以对不同的信息系统的文本数据进行有效地标准化处理。

发明内容

本发明实施例的目的在于提供标准化数据的生成方法和装置，以对不同的信息系统的文本数据进行有效地标准化处理；另外，本发明实施例还提供了医学文本数据的处理方法和装置，以对不同的信息系统的医学文本数据进行有效地标准化处理。具体技术方案如下：

第一方面，本发明实施例提供了一种标准化数据的生成方法，所述方法包括：

获取待数据标准化的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容，所述多个指定字段为：预设有标准化数据库的字段；

确定所述目标文本数据的多个分词；

针对每一分词，基于所述多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段；其中，该分词所属的指定字段为：与该分词相匹配的标准词所属的指定字段；

基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据。

第二方面，本发明实施例提供了一种标准化数据的生成装置，所述装置包括：

数据获取模块，用于获取待数据标准化的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容，所述多个指定字段为：预设有标准化数据库的字段；

分词确定模块，用于确定所述目标文本数据的多个分词；

分词匹配模块，用于针对每一分词，基于所述多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段；其中，该分词所属的指定字段为：与该分词相匹配的标准词所属的指定字段；

数据生成模块，用于基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据。

第三方面，本发明实施例提供了一种医学文本数据的标准化处理方法，所述方法包括：

获取医学文本数据，并将所述医学文本数据作为目标文本数据；其中，所述医学文本数据包含多个指定字段下的数据内容，所述多个指定字段为：预设有标准化数据库的字段；

根据上述第一方面提供的任一标准化数据的生成方法对所述目标文本数据进行处理，以得到所述目标文本数据的标准化数据；

建立所述医学文本数据与所述标准化数据之间的关联关系。

第四方面，本发明实施例提供了一种医学文本数据的标准化处理装置，所述装置包括：

医学文本数据获取模块，用于获取医学文本数据，并将所述医学文本数据作为目标文本数据；其中，所述医学文本数据包含多个指定字段下的数据内容，所述多个指定字段为：预设有标准化数据库的字段；

医学文本数据处理模块，用于根据上述第一方面提供的任一标准化数据的生成方法对所述目标文本数据进行处理，以得到所述目标文本数据的标准化数据；

医学文本数据关系建立模块，用于建立所述医学文本数据与所述标准化数据之间的关联关系。

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一标准化数据的生成方法的步骤，和/或，上述第三方面提供的医学文本数据的处理方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一标准化数据的生成方法的步骤，和/或，上述第三方面提供的医学文本数据的处理方法的步骤。

第七方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一标准化数据的生成方法的步骤，和/或，上述第三方面提供的医学文本数据的处理方法的步骤。

本发明实施例有益效果：

以上可见，应用本发明实施例提供的标准化数据的生成方案，在获取到包含多个指定字段下的数据内容，且待数据标准化的目标文本数据时，便可以首先确定该目标文本数据的多个分词，进而，便可以针对每一分词，基于上述多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段。这样，便可以基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成上述目标文本数据的标准化数据。

基于此，应用本发明实施例提供的标准化数据的生成方案，由于多个指定字段的标准化数据库中的标准词，使得各个指定字段的数据内容规范化，因此，在利用多个指定字段的标准化数据库中的标准词，生成的该目标文本数据的标准化数据时，可以使得所得到的标准化数据的数据内容是规范化的。可见，通过本方案可以对不同的信息系统的文本数据进行有效地标准化处理。

另外，应用本发明实施例提供的医学文本数据的标准化处理方案，可以对医学文本数据进行标准化处理，得到医学文本数据的标准化数据，从而，建立医学文本数据与所得到的标准化数据之间的关联关系。这样，便可以对不同的信息系统的医学文本数据进行有效地标准化处理，为医疗质量的精细化监管分析提供实现基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种标准化数据的生成方法的流程示意图；

图2为图1中S102的一种具体实现方式的流程示意图；

图3为图1中S102的另一种具体实现方式的流程示意图；

图4为本发明实施例提供的另一种标准化数据的生成方法的流程示意图；

图5为本发明实施例提供的再一种标准化数据的生成方法的流程示意图；

图6为本发明实施例提供的再一种标准化数据的生成方法的流程示意图；

图7为本发明实施例提供的一种医学文本数据的处理方法的流程示意图；

图8为本发明实施例提供的一种标准化数据的生成装置的结构示意图；

图9为本发明实施例提供的一种医学文本数据的处理装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

针对信息系统所形成的文本数据而言，由于各个信息系统所采用的数据操作规范不统一，因此，无法得到关于文本数据的规范化的标准化数据，这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。基于此，现在亟需一种文本数据的标准化数据的生成方法，以对不同的信息系统的文本数据进行有效地标准化处理。

为了解决上述技术问题，本发明实施例通过了一种标准化数据的生成方法。

其中，该生成方法可以应用于服务器、笔记本电脑、台式电脑、平板电脑等各类的电子设备，对此，本发明实施例不做具体限定，以下简称电子设备。并且，该电子设备可以是分布式系统中的设备，也可以是独立的设备，这都是合理的。

另外，该方法可以适用于任一需要生成文本数据的标准化数据的应用场景，例如，生成医疗领域中的医学影像文本数据的标准化数据，示例性的，医学影像文本数据中可以包括指定字段检查部位名称和检查方法名称；又例如，生成建筑领域中的各类文本数据的标准化数据等，这都时合理的。

所谓医学影像文本数据是指：医院内部影像检查科做影像检查过程中产生的文本数据，并且，医学影像可以包括普放业务、CT（Computed Tomography，电子计算机断层扫描）业务、核磁共振（magnetic resonance，MR）业务、彩超业务、内窥镜业务等多种业务所形成的医学影像，所谓普放业务是指：x线摄像相关设备进行医疗照相的相关业务。所谓检查部位名称是指：医学影像检查的主要人体部位和人体器官，例如，颅脑、腰椎等，所谓检查方法名称是指：医学影像检查过程中所采用的技术方法，例如，正侧位、斜位等。

为了对不同的信息系统的文本数据进行标准化处理，本发明实施例所提供的方案中，预先构建有各个指定字段的标准化数据库，该各个指定字段为：待生成标准化数据的文本数据中所涉及的字段。

示例性的，如表1和表2所示，分别为预设的检查部位名称和检查方法名称的标准化数据库的部分内容。

表1

表2

并且，当目标文本数据为医疗领域中的医学影像文本数据时，除检查部位名称和检查方法名称之外，上述多个指定字段中还可以包括：诊断结果、业务类型等其他字段，并构建诊断结果、业务类型等其他字段的标准化数据库，这都是合理的。

其中，本发明实施例提供的一种标准化数据的生成方法，可以包括如下步骤：

确定所述目标文本数据的多个分词；

基于此，应用本发明实施例提供的方案，由于多个指定字段的标准化数据库中的标准词，使得各个指定字段的数据内容规范化，因此，在利用多个指定字段的标准化数据库中的标准词，生成的该目标文本数据的标准化数据时，可以使得所得到的标准化数据的数据内容是规范化的。可见，通过本方案可以对不同的信息系统的文本数据进行有效地标准化处理。

下面，结合附图，对本发明实施例提供的一种标准化数据的生成方法进行具体说明。

图1为本发明实施例提供的一种标准化数据的生成方法的流程示意图，如图1所示，该方法可以包括如下步骤：

S101：获取待数据标准化的目标文本数据；

其中，目标文本数据包含多个指定字段下的数据内容，多个指定字段为：预设有标准化数据库的字段；

在构建各个指定字段的标准化数据库后，便可以利用各个指定字段的标准化数据库，对包含多个指定字段下的数据内容的文本数据进行数据标准化，得到该文本数据的标准化数据。

也就是说，在进行数据标准化，生成标准化数据时，可以首先获取到待数据标准化的目标文本数据，其中，该目标文本数据中包括多个指定字段下的数据内容，并且，每个指定字段预设有标准化数据库。其中，每个指定字段的标准化数据库中记录有该指定字段下的各个标准词。

其中，各个字段的标准化数据的构建方式存在多种，本申请并不对具体的构建方式进行限定。为了方案清楚，下文对构建字段的标准化数据库的方式进行示例性说明。

S102：确定目标文本数据的多个分词；

在得到上述目标文本数据后，便可以确定目标文本数据的多个分词。

例如，待数据标准化的目标文本数据可以为医学影像文本数据，并且，多个指定字段包括检查部位名称和检查方法名称下的数据内容。

示例性的，目标文本数据为：腰椎正侧位，则可以确定目标文本数据的多个分词为：腰椎和正侧位。

可选的，可以对目标文本数据进行分词处理，得到分词结果中所包括的多个分词，作为目标文本数据的多个分词。

其中，对目标文本数据进行分词处理所使用的分词工具所属的技术领域与多个指定字段所属的技术领域相同；进而，由于多个指定字段所属的技术领域与目标文本数据所属的技术领域相同，也就是说，对目标文本数据进行分词处理所使用的分词工具所属的技术领域与目标文本数据的所属的技术领域相同。

例如，目标文本数据为医疗领域中的医学影像文本数据，则可以采用医学专用分词工具对目标文本数据进行分词处理，得到目标文本数据的多个分词。

可选的，可以对目标文本数据进行语义分析，得到分析结果，并根据该分析结果，确定目标文本数据的多个分词。

S103：针对每一分词，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段；

其中，该分词所属的指定字段为：与该分词相匹配的标准词所属的指定字段；

在确定目标文本数据的多个分词后，由于每个分词并不一定是多个指定字段的标准化数据库中的标准词，因此，针对每一分词，便可以基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，并且，在确定与该分词相匹配的标准词后，便可以将与该分词相匹配的标准词所属的指定字段，确定为该分词所属的指定字段。

S104：基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据。

针对目标文本数据的每一分词，在得到与该分词相匹配的标准词和该分词所属的指定字段后，便可以基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据。

在一种实现方式中，生产目标文本数据的标准化数据的过程可以包括：建立与目标文本数据的各个分词相匹配的标准词之间的关联关系，并建立与目标文本数据的每个分词相匹配的标准词和该分词所属的指定字段之间的关联关系，得到目标文本数据的标准化数据。

例如，待数据标准化的目标文本数据为医学影像文本数据，多个指定字段可以包括：检查部位名称和检查方法名称。示例性的，目标文本数据为髋关节正位，则所生成的该目标文本数据的标准化数据可以如表3所示：

表3

检查部位名称	检查方法名称
		髋关节	正位

可选的，一种具体实现方式中，本发明实施例提供的一种标准化数据的生成方法还可以包括如下步骤A：

步骤A：建立目标文本数据与该目标文本数据的标准化数据之间的关联关系。

在本具体实现方式中，在得到目标文本数据的标准化数据后，便可以建立该目标文本数据与该目标文本数据的标准化数据之间的关联关系。

这样，便可以将标准化数据作为目标文本数据的标准化标签，从而，所建立的关联关系即为：为目标文本数据添加标准化标签，从而，在后续对目标文本数据的检索过程中，可以利用所添加的标准化标签，实现对目标文本数据的快速、准确检索。

如表4所示，很多情况下，待数据标准化的目标文本数据中，可以包括多个分隔符，以及被各个分隔符分割的多个文本数据。

表4

目标文本数据
	腰椎正侧位，腰椎过伸过屈位，髋关节正位

基于此，可选的，一种具体实现方式中，如图2所示，上述步骤S102，确定目标文本数据的多个分词，可以包括如下步骤S1021-S1023：

S1021：基于预定的分隔符，对目标文本数据进行分割，得到至少一个子文本；

S1023：对各个子文本进行分词处理，得到各个子文本的分词。

在本具体实现方式中，可以基于预定的分隔符，对目标文本数据进行分割，从而，得到至少一个子文本。

其中，上述预定的分隔符可以包括“，” “、” “；”“+”等各类语言文字中，用于对目标文本数据中的文字进行分割的符号，对此，本发明实施例不做具体限定。

可选的，可以首先检测目标文本数据中所包括的分隔符，从而，可以将目标文本数据中的第一个文字至第一个分隔符之前的文字，确定为目标文本数据的第一个子文本；将最后一个文字至最后一个分隔符之后的文字，确定为目标文本数据中的最后一个子文本；并将除上述第一个子文本和最后一个子文本外的各个文字中，位于两个分隔符之间的文字确定为目标文本数据的一个子文本。

例如，对于上述表4中所示的目标文本数据，可以基于预定的分隔符，得到三个子文本，该三个子文本分别是：子文本：腰椎正侧位，子文本：腰椎过伸过屈位，以及子文本髋关节正位。

在得到目标文本数据的各个子文本后，针对每个子文本，可以对该子文本进行分词处理，得到该子文本的分词，从而，得到目标文本数据的多个子文本的分词。

例如，如表5所示，即为上述表4所示的目标文本数据的各个子文本的分词。

表5

序号	目标文本数据的各个子文本的分词
		1	腰椎正侧位
2	腰椎过伸过屈位
		3	髋关节正位

可选的，在对目标文本数据的各个子文本进行分词处理时，为了使分词操作所得到的各个子文本的分词的准确性更高，可以使用与多个指定字段相关的分词工具，对目标文本数据的各个子文本进行分词处理。

示例性的，对目标文本数据的各个子文本进行分词处理所使用的分词工具所属的技术领域，与多个指定字段所属的技术领域相同；进而，由于多个指定字段所属的技术领域与目标文本数据所属的技术领域相同，因此，对目标文本数据的各个子文本进行分词处理所使用的分词工具所属的技术领域，与目标文本数据所属的技术领域相同。

例如，目标文本数据为医疗领域中的医学影像文本数据，则可以采用医学专用分词工具对目标文本数据的各个子文本进行分词处理，得到各个子文本的分词。

由于目标文本数据的生成方式可以是不标准化的，因此，基于预定的分隔符，对目标文本数据进行分割，所得到的至少一个子文本中，可能存在未包括上述多个指定字段下的数据内容的子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称。示例性的，目标文本数据为：胸椎、胸部正侧位，分割所得到的两个子文本分别为：胸椎，以及胸部正侧位。则子文本胸椎中只包括一个字段下的内容数据。又示例性的，目标文本数据为：右手部正侧位、斜位片，分割所得到的两个子文本分别为：右手部正侧位，以及斜位片。则子文本斜位片中只包括一个字段下的内容数据。

在图2所示的确定目标文本数据的多个分词的过程中，如图3所示，在S1023之前，还可以包括如下步骤S1022：

S1022：按照预定的文本修正规则，对各个子文本进行修正处理，得到修正后的各个子文本；

其中，修正后的每一子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个；

相应的，在本具体实现方式中，上述步骤S1023可以包括如下步骤S1023a：

S1023a：对修正后的各个子文本进行分词处理，得到修正后的各个子文本的分词。

在本具体实现方式中，在对目标文本数据进行拆分，得到各个子文本后，便可以按照预定的文本修正规则，对各个子文本进行修正处理，从而，得到修正后的各个子文本。

这样，可以使得所得到的修正后的每一子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个。

可选的，可以将对目标文本数据进行分割所得到的各个子文本中的多个子文本进行合并，将合并后所得到的子文本作为修正后的子文本。

可选的，可以将目标文本数据进行分割所得到的某个子文本中的部分数据，添加到所得到的其他子文本中，将添加后的子文本作为修正后的子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，则可以将检查部分名称作为特定字段，则所得到的修正后的各个子文本包括检查部分名称和检查方法名称下的数据内容，并且，检查部分名称下的数据内容的数量为1个。

示例性的，目标文本数据为：胸椎、胸部正侧位，分割所得到的两个子文本分别为：胸椎，以及胸部正侧位，则修正后的各个子文本可以分别为：胸部正侧位，以及胸椎正侧位；又示例性的，目标文本数据为：右手部正侧位、斜位片，分割所得到的两个子文本分别为：右手部正侧位，以及斜位片，则修正后的各个子文本可以为：右手部正侧位斜位片。

这样，在对各个子文本进行修正处理，得到修正后的各个子文本后，便可以对修正后的各个子文本进行分词处理，得到修正后的各个子文本的分词。

可选的，一种具体实现方式中，上述步骤S1022，按照预定的文本修正规则，对各个子文本进行修正处理，得到修正后的各个子文本，可以包括如下步骤B1-B3：

步骤B1：确定各个子文本中的待合并子文本；

其中，待合并子文本为：未包括第一类数据内容的子文本，第一类数据内容为：与特定字段相匹配的数据内容；

步骤B2：对待合并子文本进行内容修正，得到候选子文本；

其中，候选子文本包含第一类数据内容；

步骤B3：基于待利用子文本，确定修正后的各个子文本。

其中，待利用子文本包括：候选子文本和当前所存在的对目标文本数据进行分割所得到的各个子文本。

可选的，一种具体实现方式中，上述步骤B1，确定各个子文本中的待合并子文本，可以包括如下步骤B11：

步骤B11：针对每一子文本，将该子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行数据匹配，若均不匹配，则将该子文本确定为待合并子文本；

其中，每一标准词对应的参考内容包括：该标准词，和/或，该标准词关联的近义词。

可选的，一种具体实现方式中，上述步骤B2，对待合并子文本进行内容修正，得到候选子文本，可以包括如下步骤B21- B22。

步骤B21：从目标文本数据的除待合并子文本以外的各子文本中，确定与待合并子文本的位置关系满足预设位置条件的备用子文本；

其中，预设位置条件包括：距离最近、位于待合并子文本之前且距离最近，或者，位于待合并子文本之后且距离最近。

步骤B22：将从待合并子文本至备用子文本的多个子文本进行合并，得到候选子文本。

可选的，一种具体实现方式中，上述步骤B3，基于待利用子文本，确定修正后的各个目标子文本，可以包括如下步骤B31- B32。

步骤B31：若待利用子文本包含有符合多个预定条件中任一条件的子文本，对待利用子文本所包括的各子文本进行再次修正，得到修正后的各个子文本；

步骤B32：若待利用子文本中未包含有符合多个预定条件中任一条件的子文本，将待利用子文本所包括的各个子文本，均确定为修正后的各个子文本。

其中，多个预定条件包括：第一预定条件和第二预定条件，第一预定条件为：具有与多个指定字段相匹配的数据内容且第一类数据内容的数量为多个；第二预定条件为：仅具有第一类数据内容。

可选的，一种具体实现方式中，多个指定字段的数量为两个，上述步骤B31中，对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本，可以包括如下步骤B311-B313。

步骤B311：确定待利用子文本中的各个第一类数据内容；

步骤B312：针对除最后一个第一类数据内容之外的每个第一类数据内容，计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离；若计算得到的距离不小于第一预设阈值，则将该第一类数据内容，以及位于该第一类数据内容与下一个第一类数据内容之间的数据内容进行合并，得到目标子文本；否则，并将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到修正后的子文本；

其中，待补充内容为：位于下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与特定字段之外的另一指定字段相匹配的数据内容；

步骤B313：针对最后一个第一类数据内容，将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到修正后的子文本。

可选的，一种具体实现方式中，多个指定字段的数量为两个。上述步骤B31中，对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本，可以包括如下步骤B314-B316：

步骤B314：从待利用子文本中，选取包含有与多个指定字段相匹配的数据内容，且第一类数据内容的数量为一个的子文本，将所选取的子文本确定为修正后的子文本；

步骤B315：从待利用子文本中，选取符合第一预定条件的子文本，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个修正后的子文本；

步骤B316：针对每个子文本组，将该子文本组中的每个第一类数据内容与该子文本组中的第二类数据内容进行合并，得到关于该子文本组的各个修正后的子文本；

其中，第二类数据内容为：与特定字段之外的另一指定字段相匹配的数据内容，该子文本组包括：位置连续的多个子文本，多个子文本包括：符合第二预定条件的至少一个子文本以及所确定的一个修正后的子文本，并且，一个修正后的子文本是该子文本组中的最后一个子文本。

可选的，一种具体实现方式中，上述步骤B315中，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个修正后的子文本，可以包括如下步骤C1-C2。

步骤C1：若所选取的子文本中的第一类数据内容连续，将所选取的子文本中的每个第一类数据内容，分别与所选取的该子文本中的第二类数据内容进行合并，得到关于该所选取的子文本的多个修正后的子文本；

步骤C2：若所选取的子文本中的第一类数据内容不连续，将所选取的该子文本中的每个第一类数据内容以及位于该第一类数据内容之后且与该第一类数据内容距离最近的第二类数据内容，拆分成一个修正后的子文本，得到关于该所选取的子文本的多个修正后的子文本。

其中，可选的，一种具体实现方式中，上述步骤B316中的每个子文本组的确定方式可以包括如下步骤D1-D5。

步骤D1：从待利用子文本中，确定当前未被划分到各个子文本组中，且符合第二预定条件的子文本，作为当前待划分子文本；

步骤D2：计算当前待划分子文本中的最后一个第一类数据内容，与当前待划分子文本的下一个子文本中的第一个第一类数据内容的距离；

步骤D3：若所计算得到的距离小于第二预设阈值，则将当前待划分子文本与下一个子文本划分到同一子文本组中；

步骤D4：如果下一个子文本为所确定的修正后的子文本，则得到划分完成的一个子文本组，并返回步骤D1；

步骤D5：如果下一个子文本为符合第二预定条件的子文本，则将下一个子文本确定为当前待划分子文本，并返回步骤D2。

在上述图2所示具体实现方式的基础上，可选的，一种具体实现方式中，上述步骤S104，基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据，可以包括如下步骤E：

步骤E：针对每一子文本，建立与该子文本的各个分词相匹配的标准词之间的关联关系，并建立与该子文本的每个分词相匹配的标准词和该分词所属的指定字段之间的关联关系，得到该子文本的标准化数据。

在本具体实现方式中，由于可以将目标文本数据拆分成多个子文本，从而，可以生成各个子文本的标准化数据，并将所生成的各个子文本的标准化数据作为最终得到的目标文本数据的标准化数据。

其中，针对每一子文本，可以建立与该子文本的各个分词相匹配的标准词之间的关联关系，并且，针对该子文本的每个分词，建立与该分词相匹配的标准词和该分词所属的指定字段之间的关联关系，从而，在上述关联关系建立完成后，可以得到该子文本的标准化数据。

进而，在得到目标文本数据所拆分得到的每个子文本的标准化数据后，各个子文本的标准化数据便可以构成目标文本数据的标准化数据。

例如，如表6所示，为上述表5所示的各个子文本的标准化数据，进而，如表6所示，也为上述表4所示的目标文本数据的标准化数据。

表6

序号	检查部位名称	检查方法名称
			1	腰椎	正侧位
2	腰椎	过伸位；过屈位
			3	髋关节	正位

基于上述步骤E，则在上述图3所示具体实现方式的基础上，可选的，一种具体实现方式中，上述步骤E，针对每一子文本，建立与该子文本的各个分词相匹配的标准词之间的关联关系，并建立与该子文本的每个分词相匹配的标准词和该分词所属的指定字段之间的关联关系，得到该子文本的标准化数据，可以包括如下步骤E1：

步骤E1：针对修正后的每一子文本，建立与该子文本的各个分词相匹配的标准词之间的关联关系，并建立与该子文本的每个分词相匹配的标准词和该分词所属的指定字段之间的关联关系，得到该子文本的标准化数据。

其中，上述步骤E1的具体内容，与上述步骤E的具体内容类似，在此不再赘述。

可选的，一种具体实现方式中，上述步骤S103中，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，可以包括如下步骤F：

步骤F：将该分词与多个指定字段的标准化数据库中的标准词进行数据匹配，得到与该分词相匹配的标准词。

在本具体实现方式中，可以将该分词与多个指定字段的标准化数据库中的标准词进行数据匹配，从而，得到与该分词相匹配的标准词。

可选的，可以将该分词与多个指定字段的标准化数据库中的标准词进行数据匹配，计算该分词与每个标准词的匹配度，从而，将匹配度最高的标准词确定为与该分词相匹配的标准词。

具体而言，可以利用预设的近义词模型，计算该分词与多个指定字段的标准化数据库中的各个标准词的匹配度。

其中，近义词模型为：利用指定的语料数据训练得到的模型，语料数据为：与多个指定字段相关的文本数据。

为了提高利用该近义词模型所计算得到的各个匹配度的准确性，在本具体实现方式中，用于训练上述近义词模型的指定的语料数据可以是与上述多个指定字段相关的文本数据。

具体而言，可以获取与多个指定字段相关的文本数据，作为指定的语料数据，并利用该指定的语料数据进行模型训练，得到近义词模型。进而，在得到上述近义词模型后，利用该近义词模型，计算各个分词与多个指定字段的标准化数据库中的各个标准词的匹配度，从而，确定与各个分词相匹配的标准词。

具体而言，针对每个分词，可以将该分词和多个指定字段的标准化数据库中的各个标准词输入至该近义词模型中，以使得该近义词模型计算该分词和多个指定字段的标准化数据库中的各个标准词的距离，则该距离即可以作为匹配度。其中，距离越近，表征两个词越匹配，距离越远，表征两个词越不匹配。

在具体应用中，上述指定的语料数据所属的技术领域，可以与上述目标文本数据所属的技术领域相同。

例如，上述目标文本数据为医疗领域中的医学影像文本数据，则上述指定的语料数据便可以为医学语料，并且，该医学语料中可以包括多个影像检查报告和多个影像诊断报告等与医学影像相关的文本数据。

并且，示例性的，针对近义词模型的训练过程可以包括：在获取到指定的语料数据后，可以对所获取的指定的语料数据进行分词处理，得到关于指定的语料数据的多个分词，从而，将所得到的关于指定的语料数据的多个分词构成的分词数据集作为训练集，对预设的初始语言模型进行训练，从而，得到上述近义词模型。

例如，上述初始语言模型可以为：word2vec（word to vector）模型、Glove（GlovalVectors for Word Representation）模型、ELMO（Embeddings from Language Models）模型、GPT（Improving Language Understanding by Generative Pre-Training）模型、BERT（Pre-training of Deep Bidirectional Transformers for Language Understanding）模型等中的任一模型。

其中，对指定的语料数据进行分词处理所使用的分词工具所属的技术领域，可以与上述指定的语料数据所属的技术领域相同。

可选的，一种具体实现方式中，上述步骤S103中，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，可以包括如下步骤G1-G3：

步骤G1：将该分词同时与各个标准词以及各个标准词关联的各个近义词进行数据匹配；

步骤G2：若与该分词相匹配的词为标准词，则将该标准词确定为与该分词相匹配的标准词；

步骤G3：若与该分词相匹配的词为近义词，则将该近义词关联的标准词，确定为与该分词相匹配的标准词；

其中，各个标准词为：多个指定字段的标准化数据库中的标准词。

在本具体实现方式中，在确定与各个分词相匹配的标准词时，可以利用多个指定字段的标准化数据库中的标准词，以及多个指定字段的标准化数据库中的各个标准词关联的各个近义词进行确定。

其中，可以将多个指定字段的标准化数据库中的标准词简称为各个标准词，将多个指定字段的标准化数据库中的各个标准词关联的各个近义词简称为各个标准词关联的各个近义词。

这样，针对每个分词，便可以将该分词同时与各个标准词以及各个标准词关联的各个近义词进行数据匹配，得到上述各个标准词以及各个标准词关联的各个近义词中，与该分词相匹配的词。

其中，将该分词同时与各个标准词以及各个标准词关联的各个近义词进行数据匹配，得到上述各个标准词以及各个标准词关联的各个近义词中，与该分词相匹配的词的实现方式，与上述步骤B11的具体实现方式类似，在此不再赘述。

针对每个分词，在得到与该分词相匹配的词后，可以确定与该分词相匹配的词是上述各个标准词中的标准词，还是上述各个标准词关联的各个近义词中的近义词。

这样，若与该分词相匹配的词为上述各个标准词中的词，即与该分词相匹配的词为标准词，则可以直接将该标准词确定为与该分词相匹配的标准词。

相应的，若与该分词相匹配的词为上述各个标准词关联的各个近义词中的词，即与该分词相匹配的词为近义词，则可以首先确定该近义词关联的标准词，进而，将该近义词关联的标准词确定为与该分词相匹配的标准词。

在上述步骤E所示具体实现方式，和上述步骤G1-G3所示具体实现方式的基础上，可选的，一种具体实现方式中，上述步骤S103中，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，可以包括如下步骤H1-H2。

步骤H1：遍历多个指定字段的标准化数据库，在遍历到每个标准化数据库时，将该分词与该标准化数据库对应的各个参考词进行匹配；若存在与该分词相匹配的参考词，则执行步骤H2；若不存在与该分词相匹配的参考词，则遍历下一个标准化数据库。

其中，该标准化数据库对应的各个参考词包括：该标准化数据库中的各个标准词和/或该标准化数据库中的各个标准词关联的各个近义词；

步骤H2：将该标准化数据库中与该参考词对应的标准词，确定为与该分词相匹配的标准词。

可选的，一种具体实现方式中，上述多个指定字段中可以包括第一类字段，并且，属于该第一类字段的各个标准词之间能够按照从属关系进行等级划分。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，对于属于检查部位名称的各个标准词而言，其可以按照各个标准词之间的从属关系，划分各个标准词的等级，因此，检查部位名称即为第一类字段。

示例性的，如表1所示，颅面及五官、颅脑、内听道、鞍区、眼眶、颌面骨、颞颌关节、乳突、茎突、鼻咽部和鼻骨均为属于检查部位名称的标准词，其中，颅脑、内听道、鞍区、眼眶、颌面骨、颞颌关节、乳突、茎突、鼻咽部和鼻骨均从属于颅面及五官。则可以将颅面及五官划分为一级检查部位名称，而颅脑、内听道、鞍区、眼眶、颌面骨、颞颌关节、乳突、茎突、鼻咽部和鼻骨均为颅面及五官下的二级检查部位名称。

基于此，在本具体实现方式中，如图4所示，本发明实施例提供的一种具体实现方式还可以包括如下步骤：

S105：针对每个分词，判断该分词所属的指定字段是否为第一类字段；若是，执行步骤S106；

S106，确定与该分词相匹配的标准词的所属等级，作为该分词的第一辅助内容，且在与该分词相匹配的标准词的所属等级为非最高等级时，确定与该分词相匹配的标准词对应的目标等级下的标准词，作为该分词的第二辅助内容；

其中，目标等级高于该分词相匹配的标准词的所属等级；

相应的，在本具体实现方式中，上述步骤S104，基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据，便可以包括如下步骤S104a：

S104a：基于与各个分词相匹配的标准词和各个分词所属的指定字段，以及，第一辅助内容和第二辅助内容，生成目标文本数据的标准化数据。

在本具体实现方式中，针对目标文本数据的每个分词，在确定与该分词相匹配的标准词和该分词所属的指定字段后，可以判断该分词所属的指定字段是否为第一类字段。

其中，若判断出该分词所属的指定字段是第一类字段，则由于该分词所属的指定字段为与该分词相匹配的标准词所属的指定字段，因此，可以确定与该分词相匹配的标准词在所属指定字段中的所属等级，并将所确定出的所属等级作为该分词的第一辅助信息。

接着，可以判断与该分词相匹配的标准词的所属等级是否为最高等级。

其中，若判断出与该分词相匹配的标准词的所属等级为非最高等级时，则由于该指定字段的标准化数据库为：该指定字段下的具有等级关系的标准化数据库，因此，可以在该指定字段的标准化数据库所具有的等级关系中，确定高于该分词相匹配的标准词的所属等级的目标等级，进而，在该指定字段的标准化数据库中的标准词中，确定与该分词相匹配的标准词对应的目标等级下的标准词，并将所确定出的标准词作为该分词的第二辅助内容。

可以理解的，当与该分词相匹配的标准词的所属等级为非最高等级时，则与该分词相匹配的标准词可以从属于具有目标等级的某个标准词，因此，与该分词相匹配的标准词所从属于的具有目标等级的某个标准词，即为与该分词相匹配的标准词对应的目标等级下的标准词，也即为该分词的第二辅助内容。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，检查部位名称即为第一类字段，且上述表1为检查部位名称的标准化数据库的部分内容。

示例性的，当与目标文本数据的某个分词相匹配的标准词为颅脑时，则可以判断出该分词所属的指定字段为检查部位名称，且为第一类字段；接着，可以确定颅脑的所属等级为二级，得到该分词的第一辅助内容；之后，可以确定颅脑的所属等级为非最高级别；然后，可以确定颅脑对应的一级下的标准词为颅面及五官，得到该分词的第二辅助内容。

这样，针对目标文本数据，在确定出与各个分词相匹配的标准词和各个分词所属的指定字段，以及所存在的第一辅助内容和第二辅助内容后，便可以基于与各个分词相匹配的标准词和各个分词所属的指定字段，以及第一辅助内容和第二辅助内容，生成目标文本数据的标准化数据。

可选的，针对目标文本数据，可以建立与目标文本数据的各个分词相匹配的标准词之间的第一关联关系、建立与目标文本数据的每个分词相匹配的标准词和该分词所属的指定字段之间的第二关联关系，以及，对于具有第一辅助内容和第二辅助内容的分词而言，建立与该分词相匹配的标准词，以及该分词所具有的第一辅助内容和第二辅助内容之间的第三关联关系，并且，对于只具有第一辅助内容的分词而言，建立与该分词相匹配的标准词和该分词所具有的第一辅助内容的第四关联关系。这样，在建立完成上述第一关联关系、第二关联关系、第三关联关系和第四关联关系后，可以得到目标文本数据的标准化数据。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，检查部位名称即为第一类字段。

示例性的，目标文本数据为：髋关节正位，则目标文本数据的各个分词为：髋关节和正位；与目标文本数据的各个分词相匹配的标准词分别为：髋关节和正位，并且，分词髋关节所属的指定字段为检查部位名称，分词髋关节的第一辅助内容为：二级，分词髋关节的第二辅助内容为：下肢及关节，分词正位所属的指定字段为检查方法名称。则可以得到如表7所示的，目标文本数据髋关节正位的标准化数据。

表7

序号	一级检查部位名称	二级检查部位名称	检查方法名称
				1	下肢及关节	髋关节	正位

在上述图2和图4所示具体实现方式的基础上，可选的，一种具体实现方式中，图5为本发明实施例提供的另一种标准化数据的生成方法的流程示意图，如图5所示，该方法可以包括如下步骤：

S501：获取待数据标准化的目标文本数据；

S502：基于预定的分隔符，对目标文本数据进行分割，得到至少一个子文本；

S503：对各个子文本进行分词处理，得到各个子文本的分词；

S504：针对每一分词，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段。

S505：针对每个子文本中的每个分词，判断该分词所属的指定字段是否为第一类字段；若是，执行步骤S506；

S506：确定与该分词相匹配的标准词的所属等级，作为该分词的第一辅助内容，且在与该分词相匹配的标准词的所属等级为非最高等级时，确定与该分词相匹配的标准词对应的目标等级下的标准词，作为该分词的第二辅助内容；

其中，目标等级高于该分词相匹配的标准词的所属等级

S507：针对每个子文本，基于与该子文本的各个分词相匹配的标准词和该子文本的各个分词所属的指定字段，以及，该子文本的第一类分词的第一辅助内容和该子文本的第二类分词的第二辅助内容，生成该子文本的标准化数据。

在本具体实现方式，上述步骤S501和S504的具体内容与上述图1中的步骤S101和S103的具体内容相同，上述步骤S502-S503的具体内容与上述图2中的步骤S1021-S1023的具体内容相同，在此均不再赘述。

进而，针对目标文本的每个子文本，在确定出与该子文本的各个分词相匹配的标准词，以及该子文本的各个分词所属的指定字段后，可以针对每个子文本执行如下操作：

针对该子文本中的每个分词，可以判断该分词所属的指定字段是否为第一类字段。

其中，若判断出该分词所属的指定字段是第一类字段，则可以确定与该分词相匹配的标准词在所属指定字段中的所属等级，并将所确定出的所属等级作为该分词的第一辅助信息。

其中，若判断出与该分词相匹配的标准词的所属等级为非最高等级时，则可以在该指定字段的标准化数据库所具有的等级关系中，确定高于该分词相匹配的标准词的所属等级的目标等级，进而，在该指定字段的标准化数据库中的标准词中，确定与该分词相匹配的标准词对应的目标等级下的标准词，并将所确定出的标准词作为该分词的第二辅助内容。

这样，针对该子文本，在确定出与该子文本中的各个分词相匹配的标准词和该子文本中的各个分词所属的指定字段，以及所存在的第一辅助内容和第二辅助内容后，便可以基于与该子文本中的各个分词相匹配的标准词和该子文本中的各个分词所属的指定字段，以及第一辅助内容和第二辅助内容，生成该子文本中的标准化数据。

其中，生成该子文本的标准化数据的具体方式与上述图5中步骤S104a的内容相同，在此不再赘述。

这样，在生成上述各个子文本的标准化数据后，便可以得到目标文本数据的标准化数据。

示例性的，如表8所示，即为表4所示的目标文本数据的各个子文本的标准化数据，则如表8所示，即为表4所示的目标文本数据的标准化数据。

表8

序号	一级检查部位名称	二级检查部位名称	检查方法名称
				1	脊柱	腰椎	正侧位
2	脊柱	腰椎	过伸位；过屈位
				3	下肢及关节	髋关节	正位

在上述图3和图5所示的具体实现方式的基础上，可选的，一种具体实现方式中，图6为本发明实施例提供的再一种标准化数据的生成方法的流程示意图，如图6所示，该方法可以包括如下步骤：

S601：获取待数据标准化的目标文本数据；

S602：基于预定的分隔符，对目标文本数据进行分割，得到至少一个子文本；

S603：对各个子文本进行分词处理，得到各个子文本的分词；

S604：对修正后的各个子文本进行分词处理，得到修正后的各个子文本的分词；

S605：针对每一分词，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段。

S606：针对修正后的每个子文本中的每个分词，判断该分词所属的指定字段是否为第一类字段；若是，执行步骤S607；

S607：确定与该分词相匹配的标准词的所属等级，作为该分词的第一辅助内容，且在与该分词相匹配的标准词的所属等级为非最高等级时，确定与该分词相匹配的标准词对应的目标等级下的标准词，作为该分词的第二辅助内容；

其中，目标等级高于该分词相匹配的标准词的所属等级

S608：针对修正后的每个子文本，基于与该子文本的各个分词相匹配的标准词和该子文本的各个分词所属的指定字段，以及，该子文本的第一类分词的第一辅助内容和该子文本的第二类分词的第二辅助内容，生成该子文本的标准化数据。

在本具体实现方式，上述步骤S601和S605的具体内容与上述图1中的步骤S101和S103的具体内容相同，上述步骤S602-S603的具体内容与上述图3中的步骤S1021-S1023a的具体内容相同，上述步骤S606-S608的具体内容与上述图5中的步骤S505-S507的具体内容类似，在此均不再赘述。

也就是说，在本具体实现方式中，在得到修正后的每个子文本的标准化数据后，便可以得到目标文本数据的标准化数据。

可选的，一种具体实现方式中，由于可以通过遍历各个指定字段的标准数据库确定与各个分词相匹配的标准词，则在本具体实现方式中，上述步骤H1中，在遍历到每个标准化数据库时，将该分词与该标准化数据库对应的各个参考词进行匹配，可以包括如下步骤H11-H13：

步骤H11：在遍历到第一类字段的标准化数据库时，从该标准化数据库对应的未与该分词进行匹配的各个参考词中，确定所属等级最低的各个参考词，并将该分词与所确定的各个参考词进行匹配；

步骤H12：在遍历到第一类字段的标准化数据库时，若不存在与该分词相匹配的参考词，在遍历下一个标准化数据库之前，返回步骤H11；

步骤H13：在遍历到第一类字段以外的指定字段的标准化数据库时，将该分词分别与该标准化数据库对应的各个参考词进行匹配。

可选的，一种具体实现方式中，上述多个指定字段中可以包括第二类字段，并且，属于第二类字段的各个标准词中存在具有特征关系词的词；特定关系词包括：包含关系词和/或替换关系词。

也就是说，属于第二类字段的各个标准词中存在具有包含关系词和/或替换关系词的标准词。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，对于属于检查方法名称的各个标准词而言，存在具有包含关系词和/或替换关系词的标准词，因此，检查方法名称即为第二类字段。

示例性的，上述表2为检查方法名称的标准化数据库的部分内容，如表2所示，双斜位具有包含关系词斜位，以及替换关系词左斜位和右斜位；左斜位和右斜位均具有包含关系词斜位；正侧位具有包含关系词侧位，以及替换关系词正位和侧位。

基于此，在本具体实现方式中，在图1所示具体实现方式的基础上，在执行上述步骤S104，基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据之前，本发明实施例提供的一种标准化数据的生成方法还可以包括如下步骤I1- I5：

步骤I1：判断所属的指定字段为第二类字段的分词的数量是否为多个；如果否，执行上述步骤S104；如果是，执行步骤I2；

步骤I2：判断与各个目标分词相匹配的标准词中是否存在目标标准词；如果是，执行步骤I3，否则，执行步骤I4；

其中，目标分词为：所属的指定字段为第二类字段的分词；目标标准词为：与各个目标分词相匹配的标准词中的至少一个标准词的包含关系词；

步骤I3：删除所确定的各个目标标准词；

步骤I4：遍历与各个目标分词相匹配的标准词中，当前所存在的各个标准词，在遍历到每个标准词时，判断该标准词是否存在替换关系词，如果存在，确定该标准词的替换关系词；否则，遍历下一标准词；

步骤I5：在遍历完全部当前所存在的各个标准词后，基于与所属的指定字段不为第二类字段的各个分词相匹配的标准词、所属的指定字段不为第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及第二类字段，生成目标文本数据的标准化数据。

在本具体实现方式中，在确定与目标文本数据的各个分词相匹配的标准词，以及目标文本数据的各个分词所属的指定字段后，可以确定目标文本数据的各个分词中，属于第二类字段的分词的数量是否多个。

其中，若目标文本数据的各个分词中，属于第二类字段的分词的数量为1个，则可以直接基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据。

若目标文本数据的各个分词中，属于第二类字段的分词的数量为多个，则可以将所属的指定字段为第二类字段的分词作为目标分词，从而，可以确定与各个目标分词相匹配的各个标准词，进而，可以判断与各个目标分词相匹配的各个标准词中，是否存在一个或多个目标标准词，其中，每个目标标准词是与各个目标分词相匹配的各个标准词中，除该目标标准词之外的至少一个标准词的包含关系词。

进而，如果与各个目标分词相匹配的各个标准词中，存在一个或多个目标标准词，则删除所存在的全部目标标准词，则在删除上述全部目标标准词后，可以得到与各个目标分词相匹配的标准词中，当前所存在的各个标准词，则该当前所存在的各个标准词为：删除与各个目标分词相匹配的标准词中的全部目标标准词后，所剩余的各个标准词。

如果与各个目标分词相匹配的各个标准词中，不存在目标标准词，则与各个目标分词相匹配的标准词中，当前所存在的各个标准词即为：与各个目标分词相匹配的标准词。

进而，便可以遍历每个当前所存在的标准词，并在遍历到每个当前所存在的标准词，判断该标准词是否存在替换关系词，如果存在，可以确定该标准词的替换关系词；如果不存在，可以遍历下一个当前所存在的标准词。

这样，在遍历完全部当前所存在的各个标准词后，便可以确定目标文本数据中，所属的指定字段不为第二类字段的各个分词，从而，可以确定与所属的指定字段不为第二类字段的各个分词相匹配的标准词，以及所属的指定字段不为第二类字段的各个分词所属的指定字段；并且，还可以确定上述当前所存在的标准词中，不存在替换关系词的各个标准词，以及上述当前所存在的标准词中，存在替换关系词的各个标准词的替换关系词。

从而，便可以基于与所属的指定字段不为第二类字段的各个分词相匹配的标准词、所属的指定字段不为第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及第二类字段，生成目标文本数据的标准化数据。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，检查方法名称即为第二类字段，并且，上述表2为检查方法名称的标准数据库的部分内容。示例性的，目标文本数据为腰椎正侧位，则可以得到如表9所示的目标文本数据的标准化数据。

表9

二级检查部位名称	检查方法名称
		腰椎	正位；侧位

进一步的，可选的，在上述步骤D1-D5的基础上，若目标文本数据可以拆分成至少一个子文本，则可以针对每个子文本的各个分词，执行上述步骤D1- D 4，从而，在遍历完全部当前所存在的各个标准词后，便可以基于与所属的指定字段不为第二类字段的各个分词相匹配的标准词、所属的指定字段不为第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及第二类字段，生成该子文本的标准化数据。这样，在得到各个子文本的标准化数据后，便可以得到目标文本数据的标准化数据。

例如，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，检查方法名称即为第二类字段。

示例性的，如表10所示，即为表4所示的目标文本数据的各个子文本的标准化数据，则如表10所示，即为表4所示的目标文本数据的标准化数据。

表10

序号	检查部位名称	检查方法名称
			1	腰椎	正位；侧位
2	腰椎	过伸位；过屈位
			3	髋关节	正位

再进一步的，可选的，在上述D1-D5的基础上，若得到目标文本数据的修正后的各个子文本，则可以针对修正后的每个子文本的各个分词，执行上述步骤D1- D 4，从而，在遍历完全部当前所存在的各个标准词后，便可以基于与所属的指定字段不为第二类字段的各个分词相匹配的标准词、所属的指定字段不为第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及第二类字段，生成修正后的该子文本的标准化数据。这样，在得到修正后的各个子文本的标准化数据后，便可以得到目标文本数据的标准化数据。

基于上述步骤I1-I5所示的具体实现方式，上述多个指定字段中可以包括第二类字段，并且，属于第二类字段的各个标准词中存在具有特征关系词的词；特定关系词包括：包含关系词和/或替换关系词。从而，可选的，一种具体实现方式中，上述步骤S103中，基于多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，可以包括如下步骤J：

步骤J：针对每个所属的指定字段为第二类字段的分词，基于与该分词相匹配的标准词的数量和与该分词相匹配的标准词是否具有替换关系词的确定结果，得到修正后的与该分词相匹配的标准词；

其中，修正后的与该分词相匹配的标准词为：与该分词相匹配的标准词，或者，与该分词相匹配的标准词的替换关系词。

相应的，在本具体实现方式中，上述步骤S104，基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成目标文本数据的标准化数据，可以包括如下步骤J0：

步骤J0：基于所属的指定字段为第二类字段的各个分词修正后的与该分词相匹配的标准词和第二类字段，以及，基于所属的指定字段为非第二类字段的各个分词相匹配的标准词和该分词所属的指定字段，生成目标文本数据的标准化数据。

可选的，一种具体实现方式中，上述步骤J，基于与该分词相匹配的标准词的数量和与该分词相匹配的标准词是否具有替换关系词的确定结果，得到修正后的与该分词相匹配的标准词，可以包括如下步骤J1-J6：

步骤J1：若与该分词相匹配的标准词的数量为一个，且与该分词相匹配的标准词不存在替换关系词，则将与该分词相匹配的标准词确定为修正后的与该分词相匹配的标准词；

步骤J2：若与该分词相匹配的标准词的数量为一个，且与该分词相匹配的标准词存在替换关系词，则将与该分词相匹配的标准词的替换关系词确定为修正后的与该分词相匹配的标准词；

步骤J3：若与该分词相匹配的标准词的数量为多个，且存在目标标准词，则删除目标标准词，并判断当前所存在的与该分词相匹配的各个标准词是否存在替换关系词；如果存在，执行步骤J4；如果不存在，执行步骤J5；

其中，目标标准词为：与该分词相匹配的多个标准词中的至少一个标准词的包含关系词；

步骤J4：将与该分词相匹配的标准词的替换关系词确定为修正后的与该分词相匹配的标准词；

步骤J5：则将与该分词相匹配的标准词确定为修正后的与该分词相匹配的标准词；

步骤J6：若与该分词相匹配的标准词的数量为多个，且不存在目标标准词，则执行步骤J3中，判断当前所存在的与该分词相匹配的各个标准词是否存在替换关系词的步骤。

结合上述各个实施例，示例性的，对于医疗领域中的医学影像文本数据而言，多个指定字段可以包括：检查部位名称和检查方法名称，其中，检查部位名称为第一类字段，检查方法名称即为第二类字段。则以上述表4所示的目标文本数据为例，可以得到如表11所示的标准化数据。

表11

序号	一级检查部位名称	二级检查部位名称	检查方法名称
				1	脊柱	腰椎	正位；侧位
2	脊柱	腰椎	过伸位；过屈位
				3	下肢及关节	髋关节	正位

下面示例性介绍下各个指定字段的标准化数据库的一种构建方式：

基于对多个初始文本数据进行分词处理所得到的多个分词，确定用于构建标准化数据库的多个基础词，并识别每个基础词所属的指定字段；其中，每一初始文本数据包含多个指定字段下的数据内容；

确定每个基础词对应的多个候选标准词；其中，每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词；

从每个基础词对应的多个候选标准词中，确定该基础词对应的标准词，作为该基础词所属指定字段下的标准词；

针对每一指定字段，利用该指定字段下的各个标准词，构建该指定字段下的标准化数据库。

其中，所述基于对多个初始文本数据进行分词处理所得到的多个分词，确定用于构建标准化数据库的多个基础词的步骤，可以包括：

利用关联分析算法，计算各个关联词组的置信度；其中，每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词，任意两个关联词组符合多个指定条件中的一个条件，所述多个指定条件包括：所包含的分词至少一个不同，以及，包含相同的分词但所包含的分词的排列顺序不同；每个关联词组的置信度为：该关联词组所包括的各个分词，按照该关联词组中分词的排序同时出现的概率；

将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词，确定为各个基础词。

其中，所述识别每个基础词所属的指定字段的步骤，可以包括：

对每个基础词进行语义识别，得到每个基础词所属的指定字段；或者，

根据预设的关于排序与指定字段的对应关系，将每个基础词在所属的目标关联词组中的排序所对应的指定字段，确定为该基础词所属的指定字段。

其中，所述确定每个基础词对应的多个候选标准词的步骤，可以包括：

利用预设的近义词模型，确定每个基础词的近义词，并将该基础词与该基础词的近义词，确定为该基础词对应的多个候选标准词；

其中，所述近义词模型为：利用指定的语料数据训练得到的模型，所述语料数据为：与所述多个指定字段相关的文本数据。

其中，所述从每个基础词对应的多个候选标准词中，确定该基础词对应的标准词的步骤，可以包括：

输出每个基础词对应的多个候选标准词；

基于对输出结果的选取操作，确定每个基础词对应的标准词。

其中，所述多个指定字段中包括：第一类字段；其中，属于所述第一类字段的各个标准词之间能够按照从属关系进行等级划分；

所述针对每一指定字段，利用该指定字段下的各个标准词，构建该指定字段下的标准化数据库的步骤，包括：

针对每个第一类字段，确定该字段下的各个标准词之间的从属关系，并根据所确定的从属关系，为该字段下的各个标准词进行等级划分；

针对每个第一类字段，按照为该字段下的各个标准词进行等级划分的划分结果，构建该字段下具有等级关系的标准化数据库。

其中，所述多个指定字段中包括：第二类字段；其中，属于所述第二类字段的各个标准词中存在具有特征关系词的词；所述特定关系词包括：包含关系词和/或替换关系词；

针对每个第二类字段，遍历该字段下的各个标准词，并在遍历到每个标准词时，判断该标准词是否具有所述特定关系词；

若具有，建立该标准词与所具有的特定关系词的对应关系；

针对每个第二类字段，在遍历完该字段下的全部标准词后，得到该字段下具有所建立的对应关系的标准化数据库。

其中，所述特定关系词包括：包含关系词；所述判断该标准词是否具有所述特定关系词的步骤，可以包括：

判断该字段下的其他标准词中，是否存在被该标准词所包含的目标词；其中，所述该字段下的其他标准词为：该字段下的各个标准词中，除该标准词之外的各个词；

若存在，则该目标词为该标准词的包含关系词。

其中，所述特定关系词包括：替换关系词；所述判断该标准词是否具有所述特定关系词的步骤，包括：

判断该标准词中是否存在方位词；

如果存在，将该标准词中所存在的方位词分解为各个单方位词；

将所分解得到的每个单方位词与该标准词中除所述方位词之外的词，按照单方位词在前，该标准词中除所述方位词之外的词在后的顺序进行合并，得到该标准词的各个替换关系词。

其中，所述将所分解得到的每个单方位词与该标准词中除所述方位词之外的词，按照单方位词在前，该标准词中除所述方位词之外的词在后的顺序进行合并，得到该标准词的各个替换关系词的步骤，包括：

将所分解得到的每个单方位词与该标准词中除所述方位词之外的词，按照单方位词在前，该标准词中除所述方位词之外的词在后的顺序进行合并，得到该标准词的各个候选替换词；

将属于该字段下的标准词的候选替换词，确定为该标准词的替换关系词。

上述所给出的各个指定字段的标准化数据库的构建过程，仅仅作为示例，并不构成对本发明实施例的限定。

相应于上述本发明实施例提供的一种标准化数据的生成方法，本发明实施例还提供了一种医学文本数据的处理方法。

其中，该生成方法可以应用于服务器，笔记本电脑、台式电脑、平板电脑等各类的电子设备，对此，本发明实施例不做具体限定，以下简称电子设备。并且，该电子设备可以是分布式系统中的设备，也可以是独立的设备，这都是合理的。

另外，该方法可以适用于任一需要对医学文本数据进行标准化处理的应用场景，例如，对包含检查部位名称和检查方法名称的医学影像文本数据进行标准化处理等，这都时合理的。

图7为本发明实施例提供的一种医学文本数据的标准化处理方法的流程示意图，如图7所示，该方法可以包括如下步骤：

S701：获取医学文本数据，并将医学文本数据作为目标文本数据；

其中，医学文本数据可以包含多个指定字段下的数据内容，多个指定字段为：预设有标准化数据库的字段。并且，医学文本数据可以例如为医学影像文本数据，当然并不局限于此。

S702：根据上述任一标准化数据的生成方法对目标文本数据进行处理，以得到目标文本数据的标准化数据；

S703：建立医学文本数据与标准化数据之间的关联关系。

在对医学文本数据进行标准化处理时，电子设备可以首先获取医学文本数据，并将所获取到的医学文本数据作为目标文本数据。其中，所获取到的医学文本数据包含多个指定字段下的数据内容，并且，该多个指定字段为预设有标准化数据库的字段。

例如，获取包含检查部位名称和检查方法名称的医学影像文本数据，并且，检查部位名称和检查方法名称均预设有标准化数据库。

这样，电子设备便可以利用上述本发明实施例提供的任一标准化数据的生成方法，对所获取到的医学文本数据进行处理，从而，得到所获取到的医学文本数据的标准化数据，进而，建立所获取到的医学文本数据与所处理得到的标准化数据之间的关联关系，完成对所获取到的医学文本数据的标准化处理。

其中，电子设备利用上述本发明实施例提供的任一标准化数据的生成方法，对所获取到的医学文本数据进行处理的方式，与上述本发明实施例提供的一种标准化数据的生成方法中的各实现方式的内容相同，在此不再赘述。

这样，在医学领域中，应用本发明实施例提供的医学文本数据的处理方案，可以对医学文本数据进行标准化处理，得到医学文本数据的标准化数据，从而，建立医学文本数据与所得到的标准化数据之间的关联关系。这样，便可以对不同的信息系统的医学文本数据进行有效地标准化处理，为医疗质量的精细化监管分析提供实现基础。

相应于上述本发明实施例提供的一种标准化数据的生成方法，本发明实施例还提供了一种标准化数据的生成装置。

图8为本发明实施例提供的一种标准化数据的生成装置的结构示意图，如图8所示，该装置可以包括如下模块：

数据获取模块810，用于获取待数据标准化的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容，所述多个指定字段为：预设有标准化数据库的字段；

分词确定模块820，用于确定所述目标文本数据的多个分词；

分词匹配模块830，用于针对每一分词，基于所述多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词，以及该分词所属的指定字段；其中，该分词所属的指定字段为：与该分词相匹配的标准词所属的指定字段；

数据生成模块840，用于基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据。

可选的，一种具体实现方式中，所述分词确定模块820包括：

数据分割子模块，用于基于预定的分隔符，对所述目标文本数据进行分割，得到至少一个子文本；

分词确定子模块，用于对各个子文本进行分词处理，得到该子文本的分词。

可选的，一种具体实现方式中，所述装置还包括：

文本修正子模块，用于在所述对各个子文本进行分词处理，得到该子文本的分词之前，按照预定的文本修正规则，对各个子文本进行修正处理，得到修正后的各个子文本；其中，修正后的每一子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

所述分词确定子模块具体用于：对修正后的各个子文本进行分词处理，得到修正后的各个子文本的分词。

可选的，一种具体实现方式中，所述分词匹配模块830具体用于：

将该分词与所述多个指定字段的标准化数据库中的标准词进行数据匹配，得到与该分词相匹配的标准词；或者，

将该分词同时与各个标准词以及各个标准词关联的各个近义词进行数据匹配；若与该分词相匹配的词为标准词，则将该标准词确定为与该分词相匹配的标准词；若与该分词相匹配的词为近义词，则将该近义词关联的标准词，确定为与该分词相匹配的标准词；其中，各个标准词为：所述多个指定字段的标准化数据库中的标准词。

可选的，一种具体实现方式中，所述多个指定字段中包括：第一类字段；其中，所述第一类字段的标准化数据库中的各个标准词之间能够按照从属关系进行等级划分；所述装置还包括：

字段判断模块，用于在所述基于各个分词相匹配的标准词和所属的指定字段，生成所述目标文本数据的标准化数据之前，针对每个分词，判断该分词所属的指定字段是否为所述第一类字段；如果是，触发辅助内容确定模块；

所述辅助内容确定模块，用于确定与该分词相匹配的标准词的所属等级，作为该分词的第一辅助内容，且在与该分词相匹配的标准词的所属等级为非最高等级时，确定与该分词相匹配的标准词对应的目标等级下的标准词，作为该分词的第二辅助内容；其中，所述目标等级高于该分词相匹配的标准词的所属等级；

所述数据生成模块840具体用于：基于与各个分词相匹配的标准词和各个分词所属的指定字段，以及，所述第一辅助内容和所述第二辅助内容，生成所述目标文本数据的标准化数据。

可选的，一种具体实现方式中，所述多个指定字段中包括：第二类字段；其中，所述第二类字段的标准化数据库中的各个标准词中存在具有至少一种特定关系词的标准词；所述特定关系词包括：包含关系词和替换关系词；所述装置还包括：

数量判断模块，用于在所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤之前，判断所属的指定字段为所述第二类字段的分词的数量是否为多个；如果否，触发所述数据生成模块840；如果是，触发目标标准词判断模块；

所述目标标准词判断模块，用于判断与各个目标分词相匹配的标准词中是否存在目标标准词；如果是，触发标准词删除模块；否则，触发标准词遍历模块；其中，所述目标分词为：所属的指定字段为所述第二类字段的分词，所述目标标准词为：与各个所述目标分词相匹配的标准词中的至少一个标准词的包含关系词；

所述标准词删除模块，用于删除所确定的各个目标标准词；

所述标准词遍历模块，用于遍历与各个目标分词相匹配的标准词中，当前所存在的各个标准词，在遍历到每个标准词时，判断该标准词是否存在替换关系词；若该标准词存在替换关系词，则确定该标准词的替换关系词；若该标准词不存在替换关系词，则遍历下一标准词；

所述数据生成模块840具体用于，在遍历完全部当前所存在的各个标准词后，基于与所属的指定字段不为所述第二类字段的各个分词相匹配的标准词、所属的指定字段不为所述第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及所述第二类字段，生成目标文本数据的标准化数据。

可选的，一种具体实现方式中，所述数据生成模块840具体用于：

针对每一子文本，建立与该子文本的各个分词相匹配的标准词之间的关联关系，并建立与该子文本的每个分词相匹配的标准词和该分词所属的指定字段之间的关联关系，得到该子文本的标准化数据。

可选的，一种具体实现方式中，所述装置还包括：

关系建立模块，用于建立所述目标文本数据与该目标文本数据对应的所述标准化数据之间的关联关系。

相应于上述本发明实施例提供的一种医学文本数据的处理方法，本发明实施例还提供了一种医学文本数据的处理装置。

图9为本发明实施例提供的一种医学文本数据的处理装置的结构示意图，如图9所示，该装置可以包括如下模块：

医学文本数据获取模块910，用于获取医学文本数据，并将所述医学文本数据作为目标文本数据；其中，医学文本数据包含多个指定字段下的数据内容，多个指定字段为：预设有标准化数据库的字段；

医学文本数据处理模块920，用于根据上述任一标准化数据的生成方法对所述目标文本数据进行处理，以得到所述目标文本数据的标准化数据；

医学文本数据关系建立模块930，用于建立所述医学文本数据与所述标准化数据之间的关联关系。

这样，在医学领域中，应用本发明实施例提供的医学文本数据的标准化处理方案，可以对医学文本数据进行标准化处理，得到医学文本数据的标准化数据，从而，建立医学文本数据与所得到的标准化数据之间的关联关系。这样，便可以对不同的信息系统的医学文本数据进行有效地标准化处理，为医疗质量的精细化监管分析提供实现基础。

相应于上述本发明实施例提供的一种标准化数据的生成方法，本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现上述本发明实施例提供的任一标准化数据的生成方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据的处理方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一标准化数据的生成方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据的处理方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一标准化数据的生成方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据的处理方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例，以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种标准化数据的生成方法，其特征在于，所述方法包括：

确定所述目标文本数据的多个分词；

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本数据的多个分词的步骤，包括：

基于预定的分隔符，对所述目标文本数据进行分割，得到至少一个子文本；

对各个子文本进行分词处理，得到各个子文本的分词。

3.根据权利要求2所述的方法，其特征在于，在所述对各个子文本进行分词处理，得到各个子文本的分词的步骤之前，所述方法还包括：

按照预定的文本修正规则，对各个子文本进行修正处理，得到修正后的各个子文本；其中，修正后的每一子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

所述对各个子文本进行分词处理，得到各个子文本的分词的步骤，包括：

对修正后的各个子文本进行分词处理，得到修正后的各个子文本的分词。

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述多个指定字段的标准化数据库中的标准词，确定与该分词相匹配的标准词的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述多个指定字段中包括：第一类字段；其中，所述第一类字段的标准化数据库中的各个标准词之间能够按照从属关系进行等级划分；

在所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤之前，所述方法还包括：

针对每个分词，判断该分词所属的指定字段是否为所述第一类字段；

若是，确定与该分词相匹配的标准词的所属等级，作为该分词的第一辅助内容，且在与该分词相匹配的标准词的所属等级为非最高等级时，确定与该分词相匹配的标准词对应的目标等级下的标准词，作为该分词的第二辅助内容；其中，所述目标等级高于该分词相匹配的标准词的所属等级；

所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤，包括：

基于与各个分词相匹配的标准词和各个分词所属的指定字段，以及，所述第一辅助内容和所述第二辅助内容，生成所述目标文本数据的标准化数据。

6.根据权利要求1所述的方法，其特征在于，所述多个指定字段中包括：第二类字段；其中，所述第二类字段的标准化数据库中的各个标准词中存在具有至少一种特定关系词的标准词；所述特定关系词包括：包含关系词和替换关系词；

判断所属的指定字段为所述第二类字段的分词的数量是否为多个；

如果所属的指定字段为所述第二类字段的分词的数量为一个，执行所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤；

如果所属的指定字段为所述第二类字段的分词的数量为多个，判断与各个目标分词相匹配的标准词中是否存在目标标准词；其中，所述目标分词为：所属的指定字段为所述第二类字段的分词，所述目标标准词为：与各个所述目标分词相匹配的标准词中的至少一个标准词的包含关系词；

当与各个目标分词相匹配的标准词中存在目标标准词时，删除所确定的各个目标标准词；

当与各个目标分词相匹配的标准词中不存在目标标准词时，遍历与各个目标分词相匹配的标准词中，当前所存在的各个标准词，在遍历到每个标准词时，判断该标准词是否存在替换关系词；若该标准词存在替换关系词，则确定该标准词的替换关系词；若该标准词不存在替换关系词，则遍历下一标准词；

在遍历完全部当前所存在的各个标准词后，基于与所属的指定字段不为所述第二类字段的各个分词相匹配的标准词、所属的指定字段不为所述第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及所述第二类字段，生成目标文本数据的标准化数据。

7.根据权利要求2所述的方法，其特征在于，所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立所述目标文本数据与该目标文本数据的所述标准化数据之间的关联关系。

9.一种标准化数据的生成装置，其特征在于，所述装置包括：

分词确定模块，用于确定所述目标文本数据的多个分词；

10.根据权利要求9所述的装置，其特征在于，所述分词确定模块包括：

分词确定子模块，用于对各个子文本进行分词处理，得到各个子文本的分词。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

文本修正子模块，用于在所述对各个子文本进行分词处理，得到各个子文本的分词之前，按照预定的文本修正规则，对各个子文本进行修正处理，得到修正后的各个子文本；其中，修正后的每一子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

12.根据权利要求9或10所述的装置，其特征在于，所述分词匹配模块具体用于：

13.根据权利要求9所述的装置，其特征在于，所述多个指定字段中包括：第一类字段；其中，所述第一类字段的标准化数据库中的各个标准词之间能够按照从属关系进行等级划分；所述装置还包括：

字段判断模块，用于在所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据之前，针对每个分词，判断该分词所属的指定字段是否为所述第一类字段；如果是，触发辅助内容确定模块；

所述数据生成模块具体用于：基于与各个分词相匹配的标准词和各个分词所属的指定字段，以及，所述第一辅助内容和所述第二辅助内容，生成所述目标文本数据的标准化数据。

14.根据权利要求9所述的装置，其特征在于，所述多个指定字段中包括：第二类字段；其中，所述第二类字段的标准化数据库中的各个标准词中存在具有至少一种特定关系词的标准词；所述特定关系词包括：包含关系词和替换关系词；所述装置还包括：

数量判断模块，用于在所述基于与各个分词相匹配的标准词和各个分词所属的指定字段，生成所述目标文本数据的标准化数据的步骤之前，判断所属的指定字段为所述第二类字段的分词的数量是否为多个；如果否，触发所述数据生成模块；如果是，触发目标标准词判断模块；

所述标准词删除模块，用于删除所确定的各个目标标准词；

所述数据生成模块具体用于，在遍历完全部当前所存在的各个标准词后，基于与所属的指定字段不为所述第二类字段的各个分词相匹配的标准词、所属的指定字段不为所述第二类字段的各个分词所属的指定字段、不存在替换关系词且与当前所存在的目标分词相匹配的标准词、存在替换关系词且与当前所存在的目标分词相匹配的标准词的替换关系词，以及所述第二类字段，生成目标文本数据的标准化数据。

15.根据权利要求10所述的装置，其特征在于，所述数据生成模块具体用于：

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

17.一种医学文本数据的处理方法，其特征在于，所述方法包括：

根据权利要求1-8任一所述的方法步骤对所述目标文本数据进行处理，以得到所述目标文本数据的标准化数据；

建立所述医学文本数据与所述标准化数据之间的关联关系。

18.一种医学文本数据的处理装置，其特征在于，所述装置包括：

医学文本数据处理模块，用于根据权利要求1-8任一所述的方法步骤对所述目标文本数据进行处理，以得到所述目标文本数据的标准化数据；

19.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤，和/或，权利要求17所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤，和/或，权利要求17所述的方法步骤。