CN112800763B

CN112800763B - 数据处理方法、医学文本数据处理方法、装置及电子设备

Info

Publication number: CN112800763B
Application number: CN202110398318.XA
Authority: CN
Inventors: 王东风; 方杰; 周月; 汪知滴; 纪萍
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-06
Anticipated expiration: 2041-04-14
Also published as: CN112800763A

Abstract

本发明实施例提供了一种数据处理方法、医学文本数据处理方法、装置及电子设备，涉及人工智能技术领域和医疗领域。该方法包括：获取待处理的目标文本数据；基于预定的分隔符，对目标文本数据进行分割，得到各个初始子文本；按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本；其中，每一目标子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个；对各个目标子文本进行分词处理，得到目标文本数据的分词。与现有技术相比，应用本发明实施例提供的方案，可以实现对不同的信息系统的文本数据进行分词处理，为文本数据的标准化提供实现基础。

Description

数据处理方法、医学文本数据处理方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域和医疗领域，特别是涉及数据处理方法、医学文本数据处理方法、装置及电子设备。

背景技术

当前，随着信息技术的不断发展，各行业内部之间的信息交流需求越来越多。但是，现如今，在同一行业内，或者，同一机构内，若干信息系统呈现“信息孤岛”的局面。

针对信息系统所形成的文本数据而言，由于各个信息系统所采用的数据操作规范不统一，因此，无法得到关于文本数据的规范化的标准化数据，这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。

以医疗领域为例，各医疗机构IT系统众多，虽然在医学影像文本数据的数据字段层面进行了标准化统一，但各医疗机构IT系统所采用的数据处理规范不统一，从而，无法进行医疗质量的精细化监管分析。

在对不同的信息系统的文本数据进行规范化操作，得到关于文本数据的规范化的标准化数据时，首先需要对文本数据进行分词处理，进而，根据分词处理的分词结果，得到文本数据的标准化数据。也就是说，对文本数据进行分词处理，是实现文本数据标准化的基础。

基于此，现在亟需一种数据处理方法，对不同的信息系统的文本数据进行分词处理，为文本数据的标准化提供实现基础。

发明内容

本发明实施例的目的在于提供一种数据处理方法、装置及电子设备，以实现对不同的信息系统的文本数据进行分词处理，为文本数据的标准化提供实现基础。另外，本发明实施例还提供了一种医学文本数据处理方法、装置及电子设备，以实现对不同的信息系统的医学文本数据进行分词处理，为医学文本数据的标准化提供实现基础。具体技术方案如下：

第一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取待处理的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容；

基于预定的分隔符，对所述目标文本数据进行分割，得到各个初始子文本；

按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本；其中，每一目标子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

对各个目标子文本进行分词处理，得到所述目标文本数据的分词。

第二方面，本发明实施例提供了一种数据处理装置，所述装置包括：

数据获取模块，用于获取待处理的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容；

数据分割模块，用于基于预定的分隔符，对所述目标文本数据进行分割，得到各个初始子文本；

文本修正模块，用于按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本；其中，每一目标子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

文本分词模块，用于对各个目标子文本进行分词处理，得到所述目标文本数据的分词。

第三方面，本发明实施例提供了一种医学文本数据处理方法，所述方法包括：

获取待处理的医学文本数据；其中，所述医学文本数据包含多个指定字段下的数据内容；

根据上述第一方面提供的任一数据处理方法处理所述医学文本数据，以得到所述医学文本数据的分词。

第四方面，本发明实施例提供了一种医学文本数据处理装置，所述装置包括：

医学文本数据获取模块，用于获取待处理的医学文本数据；其中，所述医学文本数据包含多个指定字段下的数据内容；

医学文本数据处理模块，用于根据上述第一方面提供的任一数据处理方法处理所述医学文本数据，以得到所述医学文本数据的分词。

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一数据处理方法的步骤，和/或，上述第三方面提供的一种医学文本数据处理方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一数据处理方法的步骤，和/或，上述第三方面提供的一种医学文本数据处理方法的步骤。

第七方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一数据处理方法的步骤，和/或，上述第三方面提供的一种医学文本数据处理方法的步骤。

本发明实施例有益效果：

以上可见，应用本发明实施例提供的数据处理方案，在获取到待处理的包含多个指定字段下的数据内容的目标文本数据后，可以首先基于预定的分隔符，对该目标文本数据进行分割，得到各个初始子文本，进而，便可以按照预定的文本修正规则，对各个初始子文本进行修正处理，从而，得到各个目标子文本。其中，所得到的每一目标子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个。这样，在对各个目标子文本进行分词处理后，便可以得到该目标文本数据的分词。

基于此，应用本发明实施例提供的方案，可以对不同的信息系统的文本数据进行统一的规范化的分词处理，为文本数据的标准化提供实现基础。

另外，应用本发明实施例提供的医学文本数据处理方案，可以对不同的信息系统的医学文本数据进行统一的规范化的分词处理，为医学文本数据的标准化提供实现基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种数据处理方法的流程示意图；

图2为图1中S103的一种具体实现方式的流程示意图；

图3为图1中S103的另一种具体实现方式的流程示意图；

图4为图3中S301的一种具体实现方式的流程示意图；

图5为图3中S301的另一种具体实现方式的流程示意图；

图6为每个子文本组的确定方式的一种具体实现方式的流程示意图；

图7为本发明实施例提供的一种医学文本数据处理方法的流程示意图；

图8为本发明实施例提供的一种医学文本数据处理方法的一种应用实例的过程示意图；

图9为本发明实施例提供的一种数据处理装置的结构示意图；

图10为本发明实施例提供的一种医学文本数据处理装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种数据处理方法。

其中，该数据处理方法可以应用于服务器、笔记本电脑、台式电脑、平板电脑等各类的电子设备，对此，本发明实施例不做具体限定，以下简称电子设备。并且，该电子设备可以是分布式系统中的设备，也可以是独立的设备，这都是合理的。

另外，该数据处理方法可以适用于任一需要对文本数据进行分词处理的应用场景，例如，对医疗领域中的医学影像文本数据进行分词处理，示例性的，医学影像文本数据中可以包括指定字段检查部位名称和检查方法名称；又例如，生成建筑领域中的各类文本数据的标准化数据等，这都是合理的。

所谓医学影像文本数据是指：医院内部影像检查科做影像检查过程中产生的文本数据，并且，医学影像可以包括普放业务、CT（Computed Tomography，电子计算机断层扫描）业务、核磁共振（magnetic resonance，MR）业务、彩超业务、内窥镜业务等多种业务所形成的医学影像，所谓普放业务是指：x线摄像相关设备进行医疗照相的相关业务。所谓检查部位名称是指：医学影像检查的主要人体部位和人体器官，例如，颅脑、腰椎等，所谓检查方法名称是指：医学影像检查过程中所采用的技术方法，例如，正侧位、斜位等。

并且，当目标文本数据为医疗领域中的医学影像文本数据时，除检查部位名称和检查方法名称之外，上述多个指定字段中还可以包括：诊断结果、业务类型等其他字段。

其中，本发明实施例提供的一种数据处理方法，可以包括如下步骤：

以上可见，应用本发明实施例提供的方案，在获取到待处理的包含多个指定字段下的数据内容的目标文本数据后，可以首先基于预定的分隔符，对该目标文本数据进行分割，得到各个初始子文本，进而，便可以按照预定的文本修正规则，对各个初始子文本进行修正处理，从而，得到各个目标子文本。其中，所得到的每一目标子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个。这样，在对各个目标子文本进行分词处理后，便可以得到该目标文本数据的分词。

下面结合附图，对本发明实施例提供的一种数据处理方法进行具体说明。

图1为本发明实施例提供的一种数据处理方法的流程示意图，如图1所示，该方法可以包括如下步骤S101-S104：

S101：获取待处理的目标文本数据；

其中，目标文本数据包含多个指定字段下的数据内容；

在通过对文本数据进行分词处理，为文本数据的标准化提供实现基础时，可以首先获取待处理的目标文本数据，并且，该目标文本数据中可以包含多个指定字段下的数据内容。

其中，目标文本数据所属的技术领域与多个指定字段所属的技术领域相同。

例如，待处理的目标文本数据为医疗领域中的医学影像文本数据，则该医学影像文本数据中可以包括指定字段检查部位名称和检查方法名称下的数据内容，即多个指定字段中包括：检查部位名称和检查方法名称。

可选的，多个指定字段中的每个指定字段可以预设有标准化数据库。其中，每个指定字段的标准化数据库中记录有该指定字段下的各个标准词。

此外，各个指定字段的标准化数据的构建方式存在多种，本申请并不对具体的构建方式进行限定。

S102：基于预定的分隔符，对目标文本数据进行分割，得到各个初始子文本；

在目标文本数据的数据内容较长时或者基于特定的文本形成习惯，目标文本数据可以由多个子文本通过分隔符来组成。为了保证分词结果中的每一分词内均不存在分隔符，因此，在获取到待处理的目标文本数据后，可以基于预定的分隔符，对目标文本数据进行分割，从而得到各个初始子文本，也就是说，所得到的初始子文本的数量可以为一个或多个。

其中，上述预定的分隔符可以包括“，”、“、”、“；”、“+”等各类语言文字中，用于对目标文本数据中的文字进行分割的符号，对此，本发明实施例不做具体限定。

可选的，可以首先检测目标文本数据中所包括的分隔符，从而，可以将目标文本数据中的第一个文字至第一个分隔符之前的文字，确定为目标文本数据的第一个初始子文本；将最后一个分隔符之后的文字，确定为目标文本数据中的最后一个初始子文本；并将除上述第一个初始子文本和最后一个初始子文本外的各个文字中，位于两个分隔符之间的文字确定为目标文本数据的一个初始子文本。

例如，待处理的目标文本数据为“腰椎正侧位，腰椎过伸过屈位，髋关节正位”，则可以基于预定的分隔符，得到三个初始子文本，该三个初始子文本分别是：初始子文本：腰椎正侧位，初始子文本：腰椎过伸过屈位，以及初始子文本：髋关节正位。

S103：按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本；

其中，每一目标子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个；

由于目标文本数据的生成方式可以是不标准化的，因此，基于预定的分隔符，对目标文本数据进行分割，所得到的各个初始子文本中，可能存在未包括上述多个指定字段下的数据内容的初始子文本，也可能存在包括多个特定字段下的数据内容的初始子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，其中，特定字段为：检查部分名称。

示例性的，目标文本数据为：“胸椎、胸部正侧位”，分割所得到的两个初始子文本分别为：“胸椎”和“胸部正侧位”，则初始子文本“胸椎”中只包括检查部分名称下的内容数据。又示例性的，目标文本数据为：“右手部正侧位、斜位片”，分割所得到的两个初始子文本分别为：“右手部正侧位”和“斜位片”，则初始子文本“斜位片”中只包括检查方法名称下的内容数据。再示例性的，目标文本数据为“胸部正位颈椎正侧动力位”，分割所得到的初始子文本仍然为“胸部正位颈椎正侧动力位”，则该初始子文本中包括两个检查部分名称。

基于此，在得到各个初始子文本后，便可以按照预定的文本修正规则，对各个初始子文本进行修正处理，从而，得到各个目标子文本。这样，可以使得所得到的每一目标子文本中包括多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个。

可选的，可以将对目标文本数据进行分割所得到的各个初始子文本中的多个初始子文本进行合并，将合并后所得到的子文本作为目标子文本。

可选的，可以将目标文本数据进行分割所得到的某个初始子文本中的部分数据，添加到所得到的其他初始子文本中，将添加后的子文本作为目标子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，则可以将检查部分名称作为特定字段，所得到的各个目标子文本包括检查部分名称和检查方法名称下的数据内容，并且，检查部分名称下的数据内容的数量为1个。

示例性的，目标文本数据为：“胸椎、胸部正侧位”，分割所得到的两个初始子文本分别为：“胸椎”和“胸部正侧位”，则对各个初始子文本进行修正后，所得到的各个目标子文本可以分别为：“胸部正侧位”和“胸椎正侧位”；又示例性的，目标文本数据为：“右手部正侧位、斜位片”，分割所得到的两个初始子文本分别为：“右手部正侧位”和“斜位片”，则对各个初始子文本进行修正后，所得到的各个目标子文本可以为：“右手部正侧位斜位片”。

为了方案清楚及布局清楚，后续示例性地介绍S103的具体实现方式。

S104：对各个目标子文本进行分词处理，得到目标文本数据的分词。

在得到各个目标子文本后，便可以对各个目标子文本进行分词处理，得到各个目标子文本的分词，则所得到的各个目标子文本的分词即为上述所获取到的目标文本数据的分词。

例如，待处理的目标文本数据为“腰椎正侧位，腰椎过伸过屈位，髋关节正位”，所得到的目标子文本分别为：“腰椎正侧位”、“腰椎过伸过屈位”和“髋关节正位”。从而，对上述各个目标子文本进行分词处理，所得到的目标文本数据的分词即如下表1所示：

表1

序号	目标文本数据的分词
		1	腰椎正侧位
2	腰椎过伸过屈位
		3	髋关节正位

可选的，在对目标文本数据的各个目标子文本进行分词处理时，为了使分词操作所得到的分词的准确性更高，可以使用与多个指定字段相关的分词工具，对目标文本数据的各个目标子文本进行分词处理。

示例性的，对目标文本数据的各个目标子文本进行分词处理所使用的分词工具所属的技术领域，与多个指定字段所属的技术领域相同；进而，由于多个指定字段所属的技术领域与目标文本数据所属的技术领域相同，因此，对目标文本数据的各个目标子文本进行分词处理所使用的分词工具所属的技术领域，与目标文本数据所属的技术领域相同。

例如，目标文本数据为医疗领域中的医学影像文本数据，则可以采用医学专用分词工具对目标文本数据的各个目标子文本进行分词处理，得到目标文本数据的分词。

可选的，一种具体实现方式中，如图2所示，上述步骤S103，按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本，可以包括如下步骤S1031-S1033：

S1031：确定各个初始子文本中的待合并子文本；

其中，待合并子文本为：未包括第一类数据内容的初始子文本，第一类数据内容为：与特定字段相匹配的数据内容；

由于目标文本数据的分词是通过对各个目标子文本进行分词得到的，而每个目标子文本中包括：多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个，因此，在按照预定的文本修正规则，对各个初始子文本进行修正时，可以首先确定各个初始子文本中的待合并子文本。

也就是说，针对每个初始子文本，可以首先判断该初始子文本中是否包含与特定字段相匹配的数据内容，如果不存在，则便可以将该初始子文本确定为待合并子文本。

其中，为了行文清晰，可以将与特定字段相匹配的数据内容简称为第一类数据内容，则待合并子文本即为：未包括第一类数据内容的初始子文本。

示例性地，可以利用语义分析算法对各个初始子文本的数据内容进行语义分析，从而，确定该初始子文本中是否包括第一类数据内容，进而，根据上述确定结果确定该初始子文本是否为待合并子文本。

S1032：对待合并子文本进行内容修正，得到修正后子文本；

其中，修正后子文本包含第一类数据内容；

在得到上述待合并子文本后，便可以对该待合并子文本进行内容修正，从而，得到包含第一类数据内容的修正后的待合并子文本，即得到包含与特定字段相匹配的数据内容的修正后子文本。

S1033：基于待利用子文本，确定各个目标子文本。

其中，待利用子文本包括：修正后子文本和当前所存在的各个初始子文本。

由于所得到的各个初始子文本中，可以同时存在上述待合并子文本，以及除待合并子文本之外的，包含第一类数据内容的其他初始子文本，则在对待利用子文本进行内容修正，得到修正后子文本后，此时，所存在的关于目标文本数据的子文本可以包括：修正后子文本和除待合并子文本之外的包含第一类数据内容的其他初始子文本。

也就是说，此时，所存在的关于目标文本数据的子文本可以包括：修正后子文本和当前所存在的各个初始子文本，并且，修正后子文本和当前所存在的各个初始子文本均包含第一类数据内容。

这样，便可以将上述修正后子文本和当前所存在的各个初始子文本作为待利用子文本，从而，基于上述待利用子文本，确定各个目标子文本。其中，待利用子文本中包含第一类数据内容。

可选的，一种具体实现方式中，特定字段预设有标准化数据库，标准化数据库中包含属于特定字段的各个标准词；

相应的，在本具体实现方式中，上述步骤S1031，确定各个初始子文本中的待合并子文本，可以包括如下步骤A：

步骤A：针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，若均不匹配，则将该初始子文本确定为待合并子文本；

其中，每一标准词对应的参考内容包括：该标准词，和/或，该标准词关联的近义词。

在本具体实现方式中，特定字段可以预设有标准化数据库，并且，特定字段的标准化数据库中可以包含属于特定字段的各个标准词。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，并将检查部分名称作为特定字段，则如表2所示，为检查部分名称的标准化数据库的部分内容。

表2

这样，针对每一初始子文本，便可以将该初始子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行数据匹配，从而，若该初始子文本与上述特定字段的标准化数据库中的各个标准词对应的参考内容均不匹配，则可以确定该初始子文本中不包括上述第一类数据内容，从而，便可以将该初始子文本确定为待合并子文本。

其中，特定字段的标准化数据库中的每一标准词对应的参考内容可以包括：该标准词，也可以包括该标准词关联的近义词，还可以包括：该标准词和该标准词关联的近义词。

基于此，当特定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词时，则待合并子文本中的数据内容与特定字段的标准化数据库中的各个标准词均不匹配；

当特定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词关联的近义词时，则待合并子文本中的数据内容与特定字段的标准化数据库中的各个标准词关联的近义词均不匹配；

当特定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词和该标准词关联的近义词时，则待合并子文本中的数据内容与特定字段的标准化数据库中的各个标准词，以及各个标准词关联的近义词均不匹配。

可选的，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配时，可以按照预设的数据划分方法，对该初始子文本进行划分，得到关于该初始子文本的各个词组，从而，将每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容进行数据匹配。这样，当每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容均不匹配时，便可以将该初始子文本确定为待合并子文本。

示例性地，可以利用分词工具，对该初始子文本进行划分，得到关于该初始子文本的各个词组；

示例性地，可以利用语义分析算法，对该初始子文本进行划分，得到关于该初始子文本的各个词组；

示例性地，可以将该初始子文本中的每个字划分为一个词组，进而，将该初始子文本中的每连续的两个字划分为一个词组，进而，将该初始子文本中的每连续的三个字划分为一个词组，依次类推，直至将完整的该初始子文本划分为一个词组，从而，得到关于该初始子文本的各个词组。

例如，初始子文本为：“胸部正侧位”，则可以所得到的关于该初始子文本的各个词组分别为：“胸”、“部”、“正”、“侧”、“位”、“胸部”、“部正”、“正侧”、“侧位”、“胸部正”、“部正侧”、“正侧位”、“胸部正侧”、“部正侧位”以及“胸部正侧位”。

此外，上述各个实施例仅仅是对“对该初始子文本进行划分，得到关于该初始子文本的各个词组”的实现方式的举例说明，而非限定。

示例性地，将每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容进行数据匹配时，可以计算每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容的匹配度，当所计算得到的匹配度小于预设阈值时，则可以确定该词组与该参考内容不匹配。

具体而言，可以利用预设的近义词模型，计算每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容的匹配度。

其中，近义词模型为：利用指定的语料数据训练得到的模型，语料数据为：与多个指定字段相关的文本数据。

为了提高利用该近义词模型所计算得到的各个匹配度的准确性，在本具体实现方式中，用于训练上述近义词模型的指定的语料数据可以是与上述多个指定字段相关的文本数据。

具体而言，可以获取与多个指定字段相关的文本数据，作为指定的语料数据，并利用该指定的语料数据进行模型训练，得到近义词模型。进而，在得到上述近义词模型后，利用该近义词模型，计算每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容的匹配度。

具体而言，针对每个词组，可以将该词组和特定字段的标准化数据库中的各个标准词对应的参考内容输入至该近义词模型中，以使得该近义词模型计算该词组和特定字段的标准化数据库中的各个标准词对应的参考内容的距离，则该距离即可以作为匹配度。其中，距离越近，表征两个词越匹配，距离越远，表征两个词越不匹配。

在具体应用中，上述指定的语料数据所属的技术领域，可以与上述目标文本数据所属的技术领域相同。

例如，上述目标文本数据为医疗领域中的医学影像文本数据，则上述指定的语料数据便可以为医学语料，并且，该医学语料中可以包括多个影像检查报告和多个影像诊断报告等与医学影像相关的文本数据。

并且，示例性的，针对近义词模型的训练过程可以包括：在获取到指定的语料数据后，可以对所获取的指定的语料数据进行分词处理，得到关于指定的语料数据的多个分词，从而，将所得到的关于指定的语料数据的多个分词构成的分词数据集作为训练集，对预设的初始语言模型进行训练，从而，得到上述近义词模型。

例如，上述初始语言模型可以为：word2vec（word to vector）模型、Glove（GlovalVectors for Word Representation）模型、ELMO（Embeddings from Language Models）模型、GPT（Improving Language Understanding by Generative Pre-Training）模型、BERT（Pre-training of Deep Bidirectional Transformers for Language Understanding）模型等中的任一模型。

其中，对指定的语料数据进行分词处理所使用的分词工具所属的技术领域，可以与上述指定的语料数据所属的技术领域相同。

此外，上述实施例仅仅是对“将每一词组与特定字段的标准化数据库中的各个标准词对应的参考内容进行数据匹配”的实现方式的举例说明，而非限定。

可选的，一种具体实现方式中，上述步骤S1032，对待合并子文本进行内容修正，得到修正后子文本，可以包括如下步骤B1-B2。

步骤B1：从目标文本数据的除待合并子文本以外的各子文本中，确定与待合并子文本的位置关系满足预设位置条件的备用子文本；

其中，预设位置条件包括：距离最近、位于待合并子文本之前且距离最近，或者，位于待合并子文本之后且距离最近。

步骤B2：将从待合并子文本至备用子文本的多个子文本进行合并，得到修正后子文本。

在确定出待合并子文本且为对待合并子文本进行内容修正时，所存在的关于目标文本数据的子文本包括：待合并子文本和除待合并子文本以外的各个初始子文本；其中，待合并子文本未包含上述第一类数据内容，除待合并子文本以外的各个初始子文本包含上述第一类数据内容；

在对待合并子文本进行内容修正，得到修正后子文本时，所存在的关于目标文本数据的子文本包括：修正后子文本和当前所存在的各个初始子文本；其中，修正后子文本和当前所存在的各个初始子文本均包含上述第一类数据内容；

那么，当待合并子文本的数量为多个时，则在对各个待合并子文本进行内容修正的过程中，所存在的关于目标文本数据的子文本包括：未进行内容修正的待合并子文本、对待合并子文本进行修正后所得到的修正后子文本以及除待合并子文本以外的各个初始子文本；其中，未进行内容修正的待合并子文本未包含上述第一类数据内容，对待合并子文本进行修正后所得到的修正后子文本以及除待合并子文本以外的各个初始子文本均包含上述第一类数据内容。

进而，由于对待合并子文本进行修正后所得到的修正后子文本包含上述第一类数据内容，因此，在对未进行内容修正的待合并子文本进行内容修正时，所确定的备用子文本是包含上述第一类数据内容的子文本。

基于此，当待合并子文本的数量为一个时，上述步骤B1中的目标文本数据的除待合并子文本以外的各子文本为：除待合并子文本以外的各个初始子文本；

而当待合并子文本的数量为多个时，针对第一个待合并子文本，上述步骤B1中的目标文本数据的除待合并子文本以外的各子文本为：除待合并子文本以外的各个初始子文本；而针对除第一个待合并子文本之外的各个待合并子文本，上述步骤B1中的目标文本数据的除待合并子文本以外的各子文本为：对待合并子文本进行修正后所得到的修正后子文本以及除待合并子文本以外的各个初始子文本。

其中，在得到各个初始子文本时，可以按照各个初始子文本的数据内容在目标文本数据中的排序，依次排列各个初始子文本。这样，便可以得到各个初始子文本的排序和位置关系。

这样，针对每个待合并子文本，便可以利用上述所得到的各个初始子文本的排序和位置关系，从目标文本数据的除待合并子文本以外的各子文本中，确定与待合并子文本的位置关系满足预设位置条件的备用子文本。

其中，针对每个待合并子文本，可以从目标文本数据的除待合并子文本以外的各子文本中，确定与待合并子文本的距离最近的子文本，作为该待合并子文本的备用子文本；也可以从目标文本数据的除待合并子文本以外的各子文本中，确定位于该待合并子文本之前，且与待合并子文本的距离最近的子文本，作为该待合并子文本的备用子文本；还可以从目标文本数据的除待合并子文本以外的各子文本中，确定位于该待合并子文本之后，且与待合并子文本的距离最近的子文本，作为该待合并子文本的备用子文本。

进而，针对每个待合并子文本，在得到该待合并子文本的备用子文本后，便可以利用上述所得到的各个初始子文本的排序和位置关系，确定从该待合并子文本开始至该待合并子文本的备用子文本结束的多个子文本，从而，将上述多个子文本进行合并，便可以得到该待合并子文本的修正后子文本。

其中，若该待合并子文本与该待合并子文本的备用子文本之间不包括其他的子文本，则可以直接将该待合并子文本与该待合并子文本的备用子文本进行合并，得到该待合并子文本的修正后子文本；

若该待合并子文本与该待合并子文本的备用子文本之间包括其他的子文本，则按照排列在前的子文本的最后一个文字与排列在后的子文本的第一个文字相连接的方式，将该待合并子文本、位于该待合并子文本与该待合并子文本的备用子文本之间的其他子文本，以及该待合并子文本的备用子文本进行合并，得到该待合并子文本的修正后子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，并将检查部分名称作为特定字段。

示例性的，目标文本数据为“胸部正侧位、右手部正侧位、斜位片”，则所得到的各个初始子文本分别为“胸部正侧位”、“右手部正侧位”和“斜位片”，则初始子文本“斜位片”即为待合并子文本，进而，便可以将初始子文本“右手部正侧位”确定为初始子文本“斜位片”的备用子文本。这样，便可以直接将初始子文本“右手部正侧位”和初始子文本“斜位片”进行合并，得到修正后子文本“右手部正侧位斜位片”。

又示例性的，目标文本数据为“右手部正位、侧位、斜位片”，则所得到的各个初始子文本分别为“右手部正位”、“侧位”和“斜位片”，则初始子文本“侧位”和“斜位片”均为待合并子文本，进而，便可以将初始子文本“右手部正位”确定为初始子文本“斜位片”的备用子文本。这样，便可以将初始子文本“右手部正位”、“侧位”和“斜位片”进行合并，得到修正后子文本“右手部正位侧位斜位片”。

其中，当待合并子文本的数量为多个时，在针对某个待合并子文本进行内容修正时，可以将其他的待合并子文本与该待合并子文本进行合并，得到修正后子文本，从而，可以视为完成对上述其他的待合并子文本的内容修正，无需再次对上述其他的待合并子文本进行内容修正。

也就是说，当待合并子文本的数量为多个时，在得到一个待合并子文本的修正后子文本后，所需进行内容修正的下一个待合并子文本为：未为合并到修正后子文本中的、当前所存在的需要进行内容修正的待合并子文本。

此外，由于在得到修正后子文本时，所合并的从待合并子文本至备用子文本的多个子文本是连续的，因此，在得到修正后子文本时，上述多个子文本所占据的排序位置被合并为一个，且该合并后的排序位置被修正后子文本所占据，而未改变除上述多个子文本之外的其他子文本的位置关系。

例如，若待合并子文本的备用子文本位于待合并子文本之前，则在得到修正后子文本时，位于待合并子文本的备用子文本之前的且距离最近的子文本成为位于修正后子文本之前的且距离最近的子文本，位于待合并子文本之后的且距离最近的子文本成为位于修正后子文本之后的且距离最近的子文本；并且，其他各个子文本之间的位置关系未发生变化。

相应的，若待合并子文本的备用子文本位于待合并子文本之后，则在得到修正后子文本时，位于待合并子文本的备用子文本之后的且距离最近的子文本成为位于修正后子文本之后的且距离最近的子文本，位于待合并子文本之前的且距离最近的子文本成为位于修正后子文本之前的且距离最近的子文本；并且，其他各个子文本之间的位置关系未发生变化。

可选的，一种具体实现方式中，如图3所示，上述步骤S1033，基于待利用子文本，确定各个目标子文本，可以包括如下步骤S301-S302。

S301：若待利用子文本包含有符合多个预定条件中任一条件的子文本，对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本；

S302：若待利用子文本中未包含有符合多个预定条件中任一条件的子文本，将待利用子文本所包括的各个子文本，均确定为目标子文本。

其中，多个预定条件包括：第一预定条件和第二预定条件，第一预定条件为：具有与多个指定字段相匹配的数据内容且第一类数据内容的数量为多个；第二预定条件为：仅具有第一类数据内容。

由于每个目标子文本中包含多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个；并且，所得到的待利用子文本中包含上述第一类数据内容，因此，所得到的待利用子文本中可能包括：符合目标子文本的要求的子文本、符合第一预定条件的子文本和符合第二预定条件的子文本中的至少一种子文本。

其中，符合目标子文本的要求即为：包含多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个，则符合目标子文本的要求的利用子文本可以被直接确定为目标子文本；

进而，第一预定条件为：具有与多个指定字段相匹配的数据内容且第一类数据内容的数量为多个，则符合第一预定条件的子文本由于包含多个第一类数据内容，因此，不能被直接确定为目标子文本；

第二预定条件为：仅具有第一类数据内容，则符合第二预定条件的子文本由于缺乏多个指定字段中除特定字段之外的其他字段下的数据内容，并且，可能包含多个第一类数据内容，因此，也不能直接被确定为目标子文本。

基于此，在对待合并子文本进行内容修正，得到修正后子文本，并进一步，确定待利用子文本后，可以确定待利用子文本中是否包含有符合上述第一预定条件或第二预定条件的子文本。

若待利用子文本中包含有符合上述第一预定条件或第二预定条件的子文本，则不能直接将待利用子文本确定为目标子文本，而需要对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本。

相应的，若待利用子文本中不包含有符合上述第一预定条件或第二预定条件的子文本，则可以说明待利用子文本中的各个子文本均为包含多个指定字段下的数据内容，且多个指定字段中的特定字段下的数据内容的数量为一个的子文本，进而，可以说明待利用子文本中的各个子文本均满足目标子文本的要求，则可以将待利用子文本所包括的各个子文本，均确定为目标子文本。

可选的，可以利用语义分析算法，对待利用子文本的数据内容进行语义分析，以确定待利用子文本中是否包含符合多个预定条件中任一条件的子文本。

可选的，特定字段可以预设有标准化数据库，并且，特定字段的标准化数据库中可以包含属于特定字段的各个标准词。这样，便可以将待利用子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定待利用子文本中是否包含符合多个预定条件中任一条件的子文本。

其中，特定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词，和/或，该标准词关联的近义词。

进而，将待利用子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定待利用子文本中是否包含符合多个预定条件中任一条件的子文本的具体方式，与上述步骤A中，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，以确定该初始子文本是否为待合并子文本的具体方式类似，在此不再赘述。

可选的，一种具体实现方式中，多个指定字段的数量为两个。相应的，在本具体实现方式中，如图4所示，上述步骤S301中，对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本，可以包括如下步骤S3011-S3013。

S3011：确定待利用子文本中的各个第一类数据内容；

由于待利用子文本中包含有符合上述第一预定条件或第二预定条件的子文本，因此，便可以对待利用子文本中存在的符合上述第一预定条件或第二预定条件的子文本进行再次修正，以得到待利用子文本中存在的不能被直接确定为目标子文本的子文本所对应的目标子文本。

这样，在对待利用子文本中存在的不能被直接确定为目标子文本的子文本进行再次修正时，便可以首先确定待利用子文本中的各个第一类数据内容。

可选的，可以利用语义分析算法，对待利用子文本的数据内容进行语义分析，以确定待利用子文本中的各个第一类数据内容。

可选的，特定字段可以预设有标准化数据库，并且，特定字段的标准化数据库中可以包含属于特定字段的各个标准词。这样，便可以将待利用子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定待利用子文本中的各个第一类数据内容。

进而，将待利用子文本与特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定待利用子文本中的各个第一类数据内容的具体方式，与上述步骤A中，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，以确定该初始子文本是否为待合并子文本的具体方式类似，在此不再赘述。

S3012：针对除最后一个第一类数据内容之外的每个第一类数据内容，计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离；若计算得到的距离不小于第一预设阈值，则将该第一类数据内容，以及位于该第一类数据内容与下一个第一类数据内容之间的数据内容进行合并，得到目标子文本；否则，并将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到目标子文本；

其中，待补充内容为：位于下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与特定字段之外的另一指定字段相匹配的数据内容；

S3013：针对最后一个第一类数据内容，将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到目标子文本。

在得到各个初始子文本时，可以按照各个初始子文本的数据内容在目标文本数据中的排序，依次排列各个初始子文本。这样，便可以得到各个初始子文本的排序和位置关系。

基于此，所得到的待利用子文本也是根据上述各个初始子文本的排序和位置关系进行依次排列的，从而，待利用子文本中的各个数据内容具有确定的排序和位置关系。进而，所确定的各个第一类数据内容仅仅是确定出各个待利用子文本中的哪些数据内容为第一类数据内容，而并没有改变上述各个第一类数据内容在待利用子文本中的排序和位置关系。

并且，对于分属于两个子文本的两个第一类数据内容而言，若该两个子文本均为目标子文本，那么，该分属于两个子文本的两个第一类数据内容之间可以具有较大的距离。相应的，若该两个子文本中存在不为目标子文本的子文本，则分属于两个子文本的两个第一类数据内容之间可以具有较小的距离。

其中，上述两个第一类数据内容之间的距离是指：两个第一类数据内容在待利用子文本中的位置之间的距离，可以表征该两个第一类数据内容之间所间隔的字符的数量。并且，两个第一类数据内容在待利用子文本中的位置之间的距离越大，则该两个第一类数据内容之间所间隔的字符的数量越多，相应的，两个第一类数据内容在待利用子文本中的位置之间的距离越小，则该两个第一类数据内容之间所间隔的字符的数量越少。

可选的，可以用两个第一类数据内容之间所间隔的字符的数量来表示两个第一类数据内容之间的距离。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，并将检查部分名称作为特定字段，并且，用两个第一类数据内容之间所间隔的字符的数量来表示两个第一类数据内容之间的距离。

示例性的，某个目标文本数据的两个待利用子文本分别为“肱骨正侧位”和“肘关节正侧位”，并且，其排列方式为“肱骨正侧位、肘关节正侧位”，则可以计算得到两个第一类数据内容“肱骨”和“肘关节”之间的距离为4。

又示例性的，某个目标文本数据的两个待利用子文本分别为“胸部”和“胸椎正侧位”，并且，其排列方式为“胸部、胸椎正侧位”，则可以计算得到两个第一类数据内容“胸部”和“胸椎”之间的距离为1。

这样，针对除最后一个第一类数据内容之外的每个第一类数据内容，便可以计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离，并确定所计算得到的距离与第一预设阈值的大小关系。

其中，若计算得到的距离不小于第一预设阈值，则可以说明该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离较大，从而，该第一类数据内容，以及位于该第一类数据内容与该第一类数据内容的下一个第一类数据内容之间的数据内容可以构成一个目标子文本。这样，便可以将该第一类数据内容，以及位于该第一类数据内容与该第一类数据内容的下一个第一类数据内容之间的数据内容进行合并，得到目标子文本。

相应的，若计算得到的距离小于第一预设阈值，则可以说明该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离较小，从而，该第一类数据内容，以及位于该第一类数据内容与该第一类数据内容的下一个第一类数据内容之间的数据内容不可以构成一个目标子文本。从而，需要进一步确定该第一类数据内容对应的待补充内容，并且，该第一类数据内容对应的待补充内容用于与该第一类数据内容合并得到目标子文本。

其中，可以将位于该第一类数据内容的下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与该特定字段之外的另一个指定字段相匹配的数据内容确定为：该第一类数据内容对应的待补充内容。

这样，便可以将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到目标子文本。

其中，上述第一预设阈值可以根据实际应用中的需求，以及目标文本数据的数据特定等进行确定，对此，本发明实施例不做具体限定。

可选的，可以利用语义分析算法，对位于该第一类数据内容的下一个第一类数据内容之后的数据内容进行语义分析，以确定该第一类数据内容对应的待补充内容。

可选的，除该特定字段之外的另一个指定字段可以预设有标准化数据库，并且，该指定字段的标准化数据库中可以包含属于该指定字段的各个标准词。这样，便可以将该第一类数据内容的下一个第一类数据内容之后的数据内容与该指定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定待利用子文本中的各个第一类数据内容。

其中，该指定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词，和/或，该标准词关联的近义词。

进而，将该第一类数据内容的下一个第一类数据内容之后的数据内容与该指定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定该第一类数据内容对应的待补充内容的具体方式，与上述步骤A中，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，以确定该初始子文本是否为待合并子文本的具体方式类似，在此不再赘述。

针对除最后一个第一类数据内容之外的每个第一类数据内容，得到包含该第一类数据内容的目标子文本后，进而，针对最后一个第一类数据内容，便可以将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到目标子文本。

例如，目标文本数据为医疗领域中的医学影像文本数据，多个指定字段包括：检查部分名称和检查方法名称，并将检查部分名称作为特定字段，并且，用两个第一类数据内容之间所间隔的字符的数量来表示两个第一类数据内容之间的距离，上述第一预设阈值为2。

示例性的，某个目标文本数据的两个待利用子文本分别为“胸部”和“胸椎正侧位”，并且，其排列方式为“胸部、胸椎正侧位”，则可以计算得到两个第一类数据内容“胸部”和“胸椎”之间的距离为1。由于1<2，因此，可以进一步确定“胸部”对应的待补充内容为“正侧位”，并将“胸部”和“正侧位”进行合并，得到目标子文本“胸部正侧位”。进而，可以将最后一个第一类数据内容“胸椎”，以及位于“胸椎”之后的数据内容“正侧位”进行合并，得到目标子文本“胸椎正侧位”。

又示例性的，某个目标文本数据的待利用子文本为“胸部正侧位胸椎正侧动力位”，则可以计算得到两个第一类数据内容“胸部”和“胸椎”之间的距离为3。由于3>2，因此，可以将“胸部”，以及位于“胸部”和“胸椎”之间的数据内容“正侧位”进行合并，得到目标子文本“胸部正侧位”。进而，可以将最后一个第一类数据内容“胸椎”，以及位于“胸椎”之后的数据内容“正侧动力位”进行合并，得到目标子文本“胸椎正侧动力位置”。

可选的，一种具体实现方式中，多个指定字段的数量为两个。相应的，在本具体实现方式中，如图5所示，上述步骤S301中，对待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本，可以包括如下步骤S301A-S301C：

S301A：从待利用子文本中，选取包含有与多个指定字段相匹配的数据内容，且第一类数据内容的数量为一个的子文本，将所选取的子文本确定为目标子文本；

在本具体实现方式中，在确定出待利用子文本后，可以首先从待利用子文本中，选取出包含有与多个指定字段相匹配的数据内容，且第一类数据内容的数量为一个的子文本，即可以首先从待利用子文本中，选取出满足目标子文本的要求的子文本，从而，便可以将所选取的子文本确定为目标子文本。

S301B：从待利用子文本中，选取符合第一预定条件的子文本，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本；

由于待利用子文本中包含有符合上述第一预定条件或第二预定条件的子文本，因此，在选取出待利用子文本中的目标子文本后，待利用子文本中未被选取为目标子文本的子文本即为符合上述第一预定条件或第二预定条件的子文本，因此，需要进一步对这些符合上述第一预定条件或第二预定条件的子文本进行内容修正，以得到关于这些符合上述第一预定条件或第二预定条件的子文本的目标子文本。

其中，可以首先从待利用子文本中，选取符合第一预定条件的子文本，由于符合第一预定条件的子文本中包括多个上述第一数据内容，因此，符合第一预定条件的子文本中所包括的多个上述第一数据内容可以是连续的，也可以是不连续的，因此，可以进一步确定所选取的子文本中第一类数据内容是否连续。

这样，便可以基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本。

S301C：针对每个子文本组，将该子文本组中的每个第一类数据内容与该子文本组中的第二类数据内容进行合并，得到关于该子文本组的各个目标子文本；

其中，第二类数据内容为：与特定字段之外的另一指定字段相匹配的数据内容，该子文本组包括：位置连续的多个子文本，多个子文本包括：符合第二预定条件的至少一个子文本以及所确定的一个目标子文本，并且，一个目标子文本是该子文本组中的最后一个子文本。

进而，可以确定待利用子文本中，符合第二预定条件的子文本，从而，根据所选取的子文本，确定各个子文本组。

其中，每个子文本组中可以包括：待利用子文本中的位置连续的多个子文本，而该多个子文本可以包括：至少一个符合第二预定条件的至少一个子文本以及所确定的一个目标子文本，并且，该多个子文本中所包括的目标子文本是该子文本组中的最后一个子文本。

也就是说，当一个子文本组中包括位置连续的两个子文本时，该两个子文本的位置连续，且符合第二预定条件的子文本在前，已经确定出的一个目标子文本在后；

相应的，当一个子文本组中包括位置连续的多个子文本时，该子文本组中的最后一个子文本为：已经确定出的一个目标子文本，而该子文本中除上述最后一个子文本之外的各个子文本均为符合第二预定条件的子文本。

其中，每个子文本组中所包括的目标子文本可以是执行上述步骤S301A或S301B所确定的目标子文本，也可以是针对除该子文本组外的其他子文本组执行上述步骤S301C所确定的目标子文本。

为了行文清晰，可以将与特定字段之外的另一指定字段相匹配的数据内容称为第二类数据内容。

这样，针对每个子文本组，由于该子文本组所包括的各个符合第二预定条件的子文本中仅包括上述第一数据内容，而该子文本组所包括的目标子文本中包括上述第二类数据内容，并且，上述目标子文本所包括的上述第二类数据内容是该子文本组中所包括的唯一的第二类数据内容。因此，便可以将该子文本组中的每个第一类数据内容与该子文本组中的第二类数据内容进行合并，得到关于该子文本组的各个目标子文本。

示例性的，某个目标文本数据的待利用子文本的子文本组包括 “胸部、胸椎正侧位”，其中，“胸部”为符合第二预定条件的子文本，“胸椎正侧位”为所确定的目标子文本，则可以将“胸部”与该子文本组中的第二类数据内容“正侧位”进行合并，得到关于该子文本数据组的目标子文本“胸部正侧位”。

这样，在执行完上述步骤S301A-S301B，并针对各个子文本组，执行完上述步骤S301C，得到关于各个子文本组的各个目标子文本后，便可以得到目标文本数据的各个目标子文本。

可选的，一种具体实现方式中，上述步骤S301B中，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本，可以包括如下步骤C1-C2。

步骤C1：若所选取的子文本中的第一类数据内容连续，将所选取的子文本中的每个第一类数据内容，分别与所选取的该子文本中的第二类数据内容进行合并，得到关于该所选取的子文本的多个目标子文本；

步骤C2：若所选取的子文本中的第一类数据内容不连续，将所选取的该子文本中的每个第一类数据内容以及位于该第一类数据内容之后且与该第一类数据内容距离最近的第二类数据内容，拆分成一个目标子文本，得到关于该所选取的子文本的多个目标子文本。

针对从待利用子文本中，选取每个符合第一预定条件的子文本，由于该子文本中包括多个上述第一类数据内容，则可以进一步确定该子文本所包括的多个上述第一类数据内容是否连续。

其中，若所选取的子文本中的第一类数据内容连续，则可以说明针对每个第一类数据内容，无法将该第一类数据内容，以及位于该第一类数据内容和该第一类数据内容的下一个第一类数据内容之间的数据内容进行合并，得到包含该第一类数据内容的目标子文本。

这样，便可以确定所选取的子文本中的第二类数据内容，进而，将所选取的子文本中的每个第一类数据内容，分别与所确定的第二类数据内容进行合并，得到关于该所选取的子文本的多个目标子文本。

相应的，若所选取的子文本中的第一类数据内容不连续，则可能存在两种情况，各个第一类数据内容之间均不连续，或者，存在部分连续的第一类数据内容以及部分不连续的第一类数据内容。

其中，对于符合第一预定条件其所包含的多个第一类数据内容不连续的子文本而言，针对该多个第一类数据内容中的两个不连续的且被第二类数据内容隔开的第一类数据内容，则针对该两个不连续的第一数据内容中在前的第一类数据内容，可以将该在前的第一类数据内容，以及位于该在前的第一类数据内容和该在前的第一类数据内容的下一个第一类数据内容之间的数据内容拆分成包含该在前的第一类数据内容的目标子文本。

而针对两个不连续的第一类数据内容中在后的第一类数据内容，则需要考虑该在后的第一类数据内容之后是否仍然存在第一类数据内容。

其中，如果该在后的第一类数据内容之后不存在第一类数据内容，则可以直接将该在后的第一类数据内容与位于该在后的第一类数据内容之后的第二类数据内容进行合并，得到包含该在后的第一类数据内容的目标子文本；

如果该在后的第一类数据内容之后存在第一类数据内容，则可以需要进一步确定该在后的第一类数据内容与该在后的第一类数据内容之后存在的第一类数据内容是否连续，从而，根据确定结果进行相应的处理。

对于符合第一预定条件其所包含的多个第一类数据内容不连续的子文本而言，针对该多个第一类数据内容中的两个连续的第一类数据内容，则针对该两个连续的第一类数据内容中在前的第一类数据内容，不可以将该在前的第一类数据内容，以及位于该在前的第一类数据内容和该在前的第一类数据内容的下一个第一类数据内容之间的数据内容拆分成包含该在前的第一类数据内容的目标子文本，而需要进一步确定位于该在前的第一类数据内容之后且与该在前的第一类数据内容距离最近的第二类数据内容，从而，将该在前的第一类数据内容，以及所确定的第二类数据内容拆分成包含该在前的第一类数据内容的目标子文本。

也就是说，对于符合第一预定条件其所包含的多个第一类数据内容不连续的子文本而言，可以将该子文本中的每个第一类数据内容以及位于该第一类数据内容之后且与该第一类数据内容距离最近的第二类数据内容，拆分成一个目标子文本，得到关于该所选取的子文本的多个目标子文本。

示例性的，某个符合第一预定条件的待利用子文本为“胸部胸椎正侧位”则该待利用子文本中的多个第一类数据内容“胸部”和“胸椎”连续，并且，该待利用子文本中包括第二类数据内容“正侧位”，则可以将各个第一类数据内容“胸部”和“胸椎”分别与第二类数据内容“正侧位”合并，得到关于该待利用子文本的多个目标子文本“胸部正侧位”和“胸椎正侧位”。

又示例性的，某个符合第一预定条件的待利用子文本为“胸部正侧位胸椎正侧动力位”，则该待利用子文本中的多个第一类数据内容“胸部”和“胸椎”不连续，并且，该待利用子文本包括多个第二类数据内容“正侧位”和“正侧动力位”，则可以将第一类数据内容“胸部”，以及位于“胸部”之后且与“胸部”距离最近的第二类数据内容“正侧位”拆分成目标子文本“胸部正侧位”，并将第一类数据内容“胸椎”，以及位于“胸椎”之后且与“胸椎”距离最近的第二类数据内容“正侧动力位”拆分成目标子文本“胸椎正侧动力位”，从而，得到关于该待利用子文本的多个目标子文本“胸部正侧位”和“胸椎正侧动力位”。

可选的，可以利用语义分析算法，对所选取的子文本进行语义分析，以确定所选取的子文本中的第一类数据内容是否连续。

可选的，特定字段可以预设有标准化数据库，并且，该特定字段的标准化数据库中可以包含属于该特定字段的各个标准词。这样，便可以将所选取的子文本与该特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定所选取的子文本中的第一类数据内容是否连续。

其中，该特定字段的标准化数据库中的每一标准词对应的参考内容包括：该标准词，和/或，该标准词关联的近义词。

进而，将所选取的子文本与该特定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定所选取的子文本中的第一类数据内容是否连续的具体方式，与上述步骤A中，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，以确定该初始子文本是否为待合并子文本的具体方式类似，在此不再赘述。

此外，本发明实施例不对上述步骤C1-C2的执行顺序进行限定。

其中，可选的，一种具体实现方式中，如图6所示，上述S301C中的每个子文本组的确定方式可以包括如下步骤S601-S605。

S601：从待利用子文本中，确定当前未被划分到各个子文本组中，且符合第二预定条件的子文本，作为当前待划分子文本；

在选取出待利用子文本中的目标子文本，以及在得到关于待利用子文本中的符合第一预定条件的子文本的多个目标子文本后，待利用子文本中所剩余的未被进行修正，从而，仍然不是目标子文本的各个子文本仅为符合第二预定条件的子文本。

这样，便可以从待利用子文本中，确定当前未被划分到各个子文本组中，且符合第二预定条件的子文本，作为当前待划分子文本。

S602：计算当前待划分子文本中的最后一个第一类数据内容，与当前待划分子文本的下一个子文本中的第一个第一类数据内容的距离；

进而，便可以计算所确定的当前待划分子文本中的最后一个第一类数据内容，与当前待划分子文本的下一个子文本中的第一个第一类数据内容的距离，并判断所计算得到的距离与第二预设阈值的大小关系。

其中，上述两个第一类数据内容之间的距离是指：该两个第一类数据内容在待利用子文本中的位置之间的距离，可以表征该两个第一类数据内容之间所间隔的字符的数量。并且，两个第一类数据内容在待利用子文本中的位置之间的距离越大，则该两个第一类数据内容之间所间隔的字符的数量越多，相应的，两个第一类数据内容在待利用子文本中的位置之间的距离越小，则该两个第一类数据内容之间所间隔的字符的数量越少。

S603：若所计算得到的距离小于第二预设阈值，则将当前待划分子文本与下一个子文本划分到同一子文本组中；

若所计算得到的距离小于第二预设阈值，则可以说明当前待划分子文本中的最后一个第一类数据内容，与当前待划分子文本的下一个子文本中的第一个第一类数据内容之间，不存在第二类数据内容，从而，可以认为当前待划分子文本中的最后一个第一类数据内容，与当前待划分子文本的下一个子文本中的第一个第一类数据内容为：待利用子文本中的两个连续的第一类数据内容，这样，便可以将当前待划分子文本与当前待划分子文本的下一个子文本划分到同一子文本组。

进而，可以判断当前待划分子文本的下一个子文本是否为目标子文本。

可选的，可以利用语义分析算法，对当前待划分子文本的下一个子文本进行语义分析，以确定当前待划分子文本的下一个子文本是否为目标子文本。

可选的，除特定字段之外的另一个指定字段可以预设有标准化数据库，并且，该指定字段的标准化数据库中可以包含属于该指定字段的各个标准词。这样，便可以将所选取的子文本与该指定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定当前待划分子文本的下一个子文本是否为目标子文本。

进而，将所选取的子文本与该指定字段的标准化数据库中的各个标准词对应的参考内容进行匹配，以确定当前待划分子文本的下一个子文本是否为目标子文本的具体方式，与上述步骤A中，针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，以确定该初始子文本是否为待合并子文本的具体方式类似，在此不再赘述。

S604：如果下一个子文本为所确定的目标子文本，则得到划分完成的一个子文本组，并返回步骤S601；

S605：如果下一个子文本为符合第二预定条件的子文本，则将下一个子文本确定为当前待划分子文本，并返回步骤S602。

这样，如果当前待划分子文本的下一个子文本为所确定的目标子文本，则由于每个子文本组中的最后一个子文本为所确定的一个目标子文本，则当前所划分得到的包括当前待划分子文本和当前待划分子文本的下一个子文本的文本组，即为所划分完成的一个子文本组。

进而，便可以再次返回上述步骤S601，确定下一个需要进行子文本组划分的当前待划分子文本。

相应的，如果当前待划分子文本的下一个子文本仍然为符合第二预定条件子文本，则当前所划分得到的包括当前待划分子文本和当前待划分子文本的下一个子文本的文本组不能作为一个划分完成的子文本组，而需要将当前待划分子文本的下一个子文本组确定为当前待划分子文本，并返回上述步骤S602。

这样，直至待利用子文本中不存在未被划分到各个子文本组中，且符合第二预定条件的子文本，那么，便可以完成子文本组的划分，得到划分完成的各个子文本组。

相应于上述本发明实施例提供的一种数据处理方法，本发明实施例还提供了一种医学文本数据处理方法。

其中，该方法可以应用于服务器、笔记本电脑、台式电脑、平板电脑等各类的电子设备，对此，本发明实施例不做具体限定，以下简称电子设备。并且，该电子设备可以是分布式系统中的设备，也可以是独立的设备，这都是合理的。

另外，该方法可以适用于任一需要对医学文本数据进行分词处理的应用场景，例如，对包含检查部位名称和检查方法名称的医学影像文本数据进行分词处理等，这都是合理的。

图7为本发明实施例提供的一种医学文本数据处理方法的流程示意图，如图7所示，该方法可以包括如下步骤：

S701：获取待处理的医学文本数据；

其中，医学文本数据包含多个指定字段下的数据内容；并且，医学文本数据可以包括医学影像文本数据，当然并不局限于此。

S702：根据本发明实施例提供的任一数据处理方法处理医学文本数据，以得到医学文本数据的分词。

在对医学文本数据进行标准化时，首先需要对医学文本数据进行处理。这样，电子设备可以首先获取包含多个指定字段下的数据内容的待处理的医学文本数据。

例如，医学文本数据中可以包括医学影像文本数据，则可以将包含检查部位名称和检查方法名称的医学影像文本数据，作为待处理的医学文本数据。

这样，电子设备便可以利用上述本发明实施例提供的任一数据处理方法，对所获取到的待处理的医学文本数据进行处理，从而，得到所获取到的医学文本数据的分词。

其中，电子设备利用上述本发明实施例提供的任一数据处理方法，对所获取到的待处理的医学文本数据进行处理的方式，与上述本发明实施例提供的一种数据处理方法中的各实现方式的内容相同，在此不再赘述。

这样，在医学领域中，应用本发明实施例提供的方案，便可以对待处理的医学文本数据进行数据处理，得到医学文本数据的分词，从而，可以对不同的医学信息系统中的医学文本数据进行统一的规范化的分词处理，为不同信息系统中的医学文本数据的标准化提供实现基础。

可见，应用本发明实施例提供的医学文本数据处理方案，可以对不同的信息系统的医学文本数据进行统一的规范化的分词处理，为医学文本数据的标准化提供实现基础。

为了便于理解上述本发明实施例提供的一种医学文本数据处理方法，如图8所示，下面以医学影像文本数据为例，对本发明实施例提供的一种医学文本数据处理方法进行介绍。其中，上述多个指定字段包括检查部分名称和检查方法名称，其中，将检查部分名称作为特定字段。

步骤1：预设有分隔符配置文件，该分隔符配置文件中记录有预定的分隔符，则利用该分隔符配置文件，通过分隔符切分，可以得到医学影像文本数据的检查名称列表。其中，该检查名称列表中包括：各个初始子文本。

步骤2：检查部位名称预设有标准化数据库，该标准化数据包括检查部分名称下的各个标准词，则可以利用检查部位名称的标准化数据库的各个标准词和该标准化数据库中的各个标准词关联的近义词，判断检查名称列表中的各个初始子文本中是否包含检查部位名称，并根据判断结果，通过本发明实施例提供的各个实施例的具体实现方式，对各个不包含检查部位名称的初始子文本进行检查部位名称添加，得到添加后的检查名称列表。其中，添加后的检查名称列表中的各个子文本包含检查部位名称。

其中，图8中的检查部位名称和近义词即为：检查部位名称的标准化数据库的各个标准词和该标准化数据库中的各个标准词关联的近义词；图8中的名称合并即为：对各个不包含检查部位名称的初始子文本进行检查部位名称添加。

步骤3：针对步骤2所得到的添加后的检查名称列表，利用检查部位名称的标准化数据库的各个标准词和该标准化数据库中的各个标准词关联的近义词，判断该检查名称列表中是否包括多个检查部位名称，并根据判断结果，通过本发明实施例提供的各个实施例的具体实现方式，根据该检查名称列表所包含的多个检查部位名称，对该检查名称列表进行拆分，得到拆分后的检查名称列表。其中，拆分后的检查名称列表为中的各个子文本为各个目标子文本。

需要说明的是，本发明实施例不对上述步骤2和步骤3的执行顺序进行限定。

步骤4：利用医学专业分词工具对所得到的各个目标子文本进行分词切分，得到每个目标子文本的分词结果，进而，得到医学影像文本数据的分词。

示例性的，利用图8中所示的过程示意图，对表3中的各个目标文本数据进行处理，得到如表4所示的各个目标文本数据的分词。

表3

序号	目标文本数据
		1	胸部正侧位
2	肱骨正侧位，肘关节正侧位，足正斜位
		3	右手部正侧斜位片
4	胸部、胸椎正侧位
		5	胸部正位颈椎正侧动力位

针对表3中的第一条目标文本数据“胸部正侧位”，不需要执行步骤1-3，从而，步骤1-3的执行结果均为[胸部正侧位]，进而，执行步骤4，得到分词结果[胸部正侧位]，如表4中的第一条数据所示。

针对表3中的第二条目标文本数据“肱骨正侧位，肘关节正侧位，足正斜位”，执行步骤1，可以得到执行结果[肱骨正侧位，肘关节正侧位，足正斜位]，进而，不需要执行步骤2-3，从而，步骤2-3的结果仍然为[肱骨正侧位，肘关节正侧位，足正斜位]，之后，执行步骤4，得到分词结果[肱骨正侧位，肘关节正侧位，足正斜位]，如表4中的第二条数据所示。

针对表3中的第三条目标文本数据“右手部正侧斜位片”，执行步骤1，可以得到执行结果[右手部正侧，斜位片]，进而，执行步骤2，得到执行结果[右手部正侧斜位片]，之后，不需要执行步骤3，从而，步骤3的结果仍然为[右手部正侧斜位片]，再之后，执行步骤4，得到分词结果[右手部正侧斜位片]，如表4中的第三条数据所示。

针对表3中的第四条目标文本数据“胸部、胸椎正侧位”，执行步骤1，可以得到执行结果[胸部、胸椎正侧位]，进而，不需要执行步骤2，从而，步骤2的结果仍然为[胸部、胸椎正侧位]，之后，执行步骤3，得到执行结果 [胸部正侧位，胸椎正侧位]，再之后，执行步骤4，得到分词结果[胸部正侧位，胸椎正侧位]，如表4中的第四条数据所示。

针对表3中的第五条目标文本数据“胸部正位颈椎正侧动力位”，不需要执行步骤1-2，从而，步骤1-2的执行结果均为[胸部正位颈椎正侧动力位]，进而，执行步骤3，得到执行结果[胸部正位，颈椎正侧动力位]，再之后，执行步骤4，得到分词结果[胸部正位，颈椎正侧动力位]，如表4中的第五条数据所示。

其中，在表4中，不同的子文本通过逗号区分，属于同一目标子文本的不同分词通过空格区分。

表4

相应于上述本发明实施例提供的一种数据处理方法，本发明实施例还提供了一种数据处理装置。

图9为本发明实施例提供的一种数据处理装置的结构示意图。如图9所示，该装置可以包括如下模块：

数据获取模块910，用于获取待处理的目标文本数据；其中，所述目标文本数据包含多个指定字段下的数据内容；

数据分割模块920，用于基于预定的分隔符，对所述目标文本数据进行分割，得到各个初始子文本；

文本修正模块930，用于按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本；其中，每一目标子文本中包括所述多个指定字段下的数据内容，且所述多个指定字段中的特定字段下的数据内容的数量为一个；

文本分词模块940，用于对各个目标子文本进行分词处理，得到所述目标文本数据的分词。

可选的，一种具体实现方式中，所述文本修正模块930，包括：

文本确定子模块，用于确定各个初始子文本中的待合并子文本；其中，所述待合并子文本为：未包括第一类数据内容的初始子文本，所述第一类数据内容为：与所述特定字段相匹配的数据内容；

文本修正子模块，用于对所述待合并子文本进行内容修正，得到修正后子文本；其中，所述修正后子文本包含所述第一类数据内容；

文本获取子模块，用于基于待利用子文本，确定各个目标子文本；其中，所述待利用子文本包括：所述修正后子文本和当前所存在的各个初始子文本。

可选的，一种具体实现方式中，所述特定字段预设有标准化数据库，所述标准化数据库中包含属于所述特定字段的各个标准词；所述文本确定子模块具体用于：

针对每一初始子文本，将该初始子文本与各个标准词对应的参考内容进行数据匹配，若均不匹配，则将该初始子文本确定为待合并子文本；

可选的，一种具体实现方式中，所述文本修正子模块具体用于：

从所述目标文本数据的除所述待合并子文本以外的各子文本中，确定与所述待合并子文本的位置关系满足预设位置条件的备用子文本；其中，所述预设位置条件包括；距离最近、位于所述待合并子文本之前且距离最近，或者，位于所述待合并子文本之后且距离最近；

将从所述待合并子文本至所述备用子文本的多个子文本进行合并，得到修正后子文本。

可选的，一种具体实现方式中，所述文本获取子模块，包括：

第一获取单元，用于若待利用子文本包含有符合多个预定条件中任一条件的子文本，对所述待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本；

第二获取单元，用于若待利用子文本中未包含有符合多个预定条件中任一条件的子文本，将待利用子文本所包括的各个子文本，均确定为目标子文本；

其中，所述多个预定条件包括：第一预定条件和第二预定条件，所述第一预定条件为：具有与所述多个指定字段相匹配的数据内容且第一类数据内容的数量为多个；所述第二预定条件为：仅具有所述第一类数据内容。

可选的，一种具体实现方式中，所述多个指定字段的数量为两个；所述第一获取单元具体用于：

确定所述待利用子文本中的各个第一类数据内容；

针对除最后一个第一类数据内容之外的每个第一类数据内容，计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离；若计算得到的距离不小于第一预设阈值，则将该第一类数据内容，以及位于该第一类数据内容与所述下一个第一类数据内容之间的数据内容进行合并，得到目标子文本；否则，并将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到目标子文本；其中，所述待补充内容为：位于所述下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与所述特定字段之外的另一指定字段相匹配的数据内容；

针对最后一个第一类数据内容，将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到目标子文本。

可选的，一种具体实现方式中，所述第一获取单元，包括：

第一获取子单元，用于从所述待利用子文本中，选取包含有与所述多个指定字段相匹配的数据内容，且第一类数据内容的数量为一个的子文本，将所选取的子文本确定为目标子文本；

第二获取子单元，用于从所述待利用子文本中，选取符合所述第一预定条件的子文本，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本；

第三获取子单元，用于针对每个子文本组，将该子文本组中的每个第一类数据内容与该子文本组中的第二类数据内容进行合并，得到关于该子文本组的各个目标子文本；其中，所述第二类数据内容为：与所述特定字段之外的另一指定字段相匹配的数据内容，该子文本组包括：位置连续的多个子文本，所述多个子文本包括：符合所述第二预定条件的至少一个子文本以及所确定的一个目标子文本，并且，所述一个目标子文本是该子文本组中的最后一个子文本。

可选的，一种具体实现方式中，所述第二获取子单元具体用于：

若所选取的子文本中的第一类数据内容连续，将所选取的子文本中的每个第一类数据内容，分别与所选取的该子文本中的第二类数据内容进行合并，得到关于该所选取的子文本的多个目标子文本；

若所选取的子文本中的第一类数据内容不连续，将所选取的该子文本中的每个第一类数据内容以及位于该第一类数据内容之后且与该第一类数据内容距离最近的第二类数据内容，拆分成一个目标子文本，得到关于该所选取的子文本的多个目标子文本。

可选的，一种具体实现方式中，所述装置还包括：用于确定每个子文本组的文本组确定模块；所述文本组确定模块具体用于：

从所述待利用子文本中，确定当前未被划分到各个子文本组中，且符合所述第二预定条件的子文本，作为当前待划分子文本；

计算所述当前待划分子文本中的最后一个第一类数据内容，与所述当前待划分子文本的下一个子文本中的第一个第一类数据内容的距离；

若所计算得到的距离小于第二预设阈值，则将所述当前待划分子文本与所述下一个子文本划分到同一子文本组中；

如果所述下一个子文本为所确定的目标子文本，则得到划分完成的一个子文本组，并返回所述从所述待利用子文本中，确定当前未被划分到各个子文本组中，且符合所述第二预定条件的子文本，作为当前待划分子文本的步骤；

如果所述下一个子文本为符合所述第二预定条件的子文本，则将所述下一个子文本确定为当前待划分子文本，并返回所述计算所述当前待划分子文本中的最后一个第一类数据内容，与所述当前待划分子文本的下一个子文本中的第一个第一类数据内容的距离的步骤。

相应于上述本发明实施例提供的一种医学文本数据处理方法，本发明实施例还提供了一种医学文本数据处理装置。

图10为本发明实施例提供的一种医学文本数据处理装置的结构示意图，如图10所示，该装置可以包括如下模块：

医学文本数据获取模块1010，用于获取待处理的医学文本数据；其中，所述医学文本数据包含多个指定字段下的数据内容；

医学文本数据处理模块1020，用于根据上述第一方面提供的任一数据处理方法处理所述医学文本数据，以得到所述医学文本数据的分词。

应用本发明实施例提供的医学文本数据处理方案，可以对不同的信息系统的医学文本数据进行统一的规范化的分词处理，为医学文本数据的标准化提供实现基础。

相应于上述本发明实施例提供的一种数据处理方法，本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述本发明实施例提供的任一数据处理方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据处理方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一数据处理方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据处理方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一数据处理方法的步骤，和/或，上述本发明实施例提供的一种医学文本数据处理方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例，以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对各个目标子文本进行分词处理，得到所述目标文本数据的分词；

其中，所述按照预定的文本修正规则，对各个初始子文本进行修正处理，得到各个目标子文本的步骤，包括：确定各个初始子文本中的待合并子文本；其中，所述待合并子文本为：未包括第一类数据内容的初始子文本，所述第一类数据内容为：与所述特定字段相匹配的数据内容；对所述待合并子文本进行内容修正，得到修正后子文本；其中，所述修正后子文本包含所述第一类数据内容；基于待利用子文本，确定各个目标子文本；其中，所述待利用子文本包括：所述修正后子文本和当前所存在的各个初始子文本；

所述基于待利用子文本，确定各个目标子文本的步骤，包括：若待利用子文本包含有符合多个预定条件中任一条件的子文本，对所述待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本；若待利用子文本中未包含有符合多个预定条件中任一条件的子文本，将待利用子文本所包括的各个子文本，均确定为目标子文本；其中，所述多个预定条件包括：第一预定条件和第二预定条件，所述第一预定条件为：具有与所述多个指定字段相匹配的数据内容且第一类数据内容的数量为多个；所述第二预定条件为：仅具有所述第一类数据内容；

其中，所述多个指定字段的数量为两个；所述对所述待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本的步骤，包括：确定所述待利用子文本中的各个第一类数据内容；针对除最后一个第一类数据内容之外的每个第一类数据内容，计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离；若计算得到的距离不小于第一预设阈值，则将该第一类数据内容，以及位于该第一类数据内容与所述下一个第一类数据内容之间的数据内容进行合并，得到目标子文本；否则，并将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到目标子文本；其中，所述待补充内容为：位于所述下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与所述特定字段之外的另一指定字段相匹配的数据内容；针对最后一个第一类数据内容，将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到目标子文本。

2.根据权利要求1所述的方法，其特征在于，所述特定字段预设有标准化数据库，所述标准化数据库中包含属于所述特定字段的各个标准词；所述确定各个初始子文本中的待合并子文本的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述待合并子文本进行内容修正，得到修正后子文本的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述多个指定字段的数量为两个；所述对所述待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本的步骤，包括：

从所述待利用子文本中，选取包含有与所述多个指定字段相匹配的数据内容，且第一类数据内容的数量为一个的子文本，将所选取的子文本确定为目标子文本；

从所述待利用子文本中，选取符合所述第一预定条件的子文本，基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本；

针对每个子文本组，将该子文本组中的每个第一类数据内容与该子文本组中的第二类数据内容进行合并，得到关于该子文本组的各个目标子文本；其中，所述第二类数据内容为：与所述特定字段之外的另一指定字段相匹配的数据内容，该子文本组包括：位置连续的多个子文本，所述多个子文本包括：符合所述第二预定条件的至少一个子文本以及所确定的一个目标子文本，并且，所述一个目标子文本是该子文本组中的最后一个子文本。

5.根据权利要求4所述的方法，其特征在于，所述基于所选取的子文本中第一类数据内容是否连续的确定结果，对所选取的子文本进行修正，得到关于所选取的子文本的多个目标子文本的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，每个子文本组的确定方式包括：

7.一种数据处理装置，其特征在于，所述装置包括：

文本分词模块，用于对各个目标子文本进行分词处理，得到所述目标文本数据的分词；

其中，所述文本修正模块，包括：文本确定子模块，用于确定各个初始子文本中的待合并子文本；其中，所述待合并子文本为：未包括第一类数据内容的初始子文本，所述第一类数据内容为：与所述特定字段相匹配的数据内容；文本修正子模块，用于对所述待合并子文本进行内容修正，得到修正后子文本；其中，所述修正后子文本包含所述第一类数据内容；文本获取子模块，用于基于待利用子文本，确定各个目标子文本；其中，所述待利用子文本包括：所述修正后子文本和当前所存在的各个初始子文本；

所述文本获取子模块，包括：第一获取单元，用于若待利用子文本包含有符合多个预定条件中任一条件的子文本，对所述待利用子文本所包括的各子文本进行再次修正，得到各个目标子文本；第二获取单元，用于若待利用子文本中未包含有符合多个预定条件中任一条件的子文本，将待利用子文本所包括的各个子文本，均确定为目标子文本；所述多个预定条件包括：第一预定条件和第二预定条件，所述第一预定条件为：具有与所述多个指定字段相匹配的数据内容且第一类数据内容的数量为多个；所述第二预定条件为：仅具有所述第一类数据内容；

所述多个指定字段的数量为两个；所述第一获取单元具体用于：确定所述待利用子文本中的各个第一类数据内容；针对除最后一个第一类数据内容之外的每个第一类数据内容，计算该第一类数据内容与该第一类数据内容的下一个第一类数据内容的距离；若计算得到的距离不小于第一预设阈值，则将该第一类数据内容，以及位于该第一类数据内容与所述下一个第一类数据内容之间的数据内容进行合并，得到目标子文本；否则，并将该第一类数据内容以及该第一类数据内容对应的待补充内容进行合并，得到目标子文本；其中，所述待补充内容为：位于所述下一个第一类数据内容之后、与该第一类数据内容的距离最近，且与所述特定字段之外的另一指定字段相匹配的数据内容；针对最后一个第一类数据内容，将该第一类数据内容以及位于该第一类数据内容之后的数据内容进行合并，得到目标子文本。

8.一种医学文本数据处理方法，其特征在于，所述方法包括：

根据权利要求1-6任一所述的方法步骤处理所述医学文本数据，以得到所述医学文本数据的分词。

9.一种医学文本数据处理装置，其特征在于，所述装置包括：

医学文本数据处理模块，用于根据权利要求1-6任一所述的方法步骤处理所述医学文本数据，以得到所述医学文本数据的分词。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤，和/或，权利要求8所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤，和/或，权利要求8所述的方法步骤。