CN113033216A

CN113033216A - 文本预处理方法、装置、存储介质及电子设备

Info

Publication number: CN113033216A
Application number: CN202110236281.0A
Authority: CN
Inventors: 王天舒
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-25
Anticipated expiration: 2041-03-03
Also published as: CN113033216B

Abstract

本公开涉及一种文本预处理方法、装置、存储介质及电子设备，所述方法包括：获取待处理文本；针对预构建的拆分句数据集中的拆分句，将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，所述分类结果表征该拆分句与所述待处理文本是否属于同一分类，所述拆分句数据集包括预先对完整文本进行精简处理得到的多条拆分句；根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句；根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，所述目标文本用于文本结构化处理，提高了文本结构化处理的准确率，并降低了文本结构化处理的处理难度。

Description

文本预处理方法、装置、存储介质及电子设备

技术领域

本公开涉及电子信息技术领域，具体地，涉及一种文本预处理方法、装置、存储介质及电子设备。

背景技术

在相关技术中，特别是在医学原始文本信息的文本结构化处理中，医学原始文本信息的简易化及其重要，在保证医学原始文本信息简易化的同时需要保留医学原始文本的真实语义，可以理解的是，医学原始文本信息越简易，文本结构化处理的难度越低，同时也会确保文本结构化处理的准确率。

因此，使医学原始文本信息在保留医学原始文本的真实语义的前提下实现简易化对文本结构化处理显得尤其重要。

发明内容

本公开的目的是提供一种文本预处理方法、装置、存储介质及电子设备，提高了文本结构化处理的准确率，并降低了文本结构化处理的处理难度。

为了实现上述目的，第一方面，本公开提供一种文本预处理方法，所述方法包括：

获取待处理文本；

针对预构建的拆分句数据集中的拆分句，将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，所述分类结果表征该拆分句与所述待处理文本是否属于同一分类，所述拆分句数据集包括预先对完整文本进行精简处理得到的多条拆分句；

根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句；

根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，所述目标文本用于文本结构化处理。

可选地，所述根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句，包括：

在所述分类结果表征对应的拆分句与所述待处理文本属于同一分类的情况下，判断该拆分句中的各字符是否均存在与所述待处理文本中；

若该拆分句中的各字符均存在与所述待处理文本中，则确定该拆分句为与所述待处理文本相匹配的目标拆分句。

可选地，针对预构建的拆分句数据集中的每一拆分句，循环执行所述将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，以及所述根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句的步骤；并，

在每次确定一新的目标拆分句后，判断所述待处理文本的所有字符是否被已确定的所有目标拆分句所包括的字符覆盖；

在所述待处理文本的所有字符被已确定的所有目标拆分句所包括的字符覆盖的情况下，停止所述循环。

可选地，所述拆分句数据集中包括多个类别的拆分句子集，一个所述拆分句子集对应一个分类模型，所述针对预构建的拆分句数据集中的每一拆分句，将该拆分句与所述待处理文本输入分类模型，得到该分类模型输出的分类结果，包括：

从所述拆分句数据集中确定类别与所述待处理文本对应的目标拆分句子集；

针对所述目标拆分句子集中的拆分句，将所述拆分句与所述待处理文本输入对应该目标拆分句子集的分类模型，得到该分类模型输出的分类结果。

可选地，所述分类模型是通过如下方式训练得到的：

对训练文本进行精简处理，得到多个标准拆分句，其中，所述拆分句数据集中包括所述标准拆分句；

针对每一所述标准拆分句与所述训练文本进行组合，并将得到的第一文本组合标记为第一正样本；

针对多个所述标准拆分句与随机文本进行组合，并将得到的第二文本组合标记为第一负样本；

根据所述第一正样本和所述第一负样本训练所述分类模型。

可选地，所述根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，包括：

针对每一所述目标拆分句，从预先构建的标准业务词集合中，确定所述目标拆分句中是否存在需要替换的业务词；

在所述目标拆分句中存在需要替换的业务词的情况下，根据所述标准业务词集合中对应的标准业务词对所述目标拆分句中需要替换的业务词进行替换；

将各所述目标拆分句组合得到所述目标文本。

可选地，所述从预先构建的标准业务词集合中，确定所述目标拆分句中是否存在需要替换的业务词，包括：

将所述标准业务词集合中的任一标准业务词作为目标标准业务词，将所述目标标准业务词与所述目标拆分句输入查找模型，得到所述查找模型输出的查找结果；

所述在所述目标拆分句中存在需要替换的业务词的情况下，根据所述标准业务词集合中对应的标准业务词对所述目标拆分句中需要替换的业务词进行替换，包括：

在所述查找结果表征所述目标拆分句中存在需要替换的业务词的情况下，根据所述目标标准业务词对所述目标拆分句中需要替换的业务词进行替换。

可选地，所述查找模型是通过如下方式训练得到的：

将拆分句以及用于替换该拆分句中的任一业务词的标准业务词进行组合，并将得到的第三文本组合标记为第二正样本；

将拆分句以及非用于替换该拆分句中的任一业务词的标准业务词进行组合，并将得到的第四文本组合标记为第二负样本；

根据所述第一正样本和所述第二负样本训练所述查找模型。

可选地，在确定所述目标拆分句中需要替换的业务词之前，所述方法还包括：

对与所述待处理文本相匹配的目标拆分句进行去重，针对去重后剩下的目标拆分句，执行针对每一所述目标拆分句，从预先构建的标准业务词集合中，确定所述目标拆分句中是否存在需要替换的业务词的步骤。

可选地，所述拆分句数据集中包括多个类别的拆分句子集通过以下方式进行划分：

计算所述拆分句数据集中的每两句拆分句之间的相似度值；

根据计算得到的所有相似度值，对所述拆分句数据集中的拆分句进行聚类，得到包括多个类别的拆分句子集，其中，采用以下计算式计算两拆分句之间相似度值：

V(A,B)为拆分句A与拆分句B之间的相似度值，i为拆分句A与拆分句B之间相同字符的个数，len(A)为拆分句A的长度，len(B)为拆分句B的长度，sim(S_a(i),S_b(i))表示去除拆分句A与拆分句B之间相同字符的相似度值。

第二方面，本公开提供一种文本预处理装置，所述装置包括：

获取模块，用于获取待处理文本；

分类模块，用于针对预构建的拆分句数据集中的拆分句，将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，所述分类结果表征该拆分句与所述待处理文本是否属于同一分类，所述拆分句数据集包括预先对完整文本进行精简处理得到的多条拆分句；

确定模块，用于根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句；

生成模块，用于根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，所述目标文本用于文本结构化处理。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述方法的步骤。

通过上述技术方案，利用分类模型确定拆分句数据集中包括的拆分句是否与待处理文本是否属于同一分类，该分类模型从语义角度确定各拆分句是否与待处理文本相匹配，由此保证了待处理文本的原始语义；再根据分类模型输出的分类结果确定拆分句数据集中与待处理文本相匹配的目标拆分句，由于拆分句是预先对完整文本进行精简处理得到的，这样，便可实现对待处理文本的简易化处理，以此得到待处理文本相对应的简易的目标拆分句；再基于各目标拆分句生成便于文本结构化处理的目标文本，由此提高了文本结构化处理的准确率，并降低了文本结构化处理的处理难度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种文本预处理方法的流程图。

图2是根据一示例性实施例示出的一种文本预处理方法的另一流程图。

图3是根据一示例性实施例示出的一种文本预处理方法的另一流程图。

图4是根据一示例性实施例示出的一种文本预处理装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

文本结构化处理是表征对文本进行标签分解的处理，例如，以医学文本“两侧上颌窦透光度良好”为例，文本结构化处理的处理结果如下表所示：

在上表中，侧别、方位和部位表示属性标签，透光度表示实体，该实体下具有一属性标签，即程度。其中，每个属性标签和实体分别对应一个值，文本结构化处理即是将上述医学文本处理成上述以表格形式呈现的形式，如此，可以便于临床的查看。

在相关技术中，文本结构化处理的处理难度和准确率受文本的复杂程度、标准化程度的影响。可以理解的是，文本的复杂程度越低且标准化程度越高，则文本结构化处理的处理难度越低，准确率越高。

示例地，以原文本为“无胸痛、胸闷、发热和咳嗽3天”为例，“无胸痛、胸闷、发热和咳嗽3天”中的“无”是修饰后面所有症状，“3天”也是修饰所有症状，若不将原文本进行处理(例如，处理成无胸痛3天、无胸闷3天、无发热3天和无咳嗽3天)，将增加文本结构化处理的处理难度以及影响文本结构化处理的准确率。另外，在实际使用中，文本表述方式多种多样，例如“胃纳较差”和“饮食较差”表示的同一含义，若不采用标准化词汇描述文本，也将增加文本结构化处理的处理难度以及影响文本结构化处理的准确率。

因此，如何得到便于文本结构化处理的文本是尤其重要的。

有鉴于此，本公开实施例提供一种文本预处理方法、装置、存储介质及电子设备，以提高文本结构化处理的准确率，并降低文本结构化处理的处理难度。

首先应当理解的是，本公开实施例中的文本预处理方法可以应用于任一电子设备，比如电脑等电子设备，本公开实施例对此不作限定。以下将以待处理文本为医学检测结果文本为例对本实施例进行进一步解释说明。

图1是根据一示例性实施例示出的一种文本预处理方法的流程图。参照图1，该文本预处理方法包括：

步骤101，获取待处理文本。

在本公开中，待处理文本可以是根据实际情况从医院的数据库中获取到的，待处理文本也可以是用户基于电子设备输入的。本实施例对待处理文本的获取方式不作限定。

步骤102，针对预构建的拆分句数据集中的拆分句，将拆分句与待处理文本输入分类模型，得到分类模型输出的分类结果。

在本公开中，分类结果表征该拆分句与待处理文本是否属于同一分类，拆分句数据集包括预先对完整文本进行精简处理得到的多条拆分句。

分类模型从语义角度确定拆分句数据集中的各拆分句是否与待处理文本相匹配，分类结果若表征该拆分句与待处理文本属于同一分类，也就是表明该拆分句的语义和待处理文本的语义是一致的；分类结果若表征该拆分句与待处理文本不属于同一分类，也就是表明该拆分句的语义和待处理文本的语义是不一致的。

步骤103，根据分类结果确定拆分句数据集中与待处理文本相匹配的目标拆分句。

应当说明的是，若某一拆分句的分类结果若表征该拆分句与待处理文本属于同一分类，则确定该拆分句是与待处理文本相匹配的目标拆分句。

示例地，该分类结果的值可以是1或0，1表示该拆分句与待处理文本属于同一分类，0表示该拆分句不是与待处理文本相匹配的目标拆分句。

步骤104，根据与待处理文本相匹配的各目标拆分句生成目标文本。

其中，目标文本用于文本结构化处理。

通过上述方式，利用分类模型确定拆分句数据集中包括的拆分句是否与待处理文本是否属于同一分类，该分类模型从语义角度确定各拆分句是否与待处理文本相匹配，由此保证了待处理文本的原始语义；再根据分类模型输出的分类结果确定拆分句数据集中与待处理文本相匹配的目标拆分句，由于拆分句是预先对完整文本进行精简处理得到的，这样，便可实现对待处理文本的简易化处理，以此得到待处理文本相对应的简易的目标拆分句；再基于各目标拆分句生成便于文本结构化处理的目标文本，由此提高了文本结构化处理的准确率，并降低了文本结构化处理的处理难度。

图2是根据一示例性实施例示出的一种文本预处理方法的另一流程图。参照图2，该文本预处理方法包括：

步骤201，获取待处理文本。

步骤201的实施过程与图1所示的步骤101类似，本实施例在此不作赘述。

步骤202，针对预构建的拆分句数据集中的拆分句，将拆分句与待处理文本输入分类模型，得到分类模型输出的分类结果。

步骤202的实施过程与图1所示的步骤102类似，本实施例在此不作赘述。

步骤203，在分类结果表征对应的拆分句与待处理文本属于同一分类的情况下，判断该拆分句中的各字符是否均存在与待处理文本中。

在本实施例中，采用相关技术中已有的方式确定拆分句中的各字符是否均存在与待处理文本中，本实施例在此不作赘述。

步骤204，若该拆分句中的各字符均存在与待处理文本中，则确定该拆分句为与待处理文本相匹配的目标拆分句。

步骤205，根据与待处理文本相匹配的各目标拆分句生成目标文本。

示例地，以待处理文本为“两侧上颌窦、筛窦及额窦、蝶窦透光度好”为例，若某拆分句为“两侧上颌窦透光度好”，此时“两侧上颌窦透光度好”中的所有字符均被包括于“两侧上颌窦、筛窦及额窦、蝶窦透光度好”中，这样，表明“两侧上颌窦透光度好”即是“两侧上颌窦、筛窦及额窦、蝶窦透光度好”的目标拆分句。

采用上述技术方案，在利用分类模型确定拆分句的语义与待处理文本相匹配的情况下，再从拆分句的字符进一步判断该拆分句是否为待处理文本的目标拆分句，即从句子的多种角度(语义角度和字符角度)出发，确定与待处理文本的目标拆分句，提高了目标拆分句的准确性，这样，便可进一步提高文本结构化处理的准确率。

图3是根据一示例性实施例示出的一种文本预处理方法的另一流程图。参照图3，该文本预处理方法包括：

步骤301，获取待处理文本。

步骤301的实施过程与图1所示的步骤101类似，本实施例在此不作赘述。

步骤302，将预构建的拆分句数据集中第一句拆分句作为当前拆分句。

步骤302，针对当前拆分句，将当前拆分句与待处理文本输入分类模型，得到分类模型输出的分类结果，并根据该分类结果确定当前拆分句是否是待处理文本的目标拆分句。

步骤302中分类模型的实施过程和图1所示的步骤102中分类模型的实施过程类似，且步骤302中根据该分类结果确定当前拆分句是否是待处理文本的目标拆分句的实施过程与图1所示的步骤103类似，本实施例在此不作赘述。

步骤303，判断待处理文本的所有字符是否被已确定的所有目标拆分句所包括的字符覆盖。

在待处理文本的所有字符被已确定的所有目标拆分句所包括的字符覆盖的情况下，执行步骤306，根据与待处理文本相匹配的各目标拆分句生成目标文本。

在待处理文本的所有字符未被已确定的所有目标拆分句所包括的字符覆盖的情况下，执行步骤305，确定拆分句数据集中排列在当前拆分句的下一句拆分句为新的当前拆分句，并返回执行303。

示例地，以下将以拆分句数据集中包括“两侧上颌窦透光度好”、“两侧筛窦透光度好”、“两侧额窦透光度好”、“两侧蝶窦透光度好”和“窦腔内未见异常密度改变”，且待处理文本为“两侧上颌窦、筛窦及额窦、蝶窦透光度好”为例，对图3进行进一步解释说明。

具体来讲，先将上述拆分句数据集中的第一句拆分句：“两侧上颌窦透光度好”作为当前拆分句；

然后，利用分类模型确定出“两侧上颌窦透光度好”与待处理文本为同一类，并进一步由于该当前拆分句的字符均存在与待处理文本中，于是该当前拆分句为与待处理文本相匹配的目标拆分句。

接着，判断待处理文本的所有字符是否被已确定的所有目标拆分句所包括的字符覆盖，目前已确定的所有目标拆分句包括“两侧上颌窦透光度好”，由于“两侧上颌窦透光度好”未包括待处理文本的所有字符，例如“筛”、“额”等字符，因此，需要继续确定待处理文本的下一目标拆分句，即判断排列在“两侧上颌窦透光度好”的下一句“两侧筛窦透光度好”是否与待处理文本的目标拆分句，直至待处理文本的所有字符是否被已确定的所有目标拆分句所包括的字符覆盖。

应当理解的是，在确定“两侧蝶窦透光度好”为待处理文本的目标拆分句后，由于待处理文本的所有字符能被已确定的目标拆分句(包括“两侧上颌窦透光度好”、“两侧筛窦透光度好”、“两侧额窦透光度好”、“两侧蝶窦透光度好”)所包括的字符覆盖，于是，便不会进一步去利用分类模型计算拆分句“窦腔内未见异常密度改变”是否与待处理文本为同一类。

采用上述技术方案，在保证已确定的目标拆分句足够反映待处理文本的语义信息的前提下，不用计算拆分句数据集中所有拆分句的分类结果，减少分类模型的计算量，提高文本处理的速度。

在可能的实施方式中，拆分句数据集中包括多个类别的拆分句子集，一个拆分句子集对应一个分类模型，图1所示步骤102包括：从拆分句数据集中确定类别与待处理文本对应的目标拆分句子集；针对目标拆分句子集中的拆分句，将拆分句与待处理文本输入对应该目标拆分句子集的分类模型，得到该分类模型输出的分类结果。

下表为一拆分句数据集示例，如下表所示，该拆分句数据集中包括四个类别的拆分句子集。

在可能的实施方式中，拆分句数据集中包括多个类别的拆分句子集通过以下方式进行划分：

首先，计算拆分句数据集中的每两句拆分句之间的相似度值；

然后，根据计算得到的所有相似度值，对拆分句数据集中的拆分句进行聚类，得到包括多个类别的拆分句子集，其中，采用以下计算式计算两拆分句之间相似度值：

在可能的实施方式中，sim(S_a(i),S_b(i))可以是拆分句A与拆分句B之间的余弦距离。具体的：

sim(S_a(i),S_b(i))＝cos(Vec(A),Vec(B))；

n，m为自然正整数，w_n为拆分句A中第n个与拆分句B不相同的字符所对应的字符向量，w_m为拆分句B中第m个与拆分句A不相同的字符所对应的字符向量。

在可能的实施方式中，所述根据计算得到的所有相似度值，对拆分句数据集中的拆分句进行聚类，得到包括多个类别的拆分句子集具体可以采用以下方式实施。

具体的，根据计算得到的所有相似度值得到平均相似度值，确定一调整参数，将平均相似度值与调整参数的乘积作为分类阈值，该分类阈值控制所有数据的所述类别的数量；根据分类阈值依次对拆分句数据集中的拆分句进行分类。

示例地，将拆分句数据集中的第一条拆分句和第二条拆分句的相似度值与分类阈值进行比对，若该相似度值比分类阈值大，则第一条拆分句和第二条拆分句归属为一类，若该相似度值比分类阈值小，则将第二条拆分句视为与第一拆分句不同的新的类别；然后，将第三条拆分句与第一条拆分句的相似度值与分类阈值进行比对，若该相似度值比分类阈值大，则第一条拆分句和第三条拆分句归属为一类，若该相似度值比分类阈值小，进一步将第三条拆分句与下一类别的拆分句的相似度与分类阈值进行比对(即确定第三条拆分句是否属于目前已划分的类别)，则第三条拆分句与第二条拆分句的相似度与分类阈值进行比对，以此方式找到拆分句数据集中所有拆分句的类别。

在本公开中，调整参数可以根据实际情况进行设定，本实施例对此不作赘述。

在本公开中，可以采用以下方式确定目标拆分句子集。具体的，对待处理文本和每个类别的任一拆分句进行相似度计算，得到多个相似度值，将多个相似度值中与最大的相似度值所对应的拆分句子集作为目标拆分句子集。进而，在该目标拆分句子集中确定待处理文本的目标拆分句。

采用上述技术方案，确定与待处理文本语义最相关的拆分句子集和分类模型确定该待处理文本的目标拆分句，可以减少数据计算量，并且每个分类模型均是基于某一相同类的训练数据训练得到的，如此，有利于提高目标拆分句计算的准确率。

在可能的实施方式中，分类模型通过如下方式训练得到：

对训练文本进行精简处理，得到多个标准拆分句，其中，拆分句数据集中包括标准拆分句。

针对每一标准拆分句与训练文本进行组合，并将得到的第一文本组合标记为第一正样本。

针对多个标准拆分句与随机文本进行组合，并将得到的第二文本组合标记为第一负样本。

根据第一正样本和第一负样本训练分类模型。

示例地，以训练文本为“两侧上颌窦、筛窦及额窦、蝶窦透光度好”，且随机文本为“粘膜未见增厚”、“鼻甲未见异常”为例，对该训练文本进行精简训练得到的得到的标准拆分句包括“两侧上颌窦透光度好”、“两侧筛窦透光度好”、“两侧额窦透光度好”、“两侧蝶窦透光度好”，因此，第一正样本可以包括如下数据：

两侧上颌窦、筛窦及额窦、蝶窦透光度好|两侧上颌窦透光度好-----------1；

两侧上颌窦、筛窦及额窦、蝶窦透光度好|两侧筛窦透光度好-------------1；

两侧上颌窦、筛窦及额窦、蝶窦透光度好|两侧额窦透光度好-------------1；

两侧上颌窦、筛窦及额窦、蝶窦透光度好|两侧蝶窦透光度好-------------1；

得到的第一负样本可以包括如下数据：

两侧上颌窦、筛窦及额窦、蝶窦透光度好|粘膜未见增厚-----------------0；

两侧上颌窦、筛窦及额窦、蝶窦透光度好|鼻甲未见异常-----------------0；

其中，数字“1”和“0”表示此条样本包括的两条数据是否属于同一类。在上述情况下，“1”表示此条样本包括的两条数据属于同一类；“0”表示此条样本包括的两条数据不属于同一类。在此情况下，分类模型针对某一输入，其输出的分类结果是“0”或“1”。

在可能的方式中，本公开可以基于logistic二分类模型进行分类模型训练。

在实际应用中，文本中的词汇的标准化程度也同样影响文本结构化处理的处理难度和准确率。因此，为降低文本结构化处理的处理难度和提高准确率。图1所示的步骤104可以包括：

首先，针对每一目标拆分句，从预先构建的标准业务词集合中，确定目标拆分句中是否存在需要替换的业务词。

然后，在目标拆分句中存在需要替换的业务词的情况下，根据标准业务词集合中对应的标准业务词对目标拆分句中需要替换的业务词进行替换。

接着，将各目标拆分句组合得到目标文本。

示例地，“咽旁间隙及翼前后脂肪垫形态未见异常”的目标拆分句包括“咽旁间隙形态未见异常”和“咽旁翼前后脂肪垫形态未见异常”，而“咽旁”是需要替换的业务词，而“咽旁”对应的标准业务词是“咽喉旁”，因此，替换后的目标拆分句则可以为“咽喉旁间隙形态未见异常”和“咽喉旁翼前后脂肪垫形态未见异常”，进而在根据替换后的目标拆分句组合成目标文本。

采用上述技术方案，对目标拆分句中需要标准化的业务词进行标准化，即将目标拆分句中需要替换的业务词进行替换，得到新的目标拆分句，再基于新的目标拆分句组合得到目标文本，以便于文本结构化处理，进一步文本结构化处理的准确率，并降低了文本结构化处理的处理难度。

在可能的实施方式中，可以采用神经网络模型确定目标拆分句中是否存在需要替换的业务词。具体的，将标准业务词集合中的任一标准业务词作为目标标准业务词，将目标标准业务词与目标拆分句输入查找模型，得到查找模型输出的查找结果，在查找结果表征目标拆分句中存在需要替换的业务词的情况下，根据目标标准业务词对目标拆分句中需要替换的业务词进行替换。

其中，该查找结果表征目标标准业务词是否能替换目标拆分句中的业务词。

示例地，该查找结果的值可以是1或0，1表示目标标准业务词能替换目标拆分句中的业务词，0表示目标标准业务词不能替换目标拆分句中的业务词。

在本实施例中，业务词的替换的方式已经在上文中进行详细举例说明，此处不再赘述。

在可能的实施方式中，查找模型是通过如下方式训练得到的：

根据所述第一正样本和所述第二负样本训练查找模型。

示例地，以“咽旁间隙及翼前后脂肪垫形态未见异常”为例，确定的目标拆分句包括“咽旁间隙形态未见异常”和“咽旁翼前后脂肪垫形态未见异常”，得到的第二正样本可以包括如下数据：

咽旁间隙形态未见异常|咽喉-----1；

咽旁翼前后脂肪垫形态未见异常|咽喉旁--------1。

得到的第二负样本可以包括如下数据：

咽旁间隙形态未见异常|鼻中-----0；

咽旁翼前后脂肪垫形态未见异常|咽喉旁--------1。

其中，数字“1”和“0”表示此条样本包括标准业务词是否是能替换该条样本包括的拆分句的业务词的标准业务词。在上述情况下，“1”表示此条样本包括标准业务词是能替换该条样本包括的拆分句的业务词的标准业务词；“0”表示此条样本包括标准业务词不是能替换该条样本包括的拆分句的业务词的标准业务词。

在实际应用中，匹配到的目标拆分句中可能会存在重复的拆分句，例如，“上颌窦透光度好”和“两侧上颌窦透光度好”，为了减少后续文本结构化处理的计算量，在得到确定的目标目标拆分句进行去重，并对去重后剩下的每一目标拆分句确定该目标拆分句替换的业务词。

在本实施例中，去重的规则可以是去除重复的多条目标拆分句中字符较少的目标拆分句。示例地，以目标拆分句包括“上颌窦透光度好”和“两侧上颌窦透光度好”为例，去除的目标拆分句则是“上颌窦透光度好”，“两侧上颌窦透光度好”则作为待处理文本的最终的目标拆分句，然后再确定“两侧上颌窦透光度好”是否存在需要替换的业务词。

图4是根据一示例性实施例示出的一种文本预处理装置400的框图。参照图4，所述文本预处理装置400包括：

获取模块401，用于获取待处理文本。

分类模块402，用于针对预构建的拆分句数据集中的拆分句，将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，所述分类结果表征该拆分句与所述待处理文本是否属于同一分类，所述拆分句数据集包括预先对完整文本进行精简处理得到的多条拆分句。

确定模块403，用于根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句。

生成模块404，用于根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，所述目标文本用于文本结构化处理。

可选地，所述确定模块403包括：

第一判断子模块，用于在所述分类结果表征对应的拆分句与所述待处理文本属于同一分类的情况下，判断该拆分句中的各字符是否均存在与所述待处理文本中。

第一确定子模块，用于若该拆分句中的各字符均存在与所述待处理文本中，则确定该拆分句为与所述待处理文本相匹配的目标拆分句。

可选地，所述装置400还包括：

全覆盖判断模块，用于在每次确定一新的目标拆分句后，判断所述待处理文本的所有字符是否被已确定的所有目标拆分句所包括的字符覆盖。

分类模块402，还用于针对预构建的拆分句数据集中的每一拆分句，循环执行所述将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，以及所述根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句的步骤，直至在所述待处理文本的所有字符被已确定的所有目标拆分句所包括的字符覆盖。

可选地，所述拆分句数据集中包括多个类别的拆分句子集，一个所述拆分句子集对应一个分类模型，所述分类模块402还包括：

第二确定子模块，用于从所述拆分句数据集中确定类别与所述待处理文本对应的目标拆分句子集；

分类子模块，用于针对所述目标拆分句子集中的拆分句，将所述拆分句与所述待处理文本输入对应该目标拆分句子集的分类模型，得到该分类模型输出的分类结果。

可选地，所述装置400还包括：

处理模块，用于对训练文本进行精简处理，得到多个标准拆分句，其中，所述拆分句数据集中包括所述标准拆分句。

第一正样本获取模块，用于针对每一所述标准拆分句与所述训练文本进行组合，并将得到的第一文本组合标记为第一正样本。

第一负样本获取模块，用于针对多个所述标准拆分句与随机文本进行组合，并将得到的第二文本组合标记为第一负样本。

第一训练模块，用于根据所述第一正样本和所述第一负样本训练所述分类模型。

可选地，所述生成模块404包括：

业务词确定子模块，用于针对每一所述目标拆分句，从预先构建的标准业务词集合中，确定所述目标拆分句中是否存在需要替换的业务词。

替换子模块，用于在所述目标拆分句中存在需要替换的业务词的情况下，根据所述标准业务词集合中对应的标准业务词对所述目标拆分句中需要替换的业务词进行替换。

组合子模块，用于将各所述目标拆分句组合得到所述目标文本。

可选地，所述业务词确定子模块具体用于将所述标准业务词集合中的任一标准业务词作为目标标准业务词，将所述目标标准业务词与所述目标拆分句输入查找模型，得到所述查找模型输出的查找结果。

所述替换子模块具体用于在所述查找结果表征所述目标拆分句中存在需要替换的业务词的情况下，根据所述目标标准业务词对所述目标拆分句中需要替换的业务词进行替换。

可选地，所述装置400还包括：

第二正样本获取子模块，用于将拆分句以及用于替换该拆分句中的任一业务词的标准业务词进行组合，并将得到的第三文本组合标记为第二正样本。

第二负样本获取子模块，将拆分句以及非用于替换该拆分句中的任一业务词的标准业务词进行组合，并将得到的第四文本组合标记为第二负样本。

第二训练子模块，根据所述第一正样本和所述第二负样本训练所述查找模型。

可选地，所述装置400还包括：

去重模块，用于对与所述待处理文本相匹配的目标拆分句进行去重。

可选地，所述装置400还包括：

计算模块，用于计算所述拆分句数据集中的每两句拆分句之间的相似度值。

聚类模块，用于根据计算得到的所有相似度值，对所述拆分句数据集中的拆分句进行聚类，得到包括多个类别的拆分句子集，其中，采用以下计算式计算两拆分句之间相似度值：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该文本预处理方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的文本预处理方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。

通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本预处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文本预处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的文本预处理方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文本预处理方法，其特征在于，所述方法包括：

获取待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句，包括：

3.根据权利要求1所述的方法，其特征在于，针对预构建的拆分句数据集中的每一拆分句，循环执行所述将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，以及所述根据所述分类结果确定所述拆分句数据集中与所述待处理文本相匹配的目标拆分句的步骤；并，

4.根据权利要求1所述的方法，其特征在于，所述拆分句数据集中包括多个类别的拆分句子集，一个所述拆分句子集对应一个分类模型，所述针对预构建的拆分句数据集中的拆分句，将所述拆分句与所述待处理文本输入分类模型，得到所述分类模型输出的分类结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述分类模型是通过如下方式训练得到的：

根据所述第一正样本和所述第一负样本训练所述分类模型。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述根据与所述待处理文本相匹配的各所述目标拆分句生成目标文本，包括：

将各所述目标拆分句组合得到所述目标文本。

7.根据权利要求6所述的方法，其特征在于，所述从预先构建的标准业务词集合中，确定所述目标拆分句中是否存在需要替换的业务词，包括：

8.一种文本预处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文本；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。