CN111046657A

CN111046657A - 一种实现文本信息标准化的方法、装置及设备

Info

Publication number: CN111046657A
Application number: CN201911229971.2A
Authority: CN
Inventors: 冯仓龙
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-21
Anticipated expiration: 2039-12-04
Also published as: CN111046657B

Abstract

本申请实施例公开了一种实现文本信息标准化的方法、装置及系统，对于短文本信息(待识别文本信息)，提取该待识别文本信息的各个文本特征，为进一步获取待识别文本更多的特征信息，计算每个文本特征对应的关联关系特征，从而获得可以表征待识别文本信息的多项特征，以利用多项特征组成待识别文本的特征表示，进而利用预先训练的深度学习模型对待识别文本的特征表示进行识别，从而获得待识别文本的文本标准表示，提高文本标准化的准确性。

Description

一种实现文本信息标准化的方法、装置及设备

技术领域

本申请涉及信息技术处理领域，具体涉及一种实现文本信息标准化的方法、装置及设备。

背景技术

随着互联网技术的迅速普及和发展，各个应用领域会产生大量的数据。同一领域由于不同用户的配置不同，使得所产生的数据表现形式各不相同，例如对于同一事物存在多种描述方式。

现有技术通常利用传统的分词、句法等自然语言表征方法对数据进行标准化处理。然而，由于传统的标准化处理方法具有一定的局限性，特别是无法对短文本数据进行标准化处理。

发明内容

有鉴于此，本申请实施例提供一种实现文本信息标准化的方法、装置及设备，以实现短文本信息的标准化整合。

为解决上述问题，本申请实施例提供的技术方案如下：

一种实现文本信息标准化的方法，所述方法包括：

获取待识别文本信息；

提取所述待识别文本信息的文本特征，所述文本特征包括关键词特征、字特征、字间位置特征、词特征以及词间位置特征中的一项或多项；

计算所述待识别文本信息的各个文本特征对应的关联关系特征；

将所述待识别文本信息的各个文本特征以及对应的关联关系特征组成所述待识别文本信息的特征表示；

将所述待识别文本信息的特征表示输入预先训练的深度学习模型，输出所述待识别文本的文本标准表示，所述深度学习模型是将同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据训练得到的。

在一种可能的实现方式中，所述提取所述待识别文本信息的文本特征包括下述中的任意一种或者多种的结合：

提取所述待识别文本信息的第一关键词，并将所述第一关键词转换为第一关键词特征值，将所述第一关键词特征值确定为所述待识别文本信息的关键词特征；

将所述待识别文本信息的每个字转换为第一字特征值，将所述待识别文本信息的每个字的第一字特征值确定为所述待识别文本信息的字特征；

提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组，将所述第一字组转换为第一字组特征值，将所述第一字组特征值确定为所述第一目标字的位置特征，将各个所述第一目标字的位置特征确定为所述待识别文本信息的字间位置特征，所述第一目标字分别取所述待识别文本信息中的每个字；

将所述待识别文本信息进行分词，并将所述待识别文本信息的每个分词转换为第一词特征值，将每个所述第一词特征值确定为所述待识别文本信息的词特征；

将所述待识别文本信息进行分词，提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词，将所述第二目标分词转换为第二词特征值，将所述第二词特征值确定为所述第一目标分词的位置特征，将各个所述第一目标分词的位置特征确定为所述待识别文本信息的词间位置特征，所述第一目标分词分别取所述待识别文本信息中的每个分词。

在一种可能的实现方式中，所述计算所述待识别文本信息的各个文本特征对应的关联关系，包括：

计算第一目标文本特征与所述待识别文本信息中的其他各个文本特征的相关度之和；

根据所述第一目标文本特征与所述待识别文本信息中的其他各个文本特征的相关度之和以及所述第一目标文本特征对应的相关系数，计算得到所述第一目标文本特征对应的关联关系特征，所述第一目标文本特征分别取所述待识别文本信息中的每个文本特征。

在一种可能的实现方式中，所述深度学习模型的训练过程包括：

获取同义文本信息；

针对每组所述同义文本信息中的任一目标文本信息，提取所述目标文本信息的文本特征；

计算所述目标文本信息的各个文本特征对应的关联关系特征；

将所述目标文本信息的各个文本特征以及对应的关联关系特征组成所述目标文本信息的特征表示；

将每组所述同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据，训练得到深度学习模型。

在一种可能的实现方式中，所述深度学习模型包括依次相连的输入层、卷积网络层、全连接层以及输出层，所述卷积网络层包括n个一维卷积核，n为正整数。

在一种可能的实现方式中，所述提取所述目标文本信息的文本特征包括下述中的任意一种或者多种的结合：

提取所述目标文本信息的第二关键词，并将所述第二关键词转换为第二关键词特征值，将所述第二关键词特征值确定为所述目标文本信息的关键词特征；

将所述目标文本信息的每个字转换为第二字特征值，将所述目标文本信息的每个字的第二字特征值确定为所述目标文本信息的字特征；

提取与第二目标字相邻且在所述第二目标字预设范围内的单字或多字组成第二字组，将所述第二字组转换为第二字组特征值，将所述第二字组特征值确定为所述第二目标字的位置特征，将各个所述第二目标字的位置特征确定为所述目标文本信息的字间位置特征，所述第二目标字分别取所述目标文本信息中的每个字；

将所述目标文本信息进行分词，并将所述目标文本信息的每个分词转换为第三词特征值，将每个所述第三词特征值确定为所述目标文本信息的词特征；

将所述目标文本信息进行分词，提取与第三目标分词相邻且在所述第三目标分词预设范围内的第四目标分词，将所述第四目标分词转换为第四词特征值，将所述第四词特征值确定为所述第三目标分词的位置特征，将各个所述第三目标分词的位置特征确定为所述目标文本信息的词间位置特征，所述第三目标分词分别取所述目标文本信息中的每个分词。

在一种可能的实现方式中，所述计算所述目标文本信息的各个文本特征对应的关联关系，包括：

计算第二目标文本特征与所述目标文本信息的其他各个文本特征的相关度之和；

根据所述第二目标文本特征与所述目标文本信息的其他各个文本特征的相关度之和以及所述第二目标文本特征对应的相关系数，计算得到所述第二目标文本特征对应的关联关系特征，所述第二目标文本特征分别取所述目标文本信息的每个文本特征。

一种实现文本信息标准化的装置，所述装置包括：

第一获取单元，用于获取待识别文本信息；

第一提取单元，用于提取所述待识别文本信息的文本特征，所述文本特征包括关键词特征、字特征、字间位置特征、词特征以及词间位置特征中的一项或多项；

第一计算单元，用于计算所述待识别文本信息的各个文本特征对应的关联关系特征；

组成单元，用于将所述待识别文本信息的各个文本特征以及对应的关联关系特征组成所述待识别文本信息的特征表示；

第二获取单元，用于将所述待识别文本信息的特征表示输入预先训练的深度学习模型，输出所述待识别文本的文本标准表示，所述深度学习模型是将同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据训练得到的。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的实现文本信息标准化的方法。

一种实现文本信息标准化的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的实现文本信息标准化的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例针对待识别文本，提取待识别文本信息的文本特征，具体地，该文本特征可以包括关键词特征、字特征、字间位置特征、词特征以及词间位置特征中的一项或多项。然后，计算每个文本特征与其他各个文本特征之间的关联关系特征，从而得到每个文本特征对应的关联关系特征。其中，关联关系特征表示一个文本特征与其他各个文本特征之间的关联关系。再将待识别文本信息的各个文本特征以及对应的关联关系特征组成该待识别文本信息的特征表示。最后，将待识别文本的特征表示输入预先训练的深度学习模型，获得该待识别文本的文本标准表示。

即，通过本申请实施例提供的方法，对于短文本信息(待识别文本信息)，提取该待识别文本信息的各个文本特征，为进一步获取待识别文本更多的特征信息，计算每个文本特征对应的关联关系特征，从而获得可以表征待识别文本信息的多项特征，以利用多项特征组成待识别文本的特征表示，进而利用预先训练的深度学习模型对待识别文本的特征表示进行识别，从而获得待识别文本的文本标准表示，提高文本标准化的准确性。

附图说明

图1为本申请实施例提供的一种深度学习模型训练方法流程图；

图2为本申请实施例提供的一种实现文本信息标准化的方法流程图；

图3为本申请实施例提供的一种实现文本信息标准化装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请提供的技术方案，先对本申请涉及的背景技术进行说明。

发明人在对传统的标准化处理方法研究中发现，传统的标准化处理从文本数据中提取其所包含的大量的表达信息，以根据提取的表达信息进行标准化处理。然而，对于短文本信息而言，其蕴含很少量的表达信息，传统的标准化处理受限于短文本信息信息量少，导致标准化效果较差。

基于此，本申请实施例提供了一种实现文本信息标准化的方法，针对待识别文本信息，可以从该待识别文本信息中提取各种文本特征，包括关键词特征、字特征、字间位置特征、词特征以及词位置特征中的一项或多项。然后，根据提取的各种文本特征，计算获得每个文本特征对应的关联关系特征，该关联关系特征表示一个文本特征与其他各个文本之间的关联关系，从而增加待识别文本对应的特征数量。再将各个文本特征以及对应的关联关系特征作为待识别文本信息的特征表示，将该特征表示作为输入数据输入预先训练的深度学习模型，获得该识别文本的文本标准表示。即，通过获取待识别文本的大量特征，利用大量特征进行标准化处理，提高标准化效果。

可以理解的是，由于短文本信息本身所携带的信息量较少，通过本申请实施例提供的方法可以从短文本信息中提取大量的信息(各个文本特征和对应的关联关系特征)，以根据提取的大量信息进行标准化处理，提高短文本信息标准化效果。

需要说明的是，本申请实施例所提供的文本信息标准化方法可以应用于各种需要进行标准化处理的领域。尤其可以应用于医疗文本处理领域的值域项标准化处理，由于值域项规模巨大，无法通过手动校对，而且值域项信息量少，传统的处理方法无法对值域项进行高质量的标准化处理。通过本申请实施例提供的方法，可以提取值域项大量的文本特征以及对应的关联关系特征，以根据大量的特征进行高质量的标准化处理。其中，值域项可以指HIS(Hospital Information System，医院信息系统)中各个值域内需要填写的具体信息，值域可以理解为业务数据的类别，例如科室值域、疾病值域等，则值域项例如耳鼻喉科、阿尔兹海默症等。

由于本申请实施例是利用预先训练的深度学习模型来对输入的待识别文本的特征表示进行识别输出对应的文本标准表示，为便于理解该预先训练的深度学习模型的工作原理，下面将先对深度学习模型的训练过程进行说明。

参见图1，该图为本申请实施例提供的一种深度学习模型的训练过程流程图，如图1所示，该训练过程可以包括：

S101：获取同义文本信息。

本实施例，为训练获得深度学习模型，首先获取用于训练初始模型的数据，即同义文本信息。其中，同义文本信息是指具有相同含义的文本信息，例如，在医疗领域，对于阿尔兹海默症的描述可能会出现不同的表述方式，可以为“老年痴呆症”、“痴呆症”、“阿尔兹海默症”等，其中“老年痴呆症”、“痴呆症”和“阿尔兹海默症”即为一组同义文本信息。

在实际应用时，为提高训练的准确性，针对同一描述的不同表述，可以获取大量的同义文本信息，以形成一组同义文本信息；为使得训练后的深度学习模型有较大的适用性，可以获取大量的不同组同义文本信息，以使得训练的深度学习模型可以对不同种类的文本信息进行标准化处理。

S102：针对每组同义文本信息中的任一目标文本信息，提取所述目标文本信息的文本特征。

当获取多组同义文本信息后，针对每组同义文本信息中的任一文本信息，将其作为目标文本信息，提取该目标文本信息的文本特征。也就是，提取同一组的每个文本信息的文本特征。

具体地，在提取目标文本信息的文本特征时，可以提取以下任意一种或多种组合：

1)提取目标文本信息的第二关键词，并将第二关键词转换为第二关键词特征值，将第二关键词特征值确定为目标文本信息的关键词特征。

对于目标文本信息，从目标文本信息中提取第二关键词，并将第二关键词转换为第二关键词特征值。当从目标文本信息中提取每个第二关键词后，将目标文本信息对应的所有第二关键词特征值均确定为目标文本信息的关键词特征。也就是，每个目标文本信息可以包括多个第二关键词，进而对应多个第二关键词特征。例如，目标文本信息为“老年痴呆症”，则第二关键词可以分别为“老年”和“痴呆症”，则将每个第二关键词转换为第二关键词特征值。

需要说明的是，从目标文本信息中提取关键词以及将关键词转换为关键词特征的具体实现可以利用任意自然语言处理模型将关键词转换为关键词特征，利用自然语言处理模型将关键词转换为关键词特征的技术比较成熟，本实施例在此不再赘述。

2)将目标文本信息的每个字转换为第二字特征值，将目标文本信息的每个字的第二字特征值确定为目标文本的字特征。

对于目标文本信息中的每个字将其转换为第二字特征值，将各个字对应的第二字特征值确定为该目标文本的字特征。其中，将字转换为字特征值的实现方式可以采用传统的转换方法，本实施例在此不再赘述。

3)提取与第二目标字相邻且在第二目标字预设范围内的单字或多字组成第二字组，将第二字组转换为第二字组特征值，将第二字组特征值确定为第二目标字的位置特征，将各个第二目标字的位置特征确定为目标文本信息的字间位置特征。

针对目标文本信息中的每个字，将其作为第二目标字，提取与第二目标字相邻且在第二目标字预设范围内的单字或多字组成的第二字组，将第二字组转换为第二字组特征值，将该第二字组特征值确定为该第二目标字的位置特征。当获取到目标文本信息中各个第二目标字对应的位置特征后，将各个第二目标字对应的位置特征确定为目标文本信息的字间位置特征。其中，预设范围内的单字或多字为设定提取字的窗口，其可以根据实际应用情况进行设定。例如，当窗口为1时，以第二目标字所在的位置为基础，向前提取1个字，向后提取1个字，分别作为2个第二字组；当窗口为2时，以第二目标字所在的位置为基础，向前提取2个字，向后提取2个字，分别作为2个第二字组。

例如，目标文本信息为“老年痴呆症”，提取窗口为2，当“老”为第二目标字，则向前提取时为空，可以用预设表示空缺的符号如“——”标记，向后提取为“年痴”，则“——”、“年痴”分别作为第二字组，将每个第二字组转换为第二字组特征值，这两个第二字组特征值确定为“老”的位置特征；当“痴”为第二目标字时，则向前提取为“老年”，向后提取为“呆症”，则“老年”、“呆症”分别作为第二字组，将每个第二字组转换为第二字组特征值，将其确定为“痴”的位置特征。当获得了目标文本信息“老年痴呆症”中每个字的位置特征后，将各个字的位置特征确定为“老年痴呆在”的字间位置特征。

4)将目标文本信息进行分词，并将目标文本信息的每个分词转换为第三词特征值，将每个第三词特征值确定为目标文本信息的词特征。

本实施例中，对目标文本信息进行分词处理，获得每个分词，并将每个分词转换为第三词特征值，将每个第三词特征值确定为目标文本信息的词特征。其中，对目标文本信息进行分词处理的具体实现方式可以采用传统的分词方法实现，本实施例在此不再赘述。

5)将目标文本信息进行分词，提取与第三目标分词相邻且在第三目标分词预设范围内的第四目标分词，将第四目标分词转换为第四词特征值，将第四词特征值确定为第三目标分词的位置特征，将各个第三目标分词的位置特征确定为目标文本信息的词间位置特征。

本实施例中，先对目标文本信息进行分词处理，获取每个分词，将每个分词作为第三目标分词，提取与第三目标分词相邻且在第三目标分词预设范围内的第四目标分词。然后，将第四目标分词转换为第四词特征值，将第四特征值确定为第三目标分词的位置特征，并将各个第三目标分词的位置特征确定为目标文本信息的词间位置特征。其中，第三目标分词预设范围是指以第三目标分词为基础提取相邻分词的窗口，该窗口大小可以根据实际应用情况进行设定。

例如，当窗口为1时，以第三目标分词所在的位置为基础，向前提取1个第四目标分词，向后提取1个第四目标分词，将提取的两个第四目标分词分别转换为第四词特征值，并将其确定为第三目标分词的位置特征；当窗口为2时，以第三目标分词所在的位置为基础，向前提取2个第四目标分词，向后提取2个第四目标分词，将提取的4个第四目标分词分别转换为第四词特征值，并将其确定为第三目标分词的位置特征。

例如，目标文本信息为“老年痴呆症”，分词结果为“老年”、“痴呆”和“症”，提取窗口为1，当“老年”为第三目标分词，则向前提取时为空“——”，向后提取为“痴呆”，则“——”和“痴呆”作为第四目标分词，将这两个第四目标分词分别转换为第四词特征值，将这两个第四词特征值确定为第三目标分词“老年”的位置特征；当“痴呆”为第三目标分词时，则向前提取为第四目标分词“老年”，向后提取第四目标分词“症”，将该“老年”和“症”分别转换为第四词特征值，将其确定为“痴呆”的位置特征。同理，当第三目标分词为“症”时，向前提取的第四目标分词为“痴呆”，向后提取的第四目标分词为空“——”，则将“痴呆”和“——”分别转换为第四词特征值，将其作为“症”的位置特征。当获得了目标文本信息“老年痴呆症”中每个分词的位置特征后，将各个分词的位置特征确定为“老年痴呆在”的词间位置特征。

通过上述描述可知，可以获取目标文本信息的多种文本特征，即关键词特征、字特征、字间位置特征、词特征以及词间位置特征。其中，每种特征可以包括多个特征。例如，目标文本信息可以对应多个关键词，则关键词特征包括每个关键词对应的关键词特征，同理，字特征可以包括每个字对应的词特征，字间位置特征可以包括每个字对应的字间位置特征等。

S103：计算目标文本信息的各个文本特征对应的关联关系特征。

当获得目标文本信息的各个文本特征后，计算每个文本特征与其他各个文本特征之间的关联关系，以获得每个文本特征对应的关联关系特征。

具体地，本实施例提供了计算每个文本特征对应的关联关系特征的实现方式，包括：

1)计算第二目标文本特征与目标文本信息中其他各个文本特征的相关度之和。

2)根据第二目标文本特征与目标文本信息的其他各个文本特征的相关度之和以及第二目标文本特征对应的相关系数，计算得到第二目标文本特征对应的关联关系特征。

针对目标文本信息对应的每个文本特征，将其作为第二目标文本特征，首先计算该第二目标文本特征与其他各个文本特征的相关度之和。再根据该第二目标文本特征与其他各个文本特征的相关度之和以及第二目标文本特征对应的相关系数，获得第二目标文本特征对应的关联关系特征。

在具体实现时，可以通过下述公式计算每个目标文本特征与其他各个文本特征之间的关联关系：

其中，f_k表示第k个目标文本特征对应的关联关系特征，u_k表示第k个目标文本特征对应的相关系数，w_ki表示第k个目标文本特征与第i个文本特征相关性权重，

表示第k个目标文本特征与其他各个文本特征的相关度和，其中，i不等于k。通过上述公式，可以计算获得每个文本特征对应的关联关系特征。

可以理解的是，通过计算每个文本特征对应的关联关系特征，可以增加一倍的特征数量，从而使得训练结果更加准确。例如，目标文本信息为“老年痴呆症”，其包括2个关键词“老年”和“痴呆症”，对应2个关键词特征，其共包括5个字，则对应5个字特征；每个字对应2个字间位置特征，则共存在10个字间位置特征；其包括3个分词“老年”、“痴呆”和“症”，对应3个词特征；每个词对应2个词间位置特征，则共存在6个词间位置特征。即，目标文本信息“老年痴呆症”共对应26个文本特征，每个文本特征对应一个关联关系特征，则共对应26个关联关系特征。

S104：将目标文本信息的各个文本特征以及对应的关联关系特征组成目标文本信息的特征表示。

当获得目标文本信息的各个文本特征以及各自对应的关联关系特征后，将所有的特征组成该目标文本信息的特征表示。例如，目标文本信息为“老年痴呆症”共对应26个文本特征和26个关联关系特征，则52个特征组成目标文本信息的特征表示。

对于一组同义文本信息，通过上述步骤可以获得该组中每个文本信息的特征表示。

S105：将每组同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据，训练得到深度学习模型。

对于一组同义文本信息，将该组每个文本信息的特征表示以及对应的文本标准表示作为一条训练数据，训练得到深度学习模型。其中，文本标准表示标签可以为索引号，该索引号对应文本标准表示；或者，文本标准表示标签为文本标准表示。

例如，一组同义文本信息为“老年痴呆症”、“痴呆症”、“阿尔茨海默症”，其对应的文本标准标签为文本标准表示“阿尔茨海默症”。在获得每个文本信息对应的特征表示后，将“老年痴呆症”的特征表示以及对应的文本标准表示标签“阿尔茨海默症”作为一条训练数据，将“痴呆症”的特征表示以及对应的文本标准表示标签为文本标准表示“阿尔茨海默症”作为一条训练数据，将“阿尔茨海默症”的特征表示以及对应的文本标准表示标签为文本标准表示“阿尔茨海默症”作为一条训练数据，利用上述训练数据训练得到深度学习模型。

在具体实现时，为使得深度学习模型可以对输入的数据进行全面学习，本实施例提供了一种深度学习模型，该深度学习模型可以包括依次相连的输入层、卷积网络层、全连接层以及输出层，其中，卷积网络层包括n个一维卷积核，n为正整数。具体地，卷积网络网络层可以包括128个一维卷积核，每个卷积核的长度为3。可以理解的是，深度学习模型具体组成结构可以根据实际应用情况进行调整，本实施例在此不做限定。

通过上述描述可知，在训练深度学习模型，在获取同义文本信息后，针对一组同义文本信息中的任一目标文本信息，提取目标文本信息的各个文本特征。同时，计算每个文本特征对应的关联关系特征，以将各个文本特征以及对应的关联关系特征组成该目标文本信息的特征表示，将同一组的同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据训练生成深度学习模型，以使得深度学习模型可以根据输入的特征表示可以识别对应的文本标准表示。

基于上述训练过程，下面将结合附图对本申请实施例提供的实现文本信息标准化的处理过程进行说明。

参见图2，该图为本申请实施例提供的一种实现文本信息标准化的方法流程图，如图2所示，该方法可以包括：

S201：获取待识别文本信息。

S202：提取待识别文本信息的文本特征。

本实施例中，首先获取待识别文本信息，并提取待识别文本信息中的各个文本特征，该文本特征可以包括关键词特征、字特征、字间位置特征、词特征以及词间位置特征中的一项或多项。本申请实施例中的待识别文本信息可以指待识别的短文本信息，短文本信息可以理解为字符数量少于预设阈值的文本信息，该预设阈值可以根据实际应用场景设置。

可以理解的是，对于每项文本特征其可以包括多个特征，即关键词特征可以包括待识别文本信息所包括的多个关键词各自对应的关键词特征、字特征可以包括待识别文本信息中各个字分别对应的字特征，字间位置特征可以包括各个字分别对应的字间位置特征，词特征可以包括待识别文本信息中各个分词分别对应的词特征，词间位置特征可以包括各个分词分别对应的词间位置特征。例如，例如，待识别文本信息为“老年痴呆症”，包括的2个关键词、5个字、3个分词，则通过上述提取，可以获取2个关键词特征、5个字特征、10个字间位置特征、3个词特征、6个词间位置特征，共26个文本特征。

其中，关于提取待识别文本信息的文本特征的具体实现将在后续实施例进行说明。

S203：计算待识别文本信息的各个文本特征对应的关联关系特征。

在获得待识别文本信息的各个文本特征后，计算每个文本特征对应的关联关系特征。即，每个文本特征均对应一个关联关系特征，该关联关系特征表示该文本特征与其他各个文本特征之间的关联关系。例如，待识别文本信息“老年痴呆症”共包括26个文本特征，每个文本特征对应一个关联关系特征，则共计算获得26个关联关系特征。

其中，关于计算文本特征对应的关联关系特征的具体实现将在后续实施例进行说明。

S204：将待识别文本信息的各个文本特征以及对应的关联关系特征组成待识别文本信息的特征表示。

当获得待识别文本信息的各个文本特征以及各个文本特征各自对应的关联关系特征后，将所有的文本特征以及关联关系特征组成该待识别文本信息的特征表示。例如，待识别文本信息为“老年痴呆症”，包括26个文本特征、26个关联关系特征，组成“老年痴呆症”的特征表示。

S205：将待识别文本信息的特征表示输入预先训练的深度学习模型，输出待识别文本的文本标准表示。

在获取到待识别文本信息的特征表示后，将该特征表示作为输入数据输入至预先训练的深度学习模型，从而获得该待识别文本的文本标准表示。其中，深度学习模型是将同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据训练得到的。其中，文本标准表示标签可以为索引号，该索引号对应文本标准表示；或者，文本标准表示标签为文本标准表示。

其中，深度学习模型可以包括依次相连的输入层、卷积网络层、全连接层以及输出层，其中，卷积网络层包括n个一维卷积核，n为正整数。关于深度学习模型的训练过程可以参见上述方法实施例，本实施例在此不再赘述。

通过上述实施例可知，对于短文本信息(待识别文本信息)，提取该待识别文本信息的各个文本特征，为进一步获取待识别文本更多的特征信息，计算每个文本特征对应的关联关系特征，从而获得可以表征待识别文本信息的多项特征，以利用多项特征组成待识别文本的特征表示，进而利用预先训练的深度学习模型对待识别文本的特征表示进行识别，从而获得待识别文本的文本标准表示，提高文本标准化的准确性。

具体地，下面对提取待识别文本信息的文本特征的实现方式进行说明，在提取待识别文本信息的文本特征时，可以提取以下任意一种或多种组合：

1)提取待识别文本信息的第一关键词，将第一关键词转换为第一关键词特征值，将第一关键词特征值确定为待识别文本信息的关键词特征。

针对待识别文本信息，提取该待识别文本信息所包括的各个第一关键词，并将每个第一关键词转换为第一关键词特征值。然后，将待识别文本信息对应的所有的第一关键词特征值确定为待识别信息的关键词特征。

2)将待识别文本信息的每个字转换为第一字特征值，将待识别文本信息的每个字的第一字特征值确定为待识别文本信息的字特征。

对于待识别文本信息中的每个字将其转换为第一字特征值，将各个字对应的第一字特征值确定为该待识别文本信息的字特征。

3)提取与第一目标字相邻且在第一目标字预设范围内的单字或多字组成第一字组，将第一字组转换为第一字组特征值，将第一字组特征值确定为第一目标字的位置特征，将各个第一目标字的位置特征确定为待识别文本信息的字间位置特征。

对于待识别文本信息中的每个字，将其作为第一目标字，提取与第一目标字相邻且在第一目标字预设范围的单字或多字组成的第一字组，将第一字组转换为第一字组特征值，将该第一字组特征值确定为第一目标字的位置特征。当获取到待识别文本信息中各个第一目标字对应的位置特征后，将各个第一目标字对应的位置特征确定为待识别文本信息的字间位置特征。其中，预设范围内的单字或多字为设定提取字的窗口，其可以根据实际应用情况进行设定。

例如，当窗口为1时，以第一目标字所在的位置为基础，向前取1个字，向后取1个字，分别组成第一字组；当窗口为2时，以第一目标字所在的位置为基础，向前取2个字，向后取2个字，分别组成第一字组。

4)将待识别文本信息进行分词，并将待识别文本信息的每个分词转换为第一词特征值，将每个第一词特征值确定为待识别文本信息的词特征。

即，先对待识别文本信息进行分词处理，获得每个分词，并将每个分词转换为第一词特征值，每个第一词特征值为待识别文本信息的词特征，从而获得待识别文本信息所包括的多个词特征。

5)将待识别文本信息进行分词，提取与第一目标分词相邻且在目标分词预设范围内的第二目标分词，将第二目标分词转换为第二词特征值，将该第二词特征值确定为第一目标分词的位置特征，将各个第一目标分词的位置特征确定为待识别文本信息的词间位置特征。

对于待识别文本信息包括的每个分词，将其作为第一目标分词，提取与第一目标分词相邻且在第一目标分词预设范围内的第二目标分词。然后，将第二目标分词转换为第二词特征值，将该第二词特征值确定为第一目标分词的位置特征，并将各个第一目标分词的位置特征确定为待识别文本信息的词间位置特征。其中，第一目标分词预设范围是指以第一目标分词为基础提取相邻分词的窗口，该窗口大小可以根据实际应用情况进行设定。

例如，当窗口为1时，以第一目标分词所在的位置为基础，向前取1个第二目标分词，向后取1个第二目标分词，将提取的两个第二目标分词分别转换为第二词特征值，并将其确定为第一目标分词的位置特征；当窗口为2时，以第一目标分词所在的位置为基础，向前取2个第二目标分词，向后取2个第二目标分词，将提取的4个第二目标分词分别转换为第二词特征值，并将其确定为第一目标分词的位置特征。

通过上述可以提取待识别文本信息中的各个文本特征，以计算各个文本特征各自对应的关联关系特征。其中，关于计算每个文本特征对应的关联关系特征可以包括：

1)计算第一目标文本特征与待识别文本信息中的其他各个文本特征的相关度之和。

2)根据第一目标文本特征与待识别文本信息中的其他各个文本特征的相关度之和以及第一目标文本特征对应的相关系数，计算的到第一目标文本特征对应的关联关系特征。

针对待识别文本信息对应的每个文本特征，将其作为第一目标文本特征，首先计算该第一目标文本特征与其他各个文本特征的相关度之和。再根据该第一目标文本特征与其他各个文本特征的相关度之和以及第一目标文本特征对应的相关系数，获得第一目标文本特征对应的关联关系特征。其中，在具体实现时，可以参见公式(1)，本实施例在此不再赘述。

可以理解的是，在利用预先训练的深度学习模型实现文本信息标准化时，提取待识别文本信息的文本特征和关联关系特征应与在训练时提取的文本特征、关联关系特征一一对应。例如，训练时提取的是关键词特征、字特征和字间位置特征，则在对待识别文本信息进行标准化时，从待识别文本信息中提关键词特征、字特征和字间位置特征。

基于上述方法实施例，本申请实施例还提供了一种实现文本信息标准化装置，下面将结合附图对该装置进行说明。

参见图3，该图为本申请实施例提供的一种实现文本信息标准化装置结构图，如图3所示，该装置可以包括：

第一获取单元301，用于获取待识别文本信息；

第一提取单元302，用于提取所述待识别文本信息的文本特征，所述文本特征包括关键词特征、字特征、字间位置特征、词特征以及词间位置特征中的一项或多项；

第一计算单元303，用于计算所述待识别文本信息的各个文本特征对应的关联关系特征；

组成单元304，用于将所述待识别文本信息的各个文本特征以及对应的关联关系特征组成所述待识别文本信息的特征表示；

第二获取单元305，用于将所述待识别文本信息的特征表示输入预先训练的深度学习模型，输出所述待识别文本的文本标准表示，所述深度学习模型是将同义文本信息的特征表示以及对应的文本标准表示标签作为训练数据训练得到的。

在一种可能的实现方式中，所述第一提取单元所提取的所述待识别文本信息的文本特征包括下述中的任意一种或者多种的结合：所述第一提取单元，包括：

第一提取子单元，用于提取所述待识别文本信息的第一关键词，并将所述第一关键词转换为第一关键词特征值，将所述第一关键词特征值确定为所述待识别文本信息的关键词特征；

第二提取子单元，用于将所述待识别文本信息的每个字转换为第一字特征值，将所述待识别文本信息的每个字的第一字特征值确定为所述待识别文本信息的字特征；

第三提取子单元，用于提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组，将所述第一字组转换为第一字组特征值，将所述第一字组特征值确定为所述第一目标字的位置特征，将各个所述第一目标字的位置特征确定为所述待识别文本信息的字间位置特征，所述第一目标字分别取所述待识别文本信息中的每个字；

第四提取子单元，用于将所述待识别文本信息进行分词，并将所述待识别文本信息的每个分词转换为第一词特征值，将每个所述第一词特征值确定为所述待识别文本信息的词特征；

第五提取子单元，用于将所述待识别文本信息进行分词，提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词，将所述第二目标分词转换为第二词特征值，将所述第二词特征值确定为所述第一目标分词的位置特征，将各个所述第一目标分词的位置特征确定为所述待识别文本信息的词间位置特征，所述第一目标分词分别取所述待识别文本信息中的每个分词。

在一种可能的实现方式中，所述第一计算单元，包括：

第一计算子单元，用于计算第一目标文本特征与所述待识别文本信息中的其他各个文本特征的相关度之和；

第二计算子单元，用于根据所述第一目标文本特征与所述待识别文本信息中的其他各个文本特征的相关度之和以及所述第一目标文本特征对应的相关系数，计算得到所述第一目标文本特征对应的关联关系特征，所述第一目标文本特征分别取所述待识别文本信息中的每个文本特征。

获取同义文本信息；

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例，本实施例在此不再赘述。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的实现文本信息标准化的方法。

本申请实施例提供了一种实现文本信息标准的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的实现文本信息标准化的方法。

通过本申请实施例提供的方法，对于短文本信息(待识别文本信息)，提取该待识别文本信息的各个文本特征，为进一步获取待识别文本更多的特征信息，计算每个文本特征对应的关联关系特征，从而获得可以表征待识别文本信息的多项特征，以利用多项特征组成待识别文本的特征表示，进而利用预先训练的深度学习模型对待识别文本的特征表示进行识别，从而获得待识别文本的文本标准表示，提高文本标准化的准确性。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种实现文本信息标准化的方法，其特征在于，所述方法包括：

获取待识别文本信息；

2.根据权利要求1所述的方法，其特征在于，所述提取所述待识别文本信息的文本特征包括下述中的任意一种或者多种的结合：

3.根据权利要求1或2所述的方法，其特征在于，所述计算所述待识别文本信息的各个文本特征对应的关联关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述深度学习模型的训练过程包括：

获取同义文本信息；

5.根据权利要求1或4所述的方法，其特征在于，所述深度学习模型包括依次相连的输入层、卷积网络层、全连接层以及输出层，所述卷积网络层包括n个一维卷积核，n为正整数。

6.根据权利要求4所述的方法，其特征在于，所述提取所述目标文本信息的文本特征包括下述中的任意一种或者多种的结合：

7.根据权利要求4或6所述的方法，其特征在于，所述计算所述目标文本信息的各个文本特征对应的关联关系，包括：

8.一种实现文本信息标准化的装置，其特征在于，所述装置包括：

第一获取单元，用于获取待识别文本信息；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的实现文本信息标准化的方法。

10.一种实现文本信息标准化的设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的实现文本信息标准化的方法。