CN106599530B

CN106599530B - 一种检测数据的处理方法和装置

Info

Publication number: CN106599530B
Application number: CN201610932124.2A
Authority: CN
Inventors: 黄亦谦
Original assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Current assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2019-08-02
Anticipated expiration: 2036-10-31
Also published as: CN106599530A

Abstract

本公开涉及一种检测数据的处理方法和装置，该方法包括：采集预设时间段内多个检测数据样本，对该多个检测数据样本进行预处理得到多个文本字符样本，并建立每个文本字符样本的字符索引图，根据建立的字符索引图获取多个文本字符样本的匹配文本集，其中，该匹配文本集包括在该多个文本字符样本中每两个文本字符样本中都存在的文本字符，然后根据该匹配文本集建立文本特征矩阵，并通过该文本特征矩阵对自组织神经网络进行训练，得到训练模型，最后获取当前检测数据，并通过该训练模型得到当前检测结果，从而提高检测结果判断的准确性。

Description

一种检测数据的处理方法和装置

技术领域

本公开涉及数据处理领域，具体地，涉及一种检测数据的处理方法和装置。

背景技术

随着信息时代数据量的爆炸式增长，检测数据也展现出容量大、增速快、形式多样和潜在价值高等特点，并且检测数据的载体已经由传统纸质转变为电子文本，因此对这些检测数据进行数据挖掘显得尤为重要，通过数据挖掘技术可以对检测数据进行分析。

在医疗数据处理过程中，医务人员通常以患者对病状的描述、观察症状和检查结果对患者的病情进行判断，因而判断的准确性主要依赖于医务人员的个人经验和专业素质，由于医务人员的经验有限，因此对患者的病情的判断可能会存在偏差，导致判断结果不准确。

发明内容

本公开的目的是提供一种检测数据的处理方法和装置，能够提高根据检测数据得到的检测结果的准确性。

为了实现上述目的，本公开提供一种检测数据的处理方法，应用于数据处理设备，所述方法包括采集预设时间段内多个检测数据样本，并对所述多个检测数据样本进行预处理得到多个文本字符样本，其中，所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符；建立每个文本字符样本的字符索引图，其中，所述字符索引图包括所述文本字符和字符路径；其中，所述字符路径指示所述文本字符对应的检测结果的文本字符；根据建立的字符索引图获取所述多个文本字符样本的匹配文本集，其中，所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符；根据所述匹配文本集建立文本特征矩阵，并通过所述文本特征矩阵对自组织神经网络进行训练，得到训练模型；获取当前检测数据，并通过所述训练模型得到当前检测结果。

可选地，所述对所述多个检测数据样本进行预处理得到多个文本字符样本包括获取所述检测数据样本的文本特征；通过将所述文本特征进行编码处理得到文本字符样本。

可选地，所述根据建立的字符索引图获取所述多个文本字符样本的匹配文本集包括根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符，得到多个文本字符集；根据所述多个文本字符集组成所述匹配文本集，其中，所述匹配文本集中的文本字符各不相同。

可选地，所述根据所述匹配文本集构建文本特征矩阵包括获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数；根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量；根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵。

可选地，所述通过所述文本特征矩阵对自组织神经网络模型进行训练，得到训练模型包括将所述文本特征矩阵进行奇异值分解，得到所述检测结果相同的文本字符样本对应的特征向量；通过所述特征向量对自组织神经网络模型进行训练，得到训练模型。

可选地，所述通过所述特征向量对自组织神经网络模型进行训练，得到训练模型包括获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数；将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处理；计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每一个权向量的内积，得到获胜的第一神经元的权向量；根据所述学习率函数调整所述获胜的第一神经元的权向量得到调整权向量；在所述调整权向量满足预设条件时，根据所述调整权向量得到训练模型。

可选地，所述通过所述特征向量对自组织神经网络模型进行训练，得到训练模型还包括在所述调整权向量不满足所述预设条件时，继续根据所述获胜的神经元的邻域函数，调整所述获胜的第一神经元邻域的权向量得到邻域权向量，并对所述调整权向量、邻域权向量和除所述调整权向量、邻域权向量的其他权向量全部进行归一化处理，获得归一化处理后的第二权向量，计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每个第二权向量的内积，确定获胜的第二神经元，并调整所述获胜的第二神经元的权向量得到新的调整权向量，直至所述新的调整权向量满足预设条件，则获得训练模型。

根据本公开实施例的第二方面，提供一种检测数据的处理装置，应用于数据处理设备，所述装置包括处理模块，用于采集预设时间段内多个检测数据样本，并对所述多个检测数据样本进行预处理得到多个文本字符样本，其中，所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符；建立模块，用于建立每个文本字符样本的字符索引图，其中，所述字符索引图包括所述文本字符和字符路径；其中，所述字符路径指示所述文本字符对应的检测结果的文本字符；获取模块，用于根据建立的字符索引图获取所述多个文本字符样本的匹配文本集，其中，所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符；训练模块，用于根据所述匹配文本集建立文本特征矩阵，并通过所述文本特征矩阵对自组织神经网络进行训练，得到训练模型；检测模块，用于获取当前检测数据，并通过所述训练模型得到当前检测结果。

可选地，所述处理模块包括第一获取子模块，用于获取所述检测数据样本的文本特征；编码子模块，用于通过将所述文本特征进行编码处理得到文本字符样本。

可选地，所述获取模块包括第二获取子模块，用于根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符，得到多个文本字符集；组成子模块，用于根据所述多个文本字符集组成所述匹配文本集，其中，所述匹配文本集中的文本字符各不相同。

可选地，所述训练模块包括第三获取子模块，用于获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数；第一构建子模块，用于根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量；第二构建子模块，用于根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵。

可选地，所述训练模块还包括分解子模块，用于将所述文本特征矩阵进行奇异值分解，得到所述检测结果相同的文本字符样本对应的特征向量；训练子模块，用于通过所述特征向量对自组织神经网络模型进行训练，得到训练模型。

可选地，所述训练子模块用于获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数；将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处理；计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每一个权向量的内积，得到获胜的第一神经元的权向量；根据所述学习率函数调整所述获胜的第一神经元的权向量得到调整权向量；在所述调整权向量满足预设条件时，根据所述调整权向量得到训练模型。

可选地，所述训练子模块还用于在所述调整权向量不满足所述预设条件时，继续根据所述获胜的神经元的邻域函数，调整所述获胜的神经元邻域的权向量得到邻域权向量，并对所述调整权向量、邻域权向量和除所述调整权向量、邻域权向量的其他权向量全部进行归一化处理，获得归一化处理后的第二权向量，计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每个第二权向量的内积，确定获胜的第二神经元，并调整所述获胜的第二神经元的权向量得到新的调整权向量，直至所述新的调整权向量满足预设条件，则获得训练模型。

通过上述技术方案，本公开的实施例提供的技术方案可以包括以下有益效果：数据处理设备采集预设时间段内多个检测数据样本，并对所述多个检测数据样本进行预处理得到多个文本字符样本，其中，所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符；建立每个文本字符样本的字符索引图，其中，所述字符索引图包括所述文本字符和字符路径；其中，所述字符路径指示所述文本字符对应的检测结果的文本字符；根据建立的字符索引图获取所述多个文本字符样本的匹配文本集，其中，所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符；根据所述匹配文本集建立文本特征矩阵，并通过所述文本特征矩阵对自组织神经网络进行训练，得到训练模型；获取当前检测数据，并通过所述训练模型得到当前检测结果，这样，在检测数据的处理过程中避免对检测人员的个人经验和专业素质的依赖，而是通过大量检测数据样本得到每个检测数据样本的字符索引图，并通过该字符索引图获取到自组织神经网络的训练模型，从而通过该训练模型获得当前检测数据对应的当前检测结果，从而提高检测结果判断的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种检测数据的处理方法的流程图；

图2是根据一示例性实施例示出的另一种检测数据的处理方法的流程图；

图3是根据一示例性实施例示出的第一种检测数据的处理装置的框图；

图4是根据一示例性实施例示出的第二种检测数据的处理装置的框图；

图5是根据一示例性实施例示出的第三种检测数据的处理装置的框图；

图6是根据一示例性实施例示出的第四种检测数据的处理装置的框图；

图7是根据一示例性实施例示出的第五种检测数据的处理装置的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本公开以下实施例可以应用于医疗领域，用于对医疗领域的检测数据进行判断得到检测结果，能够提高检测结果的准确性，在本公开中，检测数据样本可以是在医疗领域中的检测数据样本(如病患的检测化验报告等)，相应地，检测数据可以是病患的病理特征(如发病年龄、发病时间和发病症状等)和该病理特征对应的检测结果。

图1是根据一示例性实施例示出的一种检测数据的处理方法的流程图，如图1所示，应用于数据处理设备，该方法可以包括以下步骤：

S101，采集预设时间段内多个检测数据样本，并对该多个检测数据样本进行预处理得到多个文本字符样本，其中，该文本字符样本包括文本字符和该文本字符对应的检测结果的文本字符。

其中，该检测数据样本可以包括病患的检测化验报告，该预设时间段可以是设定的特定时间段，如该预设时间段为2010年1月1日早上9点到2011年1月1日下午6点，则数据处理设备获取在2010年1月1日早上9点到2011年1月1日下午6点内的检测数据样本，另外，该预设时间段还可以用时间长度来表示，例如该预设时间段为1000小时，则数据处理设备获取当前时刻往前1000小时内的检测数据样本。需要说明的是，为了能够确保检测数据处理的准确性，因此，该预设时间段的范围可以设置的尽可能大，从而确保采集到足够多的检测数据样本。

S102，建立每个文本字符样本的字符索引图，其中，该字符索引图包括文本字符和字符路径；该字符路径指示该文本字符对应的检测结果的文本字符。

S103，根据建立的字符索引图获取该多个文本字符样本的匹配文本集，其中，该匹配文本集包括在该多个文本字符样本中每两个文本字符样本中都存在的文本字符。

S104，根据匹配文本集建立文本特征矩阵，并通过该文本特征矩阵对自组织神经网络进行训练，得到训练模型。

在本公开中，该文本特征矩阵的行向量或列向量表示检测结果相同的文本字符样本对应的文本向量，其中，该文本向量可以根据该匹配文本集建立。

S105，获取当前检测数据，并通过训练模型得到当前检测结果。

采用上述方法，在检测数据的处理过程中避免对检测人员的个人经验和专业素质的依赖，而是通过大量检测数据样本得到每个检测数据样本的字符索引图，并通过该字符索引图获取到自组织神经网络的训练模型，从而通过该训练模型获得当前检测数据对应的当前检测结果，从而提高检测结果判断的准确性。

图2是根据一示例性实施例示出的一种检测数据的处理方法，如图2所示，应用于数据处理设备，该方法可以包括以下步骤：

S201，数据处理设备采集预设时间段内多个检测数据样本。

其中，该预设时间段可以是设定的特定时间段，如该预设时间段为2010年1月1日早上9点到2011年1月1日下午6点，则数据处理设备获取在2010年1月1日早上9点到2011年1月1日下午6点内的检测数据样本，另外，该预设时间段还可以用时间长度来表示，例如该预设时间段为1000小时，则数据处理设备获取当前时刻往前1000小时内的检测数据样本。需要说明的是，为了能够确保检测数据处理的准确性，因此，该预设时间段的范围可以设置的尽可能大，从而确保采集到足够多的检测数据样本。

在本公开中，该检测数据样本可以包括在医疗领域中的病患的检测化验报告，当然，还可以是其他需要数据处理的检测数据样本，本公开对此不作限定。

S202，获取该多个检测数据样本对应的文本特征。

在本公开中，数据处理设备可以从该多个检测数据样本中提取到文本特征，该文本特征可以包括在医疗领域中的病患的病理特征(如发病年龄、发病时间和发病症状等)和该病患的病理特征对应的检测结果的文本特征。

S203，对该文本特征进行预处理。

其中，由于获得的文本特征数量较多，为了缩短后续对该文本特征进行编码处理的时间，该数据处理设备可以对文本特征进行预处理，示例地，可以通过数据规约处理对该文本特征进行预处理，具体地，在保持该文本特征原有数据完整性的前提下，通过将该文本特征原有数据中重复、无关或者偏差的数据过滤掉，从而获取到精简的文本特征。例如，在获取到文本特征中包括发热、头昏、咽痛、流清鼻涕和皮下结节时，由于发热、头昏、咽痛、流清鼻涕都是检测结果为感冒的文本特征，而皮下结节与感冒无关，由此可见皮下结节是无关特征，因而将该皮下结节从该文本特征中过滤掉。

当然，由于数据规约处理对文本特征原有数据的过滤可能存在遗漏，因此，在本公开另一实施例中，为了进一步过滤掉重复、无关或者偏差的数据，还可以通过预设的过滤算法对该数据进行再次过滤，从而确保该文本特征数据的有效性，提高后续对数据处理的准确性。

S204，通过将该预处理后的文本特征进行编码处理得到文本字符样本。

由于检测人员采用不同的名称来表示检测数据样本中的同一文本特征，因而数据处理设备对该文本特征进行编码处理得到文本字符样本，从而简化了后续建立每个文本字符样本的字符索引图的步骤，例如，数据处理设备可以将发热的文本字符用a1表示，头昏的文本字符用a2表示，咽痛的文本字符用a3表示，流清鼻涕的文本字符用a4表示，僵硬的文本字符用a5表示，肿胀的文本字符用a6表示，体温升高的文本字符用a7表示。需要说明的是，上述通过编码处理获得的文本字符样本只是举例说明，本公开不作具体限定，还可以根据相关专业文献将该文本特征对应的专业编码作为文本字符样本。

S205，建立每个文本字符样本的字符索引图。

在本公开中，该字符索引图根据该文本字符的存储位置和该文本字符对应的检测结果的文本字符的存储位置建立的，其中该字符索引图包括该文本字符和字符路径，且该字符路径指示该文本字符对应的检测结果的文本字符。

S206，根据建立的字符索引图获取多个文本字符集。

其中，根据该字符索引图获取多个文本字符样本中每两个文本字符样本中都存在的文本字符，从而得到多个文本字符集，例如，当获取到的第一文本字符样本为a1，a2，a3，a4，a7，获取到的第二文本字符样本为a1，a2，a3，a5，a6时，则可以获取到该两个文本字符样本的文本字符集为{a1，a2，a3}。

S207，根据该多个文本字符集组成匹配文本集。

在本步骤中，可以将该多个文本字符集合并得到该匹配文本集，其中，该匹配文本集中的文本字符各不相同。示例地，继续以上述示例为例，当获取到的第一文本字符样本为a1，a2，a3，a4，a7，获取到的第二文本字符样本为a1，a2，a3，a5，a6，获取到的第三文本字符样本为a2，a3，a4，a5时，则可以获取到该第一文本字符样本和该第二文本字符样本的文本字符集为{a1，a2，a3}，该第一文本字符样本和该第三文本字符样本的文本字符集为{a2，a3，a4}，该第二文本字符样本和该第三文本字符样本的文本字符集为{a2，a3，a5}，则可以根据该三个文本字符集得到该匹配文本集为{a1，a2，a3，a4，a5}。

S208，获取该匹配文本集中每个文本字符在每个文本字符样本中出现的次数。

示例地，继续以上述示例为例，当获取到的匹配文本集为{a1，a2，a3，a4，a5}时，则通过统计可以获取到该匹配文本集{a1，a2，a3，a4，a5}中的文本字符a1，a2，a3，a4，a5在某个文本字符样本中出现的次数依次为0，5，3，8，7，需要说明的是，当出现的次数为0时，则说明该匹配文本集{a1，a2，a3，a4，a5}中的文本字符a1在该文本字符样本中没有出现，以此类推，可以获取到该匹配文本集中的文本字符在其它文本字符样本中出现的次数。

S209，根据该匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建该每个文本字符样本的文本向量。

其中，该文本向量中的每个元素分别表示该匹配文本集中每个文本字符在每个文本字符样本中出现的次数，继续以上述示例为例，当匹配文本集为{a1，a2，a3，a4，a5}时，并得到该匹配文本集{a1，a2，a3，a4，a5}中的每个文本字符a1，a2，a3，a4，a5在该文本字符样本中出现的次数依次为0，5，3，8，7，则该文本字符样本对应的文本向量为[0，5，3，8，7]。

S210，根据检测结果相同的文本字符样本的文本向量构建文本特征矩阵。

在本公开中，该文本特征矩阵的行向量或列向量表示检测结果相同的文本字符样本对应的文本向量。

S211，将该文本特征矩阵进行奇异值分解，得到该检测结果相同的文本字符样本分别对应的特征向量。

其中，通过奇异值分解将该文本特征矩阵用特征向量表示，因而可以得到该检测结果相同的文本字符样本对应的特征向量。

S212，获取自组织神经网络中获胜的神经元的邻域函数和学习率函数。

其中，该获胜的神经元的邻域函数和学习率函数是预设的函数，该获胜的神经元的邻域函数可以为以获胜的神经元为中心预设的一个与邻域半径相关的函数，该邻域半径覆盖的范围称为获胜的神经元的邻域，并且该邻域半径随着训练次数的增加而逐渐减小。需要说明的是，该获胜的神经元的邻域函数还可以预先设置为其他形式，本公开对此不作限定。

另外，该学习率函数与学习时间成反比。

S213，将该特征向量和自组织神经网络中的神经元对应的多个权向量分别进行归一化处理。

其中，该自组织神经网络中的神经元对应的多个权向量可以是预先设置的权向量。

在本步骤中，可以通过以下公式对该特征向量进行归一化处理：

其中，P_k表示第k个特征向量；表示第k个归一化后的特征向量；‖P_k‖表示第k个特征向量的模。

通过对该特征向量进行归一化处理，可以得到

需要说明的是，对多个权向量的归一化也可以通过上述公式完成，得到其中表示第j个神经元对应的归一化后的权向量，此处不再赘述了。为了简化后续获取获胜的神经元的计算复杂度，在本公开另一实施例中，可以将自组织神经网络中各个神经元对应的权向量与归一化处理后的特征向量设置为相同向量，使得其中表示第j个神经元对应的归一化后的权向量，从而完成对权向量的归一化处理。

S214，计算该归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的内积，得到获胜的第一神经元对应的权向量。

在本示例中，根据归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的欧氏距离最小值得到获胜的神经元，而计算该欧式距离的最小值，可以对应地转化为计算归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的点积的最大值，因此为了简化计算复杂度，通过计算归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的点积，得到获胜的神经元，公式如下：

其中，表示第k个归一化后的特征向量；表示第k个归一化后的特征向量的模；表示第j个神经元对应的归一化后的权向量；表示第j个神经元对应的归一化后的权向量的模；θ_jk表示为和的夹角。

在本公开中，通过上述公式可以获取到该归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的点积的最大值，该点积的最大值对应的权向量则为获胜的第一神经元的权向量。

S215，调整该获胜的第一神经元的权向量得到调整权向量。

其中，可以通过以下公式获得该调整权向量：

在上述公式中，W_ji(t)表示获胜的神经元的权向量，其中，该获胜的神经元的权向量是第i个特征向量和第j个神经元对应的权向量；表示获胜的神经元对应的第i个特征向量；η(T)表示学习率函数；U_g(t)表示获胜的神经元的邻域函数；W_ji(t+1)表示调整权向量，其中，该调整权向量是第i个特征向量和第j个神经元的权向量对应的调整权向量；t表示训练次数；T表示学习时间。

由上述公式可知，通过在S214中得到的获胜的第一神经元的权向量和该获胜的第一神经元的权向量对应的特征向量，并结合学习率函数，可以获取到获胜的第一神经元的调整权向量。

S216，判断该调整权向量是否满足预设条件。

在该调整权向量满足预设条件时，执行S217；

在该调整权向量不满足预设条件时，执行S218。

S217，根据该调整权向量得到训练模型。

S218，继续根据该获胜的神经元的邻域函数，调整该获胜的第一神经元邻域的权向量得到邻域权向量，并对该调整权向量、邻域权向量和除该调整权向量、邻域权向量的其他权向量全部进行归一化处理，获得归一化处理后的第二权向量，计算该归一化处理后的特征向量和该归一化处理后的特征向量对应的每个第二权向量的内积，确定获胜的第二神经元，并调整该获胜的第二神经元的权向量得到新的调整权向量，并返回S216。

其中，获胜的第一神经元邻域内的所有神经元可以根据上述计算调整权向量的公式获得邻域权向量，其中，该获胜的第一神经元邻域内的所有神经元的范围由邻域函数决定。

S219，获取当前检测数据，并通过该训练模型得到当前检测结果。

具体地，数据处理设备将获取到的当前检测数据进行编码处理得到该当前检测数据对应的文本字符，然后根据获取到的匹配文本集和该当前检测数据对应的文本字符获得该当前检测数据的文本向量，并将该文本向量输入到训练模型中，从而获得当前检测结果。

需要说明的是，该当前检测数据可以是病患的检测化验数据，从而根据该检测化验数据输出检测结果，以供医务人员对患者进行疾病的辅助检测；该当前检测数据还可以是包含检测结果的检测化验报告，以供管理人员验证上述方法的准确性。

图3是根据一示例性实施例示出的第一种检测数据的处理装置框图。参照图3，该装置包括处理模块31，建立模块32，获取模块33，训练模块34和检测模块35。

该处理模块31，用于采集预设时间段内多个检测数据样本，并对该多个检测数据样本进行预处理得到多个文本字符样本，其中，该文本字符样本包括文本字符和该文本字符对应的检测结果的文本字符；

该建立模块32，用于建立每个文本字符样本的字符索引图，其中，该字符索引图包括该文本字符和字符路径；其中，该字符路径指示该文本字符对应的检测结果的文本字符；

该获取模块33，用于根据建立的字符索引图获取该多个文本字符样本的匹配文本集，其中，该匹配文本集包括在该多个文本字符样本中每两个文本字符样本中都存在的文本字符；

该训练模块34，用于根据该匹配文本集建立文本特征矩阵，并通过该文本特征矩阵对自组织神经网络进行训练，得到训练模型；

该检测模块35，用于获取当前检测数据，并通过该训练模型得到当前检测结果。

可选地，图4是图3所示实施例示出的第二种检测数据的处理装置框图，其中，该处理模块31包括：

第一获取子模块311，用于获取该检测数据样本的文本特征；

编码子模块312，用于通过将该文本特征进行编码处理得到文本字符样本。

可选地，图5是图3所示实施例示出的第三种检测数据的处理装置框图，其中，该获取模块33包括：

第二获取子模块331，用于根据该字符索引图获取该多个文本字符样本中每两个文本字符样本中都存在的文本字符，得到多个文本字符集；

组成子模块332，用于根据该多个文本字符集组成该匹配文本集，其中，该匹配文本集中的文本字符各不相同。

可选地，图6是图3所示实施例示出的第四种检测数据的处理装置框图，其中，该训练模块34包括：

第三获取子模块341，用于获取该匹配文本集中每个文本字符在每个文本字符样本中出现的次数；

第一构建子模块342，用于根据该匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建该每个文本字符样本的文本向量；

第二构建子模块343，用于根据该检测结果相同的文本字符样本的文本向量构建文本特征矩阵。

可选地，图7是图3所示实施例示出的第五种检测数据的处理装置框图，其中，该训练模块34还包括：

分解子模块344，用于将该文本特征矩阵进行奇异值分解，得到所述检测结果相同的文本字符样本对应的特征向量；

训练子模块345，用于通过该特征向量对自组织神经网络模型进行训练，得到训练模型。

可选地，该训练子模块用于获取该自组织神经网络中获胜的神经元的邻域函数和学习率函数；将该特征向量和该自组织神经网络中的神经元对应的多个权向量分别进行归一化处理；计算该归一化处理后的特征向量和该归一化处理后的特征向量对应的每一个权向量的内积，得到获胜的第一神经元的权向量；根据该学习率函数调整该获胜的第一神经元的权向量得到调整权向量；在该调整权向量满足预设条件时，根据该调整权向量得到训练模型。

可选地，训练子模块还用于在该调整权向量不满足该预设条件时，继续根据该获胜的神经元的邻域函数，调整该获胜的第一神经元邻域的权向量得到邻域权向量，并对该调整权向量、邻域权向量和除该调整权向量、邻域权向量的其他权向量全部进行归一化处理，获得归一化处理后的第二权向量，计算该归一化处理后的特征向量和该归一化处理后的特征向量对应的每个第二权向量的内积，确定获胜的第二神经元，并调整该获胜的第二神经元的权向量得到新的调整权向量，直至该新的调整权向量满足预设条件，则获得训练模型。

需要说明的是，以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外，需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种检测数据的处理装置，其特征在于，应用于数据处理设备，所述装置，包括：

处理模块，用于采集预设时间段内多个检测数据样本，并对所述多个检测数据样本进行预处理得到多个文本字符样本，其中，所述文本字符样本包括文本字符和所述文本字符对应的检测结果的文本字符；

建立模块，用于建立每个文本字符样本的字符索引图，其中，所述字符索引图包括所述文本字符和字符路径；其中，所述字符路径指示所述文本字符对应的检测结果的文本字符；

获取模块，用于根据建立的字符索引图获取所述多个文本字符样本的匹配文本集，其中，所述匹配文本集包括在所述多个文本字符样本中每两个文本字符样本中都存在的文本字符；

训练模块，用于根据所述匹配文本集建立文本特征矩阵，并通过所述文本特征矩阵对自组织神经网络进行训练，得到训练模型；其中，所述文本特征矩阵的行向量或列向量表示检测结果相同的文本字符样本对应的文本向量；

所述训练模块包括第三获取子模块，用于获取所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数；第一构建子模块，用于根据所述匹配文本集中每个文本字符在每个文本字符样本中出现的次数构建所述每个文本字符样本的文本向量；第二构建子模块，用于根据所述检测结果相同的文本字符样本的文本向量构建文本特征矩阵；

检测模块，用于获取当前检测数据，并通过所述训练模型得到当前检测结果。

2.根据权利要求1所述的装置，其特征在于，所述处理模块，包括：

第一获取子模块，用于获取所述检测数据样本的文本特征；

编码子模块，用于通过将所述文本特征进行编码处理得到文本字符样本。

3.根据权利要求1所述的装置，其特征在于，所述获取模块，包括：

第二获取子模块，用于根据所述字符索引图获取所述多个文本字符样本中每两个文本字符样本中都存在的文本字符，得到多个文本字符集；

组成子模块，用于根据所述多个文本字符集组成所述匹配文本集，其中，所述匹配文本集中的文本字符各不相同。

4.根据权利要求1所述的装置，其特征在于，所述训练模块还包括分解子模块，用于将所述文本特征矩阵进行奇异值分解，得到所述检测结果相同的文本字符样本对应的特征向量；训练子模块，用于通过所述特征向量对自组织神经网络模型进行训练，得到训练模型。

5.根据权利要求4所述的装置，其特征在于，所述训练子模块用于获取所述自组织神经网络中获胜的神经元的邻域函数和学习率函数；将所述特征向量和所述自组织神经网络中的神经元对应的多个权向量分别进行归一化处理；计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每一个权向量的内积，得到获胜的第一神经元的权向量；根据所述学习率函数调整所述获胜的第一神经元的权向量得到调整权向量；在所述调整权向量满足预设条件时，根据所述调整权向量得到训练模型。

6.根据权利要求5所述的装置，其特征在于，所述训练子模块还用于在所述调整权向量不满足所述预设条件时，继续根据所述获胜的神经元的邻域函数，调整所述获胜的神经元邻域的权向量得到邻域权向量，并对所述调整权向量、邻域权向量和除所述调整权向量、邻域权向量的其他权向量全部进行归一化处理，获得归一化处理后的第二权向量，计算所述归一化处理后的特征向量和所述归一化处理后的特征向量对应的每个第二权向量的内积，确定获胜的第二神经元，并调整所述获胜的第二神经元的权向量得到新的调整权向量，直至所述新的调整权向量满足预设条件，则获得训练模型。