CN113434672B

CN113434672B - 文本类型智能识别方法、装置、设备及介质

Info

Publication number: CN113434672B
Application number: CN202110703058.2A
Authority: CN
Inventors: 王锡平
Original assignee: Cnnc Shenzhen Kelly Group Co ltd
Current assignee: Cnnc Shenzhen Kelly Group Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-12-19
Anticipated expiration: 2041-06-24
Also published as: CN113434672A; WO2022267167A1

Abstract

本发明公开了文本类型智能识别方法、装置、设备及介质，方法包括：对用户输入的结构化文本信息进行分割出来得到每一文本信息对应的多个文本信息段，判断每一文本信息段的类型得到类型判断信息，判断文本信息段是否为预设字符类型，若是则将相应文本信息段转换为文本编码信息并获取与每一文本编码信息对应的编码分类信息，对编码分类信息及类型判断信息进行统计得到结构项的类型统计结果后确定每一结构项的目标类型。本发明属于文本识别技术领域，基于每一文本信息段的类型判断信息及预设字符类型的文本信息段的编码分类信息统计得到每一结构项的类型统计结果并最终确定目标类型，可大幅提高对文本类型进行识别的效率及精确性。

Description

文本类型智能识别方法、装置、设备及介质

技术领域

本发明涉及文本识别技术领域，属于智慧城市中对结构化文本信息的文本类型进行智能识别的应用场景，尤其涉及一种文本类型智能识别方法、装置、设备及介质。

背景技术

随着信息技术的高速发展，海量数据信息得以在互联网上高效传播。在对数据信息进行处理之前通常需要确定数据信息的具体类型，例如，为确保敏感信息不会被外泄至互联网中，需要先对文本信息中的敏感信息进行识别以判断海量文本信息中是否包含敏感信息。现有技术方法在对海量文本数据进行快速类型判断的过程中通常是基于正则表达式对文本进行判断，而现有的正则表达式难以对敏感信息进行精确识别，为提升对敏感信息进行识别的可靠性，往往需要在正则表达式的技术上额外增加人工辅助检查，而增加人工辅助检查则会导致识别效率降低，且增加了额外的人工成本。因此，现有的技术方法中的文本信息识别方法存在识别效率较低的问题。

发明内容

本发明实施例提供了一种文本类型智能识别方法、装置、设备及介质，旨在解决现有技术方法中的文本信息识别方法所存在的识别效率较低的问题。

第一方面，本发明实施例提供了一种文本类型智能识别方法，其包括：

若接收到用户输入的结构化文本信息，对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段；

根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息；

判断每一所述文本信息段的字符类型是否为预设字符类型；

若所述文本信息段的字符类型为预设字符类型，根据预置的转换词典对所述文本信息段进行转换得到对应的文本编码信息；

将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息；

根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果；

根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型。

第二方面，本发明实施例提供了一种文本类型智能识别装置，其包括：

文本信息分割单元，用于若接收到用户输入的结构化文本信息，对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段；

类型判断单元，用于根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息；

字符类型判断单元，用于判断每一所述文本信息段的字符类型是否为预设字符类型；

文本信息转换单元，用于若所述文本信息段的字符类型为预设字符类型，根据预置的转换词典对所述文本信息段进行转换得到对应的文本编码信息；

编码分类信息获取单元，用于将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息；

类型统计结果获取单元，用于根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果；

目标类型确定单元，用于根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的文本类型智能识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文本类型智能识别方法。

本发明实施例提供了一种文本类型智能识别方法、装置、计算机可读存储介质。对用户输入的结构化文本信息进行分割出来得到每一文本信息对应的多个文本信息段，判断每一文本信息段的类型得到类型判断信息，判断文本信息段是否为预设字符类型，若是则将相应文本信息段转换为文本编码信息并获取与每一文本编码信息对应的编码分类信息，对编码分类信息及类型判断信息进行统计得到结构项的类型统计结果后确定每一结构项的目标类型。通过上述方法，基于每一文本信息段的类型判断信息及预设字符类型的文本信息段的编码分类信息统计得到每一结构项的类型统计结果并最终确定目标类型，可大幅提高对文本类型进行识别的效率及精确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本类型智能识别方法的流程示意图；

图2为本发明实施例提供的文本类型智能识别方法的子流程示意图；

图3为本发明实施例提供的文本类型智能识别方法的另一子流程示意图；

图4为本发明实施例提供的文本类型智能识别方法的另一子流程示意图；

图5为本发明实施例提供的文本类型智能识别方法的另一子流程示意图；

图6为本发明实施例提供的文本类型智能识别方法的另一子流程示意图；

图7为本发明实施例提供的文本类型智能识别方法的另一子流程示意图；

图8为本发明实施例提供的文本类型智能识别装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的文本类型智能识别方法的流程示意图；该文本类型智能识别方法应用于用户终端或管理服务器中，该文本类型智能识别方法通过安装于用户终端或管理服务器中的应用软件进行执行，用户终端即是可接收用户输入的结构化文本信息并对文本类型进行智能识别处理的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，管理服务器即是可接收用户通过用终端发送的结构化文本信息并对文本类型进行智能识别处理的服务器端，如企业或政府部门所构建的服务器。如图1所示，该方法包括步骤S110～S170。

S110、若接收到用户输入的结构化文本信息，对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段。

若接收到用户输入的结构化文本信息，对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段。用户可输入结构化文本信息，结构化文本信息中包含多条文本信息，每一条文本信息均由多个结构项对应的结构化数据组成，可根据结构项及文本信息中包含的符号对每一条文本信息进行分割，得到每一文本信息对应的多个文本信息段。具体的，结构化文本信息可以是xml格式的文件中所包含的信息。

例如，结构化文本信息某一条文本信息中一个结构项对应的结构化数据可以是<"item"＝"联系电话"；"value"＝"1352147XXXX，010-4581XXXX"；"remarks"＝"phone">。

在一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、获取所述结构化文本信息中与每一所述结构项对应的数据信息。

可获取结构化文本信息中与每一结构项对应的数据信息，与结构项对应的数据信息也即是每一条文本信息中所存储的与该结构项相对应的具有实际作用的具体内容。例如，在上述结构项对应的结构化数据中，所对应的数据信息即为value标识之后所记载的信息，则与该结构项对应的数据信息即为“1352147XXXX，010-4581XXXX”。

S112、对每一所述结构项对应的数据信息进行分割得到对应的文本信息段。

可将所得到的每一结构项对应的数据信息拆分成相应文本信息段，具体的，可预先配置多个分割标记，分割标记可以是“，”、“；”、“-”、“、”等符号，并判断数据信息中是否包含与任一分割标记相匹配的字符，若数据信息中包含与任一分割标记相匹配的字符，则将该字符作为分割点对数据信息进行分割得到相应多个文本信息段；若数据信息中不包含与任一分割标记相匹配的字符，则直接将数据信息作为一个文本信息段；也即是一个数据信息可至少对应一个文本信息段。若数据信息中包含i个与分割标记相匹配的字符，则可通过相应字符将该数据信息分割为i+1个文本信息段。

例如，将“1352147XXXX，010-4581XXXX”进行分割可得到对应的两个文本信息段，分别为“1352147XXXX”和“010-4581XXXX”。

S120、根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息。

根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息。所述初始类型判断规则包括与每一类型对应的判别式、元数据信息集合及关键字集合，所述类型判断信息中包含每一所述文本信息段的文本信息段判断结果、元数据字段判断结果及关键字判断结果，初始类型判断规则即为对每一文本信息段的初始类型进行判断的具体规则，初始类型判断规则中可包含多个类型对应的判别式、元数据信息集合及关键字集合，可进行预先配置初始类型判断规则中的预设类型，例如对个人信息进行类型判断的预设类型可以包括姓名、电话号码、身份证号、信用卡号码、电子邮箱地址、详细地址；对企业信息进行类型判断的预设类型可以包括企业负责人、纳税人识别号、经营领域、办公地址。用户终端或管理服务器内配置的数据库中可存储每一类型对应的判别式、元数据信息集合及关键字集合，则在对文本信息段进行类型判断之前，可从数据库中获取与预设类型相匹配的判别式、元数据信息集合及关键字集合进行使用。其中，判别式可以是用于对文本信息段所包含的内容是否符合某一类型要求进行具体判断的正则表达式，元数据信息集合即为与某一类型相匹配的目标元数据信息所组成的集合，则每一元数据信息集合中至少包含一个目标元数据信息，关键字集合即为与某一类型相匹配的目标关键字所组成的集合，每一关键字集合中至少包含一个目标关键字。

在一实施例中，如图3所示，步骤S120包括子步骤S121、S122、S123和S124。

S121、获取所述结构化文本信息与每一所述文本信息段对应的属性信息。

可获取结构化文本信息中与每一文本信息段对应的属性信息，属性信息包含每一文本信息段对应的结构化数据包含的非文本信息段之外的其它字段信息。

例如，从与“1352147XXXX”这一文本信息段对应的结构化数据所包含的信息中获取到对应的属性信息包括“"item"＝"联系电话"；"remarks"＝"phone"”。

S122、根据每一所述判别式分别对每一文本信息段进行判断以得到文本信息段判断结果。

根据每一判别式分别对每一文本信息段进行判断，一个类型对应的判别式对一个文本信息段进行一次判断所得到的判断信息即为“是”或者“否”，该判断信息即可表示文本信息段所包含的内容是否与一个类型的要求相匹配，则对一个文本信息段进行判断可获取与每一判别式对应的判断信息，与一个文本信息段对应的多个判断信息即组成该文本信息段的文本信息段判断结果，通过上述方法可获取到每一文本信息段对应的多个判断信息，也即是获取到每一文本信息段对应的文本信息段判断结果。判别式中可包含字符长度、特定区域数值范围进行判断的具体公式，例如，对身份证号码进行判断的判别式中可设置判断字符长度是否为“18”且第7-10位是否位于[1900,2021]这一数值范围内。

S123、分别判断每一所述属性信息中的元数据字段是否与每一所述元数据信息集合相匹配以得到元数据字段判断结果；S124、分别判断每一所述属性信息中的关键字是否与每一所述关键字集合相匹配以得到关键字判断结果。

文本信息段的属性信息中包含元数据字段及关键字等信息，则可对获取到的每一属性信息中元数据字段是否与每一元数据信息集合相匹配进行判断，若某一属性信息中的元数据字段与一个元数据信息集合中任意目标元数据信息相同，则判断该属性信息中的元数据字段与该元数据集合相匹配，若某一属性信息中的元数据字段与一个元数据叽盒子任意一个目标元数据信息均不相同，则判断该属性信息中的元数据字段不与该元数据集合相匹配。一个元数据信息集合对一个属性信息中的元数据字段进行一次匹配判断可得到一个判断结果，每一元数据信息集合对一个属性信息中的元数据字段分别进行匹配判断可得到对应的多个判断结果，一个属性信息的元数据字段对应的多个判断结果即组合为该属性信息对应的元数据字段判断结果。则可采用同样方式通过每一关键字集合对一个属性信息中的关键字分别进行匹配判断得到对应的多个判断结果，一个属性信息的关键字对应的多个判断结果即组合为该属性信息对应的关键字判断结果。

例如，“1352147XXXX”这一文本信息段的属性信息中的元数据信息即为“phone”、关键字即为“联系电话”。

S130、判断每一所述文本信息段的字符类型是否为预设字符类型。

判断每一所述文本信息段的字符类型是否为预设字符类型。可对文本信息段的字符类型是否为预设字符类型进行判断，具体的，预设字符类型可以是中文文本类型。

在一实施例中，如图4所示，步骤S130包括子步骤S131、S132和S133。

S131、判断每一所述文本信息段包含的多个字符是否为预设字符类型；S132、若文本信息段中预设字符类型的字符数量大于非预设字符类型的字符数量，判定所述文本信息段的字符类型为预设字符类型；S133、若文本信息段中预设字符类型的字符数量不大于非预设字符类型的字符数量，判定所述文本信息段的字符类型不为预设字符类型。

以预设字符类型为中文文本类型为例，则可对应判断文本信息段中包含的每一字符是否为中文文本字符，若字符判断结果中文本信息段包含的中文文本字符数量大于非中文文本字符数量，则判定该文本信息段的字符类型为预设字符类型；若字符判断结果中文本信息段包含的中文文本字符数量不大于非中文文本字符数量，则判定该文本信息段的字符类型不为预设字符类型。

S140、若所述文本信息段的字符类型为预设字符类型，根据预置的转换词典对所述文本信息段进行转换得到对应的文本编码信息。

若所述文本信息段的字符类型为预设字符类型，根据预置的转换词典对所述文本信息段进行转换得到对应的文本编码信息。若文本信息段的字符类型不为预设字符类型，则不对文本信息段进行转换。具体的，转换词典中包含与每一中文字符对应的字符编码，则可根据中文字符与字符编码的映射关系，将每一文本信息段包含的多个字符转换为对应字符编码，文本信息段中的非中文字符均转换为统一的特殊字符编码，文本信息段对应的多个字符编码、语句起始编码及语句终止编码即组合为该文本信息段的文本编码信息，可预先配置编码数量阈值对文本编码信息中所包含的字符编码数量进行限定，则文本编码信息中所包含的字符编码数量等于编码数量阈值，若文本信息段包含的字符数量小于编码数量阈值，则采用“0000”对剩余字符编码进行补齐以使最终得到的文本编码信息所包含的字符编码数量等于编码数量阈值；若文本信息段包含的字符数量大于编码数量阈值，对多余的字符编码进行裁剪以使最终得到的文本编码信息所包含的字符编码数量等于编码数量阈值。

例如，“河”在转换词典中对应的字符编码为“4472”，“东”对应的字符编码为“0173”，“街”对应的字符编码为“3461”，“7”对应的字符编码为“0000”，“号”对应得到的语句编码为“5481”，则对应得到的语句编码为“1001，4472，0173，3461，9999，5481，……，1009”，其中“1001”为语句起始编码，“1009”为语句终止编码，文本信息段中的非中文字符均对应的特殊字符编码为“9999”。

S150、将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息。

将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息。可将获取到的文本编码信息依次输入编码分类模型，编码分类模型即为对文本编码信息进行分类的神经网络模型，可基于编码分类模型的模型输出信息确定每一文本编码信息对应的编码分类信息。

在一实施例中，如图5所示，步骤S150包括子步骤S151和S152。

S151、将所述文本编码信息输入所述编码分类模型，得到与每一所述文本编码信息对应的模型输出信息。

具体的，编码分类模型可以由一个输入层、多个中间层及一个输出层组成，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间均通过关联公式进行关联，每一关联公式均可表示为一个一次函数，一次函数中包含相应参数值，输入层中每一输入节点对应文本编码信息中的一个字符编码，则输入层中包含输入节点的数量与文本编码信息中字符编码的数量相等；输出层中可配置多个输出节点，每一输出节点对应一个信息类型，每一信息类型均与初始类型判断规则中一个具体的类型相对应。将一个文本编码信息由输入层输入编码分类模型，即可由输出层获取相应模型输出信息，模型输出信息即为该编码分类模型与每一编码类型之间的匹配度，匹配度的取值范围为[0,1]。

例如，在本实施例中可设置与“姓名”及“详细地址”对应的两个输出节点，则模型输出信息中包含与“姓名”及“详细地址”分别对应的两个匹配度。

S152、根据所述模型输出信息确定每一所述文本编码信息对应的编码分类信息。

具体的，可根据模型输出信息中每一信息类型的匹配度，确定匹配度最高的一个信息类型作为每一文本编码信息的编码分类信息。

在使用编码分类模型之前，还可根据预置的训练规则及预存的训练编码集合对编码分类模型进行迭代训练，以得到训练后的神经网络模型。

具体的，训练编码集合中可包含多条训练编码，可将一条训练编码输入编码分类模型得到两个训练编码分类信息，基于训练规则中的损失函数计算公式计算训练编码分类信息与该训练编码的目标分类信息之间的损失值，并根据训练规则中的梯度下降计算公式及损失值计算编码分类模型中每一参数的更新值，这一计算过程也即为梯度下降计算，基于该更新值对每一参数的原始参数值进行更新，即可完成对编码分类模型的一次训练。一条训练编码即可对编码分类模型进行一次训练，则训练编码集合中的多条训练编码可实现对编码分类模型进行多次迭代训练，得到训练后的编码分类模型。

S160、根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果。

根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果。可基于预存的统计模板对所得到的编码分类信息及所得到的类型判断信息进行统计，得到与每一结构项对应的类型统计结果，则一个结构项的类型统计结果中包含该结构项与每一类型对应的统计比例值。

在一实施例中，如图6所示，步骤S160包括子步骤S161、S162和S163。

S161、获取所述编码分类信息及所述类型判断信息中与每一所述结构项对应的基础信息。

所得到的编码分类信息包含与每一文本编码信息对应的编码分类信息，类型判断信息包含与每一文本信息段对应的类型判断信息，结构化文本信息中包含多条文本信息，编码分类信息及文本信息段均是基于一条文本信息获取到的，由于每一条文本信息中均包含与一个结构项对应的一组结构化数据，因此，一个结构项可获取每一条文本信息中相应结构化数据所对应的类型判断信息，若结构项对应的文本信息段的字符类型不为预设字符类型，则与该结构项对应的类型判断信息即作为该结构项对应的基础信息；若结构项对应的文本信息段的字符类型为预设字符类型，则该结构项对应的基础信息中除包含相应类型判断信息之外，还包含与该结构项对应的编码分类信息。

S162、对所述基础信息进行二值化处理得到每一所述结构项与每一类型对应的二值化信息。

对一个基础信息进行二值化处理即可得到对应的一组二值化信息，二值化信息中仅由“1”和“0”组成，某一基础信息中与该基础信息的编码分类信息所对应的一个类型的二值化信息为“1”，其它的类型的二值化信息均为“0”；某一基础信息中与该基础信息的元数据字段判断结果为“是”所对应类型的二值化信息为“1”，元数据字段判断结果为“否”所对应类型的二值化信息为“0”，对关键字判断结果及文本信息段判断结果进行二值化的方法与对元数据字段判断结果进行二值化的具体方法相同，若一个基础信息中包含多个文本信息段的元数据字段判断结果，则对多个文本信息段的元数据字段判断结果的二值化数值进行平均计算得到二值化平均值。

例如，某一基础信息中包含“编码分类信息：详细地址；文本信息段判断结果-姓名：否、文本信息段判断结果-电话号码：否、文本信息段判断结果-身份证号：否、文本信息段判断结果-信用卡号码：否、文本信息段判断结果-电子邮箱地址：否、文本信息段判断结果-详细地址：是；元数据字段判断结果-姓名：否、元数据字段判断结果-电话号码：否、元数据字段判断结果-身份证号：否、元数据字段判断结果-信用卡号码：否、元数据字段判断结果-电子邮箱地址：否、元数据字段判断结果-详细地址：否；关键字判断结果-姓名：否、关键字判断结果-电话号码：否、关键字判断结果-身份证号：否、关键字判断结果-信用卡号码：否、关键字判断结果-电子邮箱地址：否、关键字判断结果-详细地址：是”。则与该基础信息与每一类型对应的二值化信息可采用表1进行表示：

表1

S163、根据每一类型的所述统计模板对每一结构项对应的二值化信息进行统计，得到每一结构项与每一类型分别对应的多个统计比例值作为所述类型统计结果。

不同类型对应不同的统计模板，则一个类型的统计模板可对每一结构项的二值化信息中与该类型对应的数值进行统计计算，得到每一结构项与该类型对应的统计比例值，多个统计模板分别对所得到的二值化信息进行统计，可对应得到每一结构项与每一类型分别对应的多个统计比例值，将每一结构项的多个统计比例值作为与每一结构项分别对应的类型统计结果。

在一实施例中，如图7所示，步骤S173包括子步骤S1731和S1732。

S1731、根据每一类型的所述统计模板分别计算每一个所述二值化信息与多个类型分别对应的匹配系数。

可根据统计模板先计算每一二值化信息与多个类型分别对应的匹配系数，一个类型的统计模板对一个二值化信息进行计算可获取到该二值化信息与该类型相匹配的一个匹配系数。

例如，与“详细地址”这一类型对应的统计模板为：P＝0.9×S1+0×S2+0.05×S3+0.05×S4，P即为计算得到的匹配系数，S1为二值化信息中编码分类信息的数值，S2为文本信息段判断结果的数值，S3为元数据字段判断结果的数值，S4为关键字判断结果的数值，则根据该统计模板对表1中所示的一个二值化信息进行计算得到的“详细地址”这一类型的匹配系数为0.95。

S1732、对每一所述结构项与多个类型对应的多个匹配系数进行平均计算，得到每一所述结构项与多个类型分别对应的多个统计比例值。

每一结构项均对应多个二值化信息，则可对一个结构项与一个类型对应的多个匹配系数进行平均计算，得到该结构项与同一类型对应的一个统计比例值，一个结构项与多个类型可分别计算得到多个统计比例值，采用上述方法进行平均计算即可得到每一结构项与多个类型分别对应的多个统计比例值。

例如，结构化文本信息中包含5000条文本信息，则每一结构项均对应5000个二值化信息，可对一个结构项与一个类型对应的5000个匹配系数进行平均计算，得到该结构项与该类型对应的一个统计比例值。

S170、根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型。

根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型。可根据类型统计结果确定每一结构项对应的目标类型，每一结构项均与一个目标类型相对应，具体的，可将类型统计结果中每一结构项的最大统计比例值对应的类型作为相应结构项的目标类型，根据每一结构项的目标类型即可最终确定结构化文本信息中所包含的敏感信息。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对结构化文本信息的文本类型进行智能识别的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的文本类型智能识别方法中，对用户输入的结构化文本信息进行分割出来得到每一文本信息对应的多个文本信息段，判断每一文本信息段的类型得到类型判断信息，判断文本信息段是否为预设字符类型，若是则将相应文本信息段转换为文本编码信息并获取与每一文本编码信息对应的编码分类信息，对编码分类信息及类型判断信息进行统计得到结构项的类型统计结果后确定每一结构项的目标类型。通过上述方法，基于每一文本信息段的类型判断信息及预设字符类型的文本信息段的编码分类信息统计得到每一结构项的类型统计结果并最终确定目标类型，可大幅提高对文本类型进行识别的效率及精确性。

本发明实施例还提供一种文本类型智能识别装置，该文本类型智能识别装置可配置于用户终端或管理服务器中，该文本类型智能识别装置用于执行前述的文本类型智能识别方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的文本类型智能识别装置的示意性框图。

如图8所示，文本类型智能识别装置100包括文本信息分割单元110、类型判断单元120、字符类型判断单元130、文本信息转换单元140、编码分类信息获取单元150、类型统计结果获取单元160和目标类型确定单元170。

文本信息分割单元110，用于若接收到用户输入的结构化文本信息，对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段。

在一具体实施例中，所述文本信息分割单元110包括子单元：数据信息获取单元，用于获取所述结构化文本信息中与每一所述结构项对应的数据信息；分割单元，用于对每一所述结构项对应的数据信息进行分割得到对应的文本信息段。

类型判断单元120，用于根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息。

在一具体实施例中，所述类型判断单元120包括子单元：属性信息获取单元，用于获取所述结构化文本信息与每一所述文本信息段对应的属性信息；文本信息判断结果获取单元，用于根据每一所述判别式分别对每一文本信息段进行判断以得到文本信息段判断结果；元数据字段判断结果获取单元，用于分别判断每一所述属性信息中的元数据字段是否与每一所述元数据信息集合相匹配以得到元数据字段判断结果；关键字判断结果获取单元，用于分别判断每一所述属性信息中的关键字是否与每一所述关键字集合相匹配以得到关键字判断结果。

字符类型判断单元130，用于判断每一所述文本信息段的字符类型是否为预设字符类型。

在一具体实施例中，所述字符类型判断单元130包括子单元：字符判断单元，用于判断每一所述文本信息段包含的多个字符是否为预设字符类型；第一判断单元，用于若文本信息段中预设字符类型的字符数量大于非预设字符类型的字符数量，判定所述文本信息段的字符类型为预设字符类型；第二判断单元，用于若文本信息段中预设字符类型的字符数量不大于非预设字符类型的字符数量，判定所述文本信息段的字符类型不为预设字符类型。

文本信息转换单元140，用于若所述文本信息段的字符类型为预设字符类型，根据预置的转换词典对所述文本信息段进行转换得到对应的文本编码信息。

编码分类信息获取单元150，用于将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息。

在一具体实施例中，所述编码分类信息获取单元150包括子单元：模型输出信息获取单元，用于将所述文本编码信息输入所述编码分类模型，得到与每一所述文本编码信息对应的模型输出信息；编码分类信息确定单元，用于根据所述模型输出信息确定每一所述文本编码信息对应的编码分类信息。

类型统计结果获取单元160，用于根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果。

在一具体实施例中，所述类型统计结果获取单元160包括子单元：基础信息获取单元，用于获取所述编码分类信息及所述类型判断信息中与每一所述结构项对应的基础信息；二值化信息获取单元，用于对所述基础信息进行二值化处理得到每一所述结构项与每一类型对应的二值化信息；二值化信息统计单元，用于根据每一类型的所述统计模板对每一结构项对应的二值化信息进行统计，得到每一结构项与每一类型分别对应的多个统计比例值作为所述类型统计结果。

在一具体实施例中，所述二值化信息统计单元包括子单元：匹配系数计算单元，用于根据每一类型的所述统计模板分别计算每一个所述二值化信息与多个类型分别对应的匹配系数；统计比例值获取单元，用于对每一所述结构项与多个类型对应的多个匹配系数进行平均计算，得到每一所述结构项与多个类型分别对应的多个统计比例值。

目标类型确定单元170，用于根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型。

在本发明实施例所提供的文本类型智能识别装置应用上述文本类型智能识别方法，对用户输入的结构化文本信息进行分割出来得到每一文本信息对应的多个文本信息段，判断每一文本信息段的类型得到类型判断信息，判断文本信息段是否为预设字符类型，若是则将相应文本信息段转换为文本编码信息并获取与每一文本编码信息对应的编码分类信息，对编码分类信息及类型判断信息进行统计得到结构项的类型统计结果后确定每一结构项的目标类型。通过上述方法，基于每一文本信息段的类型判断信息及预设字符类型的文本信息段的编码分类信息统计得到每一结构项的类型统计结果并最终确定目标类型，可大幅提高对文本类型进行识别的效率及精确性。

上述文本类型智能识别装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行文本类型智能识别方法以对结构化文本信息的文本类型进行智能识别的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行文本类型智能识别方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行文本类型智能识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的文本类型智能识别方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的文本类型智能识别方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本类型智能识别方法，其特征在于，所述方法包括：

判断每一所述文本信息段的字符类型是否为预设字符类型；

根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型；

所述编码分类模型由一个输入层、多个中间层及一个输出层组成，输入层中每一输入节点对应文本编码信息中的一个字符编码，输出层中配置多个输出节点，每一输出节点对应一个信息类型，每一信息类型与初始类型判断规则中的一个具体类型相对应，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间通过关联公式进行关联，每一关联公式包含相应参数值，所述模型输出信息为编码分类模型与每一编码类型之间的匹配度；

所述编码分类模型在使用之前，根据预置的训练规则及预存的训练编码集合对编码分类模型进行迭代训练，得到训练后的神经网络模型，所述训练编码集合包含多条训练编码，所述训练规则包括损失函数计算公式和梯度下降计算公式，将一条训练编码输入编码分类模型得到两个训练编码分类信息，基于损失函数计算公式计算训练编码分类信息与该训练编码的目标分类信息之间的损失值，根据梯度下降计算公式及损失值计算编码分类模型中每一参数的更新值，基于该更新值对每一参数的原始参数值进行更新；

所述将所述文本编码信息输入预置的编码分类模型以得到与每一所述文本编码信息对应的编码分类信息，包括：将所述文本编码信息输入所述编码分类模型，得到与每一所述文本编码信息对应的模型输出信息，具体的，将一个文本编码信息由输入层输入编码分类模型，由输出层获取模型输出信息，还包括：根据所述模型输出信息确定每一所述文本编码信息对应的编码分类信息。

2.根据权利要求1所述的文本类型智能识别方法，其特征在于，所述对所述结构化文本信息中包含的多条文本信息分别进行分割处理得到每一所述文本信息对应的多个文本信息段，包括：

获取所述结构化文本信息中与每一所述结构项对应的数据信息；

对每一所述结构项对应的数据信息进行分割得到对应的文本信息段。

3.根据权利要求1所述的文本类型智能识别方法，其特征在于，所述初始类型判断规则包括与每一类型对应的判别式、元数据信息集合及关键字集合，所述根据预置的初始类型判断规则对每一所述文本信息段分别进行类型判断以得到每一所述文本信息段的类型判断信息，包括：

获取所述结构化文本信息与每一所述文本信息段对应的属性信息；

根据每一所述判别式分别对每一文本信息段进行判断以得到文本信息段判断结果；

分别判断每一所述属性信息中的元数据字段是否与每一所述元数据信息集合相匹配以得到元数据字段判断结果；

分别判断每一所述属性信息中的关键字是否与每一所述关键字集合相匹配以得到关键字判断结果。

4.根据权利要求1所述的文本类型智能识别方法，其特征在于，所述判断每一所述文本信息段的字符类型是否为预设字符类型，包括：

判断每一所述文本信息段包含的多个字符是否为预设字符类型；

若文本信息段中预设字符类型的字符数量大于非预设字符类型的字符数量，判定所述文本信息段的字符类型为预设字符类型；

若文本信息段中预设字符类型的字符数量不大于非预设字符类型的字符数量，判定所述文本信息段的字符类型不为预设字符类型。

5.根据权利要求1所述的文本类型智能识别方法，其特征在于，所述根据预存的统计模板对所述编码分类信息及所述类型判断信息进行统计以获取所述结构化文本信息中每一结构项对应的类型统计结果，包括：

获取所述编码分类信息及所述类型判断信息中与每一所述结构项对应的基础信息；

对所述基础信息进行二值化处理得到每一所述结构项与每一类型对应的二值化信息；

根据每一类型的所述统计模板对每一结构项对应的二值化信息进行统计，得到每一结构项与每一类型分别对应的多个统计比例值作为所述类型统计结果。

6.根据权利要求1所述的文本类型智能识别方法，其特征在于，所述根据每一类型的所述统计模板对每一结构项对应的二值化信息进行统计，得到每一结构项与每一类型分别对应的多个统计比例值作为所述类型统计结果，包括：

根据每一类型的所述统计模板分别计算每一个所述二值化信息与多个类型分别对应的匹配系数；

对每一所述结构项与多个类型对应的多个匹配系数进行平均计算，得到每一所述结构项与多个类型分别对应的多个统计比例值。

7.一种文本类型智能识别装置，其特征在于，所述装置包括：

目标类型确定单元，用于根据所述类型统计结果确定所述结构化文本信息中每一结构项对应的目标类型；

所述编码分类信息获取单元，还包括编码分类模型，由一个输入层、多个中间层即一个输入层组成，输入层中每一输入节点对应文本编码信息中的一个字符编码，输出层中配置多个输出节点，每一输出节点对应一个信息类型，每一信息类型与初始类型判断规则中的一个具体类型相对应，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出节点之间通过关联公式进行关联，每一关联公式包含相应参数值，模型输出信息为编码分类模型与每一编码类型之间的匹配度；

所述编码分类信息获取单元，还用于根据预置的训练规则及预存的训练编码集合对编码分类模型进行迭代训练，得到训练后的神经网络模型，所述训练编码集合包含多条训练编码，所述训练规则包括损失函数计算公式和梯度下降计算公式，将一条训练编码输入编码分类模型得到两个训练编码分类信息，基于损失函数计算公式计算训练编码分类信息与该训练编码的目标分类信息之间的损失值，根据梯度下降计算公式及损失值计算编码分类模型中每一参数的更新值，基于该更新值对每一参数的原始参数值进行更新；

所述编码分类信息获取单元，还包括：模型输出信息获取单元，用于将所述文本编码信息输入所述编码分类模型，得到与每一所述文本编码信息对应的模型输出信息，具体的，用于将一个文本编码信息由输入层输入编码分类模型，由输出层获取模型输出信息；编码分类信息确定单元，用于根据所述模型输出信息确定每一所述文本编码信息对应的编码分类信息。

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文本类型智能识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本类型智能识别方法。