CN114663903B

CN114663903B - 文本资料的分类方法、装置、设备及存储介质

Info

Publication number: CN114663903B
Application number: CN202210571690.0A
Authority: CN
Inventors: 杨志; 陈耀麟; 李欢欢; 曾云奎; 秦在振
Original assignee: Shenzhen Dadaoyun Technology Co ltd
Current assignee: Shenzhen Dadaoyun Technology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-19
Anticipated expiration: 2042-05-25
Also published as: CN114663903A

Abstract

本发明涉及资料分类领域，公开了一种文本资料的分类方法、装置、设备及存储介质。该方法包括：获取房地产的文件图像数据；基于预置OCR识别算法，对文件图像数据进行识别处理，得到图像特征数据；基于图像特征数据的特征排列位置，将图像特征数据转换为N维向量，得到N维特征向量，其中，N为正整数；读取预置N维测试节点集，在同一N维空间中，计算N维特征向量与N维测试节点集中所有N维测试节点的欧式距离，得到测量距离集；筛选出测量距离集中小于预置划分阈值的测量距离，得到筛选距离集；根据预置回归算法，对筛选距离集进行分类回归处理，得到图像类型；将图像类型确定为文件图像数据的种类。

Description

文本资料的分类方法、装置、设备及存储介质

技术领域

本发明涉及资料分类领域，尤其涉及一种文本资料的分类方法、装置、设备及存储介质。

背景技术

在房产金融交易中，涉及到一些非常重要的身份证明证件及房产证明文件进行传递证明及使用，主要包含：身份证、房产证、结婚证、个人征信证明等，在业务办理和处理中所用的各类资料多以图片影像形式存在，一般通过纸质扫描或移动端拍照采集获得，存在大量的不同类型的图像数据，由于不同种类图像数据之间处理和录入规则还不太一致，因此需要一些对房地产资料种类进行分类的技术。

现有技术中也存在一些对资料分类的技术，但是现有技术资料的分类在房地产的资料分类过程中，无法对种类数量过多的资料进行分类，因此需要一种新的技术。

发明内容

本发明的主要目的在于解决现有技术资料的分类在房地产的资料分类过程中，无法对种类数量过多的资料进行分类的技术问题。

本发明第一方面提供了一种文本资料的分类方法，包括步骤：

获取房地产的文件图像数据；

基于预置OCR识别算法，对所述文件图像数据进行识别处理，得到图像特征数据；

基于所述图像特征数据的特征排列位置，将所述图像特征数据转换为N维向量，得到N维特征向量，其中，N为正整数；

读取预置N维测试节点集，在同一N维空间中，计算所述N维特征向量与所述N维测试节点集中所有N维测试节点的欧式距离，得到测量距离集；

筛选出所述测量距离集中小于预置划分阈值的测量距离，得到筛选距离集；

根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型；

将所述图像类型确定为文件图像数据的种类。

可选的，在本发明第一方面的第一种实现方式中，在所述根据预置分类处理算法，对所述图像特征数据进行分类处理，得到图像类型之前，还包括：

获取M个带标签的训练图像数据；

基于预置OCR识别算法，对M个所述带标签的训练图像数据进行识别处理，得到M个训练特征数据，其中，M为正整数；

将M个所述训练特征数据转换为对应的M个N维向量，得到M个带标签的N维训练向量，其中，N为正整数；

将M个带标签的N维训练向量进行组合处理，生成N维测试节点集。

可选的，在本发明第一方面的第二种实现方式中，所述根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型包括：

读取所述筛选距离集中每个筛选距离对应的标签；

统计每个种类的标签对应筛选距离数量；

基于每个种类的标签对应所述筛选距离数量，计算出所述筛选距离集关于标签的方差值；

判断所述方差值是否大于预置判定阈值；

若大于判定阈值，则将最大筛选距离数量对应的标签确定为图像类型。

可选的，在本发明第一方面的第三种实现方式中，在所述判断所述方差值是否大于预置判定阈值之后，还包括：

若不大于判定阈值，则根据预置缩小步长值，对所述划分阈值进行缩小处理，得到缩小划分阈值；

将所述缩小划分阈值，筛选出所述测量距离集中小于所述缩小划分阈值的测量距离，得到更新的筛选距离集。

可选的，在本发明第一方面的第四种实现方式中，所述基于预置OCR识别算法，对所述文件图像数据进行识别处理，得到图像特征数据包括：

对所述文件图像数据的特征字符进行分类识别，标记所述特征字符在所述文件图像数的坐标数据，得到特征字符对应的坐标数据；

将特征字符对应的坐标数据填入至预置特征坐标框架中，得到图像特征数据，其中，所述特征坐标框架包括：特征字符对应坐标的空白框架。

可选的，在本发明第一方面的第五种实现方式中，所述筛选出所述测量距离集中小于预置划分阈值的测量距离，得到筛选距离集包括：

提取所述测量距离集的测量距离；

判断所述测量距离是否小于预置划分阈值；

若小于，则将所述测量距离标记为筛选距离，重新提取所述测量距离集的测量距离；

若不小于，则将所述测量距离删除，重新提取所述测量距离集的测量距离。

可选的，在本发明第一方面的第六种实现方式中，所述重新提取所述测量距离集的测量距离包括：

判断所述测量距离集是否为空集；

若不为空集，则重新提取所述测量距离集的测量距离；

若为空集，则将所有标记的筛选距离进行组合处理，得到筛选距离集。

本发明第二方面提供了一种文本资料的分类装置，所述文本资料的分类装置包括：

获取模块，用于获取房地产的文件图像数据；

识别模块，用于基于预置OCR识别算法，对所述文件图像数据进行识别处理，得到图像特征数据；

转换模块，用于基于所述图像特征数据的特征排列位置，将所述图像特征数据转换为N维向量，得到N维特征向量，其中，N为正整数；

距离计算模块，用于读取预置N维测试节点集，在同一N维空间中，计算所述N维特征向量与所述N维测试节点集中所有N维测试节点的欧式距离，得到测量距离集；

筛选模块，用于筛选出所述测量距离集中小于预置划分阈值的测量距离，得到筛选距离集；

回归处理模块，用于根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型；

确定模块，用于将所述图像类型确定为文件图像数据的种类。

本发明第三方面提供了一种文本资料的分类设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本资料的分类设备执行上述的文本资料的分类方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本资料的分类方法。

在本发明实施例中，通过对房地产资料的不同特征进行定位特征标记，然后将定位特征标记的多个特征共同作为一个分类依据，在原有已经训练好的数据库中进行回归比对判断，将最接近的判断类型确定为分析的资料类型，解决无法对种类数量过多的资料进行分类的技术问题。

附图说明

图1为本发明实施例中文本资料的分类方法的一个实施例示意图；

图2为本发明实施例中文本资料的分类装置的一个实施例示意图；

图3为本发明实施例中文本资料的分类装置的另一个实施例示意图；

图4为本发明实施例中文本资料的分类设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种文本资料的分类方法、装置、设备及存储介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文本资料的分类方法的一个实施例，包括步骤：

101、获取房地产的文件图像数据；

102、基于预置OCR识别算法，对文件图像数据进行识别处理，得到图像特征数据；

在101-102步骤中，先获取在房地产领域需要分类的文件图像数据，文件图像数据可以是拍照的图像，也可以是视频资料的帧序列片段，用于处理一个文件资料的文字特征。

OCR识别算法，是可以识别图像中的文字，这里需要将识别文字中“名称”、“身份号码”、“备案编号”、“营业证号”等一些特征字符在图像数据中的坐标进行提取，作为图像特征数据，如果没有特征字符则默认坐标为零点，但依旧需要记录。

进一步的，在102可以执行以下步骤：

1021、对文件图像数据的特征字符进行分类识别，标记特征字符在文件图像数的坐标数据，得到特征字符对应的坐标数据；

1022、将特征字符对应的坐标数据填入至预置特征坐标框架中，得到图像特征数据，其中，特征坐标框架包括：特征字符对应坐标的空白框架。

在1021-1022步骤中，先对识别文字中“名称”、“姓名”、“身份号码”、“备案编号”、“营业证号”这样的特征字符识别出，然后提取出该特征字符的图像坐标，按照预先设置“00”-“00”-“00”-“00”-“00”的特征坐标框架，将对应的特征字符“姓名”-“身份号码”-“备案编号”-“营业证号”-“名称”的坐标数据填入至框架中，得到图像特征数据。

103、基于图像特征数据的特征排列位置，将图像特征数据转换为N维向量，得到N维特征向量，其中，N为正整数；

在本实施例中，由于每个坐标是2个参数，那么“00”-“00”-“00”-“00”-“00”是有10个参数，则转为10维向量，按照“姓名”-“身份号码”-“备案编号”-“营业证号”-“名称”的X轴和Y轴进行排列，得到10维特征向量。

104、读取预置N维测试节点集，在同一N维空间中，计算N维特征向量与N维测试节点集中所有N维测试节点的欧式距离，得到测量距离集；

在本实施例中，预先设置的有身份证、房产证、结婚证、个人征信证明特征的10维测试节点集，在10维空间中计算“姓名”-“身份号码”-“备案编号”-“营业证号”-“名称”10维特征向量的和10维测试节点集的每个10维测试节点之间的欧式距离，得到节点数为元素量的测量距离集。

105、筛选出测量距离集中小于预置划分阈值的测量距离，得到筛选距离集；

在本实施例中，将测量距离集中距离小于划分阈值0.8的测量距离进行筛选，得到筛选距离集。

进一步的，在105可以执行以下步骤：

1051、提取测量距离集的测量距离；

1052、判断测量距离是否小于预置划分阈值；

1053、若小于，则将测量距离标记为筛选距离，重新提取测量距离集的测量距离；

1054、若不小于，则将测量距离删除，重新提取测量距离集的测量距离。

在1051-1054步骤中，先提取测量距离集中的某一个测量距离，判断这个测量距离是否是小于划分阈值0.8的数值，如果小于，则将测量距离标记为筛选距离，然后重新在提取测量距离集中新的一个测量距离，如果大于，则直接删除该测量距离，然后重新在提取测量距离集中新的一个测量距离。

进一步的，在1053、1054的“重新提取测量距离集的测量距离”可以执行以下步骤：

1055、判断测量距离集是否为空集；

1056、若不为空集，则重新提取测量距离集的测量距离；

1057、若为空集，则将所有标记的筛选距离进行组合处理，得到筛选距离集。

在1055-1057步骤中，在重新提取的过程中，可以先判断测量距离集是否为空，如果已经空集则不需要再进行分析，直接将标记的筛选距离组合成筛选距离集。如果不是空集，则继续提取，直至循环迭代至测量距离集为空集。

106、根据预置回归算法，对筛选距离集进行分类回归处理，得到图像类型；

在本实施例中，筛选距离集中有大量的数据表示整个“姓名”-“身份号码”-“备案编号”-“营业证号”-“名称”10维特征向量与其他特征向量之间接近的关系，找到最接近的图像类型的数据，得到图像类型。

进一步的，在106之前还可以执行以下步骤：

1061、获取M个带标签的训练图像数据；

1062、基于预置OCR识别算法，对M个带标签的训练图像数据进行识别处理，得到M个训练特征数据，其中，M为正整数；

1063、将M个训练特征数据转换为对应的M个N维向量，得到M个带标签的N维训练向量，其中，N为正整数；

1064、将M个带标签的N维训练向量进行组合处理，生成N维测试节点集。

在1061-1064步骤中，说明N维测试节点集的训练过程，先将带有身份证、房产证、结婚证、个人征信证明任一标签的M个“姓名”-“身份号码”-“备案编号”-“营业证号”-“名称”训练特征数据识别出来，然后转换成定义的10维训练向量，将M个该10维训练向量组合成10维测试节点集，作为比对的基础数据。

进一步的，106可以执行以下步骤：

1065、读取筛选距离集中每个筛选距离对应的标签；

1066、统计每个种类的标签对应筛选距离数量；

1067、基于每个种类的标签对应筛选距离数量，计算出筛选距离集关于标签的方差值；

1068、判断方差值是否大于预置判定阈值；

1069、若大于判定阈值，则将最大筛选距离数量对应的标签确定为图像类型。

在1065-1069步骤中，先读取筛选距离的标签：身份证、房产证、结婚证、个人征信证明。然后对身份证、房产证、结婚证、个人征信证明的距离数量进行统计，然后对统计数量进行方差运算，判断方差的数值是否超过了判定阈值，如果超过判定阈值则说明偏差值较大具有可信性，将最大筛选距离数量的标签确定为图像类型，例如最大筛选距离数量标签为房产证，则图像类型为房产证。

进一步的，在1068之后还可以执行以下步骤：

10681、若不大于判定阈值，则根据预置缩小步长值，对划分阈值进行缩小处理，得到缩小划分阈值；

10682、将缩小划分阈值，筛选出测量距离集中小于缩小划分阈值的测量距离，得到更新的筛选距离集。

在10681-10682步骤中，缩小步长值为0.2，将划分阈值从0.8缩小至0.6，然后将测量距离集中小于0.6的测量距离填入筛选距离集中，得到新的筛选距离集，然后再重新进行回归运算。

107、将图像类型确定为文件图像数据的种类。

在本实施例中，将已经找到的图像类型确定为文件图像数据的种类。

上面对本发明实施例中文本资料的分类方法进行了描述，下面对本发明实施例中文本资料的分类装置进行描述，请参阅图2，本发明实施例中文本资料的分类装置一个实施例，所述文本资料的分类装置包括：

获取模块201，用于获取房地产的文件图像数据；

识别模块202，用于基于预置OCR识别算法，对所述文件图像数据进行识别处理，得到图像特征数据；

转换模块203，用于基于所述图像特征数据的特征排列位置，将所述图像特征数据转换为N维向量，得到N维特征向量，其中，N为正整数；

距离计算模块204，用于读取预置N维测试节点集，在同一N维空间中，计算所述N维特征向量与所述N维测试节点集中所有N维测试节点的欧式距离，得到测量距离集；

筛选模块205，用于筛选出所述测量距离集中小于预置划分阈值的测量距离，得到筛选距离集；

回归处理模块206，用于根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型；

确定模块207，用于将所述图像类型确定为文件图像数据的种类。

请参阅图3，本发明实施例中文本资料的分类装置的另一个实施例，所述文本资料的分类装置包括：

获取模块201，用于获取房地产的文件图像数据；

其中，所述文本资料的分类装置还包括训练模块208，所述训练模块208具体用于：

获取M个带标签的训练图像数据；

其中，所述回归处理模块206具体用于：

读取所述筛选距离集中每个筛选距离对应的标签；

统计每个种类的标签对应筛选距离数量；

判断所述方差值是否大于预置判定阈值；

其中，所述文本资料的分类装置还包括更新模块209，所述更新模块209具体用于：

其中，所述识别模块202具体用于：

其中，所述筛选模块205具体用于：

提取所述测量距离集的测量距离；

判断所述测量距离是否小于预置划分阈值；

其中，所述筛选模块205还可以具体用于：

判断所述测量距离集是否为空集；

若不为空集，则重新提取所述测量距离集的测量距离；

上面图2和图3从模块化功能实体的角度对本发明实施例中的文本资料的分类装置进行详细描述，下面从硬件处理的角度对本发明实施例中文本资料的分类设备进行详细描述。

图4是本发明实施例提供的一种文本资料的分类设备的结构示意图，该文本资料的分类设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）410（例如，一个或一个以上处理器）和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430（例如一个或一个以上海量存储设备）。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对文本资料的分类设备400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在文本资料的分类设备400上执行存储介质430中的一系列指令操作。

基于文本资料的分类设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4展示的文本资料的分类设备结构并不构成对基于文本资料的分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述文本资料的分类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本资料的分类方法，其特征在于，包括步骤：

获取房地产的文件图像数据；

将所述图像类型确定为文件图像数据的种类；

其中，在所述根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型之前，还包括：

获取M个带标签的训练图像数据；

将M个带标签的N维训练向量进行组合处理，生成N维测试节点集；

其中，所述根据预置回归算法，对所述筛选距离集进行分类回归处理，得到图像类型包括：

读取所述筛选距离集中每个筛选距离对应的标签；

统计每个种类的标签对应筛选距离数量；

判断所述方差值是否大于预置判定阈值；

若大于判定阈值，则将最大筛选距离数量对应的标签确定为图像类型；

其中，在所述判断所述方差值是否大于预置判定阈值之后，还包括：

2.根据权利要求1所述的文本资料的分类方法，其特征在于，所述基于预置OCR识别算法，对所述文件图像数据进行识别处理，得到图像特征数据包括：

3.根据权利要求1所述的文本资料的分类方法，其特征在于，所述筛选出所述测量距离集中小于预置划分阈值的测量距离，得到筛选距离集包括：

提取所述测量距离集的测量距离；

判断所述测量距离是否小于预置划分阈值；

4.根据权利要求3所述的文本资料的分类方法，其特征在于，所述重新提取所述测量距离集的测量距离包括：

判断所述测量距离集是否为空集；

若不为空集，则重新提取所述测量距离集的测量距离；

5.一种文本资料的分类装置，其特征在于，所述文本资料的分类装置包括：

获取模块，用于获取房地产的文件图像数据；

确定模块，用于将所述图像类型确定为文件图像数据的种类；

其中，所述文本资料的分类装置还包括训练模块，所述训练模块具体用于：

获取M个带标签的训练图像数据；

其中，所述回归处理模块具体用于：

读取所述筛选距离集中每个筛选距离对应的标签；

统计每个种类的标签对应筛选距离数量；

判断所述方差值是否大于预置判定阈值；

其中，所述文本资料的分类装置还包括更新模块，所述更新模块具体用于：

6.一种文本资料的分类设备，其特征在于，所述文本资料的分类设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本资料的分类设备执行如权利要求1-4中任一项所述的文本资料的分类方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的文本资料的分类方法。