CN113742485A - 一种处理文本的方法和装置 - Google Patents

一种处理文本的方法和装置 Download PDF

Info

Publication number
CN113742485A
CN113742485A CN202111047593.3A CN202111047593A CN113742485A CN 113742485 A CN113742485 A CN 113742485A CN 202111047593 A CN202111047593 A CN 202111047593A CN 113742485 A CN113742485 A CN 113742485A
Authority
CN
China
Prior art keywords
text
fragment
blocks
clustering
text blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111047593.3A
Other languages
English (en)
Inventor
李鹏
袁平广
黄英凡
李勇
包勇军
颜伟鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202111047593.3A priority Critical patent/CN113742485A/zh
Publication of CN113742485A publication Critical patent/CN113742485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种处理文本的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:能够利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。

Description

一种处理文本的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种处理文本的方法和装置。
背景技术
随着图像处理技术的飞速发展,基于图像的文本识别技术得到广泛应用,例如:利用OCR(Optical Character Recognition,光学字符识别)技术识别图像文档中包含的文本;在利用OCR技术处理图像文档时,通常基于一个图像文档生成多个文本段;而多个文本段是处于无序的状态。
目前,可以利用有监督机器学习方法,通过对各个文本段进行标注和训练,生成符合阅读顺序的连续文本,由于该方法需要获取训练所需的样本数据、为样本数据进行标注等,提高了处理文本的人力成本和计算资源,并且在样本数量不足的情况下,存在生成连续文本的准确率降低的问题。
发明内容
有鉴于此,本发明实施例提供一种处理文本的方法和装置,能够利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种处理文本的方法,其特征在于,包括:确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
可选地,所述处理文本的方法,其特征在于,所述对多个所述片段文本块进行聚类,包括:利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;根据每一个所述片段文本块的膨胀结果,查找具有连通关系的多个片段文本块;将具有连通关系的多个所述片段文本块聚类成一个聚类文本块。
可选地,所述处理文本的方法,其特征在于,进一步包括:
获取每一个所述片段文本块的特征坐标;基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块;所述利用预设的膨胀系数,对每一个所述片段文本块进行膨胀,包括:利用第一膨胀系数,对具有对齐关系的每一个片段文本块进行膨胀;利用第二膨胀系数,对剩余的每一个片段文本块进行膨胀。
可选地,所述处理文本的方法,其特征在于,所述对多个所述片段文本块进行聚类,进一步包括:在存在多个聚类文本块的情况下,进行迭代操作,将具有连通关系的所述聚类文本块进行聚类,生成新的聚类文本块。
可选地,所述处理文本的方法,其特征在于,
进一步包括:根据聚类的结果生成聚类树;基于所述聚类树查找满足预设合并策略的多个片段文本块,并执行对满足预设合并策略的多个片段文本块进行合并的步骤。
可选地,所述处理文本的方法,其特征在于,根据聚类的结果生成聚类树,包括:为所述聚类文本块包含的各个片段文本块构建对应的叶子节点;基于所述聚类文本块和所述叶子节点,构建上级节点以及根节点;将不属于任何一个所述聚类文本块的片段文本块对应的叶子节点关联到所述根节点。
可选地,所述处理文本的方法,其特征在于,
基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块,包括:将各个所述片段文本块基于所述特征坐标包含的垂直坐标进行排序;针对每一个所述片段文本块,执行步骤A1-A2:
A1:获取所述片段文本块、以及与所述片段文本块相邻的文本块的垂直坐标;计算所述片段文本块、与所述片段文本块相邻的文本块的垂直坐标的距离值;
A2:判断所述距离值是否小于第一预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有水平对齐关系。
可选地,所述处理文本的方法,其特征在于,
基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块,包括:将各个所述片段文本块基于所述特征坐标包含的水平坐标进行排序;针对每一个所述片段文本块,执行步骤B1-B2:
B1:获取所述片段文本块、以及与所述片段文本块相邻的水平坐标;计算片段文本块、与所述片段文本块相邻的文本块的水平坐标的距离值;
B2:判断所述距离值是否小于第二预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有垂直对齐关系。
可选地,所述处理文本的方法,其特征在于:所述预设合并策略,包括:在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,所述任意两个所述片段文本块满足合并策略的两个待合并文本块;
或者,在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,分别获取任意两个片段文本块包含文本对应的字符尺寸;计算所述任意两个片段文本块对应的字符尺寸之间的相似度数值;
在所述相似度数值不大于设定相似度阈值的情况下,所述任意两个片段文本块为满足合并策略的两个待合并文本块。
可选地,所述处理文本的方法,其特征在于,
所述在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并,包括:
基于所述聚类树包括的叶子节点的顺序,获取所述叶子节点对应的各个所述片段文本块;并循环执行步骤C1-C4,直到所有片段文本块均被匹配过,则结束循环:
C1:从各个所述片段文本块中选出当前文本块;
C2:判断所述当前文本块与相邻文本块是否满足所述预设合并策略;若匹配,则执行步骤C3;否则执行步骤C4;
C3:合并所述当前文本块和所述相邻文本块,得到合并文本块;将所述合并文本块作为当前文本块,执行C2的步骤;
C4:将相邻文本块作为当前文本块,执行C2的步骤。
为实现上述目的,根据本发明实施例的第二方面,提供了一种处理文本的装置,其特征在于,包括:文本聚类模块和文本合并模块;其中,
所述文本聚类模块,用于确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;
所述文本合并模块,用于针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
为实现上述目的,根据本发明实施例的第三方面,提供了一种处理文本的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述处理文本的方法中任一所述的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述处理文本的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明一个实施例提供的一种处理文本的方法的流程示意图;
图2是本发明一个实施例提供的一种聚类文本块的流程示意图;
图3是本发明一个实施例提供的一种合并文本块的流程示意图;
图4是本发明一个实施例提供的一种处理文本的装置的结构示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明实施例提供了一种处理文本的方法,该方法可以包括以下步骤:
步骤S101:确定待处理的多个片段文本块。
具体地,本发明的片段文本块以OCR(Optical Character Recognition,光学字符识别)文本块为例,在文本识别中,通常对包含文本的图像文档进行二值化处理,然后从图像文档(例如:商品详情图像文档)中提取文本,可以使用基于OCR的工具,即将一个图像文档使用OCR工具可以得到多个片段文本块,由于存在一个连续的文本对应多个OCR文本块的情况,即通过OCR工具获得的文本块的列表不能确保文本的连贯性,并且文本块是无序的,即与人阅读顺序不一致。因此,本发明处理OCR文本块,以通过多个文本块得到具有连贯性、与阅读顺序一致的目标文本。其中,在处理文本之前,可以通过设定特征,筛选去除与文本相关性较低的文本段,例如,表格文本段、图片文本段等。
步骤S102:对多个所述片段文本块进行聚类。
具体地,对待处理的多个片段文本块进行聚类操作,以确定多个片段文本块之间的关联性、顺序等信息。
优选地,聚类的方法包括利用图像处理工具(例如:OpenCV)判断片段文本块之间是否具有连通关系,经过迭代操作,将具有连通关系的文本块聚类为聚类文本块,即,聚类文本块中包含的各个片段文本块具有连通关系。
进一步地,在判断片段文本块之间是否具有连通关系之前,为每个片段文本块进行膨胀操作(膨胀为处理图像的一种方式,通过在图像的边缘添加像素值,使得整体的像素值扩张,进而达到图像的膨胀效果),通过膨胀操作可以提高图像处理工具判断连通关系、并执行聚类的准确性。即,所述对多个所述片段文本块进行聚类,包括:利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;根据每一个所述片段文本块的膨胀结果,查找具有连通关系的多个片段文本块;将具有连通关系的多个所述片段文本块聚类成一个聚类文本块,优选地,根据聚类的结果生成聚类树。
进一步地,所述为每个片段文本块进行膨胀操作之前需要为每一个片段文本块确定膨胀系数,以通过膨胀系数确定膨胀的范围;关于聚类的具体描述与步骤S201-步骤S206的描述一致,在此不再赘述。
通过聚类获得文本块之前的关联关系,提高了确定文本块的顺序的效率,为无监督的方法,与有监督的机器学习模型相比,降低了计算难度和复杂度,节省了人力和计算成本,提高了处理文本的效率。
步骤S103:针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
具体地,根据步骤S102所描述的聚类结果,对各个片段文本块执行合并操作,以得到连贯的符合阅读顺序的目标文本。关于执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并的具体描述与步骤S301-步骤S307的描述一致,在此不再赘述。
通过聚类后合并文本,提高了生成目标文本的效率,与有监督的机器学习模型相比,降低了计算难度和复杂度,节省了人力和计算成本,提高了处理文本的效率。
如图2所示,本发明实施例提供了一种聚类文本块的流程示意图;,该流程可以包括以下步骤:
步骤S201:获取每一个片段文本块的特征坐标。
具体地,片段文本块以通过OCR工具获得的文本块为例,片段文本块的特征坐标指示片段文本块的位置和范围,每个片段文本块包含隐形矩形框的数据以及对应的文本,特征坐标可以是隐形矩形框的左上角坐标和右下角坐标,以确定位置和范围。例如片段文本块用Si表示,其特征坐标为:(x1 i,y1 i),(x2 i,y2 i),其中,(x1 i,y1 i)对应Si左上角坐标,(x2 i,y2 i)对应Si右下角坐标;其包含的文本的字体尺寸表示为fi
步骤S202:基于每一个片段文本块的特征坐标,查找具有对齐关系的多个片段文本块。
具体地,查找具有对齐关系的多个片段文本块包括:查找具有水平对齐关系的多个片段文本块以及具有垂直对齐关系的片段文本块。
具体地:
1)查找具有水平对齐关系的多个片段文本块的方法为:
将各个所述片段文本块基于所述特征坐标包含的垂直坐标进行排序;针对每一个所述片段文本块,执行步骤A1-A2:
A1:获取所述片段文本块、以及与所述片段文本块相邻的文本块的垂直坐标;计算所述片段文本块、与所述片段文本块相邻的文本块的垂直坐标的距离值;
A2:判断所述距离值是否小于第一预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有水平对齐关系。
其中,可以针对各个片段文本块的垂直坐标y1 i进行排序;循环计算所述片段文本块、与所述片段文本块相邻的文本块的垂直坐标的距离值hdist,例如计算垂直坐标的距离值hdist的公式如下,其中,min表示取其包含的对应于垂直坐标的各个数值的计算结果之中的最小值:
hdist(Si,Si+1)=min(|y1 i-y1 i+1|,|y2 i-y2 i+1|,|(y1 i+y2 i)/2-(y1 i+1+y2 i+1)/2|)
其中,Si、Si+1代表两个相邻的片段文本块,进一步地,判断hdist是否小于第一预设值(wvfi),若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有水平对齐关系,通过本方法确定各个片段文本块是否具有与之水平对齐关系的文本块。
2)查找具有垂直对齐关系的多个片段文本块的方法为:
将各个所述片段文本块基于所述特征坐标包含的水平坐标进行排序;针对每一个所述片段文本块,执行步骤B1-B2:
B1:获取所述片段文本块、以及与所述片段文本块相邻的水平坐标;计算片段文本块、与所述片段文本块相邻的文本块的水平坐标的距离值;
B2:判断所述距离值是否小于第二预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有垂直对齐关系。
其中,可以针对各个片段文本块的水平坐标x1 i进行排序;计算所述片段文本块、与所述片段文本块相邻的文本块的水平坐标的距离值vdist,例如计算水平坐标的距离值vdist的公式如下,其中,min表示取其包含的对应于水平坐标的各个数值的计算结果之中的最小值:
vdist(Si,Si+1)=min(|x1 i-x1 i+1|,|x2 i-x2 i+1|,|(x1 i+x2 i)/2-(x1 i+1+x2 i+1)/2|)
判断vdist是否小于第二预设值(whfi),若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有垂直对齐关系,通过本方法确定各个片段文本块是否具有与之垂直对齐关系的文本块。
其中,fi为片段文本块Si包含的文本的字体尺寸,wh、wv可以设置为0.3。预设值可以根据图像文档的尺寸和格式设定。
步骤S203:利用第一膨胀系数,对具有对齐关系的每一个片段文本块进行膨胀;利用第二膨胀系数,对剩余的每一个片段文本块进行膨胀。
具体地,根据步骤S202的描述,确定每一个片段文本块的对齐关系(水平对齐关系、垂直对齐关系中的任意一种或多种)。
进一步地,根据利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;如果片段文本块具有水平对齐关系,则利用第一膨胀系数(例如:eahfi)进行膨胀;如果片段文本块具有垂直对齐关系,则利用第一膨胀系数(例如:eavfi)进行膨胀;如果片段文本块不具有对齐关系,则利用第二膨胀系数(例如:efi)进行膨胀(即,利用第二膨胀系数,对剩余的不具有对齐关系的片段文本块进行膨胀),其中,eah、eav均可以设置为0.6。该值的设定为根据图像文档的尺寸和格式设定。eah、eav可以设置为相同的值,也可以设置为不相同;e可以设置为0.2。fi为片段文本块中包含的文本的字体尺寸;可以理解的是,膨胀系数的不同于膨胀后的图像(即片段文本块)相关,通过设置不同的膨胀系数提高基于膨胀处理的片段文本块进行聚类的准确性,本发明对各个预设的膨胀系数的数值不作限定。
步骤S201-步骤S203的描述即为:获取每一个所述片段文本块的特征坐标;基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块;所述利用预设的膨胀系数,对每一个所述片段文本块进行膨胀,包括:利用第一膨胀系数,对具有对齐关系的每一个片段文本块进行膨胀;利用第二膨胀系数,对剩余的每一个片段文本块进行膨胀。可以理解的是,膨胀处理可以对各个每一文本块的水平方向和垂直方向基于膨胀系数进行扩大,即扩大每个片段文本块的隐形矩形的范围,扩大的隐形矩形范围即为得到的膨胀结果,通过膨胀操作增加了确定多个片段文本块具有联通关系的概率和准确性。
步骤S204:查找具有连通关系的多个片段文本块;将具有连通关系的多个所述片段文本块聚类成一个聚类文本块。
具体的,基于进行膨胀之后的各个片段文本块,查找具有连通关系的多个片段文本块;优选地,利用图像处理工具(例如:OpenCV)扫描膨胀后的二值图像,将具有连通关系的多个片段文本块聚类为聚类文本块;可以理解的是,聚类文本块所包含的片段文本块与原图像文档中文本的连贯性以及排列顺序一致的概率较高。
进一步地,可选地,针对聚类文本块继续执行聚类的操作,生成新的聚类文本块,即,所述对多个所述片段文本块进行聚类,进一步包括:在存在多个聚类文本块的情况下,进行迭代操作,将具有连通关系的所述聚类文本块进行聚类,生成新的聚类文本块。
即,利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;根据每一个所述片段文本块的膨胀结果,查找具有连通关系的多个片段文本块;将具有连通关系的多个所述片段文本块聚类成一个聚类文本块。
步骤S205:判断是否满足结束聚类的条件。若是,执行步骤S206;否则执行步骤S202。
具体地,聚类结束的条件包括:未聚类的聚类文本块数量为1、未聚类的片段文本块的数量为1、达到设定聚类迭代阈值(例如:设定聚类迭代阈值为3)中的任意一种;在满足任意一种聚类结束条件的情况下则结束聚类操作。否则执行步骤S202。
步骤S206:根据聚类的结果生成聚类树。
具体地,根据片段文本块、对应的聚类文本块,生成聚类树,以保存片段文本块以及对应的一层或多层聚类文本块的关联关系,其中,根据聚类的结果生成聚类树,包括:为所述聚类文本块包含的各个片段文本块构建对应的叶子节点;基于所述聚类文本块和所述叶子节点,构建上级节点以及根节点;将不属于任何一个所述聚类文本块的片段文本块对应的叶子节点关联到所述根节点。
进一步地,生成聚类树过程可以同步于聚类的过程,例如:在基于多个片段文本块生成聚类文本块时,即为聚类文本块包含的各个片段文本块构建对应的叶子节点,为聚类文本块构建上级节点,直到构建根节点,将未聚类的片段文本块(即将不属于任何一个所述聚类文本块的片段文本块)直接关联于根节点,形成聚类树。
如图3所示,本发明实施例提供了一种合并文本块的方法,该方法可以包括以下步骤;
步骤S301:获取所述叶子节点对应的各个片段文本块。
具体地,根据聚类的结果生成聚类树;遍历聚类树(例如使用深度优先的顺序对聚类树进行遍历),获取各个叶子节点,叶子节点对应于片段文本块,即,基于所述聚类树包括的叶子节点的顺序,获取所述叶子节点对应的各个所述片段文本块。进一步地,根据获取的片段文本块执行合并操作,即,基于所述聚类树查找满足预设合并策略的多个片段文本块,并执行对满足预设合并策略的多个片段文本块进行合并的步骤。
进一步地,所述预设合并策略,包括:在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,所述任意两个所述片段文本块满足合并策略的两个待合并文本块;或者,在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,分别获取任意两个片段文本块包含文本对应的字符尺寸;计算所述任意两个片段文本块对应的字符尺寸之间的相似度数值;在所述相似度数值不大于设定相似度阈值的情况下,所述任意两个片段文本块为满足合并策略的两个待合并文本块。
其中,通过聚类树获取叶子节点的上级节点,即可以获得叶子节点对应的片段文本块对应的聚类块,从而确定两个片段文本块是否具有共同的聚类块,即,在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点,作为预设的合并策略的条件;
进一步地,在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点的情况下,计算任意两个片段文本块对应的字符尺寸之间的相似度数,作为预设合并策略;其中,计算字符尺寸之间的相似度数值的方法为:若两个片段文本块不存在对齐关系,则利用公式|fi-fi+1|/fi<m判断是否满足相似度数值不大于设定相似度阈值(例如将m设置为0.06),其中,fi、fi+1分别代表片段文本块Si、片段文本块Si+1的文本字体尺寸,在不大于设定相似度阈值的情况下,确定两个片段文本块为满足合并策略的两个待合并文本块;若两个片段文本块存在对齐关系,则利用|fi-fi+1|/fi<ma公式判断是否满足相似度数值不大于设定相似度阈值(例如ma设置为0.3),在不大于设定相似度阈值的情况下,确定两个片段文本块为满足预设合并策略的两个待合并文本块。其中,两个待合并的待合并文本块为从片段文本块中所选取,待合并文本块的格式和内容与对应的片段文本块相同。
关于基于预设合并策略进行合并的描述与步骤S302-步骤S307的步骤一致,在此不再赘述。
步骤S302:判断所有片段文本块均被匹配过。如果是,执行步骤S303;否则执行步骤S304。
具体地,判断所有片段文本块均被匹配过即判断循环结束的条件,也即判断是否每一个片段文本块均被匹配过。
步骤S303:结束合并。
步骤S304:从各个所述片段文本块中选出当前文本块。
具体地,可以按照从聚类树获取的片段文本块顺序,依次选取片段文本块,例如:选取片段文本块列表中的第一个片段文本块,作为当前文本块,作为合并循环操作的起点。
步骤S305:判断所述当前文本块与相邻文本块是否满足所述预设合并策略。如果是,执行步骤S306;否则执行步骤S307。
具体地,关于预设合并策略的描述与步骤S301的描述一致,在此不再赘述。
步骤S306:合并所述当前文本块和所述相邻文本块,得到合并文本块。具体地,在得到合并本文块之后,可以将相邻的文本块删除,形成新的文本块列表,继续执行步骤S305以循环判断。进一步地,将合并文本块作为当前文本块时,计算合并文本块的特征坐标的顶点坐标可以使用以下方法:x1 i为min(x1 i,x1 i+1)的结果,即x1 i,x1 i+1中的最小值,类似的,y1 i为max(y1 i,y1 i+1)的结果;x2 i为min(x2 i,x2 i+1)的结果;y2 i为max(y2 i,y2 i+1)的结果。通过重新计算合并文本块的特征坐标,循环执行合并操作。直到所有片段文本块均被匹配过,则结束循环。即,按顺序遍历了列表中的各个片段文本块以后结束循环,基于合并的一个或多个文本块生成目标文本。
步骤S307:将相邻文本块作为当前文本块。执行步骤S305。
例如:片段文本块1、片段文本块2为相邻的片段文本块;判断片段文本块1、片段文本块2是否满足所述预设合并策略,如果满足,合并片段文本块1、片段文本块2为片段文本块A(即合并文本块),将片段文本块A作为当前文本块,继续和相邻文本块执行判断是否满足所述预设合并策略的步骤;如果片段文本块1、片段文本块2不满足所述预设合并策略,则将片段文本块2(即相邻文本块)作为当前文本块,继续和相邻文本块执行判断是否满足所述预设合并策略的步骤。
步骤S302-步骤S307的描述即为:所述在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并,包括:
基于所述聚类树包括的叶子节点的顺序,获取所述叶子节点对应的各个所述片段文本块;并循环执行步骤C1-C4,直到所有片段文本块均被匹配过,则结束循环:
C1:从各个所述片段文本块中选出当前文本块;
C2:判断所述当前文本块与相邻文本块是否满足所述预设合并策略;若匹配,则执行步骤C3;否则执行步骤C4;
C3:合并所述当前文本块和所述相邻文本块,得到合并文本块;将所述合并文本块作为当前文本块,执行C2的步骤;
C4:将相邻文本块作为当前文本块,执行C2的步骤。
如图4所示,本发明实施例提供了一种处理文本的装置400,包括:文本聚类模块401和文本合并模块402;其中,
所述文本聚类模块401,用于确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;
所述文本合并模块402,用于针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
本发明实施例还提供了一种处理文本的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。
图5示出了可以应用本发明实施例的处理文本的方法或处理文本的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如电子商城客户端应用、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
终端设备501、502、503可以是具有显示屏并且支持各种客户端应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到的处理文本的请求进行处理,并将目标文本给终端设备。
需要说明的是,本发明实施例所提供的处理文本的方法一般由服务器505执行,相应地,处理文本的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文本聚类模块和文本合并模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本聚类模块还可以被描述为“确定待处理的多个片段文本块;对多个所述片段文本块进行聚类的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
本发明的实施例,利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (13)

1.一种处理文本的方法,其特征在于,包括:
确定待处理的多个片段文本块;
对多个所述片段文本块进行聚类;
针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;
根据合并的结果,生成目标文本。
2.根据权利要求1所述的方法,其特征在于,所述对多个所述片段文本块进行聚类,包括:
利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;
根据每一个所述片段文本块的膨胀结果,查找具有连通关系的多个片段文本块;
将具有连通关系的多个所述片段文本块聚类成一个聚类文本块。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
获取每一个所述片段文本块的特征坐标;
基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块;
所述利用预设的膨胀系数,对每一个所述片段文本块进行膨胀,包括:
利用第一膨胀系数,对具有对齐关系的每一个片段文本块进行膨胀;
利用第二膨胀系数,对剩余的每一个片段文本块进行膨胀。
4.根据权利要求2所述的方法,其特征在于,所述对多个所述片段文本块进行聚类,进一步包括:
在存在多个聚类文本块的情况下,进行迭代操作,将具有连通关系的所述聚类文本块进行聚类,生成新的聚类文本块。
5.根据权利要求4所述的方法,其特征在于,
进一步包括:根据聚类的结果生成聚类树;
基于所述聚类树查找满足预设合并策略的多个片段文本块,并执行对满足预设合并策略的多个片段文本块进行合并的步骤。
6.根据权利要求5所述的方法,其特征在于,根据聚类的结果生成聚类树,包括:
为所述聚类文本块包含的各个片段文本块构建对应的叶子节点;
基于所述聚类文本块和所述叶子节点,构建上级节点以及根节点;
将不属于任何一个所述聚类文本块的片段文本块对应的叶子节点关联到所述根节点。
7.根据权利要求3所述的方法,其特征在于,
基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块,包括:
将各个所述片段文本块基于所述特征坐标包含的垂直坐标进行排序;
针对每一个所述片段文本块,执行步骤A1-A2:
A1:获取所述片段文本块、以及与所述片段文本块相邻的文本块的垂直坐标;计算所述片段文本块、与所述片段文本块相邻的文本块的垂直坐标的距离值;
A2:判断所述距离值是否小于第一预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有水平对齐关系。
8.根据权利要求3所述的方法,其特征在于,
基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块,包括:将各个所述片段文本块基于所述特征坐标包含的水平坐标进行排序;
针对每一个所述片段文本块,执行步骤B1-B2:
B1:获取所述片段文本块、以及与所述片段文本块相邻的水平坐标;计算片段文本块、与所述片段文本块相邻的文本块的水平坐标的距离值;
B2:判断所述距离值是否小于第二预设值,若是,则确定与所述片段文本块相邻的文本块以及所述片段文本块具有垂直对齐关系。
9.根据权利要求5所述的方法,其特征在于:所述预设合并策略,包括:
在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,所述任意两个所述片段文本块满足合并策略的两个待合并文本块;
或者,
在任意两个所述片段文本块对应的叶子节点具有相同的所述聚类文本块对应的上级节点时,分别获取任意两个片段文本块包含文本对应的字符尺寸;计算所述任意两个片段文本块对应的字符尺寸之间的相似度数值;
在所述相似度数值不大于设定相似度阈值的情况下,所述任意两个片段文本块为满足合并策略的两个待合并文本块。
10.根据权利要求5或9所述的方法,其特征在于,
所述在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并,包括:
基于所述聚类树包括的叶子节点的顺序,获取所述叶子节点对应的各个所述片段文本块;并循环执行步骤C1-C4,直到所有片段文本块均被匹配过,则结束循环:
C1:从各个所述片段文本块中选出当前文本块;
C2:判断所述当前文本块与相邻文本块是否满足所述预设合并策略;若匹配,则执行步骤C3;否则执行步骤C4;
C3:合并所述当前文本块和所述相邻文本块,得到合并文本块;将所述合并文本块作为当前文本块,执行C2的步骤;
C4:将相邻文本块作为当前文本块,执行C2的步骤。
11.一种处理文本的装置,其特征在于,包括:文本聚类模块和文本合并模块;其中,
所述文本聚类模块,用于确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;
所述文本合并模块,用于针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202111047593.3A 2021-09-08 2021-09-08 一种处理文本的方法和装置 Pending CN113742485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111047593.3A CN113742485A (zh) 2021-09-08 2021-09-08 一种处理文本的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111047593.3A CN113742485A (zh) 2021-09-08 2021-09-08 一种处理文本的方法和装置

Publications (1)

Publication Number Publication Date
CN113742485A true CN113742485A (zh) 2021-12-03

Family

ID=78736849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111047593.3A Pending CN113742485A (zh) 2021-09-08 2021-09-08 一种处理文本的方法和装置

Country Status (1)

Country Link
CN (1) CN113742485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115482537A (zh) * 2022-10-14 2022-12-16 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115482537A (zh) * 2022-10-14 2022-12-16 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统
CN115482537B (zh) * 2022-10-14 2024-03-12 北京中科万国互联网技术有限公司 基于迭代聚类处理ocr识别结果的文本对齐方法及系统

Similar Documents

Publication Publication Date Title
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
US20210200971A1 (en) Image processing method and apparatus
WO2022105119A1 (zh) 意图识别模型的训练语料生成方法及其相关设备
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN110619253B (zh) 身份识别的方法和装置
CN111160410A (zh) 一种物体检测方法和装置
CN115359308A (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN113742485A (zh) 一种处理文本的方法和装置
CN113837194A (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
CN113657411A (zh) 神经网络模型的训练方法、图像特征提取方法及相关装置
CN113902899A (zh) 训练方法、目标检测方法、装置、电子设备以及存储介质
CN111444364B (zh) 一种图像检测方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112256254A (zh) 一种生成布局代码的方法和装置
CN111143568A (zh) 一种论文分类时的缓冲方法、装置、设备及存储介质
CN114445833B (zh) 文本识别方法、装置、电子设备和存储介质
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN115563942A (zh) 一种合同生成方法、装置、电子设备及计算机可读介质
CN111783572B (zh) 一种文本检测方法和装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN113239687A (zh) 一种数据处理方法和装置
CN112418321A (zh) 标志图像的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination