CN112183035B - 一种文本标注方法、装置、设备及可读存储介质 - Google Patents
一种文本标注方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112183035B CN112183035B CN202011233453.0A CN202011233453A CN112183035B CN 112183035 B CN112183035 B CN 112183035B CN 202011233453 A CN202011233453 A CN 202011233453A CN 112183035 B CN112183035 B CN 112183035B
- Authority
- CN
- China
- Prior art keywords
- title
- word segmentation
- level
- text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 132
- 230000011218 segmentation Effects 0.000 claims abstract description 313
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例提供了一种文本标注方法、装置、设备及可读存储介质,在待标注的文本页的标题项中,确定表格的标题,从目标标题项中,按照排序的逆序查找满足预设条件的标题项,将满足预设条件的标题项中,排序在前的标题项作为上级标题,排序在后的标题项作为下级标题,预设条件包括:所述标题项之间不存在文本。依据上级标题和下级标题的区别特征,识别文本页中的上级标题和下级标题。将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果,从预设的对应关系中,查询目标分词单元,将目标分词单元对应的标注项,作为标题的标注结果。本方案确定各个标题的分级,因此不仅能够自动对文本中的标题进行标注,还能够保证标注结果的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本标注方法、装置、设备及可读存储介质。
背景技术
金融债券财务附注数据是发债企业披露的重要财务数据,金融分析师通过附注数据可以清晰地了解发债企业的现状,从而指导金融资本投资。
目前,债券财务附注数据包括附注项,每一附注项至少包括人工对披露文件进行标注得到的标注结果,标注结果为与披露文件中的标题对应的预设的标注项,例如,披露文件的附注数据中包括的附注项包括:“应付账款---第7页”,其中,“应收账款”为人工根据披露文件中的具体内容识别出的标题“应付的账款金额”对应的预设的标注项。
实际应用中,每个披露文件的附注数据包括大量的附注项,可见,由人工对披露文件进行标注的方法效率低,并且人工标注的过程完全依赖于标注人员的主观经验,标注的结果准确性低,生成的附注数据难以满足数据市场的需求。
发明内容
申请人在研究的过程中发现:对于包括多层级的标题的文本,标题所属的分级与标注结果的准确性相关,所以,对于这类文本,识别出标题所属的分级,有利于提高标注结果的准确性。
本申请提供了一种文本标注方法、装置、设备及可读存储介质,目的在于自动标注文本,并提高标注结果的准确性,如下:
一种文本标注方法,包括:
在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
可选的,所述文本页为文本中的任意一页,所述方法还包括:
如果所述文本中的其它文本页中没有识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的所述标题项的情况下,将所述文本页中的所述标题项,均作为所述上级标题;
如果所述文本中的其它文本页中识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的标题项的情况下,按照其它文本页中识别出的所述上级标题和所述下级标题的区别特征,从所述文本页的所述标题项中,识别所述上级标题和所述下级标题。
可选的,还包括:
按照所述排序,确定所述上级标题和所述下级标题之间的从属关系;
以预设的数据结构,存储所述从属关系。
可选的,所述对应关系包括上级分词单元与标注项的对应关系、以及下级分词单元与标注项的对应关系;所述上级分词单元与所述下级分词单元具有从属关系;
所述从预设的对应关系中,查询与所述标题的分级相同且与所述分词结果相似的分词单元,作为目标分词单元,包括:
从所述上级分词单元中,查询与所述上级标题的分词结果相似的上级分词单元,作为目标上级分词单元;
从隶属于所述目标上级分词单元的下级分词单元中,查询与隶属于所述上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
可选的,还包括:
在所述上级标题不存在隶属的下级标题的情况下,在所述下级分词单元中,查询与所述上级标题的分词结果相似的分词单元;
所述目标分词单元还包括:所述下级分词单元中与所述上级标题的分词结果相似的分词单元。
可选的,所述对应关系的获取过程包括:
从样本文本中识别所述上级标题和所述下级标题,作为样本标题;
对所述样本标题的指示的内容进行分词,得到样本分词结果;
依据所述样本分词结果与预设的所述标注项的相似性,确定所述分词结果对应的所述标注项。
可选的,还包括:
存储所述样本标题的指示的内容的分词结果,形成用于分词的词典。
可选的,所述标题指示的内容,包括:所述标题、以及所述标题与排序在所述标题之后的相邻标题之间的非标题文本;
所述方法还包括:
查询所述文本页中的目标文本,所述目标文本为不存在标题的所述非标题文本;
将所述文本页的上一页文本页中,排序最后的所述标题,作为所述目标文本的标题。
一种文本标注装置,包括:
表格标题获取模块,用于在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
标题项选择模块,用于从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
第一分级确定模块,用于按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
第二分级确定模块,用于依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
分词结果获取模块,用于将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
目标分词单元获取模块,用于从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
标注结果获取单元,用于将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
一种文本标注设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述的文本标注方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的文本标注方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的文本标注方法、装置、设备及可读存储介质,在待标注的文本页的标题项中,确定表格的标题,从目标标题项中,按照排序的逆序查找满足预设条件的标题项,其中,目标标题项包括表格的标题和排序在表格的标题之前的标题项,预设条件包括:标题项之间不存在文本,排序为文本页的排版顺序,可以理解的是,在实际应用中,下级标题与排序在该下级标题之后的相邻标题之间存在非标题文本,所以本方法进一步将满足预设条件的标题项中,排序在前的标题项作为上级标题,排序在后的标题项作为下级标题,因为,同一文本页中分级相同的标题的区别特征相同,所以依据上级标题和下级标题的区别特征,识别文本页中的上级标题和下级标题,可以得到准确的上级标题和下级标题。本方法进一步将识别出的各个标题指示的内容进行分词,得到上级标题的分词结果和下级标题的分词结果,从预设的对应关系中,查询目标分词单元。其中,目标分词单元包括与标题的分级相同且与分词结果相似的分词单元,对应关系包括分词单元与标注项的对应关系,分词单元为样本标题的分词结果,将目标分词单元对应的标注项,作为标题的标注结果。由于,本方法识别出各个标题的分级(上级标题或下级标题)所以,查询到的目标分词单元的准确性高,进一步,标题的标注结果的准确性高,综上,本方法不仅能够自动对文本中的标题进行标注,还能够保证标注结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种文本标注方法的具体实施方式的流程示意图;
图2为本申请实施例提供的一种上级标题和下级标题的示意图;
图3为本申请实施例提供的一种样本附注数据的生成方法;
图4a为本申请实施例提供的又一种文本标注方法的流程示意图;
图4b为本申请实施例提供的又一种文本标注方法的流程示意图;
图5为本申请实施例提供的一种B树结构的示意图;
图6为本申请实施例提供的一种文本标注装置的结构示意图;
图7为本申请实施例提供的一种文本标注设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请实施例提供的文本标注方法应用在但不限于对文本进行自动标注,需要说明的是,在实际应用中,披露文件为PDF(Portable Document Format,便携式文档格式)文件,一份披露文件包括多页文本页,可选的一种应用场景为:在金融债券领域,对披露文件的任意一页文本页进行标注。
图1为本申请实施例提供的一种文本标注方法的流程示意图,具体应用于对任意一页文本页进行标注的过程,如图1所示,具体可以包括下述S101~S108。
S101、在待标注的文本页的标题项中,确定表格的标题。
本实施例中,待标注的文本页为待标注的披露文件中的任意页。待标注的文本页中包括表格和标题项。
可选的一种确定表格标题的方法包括A1~A2。
A1、在待标注的文本页中,定位表格。
需要说明的是,由于披露文件中的文本页为PDF格式,所以,本实施例将PDF格式的文本页转换成HTML格式,通过查找标识表格的标签定位表格,具体地,可选地一种将PDF格式的文本页转换成HTML格式的方法包括A11~A12,如下:
A11、使用OCR(Optical Character Recognition,光学字符识别)解析技术,识别披露文件中的每一文本页的文字和数字,生成披露文件中的每一页的解析信息,其中,解析信息包括每一页内容的JSON格式的字符串,字符串包括:文本页的页码,文本页中的数字或文字的坐标。
需要说明的是,坐标指示文本页中的数字或文字的位置,A1的具体实现方式可以参见现有技术。
A12、依据每一文本页的解析信息,将PDF格式的文本页转换成HTML格式。
将PDF格式的文本页转换成HTML格式的具体实现方法包括:以TABLE标签标识表格,以P标签标识每一文本行,在文本行中,以段落标志标识标题项,需要说明的是,标题项的识别依据解析信息确定,可选地,当文本行满足:在预设的位置存在预设格式的数字并且为一个段落时,将文本行作为标题项。
需要说明的是,在HTML(Hyper Text Markup Language,超样本标记语言)格式的文本页中,表格的内容以及非表格的内容以不同的标签标识,非标题项的文本行和标题项的文本行以不同的标签标识。并且,每一文本行或表格的位置以坐标记录,文本行或表格的坐标包括根据文本行中的文字或数字的坐标确定的开始坐标和结束坐标。
进一步需要说明的是,将每一文本页由PDF格式转换为HTML格式的具体实现方式可以参见现有技术。
A2、从标题项中,确定表格的标题。
本实施例中,标题项为以P标签标识且具有段落标志的文本行。确定表格的标题的一种具体实现方式为:按照文本页的排版顺序,查找位于TABLE标签之前的标题项,并在位于TABLE标签之前的标题项的P标签中查找与TABLE标签相邻的P标签,作为目标P标签,将目标P标签标识的文本行作为表格的标题。
需要说明的是,从标题项中,确定表格的标题的方法还可以包括其它实现方式,具体可以参见现有技术,本实施例不做赘述。
S102、查询文本页中的目标文本,将文本页的上一页文本页中,排序最后的标题,作为目标文本的标题。
本实施例中,目标文本为不存在标题的非标题文本。可以理解的是,目标文本为文本页中,排序为第一的标题项之前的文本内容。当文本页中存在目标文本,表示目标文本为标题项包括的内容跨页的情况,目标文本的标题不在文本页中,所以,将上一页文本页中,排序最后的标题,作为目标文本的标题。
本实施例中,标题项的排序依据文本页的排版顺序确定,可选地,依据标题项的坐标确定标题项的排序,可选的,将目标文本的标题为文本页中排序第一的标题。
需要说明的是,本实施例通过使用上一文本页的标题确定目标文本的标题,避免由于非标题文本跨页的情况下,标题识别不准确的缺点。
S103、从目标标题项中,按照排序的逆序查找满足预设条件的标题项。
本实施例中,目标标题项包括表格的标题和排序在表格的标题之前的标题项。
本实施例中,以目标标题项按照排序包括文本标题wi(i为从1至n的整数,n为目标标题项中文本的标题的个数)表格的标题T为例,按照排序的逆序查找满足预设条件的标题项的方法为:
对于T,判断目标标题项中与T相邻的标题项(也即wn)之间是否存在文本,若不存在,则确定T与wn为满足预设条件的标题项。
若存在,则从wn开始,依次判断相邻的两个标题项(也即wi-1和wi)之间是否存在文本,若不存在,则确定wi-1和wi为满足预设条件的标题项。
若按照逆序查找至w2,w2和w1之前存在文本,则表示目标标题项中不存在满足预设条件的标题项。若文本页中还包括其它的目标标题项,则在其它目标标题项中查找预设条件的标题项。
需要说明的是,待标注的文本页中包括多个表格的情况下,文本页中包括多组目标标题项,本实施例中,从第一组目标标题项开始,从目标标题项中,按照排序的逆序查找满足预设条件的标题项。
S104、按照排序,将满足预设条件的标题项中,在前的标题项作为上级标题,在后的标题项作为下级标题。
需要说明的是,当目标标题项包括多组,由于在同一文本页中,所有上级标题的区别特征相同,所以可选地,本实施例从一组目标标题项识别出上级标题和下级标题即可。
S105、依据上级标题和下级标题的区别特征,识别文本页中的上级标题和下级标题。
本实施例中,区别特征为根据标题项的文本内容预先识别出的特征,例如,以标识标题项的段落标志作为区别特征,段落标志不同的标题项,标题项的分级不同。则,在文本页的标题项中,将与上级标题的段落标志相同的标题项识别为上级标题,将与下级标题的段落标志相同的标题项识别为下级标题。以上级标题为一级标题和下级标题为二级标题为例,图2示例了一种上级标题和下级标题的示意图,如图2所示,二级标题为“(1)预付款项按账龄列示”,一级标题为“7、预付款项”。其中,“(1)”和“7、”为分别为一级标题和二级标题的区别特征,在S101中可以利用OCR识别技术识别并以段落标志标识。
需要说明的是,目标文本的标题和上一页文本页中排序最后的标题项的分级相同。例如,若上一页文本页中排序最后的标题项为上级标题,目标文本的标题为上级标题。
S106、将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果。
本实施例中,标题包括上级标题和下级标题。标题指示的内容具体包括:标题、以及标题与排序在标题之后的相邻标题之间的非标题文本,需要说明的是,提取各个标题指示的内容的方法可以为依据标题的对应坐标提取,具体可以参见现有技术。
具体地,以预设的用于分词的词典为依据,利用人工智能分词技术将各个标题指示的内容进行分词,得到符合分词词典的多个词语,并将词语进行去脏处理,得到的分词结果为最小分词集合。一般情况下,最小分词集合中包括的词语的词性为动词或名词。
需要说明的是,分词得到的分词结果能够以最精炼的词语集合代表标题指示的内容,分词的具体实现方法以及词典的获取方法均可参见图3所示的流程。
S107、从预设的对应关系中,查询目标分词单元。
本实施例中,目标分词单元包括与标题的分级相同且与分词结果相似的分词单元,也即,目标分词单元至少包括与上级标题分词结果相似的分词单元以及与下级标题分词结果相似的分词单元。对应关系包括分词单元与标注项的对应关系,分词单元为样本标题的分词结果。
可选地,一种查询目标分词单元的方法包括B1~B2,如下:
B1、从上级分词单元中,查询与上级标题的分词结果相似的上级分词单元,作为目标上级分词单元。
本实施例中,上级分词单元预先通过对样本标题中的上级标题指示的内容分词得到。下级分词单元预先通过对样本标题中的下级标题指示的内容分词得到。判断上级标题的分词结果是否与上级分词单元相似的方法为,计算上级标题的分词结果中的词语与上级分词单元中的词语的汉明距离,依据汉明距离确定相似度,汉明距离越大,则相似度越高,当相似度大于预设的第一阈值时,确定上级标题的分词结果与上级分词单元相似。
B2、从下级分词单元中,查询与下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
本实施例中,下级标题的分词结果与下级分词单元是否相似的判断方法可以参见B1。
需要说明的是,获取对应关系的方法可以参见图3所示流程,本实施例不做赘述。
需要说明的是,B1~B2仅为本实施例公开的一种可选的查询目标分词单元的具体实现方式,需要说明的是,还包括其它的具体实现方式,本实施例不做赘述。
S108、将目标分词单元对应的标注项,作为标题的标注结果。
具体地,将目标上级分词单元对应的标注项,作为上级标题的标注结果,将目标下级分词单元对应的标注项,作为下级标题的标注结果。
本实施例中,上级分词单元与标注项的对应关系和下级分词单元与标注项的对应关系预先存储,获取分词单元与标注项的对应关系的方法参见图3所示的流程。
需要说明的是,图1所示的文本标注方法不限于应用于在金融债券领域对披露文件进行标注,还可以应用于其它的文本,并且,图1仅为本申请实施例提供的文本标注方法用于标注任意一页文本页时,可选的一种具体实现方式,例如,S102为可选的步骤,再例如,当文本页中不存在表格,可以将本实施例中,表格的标题替换为任意标题项,执行S103~108。
由上述技术方案可以看出,本申请提供的文本标注方法,在待标注的文本页的标题项中,确定表格的标题,从目标标题项中,按照排序的逆序查找满足预设条件的标题项,其中,目标标题项包括表格的标题和排序在表格的标题之前的标题项,预设条件包括:标题项之间不存在文本,排序为文本页的排版顺序,可以理解的是,在实际应用中,下级标题与排序在该下级标题之后的相邻标题之间存在非标题文本,所以本方法进一步将满足预设条件的标题项中,排序在前的标题项作为上级标题,排序在后的标题项作为下级标题,因为,同一文本页中分级相同的标题的区别特征相同,所以依据上级标题和下级标题的区别特征,识别文本页中的上级标题和下级标题,可以得到准确的上级标题和下级标题。本方法进一步将识别出的各个标题指示的内容进行分词,得到上级标题的分词结果和下级标题的分词结果,从预设的对应关系中,查询目标分词单元。其中,目标分词单元包括与标题的分级相同且与分词结果相似的分词单元,对应关系包括分词单元与标注项的对应关系,分词单元为样本标题的分词结果,将目标分词单元对应的标注项,作为标题的标注结果。由于,本方法识别出各个标题的分级(上级标题或下级标题)所以,查询到的目标分词单元的准确性高,进一步,标题的标注结果的准确性高,综上,不仅能够自动对文本中的标题进行标注,还能够保证标注结果的准确性。
图3为本申请实施例提供的一种样本附注数据的生成方法,其中,样本附注数据包括对应关系以及词典,其中,对应关系包括:分词单元与标注项的对应关系,词典用于对标题指示的内容进行分词。具体可以包括S301~S304,如下:
S301、从样本文本中识别上级标题和下级标题,作为样本标题。
需要说明的是,样本标题的获取方法可以包括多种,例如,利用人工在大量的样本文本中识别上级标题和下级标题,再例如,识别样本文本中的上级标题和下级标题的方法可以参见上述S101~S106,可见,S101~S106自动识别样本文本中的作为样本标题,提高样本标题获取的效率和准确性。
S302、对样本标题的指示的内容进行分词,得到样本分词结果。
具体地,获取分词结果的方法包括多种,可选的一种方法为依据词性规则获取样本分词结果,包括:
B1、对样本标题进行分词,得到至少一个分词以及分词的词性。
B2、依据分词以及分词的词性,获取最小词性集合。
需要说明的是,最小词性集合依据分词以及分词的词性得到,最小词性集合中包括至少一个分词的词性,最小词性集合能够表达样本标题的语义,获取最小词性集合的方法参见现有技术。
B3、将提取满足最小词性集合的分词作为目标分词。
B4、将目标分词按顺序组合,得到分词结果。
需要说明的是,任一样本标题的分词结果能够指示样本标题的语义,并且,分词结果中包括的分词数量最少。
S303、依据样本分词结果与预设的标注项的相似性,确定分词结果对应的标注项。
本实施例中,标注项包括预先配置的标准标题,获取样本分词结果对应的标注项的方法为:
将标注项进行分词,得到标注分词结果,计算标注分词结果和样本分词结果的汉明距离,并依据汉明距离计算相似度,当相似度大于第二阈值时,确定样本分词结果与标注项对应。
获取每一样本分词结果对应的标注项,由此生成分词结果与标注项的对应关系。
需要说明的是,第二阈值的数值依据对分词结果与标注项的对应关系的人工稽核结果进行调整,得到准确率较高的对应关系,由此,提高了目标分词单元对应的标注项的准确性,进一步,保证了标注结果的准确性,无需进行人工稽核。
S304、存储样本标题的指示的内容的分词结果,形成用于分词的词典。
需要说明的是,样本标题的指示的内容的分词结果依据大量的样本文本得到,相对于现有的词典,与待标注的文本的相关性更高,所以,分词的准确性高,进一步标注结果准确性高。
本申请实施例提供的文本标注方法还可以应用于在文本包括多页文本页时,对多页文本页进行标注的场景。例如,文本包括两页文本页,分别记为第一文本页和第二文本页,其中,第一文本页为第二文本页的前一页。本申请实施例提供了又一种可选的文本标注方法的具体实现方式,具体用于标注文本的第一文本页和第二文本页。
本实施例中,按照页码的顺序标注文本页,首先标注第一文本页,然后标注第二文本页,本实施例分别参照图4a和图4b,对文本标注方法的实现过程进行介绍。
图4a所示的流程用于自动标注第一文本页,并提高标注结果的准确性。包括S401~410,如下:
S401、在第一文本页的标题项中,确定表格的标题。
需要说明的是,以第一文本页为待标注的文本页,第一文本页中包括表格和标题项,具体的确定表格的标题的方法参见上述S101,本实施例在此不做赘述。
S402、从目标标题项中,按照排序的逆序查找满足预设条件的标题项。
本实施例中,目标标题项包括表格的标题和排序在表格的标题之前的标题项。从目标标题项中,按照排序的逆序查找满足预设条件的标题项的具体方法可以参见上述S103,本实施例在此不做赘述。
需要说明的是,在存在满足预设条件的标题项的情况下,执行S403~S404,不存在满足预设条件的标题项的情况下,执行S405。
S403、在存在满足预设条件的标题项的情况下,按照排序,将满足预设条件的标题项中,在前的标题项作为上级标题,在后的标题项作为下级标题。
S404、依据上级标题和下级标题的区别特征,识别第一文本页中的上级标题和下级标题。
需要说明的是,S403~S404具体实现方法可以参见上述S104~S105,本实施例在此不做赘述。
S405、在不存在满足预设条件的标题项的情况下,将第一文本页中的所有的标题均作为一级标题。
S406、按照排序,确定上级标题和下级标题之间的从属关系。
本实施例中,针对任意一个下级标题,下级标题隶属于排序在该下级标题之前、并与该下级标题最近的一个上级标题。以上级标题为一级标题和下级标题为二级标题为例,如图2所示,二级标题“(1)预付款项按账龄列示”隶属于一级标题“7、预付款项”。
需要说明的是,将上级标题和下级标题之间的从属关系、上级标题以及上级标题的对应页码、上级标题包括的各个下级标题以及每一下级标题的对应页码,标题(上级标题或下级标题)的对应页码包括:标题指示的内容所在的页码,标题指示的内容包括标题、以及标题与排序在标题之后的与标题分级相同的相邻标题之间的非标题文本。其中,对应页码依据文本行或表格的坐标获取,具体可以参见现有技术。
S407、以预设的数据结构,存储从属关系。
本实施例中,预设的数据结构为B树结构,依据识别结果将从属关系存储至B树结构中,以文件为债券财务附注公告为例,债券财务附注公告中的上级标题为一级标题,下级标题为二级标题,图5示例了依据债券财务附注公告得到的B树结构的示意图。具体的生成B树结构的方法可以参见现有技术。
需要说明的是,本实施例中,预设的数据结构不限于B树,还包括可选的多种数据结构,依据B树的结构特性和遍历规则,本实施例以B树存储从属关系,提高了数据处理的速度。
S408、将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果。
本实施例中,依据B树的遍历规则,依次提取标题指示的内容,标题至少包括上级标题,当识别出上级标题和下级标题的情况下,标题包括上级标题和下级标题。标题指示的内容具体包括:标题、以及标题与排序在标题之后的相邻标题之间的非标题文本。
将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果的具体实现方式可以参见上述S106,本实施例在此不做赘述。
S409、从预设的对应关系中,查询目标分词单元。
本实施例中,目标分词单元包括与标题的分级相同且与分词结果相似的分词单元,也即,目标分词单元包括与上级标题分词结果相似的分词单元以及与下级标题分词结果相似的分词单元。对应关系包括分词单元与标注项的对应关系,分词单元为样本标题的分词结果。
具体的一种查询目标分词单元的方法包括C1~C3,如下:
C1、从上级分词单元中,查询与上级标题的分词结果相似的上级分词单元,作为目标上级分词单元。
获取目标上级分词单元的方法具体可以参见上述S107,本实施例在此不做赘述。
C2、从隶属于目标上级分词单元的下级分词单元中,查询与隶属于上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
本实施例中,上级分词单元和下级分词单元具有从属关系,从属关系依据得到上级分词单元和下级分词单元的样本标题的从属关系确定。需要说明的是,下级标题的分词结果与下级分词单元是否相似的判断方法可以参见S107。
C3、若不存在隶属于上级标题的下级标题,和/或,不存在目标上级分词单元,则,在下级分词单元中,查询与上级标题的分词结果相似的分词单元,作为目标上级分词单元。
需要说明的是,目标分词单元还包括下级分词单元中与上级标题的分词结果相似的分词单元,上级标题的分词结果与下级分词单元是否相似的判断方法可以参见S107。
综上,本实施例识别出各个标题的分级,以及上级标题和下级标题的从属关系后,对于不同分级的标题,查询目标分词单元的查找范围不同,例如,当确定上级标题的目标分词单元(也即目标上级分词单元)后,无需在所有的分词单元中查找与下级标题的分词结果相似的分词单元,提高了查找的效率,进一步提高标注的效率。若不存在隶属于上级标题的下级标题,和/或,不存在目标上级分词单元,则,在下级分词单元中,查询与上级标题的分词结果相似的分词单元,避免由于标题分级的误判导致的标注不准确。所以,提高查询效率的同时,能够保证查询结果的准确性。
S410、将目标分词单元对应的标注项,作为标题的标注结果。
具体地,将目标上级分词单元对应的标注项,作为上级标题的标注结果,将目标下级分词单元对应的标注项,作为下级标题的标注结果。
S401~S410为本实施例提供的标注第一文本页的一种可选的具体实现方式,用于自动标注第一文本页,并提高标注结果的准确性。
图4b所示的流程用于自动标注第二文本页,并提高标注结果的准确性。包括S411~422,如下:
S411、在第二文本页的标题项中,确定表格的标题。
需要说明的是,以第二文本页为待标注的文本页,第二文本页中包括表格和标题项,具体的确定表格的标题的方法参见上述S101,本实施例在此不做赘述。
S412、查询文本页中的目标文本,将第一文本页中,排序最后的标题,作为目标文本的标题。
具体参见上述S102,本实施例在此不赘述。
S413、从目标标题项中,按照排序的逆序查找满足预设条件的标题项。
具体参见上述S103,本实施例在此不赘述。
需要说明的是,在存在满足预设条件的标题项的情况下,执行S414~S415,不存在满足预设条件的标题项的情况下,执行S416或S417。
S414、将满足预设条件的标题项中,排序在前的标题项作为上级标题,排序在后的标题项作为下级标题。
S415、依据上级标题和下级标题的区别特征,识别第二文本页中的上级标题和下级标题。
需要说明的是,S414~S415具体实现方法可以参见上述S104~S105,本实施例在此不做赘述。
S416、若第二文本页的目标标题项中不存在满足预设条件的标题项,并且,第一文本页没有识别出上级标题和下级标题,则,将第二文本页中的标题项,均作为上级标题。
S417、若第二文本页的目标标题项中不存在满足预设条件的标题项,并且,第一文本页中识别出上级标题和下级标题,按照第一文本页中识别出的上级标题和下级标题的区别特征,从第二文本页的标题项中,识别上级标题和下级标题。
本实施例中,将第二文本页的标题项中,与第一文本页中识别出的上级标题的区别特征相同的标题项,作为上级标题。将第二文本页的标题项中,与第一文本页中识别出的下级标题的区别特征相同的标题项,作为下级标题。
需要说明的是,一般情况下,在同一文本页中,所有上级标题的区别特征相同,所有下级标题的区别特征相同,所以,本实施例中,对于第二文本页(或第一文本页),依据上级标题和下级标题的区别特征识别其它的标题项属于上级标题或下级标题,既保证了标题项的标题的分级(上级标题或下级标题)识别准确性,又提高了识别效率。
进一步,当在第二文本页不存在满足预设条件的标题项的情况下,依据其它文本页(也即第一文本页)的标注结果,对第二文本页将进行标注,提高第二文本页的标注结果的准确性。
S418、按照排序,确定上级标题和下级标题之间的从属关系。
S419、以预设的数据结构,存储从属关系。
需要说明的是,文本中所有文本页中的上级标题和下级标题之间的从属关系存储至同一B树中,如图5所示,第一文本页中的上级标题和下级标题之间的从属关系、以及第二文本页中的上级标题和下级标题之间的从属关系存储至B树中。
S420、将识别出的各个标题指示的内容进行分词,得到各个标题的分词结果。
需要说明的是,标题指示的内容包括标题、以及标题与排序在标题之后的相邻标题之间的非标题文本,其中,目标文本的标题包括的内容包括标题、以及目标文本。S418~S420的具体实现方式参见S406~S408,本实施例在此不做赘述。
S421、从预设的对应关系中,查询目标分词单元。
S422、将目标分词单元对应的标注项,作为标题的标注结果。
S421~S422的具体实现方式参见S409~S410,本实施例在此不做赘述。
需要说明的是,S411~S422为本实施例提供的标注第二文本页的一种可选的具体实现方式,用于自动标注第二文本页,并提高标注结果的准确性。
进一步需要说明的是,本方法不限于应用于只包括两页文本页的文本的标注,例如,当文本包括的文本的页数大于2时,标注除首页以外的文本页时,若文本页的目标标题项中不存在满足预设条件的标题项,并且,其它文本页没有识别出上级标题和下级标题,则,将文本页中的标题项,均作为上级标题,其中,其它文本页为除当前处理的文本页之外的文本页。
综上,本方法能够自动标注包括多页的文本,并提高标注的准确性。
需要说明的是,在实际应用中,在得到标注结果后,进一步依据标注结果生成附注数据。
具体地,将上级标题的标注结果和上级标题的对应页码作为上级标题的附注数据,将下级标题的标注结果和下级标题的对应页码作为下级标题的附注数据。
需要说明的是,目标文本的标题与文本页的上一页文本页中,排序最后的标题为同一标题,所以,保留文本页的上一页文本页中,排序最后的标题的标注结果,并且,将文本页的上一页文本页中,排序最后的标题包括的内容的页码包括起始页码和结束页码,起始页码为上一页文本页中,排序最后的标题的页码,结束页码为目标文本所在的文本页的页码。
由上述技术方案可以看出,本申请提供的文本标注方法,能够提高标注结果的准确性,进一步保证附注数据的准确性,满足数据市场的需求。
图6示出了本申请实施例提供的一种文本标注装置的结构示意图,如图6所示,该装置可以包括:
表格标题获取模块,用于在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
标题项选择模块,用于从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
第一分级确定模块,用于按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
第二分级确定模块,用于依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
分词结果获取模块,用于将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
目标分词单元获取模块,用于从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
标注结果获取单元,用于将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
具体的,上述各个模块的的功能的具体实现方式,可以参见上述方法实施例。
本实施例所述的装置,不仅能够自动对文本中的标题进行标注,还能够保证标注结果的准确性。
图7示出了该文本标注设备的结构示意图,该设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种文本标注方法的各个步骤,如下:
一种文本标注方法,包括:
在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
可选的,所述文本页为文本中的任意一页,所述方法还包括:
如果所述文本中的其它文本页中没有识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的所述标题项的情况下,将所述文本页中的所述标题项,均作为所述上级标题;
如果所述文本中的其它文本页中识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的标题项的情况下,按照其它文本页中识别出的所述上级标题和所述下级标题的区别特征,从所述文本页的所述标题项中,识别所述上级标题和所述下级标题。
可选的,还包括:
按照所述排序,确定所述上级标题和所述下级标题之间的从属关系;
以预设的数据结构,存储所述从属关系。
可选的,所述对应关系包括上级分词单元与标注项的对应关系、以及下级分词单元与标注项的对应关系;所述上级分词单元与所述下级分词单元具有从属关系;
所述从预设的对应关系中,查询与所述标题的分级相同且与所述分词结果相似的分词单元,作为目标分词单元,包括:
从所述上级分词单元中,查询与所述上级标题的分词结果相似的上级分词单元,作为目标上级分词单元;
从隶属于所述目标上级分词单元的下级分词单元中,查询与隶属于所述上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
可选的,还包括:
在所述上级标题不存在隶属的下级标题的情况下,在所述下级分词单元中,查询与所述上级标题的分词结果相似的分词单元;
所述目标分词单元还包括:所述下级分词单元中与所述上级标题的分词结果相似的分词单元。
可选的,所述对应关系的获取过程包括:
从样本文本中识别所述上级标题和所述下级标题,作为样本标题;
对所述样本标题的指示的内容进行分词,得到样本分词结果;
依据所述样本分词结果与预设的所述标注项的相似性,确定所述分词结果对应的所述标注项。
可选的,还包括:
存储所述样本标题的指示的内容的分词结果,形成用于分词的词典。
可选的,所述标题指示的内容,包括:所述标题、以及所述标题与排序在所述标题之后的相邻标题之间的非标题文本;
所述方法还包括:
查询所述文本页中的目标文本,所述目标文本为不存在标题的所述非标题文本;
将所述文本页的上一页文本页中,排序最后的所述标题,作为所述目标文本的标题。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种文本标注方法的各个步骤,如下:
一种文本标注方法,包括:
在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
可选的,所述文本页为文本中的任意一页,所述方法还包括:
如果所述文本中的其它文本页中没有识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的所述标题项的情况下,将所述文本页中的所述标题项,均作为所述上级标题;
如果所述文本中的其它文本页中识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的标题项的情况下,按照其它文本页中识别出的所述上级标题和所述下级标题的区别特征,从所述文本页的所述标题项中,识别所述上级标题和所述下级标题。
可选的,还包括:
按照所述排序,确定所述上级标题和所述下级标题之间的从属关系;
以预设的数据结构,存储所述从属关系。
可选的,所述对应关系包括上级分词单元与标注项的对应关系、以及下级分词单元与标注项的对应关系;所述上级分词单元与所述下级分词单元具有从属关系;
所述从预设的对应关系中,查询与所述标题的分级相同且与所述分词结果相似的分词单元,作为目标分词单元,包括:
从所述上级分词单元中,查询与所述上级标题的分词结果相似的上级分词单元,作为目标上级分词单元;
从隶属于所述目标上级分词单元的下级分词单元中,查询与隶属于所述上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
可选的,还包括:
在所述上级标题不存在隶属的下级标题的情况下,在所述下级分词单元中,查询与所述上级标题的分词结果相似的分词单元;
所述目标分词单元还包括:所述下级分词单元中与所述上级标题的分词结果相似的分词单元。
可选的,所述对应关系的获取过程包括:
从样本文本中识别所述上级标题和所述下级标题,作为样本标题;
对所述样本标题的指示的内容进行分词,得到样本分词结果;
依据所述样本分词结果与预设的所述标注项的相似性,确定所述分词结果对应的所述标注项。
可选的,还包括:
存储所述样本标题的指示的内容的分词结果,形成用于分词的词典。
可选的,所述标题指示的内容,包括:所述标题、以及所述标题与排序在所述标题之后的相邻标题之间的非标题文本;
所述方法还包括:
查询所述文本页中的目标文本,所述目标文本为不存在标题的所述非标题文本;
将所述文本页的上一页文本页中,排序最后的所述标题,作为所述目标文本的标题。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本标注方法,其特征在于,包括:
在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述文本页为文本中的任意一页,所述方法还包括:
如果所述文本中的其它文本页中没有识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的所述标题项的情况下,将所述文本页中的所述标题项,均作为所述上级标题;
如果所述文本中的其它文本页中识别出所述上级标题和所述下级标题,则在所述目标标题项中不存在所述满足预设条件的标题项的情况下,按照其它文本页中识别出的所述上级标题和所述下级标题的区别特征,从所述文本页的所述标题项中,识别所述上级标题和所述下级标题。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
按照所述排序,确定所述上级标题和所述下级标题之间的从属关系;
以预设的数据结构,存储所述从属关系。
4.根据权利要求1所述的方法,其特征在于,所述对应关系包括上级分词单元与标注项的对应关系、以及下级分词单元与标注项的对应关系;所述上级分词单元与所述下级分词单元具有从属关系;
所述从预设的对应关系中,查询与所述标题的分级相同且与所述分词结果相似的分词单元,作为目标分词单元,包括:
从所述上级分词单元中,查询与所述上级标题的分词结果相似的上级分词单元,作为目标上级分词单元;
从隶属于所述目标上级分词单元的下级分词单元中,查询与隶属于所述上级标题的下级标题的分词结果相似的下级分词单元,作为目标下级分词单元。
5.根据权利要求4所述的方法,其特征在于,还包括:
在所述上级标题不存在隶属的下级标题的情况下,在所述下级分词单元中,查询与所述上级标题的分词结果相似的分词单元;
所述目标分词单元还包括:所述下级分词单元中与所述上级标题的分词结果相似的分词单元。
6.根据权利要求1所述的方法,其特征在于,所述对应关系的获取过程包括:
从样本文本中识别所述上级标题和所述下级标题,作为样本标题;
对所述样本标题的指示的内容进行分词,得到样本分词结果;
依据所述样本分词结果与预设的所述标注项的相似性,确定所述分词结果对应的所述标注项。
7.根据权利要求1所述的方法,其特征在于,所述标题指示的内容,包括:所述标题、以及所述标题与排序在所述标题之后的相邻标题之间的非标题文本;
所述方法还包括:
查询所述文本页中的目标文本,所述目标文本为不存在标题的所述非标题文本;
将所述文本页的上一页文本页中,排序最后的所述标题,作为所述目标文本的标题。
8.一种文本标注装置,其特征在于,包括:
表格标题获取模块,用于在待标注的文本页的标题项中,确定表格的标题;所述待标注的文本页中包括所述表格和所述标题项;
标题项选择模块,用于从目标标题项中,按照排序的逆序查找满足预设条件的所述标题项,其中,所述目标标题项包括所述表格的标题和排序在所述表格的标题之前的所述标题项,所述预设条件包括:所述标题项之间不存在文本;所述排序为所述文本页的排版顺序;
第一分级确定模块,用于按照所述排序,将所述满足预设条件的标题项中,在前的所述标题项作为上级标题,在后的所述标题项作为下级标题;
第二分级确定模块,用于依据所述上级标题和所述下级标题的区别特征,识别所述文本页中的所述上级标题和所述下级标题;
分词结果获取模块,用于将识别出的各个标题指示的内容进行分词,得到各个所述标题的分词结果,所述标题包括所述上级标题和所述下级标题;
目标分词单元获取模块,用于从预设的对应关系中,查询目标分词单元,所述目标分词单元包括与所述标题的分级相同且与所述分词结果相似的分词单元,所述对应关系包括所述分词单元与标注项的对应关系,所述分词单元为样本标题的分词结果;
标注结果获取单元,用于将所述目标分词单元对应的所述标注项,作为所述标题的标注结果。
9.一种文本标注设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的文本标注方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的文本标注方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011233453.0A CN112183035B (zh) | 2020-11-06 | 2020-11-06 | 一种文本标注方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011233453.0A CN112183035B (zh) | 2020-11-06 | 2020-11-06 | 一种文本标注方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183035A CN112183035A (zh) | 2021-01-05 |
CN112183035B true CN112183035B (zh) | 2023-11-21 |
Family
ID=73917075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011233453.0A Active CN112183035B (zh) | 2020-11-06 | 2020-11-06 | 一种文本标注方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183035B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064157B (zh) * | 2021-11-09 | 2023-09-15 | 中国电力科学研究院有限公司 | 基于页面元素识别的自动化流程实现方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250362A (zh) * | 2015-06-05 | 2016-12-21 | 富士通株式会社 | 文本分割装置以及文本分割方法 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN109816503A (zh) * | 2019-01-04 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 财务明细数据生成方法、装置、计算机设备和存储介质 |
CN110348974A (zh) * | 2019-05-21 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 财务报表处理方法和装置 |
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
-
2020
- 2020-11-06 CN CN202011233453.0A patent/CN112183035B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250362A (zh) * | 2015-06-05 | 2016-12-21 | 富士通株式会社 | 文本分割装置以及文本分割方法 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
CN109816503A (zh) * | 2019-01-04 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 财务明细数据生成方法、装置、计算机设备和存储介质 |
CN110348974A (zh) * | 2019-05-21 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 财务报表处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
铁路企业账务及报表处理子系统V6.0设计与实现;杨银占;刘承亮;孙晶;;铁路计算机应用(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112183035A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9785830B2 (en) | Methods for automatic structured extraction of data in OCR documents having tabular data | |
US9141691B2 (en) | Method for automatically indexing documents | |
US9633257B2 (en) | Method and system of pre-analysis and automated classification of documents | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
US20110188759A1 (en) | Method and System of Pre-Analysis and Automated Classification of Documents | |
CN111191022B (zh) | 商品短标题生成方法及装置 | |
CN104933152A (zh) | 命名实体识别方法及装置 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
US20230342400A1 (en) | Document search device, document search program, and document search method | |
Duygulu et al. | A hierarchical representation of form documents for identification and retrieval | |
CN112183035B (zh) | 一种文本标注方法、装置、设备及可读存储介质 | |
US20140181124A1 (en) | Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents | |
TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
CN116522872A (zh) | 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统 | |
US20220138259A1 (en) | Automated document intake system | |
CN111340029A (zh) | 用于识别收件人地址中的至少部分地址的装置和方法 | |
CN112597267B (zh) | 一种基于模式识别的英文论文文档多粒度内容处理方法 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN105740359B (zh) | 个股识别的方法及装置 | |
CN111126334A (zh) | 技术资料的快速阅读和处理方法 | |
WO2019119030A1 (en) | Image analysis | |
CN111177301A (zh) | 一种关键信息识别提取方法及系统 | |
CN114357990B (zh) | 文本数据标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |