CN112487138A - 带格式文本的信息抽取方法和装置 - Google Patents
带格式文本的信息抽取方法和装置 Download PDFInfo
- Publication number
- CN112487138A CN112487138A CN202011308474.4A CN202011308474A CN112487138A CN 112487138 A CN112487138 A CN 112487138A CN 202011308474 A CN202011308474 A CN 202011308474A CN 112487138 A CN112487138 A CN 112487138A
- Authority
- CN
- China
- Prior art keywords
- text
- text block
- information
- formatted
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 99
- 238000012549 training Methods 0.000 claims description 51
- 238000013145 classification model Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000544061 Cuculus canorus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种带格式文本的信息抽取方法和装置,涉及信息技术领域以及人工智能技术领域,有助于提高对带格式文本的信息抽取的准确率。方法包括:首先,确定需要抽取带格式文本中属于目标类别的文本块;其次,基于文本块粒度的特征信息,识别该带格式文本中属于目标类别的文本块;接着,输出该带格式文本中属于目标类别的文本块的标识。
Description
技术领域
本申请涉及信息技术领域以及人工智能技术领域,尤其涉及带格式文本的信息抽取方法和装置。
背景技术
信息抽取(information extraction,IE)是自然语言处理(natural languageprocessing,NLP)中的一项重要工作。信息抽取,可以理解为:根据用户需求,通过某些技术手段,从较长的文本中,抽取较短的符合需求的内容。例如,用户需求是从一份简历中抽取“期望职位的内容”,则使用某些技术手段,实现该需求的过程,即被称为信息抽取。
文本包括带格式文本(text with layout,TWL)(如简历、空运单、发票等)和不带格式文本。目前,针对文本的信息抽取方法通常是针对不带格式文本的信息抽取方法。
如果需要对具有带格式文本进行信息抽取,则传统技术为:先将该带格式文本转换为不带格式文本,再基于该不带格式文本中的纯文本特征进行信息抽取。由于将带格式文本转换为不带格式文本的过程中,仅保留了带格式文本中的数据信息,因此,会导致对带格式文本的信息抽取的准确率不高的问题。
发明内容
本申请实施例提供了一种带格式文本的信息抽取方法和装置,有助于提高对带格式文本的信息抽取的准确率。
为了达到上述目的,本申请提供了以下技术方案:
第一方面,提供了一种带格式文本的信息抽取方法,该方法包括:首先,确定需要抽取带格式文本中属于目标类别的文本块;其次,基于文本块粒度的特征信息,识别该带格式文本中属于目标类别的文本块;接着,输出该带格式文本中属于目标类别的文本块的标识。本技术方案的执行主体可以是终端,也可以是网络设备。本技术方案直接使用文本块粒度的特征信息实现对带格式文本的信息抽取。由于文本块粒度的特征信息较为丰富,除了包含数据信息之外,还包含元数据信息、空间位置信息等,因此,与传统技术相比,在选择合适文本块粒度的特征信息的情况下,有助于提高信息抽取结果的准确率。另外,本技术方案不受限于带格式文本的模板,也不受限于文本块是否跨行等,因此适用范围广。
在一种可能的设计中,目标类别可以是任意一种类别,在下文的具体实施方式部分,目标类别可以包括第一类别或第二类别等。
在一种可能的设计中,基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块,包括:基于带格式文本中的待识别文本块的特征信息,识别待识别文本块是否属于目标类别。使用文本块自身的特征信息,识别该文本块是否属于目标类别,实现简单。
在一种可能的设计中,基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块,包括:基于带格式文本中的目标文本块的特征信息,识别带格式文本中的待识别文本块是否属于目标类别。其中,目标文本块是与待识别文本块之间具有预设位置关系的文本块。这是考虑到“在带格式文本中,一个文本块所属的类别,受与该文本块之间具有预设位置关系的文本块的特征信息的影响”,而提供的技术方案,这样,在选择合适的目标文本块的情况下,有助于提高信息抽取结果的准确率,并且实现简单。
在一种可能的设计中,基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块,包括:基于带格式文本中的待识别文本块的特征信息和带格式文本中的目标文本块的特征信息,识别待识别文本块是否属于目标类别。其中,目标文本块是与待识别文本块之间具有预设位置关系的文本块。结合文本块自身的特征信息,和“与该文本块之间具有预设位置关系”的文本块的特征信息共同确定待识别文本块是否属于目标类别,有助于提高信息抽取结果的准确率。
在一种可能的设计中,目标文本块是待识别文本块的预设范围内的文本块。也就是说,目标文本块是与待识别文本块之间距离比较近的文本块,这样,有助于进一步提高信息抽取结果的准确率。
在一种可能的设计中,目标文本块是在待识别文本块的预设方位,且与待识别文本块相邻的文本块。可选的,该预设方位可以包括:正上方、正下方、正左方或正右方中的至少一个方位的。可选的,预设方位可以包括:水平方位或垂直方位。这样,在选择合适预设方位的情况下,有助于进一步提高信息抽取结果的准确率。
在一种可能的设计中,文本块粒度的特征信息,包括以下至少一项:文本块的数据信息;文本块的元数据信息;或,文本块的空间位置信息。
在一种可能的设计中,文本块的数据信息,也可以被称为文本块的文本数据信息,包括:文本数据本身的信息,以及基于文本数据本身的信息进行统计分析得到的信息。
在一种可能的设计中,文本块的数据信息包括以下至少一项:文本块中的字符串的总长度;文本块是否包含预设字符或预设字符串;文本块包含的预设字符或预设字符串的总数;文本块包含的预设字符或预设字符串占文本块的字符的比例;文本块是否包含预设关键词;文本块是否包含预设命名实体;或,文本块是否包含预设格式信息。当然具体实现时不限于此,具体包括哪些数据信息可以基于实际需求而定。
在一种可能的设计中,文本块的元数据信息,包括以下至少一项:文本块的字体、字号、颜色、是否加粗、是否斜体或是否有下划线。当然具体实现时不限于此,具体包括哪些元数据信息可以基于实际需求而定。
在一种可能的设计中,文本块的空间位置信息包括以下至少一项:文本块相对带格式文本的页边缘的距离,如上边距、下边距、左边距或右边距中的至少一种;或,文本块相对带格式文本中的参考文本块的距离。其中,参考文本块可以是带格式文本中具有特定数据信息、特定元数据信息或特定空间位置中的一种或多种的文本块。
在一种可能的设计中,确定需要抽取带格式文本中属于目标类别的文本块,包括:接收请求消息,该请求消息用于请求抽取带格式文本中属于目标类别的文本块。也就是说,一个设备可以在另一设备的请求下,确定需要抽取带格式文本中属于目标类别的文本块。
在一种可能的设计中,在确定需要抽取带格式文本中属于目标类别的文本块之前,该方法还包括:显示第一用户界面,第一用户界面包含第一指示信息和第二指示信息,第一指示信息用于指示用户输入带格式文本,第二指示信息用于指示用户输入目标类别的标识。这样,基于用户界面进行人机交互,有助于提高用户体验。
在一种可能的设计中,在执行基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块的过程中,该方法还包括:显示第二用户界面,第二用户界面包含第三指示信息,第三指示信息用于指示用户正在执行信息抽取过程。这样,基于用户界面进行人机交互,有助于提高用户体验。
在一种可能的设计中,输出带格式文本中属于目标类别的文本块的标识,包括:显示第三用户界面,第三用户界面包含带格式文本中属于目标类别的文本块的标识。这样,基于用户界面进行人机交互,有助于提高用户体验。
在一种可能的设计中,基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块,包括:首先,获取二分类模型,该二分类模型表征文本块是否属于目标类别;然后,将文本块粒度的特征信息输入二分类模型,得到输出结果。该可能的设计将对文本块类别的识别转换成了二分类问题,实现简单,且不限于带格式文本的类型和模板,也不局限于带格式文本中的文本块是否跨行,因此适用范围广。
在一种可能的设计中,获取二分类模型,包括:获取目标类别的N个特征,N个特征是上文中描述的文本块粒度的特征信息所表征的特征,N是大于等于1的整数;获取训练集,该训练集包括多个文本块,该多个文本块均属于目标类别;对该多个文本块中的每个文本块,执行基于N个特征的特征抽取,得到目标类别对应的一个特征组合;基于针对多个文本块得到的多个特征组合进行训练,得到二分类模型。该可能的设计提供了一种训练二分类模型的具体实现方式。该可能的设计的执行主体可以是终端也可以是网络设备,也就是说,终端或者网络设备自身训练获得二分类模型,并基于该二分类模型执行信息抽取过程。
在一种可能的设计中,该方法还包括:显示第四用户界面,第四用户界面包含第四指示信息和第五指示信息,第四指示信息用于指示用户输入目标类别的标识和N个特征,第五指示信息用于指示用户输入训练集。这样,基于用户界面进行人机交互,有助于提高用户体验。
在一种可能的设计中,该方法还包括:显示第五用户界面,第五用户界面包含第六指示信息,第六指示信息用于指示用户正在训练第二分类模型。这样,基于用户界面进行人机交互,有助于提高用户体验。
在一种可能的设计中,获取二分类模型,包括:接收网络设备发布的二分类模型。该可能的设计的执行主体可以是终端。也就是说,终端可以从网络设备下载二分类模型,并基于下载的二分类模型执行信息抽取过程。
第二方面,提供一种带格式文本的信息抽取装置。
在一种可能的设计中,该带格式文本的信息抽取装置用于执行上述第一方面提供的一种带格式文本的信息抽取方法。本申请可以根据上述第一方面提供的方法,对该带格式文本的信息抽取装置进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。示例性的,本申请可以按照功能将该带格式文本的信息抽取装置划分为确定单元、识别单元和输出单元等。上述划分的各个功能模块执行的可能的技术方案和有益效果的描述均可以参考上述第一方面或其相应的可能的设计提供的技术方案,此处不再赘述。
在另一种可能的设计中,该带格式文本的信息抽取装置包括:存储器和一个或多个处理器,该存储器和处理器耦合。该存储器用于存储计算机指令,该处理器用于调用该计算机指令,以执行如第一方面及其任一种可能的设计方式提供的任一种方法。
第三方面,本申请提供了一种计算机可读存储介质,如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令),当该计算机程序(或指令)在带格式文本的信息抽取装置上运行时,使得该带格式文本的信息抽取装置执行上述第一方面中任一种可能的实现方式提供的任一种方法。
第四方面,本申请提供了一种计算机程序产品,当其在计算机上运行时,使得第一方面中的任一种可能的实现方式提供的任一种方法被执行。
第五方面,本申请提供了一种芯片系统,包括:处理器,处理器用于从存储器中调用并运行该存储器中存储的计算机程序,执行第一方面中的实现方式提供的任一种方法。
可以理解的是,上述提供的任一种带格式文本的信息抽取装置、计算机存储介质或计算机程序产品等均可以应用于上文所提供的对应的方法,因此,其所能达到的有益效果可参考对应的方法中的有益效果,此处不再赘述。
在本申请中,上述带格式文本的信息抽取装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
图1为可适用于本申请实施例的一种简历的示意图;
图2为本申请实施例提供的一种计算机设备的硬件结构示意图;
图3为本申请实施例提供的一种带格式文本的信息抽取方法的流程示意图;
图4为本申请实施例提供的另一种信息抽取方法的流程示意图;
图5为本申请实施例提供的一种信息抽取过程中用户界面的变化示意图;
图6为本申请实施例提供的一种训练二分类模型的方法的流程示意图;
图7为本申请实施例提供的一种训练二分类模型的具体示例的示意图;
图8为本申请实施例提供的一种训练二分类模型过程中用户界面的变化示意图;
图9为本申请实施例提供的一种带格式文本的信息抽取装置的结构示意图;
图10为本申请实施例提供的一种芯片系统的结构示意图;
图11为本申请实施例提供的一种计算机程序产品的概念性局部视图。
具体实施方式
以下,说明本申请中涉及的部分术语和技术:
1)、带格式文本、不带格式文本
文本中的文字靠一定的格式组织排列起来组成带格式文本。
带格式文本包含多个文本块。文本块通常由聚集在一起的文本数据构成,不同文本块之间可以通过空格等方式间隔开。例如,在如图1所示的简历中,“康晓*”是一个文本块,“目前公司:”是一个文本块,“深圳市**有限公司”是一个文本块,其他示例不再一一列举。对带格式文本进行划分,得到多个文本块的具体实现方式可以参考现有技术。
带格式文本不仅可以体现文本块的数据信息,还可以体现元数据信息,如文本块的字体、字号、字色、是否加粗、是否斜体、或是否下划线等信息;另外,还可以体现文本块的空间位置信息,如该文本块在该带格式文本中的位置信息,以及该文本块与其他文本块之间的空间位置关系等。例如,在word中编辑的文本可以是带格式文本。
从应用示例上来讲,带格式文本可以包括:简历、空运单、发票等。
只有默认的一种格式(如字体、行间距等)组成不带格式文本。不带格式文本仅体现数据信息。例如,在记事本文件中编辑的文字通常是不带格式的文本。
2)、带格式文本的类型,带格式文本的模板(template)
带格式文本的类型是基于带格式文本的功能确定的。例如,带格式文本的类型可以包括:简历、空运单、发票等。进一步地,带格式文本的类型还可以进一步进行划分,例如,发票可以进一步划分为专票和普票等。
属于同一类型的带格式文本可以具有不同的模板。其中,带格式文本的模板可以由该带格式文本中的文本块的含义、布局等确定。例如,不同国家的空运单通常采用不同模板。又如,简历可以具有不同的模板。
3)、关键词
关键词,也可以被称为主题词等,是表征文本的含义的词、词组或短语。
本申请实施例对提取文本中的关键词所使用的算法不进行限定,例如,该算法可以包括以下至少一种:词频-逆文本频率(term frequency–inverse document frequency,TF-IDF)算法、隐狄利克雷特分布(latent dirichlet allocation,LDA)算法或TextRank算法等。
4)、命名实体
命名实体,是指文本中具有特定意义的实体,或者说可以用专有名词(或名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,例如,该具体事物个体可以包括人名、地名、机构名或其他专有名词等,另外,还可以包括时间、数量、货币、比例数值等。
5)、其他术语
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的实施例中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上,例如,多个第二报文是指两个或两个以上的第二报文。
应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。
还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
还应理解,术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。
还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
应理解,说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
传统技术中,如果需要对具有带格式文本进行信息抽取,则通常的做法为:先将该带格式文本转换为不带格式文本,再基于该不带格式文本中的纯文本特征(即数据信息)进行信息抽取。其中,对不带格式文本中的纯文本特征进行信息抽取的方法包括:
方法一:使用正则表达式(regular expression,regex或RE)进行信息抽取。正则表达式,又称正规表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
例如,某一模板的文本中针对“姓名”这一类别的正则表达式为“姓名:**”,且用户的需求是抽取该模板下的新文本中类别是“姓名”的文本数据,则计算机设备可以使用“姓名:**”与该新文本中的文本数据进行匹配,并输出相匹配的文本数据。
由于正则表达式与文本的模板强相关,当文本的模板改变时,会导致该正则表达式失效,因此使用正则表达式进行信息抽取的技术方案的适用范围受限。例如,如果某一模板的文本中“姓名”的格式为:“姓名,**”,则不能使用“姓名:**”这一正则表达式进行信息抽取。
方法二:使用命名实体识别(named entity recognition,NER)进行信息抽取。
该方法需要首先将多份历史带格式文本分别转换为不带格式文本,对于不带格式文本中的某一类别的文本数据,进行序列标注。然后,使用NER算法,基于序列标注的数据集训练得到机器学习模型。接着,用该机器学习模型,识别不带格式文本中该类别的文本数据。
由于带格式文本中存在一些文本块是跨行的,将该带格式文本转换为不带格式文本时,通常是逐行扫描的,因此可能存在这个文本块的文本数据在不带格式文本中是跨行不连续的。这给序列标注造成了困难,从而导致使用命名实体识别进行信息抽取的技术方案的技术方案的适用范围受限。
例如,如图1所示的简历中,“目前在职,看看新机会”这一文本块是跨行的,在将该简历转换成不带格式文本时,“目前状态:”“目前在职,看看新机会”“户籍:”和“广东深圳”这4个文本块会被转换成:“目前状态:目前在职”,“户籍:广东深圳,看看新机会”。并且,“目前状态:目前在职”在同一行,“户籍:广东深圳,看看新机会”在另一行。由此可见,“目前在职,看看新机会”这一文本数据在不带格式文本中是跨行不连续的。
基于此,本申请实施例提供了一种带格式文本的信息抽取方法,该方法直接使用文本块粒度的特征信息实现对带格式文本的信息抽取。由于文本块粒度的特征信息较为丰富,除了包含数据信息之外,还包含元数据信息、空间位置信息等,因此,与传统技术相比,在选择合适文本块粒度的特征信息的情况下,有助于提高信息抽取结果的准确率。另外,该技术方案不受限于带格式文本的模板,也不受限于文本块是否跨行等,因此适用范围广。
本申请实施例提供的技术方案可以应用于包含终端的场景中,也可以应用于包含终端与网络设备的场景中。本申请实施例不限定终端和网络设备的具体形态。例如,该终端可以是扫描仪、数码相机、手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及个人数字助理(personal digital assistant,PDA)等。该网络设备可以是云端服务器等。
在应用于包含终端与网络设备的场景中时,网络设备可以是云端服务器。该云端服务器用于向终端提供云服务,以表征该网络设备具有对带格式文本进行信息抽取的服务。具体的,该信息抽取服务是“基于文本块粒度的特征信息,对带格式文本中的某个类别的文本块进行信息抽取”的服务。该云服务能够提高带格式文本的识别准确率。示例的,终端可以在具有对带格式文本的某个类别的文本块进行信息抽取的需求时,向网络设备请求该云服务。
如图2所示,为本申请实施例提供的一种计算机设备10的硬件结构示意图。该计算机设备可以是上文中的终端,也可以是上文中的网络设备。该计算机设备10可以包括处理器11、存储器12、通信接口13和总线14。其中,处理器11、存储器12和通信接口13之间可以通过总线14连接。
处理器11是计算机设备10的控制中心,可以是一个通用中央处理单元(centralprocessing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为示例,处理器11可以包括一个或多个CPU,例如图2中所示的CPU 0和CPU 1。
存储器12可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的实现方式中,存储器12可以独立于处理器11存在。存储器12可以通过总线14与处理器11相连接,用于存储数据、指令或者程序代码。处理器11调用并执行存储器12中存储的指令或程序代码时,能够实现本申请实施例提供的带格式文本的信息抽取方法,或者训练二分类模型的方法。
另一种可能的实现方式中,存储器12也可以和处理器11集成在一起。
通信接口13,用于计算机设备10与其他设备通过通信网络连接,该通信网络可以是以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。通信接口13可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
总线14,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线、快速外围组件互连(peripheral component interconnect express,PCIe)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图2中示出的结构并不构成对计算机设备10的限定,除图2所示部件之外,计算机设备10可以包括比图示更多或更少的部件,或者组合某些部件。
以下,结合附图,对本申请实施例提供的技术方案进行说明:
如图3所示,为本申请实施例提供的一种带格式文本的信息抽取方法的流程示意图。信息抽取方法具体可以理解为抽取带格式文本中属于某一个或多个类别的文本块,本实施例中以抽取带格式文本中属于第一类别的文本块为例进行说明。
图3所示的方法可以包括以下步骤:
S101:终端确定需要抽取带格式文本中的、且属于第一类别的文本块。
该带格式文本可以是任意一个具有信息抽取需求的带格式文本。本申请实施例不限定该带格式文本的类型,也不限定该带格式文本的模板。
在一个示例中,对于一张纸质的简历,用户可以使用终端拍摄该纸质的简历,得到一个图片。终端对该图片进行字符识别,从而将该纸质的简历上的信息翻译成计算机文字。例如,终端可以采用光学字符识别(optical character recognition,OCR)技术将该纸质的简历上的信息翻译成计算机文字。其中,包含该计算机文字的文本可以作为S101中的带格式文本。
第一类别可以是任意一种具有识别需求的文本块的类别。通常,第一类别是该带格式文本中的某一个或多个文本块所属的类别。
在一个示例中,终端在接收指示信息的情况下,如在用户输入的指示信息的情况下,或者在接收到其他设备(如网络设备或其他终端)发送的指示信息的情况下,确定需要抽取该带格式文本中的、且属于第一类别的文本块。其中,该指示信息包含该带格式文本的标识和至少一个类别的标识,用于指示抽取该带格式文本中的、且分别属于该至少一个类别中的每个类别的文本块。终端可以将该至少一个类别中的任意一个类别作为第一类别。
例如,如果用户需求是从一份简历中抽取“期望职位的内容”,则带格式文本可以是该简历本身,第一类别可以是期望职位。
S102:终端对该带格式文本进行划分,得到多个文本块。
该步骤的具体实现方式可以参考现有技术,此处不再赘述。
S103:终端基于文本块粒度的特征信息,识别该带格式文本中的、且属于第一类别的文本块。
可选的,S103可以通过以下方式1-方式3中的任一种方式实现:
方式1:终端基于该带格式文本中的待识别文本块的特征信息,识别待识别文本块是否属于第一类别。
方式2:终端基于该带格式文本中的目标文本块的特征信息,识别待识别文本块是否属于第一类别。
方式3:终端基于该带格式文本中的待识别文本块的特征信息和该带格式文本中的目标文本块的特征信息,识别待识别文本块是否属于第一类别。
其中,待识别文本块可以是S102划分得到的多个文本块中的任意一个文本块。例如,终端可以基于该多个文本块的编号依次将每个文本块作为待识别文本块。
可选的,待识别文本块是该带格式文本中的“参数的内容”所在的文本块。
可以理解的是,带格式文本中通常会存在参数和参数的内容为不同文本块的情况。其中,一个参数可以对应一项或多项参数内容。例如,简历中的“期望职位”这4个字是一个文本块,而期望职位的内容“软件工程师”这5个字是另一个文本块。又如,空运单中的“发货人信息”这5个字是一个文本块,而发货人信息的内容可以包含“发货人地址的内容”、“发货人姓名的内容”和“发货人联系方式的内容”等,如发货人信息的内容具体为:地址A、张三、139****,该情况下,“地址A”“张三”和“139****”分别为一个文本块。
通常情况下,用户的需求是提取参数的内容,而非参数本身。例如,如果用户的需求是提取简历中“期望职位”这一类别的文本块,则待识别文本块可以是“期望职位的内容”所在的文本块。又如,如果用户的需求是提取空运单中的“发货人信息”这一类别的文本块,则待识别文本块可以是“发货人信息的内容”所在的文本块。
当然具体实现时,待识别文本块也可以是该带格式文本中的其他文本块,本申请实施例对此不进行限定。
可以理解的是,一个文本块的数据信息不能完全表示该文本块的含义。例如,对于简历中的文本块“软件工程师”而言,其左邻居(即其正左方且与该文本块相邻的文本块)是“期望职位”和其左邻居是“目前职位”时,“软件工程师”所表示的含义不同。又如,对于空运单中的文本块“张三”而言,其左邻居是“发货人信息”和其左邻居是“收货人信息”时,“张三”所表示的含义不同。
基于此,在本申请的一些实施例(如上述方式2或方式3)中,终端可以结合一个文本块的特征信息识别另一个文本块的类别。在上述方式2和方式3中,目标文本块是与待识别文本块之间具有预设位置关系的文本块。
在一种实现方式中,目标文本块是在待识别文本块的预设范围内的文本块。其中,该预设范围可以是矩形、圆形、椭圆、半圆等规则形状,当然也可以不规则的形状,本申请实施例对此不进行限定。另外,本申请实施例对该预设范围的大小也不进行限定。
在另一种实现方式中,目标文本块是在待识别文本块的预设方位,且与待识别文本块相邻的文本块。可选的,预设方位可以包括:正上方、正下方、正左方或正右方中的至少一个方位。可选的,预设方位可以包括:水平方位或垂直方位。预设方位具体是哪个或哪些方位,可以基于带格式文本中与待识别文本块相关的文本块的位置来确定。
例如,以“期望职位”与“期望职位的内容”这两个文本块为例,通常情况下,“期望职位”位于“期望职位的内容”的正左方或正上方,且与“期望职位的内容”相邻,因此,如果待识别文本块是“期望职位的内容”时,该预设方位可以是正左方或正上方。
以下,对文本块粒度的特征信息进行说明。其中,这里的文本块可以是上文中的待识别文本块,也可以是上文中的目标文本块。
可选的,文本块的特征信息,包括以下至少一项:文本块的数据信息,文本块的元数据(metadata)信息,或文本块的空间位置信息。以下分别进行说明:
第一,文本块的数据信息
文本块的数据信息,也可以被称为文本块的文本数据信息,可以包括:文本数据本身的信息,以及基于文本数据本身的信息进行统计分析得到的信息。
可选的,文本块的数据信息包括以下至少一项:
1)、文本块中字符串的总长度。
待识别文本包含的字符串的总长度,可以通过该字符串包含的字符的总个数来表征。例如,如果文本块是字符串“zhangsan”,则文本块中字符串的总长度是8。
2)、文本块是否包含预设字符或预设字符串。
3)、文本块包含的预设字符或预设字符串的总数。
4)、文本块包含的预设字符或预设字符串占文本块的字符的比例。
可选的,预设字符可以是字母、数字或特殊字符中的一种或多种。其中,字母又可以区分为大写字母和小写字母。例如,特殊字符可以包含以下至少一项:*、#、@、%、﹩或&等。
可选的,预设字符串可以是字母、数字或特殊字符中的一种或多种组成的字符串。
5)、文本块是否包含预设关键词。
其中,预设关键词可以是采用关键词提取算法,从多份历史带格式文本中第一类别的文本块中提取得到的。预设关键词的数量可以是一个或多个。
6)、文本块是否包含预设命名实体。
其中,预设命名实体的数量可以是一个或多个。
7)、文本块是否包含预设格式信息。
例如,预设格式信息可以是日期(如年月日等)或者时间(如几点几分等)。
第二,文本块的元数据信息
可选的,文本块的元数据信息,包括:文本块的字体(如楷体、宋体等)、字号、颜色、是否加粗、是否斜体或是否有下划线等中的一项或多项。
第三,文本块的空间位置信息
文本块的空间位置信息,是文本块在该带格式文本中的位置信息。
在一种实现方式中,该位置信息可以通过文本块相对该带格式文本的页边缘的距离(即页边距)来表征。
其中,该页边距可以是上页边距、下页边距、左页边距或右页边距中的一种或多种。上页边距是指文本块与该带格式文本的上边界之间的距离。下页边距是指文本块与该带格式文本的下边界之间的距离。左页边距是指文本块与该带格式文本的左边界之间的距离。右页边距是指文本块与该带格式文本的右页边距之间的距离。
在另一种实现方式中,该位置信息可以通过文本块相对该带格式文本中的参考文本块的距离来表征。
其中,参考文本块可以是该带格式文本中的任意一个文本块。
可选的,参考文本块是该带格式文本中具有特定数据信息、特定元数据信息或特定空间位置中的一种或多种的文本块。例如,在图1所示的简历中,由于“康晓*”这一文本块是加粗且字号最大的文本块,因此可以将该文本块作为参考文本块。
需要说明的是,文本块的特征信息具体是哪种特征信息,可以基于实际需求而定。例如,以抽取简历中的期望职位这一类别的文本块为例,假设期望职位通常是加粗显示的、则可以将“是否加粗”作为文本块的特征信息。又如,以抽取简历中的毕业院校这一类别的文本块为例,毕业院校通常包含“大学”“学院”等预设命名实体,则可以将“是否包含大学”“是否包含学院”等作为文本块的特征信息。
可选的,S103可以包括:终端获取二分类模型(binary classification,BC),该二分类模型表征文本块是否属于第一类别。然后,终端将文本块粒度的特征信息输入该二分类模型,得到输出结果。
以识别待识别文本块是否属于第一类别为例,这里的二分类模型与第一类别对应,该二分类模型用于表征文本块是否属于第一类别。该输出结果为待识别文本块属于第一类别,或者待识别文本块不属于第一类别。输入该二分类模型的文本块粒度的特征信息,可以是待识别文本块的特征信息和/或目标文本块的特征信息。
具体的,终端中可以预存每个类别对应的二分类模型。其中,一个二分类模型用于确定文本块的类别是否是该二分类模型对应的类别。本申请实施例对终端中预存的任意一个类别对应的二分类模型的来源不进行限定,例如,终端可以执行如图6所示的方法,从而训练得到该类别对应的二分类模型,又如,终端可以从网络设备中下载该类别对应的二分类模型。
该可选的实现方式,将对文本块类别的识别转换成了二分类问题,实现简单,且不限于带格式文本的类型和模板,也不局限于带格式文本中的文本块是否跨行,因此适用范围广。
在执行该格式文本中的一个文本块进行识别之后,终端可以将S102中的多个文本块中的另一个文本块作为待识别文本块,执行上述S103,以此类推,直到终端将该带格式文本中的所有文本块均作为待识别文本块执行上述S103为止;或者,直到终端确定了该带格式文本中预设数量的属于第一类别的文本块为止,当然结束条件不限于此。接着,终端可以执行S104。
S104:终端输出该带格式文本中的、且属于第一类别的文本块的标识。
文本块的标识用于唯一标记该文本块。例如,终端可以对该带格式文本中的所有文本块进行统一编号,不同文本块的编号不同,并将每个文本块的编号作为该文本块的标识。
具体的,如果在S103中确定待识别文本块属于第一类别,则S104中输出的第一类别的文本块的标识包括待识别文本块的标识。如果在S103中确定待识别文本块不属于第一类别,则S104中输出的第一类别的文本块的标识不包括待识别文本块的标识。
本申请实施例对终端输出该带格式文本中属于第一类别的文本块的标识的具体实现方式不进行限定。例如,终端可以通过显示装置(如显示屏)显示该带格式文本中属于第一类别的文本块的标识,或者可以通过语音输出装置(如音箱等)播放该带格式文本中属于第一类别的文本块的标识等。
需要说明的是,如果终端将该带格式文本中的每个文本块均作为待识别文本块,并执行S103后,没有找到属于第一类别的文本块,则终端可以输出用于指示该带格式文本中不包含属于第一类别的文本块的信息。本申请实施例对该指示信息的具体内容不进行限定。
上文中描述了针对第一类别的文本块的信息抽取方法,在本申请的一些实施例中,终端可以使用上述S101-S104分别识别该带格式文本中的文本块是否属于第二类别,其中第二类别是除第一类别之外的其他类别。以此类推,可以实现对带格式文本中多个类别的文本块进行提取,从而实现基于多个类别的信息抽取。
本申请实施例提供的信息抽取方法,直接使用文本块粒度的特征信息实现针对带格式文本的信息抽取。由于文本块粒度的特征信息较为丰富,除了包含数据信息之外,还包含元数据信息、空间位置信息等,因此,与传统技术相比,在选择合适文本块粒度的特征信息的情况下,有助于提高信息抽取结果的准确率。另外,该技术方案不受限于带格式文本的模板,也不受限于文本块是否跨行等,因此适用范围广。
需要说明的是,由于传统技术中,将带格式文本转换为不带格式文本之后,不会存在文本块粒度的数据信息,而是整个文本块粒度的数据信息,这会导致在信息抽取的过程中,可能存在因不能准确获取到该文本块完整的数据信息,而导致对带格式文本的信息抽取的准确率不高的问题。而本实施例提供的技术方案,直接基于文本块粒度的信息进行信息抽取。因此,即使本申请实施例中仅使用待识别文本块的数据信息进行信息抽取,也与传统技术不同,且相比传统技术,有助于提高对带格式文本的信息抽取的准确率。
例如,参考上文中对使用命名实体识别进行信息抽取的方法中的示例,“目前在职,看看新机会”这一文本块在不带格式文本中是跨行不连续的,这对序列标注造成了困难。相应的,在不带格式的文本中提取“目前在职,看看新机会”这一文本块的数据信息时,准确率不高。而本申请实施例提供的技术方案中,终端可以直接从该文本块中提取完整的“目前在职,看看新机会”这一数据信息,因此准确率较高。
需要说明的是,图3所示的方法是以终端为执行主体为例进行说明的,上述各步骤可以替换为由网络设备进行执行,从而得到新的实施例。另外,信息抽取方法还可以由终端和网络设备一起来执行,以下通过图4所示的实施例对此进行说明。
如图4所示,为本申请实施例提供的另一种信息抽取方法的流程示意图。图4所示的方法可以包括以下步骤:
S201:终端向网络设备发送请求消息,该请求消息用于请求抽取带格式文本中的、且属于第一类别的文本块。可选的,该请求消息包含该带格式文本和第一类别的标识。
S202:网络设备基于该请求消息,对该带格式文本进行划分,得到多个文本块。
S203:网络设备基于文本块粒度的特征信息,识别该带格式文本中的,且属于第一类别的文本块。
S204:网络设备向终端发送带格式文本中的、且属于第一类别的文本块的标识。其中,S204是网络设备输出带格式文本中的、且属于第一类别的文本块的标识的具体实现方式。
S205:终端输出带格式文本中的、且属于第一类别的文本块的标识。
本实施例中相关术语的解释,相关步骤的具体实现方式,以及相应的有益效果均可以参考上述对图3所示的实施例中的相关部分,此处不再赘述。
需要说明的是,上述图3和图4仅仅示例性地给出了本申请实施例提供的带格式文本的信息抽取方法的应用场景,具体实现时不限于此。
在产品实现上,作为一个示例,网络设备可以将图3或图4所示的方法中终端所执行的步骤,以一个软件功能模块的形式发布,如以一个应用程序(application,APP)的形式发布,或者是作为某个APP的一个子功能的形式,随着该APP的发布而发布。终端可以通过在网络设备上下载该APP,从而获得该软件功能。
后续,终端可以通过依次显示如图5所示的用户界面,与用户进行交互,从而实现该软件功能(即对带格式文本的信息抽取的功能)。具体可以包括以下步骤:
步骤1:终端显示第一用户界面,如图5中的a图所示。其中,第一用户界面上包含“输入带格式文本”选项框401、“输入目标类别”选项框402和开始按键403。
该选项框401,用于用户向终端输入带格式文本。例如,用户通过点击该选项框401,并选中带格式文本的压缩包的在该终端中的存储路径,即可将带格式文本的压缩包导入该软件功能模块。
该选项框402,用于用户向终端输入目标类别,即文本块的目标类别,如上述第一类别、第二类别等。例如,用户可以在该选项框402中输入文本信息“第一类别(如期望职位)”。
开始按键403,用于接收用户的触控操作,以使得终端开始执行信息抽取方法。具体的,用户可以在选项框401和选项框402中输入相应的信息之后,点击开始按键403,终端检测到该操作后,开始执行信息抽取方法。
步骤2:终端基于第一用户界面,接收到针对开始按键403的操作后,执行信息抽取方法,例如执行如图3所示的S101-S103;又如,通过与网络设备进行交互,执行如图4所示的S201-S204。
步骤3:终端在执行信息抽取方法的过程中显示第二用户界面,如图5中的b图。其中,第二用户界面中包含“信息抽取中……”选项框404。
该选项框404,用于提示用户:终端正在执行信息抽取过程。实质上,可能是终端自身执行信息抽取过程如执行图3所示的S101-S103,也可能是终端与网络设备进行交互,以执行信息抽取过程,如执行如图4所示的S201-S204。
步骤4:终端执行完信息抽取过程之后,可以显示第三用户界面,如图5中的c图所示。其中,第三用户界面中包含信息抽取结果,即带格式文本中属于目标类别的文本块的标识。图3中是以带格式文本中属于目标类别的文本块分别是文本块1、3、5为例进行说明的。
需要说明的是,图5所示的用户界面的变化过程,仅为一个示例,其不对本申请实施例提供的信息抽取过程中,用户界面的变化过程构成限定。
如图6所示,为本申请实施例提供的一种训练二分类模型的方法的流程示意图。该方法的执行主体是计算机设备,该计算机设备可以是终端,也可以是网络设备。
图6所示的方法可以包括如下步骤:
S301:计算机设备获取第一类别的N个特征。其中,该N个特征是上文中文本块粒度的特征信息所表征的特征,N是大于等于1的整数。
S302:计算机设备获取训练集,该训练集包括:多份历史带格式文本中属于第一类别的多个文本块。
历史带格式文本,是指已知的包含属于第一类别的文本块的带格式文本。不同历史带格式文本的类型可以相同,也可以不同。并且,所属同一类型的不同历史带格式文本的模板可以相同,也可以不同。
每份历史带格式文本中可以包含一个或多个第一类别的文本块。
在一个示例中,人工标注每份历史带格式文本中的属于第一类别的文本块,并将标注结果输入到计算机设备中,使得计算机设备获知每份历史带格式文本中属于第一类别的文本块。
示例的,如果第一类别是“姓名”,则由于简历、空运单等中通常包含姓名,因此,每份历史带格式文本均可以是简历、空运单等包含姓名的带格式文本。执行S302具体包括:计算机设备获取到多份历史带格式文本中的类别是姓名的文本块。
S303:计算机设备针对该多个文本块中的每个文本块,执行基于该N个特征的特征抽取,得到第一类别对应的一个特征组合。
在一个示例中,S303等价于:计算机设备针对该多个文本块中的每个文本块,使用N个特征抽取器分别进行特征抽取,得到第一类别对应的一个特征组合。其中,N个特征抽取器中的每个特征抽取器对应的特征,是上文中的文本块粒度的一个特征信息所表征的特征。
特征提取器是一个逻辑功能模块,用于进行特征提取。特征提取器可以通过软件实现,也可以通过硬件实现,还可以通过软件结合硬件实现,本申请实施例对此不进行限定。
基于第一类别的N个特征可以是预定义的,如结合第一类别的文本块在历史带格式文本中的数据信息、元数据信息、空间位置信息、与其他文本块之间的关系等预定义。
S304:计算机设备针对该多个文本块得到的多个特征组合进行训练,得到第一类别对应的二分类模型。
本申请实施例对二分类模型的具体实现方式不进行限定,例如,二分类模型可以是以下至少一种:深度神经网络(deep neural network,DNN)、支持向量机(supportvector machine,SVM)或极端梯度提升(eXtreme gradient boosting,XGBoost)。
如图7所示,为上述S302-S304的一个具体示例的实现过程示意图。
假设多份历史带格式文本是:3份简历(分别标记为简历1-3),且第一类别是期望职位,执行S302之后,获得的这3份历史简历中第一类别的文本块分别为:文本块1-3。其中,S302对应于图7中的步骤1。
考虑到:在简历中,“期望职位的内容”这一文本块通常具有如下特征:
第一,“期望职位的内容”通常包含特定的关键词。
第二,相比其他文本块,“期望职位的内容”通常会突出显示(如加粗显示等)。
第三,“期望职位”通常是“期望职位的内容”的左邻居,且“期望职位”可以有多种表示方式,如“求职职位”、“申请职位”或“期待职位”等,这些不同的表示方式包含特定的关键词。
由此可以得到:对于第一类别是“期望职位”的文本块,N个特征可以包含:第一类别的文本块本身是否包含第一关键词,第一类别的文本块本身是否加粗,第一类别的文本块的左邻居是否包含预设第二关键词等。
其中,第一关键词可以是计算机设备基于文本块1-3的数据信息“算法工程师”、“软件工程师”和“数据分析师”,进行关键词提取得到的,如第一关键词是“工程师”。其中,针对第一关键词的提取对应于图7中的步骤2。
若文本块1-3分别在简历1-3中的左邻居的数据信息是“期望职位”、“求职职位”和“申请职位”,则第二关键词可以是计算机设备基于“期望职位”、“求职职位”和“申请职位”,进行关键词提取得到的,如第二关键词是“职位”。其中,针对第二关键词的提取对应于图7中的步骤3。
基于此,执行S303后计算机设备得到的特征提取结果可以如表1所示。其中,S303可以对应于图7中的步骤4。
表1
基于表1,文本块1所在的行中的“是,是,是”即为:对文本块1进行基于第一类别(即“期望职位”)的N个特征进行特征抽取,得到的一个特征组合。基于此可知,表1中包含3个特征组合。
表1中是以特征抽取结果即多个特征组合,构成一个结构化数据表为例进行说明的,实际实现时,本申请实施例对该多个特征组合的具体存储方式不进行限定。
基于该示例,在执行S304时,基于表1中的特征组合进行训练,得到期望职位对应的二分类模型。其中,S304可以对应于图7中的步骤5。
基于该示例得到的期望职位对应的二分类模型,在执行上述图3或图4所示的信息抽取方法时,第一类别具体为期望职位,目标文本块的特征信息具体为:文本块是否加粗、文本块中是否包含关键词“工程师”,以及文本块的左邻居是否包含关键词“职位”。
图7所示的方法是针对训练第一类别对应的二分类模型为例进行说明的。实际实现时,计算机设备可以按照图7所示的方法训练得到多个类别分别对应的二分类模型。
在产品实现上,由于训练二分类模型需要用到较多的计算资源和存储资源,因此通常由网络设备训练二分类模型,并将训练好的二分类模型进行发布,以供终端下载并使用该二分类模型执行信息抽取方法。或者,网络设备也可以直接使用该二分类模型执行信息抽取方法。当然,本申请实施例并不排除由终端训练二分类模型,并直接使用该二分类模型执行信息抽取方法的技术方案。
如图8所示,为本申请实施例提供的一种训练二分类模型过程中用户界面的变化示意图。具体可以包括如下步骤:
步骤1:网络设备显示第四用户界面,如图8中的a图所示。其中,第四用户界面中包含“输入目标类别的标识和目标类别对应的特征”选项框801、“输入训练集”选项框802和开始按键803。
选项框801,用于指示用户输入目标类别的标识和目标类别对应的特征,即本次训练的二分类模型所对应的类别标识,以及识别该类别的文本块时所使用的文本块粒度的特征。例如,基于图7所示的实施例,用户可以在选项框801中输入“期望职位”,在选项框802中输入表1中的3个特征。
选项框802,用于指示用户输入训练集。例如,结合图7所示的实施例,用户可以在选项框802中输入“文本块1-3的特征信息”,其中,这里的特征信息所指示的特征是表1中所示的3个特征。
开始按键803,用于接收用户的触控操作,以使得网络设备开始执行训练二分类模型的方法。具体的,用户可以在选项框801和选项框802中输入相应的信息之后,点击开始按键803,网络设备检测到该操作后,开始执行训练二分类模型的方法。
步骤2:网络设备基于第四用户界面,接收到用户针对开始按键803的操作之后,开始执行训练二分类模型的方法,如执行上述图6所示的方法。
步骤3:网络设备在执行训练二分类模型的方法的过程中,可以显示第五用户界面,如图8中的b图所示。第五用户界面中可以包含“训练中……”选项框804,以提示用户:网络设备当前正在训练二分类模型。
步骤4:网络设备可以在训练好二分类模型之后,显示第六用户界面,如图8中的c图所示。第六用户界面中可以包含“训练结束”选项框805,以提示用户:网络设备已完成对二分类模型的训练。
需要说明的是,图8所示的用户界面的变化过程,仅为一个示例,其不对本申请实施例提供的训练二分类模型的过程中,用户界面的变化过程构成限定。另外,网络设备还可以对训练好的二分类模型进行测试,并在测试成功之后,发布该二分类模型。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对带格式文本的信息抽取装置(如图3所示的实施例中的终端或图4所示的实施例中的网络设备)进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图9所示,图9示出了本申请实施例提供的带格式文本的信息抽取装置70的结构示意图。该带格式文本的信息抽取装置70用于执行上述带格式文本的信息抽取方法,例如,执行图3所示的带格式文本的信息抽取方法中终端所执行的步骤,又如,执行图4所示的带格式文本的信息抽取方法中网络设备所执行的步骤。示例的,带格式文本的信息抽取装置70可以包括确定单元701、识别单元702和输出单元703。
确定单元701,用于确定需要抽取带格式文本中属于目标类别的文本块。识别单元702,用于基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块。输出单元703,用于输出带格式文本中属于第一类别的文本块的标识。例如,结合图3,确定单元701可以用于执行S101,识别单元702可以用于执行S103,输出单元703可以用于执行S104。又如,结合图4,确定单元701可以用于执行S201对应的接收步骤,识别单元702可以用于执行S203,输出单元703可以用于执行S204。
可选的,识别单元702具体用于:基于带格式文本中的待识别文本块的特征信息,识别待识别文本块是否属于目标类别。
可选的,识别单元702具体用于:基于带格式文本中的目标文本块的特征信息,识别带格式文本中的待识别文本块是否属于目标类别;其中,目标文本块是与待识别文本块之间具有预设位置关系的文本块。
可选的,识别单元702具体用于:基于带格式文本中的待识别文本块的特征信息和带格式文本中的目标文本块的特征信息,识别待识别文本块是否属于目标类别。
可选的,目标文本块是在待识别文本块的预设范围内的文本块。
可选的,目标文本块是在待识别文本块的预设方位,且与待识别文本块相邻的文本块。
可选的,文本块粒度的特征信息,包括以下至少一项:文本块的数据信息;文本块的元数据信息;或,文本块的空间位置信息。
可选的,文本块的数据信息包括以下至少一项:文本块中的字符串的总长度;文本块是否包含预设字符或预设字符串;文本块包含的预设字符或预设字符串的总数;文本块包含的预设字符或预设字符串占文本块的字符的比例;文本块是否包含预设关键词;文本块是否包含预设命名实体;或,文本块是否包含预设格式信息。
可选的,文本块的元数据信息,包括以下至少一项:文本块的字体、字号、颜色、是否加粗、是否斜体或是否有下划线。
可选的,文本块的空间位置信息包括以下至少一项:文本块相对带格式文本的页边缘的距离;或,文本块相对带格式文本中的参考文本块的距离。
可选的,带格式文本的信息抽取装置70还包括:获取单元704,用于获取二分类模型,二分类模型表征文本块是否属于目标类别。该情况下,识别单元702具体用于:将文本块粒度的特征信息输入二分类模型,得到输出结果。
可选的,获取单元704在执行获取二分类模型的方面,具体用于:获取目标类别的N个特征,N个特征是文本块粒度的特征信息所表征的特征,N是大于等于1的整数;获取训练集,训练集包括多个文本块,多个文本块均属于目标类别;对多个文本块中的每个文本块,执行基于N个特征的特征抽取,得到目标类别对应的一个特征组合;基于针对多个文本块得到的多个特征组合进行训练,得到二分类模型。例如,结合图6,获取单元704可以用于执行S301-S304。
可选的,带格式文本的信息抽取装置70还包括:接收单元705。
可选的,接收单元705,用于接收网络设备发布的二分类模型。
可选的,接收单元705,用于接收请求消息,该请求消息用于请求抽取带格式文本中属于目标类别的文本块。
可选的,信息抽取装置70还包括:显示单元706。需要说明的是,输出单元703与显示单元706可以相同,也可以不同。例如,当输出单元703基于语音方式输出信息时,二者不同,而当输出单元703以文字方式输出信息时,二者可以相同。图9中是以二者不同为例进行说明的。
可选的,显示单元706,用于在确定单元701确定需要抽取带格式文本中属于目标类别的文本块之前,显示第一用户界面,第一用户界面包含第一指示信息和第二指示信息,第一指示信息用于指示用户输入带格式文本,第二指示信息用于指示用户输入目标类别的标识。
可选的,显示单元706,用于在识别单元702执行基于文本块粒度的特征信息,识别带格式文本中属于目标类别的文本块的过程,显示第二用户界面,第二用户界面包含第三指示信息,第三指示信息用于指示用户正在执行信息抽取过程。
可选的,显示单元706,用于显示第三用户界面,第三用户界面包含带格式文本中属于目标类别的文本块的标识。
可选的,显示单元706,用于在获取单元704获取目标类别的N个特征和训练集之前,显示第四用户界面,第四用户界面包含第四指示信息和第五指示信息,第四指示信息用于指示用户输入目标类别的标识和N个特征,第五指示信息用于指示用户输入训练集。
可选的,显示单元706,用于在获取单元704执行训练的过程中,显示第五用户界面,第五用户界面包含第六指示信息,第六指示信息用于指示用户正在训练第二分类模型。
关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种带格式文本的信息抽取装置70的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。
作为示例,结合图2,带格式文本的信息抽取装置70中的确定单元701、识别单元702、获取单元704中的部分或全部实现的功能可以通过图2中的处理器11执行图2中的存储器12中的程序代码实现。如果带格式文本的信息抽取装置70是终端,则输出单元703可以通过显示装置(如显示屏等)和/或语音输出装置(如音箱等)实现。如果带格式文本的信息抽取装置70是网络设备,则输出单元703可以通过图2中的通信接口23中的发送单元实现。接收单元705可以通过图2中的通信接口23中的接收单元实现。显示单元706可以通过显示装置(如显示屏等)实现。
本申请实施例还提供一种芯片系统,如图10所示,该芯片系统包括至少一个处理器81和至少一个接口电路82。作为示例,当该芯片系统80包括一个处理器和一个接口电路时,则该一个处理器可以是图10中实线框所示的处理器81(或者是虚线框所示的处理器81),该一个接口电路可以是图10中实线框所示的接口电路82(或者是虚线框所示的接口电路82)。当该芯片系统80包括两个处理器和两个接口电路时,则该两个处理器包括图10中实线框所示的处理器81和虚线框所示的处理器81,该两个接口电路包括图10中实线框所示的接口电路82和虚线框所示的接口电路82。对此不作限定。
处理器81和接口电路82可通过线路互联。例如,接口电路82可用于接收信号(例如从车速传感器或边缘服务单元接收信号)。又例如,接口电路82可用于向其它装置(例如处理器81)发送信号。示例性的,接口电路82可读取存储器中存储的指令,并将该指令发送给处理器81。当所述指令被处理器81执行时,可使得带格式文本的信息抽取装置执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在带格式文本的信息抽取装置上运行时,该带格式文本的信息抽取装置执行图3所示的方法实施例所示的方法流程中终端所执行的各个步骤,或者执行图4所示的方法实施例所示的方法流程中网络设备所执行的各个步骤。以及,该带格式文本的信息抽取装置还可以用于执行图6所示的方法实施例所示的方法流程中计算机设备所执行的各个步骤。
在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
图11示意性地示出本申请实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质90来提供的。该信号承载介质90可以包括一个或多个程序指令,当其被一个或多个处理器运行时可以提供以上针对图3或图4或图6描述的功能或者部分功能。因此,例如,参考图3中S101~S104的一个或多个特征可以由与信号承载介质90相关联的一个或多个指令来承担。此外,图11中的程序指令也描述示例指令。
在一些示例中,信号承载介质90可以包含计算机可读介质91,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质90可以包含计算机可记录介质92,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质90可以包含通信介质93,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质90可以由无线形式的通信介质93(例如,遵守IEEE 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图11描述的带格式文本的信息抽取装置可以被配置为,响应于通过计算机可读介质91、计算机可记录介质92、和/或通信介质93中的一个或多个程序指令,提供各种操作、功能、或者动作。
应该理解,这里描述的布置仅仅是用于示例的目的。因而,本领域技术人员将理解,其它布置和其它元素(例如,机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用,并且一些元素可以根据所期望的结果而一并省略。另外,所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (36)
1.一种带格式文本的信息抽取方法,其特征在于,所述方法包括:
确定需要抽取带格式文本中属于目标类别的文本块;
基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块;
输出所述带格式文本中属于所述目标类别的文本块的标识。
2.根据权利要求1所述的方法,其特征在于,所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块,包括:
基于所述带格式文本中的待识别文本块的特征信息,识别所述待识别文本块是否属于所述目标类别。
3.根据权利要求1所述的方法,其特征在于,所述基于文本块粒度的特征信息,识别所述带格式文本中属于目标类别的文本块,包括:
基于所述带格式文本中的目标文本块的特征信息,识别所述带格式文本中的待识别文本块是否属于所述目标类别;
或者,基于所述带格式文本中的待识别文本块的特征信息和所述带格式文本中的目标文本块的特征信息,识别所述待识别文本块是否属于所述目标类别;
其中,所述目标文本块是与所述待识别文本块之间具有预设位置关系的文本块。
4.根据权利要求3所述的方法,其特征在于,
所述目标文本块是在所述待识别文本块的预设范围内的文本块;
或者,所述目标文本块是在所述待识别文本块的预设方位,且与所述待识别文本块相邻的文本块。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述文本块粒度的特征信息,包括以下至少一项:
所述文本块的数据信息;
所述文本块的元数据信息;
或,所述文本块的空间位置信息。
6.根据权利要求5所述的方法,其特征在于,所述文本块的数据信息包括以下至少一项:
所述文本块中的字符串的总长度;
所述文本块是否包含预设字符或预设字符串;
所述文本块包含的预设字符或预设字符串的总数;
所述文本块包含的预设字符或预设字符串占所述文本块的字符的比例;
所述文本块是否包含预设关键词;
所述文本块是否包含预设命名实体;
或,所述文本块是否包含预设格式信息。
7.根据权利要求5或6所述的方法,其特征在于,所述文本块的元数据信息,包括以下至少一项:
所述文本块的字体、字号、颜色、是否加粗、是否斜体或是否有下划线。
8.根据权利要求5至7任一项所述的方法,其特征在于,所述文本块的空间位置信息包括以下至少一项:
所述文本块相对所述带格式文本的页边缘的距离;
或,所述文本块相对所述带格式文本中的参考文本块的距离。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述确定需要抽取带格式文本中属于目标类别的文本块,包括:
接收请求消息,所述请求消息用于请求抽取所述带格式文本中属于所述目标类别的文本块。
10.根据权利要求1至9任一项所述的方法,其特征在于,在所述确定需要抽取带格式文本中属于目标类别的文本块之前,所述方法还包括:
显示第一用户界面,所述第一用户界面包含第一指示信息和第二指示信息,所述第一指示信息用于指示用户输入所述带格式文本,所述第二指示信息用于指示用户输入所述目标类别的标识。
11.根据权利要求1至10任一项所述的方法,其特征在于,在执行所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块的过程中,所述方法还包括:
显示第二用户界面,所述第二用户界面包含第三指示信息,所述第三指示信息用于指示用户正在执行信息抽取过程。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述输出所述带格式文本中属于所述目标类别的文本块的标识,包括:
显示第三用户界面,所述第三用户界面包含所述带格式文本中属于所述目标类别的文本块的标识。
13.根据权利要求1至12任一项所述的方法,其特征在于,所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块,包括:
获取二分类模型,所述二分类模型表征文本块是否属于所述目标类别;
将所述文本块粒度的特征信息输入二分类模型,得到输出结果。
14.根据权利要求13所述的方法,其特征在于,所述获取二分类模型,包括:
获取所述目标类别的N个特征,所述N个特征是所述文本块粒度的特征信息所表征的特征,N是大于等于1的整数;
获取训练集,所述训练集包括多个文本块,所述多个文本块均属于所述目标类别;
对所述多个文本块中的每个文本块,执行基于所述N个特征的特征抽取,得到所述目标类别对应的一个特征组合;
基于针对所述多个文本块得到的多个特征组合进行训练,得到所述二分类模型。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
显示第四用户界面,所述第四用户界面包含第四指示信息和第五指示信息,所述第四指示信息用于指示用户输入所述目标类别的标识和所述N个特征,所述第五指示信息用于指示用户输入所述训练集。
16.根据权利要求14或15所述的方法,其特征在于,在执行训练的过程中,所述方法还包括:
显示第五用户界面,所述第五用户界面包含第六指示信息,所述第六指示信息用于指示用户正在训练所述第二分类模型。
17.根据权利要求13所述的方法,其特征在于,所述获取二分类模型,包括:
接收网络设备发布的所述二分类模型。
18.一种带格式文本的信息抽取装置,其特征在于,所述装置包括:
确定单元,用于确定需要抽取带格式文本中属于目标类别的文本块;
识别单元,用于基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块;
输出单元,用于输出所述带格式文本中属于所述目标类别的文本块的标识。
19.根据权利要求18所述的装置,其特征在于,所述识别单元具体用于:
基于所述带格式文本中的待识别文本块的特征信息,识别所述待识别文本块是否属于所述目标类别。
20.根据权利要求18所述的装置,其特征在于,所述识别单元具体用于:
基于所述带格式文本中的目标文本块的特征信息,识别所述带格式文本中的待识别文本块是否属于所述目标类别;
或者,基于所述带格式文本中的待识别文本块的特征信息和所述带格式文本中的目标文本块的特征信息,识别所述待识别文本块是否属于所述目标类别;
其中,所述目标文本块是与所述待识别文本块之间具有预设位置关系的文本块。
21.根据权利要求19所述的装置,其特征在于,
所述目标文本块是在所述待识别文本块的预设范围内的文本块;
或者,所述目标文本块是在所述待识别文本块的预设方位,且与所述待识别文本块相邻的文本块。
22.根据权利要求18至21任一项所述的装置,其特征在于,所述文本块粒度的特征信息,包括以下至少一项:
所述文本块的数据信息;
所述文本块的元数据信息;
或,所述文本块的空间位置信息。
23.根据权利要求22所述的装置,其特征在于,所述文本块的数据信息包括以下至少一项:
所述文本块中的字符串的总长度;
所述文本块是否包含预设字符或预设字符串;
所述文本块包含的预设字符或预设字符串的总数;
所述文本块包含的预设字符或预设字符串占所述文本块的字符的比例;
所述文本块是否包含预设关键词;
所述文本块是否包含预设命名实体;
或,所述文本块是否包含预设格式信息。
24.根据权利要求22或23所述的装置,其特征在于,所述文本块的元数据信息,包括以下至少一项:
所述文本块的字体、字号、颜色、是否加粗、是否斜体或是否有下划线。
25.根据权利要求22至24任一项所述的装置,其特征在于,所述文本块的空间位置信息包括以下至少一项:
所述文本块相对所述带格式文本的页边缘的距离;
或,所述文本块相对所述带格式文本中的参考文本块的距离。
26.根据权利要求18至25任一项所述的装置,其特征在于,所述装置还包括:
接收单元,用于接收请求消息,所述请求消息用于请求抽取所述带格式文本中属于所述目标类别的文本块。
27.根据权利要求18至26任一项所述的装置,其特征在于,所述装置还包括:
显示单元,用于在所述确定单元确定需要抽取带格式文本中属于目标类别的文本块之前,显示第一用户界面,所述第一用户界面包含第一指示信息和第二指示信息,所述第一指示信息用于指示用户输入所述带格式文本,所述第二指示信息用于指示用户输入所述目标类别的标识。
28.根据权利要求18至27任一项所述的装置,其特征在于,所述装置还包括:
显示单元,用于在所述识别单元执行所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块的过程,显示第二用户界面,所述第二用户界面包含第三指示信息,所述第三指示信息用于指示用户正在执行信息抽取过程。
29.根据权利要求18至28任一项所述的装置,其特征在于,
所述输出单元具体用于:显示第三用户界面,所述第三用户界面包含所述带格式文本中属于所述目标类别的文本块的标识。
30.根据权利要求18至29任一项所述的装置,其特征在于,所述装置还包括:
获取单元,用于获取二分类模型,所述二分类模型表征文本块是否属于所述目标类别;
所述识别单元具体用于,将所述文本块粒度的特征信息输入二分类模型,得到输出结果。
31.根据权利要求30所述的装置,其特征在于,所述获取单元具体用于:
获取所述目标类别的N个特征,所述N个特征是所述文本块粒度的特征信息所表征的特征,N是大于等于1的整数;
获取训练集,所述训练集包括多个文本块,所述多个文本块均属于所述目标类别;
对所述多个文本块中的每个文本块,执行基于所述N个特征的特征抽取,得到所述目标类别对应的一个特征组合;
基于针对所述多个文本块得到的多个特征组合进行训练,得到所述二分类模型。
32.根据权利要求31所述的装置,其特征在于,所述装置还包括:
显示单元,用于在所述获取单元获取所述目标类别的N个特征和所述训练集之前,显示第四用户界面,所述第四用户界面包含第四指示信息和第五指示信息,所述第四指示信息用于指示用户输入所述目标类别的标识和所述N个特征,所述第五指示信息用于指示用户输入所述训练集。
33.根据权利要求31或32所述的装置,其特征在于,所述装置还包括:
显示单元,用于在所述获取单元执行训练的过程中,显示第五用户界面,所述第五用户界面包含第六指示信息,所述第六指示信息用于指示用户正在训练所述第二分类模型。
34.根据权利要求30所述的装置,其特征在于,所述装置还包括:
接收单元,用于接收网络设备发布的所述二分类模型。
35.一种带格式文本的信息抽取装置,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行权利要求1-17任一项所述的方法。
36.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1-17任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011308474.4A CN112487138A (zh) | 2020-11-19 | 2020-11-19 | 带格式文本的信息抽取方法和装置 |
PCT/CN2021/103501 WO2022105237A1 (zh) | 2020-11-19 | 2021-06-30 | 带格式文本的信息抽取方法和装置 |
EP21893389.3A EP4246343A4 (en) | 2020-11-19 | 2021-06-30 | METHOD AND APPARATUS FOR EXTRACTING INFORMATION FOR TEXT HAVING A LAYOUT |
US18/319,896 US20230290169A1 (en) | 2020-11-19 | 2023-05-18 | Information Extraction Method and Apparatus for Text With Layout |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011308474.4A CN112487138A (zh) | 2020-11-19 | 2020-11-19 | 带格式文本的信息抽取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487138A true CN112487138A (zh) | 2021-03-12 |
Family
ID=74932292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011308474.4A Pending CN112487138A (zh) | 2020-11-19 | 2020-11-19 | 带格式文本的信息抽取方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230290169A1 (zh) |
EP (1) | EP4246343A4 (zh) |
CN (1) | CN112487138A (zh) |
WO (1) | WO2022105237A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105237A1 (zh) * | 2020-11-19 | 2022-05-27 | 华为技术有限公司 | 带格式文本的信息抽取方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893990B2 (en) * | 2021-09-27 | 2024-02-06 | Sap Se | Audio file annotation |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4443443B2 (ja) * | 2005-03-04 | 2010-03-31 | 富士通株式会社 | 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 |
US20080133443A1 (en) * | 2006-11-30 | 2008-06-05 | Bohannon Philip L | Methods and Apparatus for User-Guided Inference of Regular Expressions for Information Extraction |
US9501467B2 (en) * | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
US8176048B2 (en) * | 2009-11-10 | 2012-05-08 | GM Global Technology Operations LLC | Method and system for maximum-informativeness information extraction using a domain-specific ontology |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
US11200412B2 (en) * | 2017-01-14 | 2021-12-14 | Innoplexus Ag | Method and system for generating parsed document from digital document |
CN110321432B (zh) * | 2019-06-24 | 2021-11-23 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110688593A (zh) * | 2019-08-30 | 2020-01-14 | 安徽芃睿科技有限公司 | 一种社交媒体账号识别方法及系统 |
CN110765265B (zh) * | 2019-09-06 | 2023-04-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111259631B (zh) * | 2020-01-15 | 2023-08-25 | 鼎富智能科技有限公司 | 一种裁判文书结构化方法及装置 |
CN111753538A (zh) * | 2020-06-12 | 2020-10-09 | 鼎富智能科技有限公司 | 离婚纠纷裁判文书要素提取方法及装置 |
CN112487138A (zh) * | 2020-11-19 | 2021-03-12 | 华为技术有限公司 | 带格式文本的信息抽取方法和装置 |
-
2020
- 2020-11-19 CN CN202011308474.4A patent/CN112487138A/zh active Pending
-
2021
- 2021-06-30 WO PCT/CN2021/103501 patent/WO2022105237A1/zh unknown
- 2021-06-30 EP EP21893389.3A patent/EP4246343A4/en active Pending
-
2023
- 2023-05-18 US US18/319,896 patent/US20230290169A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105237A1 (zh) * | 2020-11-19 | 2022-05-27 | 华为技术有限公司 | 带格式文本的信息抽取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4246343A4 (en) | 2024-04-17 |
WO2022105237A1 (zh) | 2022-05-27 |
EP4246343A1 (en) | 2023-09-20 |
US20230290169A1 (en) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240078386A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
CN106155686B (zh) | 界面生成方法、装置和系统 | |
US20160342578A1 (en) | Systems, Methods, and Media for Generating Structured Documents | |
US20170052946A1 (en) | Semantic understanding based emoji input method and device | |
EP3680850A1 (en) | Method and system for determining risk score for a contract document | |
US20130035929A1 (en) | Information processing apparatus and method | |
CN106959976B (zh) | 一种搜索处理方法以及装置 | |
CN108804469B (zh) | 一种网页识别方法以及电子设备 | |
CN101561725B (zh) | 一种手写快速输入的方法和系统 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN107239447B (zh) | 垃圾信息识别方法及装置、系统 | |
US20230290169A1 (en) | Information Extraction Method and Apparatus for Text With Layout | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN110008807B (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
US20180144309A1 (en) | System and Method for Determining Valid Request and Commitment Patterns in Electronic Messages | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN114297380A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113822215A (zh) | 设备操作指引文件生成方法、装置、电子设备及存储介质 | |
CN113239670A (zh) | 一种业务模板上传的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |