CN112818687B - 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 - Google Patents

一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112818687B
CN112818687B CN202110320998.3A CN202110320998A CN112818687B CN 112818687 B CN112818687 B CN 112818687B CN 202110320998 A CN202110320998 A CN 202110320998A CN 112818687 B CN112818687 B CN 112818687B
Authority
CN
China
Prior art keywords
sample
text
title
document
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110320998.3A
Other languages
English (en)
Other versions
CN112818687A (zh
Inventor
于海燕
江敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shulan Technology Co.,Ltd.
Original Assignee
Hangzhou Dtwave Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dtwave Technology Co ltd filed Critical Hangzhou Dtwave Technology Co ltd
Priority to CN202110320998.3A priority Critical patent/CN112818687B/zh
Publication of CN112818687A publication Critical patent/CN112818687A/zh
Application granted granted Critical
Publication of CN112818687B publication Critical patent/CN112818687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于构建标题识别模型的方法、装置、电子设备以及存储介质。先获取文档的各个文本块,再利用文档的文本块在多个维度的特征来构建正负样本并训练标题识别模型,使标题识别模型可以通过这些正负样本学习到标题文本块的特征和非标题文本块的特征。该标题识别模型可以实现对文档标题的自动化识别,而不局限于通过字号、字体来区分标题和正文。

Description

一种用于构建标题识别模型的方法、装置、电子设备以及存储 介质
技术领域
本申请涉及计算机技术,特别地涉及一种用于构建标题识别模型的方法、装置、电子设备以及存储介质。
背景技术
传媒企业往往存储了大量非结构化的、版面复杂的期刊数据,这些期刊数据可以被存储在例如PDF格式或INDD格式的文档中。
很多情况下,企业需要对这些期刊数据进行结构化数据处理,例如:将期刊数据的标题、正文、作者、日期中的一种或多种信息提取归类,以便于后续对期刊数据的检索查阅。
标题提取是结构化数据处理的一部分。在一种传统方案中,可以基于文章中的字体字号信息和文字之间的相邻位置信息来区分标题与正文,并提取标题。但如果标题的字号、字体与正文相同,并且文中各处的相邻位置也相同,则很难提取到文档标题。
发明内容
依据本申请的第一方面,提供了一种用于构建标题识别模型的方法,包括:
对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
依据所述训练集中多个样本的特征向量构建标题识别模型。依据本申请的第二方面,提供了一种使用第一方面所构建的标题识别模型来识别标题的方法:
对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
依据本申请的第三方面,提供了一种用于构建标题识别模型的装置,包括:
样本解析模块,被配置为对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
正样本获取模块,被配置为基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
负样本获取模块,被配置为将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
第一特征向量构建模块,被配置为针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
模型构建模块,被配置为依据所述训练集中多个样本的特征向量构建标题识别模型。
依据本申请的第四方面,提供了一种使用第三方面所构建的标题识别模型来识别标题的装置,包括:
文档解析模块,被配置为对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
第二特征向量构建模块,被配置为使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
标题识别模块,被配置为依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
依据本申请的第五方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为能够执行所述指令,以实现如第一方面所述的方法,或第二方面所述的方法。
依据本申请的第六方面,提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行如第一方面所述的方法,或第二方面所述的方法。
本申请的实施例公开了一种用于构建标题识别模型的方法。该方法使用文本块在多个维度的特征来构建正负样本的特征向量,并训练标题识别模型,使标题识别模型可以通过这些样本学习到标题文本块的特征和非标题文本块的特征。该标题识别模型可以实现对文档标题的自动化识别,而不局限于通过字号、字体来区分标题和正文。
附图说明
图1是本申请一示例性实施例示出的标题识别模型的构建方法的一种流程图;
图2是本申请一示例性实施例示出的INDD格式文档的版面的一种示意图;
图3是本申请一示例性实施例示出的文本块的解析信息的一种示意图;
图4是本申请一示例性实施例示出的确定正负样本的一种流程图;
图5是本申请一示例性实施例示出的标题识别方法的一种流程图;
图6是本申请一示例性实施例示出的标题识别模型的构建装置的一种示意图;
图7是本申请一示例性实施例示出的标题识别装置的一种示意图;
具体实施方式
现在将参照若干示例性实施例来论述本申请的内容。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本申请的内容,而不是暗示对本申请的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。如本文中所使用的,术语“任务”可以指任何一种可执行单元,包括但不限于进程、线程、模块或其集合。
本申请的实施例提供了一种用于构建标题识别模型的方法,以及应用所述用于构建标题识别模型的方法的设备。参见图1,根据一示例性实施例示出了一种用于构建标题识别模型的方法的示意图,包括以下步骤S101~步骤S105。
在步骤S101中,对样本文档进行解析,得到所述样本文档中每个文本块的解析信息,所述解析信息包含中不同维度上的特征信息,所述特征信息至少包括文本内容;
本实施例方案可以应用于一类特定类型的文档,该特定类型是:文档中包括多个文本块,且记录了每个文本块的文本内容和格式信息。
文档所包括的文本块可能包含有标题内容,即为标题文本块,也可能包含有正文内容或其他内容,本实施例将未包含标题内容的文本块统称为非标题文本块。
参见图2,是INDD格式文档的版面示意图。INDD格式的文档即为此类特定类型的文档。INDD文档是使用Adobe InDesign创建的专业页面布局项目。文档中可以包括文档页面的格式布局,以及文档页面的文本内容等信息,这一文件格式通常用于创建和格式化书籍,杂志,报纸,传单和小册子等。
在实施本实施例之前,可在INDD文档库中选择出一定数量的文档,使用这些文档作为有监督学习的训练样本来训练标题识别模型,这些被选择出的文档可以被称为样本文档。
在一些实施例中,当样本文档是indd格式的文件时,对样本文档的解析可以采用如下步骤:
(1-1)调用InDesignServer服务,将indd格式的文件转换为idml文件;
(1-2)提取出idml文件中的xml文件,解析出所述xml文件中所包含的信息并存入数据库。
对文档进行解析后,会提取出该文档所包含的多个文本块各自的解析信息。例如,若一个样本文档包含了10个文本块,则可以解析出对应的10组解析信息。每组解析信息均至少包括文本块本身的格式信息以及文本块中记载的文本内容信息。
参见图3,是解析后得到的部分解析信息。图3中的每一行表示一个文本块,每一列表示文本块的一种解析信息。如:第一列“content”表示文本块的文本内容、第二列“index_order”表示文本块的索引号…等等。
在步骤S102中,基于所述多个文本块中的每个文本块所述的文本内容提取出所述样本文档的标题文本块并作为正样本置入确定为训练集内的正样本
在步骤S103中,将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,选择所述样本文档的非标题文本块并确定为作为负样本置入训练集内的负样本;
在一些实施例中,可以由开发人员阅览样本文档,并人工提供样本文档的标题,再使用该人工提供的标题在对应样本文档的各个文本块的解析信息中进行匹配,以确定其中的标题文本块。
具体而言,该匹配过程可以包括以下步骤(2-1)~步骤(2-2):
(2-1)利用相似度分析算法对比每个文本块中的文本内容与人工提供的标题内容的相似度;
(2-2)在相似度大于预定阈值时,将对应的文本块确定为所述样本文档的标题文本块。
参见图4所示,以解析indd文件为例,将人工标注数据(人工提供的标题文本内容)与indd解析数据(indd文件中解析出的文本块的文本内容)进行文本相似度比对,若两者的相似值大于预先设定的阈值,则将这一文本块作为正样本,否则将这一文本块加入负样本候选集,负样本候选集中的样本都可以视为非标题文本块。后续可在负样本候选集中随机选择一些文本块作为负样本。
在一些实施例中,在计算相似度时,可以计算文本块中的文本内容与人工提供的标题内容的Jaccard(杰卡德)相似性系数,以确定标题文本块。利用相似度计算可以批量分析样本文档,快速得到一批文档的标题文本块。
其中,标题文本块不一定是包含完整标题的文本块,也可能是包含部分标题的文本块。在创建文档页面时,一个完整标题的不同部分可能被分配在不同文本块中。
举例说明:通过人工阅览后,其中一个文档的标题被记录为“这才是当季最流行的美妆!”。该文档被解析后,得到文本块A中包括文本内容:“这才是当季最流行的”,文本块B中包括文本内容:“美妆!”。利用相似度分析算法计算该文档的所有文本块的相似度系数。其中,在所设置的相似度阈值较低时,文本块A和文本块B都会被识别为标题文本块;在所设置的相似度阈值中等时,其中一个文本块A被识别为标题文本块;在所设置的相似度阈值较高时,文本块A和文本块B都不被识别为标题文本块。
相似度阈值可以基于实际应用场景的需求进行相应调整,相似度阈值设置得越高,文本块的文本内容需要越“相似”于人工提供的标题文本内容,才能被确定为标题文本块。
在步骤S104中,针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息所述特征信息构建所述样本的特征向量;
解析信息中可能包括很多维度的信息,需选择其中几个指定维度的信息,确定为训练样本中的特征信息。
在一些实施例中,指定维度可以包括:文本长度维度、索引号维度、对齐方向维度、段落说明维度、字号大小维度和字体方向维度等。
在基于不同维度的特征信息构建特征向量时,可以利用预先设定的转换规则将所述不同维度的特征信息分别转换为数字表示,将各个数字表示所集合成的向量确定为特征向量。
下面以特征信息包括文本长度、索引号、对齐方向、段落说明、字号大小和字体方向这6个维度为例,说明将特征信息分别转换为数字表示的方式:
文本长度:将文本块中文字内容的长度数值作为对应的数字表示(去除文本内容的收尾空格后的字符长度)。
索引号:针对一篇文章或期刊等文档,索引号是文档创建时为其中的各个文本块从前向后分配的序号。例如,包含标题的文本块的索引号是1,所临近的下方小标题的文本块的索引号是2,小标题下方的第一段正文的文本块的索引号是3,等等。文本块的索引号不一定能表示该文本块是标题或正文,但可以表示出不同文本块之间的位置关系,即,索引号相邻的文本块一般也是位置相邻的。在将索引号转换为数字表示时,可以将索引号本身作为它的数字表示。
对齐方向:对齐方向一般有左对齐(LeftAlign)、右对齐(RightAlign)和中间对齐(CenterAlign),分别设定这三种对齐方式所对应的数字,以将文本块的对齐方向特征转换为数字表示。例如:“左对齐”可以被转换为数字0,“右对齐”可以被转换为数字1,“中间对齐”可以被转换为数字2。
段落说明:对满足数组['^.*(引言|导语|引文).*$','^.*目录.*$','^^.*((?<![次小])标题|大标).*$','^.*(作者|署名).*$','^.*(图注|图片|说明|图中提要|图说).*$','^.*(广告语|赞助商).*$','^.*(正文|内文|文章内容|提炼语|引语).*$','^.*(下标|页码|图号).*$','^.*(问答|回答|问题|问话|采访|专访|评语|TH问).*$','^.*链接.*$','^.*封面.*$','^.*专栏.*$','^.*(小标|二标|次标题).*$','^.*题标.*$','^英文细体.*$']中的正则表达式,取匹配到的序号。不在其中的,取数组长度加1的值。
字号大小:取字号本身。缺失值记为-1。
字体方向:对“LeftToRightDirection”、空字符等这样的内容进行编码,转化为数字。
在一些实施例中,还可在样本的特征向量中加入样本的上下文信息。步骤如下:
(3-1)确定所述样本的索引号,将所述索引号的上一索引号所对应的文本块确定为所述样本的样本上文,将所述索引号的下一索引号所对应的文本块确定为所述样本的样本下文;
(3-2)基于所述样本的解析信息,所述样本上文的解析信息和所述样本下文的解析信息共同构建所述样本的具有上下文特征的特征向量。
一个文本块的上下文特征,是指比该文本块索引号大一个或小一个的文本块的特征。比如一个文本块的索引号是6,它的上文特征就是索引号为5的文本块所具有的特征。它的下文特征就是索引号为7的文本块所具有的特征。
下面举例说明构建特征向量的方式:对于文本块X,经过解析后,可以得到其包括的文本内容是“爱马仕美妆终于来了”;索引号是“1”;对齐方向是“空”;段落说明是“头盘大标题”;字号大小是“空”;字体方向是“LeftToRightDirection”。
以上6个不同维度的特征信息可以形成一条数据:{"文本内容":"爱马仕美妆终于来了!","索引号":"1","对齐的方向":"","段落说明":"头盘大标题","字号大小":"","字体方向":"LeftToRightDirection"}。
依据预设的数字表示转换规则,文本块X所构建出的特征向量是:[10,1,0,2,-1.0,0]。具体构建方式如下:
文本内容:“爱马仕美妆终于来了!”,其中共有10个字符,则对应可得到的数字表示的文本长度特征是“10”;
索引号:“1”,对应可得到的数字表示的索引号是“1”;
对齐方向:“”,对应可得到的数字表示的对齐方向是“0”;
段落说明:“头盘大标题”,使用“头盘大标题”在预先设置的正则表达式中进行匹配,匹配到“^^.*((?<![次小])标题|大标).*$”,则对应为数字2;
字号大小:对应为数字-1.0;
字体方向:"LeftToRightDirection"对应为数字0。
将上述数字表示集合为向量,即为特征向量[10,1,0,2,-1.0,0]。
进一步的,文本块X的上文特征为{"文本内容":"爱马仕全球艺术总监......","索引号":"0","对齐的方向":"","段落说明":"内文一级小标题内文一级小标题内文一级小标题内文一级小标题内文","字号大小":"","字体方向":"LeftToRightDirection"},转换为数字表示为[1163,0,0,12,-1.0,0]。
下文特征为{"文本内容":"期盼已久","索引号":"2","对齐的方向":"","段落说明":"内文小","字号大小":"18","字体方向":"LeftToRightDirection"},转换为数字表示为[4,2,0,6,18.0,0]。
则文本块X结合了上下文特征后构建出的特征向量是:[10,1,0,2,-1.0,0,1163,0,0,12,-1.0,0,4,2,0,6,18.0,0]。
在步骤S105中,依据所述训练集中各个样本的特征向量构建标题识别模型。
该步骤即训练标题识别模型的步骤,通过上述步骤S101~步骤S103准备好训练集后,可以使用该训练集中的多个训练样本(正样本和负样本)进行模型训练,以构建出标题识别模型。
具体地,每个训练样本均包括样本特征(特征向量)和样本标签(通常来说,正样本的样本标签是1,负样本的样本标签是0),训练方式是有监督学习。通过有监督学习,标题识别模型分别可以学习到标题文本块的特征信息和非标题文本块的特征信息。由此,本实施例所构建的标题识别模型可以用于对同类型的文档(例如INDD格式的文档)特征信息对标题进行自动化识别。
在构建标题识别模型后,还可将一部分样本作为测试集,使用该标题识别模型对测试集进行预测,以检测该标题识别模型的性能,从而对模型进行进一步的迭代调整,最终得到符合需求的可用模型。
标题识别模型可被应用于实际的标题识别场景中,对文档的标题进行识别。参见图5,是本申请一实施例公开的标题识别方法,该标题识别方法基于上述构建完成的标题识别模型,包括以下步骤S501~步骤S503:
在步骤S501中,对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含中不同维度上的特征信息,所述特征信息至少包括文本内容;
在步骤S502中,使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
待识别文档即需要进行标题识别的文档,其中,对于待识别文档进行解析的步骤以及使用每个文本块的解析信息构建对应的特征向量的步骤可以参考上文对样本文档的相关说明。待识别文档需要选择与样本文档同样维度的特征信息构建成特征向量。
在步骤S503中,依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在各个文本块中确定出标题文本块。
在一些实施例中,一个待识别文档可以包括多个标题文本块,
在各个文本块中确定出标题文本块后,还需要确定出所述待识别文档的全部标题文本块,根据标题文本块的解析信息中的索引号将标题文本块中的标题内容进行拼接。
由上所述,本申请的实施例公开了一种标题识别模型的构建方法。先获取文档的各个文本块,再利用文档的文本块在多个维度的特征来构建正负样本并训练标题识别模型,使标题识别模型可以通过这些正负样本学习到标题文本块的特征和非标题文本块的特征。该标题识别模型可以实现对文档标题的自动化识别,而不局限于通过字号、字体来区分标题和正文。
相应于上述方法实施例,本申请实施例还提供一种标题识别模型的构建装置,参见图6所示,所述装置可以包括:
样本解析模块,被配置为对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
正样本获取模块,被配置为基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
负样本获取模块,被配置为将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
第一特征向量构建模块,被配置为针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
模型构建模块,被配置为依据所述训练集中多个样本的特征向量构建标题识别模型。
相应于上述方法实施例,本申请实施例还提供一种标题识别模型的构建装置,参见图7所示,所述装置可以包括:
文档解析模块,被配置为对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
第二特征向量构建模块,被配置为使用所述多个文本块中每个文本块解析信息中的所对应的不同维度上的特征信息构建对应文本块的特征向量;
标题识别模块,被配置为依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供一种电子设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述标题识别模型的构建方法,所述方法包括:
对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
依据所述训练集中多个样本的特征向量构建标题识别模型。
本申请实施例还提供一种计算机可读介质,其上存储有计算机可读指令,所述指令被执行时可实施本申请各实施例的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁存储设备存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
根据需要,本申请各实施例的系统、方法和装置可以实现为纯粹的软件(例如用Java和SQL来编写的软件程序),也可以根据需要实现为纯粹的硬件(例如专用ASIC芯片或FPGA芯片),还可以实现为结合了软件和硬件的系统(例如存储有固定代码的固件系统或者带有通用存储器和处理器的系统)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
以上所述仅是本申请实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请实施例的保护范围。

Claims (14)

1.一种用于构建标题识别模型的方法,包括:
对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
依据所述训练集中多个样本的特征向量构建标题识别模型,
其中,所述基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量,包括:利用预先设定的转换规则将所述样本所对应的解析信息中的不同维度上的特征信息分别转换为数字表示,并将所得到的各个数字表示的集合确定为所述样本的特征向量,
其中,所述不同维度至少包括索引号维度、文本长度维度、字号维度、字体方向维度、对齐方向维度和段落说明维度中的一项或多项,
并且其中,所述基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量,包括:
确定所述样本的索引号,将所述索引号的上一索引号所对应的文本块确定为所述样本的样本上文,将所述索引号的下一索引号所对应的文本块确定为所述样本的样本下文;
基于所述样本所对应的解析信息中的不同维度上的特征信息,所述样本上文所对应的解析信息中的不同维度上的特征信息,和所述样本下文所对应的解析信息中的不同维度上的特征信息共同构建所述样本的具有上下文特征的特征向量。
2.根据权利要求1所述的方法,所述样本文档是indd格式的文件。
3.根据权利要求2所述的方法,所述对样本文档进行解析,包括:
调用InDesignServer服务,将所述indd格式的文件转换为idml文件;
提取出idml文件中的xml文件,解析出所述xml文件中所包含的信息并存入数据库。
4.根据权利要求1所述的方法,所述基于所述多个文本块中的每个文本块所述的文本内容提取出所述样本文档的标题文本块,包括:
利用相似度分析算法对比所述多个文本块中的每个文本块中的文本内容与人工提供的标题内容的相似度;
在相似度大于预定阈值时,将对应的文本块确定为所述样本文档的标题文本块。
5.一种使用权利要求1所构建的标题识别模型来识别标题的方法,包括:
对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
6.根据权利要求5所述的方法,所述在所述多个文本块中确定出标题文本块后,还包括:
确定出所述待识别文档的全部标题文本块,根据标题文本块的索引号将标题文本块中的标题内容进行拼接。
7.一种用于构建标题识别模型的装置,包括:
样本解析模块,被配置为对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
正样本获取模块,被配置为基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
负样本获取模块,被配置为将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
第一特征向量构建模块,被配置为针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
模型构建模块,被配置为依据所述训练集中多个样本的特征向量构建标题识别模型,
其中,所述特征向量构建模块,在基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量时,被配置为:
利用预先设定的转换规则将所述样本所对应的解析信息中的不同维度上的特征信息分别转换为数字表示,并将所得到的各个数字表示的集合确定为所述样本的特征向量,
其中,所述不同维度至少包括索引号维度、文本长度维度、字号维度、字体方向维度、对齐方向维度和段落说明维度中的一项或多项,
并且其中,所述特征向量构建模块,在基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量时,被配置为:
确定所述样本的索引号,将所述索引号的上一索引号所对应的文本块确定为所述样本的样本上文,将所述索引号的下一索引号所对应的文本块确定为所述样本的样本下文;
基于所述样本所对应的解析信息中的不同维度上的特征信息,所述样本上文所对应的解析信息中的不同维度上的特征信息,和所述样本下文所对应的解析信息中的不同维度上的特征信息共同构建所述样本的具有上下文特征的特征向量。
8.根据权利要求7所述的装置,所述样本文档是indd格式的文件。
9.根据权利要求8所述的装置,所述解析模块,在对样本文档进行解析时,被配置为:
调用InDesignServer服务,将所述indd格式的文件转换为idml文件;
提取出idml文件中的xml文件,解析出所述xml文件中所包含的信息并存入数据库。
10.根据权利要求7所述的装置,所述正样本获取模块,在基于所述多个文本块中的每个文本块所述的文本内容提取出所述样本文档的标题文本块时,被配置为:
利用相似度分析算法对比所述多个文本块中的每个文本块中的文本内容与人工提供的标题内容的相似度;
在相似度大于预定阈值时,将对应的文本块确定为所述样本文档的标题文本块。
11.一种使用权利要求7所构建的标题识别模型来识别标题的装置,包括:
文档解析模块,被配置为对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
第二特征向量构建模块,被配置为使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
标题识别模块,被配置为依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
12.根据权利要求11所述的装置,所述在所述多个文本块中确定出标题文本块后,还包括:
确定出所述待识别文档的全部标题文本块,根据标题文本块的索引号将标题文本块中的标题内容进行拼接。
13.一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为能够执行所述指令,以实现如权利要求1至4中任一项所述的方法,或权利要求5-6任一项所述的方法。
14.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行如权利要求1至4中任一项所述的方法,或权利要求5-6任一项所述的方法。
CN202110320998.3A 2021-03-25 2021-03-25 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 Active CN112818687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110320998.3A CN112818687B (zh) 2021-03-25 2021-03-25 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110320998.3A CN112818687B (zh) 2021-03-25 2021-03-25 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112818687A CN112818687A (zh) 2021-05-18
CN112818687B true CN112818687B (zh) 2022-07-08

Family

ID=75863716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110320998.3A Active CN112818687B (zh) 2021-03-25 2021-03-25 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112818687B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258202A1 (en) * 2010-04-15 2011-10-20 Rajyashree Mukherjee Concept extraction using title and emphasized text
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN109508459B (zh) * 2018-11-06 2022-11-29 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
CN109871532B (zh) * 2019-01-04 2022-07-08 平安科技(深圳)有限公司 文本主题提取方法、装置及存储介质
CN110427884B (zh) * 2019-08-01 2023-05-09 达而观信息科技(上海)有限公司 文档篇章结构识别方法、装置、设备和存储介质
CN110555102A (zh) * 2019-09-16 2019-12-10 青岛聚看云科技有限公司 媒体标题识别方法、装置及存储介质
CN111460083B (zh) * 2020-03-31 2023-07-25 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112818687A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN106250385B (zh) 用于文档的自动化信息抽象处理的系统和方法
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
CN109948518B (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN113553853A (zh) 命名实体识别方法、装置、计算机设备及存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing
Hasan et al. Bangla font recognition using transfer learning method
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN111488737B (zh) 文本识别方法、装置及设备
CN111199151A (zh) 数据处理方法、及数据处理装置
CN114330313A (zh) 识别文档章节标题的方法及装置、电子设备、存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN116226450A (zh) 一种基于无监督预训练模型的视频表示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230217

Address after: 430050 302, Floor 3, No. 114, Hanyang Avenue, Hanyang District, Wuhan, Hubei Province

Patentee after: Wuhan Shulan Technology Co.,Ltd.

Address before: Unit 1, building 3, No. 1288 liangmu Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU DTWAVE TECHNOLOGY Co.,Ltd.