大纲显示方法、装置及设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种大纲显示方法、装置及设备。
背景技术
随着计算机科学技术的快速发展,网络数据(例如,电子图书、电子期刊、博客等)也随之呈爆炸式增长。这些网络数据具有来源广泛、无结构、无层次等特点。但这些网络数据中很多数据对人们的工作和生活能提供很大的帮助。
为了提高网络数据的利用率,可以对网络数据进行排版,然后根据排版之后的网络数据确定网络数据对应的大纲。用户可以根据该大纲直接查找用户想要查看的内容。
然而,现有的展示大纲的方法,大多对网络资源进行手工标引,例如,使用各类编辑加工工具对网络数据打上标签,然后再基于标签提取网络资源的大纲结构,最后对大纲进行展示,但是人工标引大纲的效率较低,且容易出错。
发明内容
本发明实施例一种大纲显示方法、装置及设备,以提高大纲提取的效率和准确率。
第一方面,本发明实施例提供一种大纲显示方法,包括:
提取待生成大纲对应的资源信息,其中,所述资源信息中包括至少一条资源种类和资源标识的对应关系;
根据所述资源标识定位所述资源信息中资源种类的分布信息;
根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示。
可选的,所述资源种类包括一级文本、二级文本和非文本,所述资源标识包括一级文本标识、二级文本标识和非文本标识,所述根据所述资源标识确定所述资源信息中资源种类的分布信息,包括:
根据所述一级文本标识和所述非文本标识定位所述资源信息中各资源种类对应的初步分类信息;
根据所述一级文本的初步分类信息和所述二级文本标识定位所述二级文本的深层分类信息;
根据所述一级文本的初步分类信息、所述二级文本的深层分类信息和所述非文本的初步分类信息定位所述资源信息中各资源种类的分布信息。
可选的,所述二级文本包括:
章标题、节标题、正文标题、正文、图标题、表标题、前言和参考文献标题中的一种或多种。
可选的,在所述根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲之后,还包括:
根据所述资源信息中资源种类的特征判断生成的所述大纲是否与所述资源信息相匹配,得到第一匹配结果;
若所述第一匹配结果表示生成的所述大纲与所述资源信息不匹配,则调整所述大纲与所述资源信息不匹配的部分,得到新的大纲。
可选的,在所述根据所述资源信息中各资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示之前,还包括:
获取触发的目标资源种类和所述目标资源种类的显示方式;
根据所述目标资源种类和所述目标资源种类的显示方式生成所述大纲模板。
第二方面,本发明实施例提供一种大纲显示装置,包括:
提取模块,用于提取待生成大纲对应的资源信息,其中,所述资源信息中包括至少一条资源种类和资源标识的对应关系;
定位模块,用于根据所述资源标识定位所述资源信息中资源种类的分布信息;
生成模块,用于根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示。
可选的,根据所述一级文本标识和所述非文本标识定位所述资源信息中各资源种类对应的初步分类信息;
根据所述一级文本的初步分类信息和所述二级文本标识定位所述二级文本的深层分类信息;
根据所述一级文本的初步分类信息、所述二级文本的深层分类信息和所述非文本的初步分类信息定位所述资源信息中各资源种类的分布信息。
可选的,所述二级文本包括:
章标题、节标题、正文标题、正文、图标题、表标题、前言和参考文献标题中的一种或多种。
第三方面,本发明实施例提供一种大纲显示设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的大纲显示方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的大纲显示方法。
本发明实施例提供一种大纲显示方法、装置及设备,采用上述方案后,可以根据获取的资源信息中资源种类的标识确定各资源种类的分布信息,然后再根据资源种类的分布信息和大纲模板自动生成资源信息对应的大纲,提高了大纲提取的效率和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的大纲显示方法的架构示意图;
图2为本发明实施例提供的大纲显示方法的流程示意图;
图3为本发明另一实施例提供的大纲显示方法的结构示意图;
图4为本发明实施例提供的资源信息分类示意图;
图5为本发明实施例提供的大纲显示装置的结构示意图;
图6为本发明实施例提供的大纲显示设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明实施例提供的大纲显示方法的架构示意图,如图1所示,包括服务器101和显示终端102。所述服务器101用于获取资源信息,并根据获取的资源信息进行处理,确定资源信息对应的大纲。然后,再将资源信息对应的大纲发送至显示终端102显示,使得用户可以直接查看资源信息对应的大纲,并根据大纲查找想要查看的内容。其中,资源信息可以为电子图书、电子期刊或博客等电子资源。此外,还可以采用客户端获取服务器中的资源信息,然后再根据获取的资源信息进行处理,得到资源信息对应的大纲,再将资源信息对应的大纲在客户端的显示界面中直接显示出来。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明实施例提供的大纲显示方法的流程示意图,本实施例的方法可以在服务器101执行,如图2所示,本实施例的方法可以包括:
S201:提取待生成大纲对应资源信息,其中,所述资源信息中包括至少一条资源种类和资源标识的对应关系。
具体的,在生成大纲之前,需要先确定生成大纲的对象,即待生成大纲的资源信息。其中,资源信息的种类可以有多种,可以为电子图书、电子期刊、博客等电子版的材料。但资源信息内部的资源类别多,且分布比较散乱,不利于资源信息的查找。例如,资源类别可以为标题,也可以是正文,还可以是图片或表格等。且每一章节包含的正文、图片或标题的数量可能会很多,也可能会很少,没有一个特定的标准,用户在查找想要查看的内容时效率很低。
因此,可以给每种资料种类分配一个资源标识,通过该资源标识就可以对应确定每种资源对应的资源种类。且每个资源标识与资源种类是一一对应的。例如,资源标识包括ABC三个,资源种类包括文本、图标和表格三种,若预先设定的是资源标识A对应代表文本,则资源标识A就只能代表文本,不能代表图标,也不能代表表格。其余资源标识也是同理。
此外,资源信息中还可以包括资源的样式属性。例如,文本类别的资源信息可以包括字体、字号和对齐方式等样式属性。
此外,资源标识可以为标签。例如,title可以作为章标题标识,annotation可以作为图标题标识。
S202:根据所述资源标识定位所述资源信息中资源种类的分布信息。具体的,在确定了资源标识与资源种类的对应关系之后,可以根据资源标识与资源种类的对应关系确定各资源种类的分布情况。即可以确定各资源种类之间的相互分布关系。例如,在确定了两个文本标识为章标题标识之后,可以确定这两个章标题标识之间的资源信息属于同一章的资源信息。进一步的,可以确定两个章标题标识之间的图片属于同一章的图片,两个章标题标识之间的文本属于同一章的文本。
此外,还可以确定每种资源对应的页码。例如,可以确定图片资源中每个图所在的页码。例如,可以确定图1在第一章的第6页,图2在第二章的第110页。
此外,资源种类还可以有一种或多种。有一种时,可以为文本。有多种时,可以为文本和非文本。其中,非文本还可以包括图片、表格、视频或公式等。
S203:根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示。
具体的,在生成大纲时,由于每个用户的需求不同,对生成的大纲的要求也可以不同。若用户需要详细查找到每个图片的位置,则可以生成包含图片位置的大纲。若用户只需要确定每个章的大致资源分布情况,则可以只生成包含每章名称和页码的大纲。生成大纲之后,为了方便用户查找,可以直接将大纲发送至显示终端显示。即用户可以在显示终端查看资源信息对应的大纲。然后用户可以再根据大纲的具体内容对应查找想要查看的资源的具体分布页码。
采用上述方案后,可以根据获取的资源信息中各资源种类的标识确定各资源种类的分布信息,例如,可以根据文本标识、图片标识、表格标识和公式标识确定对应的资源种类的分布信息,然后再根据资源种类的分布信息和大纲模板自动生成资源信息对应的大纲,提高了大纲提取的效率和准确率。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
此外,如图3所示,为本发明另一实施例提供的大纲显示方法的结构示意图,可以包括:
所述资源种类包括一级文本、二级文本和非文本,所述资源标识包括一级文本标识、二级文本标识和非文本标识。
S301:根据所述一级文本标识和所述非文本标识定位所述资源信息中各资源种类对应的初步分类信息。
S302:根据所述一级文本的初步分类信息和所述二级文本标识定位所述二级文本的深层分类信息。
S303:根据所述一级文本的初步分类信息、所述二级文本的深层分类信息和所述非文本的初步分类信息定位所述资源信息中各资源种类的分布信息。
其中,为了提高标识识别的准确率,可以分层次进行识别,每次只识别同一层级的资源信息。文本的资源分类比较多,可以将文本分成两层进行识别。第一层标识为所有的文本都具有的一级文本标识,第二层标识才为准确区分文本类别的二维文本标识。例如,章标题、节标题和正文都有代表文本的相同的一级文本标识。而却有不同的二级文本标识,即代表章标题的章标题标识,代表节标题的节标题标识和代表正文的正文标识。
例如,如图4所示,为本发明实施例提供的资源信息分类示意图,资源信息中可以包括文本、图片、表格和公式,文本中又可以包括图题、表体、附录标题和其他未识别的文本内容。在第一次识别时,可以只根据文本标识、图片标识、表格标识和公式标识识别出文本、图片、表格和公式四大类资源信息。然后在对文本内容进行进一步的分类。例如,可以根据内容特征将文本内容划分为图题、表题或空段等。例如,图题可以为图1,表题可以为表1。
此外,还可能会存在未获取标记的文本内容。在获取到未标记的文本内容时,根据篇标题内容特征识别篇标题,还可以根据章标题内容特征以及样式特征识别章标题,再根据对已识别的章标题根据样式特征的统计属性及上下文内容进行章标题过滤。然后对已识别章标题上下文内容和样式特征进行章标题内容补充及章副标题的识别。还可以根据序号特征、内容特征、标点符号特征、样式属性等识别其他各级大纲标题。
此外,资源信息的资源种类还可以只包括文本,不包括非文本,则可以直接文本中二级文本的分类信息确定资源信息对应的大纲。
此外,在一个具体实施方式中,所述二级文本包括:
章标题、节标题、正文标题、正文、图标题、表标题、前言和参考文献标题中的一种或多种。
具体的,以电子图书为例,一般电子图书会分几个大的章节,例如,第一章、第二章、第三章,每一个大的章节都会对应有一个章标题。在每一个大章中,还可以设置几个小节,例如第一节、第二节、第三节、第四节等,每一个小节也对应会有一个节标题。除了标题之外,还可以包括正文部分,正文部分中可以包括文本、图和表格。图和表格也可以包括标题,例如,图标题和表标题。此外,在正文之前,还可以包括前言。在正文之后,还可以包括参考文献。
此外,在一个具体实施方式中,在所述根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲之后,还可以包括:
根据所述资源信息中资源种类的特征判断生成的所述大纲是否与所述资源信息相匹配,得到第一匹配结果。
若所述第一匹配结果表示生成的所述大纲与所述资源信息不匹配,则调整所述大纲与所述资源信息不匹配的部分,得到新的大纲。
具体的,在得到资源信息对应的大纲之后,还要对生成的大纲进行检查,查看生成的大纲与资源信息是否匹配。可以根据各标题的序号特征、内容特征、标点符号特征、样式属性进行匹配验证。例如,大纲中包含四个章标题,可以查看资源信息中符合章标题属性的标题有几个,若有四个,则与大纲相匹配。若多于或少于四个,则与大纲不匹配,需要对大纲进行调整来匹配资源信息。
此外,在一个具体实施方式中,在所述根据所述资源信息中各资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示之前,还可以包括:
获取触发的目标资源种类和所述目标资源种类的显示方式。
根据所述目标资源种类和所述目标资源种类的显示方式生成所述大纲模板。
具体的,在生成大纲之前,可以根据用户想要查询的分类层级不同,对应生成不同的大纲。例如,用户想要查看图片A、B和C在资源信息中的具体位置,则可以对应生成包含图片分布的大纲。若用户只想要查看每章中的小节分布情况,则可以对应生成包含小节分布情况的大纲。此外,大纲的样式也是不同的,用户可以根据自己的浏览习惯自行选择大纲显示模板来显示大纲。其中,大纲显示模板是预先在数据库中存储好的。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置,如图5所示,为本发明实施例提供的大纲显示装置的结构示意图,可以包括:
提取模块501,用于提取待生成大纲对应的资源信息,其中,所述资源信息中包括至少一条资源种类和资源标识的对应关系。
定位模块502,用于根据所述资源标识定位所述资源信息中资源种类的分布信息。
生成模块503,用于根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示。
此外,在一个具体实施方式中,所述定位模块,还可以用于:
根据所述一级文本标识和所述非文本标识定位所述资源信息中各资源种类对应的初步分类信息。
根据所述一级文本的初步分类信息和所述二级文本标识定位所述二级文本的深层分类信息。
根据所述一级文本的初步分类信息、所述二级文本的深层分类信息和所述非文本的初步分类信息定位所述资源信息中各资源种类的分布信息。
此外,在一个具体实施方式中,所述二级文本可以包括:
章标题、节标题、正文标题、正文、图标题、表标题、前言和参考文献标题中的一种或多种。
此外,在一个具体实施方式中,在所述生成模块之后,还可以包括调整模块,所述调整模块用于:
根据所述资源信息中资源种类的特征判断生成的所述大纲是否与所述资源信息相匹配,得到第一匹配结果。
若所述第一匹配结果表示生成的所述大纲与所述资源信息不匹配,则调整所述大纲与所述资源信息不匹配的部分,得到新的大纲。
此外,在一个具体实施方式中,在所述生成模块之前,还可以包括:
获取触发的目标资源种类和所述目标资源种类的显示方式。
根据所述目标资源种类和所述目标资源种类的显示方式生成所述大纲模板。
本发明实施例提供的装置,可以实现上述如图2所示的实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的大纲显示设备的硬件结构示意图。如图6所示,本实施例提供的设备600包括:至少一个处理器601和存储器602。其中,处理器601、存储器602通过总线603连接。
在具体实现过程中,至少一个处理器601执行所述存储器602存储的计算机执行指令,使得至少一个处理器601执行如下步骤:
提取待生成大纲对应的资源信息,其中,所述资源信息中包括至少一条资源种类和资源标识的对应关系。
根据所述资源标识定位所述资源信息中资源种类的分布信息。
根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示。
所述资源种类包括一级文本、二级文本和非文本,所述资源标识包括一级文本标识、二级文本标识和非文本标识,所述根据所述资源标识确定所述资源信息中资源种类的分布信息,包括:
根据所述一级文本标识和所述非文本标识定位所述资源信息中各资源种类对应的初步分类信息。
根据所述一级文本的初步分类信息和所述二级文本标识定位所述二级文本的深层分类信息。
根据所述一级文本的初步分类信息、所述二级文本的深层分类信息和所述非文本的初步分类信息定位所述资源信息中各资源种类的分布信息。
所述二级文本包括:
章标题、节标题、正文标题、正文、图标题、表标题、前言和参考文献标题中的一种或多种。
在所述根据所述资源信息中资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲之后,还包括:
根据所述资源信息中资源种类的特征判断生成的所述大纲是否与所述资源信息相匹配,得到第一匹配结果。
若所述第一匹配结果表示生成的所述大纲与所述资源信息不匹配,则调整所述大纲与所述资源信息不匹配的部分,得到新的大纲。
在所述根据所述资源信息中各资源种类的分布信息和预设的大纲模板生成所述资源信息对应的大纲,并将所述大纲发送至显示终端显示之前,还包括:
获取触发的目标资源种类和所述目标资源种类的显示方式。
根据所述目标资源种类和所述目标资源种类的显示方式生成所述大纲模板。
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例的大纲显示方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。