CN114239588A - 文章处理方法、装置、电子设备及介质 - Google Patents
文章处理方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114239588A CN114239588A CN202111404580.7A CN202111404580A CN114239588A CN 114239588 A CN114239588 A CN 114239588A CN 202111404580 A CN202111404580 A CN 202111404580A CN 114239588 A CN114239588 A CN 114239588A
- Authority
- CN
- China
- Prior art keywords
- text
- title
- article
- titles
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Abstract
本申请实施例提供了一种文章处理方法、装置、电子设备及介质,旨在提高对文章的阅读效率,所述方法包括:对当前获取到的文章进行预处理,得到多个段落文本;从所述多个段落文本中提取多个标题,并基于多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,主旨文本表征所述篇章文本的内容摘要,素材文本表征所述文章所属的行业中的分析素材;基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成文章的分析框架图谱。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种文章处理方法、装置、电子设备及介质。
背景技术
在一些领域中,会产生大量的针对该领域的研究报告,这些研究报告可以称为分析文章,一般这些分析文章会被该领域中的从业者进行研读,以便从业者更好地开展在该领域中的业务。由于在阅读一份分析文章时,投资人员需要理解分析文章的核心观点,以及支撑核心观点的一些论据,因此,都是用户人工逐句阅读分析文章,以抓取其中的精华信息。这样的方式,在所需要的分析文章较少的情况下,可以满足。但是,在需要对大量分析文章进行分析的场景下,人工阅读的方式效率非常低下。
以投资领域为例,由于投资业务、投资机会的时效性问题,诸如周期判断、股票推荐、拐点预测、风险预警等研究内容,需要投资人员广泛吸收投资领域中的分析文章(在投资领域中,这些分析文章被广泛称为研报),以便更好地进行投资工作。然而,目前市面上有每年可以产出多达几十万份分析文章,全部由投资人员人工研读是不现实的。
受制于人工阅读分析文章的速度问题,相关技术中提出了选择性地挑选很小一部分分析文章发送给用户去阅读的方式,以减小用户要阅读的文章数量,但是,这样的方式导致文章获取非常有限且质量难以把控,导致有价值的其余分析文章无法被研读。
因此,亟待一种可以提高文章阅读效率、以便迅速抓取文章的精华信息的方法。
发明内容
为了解决上述问题,本申请提供了一种文章处理方法、装置、电子设备及介质,旨在提高研报阅读效率、以便投资人员迅速抓取研报的精华信息。
本申请实施例的第一方面,提供了一种文章处理方法,所述方法包括:
对当前获取到的文章进行预处理,得到多个段落文本;
从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;
从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材;
基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
本申请实施例的第二方面,提供一种文章处理装置,所述装置包括:
文章处理模块,用于对当前获取到的文章进行预处理,得到多个段落文本;
篇章划分模块,用于从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;
文本提取模块,用于从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材;
框架构建模块,用于基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如的一方面所述的文章处理方法。
此外,本申请实施例还提供一种计算机可读存储介质,其存储的计算机程序使得处理器执行如第一方面所述的文章处理方法。
与相关技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,可以对当前获取到的文章进行预处理,得到多个段落文本;从所述多个段落文本中提取多个标题,并基于多个标题将所述多个段落文本划分为与多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个段落文本;从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;基于多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成文章的分析框架图谱,该分析框架图谱可以概括文章的精华内容。
一方面,由于本申请将文章的标题、内容摘要和分析素材文本从文章中提取出来,从而从文章中提取了表征作者观点(包括主要观点、次要观点)、观点所依据的素材(论据)提取出来构建出分析框架图谱,用户可以根据该分析框架图谱迅速获取该文章的精华信息,而不用逐句研读文章后才能获取,进而提高了用户进行文章阅读的效率。
另一方面,由于提高了投资人员进行文章阅读的效率,如此,用户可以在较短的时间内阅读大量的文章,因而,可以不再受限于人工阅读的速度,而向用户推送数量更多的文章以便阅读,提高了信息的丰富程度,用户可以掌握更多的行业分析信息,从而帮助用户更好地进行开展工作,例如在投资领域,可以帮助投资人员掌握更多的投资信息,从而提高投资决策的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例示出的一种文章处理方法的整体流程意图;
图2是本申请一实施例示出的一种文章处理方法的步骤流程示意图;
图3是本申请一实施例示出的一种标题提取的步骤流程图;
图4是本申请一实施例示出的进行标题筛选的步骤流程图;
图5是本申请一实施例示出的主旨文本提取的步骤流程图;
图6是本申请一实施例示出的进行素材提取的步骤流程图;
图7是本申请一实施例示出的分析框架图谱的示意图;
图8是本申请一实施例示出的待处理的文章的部分内容的截图;
图9是本申请一实施例示出的标题提取的过程示意图;
图10是本申请一实施例示出的素材文本提取的结果示意图;
图11是本申请一实施例示出的主旨文本提取的过程示意图;
图12是本申请一实施例示出的分析框架图谱的示意图;
图13是本申请一实施例示出的数据处理装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
相关技术中,以投资领域为例,信息是投资决策的基础,信息缺失就好像闭着眼做决策,隐蔽的风险难以把控,稍纵即逝的投资机会难以掌握。在全面数字化的时代,投资行业中的竞争,是信息获取、信息解读、信息应用的全方位的效率比拼。
因此,更多地阅读券商撰写的研报(分析文章),以及更高效率地阅读研报,可以快速掌握信息以及掌握丰富的信息。然而相关技术中,人工阅读研报效率低下,为提高效率推送给人工小部分数量的研报,又降低了信息获取的丰富程度,因此,研报阅读效率低下的问题,是投资行业面临的共同痛点。
有鉴于此,本申请创造性地提出了以下技术构思:以人工智能技术和自然语言处理技术为核心,结合图像处理、目标识别等技术,将每个文章拆解为论点(标题)、论据(摘要)和素材,并重组成树状图式的分析框架图谱,从而用户可以根据该分析框架图谱迅速获取该文章的精华信息,而不用逐句研读文章后才能获取,进而提高了投资人员进行文章阅读的效率。
参照图1所示,示出了本申请的文章处理方法的整体流程示意图,如图1所示,首先,可以获取文章,这个文章可以是指行业内的分析文章,如投资行业中,就是券商的研报。之后,对文章进行预处理,得到多个段落文本,然后,进入篇章切割的流程。在该篇章切割的流程中,需要依据文章中的标题,将多个段落文本划分为多个篇章,这一步的目的是:对文章的各个观点(标题)进行拆解,以拆解出每个观点和每个观点的具体描述内容。
接着,进入摘要提取和素材提取的流程,由图1可知,摘要提取和素材提取可以并行进行。这一步的目的是:从每个观点(标题)的具体描述内容中提取出该观点的摘要,以及支撑该观点所用到的分析素材。
最后,进入框架提取的流程,在该流程,可以将拆解出的各个观点,支撑观点的核心论据、以及支撑观点所用到的分析素材组合成树状结构的分析框架,从而以知识图谱的形式展示给用户看。
经过以上流程,通过计算机完成了对文章的分析观点的拆解、摘要和素材的提取,并自动梳理成分析框架图谱,当用户需要阅读文章时,便可以将该文章的分析框架图谱发送给用户,从而帮助用户快速获取文章的精华信息。
结合图1所示,对本申请的文章处理方法进行详细说明,参照图2所示,示出了一种文章处理方法的步骤流程图,该文本处理方法可以应用于服务器中,如图2所示,具体可以包括以下步骤:
步骤S201:对当前获取到的文章进行预处理,得到多个段落文本。
本实施例中,获取到的文章可以是某一行业的研究报告(本申请称为分析文章),例如,可以是投资行业的研报。其中,可以从多个数据平台中获取文章,不同数据平台可以属于不同的行业,例如,有投资行业的数据平台,有医疗行业的数据平台。实际中,可以对每个数据平台中的文章生成对应的分析框架图谱,不同数据平台的文章可以进入不同的线程进行所述的文章处理。
其中,数据平台中存储有用户上传的分析文章,可以知道的是,用户可以随时向数据平台中上传分析文章,因此,数据平台中的分析文章是不断增多的。实际中,可以每隔指定的时间从数据平台中获取在指定时间内新增的文章。
本实施例中,可以在每获取到文章时,对该文章进行预处理。其中,预处理可以是指:将文章处理为PDF格式的文章,然后按照文章的内容,按照文章中的标识符、分割符等符号,结合各个文本的位置将文章按照段落的粒度组织起来,并去掉没有实际文本含义的符号,得到结构和语义完整的结构化文本内容,该结构化文本内容中包括多个段落文本。
本实施例中,是对PDF格式的文章生成分析框架图谱,这样,在获取到文章时,可以对文章进行校验。具体是校验文章的格式是否为PDF格式,以及文章是否完整未损坏等。如果文章是PDF格式且完整未损坏,则校验通过,若文章不是PDF格式但完整未损坏,例如,是word格式,还可以将word格式的文章转换为PDF格式的文章,从而对PDF格式的文章进行预处理。如果文章损坏,则会进入异常处理,将文章放入到异常数据库中。
需要说明的是,本申请将文章处理为多个段落文本可以理解为是:将文章按照段落进行拆分,并去除无实际含义的符号,如空格符号后,得到的文章。
步骤S202:从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本。
其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点。
其中,标题可以理解为是作者的分析观点,一般而言,一篇分析文章作者会有一个或多个分析观点,这些分析观点构成文章的总体分析架构,也可以理解为是构成了文章的分析提纲。通过这些标题,可以总体概括文章的组成内容。因此,本申请需要首先提取出文章的多个标题,之后通过提取出的多个标题,对文章进行内容上的切分,以便为每个标题提取出对应的摘要和素材。
实际中,由于是将文章按照段落进行拆分,并去除无实际含义的符号后得到的多个段落文本,一般而言,在作者撰写文章时,通常会分段,用一个段落来描述一个事件,例如,有承上启下的段落、有总结语的段落、有阐述详细内容的段落。对于文章的标题而言,即文章的名称,例如标题是“1998-2017年6轮PPT上行周期宏观背景回顾”通常是一个独立的段落。而对于作者想要表达的观点,要么是独立的段落来呈现,要么是与详细内容放在同一段落呈现。
因此,在提取多个标题时,可以以段落为粒度进行提取。具体实施时,可以对段落中的各个文本句进行语义理解,以筛选出属于标题的文本句作为标题。或者,可以按照段落中的文本的字体样式,将属于预设字体样式的文件句提取出来作为标题。或者,可以在文章有目录的情况下,将属于目录中的文本句作为标题。
在筛选出多个标题后,便可以基于筛选出的标题对多个段落文本进行划分,具体来说,可以从文章中位于起始位置的标题开始,将位于每相邻两个标题之间的段落文本作为该相邻两个标题中位置靠前的前一标题对应的篇章文本。可知的是,位于每相邻两个标题之间的段落文本可以是一个段落,也可以是多个段落。
可知的是,对于标准的数据分析文章,例如,投资行业中的研报,是有规定的样式的,作者撰写时会按照规定的样式进行撰写,例如,先写文章的名称,然后按照如下类似的架构进行撰写:“标题1-对标题1的内容阐述-标题2-对标题2的内容阐述-标题3-对标题3的内容阐述”。如此,标题与标题之间的内容阐述便是对前一标题的具体陈述内容,该内容阐述便可以作为前一标题的篇章文本。
当然,在一些场景下,标题也有放在陈述内容之后的情况,如此,也可以在对多个段落文本进行划分时,可以将位于每相邻两个标题之间的段落文本作为该相邻两个标题中位置靠后的后一标题对应的篇章文本。
步骤S203:从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本。
其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材。
本实施例中,由于每个标题对应的篇章文本是对该标题的具体阐述内容,实际中可以理解为是作者为支撑标题所阐述的观点,所提供的论证分析,由此,可以从篇章文本中提取出作者进行论证分析的内容摘要和所用到的分析素材。
其中,主旨文本可以是指篇章文本中的内容摘要,是指篇章文本中作者进行论证分析的摘要,实际中摘要可以理解为是篇章文本中的主旨句。例如,对于一份研报,“经济层面分为内需和外需”的句子是主旨句,其属于摘要,而“考虑到月度数据的可得性以及众向比较的连续性”不是主旨句,其不属于摘要。因此,在进行内容摘要的提取时,可以逐句判断篇章文章中的每个句子是否属于摘要,将属于摘要的句子作为主旨文本。当然,实现这一过程,可以通过神经网络模型实现。
同样的,素材文本可以是篇章文本中作者进行论证分析所用到的分析素材,一般而言,该分析素材是分行业的,不同行业所使用的分析素材不同。作者在进行文章的撰写时,一般会结合行业中的一些指标或者现象进行举例说明,以论证自己的观点。因此,可以根据文章所属的行业,按照该行业中惯用的一些分析素材,从篇章文本中提取出文章作者所使用的素材文本。
例如,以投资行业为例,会使用到回购利率、制造业PMI(Purchasing Managers'Index,采购经理指数)、全球制造业PMI等分析指标,这些分析指标如果出现在文章中,便可以提取出来作为素材文本。
当然,在另外一些实施例中,若在多个段落文本中提取不了素材文本或主旨文本,则会将该文章进行异常处理,如存储到另外的数据库中。
步骤S204:基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
本实施例中,由于标题表征所述文章的分析观点,篇章文本是对分析观点进行论证分析的内容,主旨文本表征篇章文本的内容摘要,实际中是篇章文章中进行论证分析的主旨句,而素材文本表征文章所属的行业中的分析素材,是进行论证分析所用到的分析素材,以通过行业中的一些指标或者现象举例论证作者的分析观点。由此,提取出标题、素材文本和主旨文本之后,便提取出了作者进行论证分析的思维框架,从而得到了文章的分析框架,自上而下形成“主要论点-分论点-论据”形式的研究框架。
具体实施时,可以将提取出的素材文本和主旨文本按照其所对应的标题,构建出素材文本、主旨文本和多个标题之间的连接关系,其中,同一标题对应的素材文本和主旨文本是并列的连接关系,由此,基于这一连接关系便可以生成分析框架图谱,之后,用户在需要调取该文章时,便可以将分析框架图谱发送给用户。
对于用户而言,分析框架图谱可以作为文章的分析框架的思维导图,从而用户可以根据该分析框架图谱迅速获取该文章的主要观点、所分析的摘要和使用到的分析素材,这些都属于文章的精华信息,而不用逐句研读文章后才能获取,进而提高了用户进行文章阅读的效率。
采用本实施例的技术方案,由于提高了投资人员进行文章阅读的效率,如此,用户可以在较短的时间内阅读大量的文章,因而,可以不再受限于人工阅读的速度,而向用户推送数量更多的文章以便阅读,提高了信息的丰富程度,用户可以掌握更多的行业分析信息,从而帮助用户更好地进行开展工作,例如在投资领域,可以帮助投资人员掌握更多的投资信息,从而提高投资决策的准确性。
如上所述,数据平台中的分析文章是不断增多的,可以每隔指定的时间从数据平台中获取在指定时间内新增的文章,然后生成新增的文章的分析框架图谱,并将该分析框架图谱和新增的文章保存在数据库中,以供用户查看。这样,当用户发起对某个文章的查看请求时,可以从数据库中获取该新增的文章,并将该新增的文章的分析框架图谱发送给用户,并显示在显示界面上。
下面,对如何显示分析框架图谱进行介绍,具体地,提出了以下几种显示方式,需要说明的是,以下显示方式在实际应用中可以任选一种,也可以全部采用,以满足用户个性化的文章阅读需求。
第一种方式:响应于对所述文章的查看请求,在显示界面上展示所述分析框架图谱。
本方式中,用户可以通过客户端访问文章,具体地,客户端可以在检测到用户对文章触发的查看操作时,向服务器发送该文章的查看请求,继而,服务器响应于查看请求,从数据库中获取查看请求对应的文章以及该文章的分析框架图谱,并将文章和分析框架图谱均发送给客户端。客户端可以在显示界面上渲染分析框架图谱,并将文章保存在本地。或者,可以仅发送分析框架图谱给客户端,之后,若客户端发起了对文章的下载请求,再向客户端发送分析框架图谱。
第二种方式:响应于对所展示的所述分析框架图谱中所述多个标题的选择操作,将所述文章中与被选中的标题对应的篇章文本展示到所述显示界面。
本方式中,分析框架图谱中的每个节点可以是被操作的,具体来说,其标题、主旨文本和素材文本均可以作为分析框架图谱中的节点。其中,可以设置标题所在的节点是可以被选中的,例如,被点击选中,从而可以响应于被选中的标题,从文章中确定与被选中的标题对应的篇章文本,进而将该篇章文本展示到显示界面中。
这里,展示的篇章文本可以是文章中该篇章文本的原始内容,具体来说,可以是截图的形式显示该原始内容,也可以以预览的形式展示该原始内容。
其中,在对被选中的标题对应的篇章文本进行展示时,可以将该篇章文本展示到被选中的标题的附近,例如,展示到被选中的标题的左侧、右侧、上侧或下侧。
当然,在一些方式中,除标题可以被选中外,主旨文本和素材文本也可以是被选中的,这样,可以展示被选中的主旨文本所在的篇章文本,以及可以展示素材文本所在的篇章文本。
采用此种方式时,可以在用户想要了解作者对某个观点的具体分析内容时,可以通过点击分析框架图谱中的相应节点,获取到原始的分析内容。
第三种方式:响应于所述文章的查看请求,在所述显示界面的预设第一位置展示所述分析框架图谱,以及在所述示界面的预设第二位置展示所述文章的预览图。
本方式中,可以在客户端发起文章的查看请求时,将分析框架图谱和文章同时发送给客户端,以在客户端的显示界面上同时展示文章和分析框架图谱。其中,在进行同时展示时,可以为文章和分析框架图谱分别指定各自的显示位置,例如,文章可以显示在分析框架图谱的左侧,这样,预设第一位置便可以是显示界面上的右半部分位置,预设第二位置便可以是显示界面上的左半部分位置。
其中,文章的预览图可以是文章的缩略图。在采用本显示方式时,在展示分析框架图谱时,也可以将分析框架图谱的尺寸先缩小后再显示到预设第一位置。或者,可以将分析框架图谱的部分内容,例如,标题部分的图谱显示到预设第一位置,之后,再响应于针对主旨文本和素材文本的获取操作,将主旨文本和素材文本显示到预设第一位置。
采用以上分析框架图谱的显示方式时,可以将文章的预览图和分析框架图谱同时显示到显示界面,以便用户在快速获取文章的框架信息时,还可以获取到文章的具体内容,从而方便用户对文章的深入理解。
其中,由于分析框架图谱中包含了文章的标题、摘要和素材,其中,摘要和素材是从标题对应的篇章文本中提取出的,可以理解为是支撑一个观点的两个方面的内容。实际中,为方便用户在阅读文章时,更好地区分一个观点的摘要和分析素材,可以在显示分析框架图谱时,对分析框架图谱中的摘要和素材添加上不同标记,或者仅为摘要添加上标记,或者仅为素材添加上标记,以帮助用户区分素材和摘要。
具体实施时,可以在所述分析框架图谱中,为所述至少一个主旨文本添加第一预设标记,和/或,为所述至少一个素材文本添加第二预设标记。
本实施方式时,所述第一预设标记不同于所述第二预设标记。其中,可以同时为主旨文本添加第一预设标记,以及为素材文本添加第二预设标记。也可以仅为主旨文本添加第一预设标记,或者,仅为素材文本添加第二预设标记。实际中,择一应用即可。
示例地,第一预设标记可以是方框,用于框选出主旨文本,则,第二预设标记可以是下划线。或者,第一预设标记可以是图形元素,如三角形、五角星等,第二预设标记可以是不同与第一预设标记的图形元素。
相应地,在展示所述分析框架图谱时,可以在展示添加有所述第一预设标记和/或所述第二预设标记的分析框架图谱。
其中,当同时为主旨文本添加第一预设标记,以及为素材文本添加第二预设标记时,分析框架图谱中便包括第一预设标记和第二预设标记。
需要说明的是,无论是上述所述的第一种显示方式还是第二种显示方式,都可以在展示分析框架图谱时,展示对应的第一预设标记和/或第二预设标记。
下面,分别对如何进行标题提取、主旨文本提取、素材文本提取,以及分析框架图谱的生成过程进行分别说明。
1.1,标题提取过程。
其中,在标题提取过程中,可以基于段落文本的字体样式筛选出候选的多个标题,并根据文章是否有目录确定筛选出的标题,其中,在有目录的情况下,可以根据目录确定筛选出的标题,在没有目录的情况下,可以基于神经网络模型筛选出标题。当然,在一些实施方式中,无论是有目录还是没有目录,都可以结合使用神经网络模型进行标题筛选。
参照图3所示,示出了标题提取的步骤流程图,如图3所示,具体可以包括以下步骤:
步骤S301:基于所述多个段落文本中每个段落文本中首句文本的字体样式,筛选出多个候选标题。
本实施例中,标题和正文一般会有字体大小、颜色、斜体、加粗等在字体样式上的区别。因此,可以通过字体样式初步筛选可能是标题的内容。一般而言,在一个段落文本中,标题会放在首句,因而可以根据首句文本的字体样式,从多个段落文本中筛选出多个候选标题。
需要说明的是,在进行标题筛选时,一个段落文本可以筛选出一个候选标题,而另外一些段落文本可以没有可筛选的标题。
步骤S302:确定所述多个段落文本中是否具有目录文本。
其中,由于对文章进行了解析处理后形成了结构化的多个段落文本,因此,目录也作为段落文本包含其中。因此,可以确定段落文本中是否有目录文本。一般而言,在文章有目录时,会明显写明“目录”字样,且相关的目录内容是位于“目录”之下的,因此,可以识别文章中是否有“目录”确定多个段落文本中是否具有目录文本。
实际中,在确定有目录时,可以获取相应的属于目录的目录文本。
步骤S303:在具有所述目录文本的情况下,基于所述目录文本中所包括的标题,从所述多个候选标题中筛选出所述多个标题。
本实施例中,在有目录文本的情况下,由于目录是文章的提纲,其包括多个标题,则可以基于目录文本中所包括的标题,从多个候选标题中筛选出所述多个标题。
步骤S304:在不具有所述目录文本的情况下,基于标题分类模型,从所述多个候选标题中筛选出所述多个标题。
其中,所述标题分类模型是基于携带标签的训练样本对预设模型进行训练,所述训练样本包括属于标题的正样本和不属于标题的负样本。
本实施例中,在不具有目录文本的情况下,便可以利用训练得到的标题分类模型从多个候选标题中筛选出多个标题。具体而言,标题分类模型的输入是待判定的候选标题的文本,标题分类模型通过文本向量化、文本向量卷积、MAX-Pooling和Softmax分类几个步骤,得出每一句候选标题文本属于标题的概率,这样可以将概率超过预设概率的候选标题确定为文章的标题。
实际中,在训练标题分类模型时,可以基于携带标签的训练样本对预设模型进行训练,其中,在收集训练样本时,可以将各个分析文章中的标题作为正样本,将各个分析文章中不是标题的文本句作为负样本,为了使得标题分类模型的准确率足够,可以仅可能多地获取不同字体样式的正样本,以及不同字体样式的负样本。
在一种实施方式中,该标题分类可以是与文章所属的行业对应的标题分类模型,其中,不同行业可以对应不同的标题分类模型,则在训练每个行业的标题分类模型时,可以将以该行业的分析文章作为正负样本的获取来源。
在一种实施方式中,如上所述,无论是有目录还是没有目录,都可以结合使用神经网络模型进行标题筛选。具体地,体现在有目录的情况下,可以结合两种筛选规则进行标题筛选,一种是相似度规则,另一种是神经网络模型的筛选规则。
具体的,在具有目录文本的情况下,筛选出所述多个标题的过程可以参照图4所示,图4给出了在具有目录文本的情况下进行标题筛选的步骤流程图,如图4所示,具体可以包括以下步骤:
步骤S401:确定所述多个候选标题与所述目录文本中包括的各个标题之间的相似度。
本实施例中,由于目录是文章的提纲,其包括这篇文章的标题,但是并不是文章段落中所有的标题都包括在目录中,且同一个标题内容在目录中记载的可能是缩略内容,例如,简称。因此,可以在有目录文本的情况下,确定多个候选标题与目录文本中包括的各个标题之间的相似度。
其中,相似度的确定可以是将候选标题和目录文本中的标题进行向量化,得到候选标题的向量,和目录文本中的标题的向量,之后,计算两个向量之间的距离,将该距离作为相似度。
步骤S402:基于所述多个候选标题各自对应的相似度,从所述多个候选标题中筛选出属于标题的至少一个第一标题。
本实施例中,可以设置相似度阈值,例如相似度阈值为0.9,则可以将大于或等于相似度阈值的候选标题作为筛选出的第一标题。
步骤S403:基于所述标题分类模型,从所述多个候选标题中除所述第一标题外的剩余候选标题中,筛选出至少一个第二标题。
如上所述,文章段落中所有的标题并不都包括在目录中,因此,在筛选出第一标题后,候选标题中剩余的其他候选标题也可能是作者的观点,但是却未包括在目录中,此种情况下,可以将剩余候选标题的文本输入到标题分类模型中,从而根据标题分类模型所输出的属于标题的概率,筛选出至少一个第二标题。
步骤S404:将所述至少一个第一标题和所述至少一个第二标题,作为所述多个标题。
在得到至少一个第一标题和至少一个第二标题后,这些标题都是属于作者的观点,因此可以将所有的第一标题和第二标题作为文章的多个标题。
采用此种实施方式时,采用标题分类模型和相似度确定相结合的方式,可以提高标题提取的准确度,这样可以提取出更多的作者的观点,从而可以实现对多个段落文本的更加细粒度的切分,获得更细的篇章划分粒度,得到的分析框架图谱的层次更加丰富,从而可以提取到更细致的分析内容。
1.2,主旨文本提取过程。
其中,在该主旨文本提取过程中,可以逐句判断篇章文本中的每个句子是否属于摘要,之后,将属于摘要的句子作为主旨文本。
参照图5所示,示出了主旨文本提取的步骤流程图,如图3所示,具体可以包括以下步骤:
步骤S501:基于所述每个标题对应的篇章文本中所包括的终止符,将所述篇章文本划分为多个文本句。
本实施例中,由于主旨文本是篇章文本中的摘要,因此,可以按照句子的粒度提取出主旨文本。一个文本句即是篇章文本中的一个句子。具体实施时,可以从篇章文本中逐句切分出多个文本句,即按照句子的粒度对篇章文本进行划分,从而划分出多个句子(文本句)。
其中,在进行句子划分时,可以按照终止符进行划分,其中,终止符的出现表征了一个句子的结束,终止符可以包括句号、感叹号、问号。实际中,可以利用神经网络模型对篇章文本中的终止符进行识别,进而根据识别出的终止符,对篇章文本进行切分,得到多个文本句。
该神经网络模型可以是以多个包含终止符的文本内容作为样本,对神经网络进行训练得到的。
步骤S502:基于摘要确定模型,确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率。
本实施例中,可以将得到的多个文本句输入到摘要确定模型,从而通过该摘要确定模型输出多个文本句各自属于摘要的概率。
实际中,摘要确定模型可以用于对输入的文本句通过文本向量化、文本向量卷积、MAX-Pooling和Softmax分类几个步骤,得出每一文本句属于摘要的概率。
其中,摘要确定模型是训练得到的,所采用的训练样本可以包括正样本和负样本,具体地,可以将各个分析文章中的摘要作为正样本,将各个分析文章中不是摘要的文本句作为负样本,为了使得摘要确定模型的准确率足够,可以仅可能多地获取分析文章。
在一种实施方式中,该摘要确定模型可以是与文章所属的行业对应的摘要确定模型,其中,不同行业可以对应不同的摘要确定模型,则在训练每个行业的摘要确定模型时,可以将以该行业的分析文章作为正负样本的获取来源。
步骤S503:基于所述概率,从所述每个标题对应的篇章文本中的多个文本句中筛选出所述至少一个主旨文本。
本实施例中,可以预设概率阈值,这样,可以将对应的概率大于等于预设概率阈值的文件句作为主旨文本。实际中,也可以将多个文本句按照其概率从高到低的顺序,确定出预设数量个文本句作为主旨文本。
在一种实施方式中,为了提高确定出的主旨文本的准确性,即保证提取出的主旨文本是真正代表了每个标题下的摘要,可以结合每个句子的样式和在篇章文本中的位置,逐句判断篇章文本中的每个句子是否属于摘要。
具体实施时,所述摘要确定模型包括第一子模型和第二子模型,其中,第一子模型的输出端可以连接第二子模型的输入端。其中,第一子模型和第二子模型可以是两个独立的模型被分开训练,也可以是同一个模型中的两个子模型,被一起训练。相应的,在确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率时,可以包括以下流程:
首先,获取所述多个文本句各自对应的文本属性信息,其中,所述文本属性信息至少包括所述文本句的样式信息,以及在所述篇章文本中的位置信息。
本实施例中,样式信息可以是指文本句的文本样式,可以包括字体样式和字体颜色,如,字体是否是粗体、是否斜体、文字颜色等。位置信息可以表征文本句在篇章文章中的位置,例如,是否位于段首、是否位于段尾、是否单独成段。
其中,文本属性信息可以帮助确定文本句在篇章文本中的重要性,重要性越高的文本句,其文本属性信息可以是与其他重要性不高的文本句的文本属性信息不同的。例如,对于摘要,有可能是字体加粗、字体颜色是加黑。而其他句的字体并未加粗也并未加黑。
其次,基于所述第一子模型,确定所述多个文本句各自属于摘要的初始概率。
本实施例中,可以将多个文本句输入到第一子模型,通过第一子模型确定多个文本句各自属于摘要的初始概率,具体而言,第一子模型可以用于对输入的文本句通过文本向量化、文本向量卷积、MAX-Pooling和Softmax分类几个步骤,得出每一文本句属于摘要的初始概率。
接着,将所述多个文本句各自属于摘要的初始概率,以及所述多个文本句各自对应的文本属性信息输入到所述第二子模型,得到所述第二子模型输出的所述多个文本句各自属于摘要的概率。
本实施例中,在得到多个文本句各自属于摘要的初始概率后,可以将文本句的初始概率和文本属性信息输入到第二子模型,通过第二子模型确定多个文本句各自属于摘要的概率,该第二子模型可以用于对各个文本句的初始概率进行调整。
其中,第二子模型可以是GBDT(梯度下降决策树)模型,第一子模型和第二子模型可以是基于同一训练样本进行训练得到的,该训练样本可以包括人工标注好标签的正样本句子和负样本句子。正样本句子的标签可以表征正样本句子是摘要,而负样本句子的标签可以表征负样本句子不是摘要。
需要说明的是,在对第一子模型和第二子模型进行同时训练时,可以将正样本句子和负样本句子输入到第一子模型,之后,将正样本句子和负样本句子各自的文本属性信息输入到第二子模型。在每次训练完成后,均可以根据第二子模型输出的属于摘要的概率以及标签,确定损失,接着,根据该损失对第一子模型和第二子模型的参数进行更新。
采用此种实施方式时,可以从各个篇章文本中提取摘要,从而实现对篇章核心内容和主要观点的总结概括。采用摘要确定模型逐句提取主旨文本,可以保证提取出的主旨文本在语义上的正确性和完整性。进一步地,结合文本句的文本样式,可以对第一子模型确定出的初始概率进行修正,如此,可以提高提取出的主旨文本的正确度。
1.3,素材文本提取过程。
其中,在进行素材文本提取时,一种可行的实施方式是,利用素材库进行提取,具体地,将篇章文本划分为多个词语,然后将每个词语与素材库中存储的多个素材进行比对,将比对上的词语作为素材文本。这种方式,可以将素材库中的素材扩充的足够多,进而可以提高素材提取的全面性。
实际中,素材提取也要求准确性,即提取出的素材是文章的作者支撑其观点所采用的正面的素材。例如,“碳排放量是本次会议的焦点”中,“碳排放量”并就是用于支撑作者观点的正面的素材。
然而,在一些文章中,作者为了突出自己的观点,会拿一些素材作为反面举例,这类素材便不是支撑作者观点的正面的素材。例如“碳排放量并不是本次会议的焦点”中,“碳排放量”并不是一个用于支撑作者观点的正面的素材。此种情况下,靠素材库的比对方法便无法避免将反面的素材提取出来的情况。
进一步地,可以基于神经网络模型进行素材提取,以保证提取出的素材的全面性和可靠性。
相应地,参照图6所示,示出了一种实施例中进行素材提取的步骤流程图,如图6所示,具体可以包括以下步骤:
步骤S601:获取所述每个标题对应的篇章文本的文本向量。
步骤S602:将所述每个标题对应的篇章文本的文本向量输入到素材筛选模型中,得到所述至少一个素材文本。
其中,所述素材筛选模型是以多个携带标记的文本为样本,对预设模型进行训练得到的,所述标记用于标识所述文本向量中属于素材文本的文本。
本实施例中,可以将整个篇章文本的文本向量输入到素材筛选模型中进行素材文本的提取。其中,素材筛选模型可以通过对文本向量进行命名实体识别,具体地,素材筛选模型可以采用BERT+BiLSTM+CRF架构,可以用于对输入的文本向量转化为句向量,之后,BiLSTM层进行特征提取,得到句向量的特征编码,之后,CRF层对句向量的特征编码进行序列标注,之后素材筛选模型输出的可以是有标注的篇章文本,在该篇章文本中,被添加预设标注的,例如,添加有1的文本作为素材文本。
实际中,在训练素材筛选模型时,可以基于携带标签的训练样本对预设模型进行训练,其中,在收集训练样本时,可以首先获取多个分析文章,然后从每个分析文章中将包含有分析素材的段落文本作为素材样本,这样,可以得到大量的素材样本,基于大量的素材样本对神经网络进行训练,并基于标签,即每个素材样本中所包括的真实素材文本,求取神经网络的损失,从而基于损失对神经网络进行迭代更新,由此得到了素材筛选模型。
在一种实施方式中,由于不同行业所使用的分析素材可能不同,因此,该素材筛选模型可以是与文章所属的行业对应的素材筛选模型,其中,不同行业可以对应不同的素材筛选模型,则在训练每个行业的素材筛选模型时,可以将以该行业的分析文章作为素材样本的获取来源。
采用素材筛选模型进行素材文本的筛选时,可以从语义的角度来甄别素材,具有提取素材库中尚不存在的新素材的能力,且可以改善素材库的匹配方式无法处理的情况。例如“碳排放量并不是本次会议的焦点”中,“碳排放量”并不是一个分析素材,则利用素材筛选模型就会避免将“碳排放量”作为素材文本,进而提高对素材文本进行提取的准确度。
1.4,分析框架图谱的生成过程。
其中,在生成分析框架图谱时,可以依据多个标题之间的层级关系,构建出反映该层级关系的标题树,然后将每个标题对应的主旨文本和素材文本作为标题树中该标题的叶子节点,由此构建出分析框架图谱。
具体实施时,可以基于所述文章的目录文本,和/或所述多个标题各自对应的字体样式,确定所述多个标题各自所属的层级。
其中,在有目录文本的情况下,可以根据目录确定包含在目录内的标题的层级,而对于未包含在目录内的标题的层级,可以根据未包含在目录内的标题与以确定出层级的标题之间的字体样式,确定未包含在目录内的标题的层级。例如,包含在目录内的标题1的层级是一级标题,未包含在目录内的标题2与标题1的字体样式是一致的,则标题2是一级标题,若标题2与标题1的字体样式是不一致的,则标题2会与其余未包含在目录内的标题的字体样式比对,若将标题2划分为二级标题,则与标题2的字体样式一致的其余标题3也是二级标题,而与标题2的字体样式不一致的其余标题4可以是三级标题。
其中,在没有目录文本的情况下,可以根据多个标题各自对应的字体样式确定各自的层级。其中,字体样式一致的标题属于同一层级,位于第一个出现的标题是一级标题。如第一个出现的标题是标题1,则会将标题1作为一级标题,与标题1字体样式相同的标题2也为一级标题。而标题1之后是标题3,标题3与标题1的字体样式不同,则标题3可以作为二级标题,与标题3的字体样式一致的也是二级标题。如此,可以按照标题各自的字体样式和所属的段落文本的出现顺序,确定出各自的层级。
当然,在一些文章中,可能对标题标有数字标号,则此种情况下,可以根据数据标号的样式确定出标题的层级,例如,标号是“1”的标题的层级高于标号是“(1)”的标题的层级。
之后,以所述文章的文章标题为根节点,基于所述多个标题各自所属的层级,构建所述多个标题的标题树;并将与所述每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,分别作为所述标题树中该标题的叶子节点,得到所述文章的分析框架图谱。
文章标题可以是指文章的名称,作为文章区别与其他文章的标识,其中,可以将文章标题作为根节点,将最高层级的标题作为根节点的子节点,之后,将其余标题按照各自所属的层级连接在相应的子节点之后,构成标题树。例如,标题1是最高层级的标题,标题2是标题下的二级标题,则将标题2连接在标题1的节点后,作为标题1的子节点。当然,判断出标题与标题之间的从属关系,可以从标题之间的位置距离进行得到,如标题2一般与标题1的位置靠近。
在得到标题树之后,可以将每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,作为该标题的叶子节点,即连接在该标题的节点之后,从而得到分析框架图谱。
参照图7所示,示出了一种分析框架图谱的示意图,由于标题之间有层级,如图7所述,标题1也可以提取出素材文本和主旨文本,在标题1下同时有素材文本、主旨文本以及标题2和标题5,标题2和标题5又可以连接自己的素材文本和主旨文本。如上所述,由于素材文本、主旨文本可以有各自的预设标记,因此,可以很好地区分标题1下连接的标题2和标题1的素材文本、主旨文本。
需要说明的是,在文章中确定出的多个标题如果属于同一层级,则各个标题可以是并列的子节点,没有从属关系,则分析框架图谱可以如图12所示。
下面,结合一个具体文章,对本申请的文章处理方法进行示例性说明。
参照图8所示,示出了一篇待处理的文章的部分内容的截图,以图8所示的文章为例进行介绍:
S1、对文章进行标题筛选。具体地,标题提取过程可以参见上述1.1节的内容所述。
首先,筛选出候选标题,参照图9,示出了标题提取的过程示意图。如图9中最上面的图所示,框选出的内容即为候选标题。
其次,文章是有目录的,因此,可以将候选标题与目录中的标题进行相似度的计算,其结果如图9中最中间的图所示,相似度得分详见文字标注部分。并利用标题分类模型再次候选标题属于标题的概率,其概率得分详见文字标注部分。
接着,根据这两个得分筛选出标题,其结果如图9中最下面的图所示,其筛选出的标题详见图中框选出的内容。其中,可以根据1.4节所述的内容,确定出标题各自的层级,如图9最下面的图所示,其层级详见文字标注部分。
S2、提取素材文本。具体地,素材提取过程可以参见上述1.3节的内容所述。其结果参照图10所示,图10示出了素材文本提取的结果示意图。其中,下划线部分为素材文本。
S3、提取主旨文本。具体地,主旨文本提取过程可以参见上述1.2节的内容所述。其结果参照图11所示,图11示出了主旨文本提取的过程示意图。
首先,会将篇章文本逐句划分,划分结果如图11中最上面的图所示,接着,逐句判断每个文本句属于摘要的概率,其结果如图11中最中间的图所示,接着,根据概率确定出摘要,其结果如图11中最下面的图所示,其所确定出的主旨文本如图中所框选的部分。
S4、分析框架图谱的生成。具体地,分析框架图谱生成过程可以参见上述1.4节的内容所述。其生成的分析框架图谱参照图12所示。其中,素材文本被添加上标记,以便与主旨文本进行区分。
采用本申请实施例的技术方案,至少具有以下优点:
本申请是从语义出发,以提取文章背后的研究框架为目标的文章解构方案。通过人工智能技术和自然语言处理技术实现对文章的框架提取取,实现了文章的篇章结构识别与提取、分析素材提取、摘要提取以及研究框架构建,具有弥补市场空白、自动化程度高等技术优势。
通过本申请的技术方案,可以实时地处理海量的分析文章研报,在最小化人工参与的情况下,将文章拆解为论点、论据和素材,并重组成树状图式的分析框架图谱,让研究人员可以非常直观地触达分析文章的底层分析逻辑。不仅让研究人员在阅读分析文章的时效性上实现大幅提高,分析文章的利用率也取得了有效提高,使得各个分析文章均能被有效利用。
基于与上述实施例同一发明构思,本申请实施例的第二方面,提供了一种文章处理装置,参照图13所示,示出了该文章处理装置的结构示意图,可以位于服务器中,如图13所示,所述装置具体可以包括以下模块:
文章处理模块1301,用于对当前获取到的文章进行预处理,得到多个段落文本;
篇章划分模块1302,用于从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;
文本提取模块1303,用于从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材;
框架构建模块1304,用于基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
可选地,所述装置还包括以下至少一个模块:
第一显示模块,用于响应于对所述文章的查看请求,在显示界面上展示所述分析框架图谱;
第二显示模块,用于响应于对所展示的所述分析框架图谱中所述多个标题的选择操作,将所述文章中与被选中的标题对应的篇章文本展示到所述显示界面;
第三显示模块,用于响应于所述文章的查看请求,在所述显示界面的预设第一位置展示所述分析框架图谱,以及在所述示界面的预设第二位置展示所述文章的预览图。
可选地,所述装置还包括:
标记添加模块,用于在所述分析框架图谱中,为所述至少一个主旨文本添加第一预设标记,和/或,为所述至少一个素材文本添加第二预设标记;
其中,所述展示所述分析框架图谱的步骤可以是:展示添加有所述第一预设标记和/或所述第二预设标记的分析框架图谱;其中,所述第一预设标记不同于所述第二预设标记。
可选地,所述装置还包括:
层级确定模块,用于基于所述文章的目录文本,和/或所述多个标题各自对应的字体样式,确定所述多个标题各自所属的层级;
所述框架构建模块1304,包括:
第一构建模块,用于以所述文章的文章标题为根节点,基于所述多个标题各自所属的层级,构建所述多个标题的标题树;
第二构建模块,用于将与所述每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,分别作为所述标题树中该标题的叶子节点,得到所述文章的分析框架图谱。
可选地,所述篇章划分模块1302,包括:
候选标题提取单元,用于基于所述多个段落文本中每个段落文本中首句文本的字体样式,筛选出多个候选标题;
目录判断单元,用于确定所述多个段落文本中是否具有目录文本;
第一筛选单元,用于在具有所述目录文本的情况下,基于所述目录文本中所包括的标题,从所述多个候选标题中筛选出所述多个标题;
第二筛选单元,用于在不具有所述目录文本的情况下,基于标题分类模型,从所述多个候选标题中筛选出所述多个标题。
可选地,所述第一筛选单元,包括:
相似度确定子单元,用于确定所述多个候选标题与所述目录文本中包括的各个标题之间的相似度;
第一筛选子单元,用于基于所述多个候选标题各自对应的相似度,从所述多个候选标题中筛选出属于标题的至少一个第一标题;
第二筛选子单元,用于基于所述标题分类模型,从所述多个候选标题中除所述第一标题外的剩余候选标题中,筛选出至少一个第二标题;
标题集合子单元,用于将所述至少一个第一标题和所述至少一个第二标题,作为所述多个标题。
可选地,从每个标题对应的篇章文本中,提取至少一个主旨文本的步骤具体可以包括以下子步骤:
基于所述每个标题对应的篇章文本中所包括的终止符,将所述篇章文本划分为多个文本句;
基于摘要确定模型,确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率;
基于所述概率,从所述每个标题对应的篇章文本中的多个文本句中筛选出所述至少一个主旨文本。
可选地,所述摘要确定模型包括第一子模型和第二子模型,所述基于摘要确定模型,确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率的步骤具体可以包括以下子步骤:
获取所述多个文本句各自对应的文本属性信息,其中,所述文本属性信息至少包括所述文本句的样式信息,以及在所述篇章文本中的位置信息;
基于所述第一子模型,确定所述多个文本句各自属于摘要的初始概率;
将所述多个文本句各自属于摘要的初始概率,以及所述多个文本句各自对应的文本属性信息输入到所述第二子模型,得到所述第二子模型输出的所述多个文本句各自属于摘要的概率。
可选地,所述从每个标题对应的篇章文本中,提取至少一个素材文本的步骤包括以下子步骤:
获取所述每个标题对应的篇章文本的文本向量;
将所述每个标题对应的篇章文本的文本向量输入到素材筛选模型中,得到所述至少一个素材文本;
其中,所述素材筛选模型是以多个携带标记的文本向量为样本,对预设模型进行训练得到的,所述标记用于标识所述文本向量中属于素材文本的文本。
本申请实施例还提供了一种电子设备,该电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的文章处理方法。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行一种以实现本申请上述的文章处理方法所执行的操作。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文章处理方法、装置、电子设备及介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种文章处理方法,其特征在于,所述方法包括:
对当前获取到的文章进行预处理,得到多个段落文本;
从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;
从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材;
基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括以下至少一个步骤:
响应于对所述文章的查看请求,在显示界面上展示所述分析框架图谱;
响应于对所展示的所述分析框架图谱中所述多个标题的选择操作,将所述文章中与被选中的标题对应的篇章文本展示到所述显示界面;
响应于所述文章的查看请求,在所述显示界面的预设第一位置展示所述分析框架图谱,以及在所述示界面的预设第二位置展示所述文章的预览图。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述分析框架图谱中,为所述至少一个主旨文本添加第一预设标记,和/或,为所述至少一个素材文本添加第二预设标记;
所述展示所述分析框架图谱,包括:
展示添加有所述第一预设标记和/或所述第二预设标记的分析框架图谱;
其中,所述第一预设标记不同于所述第二预设标记。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述文章的目录文本,和/或所述多个标题各自对应的字体样式,确定所述多个标题各自所属的层级;
基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱,包括:
以所述文章的文章标题为根节点,基于所述多个标题各自所属的层级,构建所述多个标题的标题树;
将与所述每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,分别作为所述标题树中该标题的叶子节点,得到所述文章的分析框架图谱。
5.根据权利要求1所述的方法,其特征在于,从所述多个段落文本中提取多个标题,包括:
基于所述多个段落文本中每个段落文本中首句文本的字体样式,筛选出多个候选标题;
确定所述多个段落文本中是否具有目录文本;
在具有所述目录文本的情况下,基于所述目录文本中所包括的标题,从所述多个候选标题中筛选出所述多个标题;
在不具有所述目录文本的情况下,基于标题分类模型,从所述多个候选标题中筛选出所述多个标题;其中,所述标题分类模型是训练样本对预设模型进行训练,所述训练样本包括属于标题的正样本和不属于标题的负样本。
6.根据权利要求5所述的方法,其特征在于,在具有所述目录文本的情况下,基于所述目录文本中所包括的标题,从所述多个候选标题中筛选出所述多个标题,包括:
确定所述多个候选标题与所述目录文本中包括的各个标题之间的相似度;
基于所述多个候选标题各自对应的相似度,从所述多个候选标题中筛选出属于标题的至少一个第一标题;
基于所述标题分类模型,从所述多个候选标题中除所述第一标题外的剩余候选标题中,筛选出至少一个第二标题;
将所述至少一个第一标题和所述至少一个第二标题,作为所述多个标题。
7.根据权利要求1所述的方法,其特征在于,从每个标题对应的篇章文本中,提取至少一个主旨文本,包括:
基于所述每个标题对应的篇章文本中所包括的终止符,将所述篇章文本划分为多个文本句;
基于摘要确定模型,确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率;其中,所述摘要确定模型是基于训练样本对预设模型进行训练,所述训练样本包括属于摘要的正样本和不属于摘要的负样本;
基于所述概率,从所述每个标题对应的篇章文本中的多个文本句中筛选出所述至少一个主旨文本。
8.根据权利要求7所述的方法,其特征在于,所述摘要确定模型包括第一子模型和第二子模型,基于摘要确定模型,确定每个标题对应的篇章文本中的多个文本句各自属于摘要的概率,包括:
获取所述多个文本句各自对应的文本属性信息,其中,所述文本属性信息至少包括所述文本句的样式信息,以及在所述篇章文本中的位置信息;
基于所述第一子模型,确定所述多个文本句各自属于摘要的初始概率;
将所述多个文本句各自属于摘要的初始概率,以及所述多个文本句各自对应的文本属性信息输入到所述第二子模型,得到所述第二子模型输出的所述多个文本句各自属于摘要的概率。
9.根据权利要求1所述的方法,其特征在于,从每个标题对应的篇章文本中,提取至少一个素材文本,包括:
获取所述每个标题对应的篇章文本的文本向量;
将所述每个标题对应的篇章文本的文本向量输入到素材筛选模型中,得到所述至少一个素材文本;
其中,所述素材筛选模型是以多个携带标记的文本为样本,对预设模型进行训练得到的,所述标记用于标识所述文本向量中属于素材文本的文本。
10.一种文章处理装置,其特征在于,所述装置包括:
文章处理模块,用于对当前获取到的文章进行预处理,得到多个段落文本;
篇章划分模块,用于从所述多个段落文本中提取多个标题,并基于所述多个标题将所述多个段落文本划分为与所述多个标题各自对应的篇章文本;其中,每个篇章文本包括至少一个所述段落文本,所述标题表征所述文章的分析观点;
文本提取模块,用于从每个标题对应的篇章文本中,提取至少一个主旨文本以及至少一个素材文本;其中,所述主旨文本表征所述篇章文本的内容摘要,所述素材文本表征所述文章所属的行业中的分析素材;
框架构建模块,用于基于所述多个标题、以及每个标题对应的篇章文本中的至少一个主旨文本和至少一个素材文本,生成所述文章的分析框架图谱。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-9任一项所述的文章处理方法。
12.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-9任一项所述的文章处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111404580.7A CN114239588A (zh) | 2021-11-24 | 2021-11-24 | 文章处理方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111404580.7A CN114239588A (zh) | 2021-11-24 | 2021-11-24 | 文章处理方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114239588A true CN114239588A (zh) | 2022-03-25 |
Family
ID=80750818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111404580.7A Pending CN114239588A (zh) | 2021-11-24 | 2021-11-24 | 文章处理方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239588A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861641A (zh) * | 2022-07-05 | 2022-08-05 | 北京拓普丰联信息科技股份有限公司 | 一种数据提取方法、装置、电子设备和存储介质 |
CN115858824A (zh) * | 2023-02-28 | 2023-03-28 | 北京朗知网络传媒科技股份有限公司 | 一种交互式数码传媒文章的智能生成方法和装置 |
CN115935074A (zh) * | 2023-01-09 | 2023-04-07 | 北京创新乐知网络技术有限公司 | 文章推荐方法、装置、设备及介质 |
-
2021
- 2021-11-24 CN CN202111404580.7A patent/CN114239588A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861641A (zh) * | 2022-07-05 | 2022-08-05 | 北京拓普丰联信息科技股份有限公司 | 一种数据提取方法、装置、电子设备和存储介质 |
CN114861641B (zh) * | 2022-07-05 | 2022-09-20 | 北京拓普丰联信息科技股份有限公司 | 一种数据提取方法、装置、电子设备和存储介质 |
CN115935074A (zh) * | 2023-01-09 | 2023-04-07 | 北京创新乐知网络技术有限公司 | 文章推荐方法、装置、设备及介质 |
CN115935074B (zh) * | 2023-01-09 | 2023-08-11 | 北京创新乐知网络技术有限公司 | 文章推荐方法、装置、设备及介质 |
CN115858824A (zh) * | 2023-02-28 | 2023-03-28 | 北京朗知网络传媒科技股份有限公司 | 一种交互式数码传媒文章的智能生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN112036153B (zh) | 工单纠错方法、装置、计算机可读存储介质和计算机设备 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
EP3968245A1 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
EP3968244A1 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN111723564A (zh) | 一种针对随案电子卷宗的事件抽取及处理方法 | |
CN113094512A (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
EP2544100A2 (en) | Method and system for making document modules | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN112632948A (zh) | 案件文书排序方法及相关设备 | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
CN111753536A (zh) | 一种专利申请文本的自动撰写方法和装置 | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
EP3965024A1 (en) | Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects | |
KR101713612B1 (ko) | 지능형 스토리텔링 지원 시스템 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |