CN110472213B - 一种基于全文的文章格式校对方法及平台 - Google Patents

一种基于全文的文章格式校对方法及平台 Download PDF

Info

Publication number
CN110472213B
CN110472213B CN201910729588.7A CN201910729588A CN110472213B CN 110472213 B CN110472213 B CN 110472213B CN 201910729588 A CN201910729588 A CN 201910729588A CN 110472213 B CN110472213 B CN 110472213B
Authority
CN
China
Prior art keywords
text
target
article
detected
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910729588.7A
Other languages
English (en)
Other versions
CN110472213A (zh
Inventor
刘佳卉
陈杰
张玉东
杨宏生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd filed Critical Baidu com Times Technology Beijing Co Ltd
Priority to CN201910729588.7A priority Critical patent/CN110472213B/zh
Publication of CN110472213A publication Critical patent/CN110472213A/zh
Application granted granted Critical
Publication of CN110472213B publication Critical patent/CN110472213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于全文的文章格式校对方法及平台,该方法包括:获取待检测文章中与目标检测对象关联的目标内容;按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。本发明实施例缩短了基于全文的文章格式的校对时间。

Description

一种基于全文的文章格式校对方法及平台
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种基于全文的文章格式校对方法及平台。
背景技术
众所周知,进行文章创作时,不仅需要用到文字和符号,而且需要用到图片和视频等。由于创作的疏忽,文章会出现各式各样的低质问题,从而会对读者造成不同程度的浏览体验伤害,因此,在完成文章创作后,为了保证文章的可读性,需要对文章的内容进行检查。
现有技术中,对文章的检查通常是对错别字、漏字或者多字等简单的文字语法进行检查,识别类型不全,且无法从全文角度上对文章格式进行校对。因此,对全文的文章格式的校对,通常需要人工来辅助,由于人工校对耗时较长,使得全文的文章格式的校对时间耗时较长。
发明内容
本发明实施例提供一种基于全文的文章格式校对方法及平台,以解决人工对全文的文章格式进行校对,耗时较长的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种基于全文的文章格式校对方法,所述方法包括:
获取待检测文章中与目标检测对象关联的目标内容;
按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;
其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。
第二方面,本发明实施例还提供了一种基于全文的文章格式校对平台,所述平台包括:
获取模块,用于获取待检测文章中与目标检测对象关联的目标内容;
检验模块,用于按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;
其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。
第三方面,本发明实施例还提供了一种基于全文的文章格式校对平台,所述平台包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于全文的文章格式校对方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于全文的文章格式校对方法的步骤。
本发明实施例中,通过获取待检测文章中与目标检测对象关联的目标内容,并按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。这样,本发明实施例能够实现对全文格式的自动校验,从而能够减少用户的介入,进而能够大大缩短全文格式的校对时间。与此同时,能够提高文章检测的智能化程度和校验的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于全文的文章格式校对方法的流程图;
图2是本发明实施例提供的一种基于全文的文章格式校对方法中图片描述匹配校验的流程图;
图3是本发明实施例提供的一种基于全文的文章格式校对方法中小说卡片位置检验的流程图;
图4是本发明实施例提供的一种基于全文的文章格式校对方法中视频缺失检验的流程图;
图5是本发明实施例提供的一种基于全文的文章格式校对方法中小标题错误校验的流程图;
图6是本发明实施例提供的基于全文的文章格式校对平台的结构图;
图7是实现本发明各个实施例的一种基于全文的文章格式校对平台的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种基于全文的文章格式校对方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待检测文章中与目标检测对象关联的目标内容;
本发明实施例提供的基于全文的文章格式校对方法主要应用于基于全文的文章格式校对平台,如百家号写作平台,用于对文章的全文格式进行自动校验。
上述步骤中,所述待检测文章可以是在创作平台如百家号写作平台上所创作的文章,所述待检测文章中不仅包括文字和符号,还包括图片、视频和超链接等等。为了更好的实现作者的写作体验以及读者的阅读体验,在待检测文章上线之前,需要进行全文格式校验。进行全文格式校验不仅需要校准文字和符号等简单的文字语法错误,还需要校准图片和视频等复杂的文章格式错误。
具体的,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。所述目标检测对象不同,所关联的目标内容不同,当所述目标检测对象为图片描述时,所述目标内容可以包括图片描述文本,文章格式校验的目的是检验图片描述文本是否与相应的图片匹配。当所述目标检测对象为视频时,所述目标内容可以包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本,文章格式校验的目的是检验所述待检测文章是否存在视频缺失。当所述目标检测对象为小说卡片位置时,所述目标内容可以包括卡片格式对应的位置信息,相应的,文章格式校验的目的是检验小说卡片的位置是否插入错误。当所述目标检测对象为小标题时,所述目标内容可以包括小标题的文本描述向量,文章格式校验的目的是检验所述待检测文章是否存在小标题错误。
获取目标内容的方式有多种,第一种方式为:在文章创作时,可以实时监测目标检测对象,当监测到目标检测对象时,实时监测并获取该目标检测对象和所关联的目标内容;第二种方式为:在文章创作时,可以每隔预设时间监测并获取目标检测对象和所关联的目标内容;第三种方式为:可以在用于文章格式校验的按钮被触发之后,监测并获取目标检测对象和所关联的目标内容。
步骤102、按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性。
该步骤中,由于目标检测对象的特性不同,因此,对目标内容的检验方式也不同,平台需要根据目标检测对象触发相应的功能模块,以实现各个目标内容的检验过程,比如,若目标检测对象为图片描述,平台需要触发实现图片描述文本检验的功能模块,若目标检测对象为小说卡片位置,平台需要触发实现小说卡片位置检验的功能模块,若目标检测对象为视频,平台需要触发实现视频缺失检验的功能模块,若目标检测对象为小标题,平台需要触发实现小标题错误检验的功能模块。
本实施例结合邻近段落之间的文本相关性、利用文本语义计算以及图片和视频理解方法,完成图片描述匹配、小说卡片位置错误、视频缺失和小标题错用的检验和提示,能够提高文章全局可读性以及文章格式的优化。
本发明实施例中,通过获取待检测文章中与目标检测对象关联的目标内容,并按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。这样,本发明实施例能够实现对全文格式的自动校验,从而能够减少用户的介入,进而能够大大缩短全文格式的校对时间。与此同时,能够提高文章检测的智能化程度和校验的准确性。
下面将详细阐述各个目标内容的具体检验实现过程。
进一步的,基于实施例一,本实施例中,所述目标检测对象为图片描述,所述目标内容包括图片描述文本;所述步骤102具体包括:
基于历史图片描述文本分析确定所述待检测文章中目标段落是否为图片描述文本,所述目标段落为目标图片的上一文本段或下一文本段;
当确定所述目标段落为图片描述文本的情况下,确定所述目标段落的文本特征向量和所述目标图片的图片特征向量的相似度;
当所述文本特征向量与所述图片特征向量的相似度小于或等于第一预设值时,确定所述目标段落的图片描述文本存在错误。
具体的,对平台上的历史图片描述文本进行统计计算,得到图片描述文本的特征,比如长度和表达特点,基于该长度和表达特点对目标段落进行分析,确定该目标段落是否满足该长度和表达特点,从而确定该目标段落是否为图片描述文本。其中,图片描述文本的长度可以在预设字数范围内,比如2~20字数以内,图片描述文本的表达特点可以包括单独成段、具有特定标识或者图片内容语义符合图片描述文本。
举个例子来说,如图2所示,目标图片201为武松打虎,根据所述目标段落为目标图片的上一文本段或下一文本段,提取“武松打虎剧照”或者“《水浒传》,是以白话文写成的章回小说,......,东征西讨的历程”,根据图片描述文本的长度和表达特点,下一文本段“武松打虎剧照”的长度在2~20以内,单独成段,具有/>的特定标识,且有内容语义“剧照”符合图片描述文本,因此,可以分析确定目标段落202“/>武松打虎剧照”为图片描述文本,而上一文本段不满足图片描述文本的长度和表达特点,确定不是图片描述文本。
利用文本理解策略获取目标段落202的文本特征向量,其文本特征向量包括文本位置和文本特征信息,文本位置可以表示目标段落202的位置信息,比如目标段落202位于最左端位置、或者位于最右端位置、或者位于中间位置等等,如图2所示,其目标段落202则处于最左端位置,文本特征信息为目标段落202的语义信息,可以用关键词表示。利用图片理解策略获取目标图片201 的图片特征向量,其图片特征向量包括图片位置和图片特征信息,图片位置可以表示目标图片201的位置信息,比如目标图片201位于最左端位置、或者位于最右端位置、或者位于中间位置等等,如图2所示,其目标图片201则处于中间位置,图片特征信息也可以用关键词表示。
计算文本特征向量和图片特征向量的相似度,当相似度小于或等于第一预设值时,确定所述目标段落的图片描述文本存在错误。具体的,向量相似度包括位置相似度和特征相似度,因此,图片描述文本会出现三种错误,第一种错误为:当位置相似度大于一预设阈值且特征相似度小于或等于另一预设阈值时,确定图片描述文本存在位置错误;第二种错误为:当位置相似度大于一预设阈值且特征相似度大于另一预设阈值时,确定图片描述文本与目标图片不匹配,并且,该图片描述文本存在位置错误;第三种错误为:当位置相似度小于或等于一预设阈值且特征相似度大于另一预设阈值时,确定图片描述文本与目标图片不匹配。
本发明实施例能够实现目标图片和图片描述文本的自动匹配校验,提高文章全局可读性以及文章格式的优化。
进一步的,基于实施例一,本实施例中,所述目标检测对象为小说卡片位置,所述目标内容包括卡片格式对应的位置信息;所述步骤102具体包括:
根据所述位置信息确定是否存在连续两个段落的内容格式为卡片格式;
若是,则确定所述待检测文章的小说卡片位置插入错误;
若否,则确定所述待检测文章的小说卡片位置插入正确。
文章段落的内容格式可以包括文本格式、图片格式、视频格式以及卡片格式,所述卡片格式可以理解为一种超链接形式的格式,点击该卡片格式对应的小说卡片内容,可以跳转到某一小说对应的阅读界面。
举个例子来说,如图3所示,小说卡片301和小说卡片302的内容格式为卡片格式,检测小说卡片301和小说卡片302的位置信息,由于小说卡片301 和小说卡片302处于连续两个相邻的段落,则确定小说卡片位置插入错误。
本发明实施例能够实现小说卡片插入位置的自动校验,提高文章全局可读性以及文章格式的优化。
进一步的,基于实施例一,本实施例中,所述目标检测对象为视频,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本;所述步骤102具体包括:
根据所述目标文本中提示的位置关键词,判断所述待检测文章是否存在目标视频;
当所述待检测文章存在目标视频的情况下,计算第二关键词与所述第一关键词的语义相似度,所述第二关键词为对所述目标视频的视频内容提取的关键词;
当所述待检测文章是不存在目标视频的情况下,或者,当所述语义相似度小于第二预设值的情况下,确定所述待检测文章存在视频缺失。
具体的,首先,根据文本语义信息,判断文章段落中是否含有提示存在视频的文本,若含有,获取目标文本,提取该目标文本的第一关键词,并获取第一关键词的语义信息。如图4所示,根据文本语义信息,获取了目标文本401,为“接下来的视频中,描述了武松打虎的经典场面”,提取目标文本的第一关键词4011,该第一关键词4011为“武松打虎”。
然后,判断所述待检测文章是否存在视频缺失,有两种情况会判定待检测文章存在视频缺失,第一种情况为:所述待检测文章中不存在目标视频,待检测文章中是否存在目标视频可以通过查询所述目标文本中提示的位置关键词对应的位置获知,若位置关键词对应的位置中并没有视频,则待检测文章中不存在目标视频,若位置关键词对应的位置中存在视频,则待检测文章中存在目标视频,如图4所示,目标文本提示的位置关键词4012为“接下来”,由于在位置关键词4012对应的位置并没有视频,则确定待检测文章中存在视频缺失。
第二种情况为:待检测文章中存在目标视频,但是目标文本中提示的视频与目标视频不一致。具体的,在获取到目标视频之后,对所述目标视频的视频内容进行提取,获得第二关键词;计算第二关键词与所述第一关键词的语义相似度,当语义相似度小于第二预设值的情况下,确定目标文本中提示的视频与目标视频不一致。
本发明实施例能够实现视频缺失的自动匹配校验,提高文章全局可读性以及文章格式的优化。
进一步的,基于实施例一,本实施例中,所述目标检测对象为小标题,所述目标内容包括小标题的文本描述向量;所述步骤102具体包括:
当所述文本描述向量满足以下任一项时,确定所述待检测文章存在小标题错误:
所述文本描述向量对应的文本为引导或者声明类文本;
所述文本描述向量与标题文本向量的向量相似度大于第三预设值,和/或,所述文本描述向量对应的文本与标题文本向量对应的文本的编辑距离相似度大于第四预设值;
至少连续两个所述文本描述向量对应的文本仅为连续序号。
具体的,首先,可以通过标题标识(如序号或者字体加粗)获取待检测文章中的小标题,并通过文本理解策略获取小标题的文本描述向量。
然后,根据各个小标题的文本描述向量,确定各个小标题是否存在错误。有以下三种情况可以确定小标题存在错误:
第一种情况为:当通过聚类模型确定文本描述向量对应的文本为引导或者声明类文本时,确定所述待检测文章存在小标题错误:如图5所示,小标题 501“文章由月读百家号独家发布,转载请备注”为引导类文本,小标题502 “欢迎关注月读百家号”为声明类文本,经过校验,确定小标题501和小标题 502存在错误。
第二种情况为:当确定小标题与标题相似时,确定所述待检测文章存在小标题错误。确定小标题与标题相似具体包括:获取标题的标题文本向量;计算标题文本向量和小标题的文本描述向量的向量相似度,并计算所述文本描述向量对应的文本与标题文本向量对应的文本的编辑距离相似度,其中,编辑距离相似度等于标题和小标题的字数差除以目标长度,目标长度为标题和小标题中长度的最大值;当向量相似度大于第三预设值,和/或,所述编辑距离相似度大于第四预设值时,确定小标题与标题相似。如图5所示,标题503为“四大名著之水浒传”,小标题504为“四大名著之水浒传”,经过校验,标题503 和小标题504相似,确定小标题504存在错误。
第三种情况为:当至少连续两个所述文本描述向量对应的文本仅为连续序号时,确定所述待检测文章存在小标题错误。通常序号是分层级的,例如1、2和3等为同一层级,1.1、1.2和1.3等为同一层级,而1和1.1不为同一层级,本发明实施例的连续序号是指同一层级的序号连续,也就是说,当至少连续两个所述文本描述向量对应的文本为同一层级的连续序号时,则确定该小标题存在错误,而当至少连续两个所述文本描述向量对应的文本不为同一层级的连续序号时,则不能够确定该小标题存在错误。如图5所示,小标题505和小标题 506属于同一层级的连续序号,则确定小标题506存在错误,而小标题506和小标题507不为同一层级的连续序号,则不能够确定小标题507存在错误。
本发明实施例能够实现小标题错误的自动校验,提高文章全局可读性以及文章格式的优化。
需要说明的是,本发明实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。
参见图6,图6是本发明实施例提供的基于全文的文章格式校对平台的结构图,如图6所示,所述基于全文的文章格式校对平台600包括:
获取模块601,用于获取待检测文章中与目标检测对象关联的目标内容;
检验模块602,用于按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;
其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。
可选的,当所述目标检测对象为图片描述时,所述目标内容包括图片描述文本;所述检验模块602包括:
第一判断单元,用于基于历史图片描述文本分析确定所述待检测文章中目标段落是否为图片描述文本,所述目标段落为目标图片的上一文本段或下一文本段;
第一确定单元,用于当确定所述目标段落为图片描述文本的情况下,确定所述目标段落的文本特征向量和所述目标图片的图片特征向量的相似度;
第二确定单元,用于当所述文本特征向量与所述图片特征向量的相似度小于或等于第一预设值时,确定所述目标段落的图片描述文本存在错误。
可选的,当所述目标检测对象为小说卡片位置时,所述目标内容包括卡片格式对应的位置信息;所述检验模块602包括:
第二判断单元,用于根据所述位置信息确定是否存在连续两个段落的内容格式为卡片格式;
第三确定单元,用于若确定存在连续两个段落的内容格式为卡片格式,则确定所述待检测文章的小说卡片位置插入错误;若确定不存在连续两个段落的内容格式为卡片格式,则确定所述待检测文章的小说卡片位置插入正确。
可选的,当所述目标检测对象为视频时,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本;所述检验模块602包括:
第三判断单元,用于根据所述目标文本中提示的位置关键词,判断所述待检测文章是否存在目标视频;
计算单元,用于当所述待检测文章存在目标视频的情况下,计算第二关键词与所述第一关键词的语义相似度,所述第二关键词为对所述目标视频的视频内容提取的关键词;
第四确定单元,用于当所述待检测文章是不存在目标视频的情况下,或者,当所述语义相似度小于第二预设值的情况下,确定所述待检测文章存在视频缺失。
可选的,当所述目标检测对象为小标题时,所述目标内容包括小标题的文本描述向量;所述检验模块602包括:
第五确定单元,用于当所述文本描述向量满足以下任一项时,确定所述待检测文章存在小标题错误:
所述文本描述向量对应的文本为引导或者声明类文本;
所述文本描述向量与标题文本向量的向量相似度大于第三预设值,和/或,所述文本描述向量对应的文本与标题文本向量对应的文本的编辑距离相似度大于第四预设值;
至少连续两个所述文本描述向量对应的文本仅为连续序号。
本发明实施例提供的基于全文的文章格式校对平台能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
图7是实现本发明各个实施例的一种基于全文的文章格式校对平台的硬件结构示意图,如图7所示,所述基于全文的文章格式校对平台700包括:处理器701、收发机702、存储器703和总线接口,其中,处理器701可以执行时实现上述基于全文的文章格式校对方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例中,通过获取待检测文章中与目标检测对象关联的目标内容,并按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项。这样,本发明实施例能够实现对全文格式的自动校验,从而能够减少用户的介入,进而能够大大缩短全文格式的校对时间。与此同时,能够提高文章检测的智能化程度和校验的准确性。
在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器 701代表的一个或多个处理器和存储器703代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机702可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口704还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器701负责管理总线架构和通常的处理,存储器703可以存储处理器 701在执行操作时所使用的数据。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于全文的文章格式校对方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于全文的文章格式校对方法,其特征在于,包括:
获取待检测文章中与目标检测对象关联的目标内容;
按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;
其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项;当所述目标检测对象为图片描述时,所述目标内容包括图片描述文本,确定所述目标内容的准确性是检验所述图片描述文本是否与相应的图片匹配;当所述目标检测对象为所述视频时,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本,确定所述目标内容的准确性是检验所述待检测文章是否存在视频缺失;当所述目标检测对象为所述小说卡片位置时,所述目标内容包括卡片格式对应的位置信息,确定所述目标内容的准确性是检验小说卡片的位置是否插入错误;当所述目标检测对象为所述小标题时,所述目标内容包括小标题的文本描述向量,确定所述目标内容的准确性是检验所述待检测文章是否存在小标题错误;
当所述目标检测对象为图片描述时,所述目标内容包括图片描述文本;所述按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性包括:
基于历史图片描述文本分析确定所述待检测文章中目标段落是否为图片描述文本,所述目标段落为目标图片的上一文本段或下一文本段;
当确定所述目标段落为图片描述文本的情况下,确定所述目标段落的文本特征向量和所述目标图片的图片特征向量的相似度;
当所述文本特征向量与所述图片特征向量的相似度小于或等于第一预设值时,确定所述目标段落的图片描述文本存在错误。
2.根据权利要求1所述的方法,其特征在于,当所述目标检测对象为小说卡片位置时,所述目标内容包括卡片格式对应的位置信息;所述按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性包括:
根据所述位置信息确定是否存在连续两个段落的内容格式为卡片格式;
若是,则确定所述待检测文章的小说卡片位置插入错误;
若否,则确定所述待检测文章的小说卡片位置插入正确。
3.根据权利要求1所述的方法,其特征在于,当所述目标检测对象为视频时,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本;所述按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性包括:
根据所述目标文本中提示的位置关键词,判断所述待检测文章是否存在目标视频;
当所述待检测文章存在目标视频的情况下,计算第二关键词与所述第一关键词的语义相似度,所述第二关键词为对所述目标视频的视频内容提取的关键词;
当所述待检测文章是不存在目标视频的情况下,或者,当所述语义相似度小于第二预设值的情况下,确定所述待检测文章存在视频缺失。
4.根据权利要求1所述的方法,其特征在于,当所述目标检测对象为小标题时,所述目标内容包括小标题的文本描述向量;所述按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性包括:
当所述文本描述向量满足以下任一项时,确定所述待检测文章存在小标题错误:
所述文本描述向量对应的文本为引导或者声明类文本;
所述文本描述向量与标题文本向量的向量相似度大于第三预设值,和/或,所述文本描述向量对应的文本与标题文本向量对应的文本的编辑距离相似度大于第四预设值;
至少连续两个所述文本描述向量对应的文本仅为连续序号。
5.一种基于全文的文章格式校对平台,其特征在于,所述平台包括:
获取模块,用于获取待检测文章中与目标检测对象关联的目标内容;
检验模块,用于按照所述目标检测对象对应的检验方式对所述目标内容进行检验,确定所述目标内容的准确性;
其中,所述目标检测对象包括图片描述、小说卡片位置、视频和小标题中的至少一项;当所述目标检测对象为图片描述时,所述目标内容包括图片描述文本,确定所述目标内容的准确性是检验所述图片描述文本是否与相应的图片匹配;当所述目标检测对象为所述视频时,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本,确定所述目标内容的准确性是检验所述待检测文章是否存在视频缺失;当所述目标检测对象为所述小说卡片位置时,所述目标内容包括卡片格式对应的位置信息,确定所述目标内容的准确性是检验小说卡片的位置是否插入错误;当所述目标检测对象为所述小标题时,所述目标内容包括小标题的文本描述向量,确定所述目标内容的准确性是检验所述待检测文章是否存在小标题错误;
当所述目标检测对象为图片描述时,所述目标内容包括图片描述文本;所述检验模块包括:
第一判断单元,用于基于历史图片描述文本分析确定所述待检测文章中目标段落是否为图片描述文本,所述目标段落为目标图片的上一文本段或下一文本段;
第一确定单元,用于当确定所述目标段落为图片描述文本的情况下,确定所述目标段落的文本特征向量和所述目标图片的图片特征向量的相似度;
第二确定单元,用于当所述文本特征向量与所述图片特征向量的相似度小于或等于第一预设值时,确定所述目标段落的图片描述文本存在错误。
6.根据权利要求5所述的平台,其特征在于,当所述目标检测对象为小说卡片位置时,所述目标内容包括卡片格式对应的位置信息;所述检验模块包括:
第二判断单元,用于根据所述位置信息确定是否存在连续两个段落的内容格式为卡片格式;
第三确定单元,用于若确定存在连续两个段落的内容格式为卡片格式,则确定所述待检测文章的小说卡片位置插入错误;若确定不存在连续两个段落的内容格式为卡片格式,则确定所述待检测文章的小说卡片位置插入正确。
7.根据权利要求5所述的平台,其特征在于,当所述目标检测对象为视频时,所述目标内容包括目标文本的第一关键词,所述目标文本为所述待检测文章中提示存在视频的文本;所述检验模块包括:
第三判断单元,用于根据所述目标文本中提示的位置关键词,判断所述待检测文章是否存在目标视频;
计算单元,用于当所述待检测文章存在目标视频的情况下,计算第二关键词与所述第一关键词的语义相似度,所述第二关键词为对所述目标视频的视频内容提取的关键词;
第四确定单元,用于当所述待检测文章是不存在目标视频的情况下,或者,当所述语义相似度小于第二预设值的情况下,确定所述待检测文章存在视频缺失。
8.根据权利要求5所述的平台,其特征在于,当所述目标检测对象为小标题时,所述目标内容包括小标题的文本描述向量;所述检验模块包括:
第五确定单元,用于当所述文本描述向量满足以下任一项时,确定所述待检测文章存在小标题错误:
所述文本描述向量对应的文本为引导或者声明类文本;
所述文本描述向量与标题文本向量的向量相似度大于第三预设值,和/或,所述文本描述向量对应的文本与标题文本向量对应的文本的编辑距离相似度大于第四预设值;
至少连续两个所述文本描述向量对应的文本仅为连续序号。
9.一种基于全文的文章格式校对平台,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于全文的文章格式校对方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于全文的文章格式校对方法的步骤。
CN201910729588.7A 2019-08-08 2019-08-08 一种基于全文的文章格式校对方法及平台 Active CN110472213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910729588.7A CN110472213B (zh) 2019-08-08 2019-08-08 一种基于全文的文章格式校对方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910729588.7A CN110472213B (zh) 2019-08-08 2019-08-08 一种基于全文的文章格式校对方法及平台

Publications (2)

Publication Number Publication Date
CN110472213A CN110472213A (zh) 2019-11-19
CN110472213B true CN110472213B (zh) 2023-12-12

Family

ID=68510385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910729588.7A Active CN110472213B (zh) 2019-08-08 2019-08-08 一种基于全文的文章格式校对方法及平台

Country Status (1)

Country Link
CN (1) CN110472213B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013120597A1 (de) * 2012-02-14 2013-08-22 Giesecke & Devrient Gmbh Verfahren und vorrichtung zum kontaktlosen prüfen eines flächigen sicherheitsdokuments
CN109543058A (zh) * 2018-11-23 2019-03-29 连尚(新昌)网络科技有限公司 用于检测图像的方法、电子设备和计算机可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8826125B2 (en) * 2012-03-12 2014-09-02 Hyperion Media LLC System and method for providing news articles
WO2015184534A1 (en) * 2014-06-06 2015-12-10 Foulnes Services Corp. System and method for generating task-embedded documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013120597A1 (de) * 2012-02-14 2013-08-22 Giesecke & Devrient Gmbh Verfahren und vorrichtung zum kontaktlosen prüfen eines flächigen sicherheitsdokuments
CN109543058A (zh) * 2018-11-23 2019-03-29 连尚(新昌)网络科技有限公司 用于检测图像的方法、电子设备和计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于篇章结构相似度的复制检测算法;金博等;《大连理工大学学报》;20070210(第01期);全文 *

Also Published As

Publication number Publication date
CN110472213A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110245259B (zh) 基于知识图谱的视频打标签方法及装置、计算机可读介质
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110222654A (zh) 文本分割方法、装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN116340467B (zh) 文本处理方法、装置、电子设备、及计算机可读存储介质
CN106610990A (zh) 情感倾向性分析的方法及装置
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN111104800B (zh) 一种实体识别方法、装置、设备、存储介质和程序产品
CN115834935A (zh) 多媒体信息审核方法、广告审核方法、设备及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN113312258A (zh) 一种接口测试方法、装置、设备及存储介质
CN110472213B (zh) 一种基于全文的文章格式校对方法及平台
Sirts et al. Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts.
CN115965003A (zh) 事件信息的抽取方法以及事件信息的抽取装置
CN108255866B (zh) 检查网站中链接的方法和装置
CN113887191A (zh) 文章的相似性检测方法及装置
CN113240322A (zh) 气候风险披露质量方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant