CN115937886A - 知识资源的数据集更新方法、检索方法、装置及设备 - Google Patents

知识资源的数据集更新方法、检索方法、装置及设备 Download PDF

Info

Publication number
CN115937886A
CN115937886A CN202211487082.8A CN202211487082A CN115937886A CN 115937886 A CN115937886 A CN 115937886A CN 202211487082 A CN202211487082 A CN 202211487082A CN 115937886 A CN115937886 A CN 115937886A
Authority
CN
China
Prior art keywords
document
determining
text
layout
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211487082.8A
Other languages
English (en)
Inventor
李薿
骆金昌
陈坤斌
何伯磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co ltd
Original Assignee
Baidu International Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co ltd filed Critical Baidu International Technology Shenzhen Co ltd
Priority to CN202211487082.8A priority Critical patent/CN115937886A/zh
Publication of CN115937886A publication Critical patent/CN115937886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了知识资源的数据集更新方法、检索方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉、图像处理等技术领域,可应用于OCR应用场景。具体实现方案为:根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;根据多个文本块各自的结构数据,得到文档结构特征;根据文档结构特征和文档的文本特征,确定文档的文档质量结果;在确定文档的文档质量结果表征文档质量满足预定文档质量的情况下,根据文档,确定资源标签;从多个数据集中确定与资源标签相匹配的目标数据集;以及通过将待处理知识资源添加至目标数据集中,更新目标数据集。

Description

知识资源的数据集更新方法、检索方法、装置及设备
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、计算机视觉、图像处理等技术领域,可应用于OCR应用场景,具体涉及知识资源的数据集更新方法、检索方法、装置、电子设备、存储介质以及程序产品。
背景技术
随着信息技术和网络技术的迅猛发展,信息膨胀与冗余给人们的社会活动和娱乐活动带来了信息选择的困惑。从浩瀚的资源中寻找需要的信息具有极大的挑战。
发明内容
本公开提供了一种知识资源的数据集更新方法、检索方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种知识资源的数据集更新方法,包括:根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;根据上述多个文本块各自的结构数据,得到文档结构特征;根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果;在确定上述文档的文档质量结果表征上述文档质量满足预定文档质量的情况下,根据上述文档,确定资源标签;从多个数据集中确定与上述资源标签相匹配的目标数据集;以及通过将上述待处理知识资源添加至上述目标数据集中,更新上述目标数据集。
根据本公开的另一方面,提供了一种检索方法,包括:响应于接收到用于检索知识资源的指令,确定检索词;以及从多个数据集各自的知识资源中确定与上述检索词相匹配的目标知识资源,其中,上述多个数据集是根据上述的知识资源的数据集更新方法更新的。
根据本公开的另一方面,提供了一种知识资源的数据集更新装置,包括:拆分模块,用于根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;第一提取模块,用于根据上述多个文本块各自的结构数据,得到文档结构特征;文档质量确定模块,用于根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果;资源标签确定模块,用于在确定上述文档的文档质量结果表征上述文档质量满足预定文档质量的情况下,根据上述文档,确定资源标签;数据集确定模块,用于从多个数据集中确定与上述资源标签相匹配的目标数据集;以及更新模块,用于通过将上述待处理知识资源添加至上述目标数据集中,更新上述目标数据集。
根据本公开的另一方面,提供了一种检索装置,包括:响应模块,用于响应于接收到用于检索知识资源的指令,确定检索词;以及检索模块,用于从多个数据集各自的知识资源中确定与上述检索词相匹配的目标知识资源,其中,上述多个数据集是根据上述的知识资源的数据集更新装置更新的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用知识资源的数据集更新方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的知识资源的数据集更新方法的流程图;
图3示意性示出了根据本公开实施例的知识资源的数据集更新方法流程示意图;
图4示意性示出了根据本公开另一实施例的知识资源的数据集更新方法流程示意图;
图5示意性示出了根据本公开实施例的文档质量识别模型的网络结构图;
图6A示意性示出了根据本公开实施例的预定格式的文档的示意图;
图6B示意性示出了根据本公开实施例的非预定格式的文档的示意图;
图7示意性示出了根据本公开实施例的检索方法的流程图;
图8示意性示出了根据本公开实施例的知识资源的数据集更新装置的框图;
图9示意性示出了根据本公开实施例的检索装置的框图;以及
图10示意性示出了根据本公开实施例的适于实现知识资源的数据集更新方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种知识资源的数据集更新方法、检索方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种知识资源的数据集更新方法,包括:根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;根据上述多个文本块各自的结构数据,得到文档结构特征;根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果;在确定上述文档的文档质量结果表征上述文档质量满足预定文档质量的情况下,根据上述文档,确定资源标签;从多个数据集中确定与上述资源标签相匹配的目标数据集;以及通过将上述待处理知识资源添加至上述目标数据集中,更新上述目标数据集。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的可以应用知识资源的数据集更新方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用知识资源的数据集更新方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的知识资源的数据集更新方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的知识资源的数据集更新方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的知识资源的数据集更新装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的知识资源的数据集更新方法一般也可以由服务器105执行。相应地,本公开实施例所提供的知识资源的数据集更新装置一般可以设置于服务器105中。本公开实施例所提供的知识资源的数据集更新方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的知识资源的数据集更新装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,目标数据集存储在服务器105中。用户可以通过终端设备101、102、103将待处理知识资源发送给服务器105,由服务器105根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块。根据多个文本块各自的结构数据,得到文档结构特征。根据文档结构特征和文档的文本特征,确定文档的文档质量结果。在确定文档的文档质量结果满足预定文档质量的情况下,根据文档,得到资源标签。从多个数据集中确定与资源标签相匹配的目标数据集。通过将待处理知识资源添加至目标数据集中,更新目标数据集。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待处理知识资源进行分析,并最终将待处理知识资源添加至服务器105中的目标数据集中,实现更新目标数据集。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的知识资源的数据集更新方法的流程图。
如图2所示,该方法200包括操作S210~S260。
在操作S210,根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块。
在操作S220,根据多个文本块各自的结构数据,得到文档结构特征。
在操作S230,根据文档结构特征和文档的文本特征,确定文档的文档质量结果。
在操作S240,在确定文档的文档质量结果表征文档质量满足预定文档质量的情况下,根据文档,确定资源标签。
在操作S250,从多个数据集中确定与资源标签相匹配的目标数据集。
在操作S260,通过将待处理知识资源添加至目标数据集中,更新目标数据集。
根据本公开的实施例,在操作S210之前,知识资源的数据集更新方法还可以包括操作:识别待处理知识资源的初始文档的类型。在确定初始文档的类型为预定类型的情况下,对初始文档进行转换,生成文档。在确定初始文档的类型不为预定类型的情况下,可以直接将初始文档作为文档。
根据本公开的实施例,预定类型可以指图片、PDF文件等类型。不为预定类型可以指Word、TXT等类型。在确定初始文档的类型为预定类型的情况下,对初始文档进行转换,生成文档,可以包括:利用OCR(Optical Character Recognition,光学字符识别)技术对初始文档进行文本识别,生成文档。通过该预处理操作,能够提高本公开实施例提供的知识资源的数据集更新方法的应用范围。
根据本公开的实施例,文档结构布局可以指文档的排布结构。可以按照标题来确定文档结构布局,例如,文档包括两个大标题,与每个大标题相对应的文本包括三个小标题,每个小标题包括有对应的文本内容。但是并不局限于此。还可以按照段落来确定文档结构布局,例如,文档为三段式,包括第一段内容、第二段内容和第三段内容。可以根据文档结构布局,对文档中的文本进行拆分,得到多个文本块。文本块的拆分粒度可以不做限定。例如,可以根据大标题来拆分文本,得到两个文本块。也可以根据小标题来拆分文本,得到六个文本块。在按照段落来确定文档结构布局的情况下,可以根据段落数量确定文本块数量。只要是能够体现文档结构布局的多个文本块即可。
根据本公开的实施例,结构数据可以指与文本块结构相关的数据。例如,结构数据可以包括以下至少一项:文本块的字符数量、文本块的段落数量、文本块的行数、文本块的关键词。只要是能够表征文档中文本块结构的数据即可。
根据本公开的实施例,文档结构特征可以是从多个文本块各自的结构数据中提取得到的。
根据本公开的实施例,文本特征可以是从文档中提取的语义特征,但是并不局限于此,只要是能够体现文档中的情感、中心思想、意图等的特征即可。
根据本公开的实施例,根据文档结构特征和文档的文本特征,确定文档质量结果,可以包括:将文档结构特征和文档的文本特征融合,得到融合特征。对融合特征进行分类处理,得到文档质量结果。
根据本公开的实施例,文档质量结果是根据文档结构特征和文档的文本特征确定的,且文档结构特征是根据多个文本块各自的结构数据得到的,所以文档质量结果的分析粒度精细到文本块。将文档拆分至文本块进行分析,不仅能够通过文本特征确定文档的中心思想、整体语义、情感、意图等信息,还能够利用多个文本块彼此之间的关联关系、结构布局等确定文档中多个文本块之间的内容关联性、逻辑性,进而从多角度、多范围来提高确定文档质量结果的精度。
根据本公开的实施例,在确定文档的文档质量结果表征文档质量满足预定文档质量的情况下,可以将该文档作为高质量文档,可以执行根据文档,得到资源标签的操作。在确定文档质量结果用于表征文档质量不满足预定文档质量的情况下,可以删除该待处理知识资源。
根据本公开的实施例,根据文档,得到资源标签,可以包括:对文档进行分类,得到用于表征文档类别的资源标签。
根据本公开的实施例,可以预先建立多个数据集,每个数据集与一个文档类别相匹配。从多个数据集中确定与资源标签相匹配的目标数据集。将待处理知识资源添加至目标数据集中,完成更新目标数据集的操作。
利用本公开实施例提供的知识资源的数据集更新方法,在基于文档的文档结构特征以及文本特征,确定文档质量结果,保证文档为优质文档的同时,还对文档进行类别的确定,配置与资源标签相匹配的目标数据集,便于对知识资源进行多维度、多角度管理,便于后续从目标数据集中获取与用户意图相关的目标知识资源。
以企业中的知识资源管理为例,企业中的一些比较重要的项目、工程或者经验分享等,都会以例如文档、视频等不同的载体表达、记录,生成知识资源。可以将知识资源保留下来,便于员工后续借鉴以及学习。但是一些知识资源可能仅为员工的临时记录,这些临时记录缺乏一个整体的概述,内容并不完整,或者无法从临时记录中获悉重要信息,进而导致该知识资源的参考价值并不大。此外,还有一些知识资源因格式不规整导致阅读体验感差,进而导致该知识资源被借鉴的可能性不大。
利用本公开实施例提供的知识资源的数据集更新方法,能够利用文档对待处理知识资源进行质量评价,筛选出文档质量满足预定文档质量的高质量知识资源。此外,还能够基于资源标签,将高质量知识资源存储至目标数据集例如知识资源数据库。以便企业内部员工在推荐或者检索场景下从知识资源数据库中获取高质量知识资源,进而使得更多员工能够传阅高质量文档,从中获取更多与工作相关的知识信息,实现提能增效。
根据本公开的实施例,针对如图2所示的操作S260,通过将待处理知识资源添加至目标数据集中,更新目标数据集,可以包括如下操作。
例如,从标签与数据集映射表中确定与资源标签相匹配的目标数据集。通过将待处理知识资源添加至目标数据集中,更新目标数据集。
根据本公开的实施例,标签与数据集映射表用于表征资源标签与数据集之间的映射关系。可以预先设置多个数据集,每个数据集与一个资源标签相匹配,建立映射关系。在确定待处理知识资源的资源标签与目标数据集之间存在映射关系的情况下,确定待处理知识资源的资源标签与目标数据集相匹配。可以将该待处理知识资源存储至该数据集中。
根据本公开的实施例,数据集也可以设置为数据库的类型,具有数据库所具有的功能。可以根据实际需要对数据集中的知识资源进行添加、删除、替换、检索等操作,便于后续从数据集中查阅相关知识资源。
根据本公开的实施例,利用标签与数据集映射表来建立资源标签与数据集之间的映射关系,便于对多个数据集进行分类,有利于待处理知识资源的分类存储的同时,提高处理速度、降低处理难度。
根据本公开的实施例,待处理知识资源并不局限于单一类型的知识资源收录,可以包括文档,还可以包括文档和视频。由此避免因单一类型的知识资源收录而导致的知识资源丰富度不够的问题。
根据本公开的实施例,如图2所示的操作S210~操作S230,可以理解为对待处理知识资源的文档进行处理,确定文档的文档质量结果的操作。在确定待处理知识资源还包括视频的情况下,知识资源的数据集更新方法还可以包括操作:对视频进行处理,确定视频的视频质量结果。根据视频和文档,确定资源标签。
根据本公开的实施例,根据视频和文档,确定资源标签,可以包括:对视频进行打标,确定视频标签。对文档进行打标,确定文档标签。根据视频标签和文档标签,确定资源标签。
根据本公开的实施例,知识资源的数据集更新方法中,对确定文档的文档质量结果的操作、确定视频的视频质量结果的操作、确定资源标签的操作的操作顺序不做限定。
图3示意性示出了根据本公开实施例的知识资源的数据集更新方法流程示意图。
如图3所示,该方法包括操作S310~S390。
在操作S310,对待处理知识资源的文档进行处理,确定文档的文档质量结果。
在操作S320,对文档进行打标,确定文档标签。
在操作S330,对视频进行处理,确定视频的视频质量结果。
在操作S340,对视频进行打标,确定视频标签。
在操作S350,根据文档的文档质量结果,确定文档的文档质量是否满足预定文档质量,例如是否优质。
在操作S360,确定文档标签是否合规。
在操作S370,根据视频质量结果,确定视频的视频质量是否满足预定视频质量,例如是否优质。
在操作S380,确定视频标签是否合规。
在操作S390,在确定文档标签合规、视频标签合规、文档质量满足预定文档质量且视频质量满足预定视频质量的情况下,将待处理知识资源添加至目标数据集中。否则,结束操作。
根据本公开的实施例,确定文档标签是否合规,可以理解为:在确定文档标签的操作中,是否出现错误。在没有出现错误的情况下,则文档标签合规。在出现错误的情况下,则文档标签不合规。
根据本公开的实施例,确定视频标签是否合规,可以理解为:在确定视频标签的操作中,是否出现错误。在没有出现错误的情况下,则视频标签合规。在出现错误的情况下,则视频标签不合规。
根据本公开的实施例,采用如图3所示的知识资源的数据集更新方法来处理待处理知识资源,并行执行对确定文档的文档质量结果的操作、确定视频的视频质量结果的操作、确定资源标签的操作。在待处理知识资源的文档质量满足预定文档质量且视频质量满足预定视频质量的情况下,执行操作S390,由此提高了更新数据集的速度,提高了处理效率。
根据本公开的实施例,并不局限于如图3所示的操作方式。还可以在确定待处理知识资源包括视频的情况下,对视频进行处理,得到视频质量结果。在确定视频质量结果表征视频质量满足预定视频质量的情况下,根据视频和文档,确定资源标签。
图4示意性示出了根据本公开另一实施例的知识资源的数据集更新方法流程示意图。
如图4所示,该方法包括操作S410~S460。
在操作S410,对待处理知识资源的文档进行处理,确定文档的文档质量结果。
在操作S420,根据文档的文档质量结果,确定文档的文档质量是否满足预定文档质量,例如是否优质。在确定文档的文档质量满足预定文档质量的情况下,执行操作S430。在确定文档的文档质量不满足预定文档质量的情况下,执行操作S460。
在操作S430,对视频进行处理,确定视频的视频质量结果。
在操作S440,根据视频质量结果,确定视频的视频质量是否满足预定视频质量,例如是否优质。在确定视频的视频质量满足预定视频质量的情况下,执行操作S450。在确定视频的视频质量不满足预定视频质量的情况下,执行操作S460。
在操作S450,根据文档和视频,确定资源标签。
在操作S460,结束。
根据本公开的实施例,对文档和视频按照先后顺序进行操作,可以简化处理操作,在文档的文档质量不满足预定文档质量或者视频的视频质量不满足预定视频质量的情况下,停止后续操作,由此减少处理操作,进而提高处理效率。
根据本公开的实施例,对文档进行打标,确定文档标签,可以包括如下操作。
例如,确定文档的文档类型标签和业务信息标签。确定与文档相关的对象的对象类型标签。根据文档类型标签、用户类型标签以及业务信息标签,确定文档标签。
根据本公开的实施例,文档标签可以包括多个文档子标签。例如,可以将文档类型标签、用户类型标签以及业务信息标签等作为文档子标签。多个文档子标签为并列关系,但是并不局限于此,也可以为层级关系。只要是能够体现待处理知识资源的文档的类别的标签即可。
根据本公开的实施例,文档类型标签可以理解为文档内容类型标签。可借助文档的标题、目录以及文本内容等,确定文档类型标签。以企业中的知识资源管理为例,文档类型标签可以包括产品使用说明类、知识分享类、项目方案类等类型标签。确定文档的文档类型标签,可以包括:根据文档的文本特征,对文档进行分类,得到文档类型标签。可以利用具有分类作用的深度学习模型处理文档的文本特征,得到文档类型标签。
根据本公开的实施例,文档的业务信息标签,可以理解为下游策略标签。例如,业务信息标签可以是根据技术、项目的发展、研究等的内容或者软技能确定的标签。也可以根据文档的标题、目录以及文本内容等确定。文档的业务信息标签的确定方式与文档类型标签的确定方式相同或类似。例如,可以将文本特征输入至具有分类作用的深度学习模型中,得到文档类型标签和业务信息标签。
根据本公开的实施例,确定与文档相关的对象的对象类型标签,可以指:根据与文档相关的对象的画像信息确定的对象类型标签。对象类型标签可以指使用人群标签。与文档相关的对象可以包括编辑该文档的对象,但是并不局限于此,还可以包括使用、阅读该文档的对象。可以基于与文档相关的对象,确定对象类型标签。对象类型标签可以包括例如产品、前端、后台、算法等类型的标签。标签确定方式可以是:基于文档相关的对象,建立对象画像信息。基于对象画像信息,确定对象类型标签。可以利用深度学习模型,以对象画像信息作为输入数据,得到对象类型标签。深度学习模型的网络结构不做限定,只要是具有分类作用的模型即可。对象画像信息可以包括对象的年龄、职位、工作年限、部门等与对象相关的信息。
根据本公开的实施例,文档标签不局限于上述子标签。还可以包括关键词标签。关键词标签可以是从文档中直接提取的关键词。可以通过开放域关键词抽取算子从文档中得到关键词标签。
根据本公开的实施例,对文档从多维度、多角度进行打标,确定文档标签,可以使得待处理知识资源的类型划分精细,进而使得确定目标数据集精准。
根据本公开的实施例,视频标签可以包括视频类型标签、视频的业务信息标签、对象类型标签、视频的关键词标签中的一种或多种视频子标签。对视频进行打标,确定视频标签的操作可以与对文档进行打标,确定文档标签的操作类似。例如,可以包括:确定视频类型标签和视频的业务信息标签。确定与视频相关的对象的对象类型标签。根据视频类型标签、用户类型标签以及业务信息标签,确定视频标签。需要说明的是,在确定视频类型标签和视频的业务信息标签的操作时,与确定文档视频标签和文档的业务信息标签的操作不同之处为,输入至用于分类的深度学习模型中的输入数据为视频特征和音频特征。可以利用视频特征提取模型例如Video Swin Transformer,从视频中提取特征,得到视频特征。利用音频特征提取模型例如Wavenet,从音频中提取特征,得到音频特征。从视频中提取视频特征和音频特征的方法也可以采用现有技术中的其他方法,在此不再赘述。此外,视频的关键词标签,可以是通过视频中的图像文本内容和音频内容。从这些内容中抽取出视频的关键词,得到视频的关键词标签。
根据本公开的实施例,在已经确定了视频标签和文档标签的情况下,可以根据视频标签和文档标签,确定资源标签。具体操作可以包括:在确定存在相匹配的视频子标签与文档子标签的情况下,确定多个视频子标签的数量、多个文档子标签的数量和相匹配子标签的数量。根据多个视频子标签的数量、多个文档子标签的数量和相匹配子标签的数量,从视频标签和文档标签中确定资源标签。
根据本公开的实施例,视频子标签与文档子标签相匹配,可以包括:视频子标签与文档子标签相同。根据多个视频子标签的数量、多个文档子标签的数量和相匹配子标签的数量,从视频标签和文档标签中确定资源标签可以包括:对视频标签和文档标签取并集,得到并集子标签集合。将并集子标签集合作为资源标签。
根据本公开的实施例,在确定不存在相匹配的视频子标签与文档子标签的情况下,确定多个视频子标签与多个文档子标签中是否存在类型相同的子标签。在确定多个视频子标签与多个文档子标签中存在类型相同的子标签的情况下,停止处理待处理知识资源。在确定多个视频子标签与多个文档子标签中不存在类型相同的子标签的情况下,对视频标签和文档标签取并集,得到并集子标签集合。将并集子标签集合作为资源标签。
例如,对文档打标,确定文档标签包括文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3。对视频打标,确定视频标签包括视频的业务信息标签T-B-1和视频的关键词标签T-B-3。通过比对,确定文档的业务信息标签T-A-1与视频的业务信息标签T-B-1相匹配,文档的关键词标签T-A-3和视频的关键词标签相匹配T-B-3。对文档标签与视频标签取并集,得到并集子标签集合{文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3},将并集子标签集合作为资源标签。
例如,确定文档标签包括文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3。确定视频标签包括视频的对象类型标签T-B-4。在确定不存在相匹配的视频子标签与文档子标签,且多个视频子标签与多个文档子标签中不存在类型相同的子标签的情况下,确定多个视频子标签与多个文档子标签中是否存在类型相同的子标签。对视频标签和文档标签取并集,得到并集子标签集合{文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3、视频的对象类型标签T-B-4}。将并集子标签集合作为资源标签。
还例如,确定文档标签包括文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3。确定视频标签包括视频的业务信息标签T-B-1。在确定不存在相匹配的视频子标签与文档子标签的情况下,确定多个视频子标签与多个文档子标签中是否存在类型相同的子标签。在确定多个视频子标签与多个文档子标签中存在类型相同的子标签,例如文档的业务信息标签T-A-1和视频的业务信息标签T-B-1。两者标签类型相同,但是两者标签不相同。说明视频与文档之间的内容不匹配。在此情况下,停止处理待处理知识资源。
根据本公开的其他实施例,可以对文档标签与视频标签直接取并集,得到并集子标签集合,将并集子标签集合作为资源标签。
与取并集的方式相比,利用本公开实施例提供的确定资源标签的方式,能够筛选出来文档标签与视频标签之间存在相同标签类型且不相匹配的待处理知识资源,由此确定待处理知识资源的视频与文档之间的内容不匹配。进而在确定视频与文档之间的内容不匹配的情况下,确定待处理知识资源的质量不满足预定质量要求,停止对待处理知识资源的后续操作。以此提高对待处理知识资源的分析精准度,提高了添加至目标数据集中的待处理知识资源的视频与文档一致性和可阅读性等方面的质量。
根据本公开的实施例,对视频进行处理,确定视频质量结果,可以包括:对视频的内容进行分析,确定第一视频质量结果。对视频的画面、音质进行分析,确定第二视频质量结果。根据第一视频质量结果和第二视频质量结果,确定视频质量结果。
根据本公开的实施例,对视频的内容进行分析,确定第一视频质量结果,可以包括:利用语音识别技术(Automatic Speech Recognition,ASR),将视频的音频进行音转字处理,得到音频文本。在确定视频中包括文本视频帧,例如PPT视频帧的情况下,可以对视频进行拆帧处理,得到文本视频帧。利用OCR技术对文本视频帧进行文本识别,得到图像文本。基于图像文本和音频文本,确定两者之间的语义相似度,确定图像文本与音频文本是否一致、音频与画面是否同步等。对视频的画面、音质进行分析,确定第二视频质量结果,可以包括:利用视频特征提取模型例如Video Swin Transformer,从视频中提取特征,得到视频特征。利用音频特征提取模型例如Wavenet,从音频中提取特征,得到音频特征。利用文字特征提取模型例如Ernie或者Bert,从图像文本中提取特征,得到文字特征。将视频特征、音频特征和文字特征进行融合,得到视频融合特征。将视频融合特征输入至视频质量识别模型中,得到视频质量结果。根据本公开的实施例,视频质量识别模型可以为二分类模型,但是并不局限于此,只要是能够以视频融合特征作为输入数据,得到视频质量结果的具有质量分类的模型即可。
根据本公开的实施例,利用本公开实施例提供的视频处理方式得到的视频质量结果,能够结合文字特征、视频特征以及音频特征等多种特征,来确定视频音画是否同步、视频画面中是否存在黑屏、噪声等问题,在充分考虑多种因素的基础上,提高确定视频质量结果的精度。
在相关实例中,可以通过文档中的文本内容和文档的整体结构数据,确定文档质量结果。
与根据文档中的文本内容和整体结构数据来确定文档质量结果的方式相比,利用本公开实施例提供的知识资源的数据集更新方法,能够将文档中的文本拆分为多个文本块,根据文本块来确定结构数据,使得结构数据的分析粒度细,在考虑文本的结构布局的同时,充分考虑文档中多个文本块彼此之间的关联关系。进而使得知识资源的数据集更新方法中充分考虑了文档的逻辑性、可阅读性等因素,避免将结构布局杂乱的文档评价为高质量文档。下述将具体阐述对文档进行处理,确定文档质量结果的操作。
根据本公开的实施例,针对如图2所示的操作S230,在确定文档中不包括图像的情况下,可以直接根据文档结构特征和文本特征,确定文档的文档质量结果。在确定文档包括图像的情况下,可以对图像进行特征提取,得到图像特征。根据文档结构特征、文本特征和图像特征,确定文档的文档质量结果。
根据本公开的实施例,图像可以包括利用信息采集设备采集得到的图像、视频帧等,还可以包括由幻灯片、表格等生成的图像。可以将图像与文本结合生成文档。
根据本公开的实施例,根据文档结构特征、文本特征和图像特征,确定文档的文档质量结果,可以包括:拼接文档结构特征、文本特征和图像特征,得到文档特征。根据文档特征,确定文档的文档质量结果。
根据本公开的实施例,拼接文档结构特征、文本特征和图像特征可以包括:利用深度学习模型中的具有特征融合作用的模块来拼接文档结构特征、文本特征和图像特征。具有特征融合作用的模块可以包括例如Add(加和)模块、Concate(融合)模块等。
根据本公开的实施例,将文档结构特征、文本特征和从图像中提取的图像特征相结合,共同确定文档的文档质量结果,使得确定文档质量结果的参考因素更为全面、有效。
根据本公开的示例性实施例,在文档是利用OCR技术从初始文档例如图片或者PDF中转换得到的情况下,可以从初始文档中提取特征,得到原始图像特征,并将原始图像特征与文档结构特征以及文本特征相结合,得到文档特征。根据结合了原始图像特征的文档特征,确定文档的文档质量结果。能够利用原始图像特征来减少OCR技术带来的信息偏差,更好地结合文档的文档结构特征和文本特征,提高文档质量结果的准确性。
根据本公开的实施例,针对如图2所示的操作S220,根据多个文本块各自的结构数据,得到文档结构特征,可以包括如下操作。
例如,根据多个文本块各自的结构数据,得到结构数据序列。根据结构数据序列,得到区块结构特征。对多个文本块进行全局布局分析,得到全局结构特征。根据区块结构特征和全局结构特征,得到文档结构特征。
根据本公开的实施例,结构数据序列包括与多个文本块一一对应的多个结构数据,多个结构数据是按照多个文本块彼此之间的结构布局关联关系排序的。区块结构特征是从结构数据序列中提取得到的。所以区块结构特征中含有能够体现多个文本块彼此之间的结构布局关联关系的特征。
根据本公开的实施例,对多个文本块进行全局布局分析,得到全局结构特征,可以包括:对多个文本块进行全局布局分析,得到全局布局数据。根据全局布局数据,得到全局结构特征。但是并不局限于此。还可以包括:对多个文本块分别进行全局布局特征提取,得到多个文本块布局特征。拼接多个文本块布局特征,得到全局结构特征。
根据本公开的实施例,全局结构数据可以包括整体结构数据。例如,文档中文本的字符数量、文档的段落数量、文档的标题数量、文档的语言种类数量、每种语言的字符数量等中的一种或多种。可以从全局布局数据中提取特征,得到全局结构特征。可以利用卷积神经网络、循环神经网络等深度学习模型来处理全局结构数据,得到全局结构特征。
根据本公开的实施例,根据结构数据序列,得到区块结构特征,可以包括:从结构数据序列中提取特征,得到区块结构特征。可以利用卷积神经网络、循环神经网络等深度学习模型来处理结构数据序列,得到区块结构特征。但是并不局限于此。只要是能够将结构数据序列作为输入数据,在处理结构数据序列过程中,能够结合结构数据序列中的上下文结构数据即可。最终使得区块结构特征能够体现多个文本块彼此之间的结构布局关系联系即可。
根据本公开的实施例,根据区块结构特征和全局结构特征,得到文档结构特征,可以包括:利用深度学习模型中的具有特征融合作用的模块来拼接区块结构特征和全局结构特征,得到文档结构特征。具有特征融合作用的模块可以包括例如Add(加和)模块、Concate(融合)模块等。
需要说明的是,拼接多个特征的方式均可以采用具有特征融合作用的模块,例如Add(加和)模块、Concate(融合)模块等来处理。下述将不再赘述。
根据本公开的实施例,文档结构特征中不仅包括区块结构特征,还包括全局结构特征。能够从整体和局部等多方面的结构布局因素上进行评估的同时,结合了多个文本块彼此之间的结构布局关联关系的因素,进而能够将文本块彼此之间的逻辑性进行评估,由此充分利用文档中的结构布局信息,避免造成文档质量结果的偏差。
根据本公开的实施例,在执行如图2所示的操作S230,根据文档结构特征和文档的文本特征,确定文档的文档质量结果之前,知识资源的数据集更新方法还可以包括如下操作。
例如,对文档的文本进行全文特征提取,得到第一文本特征。从文档的文本中确定布局文本,得到布局文本序列。根据布局文本序列,得到第二文本特征。拼接第一文本特征和第二文本特征,得到文本特征。
根据本公开的实施例,布局文本序列包括多个布局文本,布局文本为用于体现文档的结构布局的文本,布局文本序列中的多个布局文本是按照多个布局文本彼此之间的结构布局关联关系排序的。
根据本公开的实施例,布局文本不仅体现文档的结构布局,而且还可以体现文档的语义信息。例如,布局文本可以是直接从文档摘录的,但是并不局限于此,还可以是根据文档中的文本,重新编辑总结的。只要是能够体现文档的结构与语义的文本即可。
根据本公开的示例性实施例,从文档的文本中确定布局文本,得到布局文本序列,包括:针对多个文本块中的每个文本块,提取文本块的布局文本,得到布局文本序列。
根据本公开的实施例,从多个文本块中分别提取布局文本,得到多个布局文本。按照多个文本块彼此之间的结构布局关联关系,对多个布局文本进行排序,得到布局文本序列。利用基于多个文本块得到的布局文本序列来提取第二文本特征,使得第二文本特征具有代表性,能够突出文档各个文本块之间的语义关联性和逻辑性的特点。
根据本公开的实施例,第一文本特征是对文档的文本进行全文特征提取得到的。第二文本特征是对布局文本序列进行处理得到的。根据布局文本序列,得到第二文本特征,可以包括:对布局文本序列进行特征提取,得到第二文本特征。但是并不局限于此。还可以包括:对布局文本序列中的多个布局文本分别进行特征提取,得到多个布局文本特征。拼接多个布局文本特征,得到第二文本特征。只要是能够将布局文本序列作为输入数据,在处理布局文本序列过程中,结合布局文本序列中的上下文数据即可。
根据本公开的实施例,文本特征中不仅包括从文档的文本进行全文特征提取的第一文本特征,还包括根据布局文本序列得到的第二文本特征。能够从整体和局部多方面的语义内容上进行评估的同时,结合了多个布局文本彼此之间的语义关联关系,进而能够对布局文本序列彼此之间的逻辑性进行评估,由此充分利用文档中的文本布局信息,避免造成文档质量结果的偏差。
根据本公开的示例性实施例,可以利用文档质量识别模型来处理文档,得到文档识别结果。
图5示意性示出了根据本公开实施例的文档质量识别模型的网络结构图。
如图5所示,文档质量识别模型M500可以包括结构布局模块M510、图像模块M520和文本模块M530三个分支。结构布局模块M510用于处理结构数据序列511和全局布局数据513,得到文档结构特征515。图像模块M520用于处理图像521,得到图像特征523。文本模块M530用于处理文档的文本531和布局文本序列532,得到文本特征536。
如图5所示,结构布局模块M510可以包括区块结构提取单元M511和全局结构提取单元M512。可以将结构数据序列511输入至区块结构提取单元M511中,得到区块结构特征512。可以基于多个文本块进行全局布局分析,得到全局布局数据513。将全局布局数据513输入至全局结构提取单元M512中,得到全局结构特征514。
根据本公开的实施例,区块结构提取单元可以包括循环神经网络(RNN),但是并不局限于此,还可以是其他具有特征提取功能的网络结构,只要是能够充分利用结构数据序列中的关联关系、结合上下文数据的网络结构即可。
根据本公开的实施例,全局结构提取单元可以包括Feed Forward(前馈神经网络)。但是并不局限于此。只要是具有特征提取功能的网络结构即可。
如图5所示,结构布局模块M510还包括第一拼接单元M513。可以将全局结构特征514和区块结构特征512输入至第一拼接单元M513,得到文档结构特征515。
根据本公开的实施例,第一拼接单元可以包括依序连接的Add(加和)层和全连接层(FC)。但是并不局限于此。还可以包括Concat层或者其他具有融合作用的层结构。下述第二拼接单元、第三拼接单元以及融合模块各自的网络结构与第一拼接单元的网络结构类似,将不再赘述。
如图5所示,图像模块M520可以包括依序连接的图像特征提取单元M521和第二拼接单元M522。文档中的图像521输入至图像特征提取单元M521中,得到图像子特征522。在文档包括多个图像的情况下,与多个图像一一对应的多个图像子特征输入至第二拼接单元M522中,得到图像特征523。在文档包括一个图像的情况下,图像子特征即为图像特征。在文档无图像的情况下,图像模块的输入数据为空。
根据本公开的实施例,图像特征提取单元可以包括卷积神经网络。但是并不局限于此。只要是能够从图像中提取特征的网络结构即可。
根据本公开的实施例,利用图像模块中的图像特征提取单元和第二拼接单元,能够提取图像特征,进而获得整体图像内容质量信息。
如图5所示,文本模块M530可以包括文本编码单元M531、全局特征提取单元M532、布局特征提取单元M533和第三拼接单元M534。将布局文本序列531输入至文本编码单元M531,得到布局文本编码序列532。将布局文本编码序列532输入至布局特征提取单元M533中,得到第二文本特征533。文本534输入至全局特征提取单元M532中,得到第一文本特征535。第一文本特征535与第二文本特征533输入至第三拼接单元M534中,得到文本特征536。
根据本公开的实施例,布局特征提取单元可以包括循环神经网络,但是并不局限于此,还可以是其他具有特征提取功能的网络结构,只要是能够充分利用布局文本序列中的关联关系、结合上下文数据的网络结构即可。全局特征提取单元可以包括Ernie或者Bert,但是并不局限于此,只要是能够对文本进行编码的特征提取网络结构即可。文本编码单元可以包括Embedding(编码)层。
如图5所示,文档质量识别模型M500还包括融合模块M540,用于融合图像特征523、文档结构特征515和文本特征,得到文档特征540。
如图5所示,文档质量识别模型M500还包括分类模块M550,用于基于文档特征,得到文档质量结果。分类模块可以包括二分类模块,基于文档特征,得到用于表征文档质量优劣的文档质量结果。
根据本公开的实施例,分类模块可以包括全连接层和激活函数。激活函数可以包括Softmax、Sigmoid中的一种。
根据本公开的实施例,将文档特征输入至分类模块中,得到文档质量结果。文档质量结果可以是用于表征文档优质或者劣质的标签。
根据本公开的实施例,利用文档质量识别模型来对文档进行识别,识别效率高、处理速度快。
根据本公开的实施例,在确定文档包括图像的情况下,根据结构数据序列,得到区块结构特征,可以包括操作:在确定文档包括图像的情况下,确定与图像相关的结构数据。根据与图像相关的结构数据和结构数据序列,得到区块结构特征。
根据本公开的实施例,与图像相关的结构数据,例如图像类型数据、图像数量数据、图像清晰度、图像噪声含量和图像尺寸数据等,也可以与文本块的结构数据相结合,作为评价文档的结构布局的参考因素。按照图像格式划分,图像类型数据可以指图像是否为动图;按照图像来源划分,图像类型数据可以指用于表征图像来源的数据,例如表征由采集设备例如相机采集到的图像的数据、表征由PPT或者表格转换得到的图像的数据。图像尺寸数据可以指单张图像的数据,但是并不局限于此,还可以指图像总面积占文档总面积的百分比。
根据本公开的实施例,根据与图像相关的结构数据和结构数据序列,得到区块结构特征,可以包括:提取与图像相关的结构数据中的特征,得到图像结构特征;提取结构数据序列中的特征,得到初始区块结构特征;拼接图像结构特征和初始区块结构特征,得到区块结构特征。但是并不局限于此。还可以包括:根据文档结构布局,将与图像相关的结构数据添加至结构数据序列中,得到更新后的结构数据序列。从更新后的结构数据序列中提取特征,得到区块结构特征。区块结构特征只要是基于与图像相关的结构数据和结构数据序列得到的结构特征即可,其处理过程不做具体限定。
根据本公开的实施例,将与图像相关的数据与结构数据序列结合,共同作为结构布局的参考数据,能够使得文档的区块结构特征的参考因素全面,进而使得基于全面的区块结构特征评价的文档质量结构准确、有效。
根据本公开的实施例,在确定文档包括图像的情况下,根据布局文本序列,得到第二文本特征,可以包括:在确定文档包括图像的情况下,对图像进行文本识别,得到文本识别结果。在确定文本识别结果用于表征图像中包括文本的情况下,根据文本识别结果和布局文本序列,得到第二文本特征。
根据本公开的实施例,可以利用OCR技术对图像进行文本识别,得到文本识别结果。文本识别结果可以表征图像中是否包括文本,但是并不局限于此,还可以表征图像中的文本内容。在确定文本识别结果用于表征图像中包括文本的情况下,可以将针对图像的文本识别结果与布局文本序列结合,得到第二文本特征。
根据本公开的实施例,根据文本识别结果和布局文本序列,得到第二文本特征,可以包括:提取文本识别结果中的特征,得到文本识别结果的特征;提取布局文本序列中的特征,得到初始文本特征;拼接文本识别结果的特征和初始文本特征,得到第二文本特征。但是并不局限于此。还可以包括:根据文档结构布局,将文本识别结果添加至布局文本序列中,得到更新后的布局文本序列。从更新后的布局文本序列中提取特征,得到第二文本特征。第二文本特征只要是根据文本识别结果和布局文本序列得到的结构特征即可,其处理过程不做具体限定。
根据本公开的实施例,将文本识别结果与布局文本序列结合,共同作为文档语义特征的参考数据,能够使得文档的语义特征的参考因素全面,进而使得基于全面的第二文本特征评价的文档质量结构准确、有效。
根据本公开的实施例,在根据文档结构布局,对文档中的文本进行拆分,得到多个文本块之前,文档质量确定方法还可以包括如下操作。
例如,确定文档的文档类型。确定与文档类型相匹配的目标处理模式。根据目标处理模式确定文档的文档结构布局。
根据本公开的实施例,按照文档的来源,文档类型包括网页版文档类型和非网页版文档类型。按照文档的展现形式,文档类型包括图片、PDF、PPT、Word等类型。并不局限于此。可以根据实际情况对文档进行分类,确定文档的多种文档类型。
根据本公开的实施例,可以预先设置文档类型与处理模式之间的映射关系,从映射关系中确定与文档的文档类型相匹配的目标处理模式。按照目标处理模式确定文档的文档结构布局。以使得文档结构布局的确定结果精准、简单、高效。
根据本公开的实施例,在确定文档的文档类型为网页版文档类型的情况下。根据目标处理模式确定文档的文档结构布局,可以包括:根据文档的渲染结果,确定文档结构布局。
根据本公开的实施例,网页版文档类型的文档,是经计算机渲染技术渲染后展示在网页版块上的文档。在渲染的过程中,会记录文档的渲染结果。该渲染结果包括有文档的文档结构布局。例如,渲染结果包括文档的主题名称、文档的标题、与标题相对应的文本内容、文档中的图像等。
根据本公开的实施例,根据文档结构布局,即可确定文档中的文本块。对网页版文档类型的文档,能够结合渲染结果来获取信息,由此确定文档结构布局,使得文档结构布局确定方式准确的同时确定方式简便,提高处理效率。
根据本公开的实施例,在文档的文档类型为非网页版文档类型的情况下。根据目标处理模式确定文档的文档结构布局,可以包括:根据多个预定字段信息,确定文档是否为预定格式的文档。在确定文档为预定格式的文档的情况下,将预定格式的文档的预定文档结构布局作为文档的文档结构布局。在确定文档为非预定格式的文档的情况下,将文档的段落结构布局作为文档的文档结构布局。
根据本公开的实施例,文档可以包括标题、与标题相对应的文本。文档的格式符合预定格式,可以是标题的段落格式设置符合预定格式,但是并不局限于此,还可以是标题的数量以及标题的内容符合预定格式。可以对预定格式的模板文档与文档进行匹配,得到匹配结果。在确定匹配结果表征文档与模板文档之间匹配的情况下,确定文档的格式为预定格式。在确定匹配结果表征文档与模板文档之间不匹配的情况下,确定文档的格式为非预定格式。对预定格式的模板文档与文档进行匹配,可以包括:将模板文档中的与格式相关的信息与文档中的内容进行匹配。与格式相关的信息可以包括预定文本的字体、字号、预定位置的关键字中的一种或多种信息。
图6A示意性示出了根据本公开实施例的预定格式的文档的示意图。
如图6A所示,文档610从上到下依次包括主题名称611、第一标题612、与第一标题相关的文本内容613、第二标题614和与第二标题相关的文本内容615。可以基于文档的第一标题段落格式以及第二标题的段落格式、第一标题的关键词以及第二标题的关键词等与格式相关信息,与模板文档中的与格式相关信息进行匹配。在两者之间匹配的情况下,基于模板文档的文档结构布局,确定文档的文档结构布局。
根据本公开的实施例,可以预先设置格式不同的多个模板文档。只要文档的格式与多个模板文档中的一个模板文档的格式相匹配即可。基于模板文档与文档结构布局之间的映射关系,确定文档的文档结构布局。
根据本公开的实施例,根据文档结构布局,对文档中的文本进行拆分,可以得到由第一标题以及与第一标题相关的文本内容形成的第一文本块,由第二标题以及与第二标题相关的文本内容形成的第二文本块。但是并不局限于此。根据文档结构布局,对文档中的文本进行拆分,还可以得到由第一标题形成的第一文本块、由与第一标题相关的文本内容形成的第二文本块、由第二标题形成的第三文本块和由与第二标题相关的文本内容形成的第四文本块。
图6B示意性示出了根据本公开实施例的非预定格式的文档的示意图。
如图6B所示,文档620从上到下依次包括主题名称621、第一段落文本622、第二段落文本623以及第三段落文本624。可以直接将无标题的文档确定为非预定格式的文档。但是并不局限于此。还可以将文档与多个模板文档相匹配,得到匹配结果。基于匹配结果,确定文档的格式为非预定格式。
根据本公开的实施例,根据文档结构布局,对文档中的文本进行拆分,可以得到由第一段落文本形成的第一文本块,由第二段落文本形成的第二文本块,由第三段落文本形成的第三文本块。
根据本公开的实施例,针对不同格式的文本,根据文档结构布局划分文本块,具有针对性的同时,具有科学性,进而使得基于此确定的文档质量结果精准、科学。
图7示意性示出了根据本公开实施例的检索方法的流程图。
如图7所示,该方法700包括操作S710~S720。
在操作S710,响应于接收到用于检索知识资源的指令,确定检索词。
在操作S720,从多个数据集各自的知识资源中确定与检索词相匹配的目标知识资源。多个数据集是根据知识资源的数据集更新方法更新的。
根据本公开的实施例,该检索词可以指用户用于检索知识资源的输入内容。该检索词表达了用户的检索意图。可以基于检索词,从多个数据集中确定与检索词相匹配的目标知识资源。该目标知识资源为与用户意图相匹配的知识资源。
根据本公开的实施例,多个数据集是根据知识资源的数据集更新方法更新的。多个数据集中的知识资源,文档的逻辑性、可阅读性质量高,视频的视频音画同步、画面质量高、不涵盖广告等噪声信息,此外,文档与视频之间的关联性高,内容丰富。应用到企业中,数据集的应用频率高,数据集中的知识资源的被流转的频率高。
根据本公开的实施例,针对如图7所示的操作S710,从多个数据集各自的知识资源中确定与检索词相匹配的目标知识资源,可以包括如下操作。
例如,从多个资源标签中确定与检索词相匹配的目标资源标签。根据目标资源标签,从多个数据集各自的知识资源中确定目标知识资源。
根据本公开的实施例,多个数据集是根据知识资源的数据集更新方法更新的。每个数据集中的每个知识资源,均匹配有资源标签。可以利用检索词与多个数据集中的多个知识资源各自的资源标签进行匹配,确定多个语义相似度。多个语义相似度与多个知识资源一一对应。将语义相似度最高的资源标签作为与检索词相匹配的目标资源标签。根据目标资源标签,从多个数据集各自的知识资源中确定与检索词相匹配的目标知识资源。
根据本公开的实施例,在确定资源标签包括多个资源子标签的情况下,与检索词相匹配的目标资源标签可以是与检索词相匹配的目标资源子标签。基于目标资源子标签确定目标资源标签。例如,资源标签T1包括:文档的业务信息标签T-A-1、文档类型标签T-A-2和文档的关键词标签T-A-3、视频的对象类型标签T-B-4。从中确定与检索词相匹配的目标资源子标签为文档类型标签T-A-2。可以基于资源子标签-文档类型标签T-A-2,确定目标资源标签为资源标签T1。
根据本公开的实施例,基于目标资源标签,可能从数据集中确定到多个初始目标知识资源。可以根据多个初始目标知识资源各自的查阅频率,从多个初始目标知识资源中确定目标知识资源。目标知识资源的数量可以根据实际需求确定。在此不做限定。
根据本公开的实施例,将检索词与资源标签进行匹配,确定目标资源标签,利用知识资源与资源标签之间的映射关系,确定与目标资源标签相匹配的目标知识资源,能够使得确定的目标知识资源精准的同时,确定速度快。此外,利用资源标签来作为匹配媒介,能够与知识资源更新至数据集中的方法相结合,充分利用用于分类的资源标签,避免增加新的处理操作。
根据本公开的实施例,在确定多个资源标签中不存在与检索词相匹配的目标资源标签的情况下,从多个数据集各自的知识资源中确定与检索词相匹配的目标知识资源,还包括:
从关键词集合中确定与检索词相匹配的目标关键词。根据目标关键词,从多个数据集各自的知识资源中确定目标知识资源。
根据本公开的实施例,关键词集合是从多个数据集各自的知识资源中提取得到的。
根据本公开的实施例,关键词集合的生成方式与关键词标签的生成方式一致,在此不再赘述。
根据本公开的实施例,关键词集合中包括与知识资源相匹配的关键词。关键词是从知识资源中抽取得到的。可以建立关键词与知识资源之间的映射关系。从关键词集合中确定与检索词相匹配的目标关键词。基于目标关键词、关键词与知识资源之间的映射关系,从多个数据集中确定目标知识资源。
根据本公开的实施例,利用预先建立关键词集合,能够辅助资源标签进行目标知识资源的检索。由此提高搜索场景的应用范围、降低检索难度。
图8示意性示出了根据本公开实施例的知识资源的数据集更新装置的框图。
如图8所示,知识资源的数据集更新装置800,包括:拆分模块810、第一提取模块820、文档质量确定模块830、资源标签确定模块840、数据集确定模块850以及更新模块860。
拆分模块810,用于根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块。
第一提取模块820,用于根据多个文本块各自的结构数据,得到文档结构特征。
文档质量确定模块830,用于根据文档结构特征和文档的文本特征,确定文档的文档质量结果。
资源标签确定模块840,用于在确定文档的文档质量结果表征文档质量满足预定文档质量的情况下,根据文档,确定资源标签。
数据集确定模块850,用于从多个数据集中确定与资源标签相匹配的目标数据集。
更新模块860,用于通过将待处理知识资源添加至目标数据集中,更新目标数据集。
根据本公开的实施例,资源标签确定模块包括:视频质量确定子模块以及资源标签确定子模块。
视频质量确定子模块,用于在确定待处理知识资源包括视频的情况下,对视频进行处理,确定视频质量结果。
资源标签确定子模块,用于在确定视频质量结果满足预定视频质量的情况下,根据视频和文档,确定资源标签。
根据本公开的实施例,资源标签确定子模块包括:打标单元以及资源标签确定单元。
打标单元,用于分别对视频和文档进行打标,确定视频标签和文档标签。
资源标签确定单元,用于根据视频标签和文档标签,确定资源标签。
根据本公开的实施例,视频标签包括多个视频子标签,文档标签包括多个文档子标签。
根据本公开的实施例,资源标签确定单元包括:第一数量确定子单元以及资源标签确定子单元。
第一数量确定子单元,用于在确定存在相匹配的视频子标签与文档子标签的情况下,确定多个视频子标签的数量、多个文档子标签的数量和相匹配子标签的数量。
资源标签确定子单元,用于根据多个视频子标签的数量、多个文档子标签的数量和相匹配子标签的数量,从视频标签和文档标签中确定资源标签。
根据本公开的实施例,打标单元包括:第一打标子单元、第二打标子单元以及第三打标子单元。
第一打标子单元,用于确定文档的文档类型标签和业务信息标签。
第二打标子单元,用于确定与文档相关的对象的对象类型标签。
第三打标子单元,用于根据文档类型标签、用户类型标签以及业务信息标签,确定文档标签。
根据本公开的实施例,数据集确定模块包括:数据集确定子模块。
数据集确定子模块,用于从标签与数据集映射表中确定与资源标签相匹配的目标数据集,其中,标签与数据集映射表用于表征资源标签与数据集之间的映射关系。
根据本公开的实施例,第一提取模块包括:结构获取子模块、第一提取子模块、第二提取子模块以及融合子模块。
结构获取子模块,用于根据多个文本块各自的结构数据,得到结构数据序列。结构数据序列包括与多个文本块分别对应的多个结构数据,多个结构数据是按照多个文本块彼此之间的结构布局关联关系排序的。
第一提取子模块,用于根据结构数据序列,得到区块结构特征。
第二提取子模块,用于对多个文本区块进行全局布局分析,得到全局结构特征。
融合子模块,用于根据区块结构特征和全局结构特征,得到文档结构特征。
根据本公开的实施例,知识资源的数据集更新装置还包括:第二提取模块、布局文本确定模块、第三提取模块以及第一拼接模块。
第二提取模块,用于对文档的文本进行全文特征提取,得到第一文本特征。
布局文本确定模块,用于从文档的文本中确定布局文本,得到布局文本序列。布局文本序列包括多个布局文本,布局文本为用于体现文档的结构布局的文本,布局文本序列中的多个布局文本是按照多个布局文本彼此之间的结构布局关联关系排序的。
第三提取模块,用于根据布局文本序列,得到第二文本特征。
第一拼接模块,用于拼接第一文本特征和第二文本特征,得到文本特征。
根据本公开的实施例,知识资源的数据集更新装置还包括:类型确定模块、模式确定模块、布局确定模块。
类型确定模块,用于确定文档的文档类型。
模式确定模块,用于确定与文档类型相匹配的目标处理模式。
布局确定模块,用于根据目标处理模式确定文档的文档结构布局。
根据本公开的实施例,文档的文档类型为网页版文档类型。
根据本公开的实施例,布局确定模块包括:第一布局确定子模块。
第一布局确定子模块,用于根据文档的渲染结果,确定文档结构布局。
根据本公开的实施例,文档的文档类型为非网页版文档类型。
根据本公开的实施例,布局确定模块包括:格式确定子模块、第二布局确定子模块以及第三布局确定子模块。
格式确定子模块,用于根据多个预定字段信息,确定文档是否为预定格式的文档。
第二布局确定子模块,用于在确定文档为预定格式的文档的情况下,将预定格式的文档的预定文档结构布局作为文档的文档结构布局。
第三布局确定子模块,用于在确定文档为非预定格式的文档的情况下,将文档的段落结构布局作为文档的文档结构布局。
根据本公开的实施例,布局文本确定模块包括:布局文本确定子模块。
布局文本确定子模块,用于针对多个文本块中的每个文本块,提取文本块的布局文本,得到布局文本序列。
根据本公开的实施例,文档质量确定模块包括:图像提取子模块以及结果确定子模块。
图像提取子模块,用于在确定文档包括图像的情况下,对图像进行特征提取,得到图像特征。
结果确定子模块,用于根据文档结构特征、文本特征和图像特征,确定文档的文档质量结果。
根据本公开的实施例,结果确定子模块包括:拼接单元以及结果确定单元。
拼接单元,用于拼接文档结构特征、文本特征和图像特征,得到文档特征。
结果确定单元,用于根据文档特征,确定文档的文档质量结果。
根据本公开的实施例,第一提取子模块包括:图像数据确定单元以及结构特征提取单元。
图像数据确定单元,用于在确定文档包括图像的情况下,确定图像的图像类型数据和图像尺寸数据。
结构特征提取单元,用于根据图像类型数据、图像尺寸数据和结构数据序列,得到区块结构特征。
根据本公开的实施例,第三提取模块包括:图像文本确定单元以及文本特征提取单元。
图像文本确定单元,用于在确定文档包括图像的情况下,对图像进行文本识别,得到文本识别结果。
文本特征提取单元,用于在确定文本识别结果用于表征图像中包括文本的情况下,根据文本识别结果和布局文本序列,得到第二文本特征。
图9示意性示出了根据本公开实施例的检索装置的框图。
如图9所示,检索装置900,包括:响应模块910以及检索模块920。
响应模块910,用于响应于接收到用于检索知识资源的指令,确定检索词。
检索模块920,用于从多个数据集各自的知识资源中确定与检索词相匹配的目标知识资源。多个数据集是根据本公开实施例提供的知识资源的数据集更新装置更新的。
根据本公开的实施例,检索模块包括:第一匹配子模块以及第二匹配子模块。
第一匹配子模块,用于从多个资源标签中确定与检索词相匹配的目标资源标签。
第二匹配子模块,用于根据目标资源标签,从多个数据集各自的知识资源中确定目标知识资源。
根据本公开的实施例,检索模块还包括:第三匹配子模块以及第四匹配子模块。
第三匹配子模块,用于在确定多个资源标签中不存在与检索词相匹配的目标资源标签的情况下,从关键词集合中确定与检索词相匹配的目标关键词。关键词集合是从多个数据集各自的知识资源中提取得到的。
第四匹配子模块,用于根据目标关键词,从多个数据集各自的知识资源中确定目标知识资源。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如知识资源的数据集更新方法或者检索方法。例如,在一些实施例中,知识资源的数据集更新方法或者检索方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的知识资源的数据集更新方法或者检索方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行知识资源的数据集更新方法或者检索方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (41)

1.一种知识资源的数据集更新方法,包括:
根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;
根据所述多个文本块各自的结构数据,得到文档结构特征;
根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果;
在确定所述文档的文档质量结果表征所述文档质量满足预定文档质量的情况下,根据所述文档,确定资源标签;
从多个数据集中确定与所述资源标签相匹配的目标数据集;以及
通过将所述待处理知识资源添加至所述目标数据集中,更新所述目标数据集。
2.根据权利要求1所述的方法,其中,所述根据所述文档,确定资源标签,包括:
在确定所述待处理知识资源包括视频的情况下,对所述视频进行处理,确定视频质量结果;以及
在确定所述视频质量结果满足预定视频质量的情况下,根据所述视频和所述文档,确定所述资源标签。
3.根据权利要求2所述的方法,其中,所述根据所述视频和所述文档,确定所述资源标签,包括:
分别对所述视频和所述文档进行打标,确定视频标签和文档标签;以及
根据所述视频标签和所述文档标签,确定所述资源标签。
4.根据权利要求3所述的方法,其中,所述视频标签包括多个视频子标签,所述文档标签包括多个文档子标签;
所述根据所述视频标签和所述文档标签,确定所述资源标签,包括:
在确定存在相匹配的所述视频子标签与所述文档子标签的情况下,确定所述多个视频子标签的数量、所述多个文档子标签的数量和相匹配子标签的数量;以及
根据所述多个视频子标签的数量、所述多个文档子标签的数量和相匹配子标签的数量,从所述视频标签和所述文档标签中确定所述资源标签。
5.根据权利要求3所述的方法,其中,所述对所述文档进行打标,确定文档标签,包括:
确定所述文档的文档类型标签和业务信息标签;
确定与所述文档相关的对象的对象类型标签;以及
根据所述文档类型标签、所述用户类型标签以及所述业务信息标签,确定所述文档标签。
6.根据权利要求1所述的方法,其中,所述从多个数据集中确定与所述资源标签相匹配的目标数据集,包括:
从标签与数据集映射表中确定与所述资源标签相匹配的目标数据集,其中,所述标签与数据集映射表用于表征资源标签与数据集之间的映射关系。
7.根据权利要求1所述的方法,其中,所述根据所述多个文本块各自的结构数据,得到文档结构特征,包括:
根据所述多个文本块各自的结构数据,得到结构数据序列,其中,所述结构数据序列包括与所述多个文本块分别对应的多个结构数据,所述多个结构数据是按照所述多个文本块彼此之间的结构布局关联关系排序的;
根据所述结构数据序列,得到区块结构特征;
对所述多个文本区块进行全局布局分析,得到所述全局结构特征;以及
根据所述区块结构特征和所述全局结构特征,得到所述文档结构特征。
8.根据权利要求1所述的方法,还包括:
对所述文档的文本进行全文特征提取,得到第一文本特征;
从所述文档的文本中确定布局文本,得到布局文本序列,其中,所述布局文本序列包括多个布局文本,所述布局文本为用于体现文档的结构布局的文本,所述布局文本序列中的所述多个布局文本是按照所述多个布局文本彼此之间的结构布局关联关系排序的;
根据所述布局文本序列,得到第二文本特征;以及
拼接所述第一文本特征和所述第二文本特征,得到所述文本特征。
9.根据权利要求1所述的方法,还包括:
确定所述文档的文档类型;
确定与所述文档类型相匹配的目标处理模式;以及
根据所述目标处理模式确定所述文档的所述文档结构布局。
10.根据权利要求9所述的方法,其中,所述文档的文档类型为网页版文档类型;
所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:
根据所述文档的渲染结果,确定所述文档结构布局。
11.根据权利要求9所述的方法,其中,所述文档的文档类型为非网页版文档类型;
所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:
根据多个预定字段信息,确定所述文档是否为预定格式的文档;
在确定所述文档为预定格式的文档的情况下,将所述预定格式的文档的预定文档结构布局作为所述文档的所述文档结构布局;以及
在确定所述文档为非预定格式的文档的情况下,将所述文档的段落结构布局作为所述文档的所述文档结构布局。
12.根据权利要求8所述的方法,其中,所述从所述文档的文本中确定布局文本,得到布局文本序列,包括:
针对所述多个文本块中的每个文本块,提取所述文本块的布局文本,得到所述布局文本序列。
13.根据权利要求1所述的方法,其中,所述根据所述文档结构特征和所述文本特征,确定所述文档的文档质量结果,包括:
在确定所述文档包括图像的情况下,对所述图像进行特征提取,得到图像特征;以及
根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果。
14.根据权利要求13所述的方法,其中,所述根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果,包括:
拼接所述文档结构特征、所述文本特征和所述图像特征,得到文档特征;以及
根据所述文档特征,确定所述文档的所述文档质量结果。
15.根据权利要求7所述的方法,其中,所述根据所述结构数据序列,得到区块结构特征,包括:
在确定所述文档包括图像的情况下,确定所述图像的图像类型数据和图像尺寸数据;以及
根据所述图像类型数据、所述图像尺寸数据和所述结构数据序列,得到所述区块结构特征。
16.根据权利要求8所述的方法,其中,所述根据所述布局文本序列,得到第二文本特征,包括:
在确定所述文档包括图像的情况下,对所述图像进行文本识别,得到文本识别结果;以及
在确定所述文本识别结果用于表征所述图像中包括文本的情况下,根据所述文本识别结果和所述布局文本序列,得到所述第二文本特征。
17.一种检索方法,包括:
响应于接收到用于检索知识资源的指令,确定检索词;以及
从多个数据集各自的知识资源中确定与所述检索词相匹配的目标知识资源,
其中,所述多个数据集是根据权利要求1至16中的任一项所述的方法更新的。
18.根据权利要求17所述的方法,其中,所述从多个数据集各自的知识资源中确定与所述检索词相匹配的目标知识资源,包括:
从多个资源标签中确定与所述检索词相匹配的目标资源标签;以及
根据所述目标资源标签,从所述多个数据集各自的知识资源中确定所述目标知识资源。
19.根据权利要求18所述的方法,其中,所述从多个数据集各自的知识资源中确定与所述检索词相匹配的目标知识资源,还包括:
在确定所述多个资源标签中不存在与所述检索词相匹配的目标资源标签的情况下,从关键词集合中确定与所述检索词相匹配的目标关键词,其中,所述关键词集合是从所述多个数据集各自的知识资源中提取得到的;以及
根据所述目标关键词,从所述多个数据集各自的知识资源中确定所述目标知识资源。
20.一种知识资源的数据集更新装置,包括:
拆分模块,用于根据文档结构布局,对待处理知识资源的文档进行拆分,得到多个文本块;
第一提取模块,用于根据所述多个文本块各自的结构数据,得到文档结构特征;
文档质量确定模块,用于根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果;
资源标签确定模块,用于在确定所述文档的文档质量结果表征所述文档质量满足预定文档质量的情况下,根据所述文档,确定资源标签;
数据集确定模块,用于从多个数据集中确定与所述资源标签相匹配的目标数据集;以及
更新模块,用于通过将所述待处理知识资源添加至所述目标数据集中,更新所述目标数据集。
21.根据权利要求20所述的装置,其中,所述资源标签确定模块包括:
视频质量确定子模块,用于在确定所述待处理知识资源包括视频的情况下,对所述视频进行处理,确定视频质量结果;以及
资源标签确定子模块,用于在确定所述视频质量结果满足预定视频质量的情况下,根据所述视频和所述文档,确定所述资源标签。
22.根据权利要求21所述的装置,其中,所述资源标签确定子模块包括:
打标单元,用于分别对所述视频和所述文档进行打标,确定视频标签和文档标签;以及
资源标签确定单元,用于根据所述视频标签和所述文档标签,确定所述资源标签。
23.根据权利要求22所述的装置,其中,所述视频标签包括多个视频子标签,所述文档标签包括多个文档子标签;
所述资源标签确定单元包括:
第一数量确定子单元,用于在确定存在相匹配的所述视频子标签与所述文档子标签的情况下,确定所述多个视频子标签的数量、所述多个文档子标签的数量和相匹配子标签的数量;以及
资源标签确定子单元,用于根据所述多个视频子标签的数量、所述多个文档子标签的数量和相匹配子标签的数量,从所述视频标签和所述文档标签中确定所述资源标签。
24.根据权利要求22所述的装置,其中,所述打标单元包括:
第一打标子单元,用于确定所述文档的文档类型标签和业务信息标签;
第二打标子单元,用于确定与所述文档相关的对象的对象类型标签;以及
第三打标子单元,用于根据所述文档类型标签、所述用户类型标签以及所述业务信息标签,确定所述文档标签。
25.根据权利要求20所述的装置,其中,所述数据集确定模块包括:
数据集确定子模块,用于从标签与数据集映射表中确定与所述资源标签相匹配的目标数据集,其中,所述标签与数据集映射表用于表征资源标签与数据集之间的映射关系。
26.根据权利要求20所述的装置,其中,所述第一提取模块包括:
结构获取子模块,用于根据所述多个文本块各自的结构数据,得到结构数据序列,其中,所述结构数据序列包括与所述多个文本块分别对应的多个结构数据,所述多个结构数据是按照所述多个文本块彼此之间的结构布局关联关系排序的;
第一提取子模块,用于根据所述结构数据序列,得到区块结构特征;
第二提取子模块,用于对所述多个文本区块进行全局布局分析,得到所述全局结构特征;以及
融合子模块,用于根据所述区块结构特征和所述全局结构特征,得到所述文档结构特征。
27.根据权利要求20所述的装置,还包括:
第二提取模块,用于对所述文档的文本进行全文特征提取,得到第一文本特征;
布局文本确定模块,用于从所述文档的文本中确定布局文本,得到布局文本序列,其中,所述布局文本序列包括多个布局文本,所述布局文本为用于体现文档的结构布局的文本,所述布局文本序列中的所述多个布局文本是按照所述多个布局文本彼此之间的结构布局关联关系排序的;
第三提取模块,用于根据所述布局文本序列,得到第二文本特征;以及
第一拼接模块,用于拼接所述第一文本特征和所述第二文本特征,得到所述文本特征。
28.根据权利要求20所述的装置,还包括:
类型确定模块,用于确定所述文档的文档类型;
模式确定模块,用于确定与所述文档类型相匹配的目标处理模式;以及
布局确定模块,用于根据所述目标处理模式确定所述文档的所述文档结构布局。
29.根据权利要求28所述的装置,其中,所述文档的文档类型为网页版文档类型;
所述布局确定模块包括:
第一布局确定子模块,用于根据所述文档的渲染结果,确定所述文档结构布局。
30.根据权利要求28所述的装置,其中,所述文档的文档类型为非网页版文档类型;
所述布局确定模块包括:
格式确定子模块,用于根据多个预定字段信息,确定所述文档是否为预定格式的文档;
第二布局确定子模块,用于在确定所述文档为预定格式的文档的情况下,将所述预定格式的文档的预定文档结构布局作为所述文档的所述文档结构布局;以及
第三布局确定子模块,用于在确定所述文档为非预定格式的文档的情况下,将所述文档的段落结构布局作为所述文档的所述文档结构布局。
31.根据权利要求27所述的装置,其中,所述布局文本确定模块包括:
布局文本确定子模块,用于针对所述多个文本块中的每个文本块,提取所述文本块的布局文本,得到所述布局文本序列。
32.根据权利要求20所述的装置,其中,所述文档质量确定模块包括:
图像提取子模块,用于在确定所述文档包括图像的情况下,对所述图像进行特征提取,得到图像特征;以及
结果确定子模块,用于根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果。
33.根据权利要求32所述的装置,其中,所述结果确定子模块包括:
拼接单元,用于拼接所述文档结构特征、所述文本特征和所述图像特征,得到文档特征;以及
结果确定单元,用于根据所述文档特征,确定所述文档的所述文档质量结果。
34.根据权利要求26所述的装置,其中,所述第一提取子模块包括:
图像数据确定单元,用于在确定所述文档包括图像的情况下,确定所述图像的图像类型数据和图像尺寸数据;以及
结构特征提取单元,用于根据所述图像类型数据、所述图像尺寸数据和所述结构数据序列,得到所述区块结构特征。
35.根据权利要求27所述的装置,其中,所述第三提取模块包括:
图像文本确定单元,用于在确定所述文档包括图像的情况下,对所述图像进行文本识别,得到文本识别结果;以及
文本特征提取单元,用于在确定所述文本识别结果用于表征所述图像中包括文本的情况下,根据所述文本识别结果和所述布局文本序列,得到所述第二文本特征。
36.一种检索装置,包括:
响应模块,用于响应于接收到用于检索知识资源的指令,确定检索词;以及
检索模块,用于从多个数据集各自的知识资源中确定与所述检索词相匹配的目标知识资源,
其中,所述多个数据集是根据权利要求20至35中的任一项所述的装置更新的。
37.根据权利要求36所述的装置,其中,所述检索模块包括:
第一匹配子模块,用于从多个资源标签中确定与所述检索词相匹配的目标资源标签;以及
第二匹配子模块,用于根据所述目标资源标签,从所述多个数据集各自的知识资源中确定所述目标知识资源。
38.根据权利要求36所述的装置,其中,所述检索模块还包括:
第三匹配子模块,用于在确定所述多个资源标签中不存在与所述检索词相匹配的目标资源标签的情况下,从关键词集合中确定与所述检索词相匹配的目标关键词,其中,所述关键词集合是从所述多个数据集各自的知识资源中提取得到的;以及
第四匹配子模块,用于根据所述目标关键词,从所述多个数据集各自的知识资源中确定所述目标知识资源。
39.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至19中任一项所述的方法。
40.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至19中任一项所述的方法。
41.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至19中任一项所述的方法。
CN202211487082.8A 2022-11-24 2022-11-24 知识资源的数据集更新方法、检索方法、装置及设备 Pending CN115937886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211487082.8A CN115937886A (zh) 2022-11-24 2022-11-24 知识资源的数据集更新方法、检索方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211487082.8A CN115937886A (zh) 2022-11-24 2022-11-24 知识资源的数据集更新方法、检索方法、装置及设备

Publications (1)

Publication Number Publication Date
CN115937886A true CN115937886A (zh) 2023-04-07

Family

ID=86556864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211487082.8A Pending CN115937886A (zh) 2022-11-24 2022-11-24 知识资源的数据集更新方法、检索方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115937886A (zh)

Similar Documents

Publication Publication Date Title
US8856642B1 (en) Information extraction and annotation systems and methods for documents
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
MX2013005056A (es) Enfoque multimodal para entrada de busqueda de consulta.
CN112541359B (zh) 文档内容识别方法、装置、电子设备及介质
US20140195532A1 (en) Collecting digital assets to form a searchable repository
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
US20150278248A1 (en) Personal Information Management Service System
US20230206670A1 (en) Semantic representation of text in document
US20220415366A1 (en) Smart summarization, indexing, and post-processing for recorded document presentation
CN111506608A (zh) 一种结构化文本的比较方法和装置
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
US20220301285A1 (en) Processing picture-text data
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
TWI793432B (zh) 工程專案文件管理方法與系統
CN115937886A (zh) 知识资源的数据集更新方法、检索方法、装置及设备
CN114817559A (zh) 问答方法、装置、计算机设备和存储介质
CN113887191A (zh) 文章的相似性检测方法及装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
CN115718734A (zh) 文档质量确定方法、装置、电子设备以及存储介质
CN115130435B (zh) 文档处理方法、装置、电子设备和存储介质
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
JP2015022406A (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination