CN114328983A - 文档碎化方法、数据检索方法、装置及电子设备 - Google Patents
文档碎化方法、数据检索方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114328983A CN114328983A CN202111669341.4A CN202111669341A CN114328983A CN 114328983 A CN114328983 A CN 114328983A CN 202111669341 A CN202111669341 A CN 202111669341A CN 114328983 A CN114328983 A CN 114328983A
- Authority
- CN
- China
- Prior art keywords
- fragmentation
- document
- retrieval
- fragmented
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013467 fragmentation Methods 0.000 claims abstract description 164
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 164
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文档碎化方法、数据检索方法、装置及电子设备,该文档碎化方法包括:获取待碎化的目标文档;将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;将生成的子文档作为所述目标文档的碎化结果存储到数据库中。通过对文档的碎化处理,获得了更加细粒度的章节层级的内容,从而能够在数据检索时以章节为最小检索对象,进而将检索结果定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
Description
技术领域
本申请涉及文档处理技术领域,尤其涉及一种文档碎化方法、数据检索方法、装置及电子设备。
背景技术
在进行数据搜索和数据推荐时,一般会以一篇完整的文档作为最小的检索对象,将检索条件与数据库中的文档进行匹配,返回满足检索条件的文档,在展示检索结果时也是以文档为最小单位进行展示,因此用户只能定位到具体的文档。
发明内容
本申请实施例提供一种文档碎化方法、装置、电子设备及存储介质,以及基于碎化后的文档实现的数据检索方法、装置、电子设备及存储介质,通过对文档的碎化处理,获得了更加细粒度的章节层级的内容,进而将检索结果定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
一方面,本申请一实施例提供了一种文档碎化方法,包括:
获取待碎化的目标文档;
将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
获取所述目标文档的目录信息,所述目录信息包括章节之间的层级关系以及每个章节在所述目标文档中的起始位置;
从所述目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;
针对每个碎化章节,从所述目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。
可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
以段落为单位,将所述目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;
针对每个碎化章节,从所述目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容;
可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
从所述目标文本中抽取出多个主题,每个主题对应一个碎化章节;
获取所述目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个段落划分到最相似的主题下;
针对每个碎化章节,从所述目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。
可选地,所述方法还包括:
建立子文档和所述目标文档之间的索引关系,并存储到所述数据库中。
一方面,本申请一实施例提供了一种文档碎化装置,包括:
获取模块,用于获取待碎化的目标文档;
碎化模块,用于将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
生成模块,用于基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
存储模块,用于将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
一方面,本申请一实施例提供了一种数据检索方法,包括:
获取检索条件;
从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
可选地,所述从数据库中检索满足所述检索条件的检索结果,包括:
获取配置的检索对象层级,所述检索对象层级包括知识条目、文档和碎化章节中的至少一种;
从数据库中符合所述检索对象层级规定的数据中,获取满足所述检索条件的检索结果;
可选地,通过如下方式配置检索对象层级:
基于用户历史浏览记录,获取用户浏览各种层级数据的次数;
基于用户浏览各种层级数据的次数,确定用户偏好的数据层级;
基于所述用户偏好的数据层级配置检索对象层级。
可选地,所述获取检索条件包括:
获取目标用户所属的专业和执行的目标任务;
获取所述目标任务所属的专业;
获取所述目标任务相关的参考资料,从所述参考资料中提取关键词;
基于所述目标任务的任务标题、所述目标用户所属的专业、所述目标任务所属的专业和提取的关键词,生成所述检索条件。
可选地,当所述显示方式为平铺显示时,逐条展示所述检索结果中的数据;当所述显示方式为合并显示时,按照知识条目、文档和碎化章节之间的关联层级关系,以树结构的形式展示所述检索结果中的数据。
一方面,本申请一实施例提供了一种数据检索装置,包括:
检索条件获取模块,用于获取检索条件;
检索模块,用于从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
展示模块,用于按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种文档碎化方法或数据检索方法的步骤。
一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种文档碎化方法或数据检索方法的步骤。
一方面,本申请一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种TCP传输性能的控制的各种可选实现方式中提供的方法。
本申请实施例提供的技术方案,首先,基于文档的结构将文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;然后,基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档,最后,将生成的子文档作为该文档的碎化结果存储到数据库中,以获得更加细粒度的章节内容。在基于数据库中数据进行检索时,将以章节为单位的子文档作为最小的检索对象,从而能够在检索时定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的文档碎化方法以及数据检索方法的应用场景示意图;
图2为本申请实施例提供的文档碎化方法的流程示意图;
图3为本申请实施例提供的数据检索方法的流程示意图;
图4为本申请实施例提供的合并显示数据的示意图;
图5为本申请实施例提供的文档碎化装置的结构示意图;
图6为本申请实施例提供的数据检索装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
知识条目:是指按数据所属的知识点对数据进行归类后获得的知识类别,每个知识条目可包含标题、摘要、附件/文档等属性。
文档:是指包含具体文本内容的word、pdf等类型的文件,一般作为知识条目的附件。
章节:是指文档中的章节内容,可将文档的正文内容划分成多个部分。
具体实践过程中,在进行数据搜索和数据推荐时,一般会以一篇完整的文档作为最小对象进行检索,在展示检索结果时也是以文档为最小单位进行展示,因此基于检索结果用户能定位到的最小单位为文档,无法获得更细粒度的检索结果,降低了知识的定位和推荐的精准度。
为此,本申请提供了一种文档碎化方法:首先,基于文档的结构将文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;然后,基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档,最后,将生成的子文档作为该文档的碎化结果存储到数据库中,以获得更加细粒度的章节内容。在基于数据库中数据进行检索时,将以章节为单位的子文档作为最小的检索对象,从而能够在检索时定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,其为本申请实施例提供的文档协同编辑方法的应用场景示意图。该应用场景包括终端设备101和服务器102。其中,终端设备101和服务器102之间通过无线或有线网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102内的数据库中存储有大量的文档,服务器102可按照数据所属的知识条目对文档进行分类存储,统计并存储每个知识条目的相关信息,使得用户不仅可以检索到具体的文档,还可以检索到知识条目。服务器102还可以对数据库中的文档进行碎化处理,以将文档碎化成多个章节并存储到数据库中,以向用户提供章节层级的检索对象。用户可通过终端设备101向服务器102发送搜索请求,服务器102在数据库中检索满足检索条件的知识条目、文档和章节,将检索结果返回给终端设备101。服务器102还可以基于用户的历史搜素数据和历史浏览数据确定用户偏好,从数据库中检索满足用户偏好的知识条目、文档和章节,推荐给用户。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。
参考图2,本申请实施例提供一种文档碎化方法,可应用于图1所示的服务器,具体包括以下步骤:
S201、获取待碎化的目标文档。
其中,待碎化的目标文档是一个未经碎化的完整文档。本申请中进行碎化的文档可以是word、pdf等类型的文档。在将目标文档存储到数据库中时,即可对目标文档进行碎化处理。
S202、将目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容。
具体实施时,可基于目标文档的结构和预设的碎化方式,确定出多个碎化章节,然后将目标文档中的各个段落划分到匹配的碎化章节下,每个碎化章节下的段落所包含的文本内容的集合即为该碎化章节的正文内容。
需要说明的是,为了与文档中已有的章节进行区分,本申请中将经过碎化处理获得的章节称为碎化章节,数据库中存储的也是碎化章节的相关信息。
实际应用中,目标文档自身可包含目录信息,目录信息包括章节之间的层级关系以及每个章节在目标文档中的起始位置,此时可基于该目录信息对目标文档进行碎化处理。其中,一个目录包含多个层级的章节,同一层级的多个章节之间是并列关系,每个章节下又可以划分出多个子章节,例如:“1范围标识”、“2引用文档”、“3软件保障资源”等为第一层级的章节,“1范围标识”下的子章节“1.1”、“1.2”和“1.3”为第二层级的章节,章节“1.1”下的子章节“1.1.1”、“1.1.2”为第三层级的章节,依次类推。章节在目标文档中的起始位置一般是指该章节的章节标题的首个字符在目标文档中所在的位置,可通过字符所在的页码、行等确定字符所在位置。
为此,步骤S202的一种具体实施方式包括如下步骤:获取目标文档的目录信息;从目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;针对每个碎化章节,从目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。
其中,碎化层级深度是指所需提取的最大的章节层级,即需要碎化的最大层级。例如,碎化层级深度是3,则只提取目录中前3层级的章节,不提取第四层级以及更高层级的章节,只将前3层级的章节作为碎化章节,即不对第三层级的章节所包含的子章节进行碎化,第三层级的章节包含的所有子章节作为一个整体。具体地,服务器可通过文档编辑器提供的接口获取目标文档的目录信息。
实际应用中,当目标文档不包含目录信息时,可通过以下任一方式对目标文档进行碎化处理:
第一种方式、按自然段落进行碎化。
具体地,以段落为单位,将目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;针对每个碎化章节,从目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容。
其中,段落数量阈值是指一个碎化章节包含的段落数量的最大值。段落数量阈值可以是根据实际应用经验确定的数值。例如,段落数量阈值是5,目标文档一共包含18个段落,则从第一个段落开始,每5个段落组成一个碎化章节,即第1~5个段落为第一个碎化章节,第6~10个段落为第二个碎化章节,第11~15个段落为第三个碎化章节,第16~18个段落为第四个碎化章节。可按顺序为每个碎化章节分配一个唯一的章节号。
具体实施时,也可以基于目标文档动态确定对应的段落数量阈值,例如,可以统计目标文档中每个段落包含的字数,基于每个段落的字数计算段落的字数平均值,基于段落的字数平均值确定段落数量阈值,其中,段落的字数平均值与段落数量阈值成反比,即字数平均值越大,段落数量阈值越小。
具体实施时,还可以基于一个碎化章节包含的字数上限,将目标文档划分成多个碎化章节,每个碎化章节包含的段落的总字数不超过字数上限。其中,字数上限是指一个碎化章节包含字数的最大值,字数上限可以是根据实际应用经验确定的数值。例如,字数上限是500,则从目标文档的第1个段落开始,依次统计前N个段落的字数总和,若前N个段落的字数总和不超500且前N+1个段落的字数总和超过500,则将前N个段落作为第一个碎化章节;然后从第N+1个段落开始,依次统计多个连续段落的字数总和,若第(N+1)~(N+n)个段落的字数总和不超500且第(N+1)~(N+n+1)个段落的字数总和超过500,则将第(N+1)~(N+n)个段落作为第二个碎化章节;依次类推,直到处理完最后一个段落。
第二种方式、按主题进行碎化。
具体地,从目标文本中抽取出多个主题,每个主题对应一个碎化章节;获取目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个段落划分到最相似的主题下;针对每个碎化章节,从目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。
具体实施时,可基于自然语言处理中的BOW(Bag-of-words model,词袋模型)和LDA(Latent DirichletAllocation,文档主题生成模型)等主题抽取方法,从目标文本中抽取出多个主题,为抽取的每个主题分配一个唯一的章节号,即每个主题对应一个碎化章节。针对目标文档中每个段落,可基于现有的主题抽取方法从该段落中抽取主题词,计算该段落的主题词和各主题之间的相似度,将该段落划分到与其最相似的主题下;或者,基于现有的关键词抽取方法从该段落中抽取关键词,然后计算该段落的关键词和各主题之间的相似度,将该段落划分到与其最相似的主题下。
S203、基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档。
具体实施时,数据库可通过数组的形式存储碎化章节对应的子文档,每个碎化章节的数组中可包括:碎化章节的章节号和碎化章节的正文内容。这样,在检索和展示碎化章节时,可直接从对应的数组中获取到正文内容进行展示。
如果碎化章节是基于目录信息或按自然段落划分的方式获得的,则该碎化章节的数组中还可以包括该碎化章节在目标文档中的起止位置信息,该起止位置信息是根据该碎化章节在目标文档中的起始位置和下一个碎化章节在目标文档中的起始位置确定的。可以基于碎化章节在目标文档中对应的章节标题和目标文档的文档标识,确定碎化章节的章节号。
如果碎化章节是按自然段落划分的方式获得的,则该碎化章节的数组中还可以包括该碎化章节在目标文档中的起止位置信息,该起止位置信息是根据碎化章节中第一个段落和最后一个段落在目标文档中的位置确定的。
在用户查看碎化章节的内容时,可在展示页面中显示碎化章节所属的目标文档的文档标识,用户点击该文档标识后,服务器可基于目标文档的文档标识打开目标文档,并基于从该碎化章节的数组中获取的位置信息,将目标文档的显示内容定位到碎化章节所在的位置。为此,用户在查看碎化章节的内容时,可快速定位到碎化章节在目标文中的位置,从而结合上下文提高阅读效率。
如果碎化章节是按主题划分的方式获得的,则直接向用户展示基于碎化章节的正文内容生成的word或pdf类型的展示文件。当然,服务器也可以记录碎化章节中每个段落在目标文档中的位置信息,在展示文件中的每个段落后添加查看段落出处的链接,用户点击某个段落对应的链接后,服务器会获取目标文档,并基于该段落在目标文档中的位置信息,将目标文档的显示内容定位到该段落所在的位置并反馈给用户,这样用户就可以根据需求在目标文档中查看对应的段落,从而结合上下文提高阅读效率。
S204、将生成的子文档作为目标文档的碎化结果存储到数据库中。
具体实施时,数据库中的子文档可以作为数据搜索或数据推荐时的检索对象。当然,数据库中还存储有子文档所属的原始文档,原始文档也可以作为数据搜索或数据推荐时的检索对象。
具体实施时,服务器还会建立子文档和目标文档之间的索引关系,并存储到数据库中。可根据子文档和目标文档之间的索引关系,在展示的子文档的相关信息中显示查看目标文档的链接,用户可通过该链接快度打开对应的目标文档。
基于上述实施方式提供的文档碎化方法,实现了对文档的碎化处理,获得了更加细粒度的章节层级的内容,从而能够在数据检索时可以章节对最小检索对象,进而将检索结果定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
在本申请实施例提供的文档碎化方法的基础上,本申请实施例还提供了一种数据检索方法,参考图3,该数据检索方法具体包括以下步骤:
S301、获取检索条件。
具体实施时,用户可以通过终端设备向服务器发送检索条件。或者,在服务器需要向用户推荐数据时,由服务器基于用户的历史数据自动生成检索条件,基于检索条件从数据库中获取推荐给用户的数据。
S302、从数据库中检索满足检索条件的检索结果,数据库中包括知识条目、文档和碎化章节这三种层级的数据。
其中,数据库中的每个知识条目关联多个文档。具体地,可基于本申请实施例提供的任一文档碎化方法,预先对数据库中的文档进行碎化处理,从而获得每个文档的碎化章节并存储到数据库中,同时将文档与其包含的碎化章节进行关联。
具体实施时,数据库中可包含多个子数据库,分别用于管理和存储不同层级的数据。
由于数据库中包含多个层级的数据,使得用户可以获取到层级结构更加丰富的检索结果,进而从不同的层级维度获取相关知识。基于碎化章节这一层级,可帮助用户更加精准的定位到相关知识点的出处,提高检索效率。
数据库中存储的每个知识条目的相关信息包括但不限于:知识条目的所有的属性标签及标签的值、关联文档的文件名和正文内容,其中,知识条目的关键属性包括知识条目的标题、关键词、摘要;知识条目的基本属性包括类型、创建人、创建时间、阅读次数、评分、浏览次数、版本、密级、权限;知识条目的扩展属性包括正文、扩展属性列表。数据库中存储的每个文档的相关信息包括但不限于:标题、关键词、摘要、类型(附件)、文件内容(指未碎化的文件)等关键属性,以及来源于所属知识条目的基本属性。数据库中存储的每个碎化章节的相关信息包括但不限于:标题、关键词、摘要、类型(章节)、章节内容等关键属性,以及来源于所属知识条目的基本属性。检索时,将检索条件与基于知识条目、文档和碎化章节的相关信息进行匹配,以获得满足检索条件的检索结果。
S303、按照配置的显示方式展示检索结果。
其中,文档的展示信息中可包括文档所属的知识条目,用户可通过点击展示信息中的知识条目查看该知识条目的相关信息。碎化章节的展示信息中包括碎化章节所属的文档和知识条目,用户可通过点击展示信息中的文档或知识条目,查看相关文档或知识条目的具体信息。这样,用户可以便捷的查看关联内容的具体信息。
进一步地,当显示方式为平铺显示时,可逐条展示检索结果中的数据。具体可根据每条数据与检索条件的相关度从高到低的顺序,逐一展示检索结果中的数据。
参考图4,当显示方式为合并显示时,可按照知识条目、文档和碎化章节之间的关联层级关系,以树结构的形式展示检索结果中的数据。这样,用户可以更清晰的获知知识条目、文档和碎化章节之间的关系。
每条数据的展示内容可包括该数据的相关信息中的部分信息。可通过章节图标、文档图标、知识条目图标对各条数据所属的层级进行醒目的标注。对于展示内容中的文字部分,其中包含的关键字可进行标红处理。每条数据的标题可带超链接,点击标题超链接可以进入该条数据的详情页面。
碎化章节的展示内容中还包括碎化章节的来源,即标明章节所属的知识条目名称及文档名称,知识条目名称、文档名称之间可以用“>”分割符分割。鼠标滑过知识条目名称、文档名称时,知识条目名称、文档名称的字体颜色发生变化,鼠标移开时恢复正常颜色。条目名称和文档名称带超链接,点击知识条目名称可直接打开知识条目的详情页面,点击文档名称可直接打开文档的详情页面。
文档的展示内容中还包括文档的来源,即标明文档所属的知识条目名称。当鼠标滑过知识条目名称时,字体颜色发生变化,鼠标移开时恢复正常颜色。知识条目名称带超链接,点击知识条目名称可直接打开知识条目的详情页面。
具体实施时,可根据需要的检索范围,配置检索对象层级,配置的检索对象层级可包括知识条目、文档和碎化章节中的至少一种。为此,步骤S302具体包括:获取配置的检索对象层级,从数据库中符合检索对象层级规定的数据中,获取满足检索条件的检索结果。例如,当检索对象层级包括文档和碎化章节时,仅从文档和碎化章节这两类数据中检索满足检索条件的数据,不检索知识条目。
进一步地,检索对象层级可以是预先配置好的,也可以根据当前用户的历史浏览记录确定当前用户专属的检索对象层级。
具体地,服务器可基于用户历史浏览记录,获取该用户浏览各种层级数据的次数;然后,基于该用户浏览各种层级数据的次数,确定用户偏好的数据层级,例如浏览次数超过阈值的层级即为用户偏好的数据层级;最后,基于用户偏好的数据层级配置检索对象层级,例如用户偏好的数据层级包括知识条目、文档和碎化章节,则该用户对应的检索对象层级包括:知识条目、文档和碎化章节。
具体实施时,针对不同类型的数据,同一用户的浏览方式偏好可能是不同的。例如,对参考文献类型的数据,用户可能偏好浏览文档和碎化章节,对于考试培训类型的数据,用户可能偏好浏览知识条目和文档。为此,针对同一用户,还可以基于不同类型的数据配置不同的检索对象层级。具体地,可先从用户历史浏览记录中获取用户针对每种数据类型的浏览记录;然后,针对每种数据类型的浏览记录,统计用户浏览该数据类型时浏览各种层级数据的次数,基于浏览各种层级数据的次数确定用户浏览该数据类型时偏好的数据层级,基于偏好的数据层级配置用户在浏览该数据类型时的检索对象层级。在检索条件时,获取检索条件所针对的目标数据类型,从该用户对应的配置数据中获取该用户在浏览目标数据类型时的检索对象层级,基于获取的检索对象层级,从数据库中符合该检索对象层级规定的数据中获取满足检索条件的检索结果。
具体实施时,还可以基于用户更多的个人信息和执行的任务,实现更精准的任务关联知识推荐,协助用户更快地获取任务关联知识,以便更好地完成任务。为此,步骤S301具体包括:获取目标用户所属的专业和执行的目标任务;获取目标任务所属的专业;获取目标任务相关的参考资料,从参考资料中提取关键词;基于目标任务的任务标题、目标用户所属的专业、目标任务所属的专业和提取的关键词,生成检索条件。
其中,可在设置目标任务时输入相关的参考资料,包括但不限于目标任务的任务项目书、任务相关的参考文献等。若同时获取到目标用户所属的专业和目标任务所属的专业,则生成的检索条件中,目标用户所属的专业和目标任务所属的专业是“或”的关系。在检索时,可先基于目标用户所属的专业和目标任务所属的专业过滤出符合专业条件的数据,在从过滤出的数据中检索与目标任务的任务标题和关键词的匹配度高于阈值的数据,作为检索结果。
如图5所示,基于与上述文档碎化方法相同的发明构思,本申请实施例还提供了一种文档碎化装置50,包括:
获取模块501,用于获取待碎化的目标文档;
碎化模块502,用于将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
生成模块503,用于基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
存储模块504,用于将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
可选地,所述碎化模块502具体用于:
获取所述目标文档的目录信息,所述目录信息包括章节之间的层级关系以及每个章节在所述目标文档中的起始位置;
从所述目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;
针对每个碎化章节,从所述目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。
可选地,所述碎化模块502具体用于:
以段落为单位,将所述目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;
针对每个碎化章节,从所述目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容;
可选地,所述碎化模块502具体用于:
从所述目标文本中抽取出多个主题,每个主题对应一个碎化章节;
获取所述目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个段落划分到最相似的主题下;
针对每个碎化章节,从所述目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。
可选地,所述存储模块504还用于:建立子文档和所述目标文档之间的索引关系,并存储到所述数据库中。
本申请实施例提的文档碎化装置与上述文档碎化方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
如图6所示,基于与上述文档碎化方法相同的发明构思,本申请实施例还提供了一种数据检索装置60,包括:
检索条件获取模块601,用于获取检索条件;
检索模块602,用于从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
展示模块603,用于按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
可选地,所述检索模块602,具体用于:
获取配置的检索对象层级,所述检索对象层级包括知识条目、文档和碎化章节中的至少一种;
从数据库中符合所述检索对象层级规定的数据中,获取满足所述检索条件的检索结果;
可选地,所述数据检索装置60还包括配置模块,用于:
基于用户历史浏览记录,获取用户浏览各种层级数据的次数;
基于用户浏览各种层级数据的次数,确定用户偏好的数据层级;
基于所述用户偏好的数据层级配置检索对象层级。
可选地,所述检索条件获取模块601,具体用于:
获取目标用户所属的专业和执行的目标任务;
获取所述目标任务所属的专业;
获取所述目标任务相关的参考资料,从所述参考资料中提取关键词;
基于所述目标任务的任务标题、所述目标用户所属的专业、所述目标任务所属的专业和提取的关键词,生成所述检索条件。
可选地,所述展示模块603,具体用于:当所述显示方式为平铺显示时,逐条展示所述检索结果中的数据;当所述显示方式为合并显示时,按照知识条目、文档和碎化章节之间的关联层级关系,以树结构的形式展示所述检索结果中的数据。
本申请实施例提的数据检索装置与上述数据检索方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述文档碎化方法以及数据检索方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、服务器等。如图7所示,该电子设备70可以包括处理器701和存储器702。
处理器701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(RandomAccess Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文档碎化方法,其特征在于,包括:
获取待碎化的目标文档;
将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
获取所述目标文档的目录信息,所述目录信息包括章节之间的层级关系以及每个章节在所述目标文档中的起始位置;
从所述目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;
针对每个碎化章节,从所述目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
以段落为单位,将所述目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;针对每个碎化章节,从所述目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容;或者,
从所述目标文本中抽取出多个主题,每个主题对应一个碎化章节;获取所述目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个段落划分到最相似的主题下;针对每个碎化章节,从所述目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。
4.一种数据检索方法,其特征在于,包括:
获取检索条件;
从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
5.根据权利要求4所述的方法,其特征在于,所述从数据库中检索满足所述检索条件的检索结果,包括:
获取配置的检索对象层级,所述检索对象层级包括知识条目、文档和碎化章节中的至少一种;
从数据库中符合所述检索对象层级规定的数据中,获取满足所述检索条件的检索结果;
其中,通过如下方式配置检索对象层级:
基于用户历史浏览记录,获取用户浏览各种层级数据的次数;
基于用户浏览各种层级数据的次数,确定用户偏好的数据层级;
基于所述用户偏好的数据层级配置检索对象层级。
6.根据权利要求4或5所述的方法,其特征在于,所述获取检索条件包括:
获取目标用户所属的专业和执行的目标任务;
获取所述目标任务所属的专业;
获取所述目标任务相关的参考资料,从所述参考资料中提取关键词;
基于所述目标任务的任务标题、所述目标用户所属的专业、所述目标任务所属的专业和提取的关键词,生成所述检索条件。
7.一种文档碎化装置,其特征在于,包括:
获取模块,用于获取待碎化的目标文档;
碎化模块,用于将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
生成模块,用于基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
存储模块,用于将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
8.一种数据检索装置,其特征在于,包括:
检索条件获取模块,用于获取检索条件;
检索模块,用于从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
展示模块,用于按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669341.4A CN114328983A (zh) | 2021-12-31 | 2021-12-31 | 文档碎化方法、数据检索方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669341.4A CN114328983A (zh) | 2021-12-31 | 2021-12-31 | 文档碎化方法、数据检索方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114328983A true CN114328983A (zh) | 2022-04-12 |
Family
ID=81020988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111669341.4A Pending CN114328983A (zh) | 2021-12-31 | 2021-12-31 | 文档碎化方法、数据检索方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328983A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11915614B2 (en) | 2019-09-05 | 2024-02-27 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
WO2024040914A1 (zh) * | 2022-08-24 | 2024-02-29 | 华为云计算技术有限公司 | 知识搜索方法及相关设备 |
CN118377912A (zh) * | 2024-06-27 | 2024-07-23 | 山东捷瑞数字科技股份有限公司 | 电子手册处理方法、交互系统、电子设备及可读存储介质 |
-
2021
- 2021-12-31 CN CN202111669341.4A patent/CN114328983A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11915614B2 (en) | 2019-09-05 | 2024-02-27 | Obrizum Group Ltd. | Tracking concepts and presenting content in a learning system |
WO2024040914A1 (zh) * | 2022-08-24 | 2024-02-29 | 华为云计算技术有限公司 | 知识搜索方法及相关设备 |
CN118377912A (zh) * | 2024-06-27 | 2024-07-23 | 山东捷瑞数字科技股份有限公司 | 电子手册处理方法、交互系统、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008265B (zh) | 企业信息搜索方法及装置 | |
US8954893B2 (en) | Visually representing a hierarchy of category nodes | |
RU2501078C2 (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
US20160098405A1 (en) | Document Curation System | |
CN114328983A (zh) | 文档碎化方法、数据检索方法、装置及电子设备 | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
CN108255972A (zh) | 一种全文检索方法及系统 | |
CN112487150B (zh) | 档案管理方法、系统、存储介质及电子设备 | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
CN110750975B (zh) | 介绍文本生成方法及装置 | |
KR101441219B1 (ko) | 정보 엔터티들의 자동 연관 | |
CN111488510B (zh) | 小程序相关词的确定方法、装置、处理设备及搜索系统 | |
CN111666383A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN104050183A (zh) | 浏览器输入框的内容匹配结果提示方法及装置 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN114706938A (zh) | 一种文档标签确定方法、装置、电子设备及存储介质 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN110019783B (zh) | 属性词聚类方法及装置 | |
US8875007B2 (en) | Creating and modifying an image wiki page | |
CN108509571A (zh) | 一种网页信息数据挖掘通用方法 | |
CN105512339A (zh) | 一种文件检索器及检索方法 | |
CN117743558B (zh) | 基于大模型的知识加工、知识问答方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |