一种文档的结构化拆分方法,装置及系统
技术领域
本申请实施例涉及文件搜索系统技术领域,特别涉及一种文档的结构化拆分方法,装置及系统。
背景技术
随着互联网技术的发展,基于互联网的搜索系统也越来越多。典型的基于互联网的搜索系统如图1所示,这个系统一般有一个应用平台服务器1,以及与其连接的数据存储服务器2,该数据存储服务器2设置在平台服务器1内部或独立设置,以及,与应用平台服务器1通过互联网3或移动互联网3连接的终端4,通常,应用平台服务器1为终端4提供应用服务。
信息搜索系统就是一个示例性的基于互联网的搜索系统。通常,用户在终端中输入想要了解的信息的“搜索词”,应用平台服务器1基于该“搜索词”,遍历所述存储服务器2中的文档,搜索出与所述“搜索词”相关联的有用知识,并将相关信息,发送至终端4进行显示。
但是,申请人发现现有技术提供的搜索系统在提供搜索有用知识的过程中存在搜索操作效率低以及搜索操作过多占用系统资源的问题。例如,用户想搜索“美食”相关的有用知识,此时,应用平台服务器1在遍历所述整篇word文档,搜索出与“美食”相关的有用知识。通常,整篇word文档是一个比较大的知识,应用平台服务器1在遍历所述整篇word文档的过程中,需要对整篇word文档的内容进行分析,然后,筛选出与“美食”相关的有用知识。在此过程中,应用平台服务器1,长时间的处于等待状态,降低了系统带宽、数据库等资源的利用率。
申请内容
本申请的发明目的在于提一种文档的结构化拆分方法,装置及系统,以解决现有技术示出的搜索系统搜索效率低的技术问题。
本申请实施例第一方面提供了一种文档的结构化拆分方法,包括:
选取标题模板,确定所述标题模板的属性规则;
根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识,所述目标段落为段落属性符合所述属性规则的段落;
将所述目标段落与所述目标段落对应的知识逐一建立关联;
根据所述关联,拆分所述文档。
由以上技术方案可知,本申请实施例示出一种文档的结构化拆分方法,所述方法在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
本申请实施例第二方面示出一种文档的结构化生拆分装置,所述装置包括:
选取单元,用于选取标题模板,确定所述标题模板的属性规则;
遍历单元,用于根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识;
建立单元,用于将所述目标段落与所述目标段落对应的知识逐一建立关联;
拆分单元,用于根据所述关联,拆分所述文档。
本申请实施例示出一种文档的结构化生拆分装置,所述装置在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
本申请实施例第三方面示出一种文档的结构化生拆分系统,所述系统包括:
应用平台服务器,以及,与其连接的数据存储服务器,所述数据存储服务器设置在所述应用平台服务器内部或独立设置,以及,与应用平台服务器通过互联网或移动互联网连接的终端,
所述应用平台服务器,用于选取标题模板,确定所述标题模板的属性规则;
用于根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识,所述目标段落为段落属性符合所述属性规则的段落;
用于将所述目标段落与所述目标段落对应的知识逐一建立关联;
用于根据所述关联,拆分所述文档;
所述终端用于向所述应用平台服务器发送文档,以及,用于接收才分后的文档;
所述数据存储服务器,用于相关数据的存储。
本申请实施例示出一种文档的结构化生拆分系统,所述系统在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于互联网的搜索系统的场景图;
图2为根据申请一优选的实施例示出的一种文档的结构化拆分方法的流程图;
图3为根据申请一优选的实施例示出的步骤104的详细的流程图;
图4为根据申请又一优选的实施例示出的步骤104的详细的流程图;
图5为根据申请一优选的实施例示出的步骤106的详细的流程图;
图6为根据申请一优选的实施例示出的步骤107的详细的流程图;
图7为根据申请又一优选的实施例示出的步骤107的详细的流程图;
图8为根据申请一优选的实施例示出的一种文档的结构化生拆分装置的结构框图;
图9-1为根据申请一优选的实施例示出的一种文档的结构化生拆分系统的结构框图;
图9-2为根据申请又一优选的实施例示出的一种文档的结构化生拆分系统的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图2,本申请实施例示出一种文档的结构化拆分方法,所述方法包括以下的步骤:
S105选取标题模板,确定所述标题模板的属性规则;
数据存储服务器中存储有多种标题模板,每种标题模板对应至少一种属性规则;
例如:标题模板1对应的一级标题,标题模板1的属性规则为:段落标号-X;字体-黑体;字号-小三;首行缩进2字符;段前间距0.5行;加粗。
标题模板2对应的二级标题,标题模板2的属性规则为:段落标号-X.X;字体-黑体;字号-四号;首行缩进2字符;段前间距0.5行;加粗。
标题模板3对应的三级标题,标题模板3的属性规则为:段落标号-X.X.X;字体-黑体;字号-小四;首行缩进2字符;加粗。
应用平台服务器根据实际需求选取标题模板,然后,确定所述标题模板的属性规则;
S106根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识;
本申请实施例中,使用文字识别技术,分别对文档的每个段落的属性进行解析。
通过对段落的属性的解析,能够得到文档中每个段落的段落属性,搜索出符合属性规则的段落。本申请实施例中的属性规则包括:字体名称、加粗字体、倾斜字体和划线字体等。
对段落的属性进行解析的过程为:把每个段落的字体大小、缩进距离等段落属性提取出来,将所述段落属性与属性规则进行对比,如果符合属性规则要求就将该段落标注为目标段落,所述目标段落下边的文字即为所述目标段落对应的知识,直至下一个目标段落的出现。
S107将所述目标段落与所述目标段落对应的知识逐一建立关联;
每个目标段落与所述目标段落对应的知识组成一个知识条目。
S108根据所述关联,拆分所述文档。
本申请实施例示出一种文档的结构化拆分方法,所述方法在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器,仅需通过对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
实施例1:
文档1:
1液芯光波导;
液芯光波导对应的知识。
1.1液芯光波导的发展历程;
液芯光波导的发展历程对应的知识。
1.2液芯光波导的传光原理;
液芯光波导的传光原理对应的知识。
1.3液芯光波导的特点;
液芯光波导的特点对应的知识。
1.4液芯光波导在分析领域中的应用;
液芯光波导在分析领域中的应用对应的知识。
1.4.1液芯光波导在萃取方向上的应用;
液芯光波导在萃取方向上的应用对应的知识。
1.4.2液芯光波导在传感方向上的应用;
液芯光波导在传感方向上的应用对应的知识。
2离子液体;
离子液体对应的知识。
2.1离子液体的发展历程;
离子液体的发展历程对应的知识。
2.2离子液体性质及组成;
离子液体性质及组成对应的知识。
2.3离子液体在萃取分离中的应用;
离子液体在萃取分离中的应用对应的知识。
用户需要了解离子液体的性质及其组成的相关内容;
应用平台服务器根据用户上传的文档1,以及,选择标题模板,确定用户选取的标题模板对应的属性规则为:段落标号-X.X;字体-黑体;字号-四号;首行缩进2字符;段前间距0.5行;加粗。
应用平台服务器任务启动后用poi加载文档1,将整篇文档1切分成段落列表,然后,遍历段落列表,筛选出目标段落:
1.1液芯光波导的发展历程;
1.2液芯光波导的传光原理;
1.3液芯光波导的特点;
1.4液芯光波导在分析领域中的应用;
2.1离子液体的发展历程;
2.2离子液体性质及组成;
2.2离子液体性质及组成;
2.3离子液体在萃取分离中的应用;
将上述目标段落与所述目标段落对应的知识逐一建立关联,根据所述关联,拆分所述文档1,将整篇文档1拆分成多个知识条目。
搜索系统在搜索“离子液体性质及其组成”相关的有用知识过程中,应用平台服务器,仅需对“2.2离子液体性质及组成”与对应的组成的知识条目进行分析,筛选出有用知识;在此过程中,降低了搜索系统的搜索范围,缩短了搜索系统的搜索的时间,提高了系统带宽、数据库等资源的利用率。
请继续参阅图2所述方法还包括:
S101获取模板文件;
首先上传模板文件,系统会将模板文件保存到数据存储服务器内,然后添加相应标题,例如标题为:离子液体;用户在标题示例输入域中输入“离子液体”;
S102确定所述模板文件中的目标标题;
应用平台服务器会根据输入内容“离子液体”扫描文档中的每一个段落,所有包含“离子液体”的标题和段落均会被罗列出来,用户任意选择一个标题作为目标标题,应用平台服务器根据用户的选择,确定模板文件中的目标标题。
S103筛选出所述目标标题的同级标题;
S104根据所述同级标题的段落属性,生成标题模板。
应用平台服务器扫描整篇文档,对文档中的每一个段落进行属性比对,发现与目标标题的属性一致的段落便会记录下来,所述记录下来的标题便为所述目标标题的同级标题,将所述同级标题,以及,目标标题显示在同级标题列表中,用户可以通过查看同级标题列表来确认自己选择的标题能不能正确拆分文档,若果可以正确的拆分文档,则标题模板生成。
实施例2:
用户在标题示例输入域中输入“离子液体”;应用平台服务器会根据输入内容“离子液体”扫描每一个段落,然后,将包含输入内容的标题和段落全部罗列出来:
2离子液体;
2.1离子液体的发展历程;
2.2离子液体性质及组成;
2.3离子液体在萃取分离中的应用;
用户根据需求选择“2.1离子液体的发展历程”作为目标标题,应用平台服务器根据用户的选择,确定“2.1离子液体的发展历程”为目标标题。
应用平台服务器扫描整篇文档,对段落的属性的解析,筛选出目标标题的同级标题,并显示在同级标题列表中;
显示的内容为:
1.1液芯光波导的发展历程;
液芯光波导的发展历程对应的知识。
1.2液芯光波导的传光原理;
液芯光波导的传光原理对应的知识。
1.3液芯光波导的特点;
液芯光波导的特点对应的知识。
1.4液芯光波导在分析领域中的应用;
液芯光波导在分析领域中的应用对应的知识。
2.1离子液体的发展历程;
离子液体的发展历程对应的知识。
2.2离子液体性质及组成;
离子液体性质及组成对应的知识。
2.3离子液体在萃取分离中的应用;
离子液体在萃取分离中的应用对应的知识。
用户可以通过查看同级标题列表来确认自己选择的目标标题能不能正确拆分文档模板,如果自己选的择的目标标题可以正确拆分文档模板,则标题模板生成。
在一些情况下用户选择的目标标题对文档的拆分不够细致,还可以继续添加二级目录甚至三级目录,具体添加到几级标题模板,可以根据具体需求进行定制。
具体的,请参阅图4,本申请实施例中所述步骤S104包括以下步骤:
S10411显示所述同级标题,以及,所述同级标题对应的知识;
S10412判断所述同级标题对应的知识是否符合预置划分规则;
所述预置划分规则为对一篇文档的划分细度。
例如:在文档1中,预置划分规则是对文档1的划分细度为“液芯光波导的传光原理”与“液芯光波导的发展历程”。
如果最初“1液芯光波导和2离子液体”为所述同级标题,然后,分液芯光波导对应的知识和离子液体对应的知识。其中,芯光波导对应的知识,包含“液芯光波导的传光原理”与“液芯光波导的发展历程”两部分内容,显然采用“1液芯光波导和2离子液体”作为所述同级标题来划分文档1划分细度不符合预置划分规则。
如果所述同级标题对应的知识符合预置划分规则,执行S10413根据所述同级标题的段落属性,生成标题模板;
如果所述同级标题对应的知识不符合预置划分规则,执行S10414调取所述同级标题的子标题;
S10415根据所述同级标题的段落属性,以及,所述子级标题的段落属性,生成属性模板,所述属性模板包括:根据同级标题的段落属性生成的同级标题模板,以及,根据所述子标题的段落属性生成的子级标题模板。
实施例3:
用户在标题示例输入域中输入“液芯光波导”;应用平台服务器会根据输入内容“液芯光波导”扫描每一个段落,将包含“液芯光波导”的标题和段落会罗列出来:
显示内容:
1液芯光波导:
液芯光波导对应的知识。
1.1液芯光波导的发展历程;
液芯光波导的发展历程对应的知识。
1.2液芯光波导的传光原理;
液芯光波导的传光原理对应的知识。
1.3液芯光波导的特点;
液芯光波导的特点对应的知识。
1.4液芯光波导在分析领域中的应用;
液芯光波导在分析领域中的应用对应的知识。
1.4.1液芯光波导在萃取方向上的应用;
液芯光波导在萃取方向上的应用对应的知识。
1.4.2液芯光波导在传感方向上的应用;
液芯光波导在传感方向上的应用对应的知识。
用户根据需求选择“1液芯光波导”作为目标标题,应用平台服务器根据用户的选择,确定“1液芯光波导”为目标标题。
应用平台服务器扫描整篇文档,对每一个段落的属性的解析,发现和“1液芯光波导”的属性一致的段落会记录下来,显示在同级标题列表中。
显示内容:
1液芯光波导;
2离子液体;
应用平台服务器分析“1液芯光波导和2离子液体;”的段落属性,根据“1液芯光波导和2离子液体;”的段落属性生成一级标题模板;此时一级标题模板将整篇文档拆分成两个知识条目;如果用户觉得一级标题模板对文档拆分的不够细致,应用平台服务器调取所述“1液芯光波导和2离子液体”的子标题;
所述子标题包括:
1.1液芯光波导的发展历程;
1.2液芯光波导的传光原理;
1.3液芯光波导的特点;
1.4液芯光波导在分析领域中的应用;
2.1离子液体的发展历程;
2.2离子液体性质及组成;
2.3离子液体在萃取分离中的应用;
根据上述子标题的属性生成的子级标题模板。
可见本申请实施例示出的标题模板包括:根据同级标题的段落属性生成的同级标题模板,以及,根据所述子标题的段落属性生成的子级标题模板。
通过本申请实施例示出的方法可以根据用户的需求生成一级标题模板,二级标题模板,以及,三级标题模板等等。具体生成几级标题模板,可以根据具体需求进行定制。
在一些情况下,用户输入的标题内容对应不同级别的标题,此时,无法唯一确定目标标题的同级标题,在此情况下,在用户输入的标题的内容上增加一个正则表达式,以进一步限定目标标题的内容,进而使得目标标题唯一确定。
请参阅图4,本申请实施例中步骤S104包括以下步骤:
S10421遍历所述文档的段落,筛选出目标段落;
S10422如果出现多于一个的目标段落,则增加一个正则表达式;
S10423判断所述目标段落的内容是符合正则表达式;
S10424如果所述目标段落的内容符合正则表达式,则保留所述目标段落;
S10425如果所述目标段落的内容不符合正则表达式,则删除所述目标段落。
具体的,实施例4:
用户在标题示例输入域中输入“发展历程”,应用平台服务器会根据输入内容“发展历程”扫描每一个段落,包含“发展历程”的标题和段落会罗列出来:
显示内容:
1.1液芯光波导的发展历程;
2.1离子液体的发展历程;
此时,在搜索的过程中,出现两个目标标题“1.1液芯光波导的发展历程和2.1离子液体的发展历程”,在此情况下,本申请实施例示出的方法,添加一个正则表达式(离子液体),此时,“2.1离子液体的发展历程”符合正则表达式,被重新定义为目标标题而被保留。“1.1液芯光波导的发展历程”会被删除。
请参阅图5,本申请实施例示中S106包括以下步骤:
S1061遍历所述文档的段落,确定所述段落的所属的属性级别;
S1062如果所述段落的属性符合所述属性规则,则所述段落为目标段落;
S1063如果所述段落的属性符合所述标题模板的上一级标题的属性规则,分析所述段落对应的知识,得到分析结果;
S1064根据所述分析结果生成一目标段落。
实施例5:
用户选择的标题模板是二级标题,首先,上传文档并选择标题模板,根据用户选择的标题模板,确定所述标题模板对应的属性规则为段落标号-X.X;字体-黑体;字号-四号;首行缩进2字符;段前间距0.5行;加粗。
任务启动后首先用poi加载文档,将整篇文档切分成段落列表,遍历段落列表,显示目标段落,所述目标段落的同级段落,以及,上述段落对应的知识,
1.1液芯光波导的发展历程;
液芯光波导的发展历程对应的知识。
1.2液芯光波导的传光原理;
液芯光波导的传光原理对应的知识。
1.3液芯光波导的特点;
液芯光波导的特点对应的知识。
1.4液芯光波导在分析领域中的应用;
液芯光波导在分析领域中的应用对应的知识。
2.1离子液体的发展历程;
离子液体的发展历程对应的知识。
2.2离子液体性质及组成;
离子液体性质及组成对应的知识。
2.3离子液体在萃取分离中的应用;
离子液体在萃取分离中的应用对应的知识。
在搜索的过程中,应用平台服务器判断“1液芯光波导”的属性符合所述标题模板的上一级标题的属性规则;此时,应用平台服务器分析“液芯光波导对应的知识”,得到“液芯光波导对应的知识”的内容为液芯光波导的原理简介,应用平台服务器根据液芯光波导的原理简介生成一个新的目标段落“1.5液芯光波导的原理简介”,并将该目标段落与对应的知识生成一条知识条目,将生成的知识条目存储在solr(独立的企业级搜索应用服务器)中。
在将整篇文档拆分成多个知识条目并显示的过程中,不乏存在一些知识条目,所述知识条目中包含的知识未涉及到任何有用知识,这些知识条目称之为无用知识条目,在此条件下本申请实施例示出的方法,将所述无用知识条目删除,进而减少系统的内存占用率,提高系统的搜索效率。
请参阅图6,本申请实施例示中S107包括以下步骤:
S10711显示所述目标段落,以及,所述目标段落对应的知识;
S10712判断所述目标段落对应的知识是否为有用知识;
如果所述目标段落对应的知识为有用知识,则执行S10713建立所述目标段落与所述目标段落对应的知识之间的关联;
如果所述目标段落对应的知识不是有用知识,则执行S10714删除所述目标段落,以及,所述目标段落对应的知识。
实施例6:
用户搜索“光波导”相关的知识,首先,上传文档并选择标题模板,确定所述标题模板对应的属性规则为段落标号-X.X;字体-黑体;字号-四号;首行缩进2字符;段前间距0.5行;加粗。任务启动后首先用poi加载文档,将整篇文档切分成段落列表,遍历段落列表,显示所述目标段落,所述目标段落的同级段落,以及上述段落对应的知识;
1.1液芯光波导的发展历程;
液芯光波导的发展历程对应的知识。
1.2液芯光波导的传光原理;
液芯光波导的传光原理对应的知识。
1.3液芯光波导的特点;
液芯光波导的特点对应的知识。
1.4液芯光波导在分析领域中的应用;
液芯光波导在分析领域中的应用对应的知识。
2.1离子液体的发展历程;
离子液体的发展历程对应的知识。
2.2离子液体性质及组成;
离子液体性质及组成对应的知识。
2.3离子液体在萃取分离中的应用;
离子液体在萃取分离中的应用对应的知识。
应用平台服务器判断所述目标段落对应的知识是否为有用知识;其中,“离子液体的发展历程对应的知识;离子液体性质及组成对应的知识;离子液体在萃取分离中的应用对应的知识”均为无用知识,应用平台服务器将“2.1离子液体的发展历程,2.2离子液体性质及组成,以及,2.3离子液体在萃取分离中的应用”以及,上述段落对应的知识删除;将“1.1液芯光波导的发展历程,1.2液芯光波导的传光原理,1.3液芯光波导的特点,1.4液芯光波导在分析领域中的应用”与这些段落对应的知识逐一建立关联,根据所述关联,拆分所述整篇文档,将整篇文档拆分成多个知识条目。
本申请实施例示出的方法,将所述无用知识条目删除,进而减少系统的内存占用率,提高系统的搜索效率。
请参阅图7,本申请实施例示中S107包括以下步骤:
S10721显示所述目标段落,以及,所述目标段落对应的知识;
S10722如果所述目标段落对应的知识中包括图片,将所述图片以链接的形式存储在目标段落对应的知识中,或,如果所述目标段落对应的知识中包括表格,将所述表格转化为成可以展示的格式存储在目标段落对应的知识中;
S10723将所述目标段落与所述目标段落对应的知识逐一建立关联;
图片和表格是通过一个公用的poi插件来进行判断:
其中,以下代码表示该段落有表格:
Body Element Type.TABLE.equals(be.get Element Type())
以下代码能识别出图片:
XWPFParagraphparagraph=be.getBody().getParagraphArray(i);List<XWPFRun>xwpfRuns=paragraph.getRuns();for(XWPFRunxwpfRun:xwpfRuns){Stringctr=xwpfRun.getCTR().toString();if(null!=ctr&&ctr.indexOf("图片")!=-1){picflag=true;}
S10724将所述目标段落与所述目标段落对应的知识逐一建立关联。
遍历段落列表,判断段落内容里是不是有图片,如果有图片则将图片用文件流抽取出来以特定的方式命名存储在该文档对应的路径下;
判断段落内容里是不是有表格,如果有表格就将表格里面的单元格利用<tr>,<td>标签进行处理,存储成页面可以展示的内容。
可选择的,所述属性规则包括:字体的大小,字形、首行缩进距离,段前距离,断后距离中的一种或几种组合。
对于二级标题而言,段落属性对应为:段落标号-X.X;字体-黑体;字号-四号;首行缩进2字符;段前间距0.5行;加粗;
对于文档1而言中的标而言;如果确定一个段落的字号-四号,则无需对于其他的段落属性进行识别,便可确定该段落为二级标题。
对于三级标题而言,由于文档中正文对应的字号-小四,三级标题对应的字号也为小四,此时需要确定该段落的字体是为黑体,如果字体为黑体,则确定该段落为三级标题段落,如果该段落的字体为楷体,则确定该段落为正文段落。
请参阅图8,本申请实施例第二方面示出一种文档的结构化拆分装置,所述装置包括:
选取单元21,用于选取标题模板,确定所述标题模板的属性规则;
22遍历单元22,用于根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识;
建立单元23,用于将所述目标段落与所述目标段落对应的知识逐一建立关联;
24拆分单元,用于根据所述关联,拆分所述文档。
本申请实施例示出一种文档的结构化生拆分装置,所述装置在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
本申请实施例第三方面示出一种文档的结构化生拆分系统,所述系统包括:
应用平台服务器31,以及,与其连接的数据存储服务器32,所述数据存储服务器32设置在所述应用平台服务器31内部或独立设置,以及,与应用平台服务器31通过互联网或移动互联网连接的终端33;
所述应用平台服务器31,用于选取标题模板,确定所述标题模板的属性规则;
用于根据所述属性规则,遍历文档的段落,筛选出目标段落,以及,所述目标段落对应的知识,所述目标段落为段落属性符合所述属性规则的段落;
用于将所述目标段落与所述目标段落对应的知识逐一建立关联;
用于根据所述关联,拆分所述文档;
所述终端33用于向所述应用平台服务器发送文档,以及,用于接收才分后的文档;
所述数据存储服务器32,用于相关数据的存储。
本申请实施例示出一种文档的结构化生拆分系统,所述系统在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
由以上技术方案可知,本申请实施例公开了一种文档的结构化拆分方法,装置及系统,所述方法在整篇文档中筛选出目标段落,所述目标段落为段落属性符合所述属性规则的段落;将所述目标段落与所述目标段落对应的知识逐一建立关联,此时,目标段落与目标段落对应的知识形成一个知识条目,进而将整篇文档拆分成多个知识条目。搜索系统在搜索有用知识的过程中,应用平台服务器仅需对知识条目进行分析,筛选出有用知识,缩小了搜索系统的搜索范围,进而缩短了搜索的时间,提高了系统带宽、数据库等资源的利用率。
本发明可用于众多通用或专用的计算系统环境或配置中,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。