CN115186053A

CN115186053A - 一种搜索ppt,word文档快速引用的实现方法

Info

Publication number: CN115186053A
Application number: CN202210590661.9A
Authority: CN
Inventors: 蔡尚猛; 寇亚孟; 方勇
Original assignee: Shanghai Hongyi Software Technology Co ltd
Current assignee: Shanghai Hongyi Software Technology Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-10-14

Abstract

本发明涉及一种搜索ppt,word文档快速引用的实现方法，包括关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块。对于经过拆解文件后以章节的方式保存到服务器中，快速引用某一章节提供的技术方案，只需要通过全局搜索，点击引用操作就可以将理想的章节内容插入到文档中，节省用户的时间，提高编写文档的效率。

Description

一种搜索ppt,word文档快速引用的实现方法

技术领域

本发明涉及计算机领域，尤其涉及一种搜索ppt,word文档快速引用的实现方法。

背景技术

日常应用中，将ppt每个幻灯片解析成单个幻灯片文档，抽取ppt中的文本内容插入到Elasticsearch数据库中用来提供检索，将word文档按照标题、列表或者换行等规则拆解成小的word文档,同时抽取每个小word文档中的文本插入到Elasticsearch数据库中。开发office、wps等插件获取小文件插入到本地文档中。

已有技术：一般通过人工收集、翻查文档查找需要的内容通过复制粘贴的方式引用。但是人工收集、翻找文档工作量大，大量时间用在翻查文档，而且有时候会出现遗漏情况，对文档的整理造成困扰。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的搜索ppt,word文档快速引用的实现方法。

为达到上述技术方案的效果，本发明的技术方案为：一种搜索ppt,word文档快速引用的实现方法，包括：关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块；

关联布局模块将不同章节的关联分为三种社区关系，三种社区关系包括直引关联、共引关联、共被引关联；社区关系来对文档网络进行划分；直引关联表示两个章节的主题词相同；共引关联表示两个章节有相同的主题词但主题词不完全相同；共被引关联表示两个章节都和第三个章节有相同的主题词，且两个章节没有相同的主题词；

关联布局模块用于对章节进行分类；关联布局模块用章节之间的社区关系为特征对章节进行分类；关联布局模块用聚类算法将章节分成若干个主题簇；聚类算法使用聚合度来衡量社区划分的质量；聚类算法是非监督学习；主题簇是聚类分析结果中不同的类；聚合度是一种衡量聚类算法分类效果的指标，聚合度的计算方法见公式一：

公式一：

其中，D是主题簇；j是主题簇的编号；D_j是编号为j的主题簇；P是聚合度，聚合度的取值范围是(0,1)，聚合度的取值越大代表聚类算法分类效果越好；P(D_j)是编号为j的主题簇的聚合度；N是章节中词组的个数；i是章节的编号；N_ji是编号为j的主题簇中编号为i的章节中词组的个数；n是主题簇中章节的个数；n_j是编号为j的主题簇中章节的个数；w是主题簇中的词组；k是词组的编号；m是主题簇中的词组的个数；m_j是编号为j的主题簇中的词组的个数；w_k是编号为k的词组；p是词组出现的概率；p_ji是编号为j的主题簇中编号为i的章节中词组出现的概率；p_ji(w_k)是编号为j的主题簇中编号为i的章节中编号为k的词组出现的概率；

时序重组模块用于对主题簇内部的章节进行分组；时序重组模块将主题簇的时间区间按照相等的时间间距划分为若干个时间移动窗口；主题簇的时间区间是由主题簇内部的章节存储时间的最小值和主题簇内部的章节存储时间的最大值所构成的时间范围；存储时间在同一个时间移动窗口内的章节组成子主题簇；平均每个主题簇内的章节数保持在8左右；时间移动窗口的个数的取值是主题簇内部的章节数除以8的商取整数后的结果；相等的时间间距的取值是主题簇的时间区间除以时间移动窗口的个数的商；

语料提取模块用于提取章节信息；语料提取模块提取子簇主题词的处理过程包括步骤P1和步骤P2:

步骤P1:语料提取模块对同一个子主题簇的章节的语料进行词组切分得到切分后的词组；

步骤P2:语料提取模块对切分后的词组进行词频统计，语料提取模块将每个子主题簇中出现次数最多的词组设置为所在子主题簇的子簇主题词；主题词是出现次数较多的词组；子簇主题词是子主题簇中出现次数较多的词组；

语料提取模块提取章节研究问题和研究方法的处理过程包括步骤T1-步骤T5：

步骤T1：语料提取模块将章节中的长句子拆分成短句子；

步骤T2：语料提取模块提取短句子中的语义三要素(S，R，0)，其中，S表示主语,R表示关系，0表示对象；

步骤T3：语料提取模块从语义三要素中筛选出目标三要素；目标三要素是包含着研究问题和研究方法的语义三要素；

步骤T4：语料提取模块对目标三要素进行词性还原处理；

步骤T5：语料提取模块对词性还原处理后的词汇进行词频统计，语料提取模块将词频统计结果中研究问题和研究方法词汇里出现次数排在前三的词汇分别定义为章节研究问题和章节研究方法；

语料提取模块为每个主题簇绘制一条水平向右流动的河流，每个主题簇的河流用不同的颜色绘制；河流上绘制有表示时间的等距离垂线，等距离垂线的条数等于河流对应主题簇中子主题簇的个数；等距离垂线上标有时间戳，时间戳从左往右依次增加，时间戳的时间是时间移动窗口的时间的中间值，时间戳在河流的上方；等距离垂线与等距离垂线上标记的时间戳所在的时间窗口对应的子主题簇一一对应，等距离垂线上显示有与等距离垂线对应的子主题簇的主题词，且等距离垂线上显示的主题词在时间戳和河流之间；水平向右流动的河流中的水流宽度是变化的，等距离垂线对应的子主题簇中章节数越多，与等距离垂线相交处的水流越宽；等距离垂线上标有章节节点，章节节点的个数等于等距离垂线对应的子主题簇中的章节数；章节节点与章节一一对应，章节节点旁显示对应章节的关键字；用户将鼠标移动到章节节点上时，章节研究问题和章节研究方法会以弹框的方式展示；

编写导入模块提供文档导入接口和查询接口；用户通过文档导入接口上传文档；用户通过查询接口输入关键字来查询数据库中的章节；用户通过查询接口可以查看语料提取模块绘制的每个主题簇的河流；

文本拆解模块用于将用户上传的文档拆分为若干个章节保存于数据库；文本拆解模块将ppt格式的文档中每个幻灯片解析成单个幻灯片文档，文本拆解模块抽取单个幻灯片文档中的文本内容作为一个章节；文本拆解模块将word格式的文档按照标题、列表和换行的规则拆解成若干个片段文档,文本拆解模块抽取片段文档中的文本内容作为一个章节；

映射构建模块用于搜索与用户输入的关键字相关联的章节；映射构建模块通过计算余弦相似度来衡量用户输入的关键字和子簇主题词之间的相似度；映射构建模块将与用户输入的关键字相似度最高的子主题簇的子簇信息发送给编写导入模块；子簇信息包括子簇主题词、子簇中所有章节的章节id、章节主题词、时间窗口、章节研究问题和章节研究方法；章节id是章节在数据库中的编号，章节id是章节的唯一标志符；

编写导入模块将子簇信息反馈给用户；用户可以通过编写导入模块提供的接口选择若干个章节引用或者舍弃子簇信息不引用；若用户通过点击的方式选择若干个章节引用，编写导入模块则用获取到的被选中的章节的章节id去数据库查询被选中的章节的所有文档信息并将查询到的所有文档信息插入到用户指定的文档位置中。

本发明的有益成果为：本发明提供了一种搜索ppt,word文档快速引用的实现方法，包括关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块。对于经过拆解文件后以章节的方式保存到服务器中，快速引用某一章节提供的技术方案，只需要通过全局搜索，点击引用操作就可以将理想的章节内容插入到文档中，节省用户的时间，提高编写文档的效率。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例1：本实施例具体介绍了常用的搜索ppt,word文档快速引用的实现方法，如下：

搜索ppt,word文档快速引用的实现方法包括：关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块；

公式一：

步骤T1：语料提取模块将章节中的长句子拆分成短句子；

步骤T4：语料提取模块对目标三要素进行词性还原处理；

以上所述仅为本发明之较佳实施例，并非用以限定本发明的权利要求保护范围。同时以上说明，对于相关技术领域的技术人员应可以理解及实施，因此其他基于本发明所揭示内容所完成的等同改变，均应包含在本权利要求书的涵盖范围内。

Claims

1.一种搜索ppt,word文档快速引用的实现方法，其特征在于，包括：关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块；

所述关联布局模块将不同章节的关联分为三种社区关系，所述三种社区关系包括直引关联、共引关联、共被引关联；所述社区关系来对文档网络进行划分；所述直引关联表示两个章节的主题词相同；所述共引关联表示两个章节有相同的主题词但主题词不完全相同；所述共被引关联表示两个章节都和第三个章节有相同的主题词，且所述两个章节没有相同的主题词；

所述关联布局模块用于对所述章节进行分类；所述关联布局模块用章节之间的社区关系为特征对所述章节进行分类；所述关联布局模块用聚类算法将所述章节分成若干个主题簇；所述聚类算法使用聚合度来衡量社区划分的质量；所述聚类算法是非监督学习；所述主题簇是聚类分析结果中不同的类；所述聚合度是一种衡量聚类算法分类效果的指标，所述聚合度的计算方法见公式一：

公式一：

其中，D是所述主题簇；j是主题簇的编号；D_j是编号为j的主题簇；P是所述聚合度，所述聚合度的取值范围是(0,1)，所述聚合度的取值越大代表所述聚类算法分类效果越好；P(D_j)是编号为j的主题簇的聚合度；N是章节中词组的个数；i是章节的编号；N_ji是编号为j的主题簇中编号为i的章节中词组的个数；n是主题簇中章节的个数；n_j是编号为j的主题簇中章节的个数；w是主题簇中的词组；k是词组的编号；m是主题簇中的词组的个数；m_j是编号为j的主题簇中的词组的个数；w_k是编号为k的词组；p是词组出现的概率；p_ji是编号为j的主题簇中编号为i的章节中词组出现的概率；p_ji(w_k)是编号为j的主题簇中编号为i的章节中编号为k的词组出现的概率；

所述时序重组模块用于对所述主题簇内部的章节进行分组；所述时序重组模块将所述主题簇的时间区间按照相等的时间间距划分为若干个时间移动窗口；所述主题簇的时间区间是由所述主题簇内部的章节存储时间的最小值和所述主题簇内部的章节存储时间的最大值所构成的时间范围；存储时间在同一个时间移动窗口内的章节组成子主题簇；平均每个所述主题簇内的章节数保持在8左右；所述时间移动窗口的个数的取值是所述主题簇内部的章节数除以8的商取整数后的结果；所述相等的时间间距的取值是所述主题簇的时间区间除以所述时间移动窗口的个数的商；

所述语料提取模块用于提取章节信息；所述语料提取模块提取子簇主题词的处理过程包括步骤P1和步骤P2:

步骤P1:所述语料提取模块对同一个子主题簇的章节的语料进行词组切分得到切分后的词组；

步骤P2:所述语料提取模块对所述切分后的词组进行词频统计，所述语料提取模块将每个子主题簇中出现次数最多的词组设置为所在子主题簇的子簇主题词；所述主题词是出现次数较多的词组；所述子簇主题词是子主题簇中出现次数较多的词组；

所述语料提取模块提取章节研究问题和研究方法的处理过程包括步骤T1-步骤T5：

步骤T1：所述语料提取模块将章节中的长句子拆分成短句子；

步骤T2：所述语料提取模块提取所述短句子中的语义三要素(S，R，0)，其中，S表示主语,R表示关系，0表示对象；

步骤T3：所述语料提取模块从所述语义三要素中筛选出目标三要素；所述目标三要素是包含着研究问题和研究方法的语义三要素；

步骤T4：所述语料提取模块对所述目标三要素进行词性还原处理；

步骤T5：所述语料提取模块对词性还原处理后的词汇进行词频统计，所述语料提取模块将词频统计结果中研究问题和研究方法词汇里出现次数排在前三的词汇分别定义为章节研究问题和章节研究方法；

所述语料提取模块为每个主题簇绘制一条水平向右流动的河流，每个主题簇的河流用不同的颜色绘制；所述河流上绘制有表示时间的等距离垂线，所述等距离垂线的条数等于所述河流对应主题簇中子主题簇的个数；所述等距离垂线上标有时间戳，所述时间戳从左往右依次增加，所述时间戳的时间是所述时间移动窗口的时间的中间值，所述时间戳在河流的上方；所述等距离垂线与所述等距离垂线上标记的时间戳所在的时间窗口对应的子主题簇一一对应，所述等距离垂线上显示有与所述等距离垂线对应的子主题簇的主题词，且所述等距离垂线上显示的主题词在所述时间戳和河流之间；所述水平向右流动的河流中的水流宽度是变化的，所述等距离垂线对应的子主题簇中章节数越多，与所述等距离垂线相交处的水流越宽；所述等距离垂线上标有章节节点，所述章节节点的个数等于所述等距离垂线对应的子主题簇中的章节数；所述章节节点与章节一一对应，章节节点旁显示对应章节的关键字；用户将鼠标移动到所述章节节点上时，所述章节研究问题和章节研究方法会以弹框的方式展示；

所述编写导入模块提供文档导入接口和查询接口；用户通过所述文档导入接口上传文档；用户通过所述查询接口输入关键字来查询数据库中的章节；用户通过所述查询接口可以查看所述语料提取模块绘制的每个主题簇的河流；

所述文本拆解模块用于将用户上传的文档拆分为若干个章节保存于数据库；所述文本拆解模块将ppt格式的文档中每个幻灯片解析成单个幻灯片文档，所述文本拆解模块抽取所述单个幻灯片文档中的文本内容作为一个章节；所述文本拆解模块将word格式的文档按照标题、列表和换行的规则拆解成若干个片段文档,所述文本拆解模块抽取所述片段文档中的文本内容作为一个章节；

所述映射构建模块用于搜索与用户输入的关键字相关联的章节；所述映射构建模块通过计算余弦相似度来衡量所述用户输入的关键字和所述子簇主题词之间的相似度；所述映射构建模块将与所述用户输入的关键字相似度最高的子主题簇的子簇信息发送给所述编写导入模块；所述子簇信息包括子簇主题词、子簇中所有章节的章节id、章节主题词、时间窗口、章节研究问题和章节研究方法；所述章节id是章节在所述数据库中的编号，所述章节id是章节的唯一标志符；

所述编写导入模块将所述子簇信息反馈给用户；用户可以通过所述编写导入模块提供的接口选择若干个章节引用或者舍弃所述子簇信息不引用；若用户通过点击的方式选择若干个章节引用，所述编写导入模块则用获取到的被选中的章节的章节id去所述数据库查询被选中的章节的所有文档信息并将查询到的所有文档信息插入到用户指定的文档位置中。