CN115186053A - 一种搜索ppt,word文档快速引用的实现方法 - Google Patents

一种搜索ppt,word文档快速引用的实现方法 Download PDF

Info

Publication number
CN115186053A
CN115186053A CN202210590661.9A CN202210590661A CN115186053A CN 115186053 A CN115186053 A CN 115186053A CN 202210590661 A CN202210590661 A CN 202210590661A CN 115186053 A CN115186053 A CN 115186053A
Authority
CN
China
Prior art keywords
cluster
chapter
subject
chapters
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210590661.9A
Other languages
English (en)
Inventor
蔡尚猛
寇亚孟
方勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongyi Software Technology Co ltd
Original Assignee
Shanghai Hongyi Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongyi Software Technology Co ltd filed Critical Shanghai Hongyi Software Technology Co ltd
Priority to CN202210590661.9A priority Critical patent/CN115186053A/zh
Publication of CN115186053A publication Critical patent/CN115186053A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种搜索ppt,word文档快速引用的实现方法,包括关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块。对于经过拆解文件后以章节的方式保存到服务器中,快速引用某一章节提供的技术方案,只需要通过全局搜索,点击引用操作就可以将理想的章节内容插入到文档中,节省用户的时间,提高编写文档的效率。

Description

一种搜索ppt,word文档快速引用的实现方法
技术领域
本发明涉及计算机领域,尤其涉及一种搜索ppt,word文档快速引用的实现方法。
背景技术
日常应用中,将ppt每个幻灯片解析成单个幻灯片文档,抽取ppt中的文本内容插入到Elasticsearch数据库中用来提供检索,将word文档按照标题、列表或者换行等规则拆解成小的word文档,同时抽取每个小word文档中的文本插入到Elasticsearch数据库中。开发office、wps等插件获取小文件插入到本地文档中。
已有技术:一般通过人工收集、翻查文档查找需要的内容通过复制粘贴的方式引用。但是人工收集、翻找文档工作量大,大量时间用在翻查文档,而且有时候会出现遗漏情况,对文档的整理造成困扰。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的搜索ppt,word文档快速引用的实现方法。
为达到上述技术方案的效果,本发明的技术方案为:一种搜索ppt,word文档快速引用的实现方法,包括:关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块;
关联布局模块将不同章节的关联分为三种社区关系,三种社区关系包括直引关联、共引关联、共被引关联;社区关系来对文档网络进行划分;直引关联表示两个章节的主题词相同;共引关联表示两个章节有相同的主题词但主题词不完全相同;共被引关联表示两个章节都和第三个章节有相同的主题词,且两个章节没有相同的主题词;
关联布局模块用于对章节进行分类;关联布局模块用章节之间的社区关系为特征对章节进行分类;关联布局模块用聚类算法将章节分成若干个主题簇;聚类算法使用聚合度来衡量社区划分的质量;聚类算法是非监督学习;主题簇是聚类分析结果中不同的类;聚合度是一种衡量聚类算法分类效果的指标,聚合度的计算方法见公式一:
公式一:
Figure BDA0003665013150000021
其中,D是主题簇;j是主题簇的编号;Dj是编号为j的主题簇;P是聚合度,聚合度的取值范围是(0,1),聚合度的取值越大代表聚类算法分类效果越好;P(Dj)是编号为j的主题簇的聚合度;N是章节中词组的个数;i是章节的编号;Nji是编号为j的主题簇中编号为i的章节中词组的个数;n是主题簇中章节的个数;nj是编号为j的主题簇中章节的个数;w是主题簇中的词组;k是词组的编号;m是主题簇中的词组的个数;mj是编号为j的主题簇中的词组的个数;wk是编号为k的词组;p是词组出现的概率;pji是编号为j的主题簇中编号为i的章节中词组出现的概率;pji(wk)是编号为j的主题簇中编号为i的章节中编号为k的词组出现的概率;
时序重组模块用于对主题簇内部的章节进行分组;时序重组模块将主题簇的时间区间按照相等的时间间距划分为若干个时间移动窗口;主题簇的时间区间是由主题簇内部的章节存储时间的最小值和主题簇内部的章节存储时间的最大值所构成的时间范围;存储时间在同一个时间移动窗口内的章节组成子主题簇;平均每个主题簇内的章节数保持在8左右;时间移动窗口的个数的取值是主题簇内部的章节数除以8的商取整数后的结果;相等的时间间距的取值是主题簇的时间区间除以时间移动窗口的个数的商;
语料提取模块用于提取章节信息;语料提取模块提取子簇主题词的处理过程包括步骤P1和步骤P2:
步骤P1:语料提取模块对同一个子主题簇的章节的语料进行词组切分得到切分后的词组;
步骤P2:语料提取模块对切分后的词组进行词频统计,语料提取模块将每个子主题簇中出现次数最多的词组设置为所在子主题簇的子簇主题词;主题词是出现次数较多的词组;子簇主题词是子主题簇中出现次数较多的词组;
语料提取模块提取章节研究问题和研究方法的处理过程包括步骤T1-步骤T5:
步骤T1:语料提取模块将章节中的长句子拆分成短句子;
步骤T2:语料提取模块提取短句子中的语义三要素(S,R,0),其中,S表示主语,R表示关系,0表示对象;
步骤T3:语料提取模块从语义三要素中筛选出目标三要素;目标三要素是包含着研究问题和研究方法的语义三要素;
步骤T4:语料提取模块对目标三要素进行词性还原处理;
步骤T5:语料提取模块对词性还原处理后的词汇进行词频统计,语料提取模块将词频统计结果中研究问题和研究方法词汇里出现次数排在前三的词汇分别定义为章节研究问题和章节研究方法;
语料提取模块为每个主题簇绘制一条水平向右流动的河流,每个主题簇的河流用不同的颜色绘制;河流上绘制有表示时间的等距离垂线,等距离垂线的条数等于河流对应主题簇中子主题簇的个数;等距离垂线上标有时间戳,时间戳从左往右依次增加,时间戳的时间是时间移动窗口的时间的中间值,时间戳在河流的上方;等距离垂线与等距离垂线上标记的时间戳所在的时间窗口对应的子主题簇一一对应,等距离垂线上显示有与等距离垂线对应的子主题簇的主题词,且等距离垂线上显示的主题词在时间戳和河流之间;水平向右流动的河流中的水流宽度是变化的,等距离垂线对应的子主题簇中章节数越多,与等距离垂线相交处的水流越宽;等距离垂线上标有章节节点,章节节点的个数等于等距离垂线对应的子主题簇中的章节数;章节节点与章节一一对应,章节节点旁显示对应章节的关键字;用户将鼠标移动到章节节点上时,章节研究问题和章节研究方法会以弹框的方式展示;
编写导入模块提供文档导入接口和查询接口;用户通过文档导入接口上传文档;用户通过查询接口输入关键字来查询数据库中的章节;用户通过查询接口可以查看语料提取模块绘制的每个主题簇的河流;
文本拆解模块用于将用户上传的文档拆分为若干个章节保存于数据库;文本拆解模块将ppt格式的文档中每个幻灯片解析成单个幻灯片文档,文本拆解模块抽取单个幻灯片文档中的文本内容作为一个章节;文本拆解模块将word格式的文档按照标题、列表和换行的规则拆解成若干个片段文档,文本拆解模块抽取片段文档中的文本内容作为一个章节;
映射构建模块用于搜索与用户输入的关键字相关联的章节;映射构建模块通过计算余弦相似度来衡量用户输入的关键字和子簇主题词之间的相似度;映射构建模块将与用户输入的关键字相似度最高的子主题簇的子簇信息发送给编写导入模块;子簇信息包括子簇主题词、子簇中所有章节的章节id、章节主题词、时间窗口、章节研究问题和章节研究方法;章节id是章节在数据库中的编号,章节id是章节的唯一标志符;
编写导入模块将子簇信息反馈给用户;用户可以通过编写导入模块提供的接口选择若干个章节引用或者舍弃子簇信息不引用;若用户通过点击的方式选择若干个章节引用,编写导入模块则用获取到的被选中的章节的章节id去数据库查询被选中的章节的所有文档信息并将查询到的所有文档信息插入到用户指定的文档位置中。
本发明的有益成果为:本发明提供了一种搜索ppt,word文档快速引用的实现方法,包括关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块。对于经过拆解文件后以章节的方式保存到服务器中,快速引用某一章节提供的技术方案,只需要通过全局搜索,点击引用操作就可以将理想的章节内容插入到文档中,节省用户的时间,提高编写文档的效率。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:本实施例具体介绍了常用的搜索ppt,word文档快速引用的实现方法,如下:
搜索ppt,word文档快速引用的实现方法包括:关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块;
关联布局模块将不同章节的关联分为三种社区关系,三种社区关系包括直引关联、共引关联、共被引关联;社区关系来对文档网络进行划分;直引关联表示两个章节的主题词相同;共引关联表示两个章节有相同的主题词但主题词不完全相同;共被引关联表示两个章节都和第三个章节有相同的主题词,且两个章节没有相同的主题词;
关联布局模块用于对章节进行分类;关联布局模块用章节之间的社区关系为特征对章节进行分类;关联布局模块用聚类算法将章节分成若干个主题簇;聚类算法使用聚合度来衡量社区划分的质量;聚类算法是非监督学习;主题簇是聚类分析结果中不同的类;聚合度是一种衡量聚类算法分类效果的指标,聚合度的计算方法见公式一:
公式一:
Figure BDA0003665013150000051
其中,D是主题簇;j是主题簇的编号;Dj是编号为j的主题簇;P是聚合度,聚合度的取值范围是(0,1),聚合度的取值越大代表聚类算法分类效果越好;P(Dj)是编号为j的主题簇的聚合度;N是章节中词组的个数;i是章节的编号;Nji是编号为j的主题簇中编号为i的章节中词组的个数;n是主题簇中章节的个数;nj是编号为j的主题簇中章节的个数;w是主题簇中的词组;k是词组的编号;m是主题簇中的词组的个数;mj是编号为j的主题簇中的词组的个数;wk是编号为k的词组;p是词组出现的概率;pji是编号为j的主题簇中编号为i的章节中词组出现的概率;pji(wk)是编号为j的主题簇中编号为i的章节中编号为k的词组出现的概率;
时序重组模块用于对主题簇内部的章节进行分组;时序重组模块将主题簇的时间区间按照相等的时间间距划分为若干个时间移动窗口;主题簇的时间区间是由主题簇内部的章节存储时间的最小值和主题簇内部的章节存储时间的最大值所构成的时间范围;存储时间在同一个时间移动窗口内的章节组成子主题簇;平均每个主题簇内的章节数保持在8左右;时间移动窗口的个数的取值是主题簇内部的章节数除以8的商取整数后的结果;相等的时间间距的取值是主题簇的时间区间除以时间移动窗口的个数的商;
语料提取模块用于提取章节信息;语料提取模块提取子簇主题词的处理过程包括步骤P1和步骤P2:
步骤P1:语料提取模块对同一个子主题簇的章节的语料进行词组切分得到切分后的词组;
步骤P2:语料提取模块对切分后的词组进行词频统计,语料提取模块将每个子主题簇中出现次数最多的词组设置为所在子主题簇的子簇主题词;主题词是出现次数较多的词组;子簇主题词是子主题簇中出现次数较多的词组;
语料提取模块提取章节研究问题和研究方法的处理过程包括步骤T1-步骤T5:
步骤T1:语料提取模块将章节中的长句子拆分成短句子;
步骤T2:语料提取模块提取短句子中的语义三要素(S,R,0),其中,S表示主语,R表示关系,0表示对象;
步骤T3:语料提取模块从语义三要素中筛选出目标三要素;目标三要素是包含着研究问题和研究方法的语义三要素;
步骤T4:语料提取模块对目标三要素进行词性还原处理;
步骤T5:语料提取模块对词性还原处理后的词汇进行词频统计,语料提取模块将词频统计结果中研究问题和研究方法词汇里出现次数排在前三的词汇分别定义为章节研究问题和章节研究方法;
语料提取模块为每个主题簇绘制一条水平向右流动的河流,每个主题簇的河流用不同的颜色绘制;河流上绘制有表示时间的等距离垂线,等距离垂线的条数等于河流对应主题簇中子主题簇的个数;等距离垂线上标有时间戳,时间戳从左往右依次增加,时间戳的时间是时间移动窗口的时间的中间值,时间戳在河流的上方;等距离垂线与等距离垂线上标记的时间戳所在的时间窗口对应的子主题簇一一对应,等距离垂线上显示有与等距离垂线对应的子主题簇的主题词,且等距离垂线上显示的主题词在时间戳和河流之间;水平向右流动的河流中的水流宽度是变化的,等距离垂线对应的子主题簇中章节数越多,与等距离垂线相交处的水流越宽;等距离垂线上标有章节节点,章节节点的个数等于等距离垂线对应的子主题簇中的章节数;章节节点与章节一一对应,章节节点旁显示对应章节的关键字;用户将鼠标移动到章节节点上时,章节研究问题和章节研究方法会以弹框的方式展示;
编写导入模块提供文档导入接口和查询接口;用户通过文档导入接口上传文档;用户通过查询接口输入关键字来查询数据库中的章节;用户通过查询接口可以查看语料提取模块绘制的每个主题簇的河流;
文本拆解模块用于将用户上传的文档拆分为若干个章节保存于数据库;文本拆解模块将ppt格式的文档中每个幻灯片解析成单个幻灯片文档,文本拆解模块抽取单个幻灯片文档中的文本内容作为一个章节;文本拆解模块将word格式的文档按照标题、列表和换行的规则拆解成若干个片段文档,文本拆解模块抽取片段文档中的文本内容作为一个章节;
映射构建模块用于搜索与用户输入的关键字相关联的章节;映射构建模块通过计算余弦相似度来衡量用户输入的关键字和子簇主题词之间的相似度;映射构建模块将与用户输入的关键字相似度最高的子主题簇的子簇信息发送给编写导入模块;子簇信息包括子簇主题词、子簇中所有章节的章节id、章节主题词、时间窗口、章节研究问题和章节研究方法;章节id是章节在数据库中的编号,章节id是章节的唯一标志符;
编写导入模块将子簇信息反馈给用户;用户可以通过编写导入模块提供的接口选择若干个章节引用或者舍弃子簇信息不引用;若用户通过点击的方式选择若干个章节引用,编写导入模块则用获取到的被选中的章节的章节id去数据库查询被选中的章节的所有文档信息并将查询到的所有文档信息插入到用户指定的文档位置中。
本发明的有益成果为:本发明提供了一种搜索ppt,word文档快速引用的实现方法,包括关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块。对于经过拆解文件后以章节的方式保存到服务器中,快速引用某一章节提供的技术方案,只需要通过全局搜索,点击引用操作就可以将理想的章节内容插入到文档中,节省用户的时间,提高编写文档的效率。
以上所述仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

Claims (1)

1.一种搜索ppt,word文档快速引用的实现方法,其特征在于,包括:关联布局模块、时序重组模块、语料提取模块、文本拆解模块、编写导入模块、映射构建模块;
所述关联布局模块将不同章节的关联分为三种社区关系,所述三种社区关系包括直引关联、共引关联、共被引关联;所述社区关系来对文档网络进行划分;所述直引关联表示两个章节的主题词相同;所述共引关联表示两个章节有相同的主题词但主题词不完全相同;所述共被引关联表示两个章节都和第三个章节有相同的主题词,且所述两个章节没有相同的主题词;
所述关联布局模块用于对所述章节进行分类;所述关联布局模块用章节之间的社区关系为特征对所述章节进行分类;所述关联布局模块用聚类算法将所述章节分成若干个主题簇;所述聚类算法使用聚合度来衡量社区划分的质量;所述聚类算法是非监督学习;所述主题簇是聚类分析结果中不同的类;所述聚合度是一种衡量聚类算法分类效果的指标,所述聚合度的计算方法见公式一:
公式一:
Figure FDA0003665013140000011
其中,D是所述主题簇;j是主题簇的编号;Dj是编号为j的主题簇;P是所述聚合度,所述聚合度的取值范围是(0,1),所述聚合度的取值越大代表所述聚类算法分类效果越好;P(Dj)是编号为j的主题簇的聚合度;N是章节中词组的个数;i是章节的编号;Nji是编号为j的主题簇中编号为i的章节中词组的个数;n是主题簇中章节的个数;nj是编号为j的主题簇中章节的个数;w是主题簇中的词组;k是词组的编号;m是主题簇中的词组的个数;mj是编号为j的主题簇中的词组的个数;wk是编号为k的词组;p是词组出现的概率;pji是编号为j的主题簇中编号为i的章节中词组出现的概率;pji(wk)是编号为j的主题簇中编号为i的章节中编号为k的词组出现的概率;
所述时序重组模块用于对所述主题簇内部的章节进行分组;所述时序重组模块将所述主题簇的时间区间按照相等的时间间距划分为若干个时间移动窗口;所述主题簇的时间区间是由所述主题簇内部的章节存储时间的最小值和所述主题簇内部的章节存储时间的最大值所构成的时间范围;存储时间在同一个时间移动窗口内的章节组成子主题簇;平均每个所述主题簇内的章节数保持在8左右;所述时间移动窗口的个数的取值是所述主题簇内部的章节数除以8的商取整数后的结果;所述相等的时间间距的取值是所述主题簇的时间区间除以所述时间移动窗口的个数的商;
所述语料提取模块用于提取章节信息;所述语料提取模块提取子簇主题词的处理过程包括步骤P1和步骤P2:
步骤P1:所述语料提取模块对同一个子主题簇的章节的语料进行词组切分得到切分后的词组;
步骤P2:所述语料提取模块对所述切分后的词组进行词频统计,所述语料提取模块将每个子主题簇中出现次数最多的词组设置为所在子主题簇的子簇主题词;所述主题词是出现次数较多的词组;所述子簇主题词是子主题簇中出现次数较多的词组;
所述语料提取模块提取章节研究问题和研究方法的处理过程包括步骤T1-步骤T5:
步骤T1:所述语料提取模块将章节中的长句子拆分成短句子;
步骤T2:所述语料提取模块提取所述短句子中的语义三要素(S,R,0),其中,S表示主语,R表示关系,0表示对象;
步骤T3:所述语料提取模块从所述语义三要素中筛选出目标三要素;所述目标三要素是包含着研究问题和研究方法的语义三要素;
步骤T4:所述语料提取模块对所述目标三要素进行词性还原处理;
步骤T5:所述语料提取模块对词性还原处理后的词汇进行词频统计,所述语料提取模块将词频统计结果中研究问题和研究方法词汇里出现次数排在前三的词汇分别定义为章节研究问题和章节研究方法;
所述语料提取模块为每个主题簇绘制一条水平向右流动的河流,每个主题簇的河流用不同的颜色绘制;所述河流上绘制有表示时间的等距离垂线,所述等距离垂线的条数等于所述河流对应主题簇中子主题簇的个数;所述等距离垂线上标有时间戳,所述时间戳从左往右依次增加,所述时间戳的时间是所述时间移动窗口的时间的中间值,所述时间戳在河流的上方;所述等距离垂线与所述等距离垂线上标记的时间戳所在的时间窗口对应的子主题簇一一对应,所述等距离垂线上显示有与所述等距离垂线对应的子主题簇的主题词,且所述等距离垂线上显示的主题词在所述时间戳和河流之间;所述水平向右流动的河流中的水流宽度是变化的,所述等距离垂线对应的子主题簇中章节数越多,与所述等距离垂线相交处的水流越宽;所述等距离垂线上标有章节节点,所述章节节点的个数等于所述等距离垂线对应的子主题簇中的章节数;所述章节节点与章节一一对应,章节节点旁显示对应章节的关键字;用户将鼠标移动到所述章节节点上时,所述章节研究问题和章节研究方法会以弹框的方式展示;
所述编写导入模块提供文档导入接口和查询接口;用户通过所述文档导入接口上传文档;用户通过所述查询接口输入关键字来查询数据库中的章节;用户通过所述查询接口可以查看所述语料提取模块绘制的每个主题簇的河流;
所述文本拆解模块用于将用户上传的文档拆分为若干个章节保存于数据库;所述文本拆解模块将ppt格式的文档中每个幻灯片解析成单个幻灯片文档,所述文本拆解模块抽取所述单个幻灯片文档中的文本内容作为一个章节;所述文本拆解模块将word格式的文档按照标题、列表和换行的规则拆解成若干个片段文档,所述文本拆解模块抽取所述片段文档中的文本内容作为一个章节;
所述映射构建模块用于搜索与用户输入的关键字相关联的章节;所述映射构建模块通过计算余弦相似度来衡量所述用户输入的关键字和所述子簇主题词之间的相似度;所述映射构建模块将与所述用户输入的关键字相似度最高的子主题簇的子簇信息发送给所述编写导入模块;所述子簇信息包括子簇主题词、子簇中所有章节的章节id、章节主题词、时间窗口、章节研究问题和章节研究方法;所述章节id是章节在所述数据库中的编号,所述章节id是章节的唯一标志符;
所述编写导入模块将所述子簇信息反馈给用户;用户可以通过所述编写导入模块提供的接口选择若干个章节引用或者舍弃所述子簇信息不引用;若用户通过点击的方式选择若干个章节引用,所述编写导入模块则用获取到的被选中的章节的章节id去所述数据库查询被选中的章节的所有文档信息并将查询到的所有文档信息插入到用户指定的文档位置中。
CN202210590661.9A 2022-05-27 2022-05-27 一种搜索ppt,word文档快速引用的实现方法 Pending CN115186053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210590661.9A CN115186053A (zh) 2022-05-27 2022-05-27 一种搜索ppt,word文档快速引用的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210590661.9A CN115186053A (zh) 2022-05-27 2022-05-27 一种搜索ppt,word文档快速引用的实现方法

Publications (1)

Publication Number Publication Date
CN115186053A true CN115186053A (zh) 2022-10-14

Family

ID=83512737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210590661.9A Pending CN115186053A (zh) 2022-05-27 2022-05-27 一种搜索ppt,word文档快速引用的实现方法

Country Status (1)

Country Link
CN (1) CN115186053A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617957A (zh) * 2022-12-19 2023-01-17 铭台(北京)科技有限公司 基于大数据的文档智能检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617957A (zh) * 2022-12-19 2023-01-17 铭台(北京)科技有限公司 基于大数据的文档智能检索方法

Similar Documents

Publication Publication Date Title
Yao et al. Research on news keyword extraction technology based on TF-IDF and TextRank
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN108509490B (zh) 一种网络热点话题发现方法及系统
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
Kozlowski et al. Clustering of semantically enriched short texts
Ashna et al. Lexicon based sentiment analysis system for malayalam language
Ao et al. News keywords extraction algorithm based on TextRank and classified TF-IDF
Barla et al. From ambiguous words to key-concept extraction
CN111259156A (zh) 一种面向时间序列的热点聚类方法
CN115186053A (zh) 一种搜索ppt,word文档快速引用的实现方法
Al-Radaideh Applications of mining arabic text: A review
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
Nasim et al. Evaluation of clustering techniques on Urdu News head-lines: A case of short length text
Billal et al. Semi-supervised learning and social media text analysis towards multi-labeling categorization
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
Das et al. Opinion summarization in Bengali: a theme network model
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Konkaew et al. Automatic tag recommendation approach with keyphrase extraction and word embedding techniques
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
NASSR et al. Generate a list of stop words in Moroccan dialect from social network data using word embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination