CN115129817A - 一种Word文档大纲抽取的方法 - Google Patents
一种Word文档大纲抽取的方法 Download PDFInfo
- Publication number
- CN115129817A CN115129817A CN202210794259.2A CN202210794259A CN115129817A CN 115129817 A CN115129817 A CN 115129817A CN 202210794259 A CN202210794259 A CN 202210794259A CN 115129817 A CN115129817 A CN 115129817A
- Authority
- CN
- China
- Prior art keywords
- outline
- unit
- word document
- extracting
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种Word文档大纲抽取的方法,包括以下步骤:步骤一:Word文档导入系统;将用来作为参考资料的Word文档通过系统终端导入系统;步骤二:读取Word文档格式信息;通过解析模块接收导入系统的Word文档,然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取,生成的以段落为单元的结构化数据,与Word文档一起传输给文档预处理模块进行处理。本发明采用了知识图谱、NLP等技术。本发明可以对Word文档的大纲进行识别与提取,提取出的大纲可以供用户在确立文章大纲时参考借鉴,为撰写者节约撰写应用文所需要的时间,提高业务处理效率。
Description
技术领域
本发明涉及文档抽取技术领域,具体是一种Word文档大纲抽取的方法。
背景技术
应用文是现代企业处理日常业务常用的实用性文体,随着信息技术的推广普及,企事业单位所面对的业务量与日俱增。为了提高处理日常业务工作的质量与效率,就需要员工能撰写更多更好的应用文。
由于应用文本身的特点,撰写者想要撰写高质量的应用文,需要在参考大量高相关度的资料后,搭建出层级清晰、逻辑严密的文章大纲。
然而在实际写作中,不少人不会写大纲,或者不习惯于写大纲,即便愿意写大纲的,也会因为收集资料,反复修改大纲等动作消耗大量时间。
因此,本发明提供了一种Word文档大纲抽取的方法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种Word文档大纲抽取的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种Word文档大纲抽取的方法,包括以下步骤:
步骤一:Word文档导入系统;
将用来作为参考资料的Word文档通过系统终端导入系统;
步骤二:读取Word文档格式信息;
通过解析模块接收导入系统的Word文档,然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取,生成的以段落为单元的结构化数据,与Word文档一起传输给文档预处理模块进行处理;
步骤三:对Word文档进行预处理;
通过预处理模块,接收解析模块发送的Word文档与结构化数据。由合并单元,合并每个段落的字体、字号及其格式属性,使文本格式一致;再交由列表单元,根据合并后的段落,以标点符号为标准进行划分,生成段落第一句与剩余文本;
并根据生成的段落第一句与剩余文本,更新单元结构化数据后,将单元结构数据添加至列表,最后将按照段落划分的全文传输给大纲提取模块;
预处理模块中的统计单元则读取结构化数据中的字体字号目录属性,并对其分别进行统计,并把字体字号的组合以段落为单元分组并统计其中每个组合的数量,同时统计段落具有的目录格式属性值。将统计出的结果分别传输给大纲验证模块与大纲提取模块;
步骤四:提取Word文档的大纲;
大纲提取模块,接收预处理模块传输的按照段落划分的全文和统计结果。标题标记单元先读取全文第一个段落的字体和字号,再查看统计结果中相同字体字号组合统计值是否唯一,如果唯一则标记为标题;
层级规则匹配单元,依据文档的编号库,将范围内段落匹配到的符合规则的第一个段落或段落的第一句,设置为当前层级规则样本并传输给大纲标记单元;
并且大纲标记单元接收层级规则匹配单元发送的层级规则样本,依据样本规则提取范围内相同规则的段落标记为当前层级大纲,最后将标记完成的大纲发送给大纲验证模块;
存在层级错误问题时:
则传输给层级错误修正单元进行修正,层级错误修正单元,读取大纲,划分可能的上层级大纲区域,将区域内段落依据字体,字号及格式属性计算分值,标记得分最高段落为大纲,如果标记成功则将新生成的大纲提交至大纲生成单元;
存在大纲缺失问题时:
则传输给大纲缺失修正单元进行修正,大纲缺失修正单元,提取当前层级大纲的字体,字号及格式属性,在缺失范围内匹配完全一致段落,标记为缺失的大纲,再次对大纲序号验证,若非连续递增则提交新生成的大纲至大纲生成单元;
存在大纲重复问题时:
则传输给大纲重复修正单元进行修正。大纲重复修正单元,取消重复大纲标记,提取剩余大纲字体,字号及格式属性,对取消的大纲进行验证,完全一致则提交新大纲至大纲生成单元;
大纲生成单元:
用于接受判断单元或其它单元传输的大纲并予以生成,大纲生成单元,接收其它单元传输的大纲后,将紧跟在大纲后的正文标记为归属于该大纲的文本内容,并将生成的内容予以保存,供撰写者确立大纲时进行参考。
步骤五:验证提取的大纲是否完善;
大纲验证模块接收大纲提取模块提取出的大纲,并由判断单元根据编号库中的大纲序号,判断提取出的大纲存在什么问题,按照存在的问题类型交由对应的单元进行处理;
存在层级错误问题时:
则传输给层级错误修正单元进行修正,层级错误修正单元,读取大纲,划分可能的上层级大纲区域,将区域内段落依据字体,字号及格式属性计算分值,标记得分最高段落为大纲,如果标记成功则将新生成的大纲提交至大纲生成单元;
存在大纲缺失问题时:
则传输给大纲缺失修正单元进行修正,大纲缺失修正单元,提取当前层级大纲的字体,字号及格式属性,在缺失范围内匹配完全一致段落,标记为缺失的大纲,再次对大纲序号验证,若非连续递增则提交新生成的大纲至大纲生成单元;
存在大纲重复问题时:
则传输给大纲重复修正单元进行修正。大纲重复修正单元,取消重复大纲标记,提取剩余大纲字体,字号及格式属性,对取消的大纲进行验证,完全一致则提交新大纲至大纲生成单元;
大纲生成单元:
用于接受判断单元或其它单元传输的大纲并予以生成,大纲生成单元,接收其它单元传输的大纲后,将紧跟在大纲后的正文标记为归属于该大纲的文本内容,并将生成的内容予以保存,供撰写者确立大纲时进行参考。
一种Word文档大纲抽取的方法,所述大纲提取模块,包含标题标记单元、大纲标记单元和层级规则匹配单元,用于提取大纲;
标题标记单元,读取文档的第一个段落的字体和字号,将符合标准的标记为标题;
层级规则匹配单元,依据文档的编号库,将符合规则的段落或第一句话,设置为规则样本并传输给大纲标记单元;
大纲标记单元接收层级规则样本后,按照规则标记层级大纲,并将生成的大纲发送给大纲验证模块。
优选的:大纲验证模块,包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元,用于生成大纲和标记文本内容并加以保存。
优选的:大纲验证模块,包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元,用于生成大纲和标记文本内容并加以保存。
优选的:层级错误修正单元对存在层级错误问题的大纲,通过重新标记大纲进行层级修复,大纲缺失修正单元对存在缺失问题的大纲,通过重新提取缺失大纲补全缺失的大纲。
优选的:大纲重复修正单元对存在重复问题的大纲,通过取消重复的大纲标记删除重复的大纲。
优选的:大纲生成单元,接收其它单元最终传输的大纲,并将大纲后的正文标记为该大纲的文本内容,并对生成的结果予以保存。
与现有技术相比,本发明的有益效果是:
本发明采用了知识图谱、NLP等技术。本发明可以对Word文档的大纲进行识别与提取,提取出的大纲可以供用户在确立文章大纲时参考借鉴,为撰写者节约撰写应用文所需要的时间,提高业务处理效率。
附图说明
图1是本申请实施例1提供的一种Word文档大纲抽取的方法的立体结构示意图。
图2是本申请实施例1提供的一种Word文档大纲抽取的方法中系统的结构示意图。
图中:
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
请参阅图1~2,本发明实施例中,一种Word文档大纲抽取的方法,
一种Word文档大纲抽取的方法,包括以下步骤:
步骤一:Word文档导入系统;
将用来作为参考资料的Word文档通过系统终端导入系统;
步骤二:读取Word文档格式信息;
通过解析模块接收导入系统的Word文档,然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取,生成的以段落为单元的结构化数据,与Word文档一起传输给文档预处理模块进行处理;
步骤三:对Word文档进行预处理;
通过预处理模块,接收解析模块发送的Word文档与结构化数据。由合并单元,合并每个段落的字体、字号及其格式属性,使文本格式一致;再交由列表单元,根据合并后的段落,以标点符号为标准进行划分,生成段落第一句与剩余文本;
并根据生成的段落第一句与剩余文本,更新单元结构化数据后,将单元结构数据添加至列表,最后将按照段落划分的全文传输给大纲提取模块;
预处理模块中的统计单元则读取结构化数据中的字体字号目录属性,并对其分别进行统计,并把字体字号的组合以段落为单元分组并统计其中每个组合的数量,同时统计段落具有的目录格式属性值。将统计出的结果分别传输给大纲验证模块与大纲提取模块;
步骤四:提取Word文档的大纲;
大纲提取模块,接收预处理模块传输的按照段落划分的全文和统计结果。标题标记单元先读取全文第一个段落的字体和字号,再查看统计结果中相同字体字号组合统计值是否唯一,如果唯一则标记为标题;
层级规则匹配单元,依据文档的编号库,将范围内段落匹配到的符合规则的第一个段落或段落的第一句,设置为当前层级规则样本并传输给大纲标记单元;
并且大纲标记单元接收层级规则匹配单元发送的层级规则样本,依据样本规则提取范围内相同规则的段落标记为当前层级大纲,最后将标记完成的大纲发送给大纲验证模块;
存在层级错误问题时:
则传输给层级错误修正单元进行修正,层级错误修正单元,读取大纲,划分可能的上层级大纲区域,将区域内段落依据字体,字号及格式属性计算分值,标记得分最高段落为大纲,如果标记成功则将新生成的大纲提交至大纲生成单元;
存在大纲缺失问题时:
则传输给大纲缺失修正单元进行修正,大纲缺失修正单元,提取当前层级大纲的字体,字号及格式属性,在缺失范围内匹配完全一致段落,标记为缺失的大纲,再次对大纲序号验证,若非连续递增则提交新生成的大纲至大纲生成单元;
存在大纲重复问题时:
则传输给大纲重复修正单元进行修正。大纲重复修正单元,取消重复大纲标记,提取剩余大纲字体,字号及格式属性,对取消的大纲进行验证,完全一致则提交新大纲至大纲生成单元;
大纲生成单元:
用于接受判断单元或其它单元传输的大纲并予以生成,大纲生成单元,接收其它单元传输的大纲后,将紧跟在大纲后的正文标记为归属于该大纲的文本内容,并将生成的内容予以保存,供撰写者确立大纲时进行参考。
步骤五:验证提取的大纲是否完善;
大纲验证模块接收大纲提取模块提取出的大纲,并由判断单元根据编号库中的大纲序号,判断提取出的大纲存在什么问题,按照存在的问题类型交由对应的单元进行处理;
存在层级错误问题时:
则传输给层级错误修正单元进行修正,层级错误修正单元,读取大纲,划分可能的上层级大纲区域,将区域内段落依据字体,字号及格式属性计算分值,标记得分最高段落为大纲,如果标记成功则将新生成的大纲提交至大纲生成单元;
存在大纲缺失问题时:
则传输给大纲缺失修正单元进行修正,大纲缺失修正单元,提取当前层级大纲的字体,字号及格式属性,在缺失范围内匹配完全一致段落,标记为缺失的大纲,再次对大纲序号验证,若非连续递增则提交新生成的大纲至大纲生成单元;
存在大纲重复问题时:
则传输给大纲重复修正单元进行修正。大纲重复修正单元,取消重复大纲标记,提取剩余大纲字体,字号及格式属性,对取消的大纲进行验证,完全一致则提交新大纲至大纲生成单元;
大纲生成单元:
用于接受判断单元或其它单元传输的大纲并予以生成,大纲生成单元,接收其它单元传输的大纲后,将紧跟在大纲后的正文标记为归属于该大纲的文本内容,并将生成的内容予以保存,供撰写者确立大纲时进行参考。
一种Word文档大纲抽取的方法,所述大纲提取模块,包含标题标记单元、大纲标记单元和层级规则匹配单元,用于提取大纲;
标题标记单元,读取文档的第一个段落的字体和字号,将符合标准的标记为标题;
层级规则匹配单元,依据文档的编号库,将符合规则的段落或第一句话,设置为规则样本并传输给大纲标记单元;
大纲标记单元接收层级规则样本后,按照规则标记层级大纲,并将生成的大纲发送给大纲验证模块;
大纲验证模块,包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元,用于生成大纲和标记文本内容并加以保存;
大纲验证模块,包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元,用于生成大纲和标记文本内容并加以保存;
层级错误修正单元对存在层级错误问题的大纲,通过重新标记大纲进行层级修复,大纲缺失修正单元对存在缺失问题的大纲,通过重新提取缺失大纲补全缺失的大纲;
大纲重复修正单元对存在重复问题的大纲,通过取消重复的大纲标记删除重复的大纲;
大纲生成单元,接收其它单元最终传输的大纲,并将大纲后的正文标记为该大纲的文本内容,并对生成的结果予以保存;
工作原理:
首先通过终端,将所有收集到的与论文主题相关的参考论文的Word文档导入系统;
再通过系统读取导入的Word文档的信息,并提取Word文档的文本、字体、字号、格式属性等相关信息,生成结构化数据;
并且系统会根据上一步生成的结构化数据,对文档进行预处理。合并每个段落中的字体、字号及其格式属性。再对合并后的段落按照标点符号划分,生成段落第一句与剩余文本,按照生成的内容更新单元结构数据,并将更新的单元结构添加至列表,最后生成按照段落划分的全文;
对按照段落划分的全文进行大纲提取时,先标记出标题,再按照编号库将符合标准的段落或语句,设置为当前层级规则样本。最后将层级规则样本,按照样本规则进行标记,最后生成大纲;
对生成的大纲进行验证时,首先判断上一步的大纲存在什么问题,并进行处理,若存在层级错误问题,则重新划分正确的大纲。若存在大纲缺失问题,则重新提取正确的岗。若存在大纲重复问题,则删去重复的大纲,在修正完大纲存在的问题后,将大纲后的正文标记为该大纲的文本内容并加以保存。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种Word文档大纲抽取的方法,其特征在于,包括以下步骤:
步骤一:Word文档导入系统;
将用来作为参考资料的Word文档通过系统终端导入系统;
步骤二:读取Word文档格式信息;
通过解析模块接收导入系统的Word文档,然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取;
步骤三:对Word文档进行预处理;
通过预处理模块,接收解析模块发送的Word文档与结构化数据。由合并单元,合并每个段落的字体、字号及其格式属性,使文本格式一致;再交由列表单元,根据合并后的段落,以标点符号为标准进行划分,生成段落第一句与剩余文本;
并根据生成的段落第一句与剩余文本,更新单元结构化数据后,将单元结构数据添加至列表,最后将按照段落划分的全文传输给大纲提取模块;
步骤四:提取Word文档的大纲;
大纲提取模块,接收预处理模块传输的按照段落划分的全文和统计结果。标题标记单元先读取全文第一个段落的字体和字号,再查看统计结果中相同字体字号组合统计值是否唯一,如果唯一则标记为标题;
步骤五:验证提取的大纲是否完善;
大纲验证模块接收大纲提取模块提取出的大纲,并由判断单元根据编号库中的大纲序号,判断提取出的大纲存在什么问题,按照存在的问题类型交由对应的单元进行处理。
2.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述步骤二还包括:生成的以段落为单元的结构化数据,与Word文档一起传输给文档预处理模块进行处理。
3.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述步骤三还包括:预处理模块中的统计单元则读取结构化数据中的字体字号目录属性,并对其分别进行统计;
并把字体字号的组合以段落为单元分组并统计其中每个组合的数量,同时统计段落具有的目录格式属性值。将统计出的结果分别传输给大纲验证模块与大纲提取模块。
4.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述步骤四还包括有:层级规则匹配单元,依据文档的编号库,将范围内段落匹配到的符合规则的第一个段落或段落的第一句,设置为当前层级规则样本并传输给大纲标记单元;
并且大纲标记单元接收层级规则匹配单元发送的层级规则样本,依据样本规则提取范围内相同规则的段落标记为当前层级大纲,最后将标记完成的大纲发送给大纲验证模块。
5.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述步骤五还包括有:
存在层级错误问题时:
则传输给层级错误修正单元进行修正,层级错误修正单元,读取大纲,划分可能的上层级大纲区域,将区域内段落依据字体,字号及格式属性计算分值,标记得分最高段落为大纲,如果标记成功则将新生成的大纲提交至大纲生成单元;
存在大纲缺失问题时:
则传输给大纲缺失修正单元进行修正,大纲缺失修正单元,提取当前层级大纲的字体,字号及格式属性,在缺失范围内匹配完全一致段落,标记为缺失的大纲,再次对大纲序号验证,若非连续递增则提交新生成的大纲至大纲生成单元;
存在大纲重复问题时:
则传输给大纲重复修正单元进行修正。大纲重复修正单元,取消重复大纲标记,提取剩余大纲字体,字号及格式属性,对取消的大纲进行验证,完全一致则提交新大纲至大纲生成单元;
大纲生成单元:
用于接受判断单元或其它单元传输的大纲并予以生成,大纲生成单元,接收其它单元传输的大纲后,将紧跟在大纲后的正文标记为归属于该大纲的文本内容,并将生成的内容予以保存,供撰写者确立大纲时进行参考。
6.根据权利要求1所述的一种Word文档大纲抽取的系统,其特征在于,包括解析模块、预处理模块、大纲提取模块、大纲验证模块,所述解析模块,包含提取单元,用于提取Word文档的结构相关信息并生成结构化数据,最后传输给文档预处理模块;
预处理模块,包含合并单元、列表单元与统计单元,为后续的处理工作做前期铺垫;
合并单元,将接收到的Word文档与结构化数据,按照预设规则进行合并,并将合并后的结果传输给列表单元;
列表单元将合并后的段落,按照预设规则进行处理,最后生成按照段落划分的全文;
统计单元则读取解析模块发送的结构化数据,并按照预设规则,分别进行统计,将统计出的结果传输给大纲验证模块和大纲提取模块。
7.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述大纲提取模块,包含标题标记单元、大纲标记单元和层级规则匹配单元,用于提取大纲;
标题标记单元,读取文档的第一个段落的字体和字号,将符合标准的标记为标题;
层级规则匹配单元,依据文档的编号库,将符合规则的段落或第一句话,设置为规则样本并传输给大纲标记单元;
大纲标记单元接收层级规则样本后,按照规则标记层级大纲,并将生成的大纲发送给大纲验证模块。
8.根据权利要求1所述的一种Word文档大纲抽取的方法,其特征在于,所述大纲验证模块,包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元,用于生成大纲和标记文本内容并加以保存;
接收大纲提取模块发送的大纲后,判断单元判断大纲提取模块生成的大纲存在什么问题,并根据存在的问题类型发送至对应的单元进行处理;
层级错误修正单元对存在层级错误问题的大纲,通过重新标记大纲进行层级修复,大纲缺失修正单元对存在缺失问题的大纲,通过重新提取缺失大纲补全缺失的大纲;
大纲重复修正单元对存在重复问题的大纲,通过取消重复的大纲标记删除重复的大纲;
大纲生成单元,接收其它单元最终传输的大纲,并将大纲后的正文标记为该大纲的文本内容,并对生成的结果予以保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794259.2A CN115129817A (zh) | 2022-07-05 | 2022-07-05 | 一种Word文档大纲抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794259.2A CN115129817A (zh) | 2022-07-05 | 2022-07-05 | 一种Word文档大纲抽取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129817A true CN115129817A (zh) | 2022-09-30 |
Family
ID=83381696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794259.2A Pending CN115129817A (zh) | 2022-07-05 | 2022-07-05 | 一种Word文档大纲抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129817A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
-
2022
- 2022-07-05 CN CN202210794259.2A patent/CN115129817A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN115952279B (zh) * | 2022-12-02 | 2023-09-12 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608949B (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
US9384389B1 (en) | Detecting errors in recognized text | |
CN105068989A (zh) | 地名地址提取方法及装置 | |
CN112258144B (zh) | 基于自动构建目标实体集的政策文件信息匹配和推送方法 | |
CN109033064B (zh) | 一种基于文本摘要的小学语文作文语料标签自动提取方法 | |
CN112183036A (zh) | 一种格式文档生成方法、装置、设备及存储介质 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN113033185B (zh) | 标准文本纠错方法、装置、电子设备和存储介质 | |
CN106601253B (zh) | 智能机器人文字播音朗读审核校对方法和系统 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN110348003A (zh) | 文本有效信息的抽取方法及装置 | |
CN115129817A (zh) | 一种Word文档大纲抽取的方法 | |
CN111563372B (zh) | 一种基于教辅书籍出版的排版文档内容自查重方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN112784585A (zh) | 金融公告的摘要提取方法与摘要提取终端 | |
CN115116082B (zh) | 一种基于ocr识别算法的一键成档系统 | |
CN108319584A (zh) | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 | |
Pal et al. | OCR error correction of an inflectional indian language using morphological parsing | |
CN114722842A (zh) | 一种计算机人工智能外文翻译方法及其翻译系统 | |
CN114004221A (zh) | 一种表格内容的校正方法及装置 | |
CN105608074A (zh) | 一种字数统计方法及装置 | |
CN117473971A (zh) | 一种基于采购文本库的招标文件自动生成方法及系统 | |
CN111966806B (zh) | 一种酒店预定短信的信息提取及修补方法 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
JP7086424B1 (ja) | 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |