CN111368515A - 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 - Google Patents

基于pdf文档碎片化的行业动态交互式报告生成方法及系统 Download PDF

Info

Publication number
CN111368515A
CN111368515A CN202010137555.6A CN202010137555A CN111368515A CN 111368515 A CN111368515 A CN 111368515A CN 202010137555 A CN202010137555 A CN 202010137555A CN 111368515 A CN111368515 A CN 111368515A
Authority
CN
China
Prior art keywords
information
industry
report
text
fragmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010137555.6A
Other languages
English (en)
Other versions
CN111368515B (zh
Inventor
袁雪
刘敏娟
刘洪冰
王新
江浩
陈斯翰
李涛
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN202010137555.6A priority Critical patent/CN111368515B/zh
Publication of CN111368515A publication Critical patent/CN111368515A/zh
Application granted granted Critical
Publication of CN111368515B publication Critical patent/CN111368515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于PDF文档碎片化的动态交互式报告生成方法,它包括如下步骤:建立行业动态交互式报告的目录结构,并用于报告的导航;遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中;对PDF全文文档进行碎片化加工,并以XML格式在数据库中进行结构化存储;针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法行业信息分类体系,对碎片化信息单元进行分类标注,再形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。其优点是:可实现有针对性的阅读,提升信息输入的效率;能够一键生成定制化报告,进行多维度检索查询,提高查找资料或素材的效率。

Description

基于PDF文档碎片化的行业动态交互式报告生成方法及系统
技术领域
本发明属于信息交互技术领域,具体涉及基于文本碎片化的行业动态交互式报告生成方法及系统。
背景技术
传统的行业报告主要以专业人员编辑为主,对报告编写人员的要求较高,且费时费力;同时更新速度较慢,常无法满足用户对行业信息快速获取的需求;受篇幅或专业人员知识范围所限,无法提供更多来源渠道的信息,供用户参考或使用;用户阅读不便,常需要通篇阅览,方能发现自己关注的信息;多为固定框架的内容,满足用户个性化需求成本较高。
发明内容
本发明的目的是提供一种基于PDF文档碎片化的行业动态交互式报告生成方法及系统,它能够明显减少行业领域用户获取多来源渠道信息的时间,可实现有针对性的阅读,提升信息输入的效率;能够一键生成定制化报告,进行碎片化后的细粒度段落按国家、年份等多维度检索查询,提高查找资料或素材的效率;英文段落可同时查看中文译文,提高中文阅读者的阅读效率。
本发明的技术方案如下:一种基于PDF文档碎片化的动态交互式报告生成方法,它包括如下步骤:
步骤1:依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航;
步骤2:遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中;
步骤3:针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒的信息单元,并以XML格式在数据库中进行结构化存储;
步骤4:针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法,按照步骤1形成的行业信息分类体系,对碎片化信息单元进行分类标注,再按照步骤1形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。
所述的步骤(1)中根据具体情况的不同,报告目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题。
所述的步骤(2)中的可靠的信息资源主要来自政府官方发布渠道、商业数据库、权威市场报告等,具体包括:(1)网站类:国际组织网站、政府机构网站、高校网站、行业协会网站、行业垂直网站等;(2)数据库类:开放获取数据库、商业数据库等提供的知识资源;(3)报告与文章类:国际统计机构的调查资料、市场调研报告、新闻报道、学术期刊等。
所述的步骤(3)对PDF全文文档进行碎片化加工,其实施方式是机器自动碎片化加工,操作对象包括文本内容的结构、属性与关联信息。
基于文本碎片化的动态交互式报告生成系统,它包括组织体系构建模块,信息资源获取与整合模块,信息资源碎片化模块以及信息资源加工与重组模块。
所述的组织体系构建模块依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航;
根据具体情况的不同,报告的目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题,直至满足用户信息需求为止。
所述的信息资源获取与整合模块遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中。
所述的信息资源碎片化模块针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒度的信息单元,并以XML格式在数据库中进行结构化存储。
所述的信息资源加工与重组模块针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法,按照所述的行业信息分类体系,对碎片化信息进行分类标注,再按照形成的行业报告目录进行碎片化信息动态重组,最终形成行业动态交互式报告。
本发明的有益效果在于:PDF文档碎片化是实现细颗粒信息单元重组和深度知识挖掘的基础,是指识别PDF文档中章节、图表、段落等细颗粒信息单元,提取文本阅读顺序并对文档结构进行层次分析,将其分解成一个有层次、有逻辑的有机体。行业动态交互式报告利用非传统的编辑、加工与生成方式,融合PDF文档碎片化技术与动态交互式操作,形成了一个知识生产、加工、发布的全流程操作方法与系统,将行业领域横纵向的专业信息资源,按照相应的行业分类体系进行规模化地获取、遴选与汇聚,经细粒度加工、深层次揭示、动态重组,明显减少用户获取多来源渠道信息的时间,实现有针对性的、轻量化的阅读,提升信息输入的效率;能够一键生成定制化报告,并支持细颗粒信息单元按国家、年份等进行多维度检索查询,提高查找信息的效率;英文段落可同时查看中文译文,提高中文阅读者的阅读效率。
具体实施方式
下面结合具体实施例对本发明作进一步详细说明。
一种基于PDF文档碎片化的动态交互式报告生成方法,该方法具体包括如下步骤:
步骤1:依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航。
根据具体情况的不同,报告的目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题,直至满足用户信息需求为止。
本发明以生成茶行业对外合作发展报告为实施例,收集用户的信息需求,综合政府用户、企业用户、科研用户三类不同用户的专业背景和需求内容,构建多层次的报告目录结构。在报告目录结构的构建过程中以能够向用户提供所需知识为准则,以知识的粒度能恰当解决当前问题或需求为目标,使报告层次结构能够满足用户全方位、多层次的知识需求。实施例中依据用户需求分析的综合结果,构建了包含6个一级主题,22个二级主题的行业信息分类体系作为报告的目录结构。其中,一级主题具体包括:发展概述、供需形势、进出口分析、市场状况、农业标准,进出口企业。二级主题具体包括:发展概述下设市场需求、产量分析、消费格局、其他;供需形势下设市场需求、产量分析、消费格局、其他;进出口分析下设国际出口贸易、国际出口贸易、国内进出口贸易、其他;市场状况下设运行状况、市场价格、其他;农业标准下设全球主要组织标准、主要贸易国标准、中国与国外标准主要差异、其他;知名企业下设国际企业、国内企业、其他。上述报告的目录结构可按照用户的实际需求进行一键式定制化报告生成,可支持全选整个报告目录的内容,以及部分选择一级主题或二级主题的内容。
步骤2:遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中。
根据行业用户的信息需求,遴选和采集可用于行业报告内容组织的可靠信息资源。作为报告内容的基础资源,应当以能够解决用户实际问题提供全面的知识资源为支撑,同时为效率考虑,也需要优选净化资源,面对分布较广、良莠不齐的信息资源,既要确保资源可靠,又要能够满足报告的要求,基于此,所述可靠的信息资源主要来自政府官方发布渠道、商业数据库、权威市场报告等,具体包括:(1)网站类:国际组织网站、政府机构网站、高校网站、行业协会网站、行业垂直网站等;(2)数据库类:开放获取数据库、商业数据库等提供的知识资源;(3)报告与文章类:国际统计机构的调查资料、市场调研报告、新闻报道、学术期刊等。
步骤3:针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒的信息单元,并以XML格式在数据库中进行结构化存储。
对PDF全文文档进行碎片化加工,其实施方式是机器自动碎片化加工,操作对象包括文本内容的结构、属性与关联信息。其中基于机器学习的文档自动碎片化方法应用已公开的专利申请CN108536683A的基于机器学习的碎片化信息抽取方法,该方法是基于机器学习模型的特征向量预测目标PDF文章的标题和结构信息,并以XML格式存入数据库中,便于重新利用。
步骤4:针对碎片化加工后的细颗粒信息单元(章节或段落),采用基于机器学习的文本自动分类方法,按照步骤1形成的行业信息分类体系,对碎片化信息的进行分类标注,再按照步骤1形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。
基于机器学习的文本自动分类方法是先将标注好的PDF文档碎片化信息单元作为训练集,通过机器学习算法从文本中整理出能够有效分类的规则,生成分类器,将生成的分类器应用在有待分类的文本集合中,实现自动分类标注。同时为了增强自动分类结果的精度,添加人工校改的辅助功能,便于对分类结果进行校准。
碎片化信息动态重组是实时将经过标注的PDF文档碎片化信息单元按照步骤1中的报告目录结构自动分组到相应的报告目录主题下,重新组合成拥有新的内容构成的行业报告,从而完成动态重组的过程,按此循环往复,实现报告的自动化标注与动态重组。报告上线发布后,能够进行段落按国家、年份等多维度检索查询,同时嵌入的翻译工具将外文文本直接翻译成中文,本实施例中将英文段落翻译成中文。
基于文本碎片化的动态交互式报告生成系统,包括组织体系构建模块,信息资源获取与整合模块,信息资源碎片化模块以及信息资源加工与重组模块。
组织体系构建模块依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航。
根据具体情况的不同,报告的目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题,直至满足用户信息需求为止。
本发明以生成茶行业对外合作发展报告为实施例,收集用户的信息需求,综合政府用户、企业用户、科研用户三类不同用户的专业背景和需求内容,构建多层次的报告目录结构。在报告目录结构的构建过程中以能够向用户提供所需知识为准则,以知识的粒度能恰当解决当前问题或需求为目标,使报告层次结构能够满足用户全方位、多层次的知识需求。实施例中依据用户需求分析的综合结果,构建了包含6个一级主题,22个二级主题的行业信息分类体系作为报告的目录结构。其中,一级主题具体包括:发展概述、供需形势、进出口分析、市场状况、农业标准,进出口企业。二级主题具体包括:发展概述下设市场需求、产量分析、消费格局、其他;供需形势下设市场需求、产量分析、消费格局、其他;进出口分析下设国际出口贸易、国际出口贸易、国内进出口贸易、其他;市场状况下设运行状况、市场价格、其他;农业标准下设全球主要组织标准、主要贸易国标准、中国与国外标准主要差异、其他;知名企业下设国际企业、国内企业、其他。上述报告的目录结构可按照用户的实际需求进行一键式定制化报告生成,可支持全选整个报告目录的内容,以及部分选择一级主题或二级主题的内容。
信息资源的获取与整合模块遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中。
根据行业用户的信息需求,遴选和采集可用于行业报告内容组织的可靠信息资源。作为报告内容的基础资源,应当以能够解决用户实际问题提供全面的知识资源为支撑,同时为效率考虑,也需要优选净化资源,面对分布较广、良莠不齐的信息资源,既要确保资源可靠,又要能够满足报告的要求,基于此,所述可靠的信息资源主要来自政府官方发布渠道、商业数据库、权威市场报告等,具体包括:(1)网站类:国际组织网站、政府机构网站、高校网站、行业协会网站、行业垂直网站等;(2)数据库类:开放获取数据库、商业数据库等提供的知识资源;(3)报告与文章类:国际统计机构的调查资料、市场调研报告、新闻报道、学术期刊等。
信息资源碎片化模块针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒信息单元,并以XML格式在数据库中进行结构化存储。
对PDF全文文档进行碎片化加工,其实施方式是机器自动碎片化加工,操作对象包括文本内容的结构、属性与关联信息。其中基于机器学习的文档自动碎片化方法应用已公开的专利申请CN108536683A的基于机器学习的碎片化信息抽取方法,该方法是基于机器学习模型的特征向量预测目标PDF文章的标题和结构信息,并以XML格式存入数据库中,便于重新利用。
信息资源加工与重组模块针对碎片化加工后的细颗粒信息单元(章节或段落),采用基于机器学习的文本自动分类方法,按照行业信息分类体系,对碎片化信息进行分类标注,再按照形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。
基于机器学习的文本自动分类方法是先将标注好的PDF文档碎片化信息单元作为训练集,通过机器学习算法从文本中整理出能够有效分类的规则,生成分类器,将生成的分类器应用在有待分类的文本集合中,实现自动分类标注。同时为了增强自动分类结果的精度,添加人工校改的辅助功能,便于对分类结果进行校准。
碎片化信息动态重组是实时将经过标注的PDF文档碎片化信息单元按照上述的报告目录结构自动分组到相应的报告目录主题下,重新组合成拥有新的内容构成的行业报告,从而完成动态重组的过程,按此循环往复,实现报告的自动化标注与动态重组。报告上线发布后,能够进行段落按国家、年份等多维度检索查询,同时嵌入的翻译工具将外文文本直接翻译成中文,本实施例中将英文段落翻译成中文。
本发明明显减少行业领域用户获取多来源渠道信息的时间,实现有针对性的阅读,提升信息输入的效率;支持一键生成定制化报告,支持碎片化后的细粒度段落按国家、年份等进行多维度检索查询,提高查找资料或素材的效率;英文段落可同时查看中文译文,提高中文阅读者的阅读效率。

Claims (9)

1.一种基于PDF文档碎片化的动态交互式报告生成方法,其特征在于,它包括如下步骤:
步骤1:依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航;
步骤2:遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中;
步骤3:针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒度的信息单元,并以XML格式在数据库中进行结构化存储;
步骤4:针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法,按照步骤1形成的行业信息分类体系,对碎片化信息的进行分类标注,再按照步骤1形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。
2.如权利要求1所述的一种基于PDF文档碎片化的动态交互式报告生成方法,其特征在于:所述的步骤(1)中根据具体情况的不同,报告的目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题。
3.如权利要求1所述的一种基于PDF文档碎片化的动态交互式报告生成方法,其特征在于:所述的步骤(2)中的可靠的信息资源主要来自政府官方发布渠道、商业数据库、权威市场报告等,具体包括:(1)网站类:国际组织网站、政府机构网站、高校网站、行业协会网站、行业垂直网站等;(2)数据库类:开放获取数据库、商业数据库等提供的知识资源;(3)报告与文章类:国际统计机构的调查资料、市场调研报告、新闻报道、学术期刊等。
4.如权利要求1所述的一种基于PDF文档碎片化的动态交互式报告生成方法,其特征在于:所述的步骤(3)对PDF全文文档进行碎片化加工,其实施方式是机器自动碎片化加工,操作对象包括文本内容的结构、属性与关联信息。
5.基于文本碎片化的动态交互式报告生成系统,其特征在于:它包括组织体系构建模块,信息资源获取与整合模块,信息资源碎片化模块以及信息资源加工与重组模块。
6.如权利要求5所述的基于文本碎片化的动态交互式报告生成系统,其特征在于:所述的组织体系构建模块依据行业用户的需求和应用场景,收集用户信息需求,形成面向行业的信息分类体系,用于对采集的行业信息进行分类,同时以此作为行业动态交互式报告的目录结构,并用于报告的导航;
根据具体情况的不同,报告的目录结构包括多个分级主题,每个主题下包括若干子主题,具体的实施例中报告目录分为一级主题若干个,每一个一级主题下包括二级主题若干,每个二级主题可包括三级主题若干个,以此类推,每一级主题均可包括若干子主题,直至满足用户信息需求为止。
7.如权利要求5所述的基于文本碎片化的动态交互式报告生成系统,其特征在于:所述的信息资源的获取与整合模块遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中。
8.如权利要求5所述的基于文本碎片化的动态交互式报告生成系统,其特征在于:所述的信息资源碎片化模块针对添加到数据库中的PDF全文文档进行碎片化加工,按照全文阅读顺序和原文逻辑结构拆分成篇章节、文字段落、图表等细颗粒信息单元,并以XML格式在数据库中进行结构化存储。
9.如权利要求5所述的基于文本碎片化的动态交互式报告生成系统,其特征在于:所述的信息资源加工与重组模块针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法,按照所述的行业信息分类体系,对碎片化信息的进行分类标注,再对形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。
CN202010137555.6A 2020-03-02 2020-03-02 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 Active CN111368515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010137555.6A CN111368515B (zh) 2020-03-02 2020-03-02 基于pdf文档碎片化的行业动态交互式报告生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010137555.6A CN111368515B (zh) 2020-03-02 2020-03-02 基于pdf文档碎片化的行业动态交互式报告生成方法及系统

Publications (2)

Publication Number Publication Date
CN111368515A true CN111368515A (zh) 2020-07-03
CN111368515B CN111368515B (zh) 2021-01-26

Family

ID=71208287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010137555.6A Active CN111368515B (zh) 2020-03-02 2020-03-02 基于pdf文档碎片化的行业动态交互式报告生成方法及系统

Country Status (1)

Country Link
CN (1) CN111368515B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN114819549A (zh) * 2022-04-08 2022-07-29 华灿光电(苏州)有限公司 发光二极管芯片的分选产出的确定方法及装置、存储介质
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270779A1 (en) * 2010-04-30 2011-11-03 Thomas Showalter Data analytics models for loan treatment
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
US20170220734A1 (en) * 2015-11-23 2017-08-03 The Board Of Trustees Of The Leland Stanford Junior University Methods and Systems for Identification of Biomolecule Sequence Coevolution and Applications Thereof
CN107145480A (zh) * 2017-05-26 2017-09-08 上交所技术有限责任公司 一种基于Word进行XBRL报告编制的方法
CN107526718A (zh) * 2017-09-19 2017-12-29 北京百度网讯科技有限公司 用于生成文本的方法和装置
CN108062955A (zh) * 2017-12-12 2018-05-22 深圳证券信息有限公司 一种智能报告生成方法、系统及设备
CN109446344A (zh) * 2018-11-14 2019-03-08 同方知网(北京)技术有限公司 一种基于大数据的智能分析报告自动生成系统
US20190138574A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Automatic document assistance based on document type
CN109766590A (zh) * 2018-12-19 2019-05-17 上海荷福人工智能科技(集团)有限公司 一种基于人工智能审图和出报告方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110400101A (zh) * 2019-08-21 2019-11-01 苏州经贸职业技术学院 行业报告分析系统及方法
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270779A1 (en) * 2010-04-30 2011-11-03 Thomas Showalter Data analytics models for loan treatment
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
US20170220734A1 (en) * 2015-11-23 2017-08-03 The Board Of Trustees Of The Leland Stanford Junior University Methods and Systems for Identification of Biomolecule Sequence Coevolution and Applications Thereof
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN107145480A (zh) * 2017-05-26 2017-09-08 上交所技术有限责任公司 一种基于Word进行XBRL报告编制的方法
CN107526718A (zh) * 2017-09-19 2017-12-29 北京百度网讯科技有限公司 用于生成文本的方法和装置
US20190138574A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Automatic document assistance based on document type
CN108062955A (zh) * 2017-12-12 2018-05-22 深圳证券信息有限公司 一种智能报告生成方法、系统及设备
CN109446344A (zh) * 2018-11-14 2019-03-08 同方知网(北京)技术有限公司 一种基于大数据的智能分析报告自动生成系统
CN109766590A (zh) * 2018-12-19 2019-05-17 上海荷福人工智能科技(集团)有限公司 一种基于人工智能审图和出报告方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110110080A (zh) * 2019-03-29 2019-08-09 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110400101A (zh) * 2019-08-21 2019-11-01 苏州经贸职业技术学院 行业报告分析系统及方法
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史金钏: ""基于LSTM的领域本体关系提取方法及应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN114819549A (zh) * 2022-04-08 2022-07-29 华灿光电(苏州)有限公司 发光二极管芯片的分选产出的确定方法及装置、存储介质
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置
CN116795789B (zh) * 2023-08-24 2024-04-19 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Also Published As

Publication number Publication date
CN111368515B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN111368515B (zh) 基于pdf文档碎片化的行业动态交互式报告生成方法及系统
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
CN101620608A (zh) 信息采集方法及系统
CN106528877A (zh) word文档的模块化方法及系统
CN101201838A (zh) 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN111753514B (zh) 一种专利申请文本的自动生成方法和装置
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质
CN112148938B (zh) 一种跨域异构数据检索系统及检索方法
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
CN111859108A (zh) 一种舆情系统搜索词推荐系统
CN102567016A (zh) 应用程序编程接口使用示例提取方法及装置
CN111159984A (zh) 一种具有智能学习笔记功能的辅助阅读系统
CN102207947A (zh) 一种直接引语素材库的生成方法
CN113836434B (zh) 一种基于数据库的web页面数据处理方法
CN115964533A (zh) 一种全面描述材料产业的数据库系统
LIM et al. Web mining-The ontology approach
CN110083654A (zh) 一种面向国防科技领域的多源数据融合方法及系统
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN114546985A (zh) 具备学习能力的企业智能知识管理系统
CN112464668A (zh) 一种提取智能家居行业动态信息的方法和系统
CN113342844A (zh) 工业智能搜索系统
CN107145947A (zh) 一种信息处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant