CN116049385B - 一种生成信创产业研究报告的方法、装置和设备及平台 - Google Patents
一种生成信创产业研究报告的方法、装置和设备及平台 Download PDFInfo
- Publication number
- CN116049385B CN116049385B CN202310339719.7A CN202310339719A CN116049385B CN 116049385 B CN116049385 B CN 116049385B CN 202310339719 A CN202310339719 A CN 202310339719A CN 116049385 B CN116049385 B CN 116049385B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- abstract
- credit
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种生成信创产业研究报告的方法、装置和设备及平台,属于数据处理领域;本申请方案将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
Description
技术领域
本发明涉及数据处理领域,特别地,涉及一种生成信创产业研究报告的方法、装置和设备及平台。
背景技术
信创,即信息技术应用创新产业,它是数据安全、网络安全的基础,也是新基建的重要组成部分,在信创行业涉及领域较广,包括操作系统、数据库、中间件等基础软件以及打印机、外设等硬件;涉及知识较多,包括标准规范、迁移适配、研发测试等知识;对于信创从业者,很难快速的获取想要的信创知识,目前市面上缺少一个面向信创从业者的信创知识库公共平台,为信创从业者提供信创经验知识,进行应用研发、迁移适配,深入掌握和了解信创技术。
关于知识库的研究很多,但是目前市面上还没有一种针对信创知识推出的知识库公共平台,为信创从业者提供信创经验知识。此外,现有知识库中,中文文本摘要模型性能较差,这样在生成信创产业研究报告时容易丢失某些重要词,影响用户体验。
发明内容
为了克服现有技术的不足,本发明提供一种生成信创产业研究报告的方法、装置和设备及平台,以解决现有知识库中,中文文本摘要模型性能较差,这样在生成信创产业研究报告时容易丢失某些重要词,影响用户体验的问题。
本发明解决其技术问题所采用的技术方案是:
第一方面,提供一种生成信创产业研究报告的方法,包括以下步骤:
获取待生成摘要的文本;
若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;
若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;
依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;
对所述摘要进行语义分析和标签识别得到分类结果;
根据所述分类结果和时间段生成信创产业研究报告。
进一步地,所述根据所述词向量得到第一目标词包括:计算所述词向量与预设目标词库中任一目标词的第一相似度;将所述目标词库中第一相似度最大的目标词作为第一目标词;还包括:
计算当前词向量与上一词向量的第二相似度,并获取所述上一词向量在目标词库中对应的上一第一目标词;
计算所述当前词向量与所述上一第一目标词的初始第一相似度,将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度;
根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词。
进一步地,所述获取待生成摘要的文本,包括:
使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列;
从所述抓取队列中依次取出网络地址进行解析,得到网页源码;
根据所述网页源码抓取网页中的内容作为待生成摘要的文本。
进一步地,在获取待生成摘要的文本后还包括:
若所述文本字数小于第一预设字数,则删除小于预设字数的文本;
若所述文本字数大于第二预设字数,则将所文本切割为预设数量的文本;并删除所述文本中的表情符号,所述第二预设字数大于第一预设字数。
进一步地,还包括:
将所述文本进行分句处理;
对所述分句进行分词,以便于所述文本进行摘要生成。
进一步地,所述对所述分句进行分词,包括:
对于每个分句,获取所述分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;
若所述次数小于或等于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符不认为是一个词;若所述次数大于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符认为是一个词,并根据所述连续字符构成的词对所述分句进行分词。
进一步地,所述对所述摘要进行标签识别包括:
采用网络爬虫技术,采集各类信创知识;
将所述信创知识定义标签;所述标签包括主管部门、指导机构、法律法规、行业和产业,所述行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,所述产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,所述基础软件包括操作系统、数据库、中间件和云平台,所述基础硬件包括存储、打印机和扫描仪,所述应用软件包括办公系统OA、电子公文、ERP和MES,所述工控软件包括PLC、SCADA和DCS;
基于定义的标签对所述信创知识进行分类存储,以形成信创知识库;
基于所述信创知识库训练得到分类模型;
采用所述分类模型对所述摘要进行分类,得到所述摘要在所述信创知识库中对应的标签。
第二方面,提供一种生成信创产业研究报告的装置,包括:
文本获取模块,用于获取待生成摘要的文本;
第一目标词获取模块,用于若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;
第二目标词获取模块,用于若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;
摘要生成模块,用于依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;
摘要分类模块,用于对所述摘要进行语义分析和标签识别得到分类结果;
信创产业研究报告生成模块,用于根据所述分类结果和时间段生成信创产业研究报告。
第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为用于执行第一方面技术方案中任一项所述的方法。
第四方面,提供一种信创知识库平台,采用第一方面技术方案中任一项所述的方法生成信创产业研究报告。
有益效果:
本申请技术方案提供一种生成信创产业研究报告的方法、装置和设备及平台,在获取待生成摘要的文本后,将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;对于文本中不在词表中的词,根据语义模型得到该词的语义值。当语义值大于或等于预设语义值时,将该词作为第二目标词;之后依据文本中词的顺序,将第二目标词插入到第一目标词中以生成摘要。最后对摘要进行分类,并根据分类和时间段生成信创产业研究报告。本申请方案在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种生成信创产业研究报告的方法流程图;
图2是本发明实施例提供的一种生成信创产业研究报告的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参照图1,本发明实施例提供了一种生成信创产业研究报告的方法,包括以下步骤:
S11:获取待生成摘要的文本;
S12:若预设的词表中存在文本中的词,则将文本中的词根据预设词表转化得到词向量,并根据词向量得到第一目标词;
S13:若词表中不存在文本中的词,则获取词所在句子的句向量;
S14:将句向量和词输入到预训练的语义模型中,得到用于表征词在句子中的语义重要程度的语义值,句向量由句子中的词向量按顺序组成;
S15:当语义值大于或等于预设语义值时,则将词作为第二目标词;
S16:依据文本中词的顺序,将第二目标词插入第一目标词中生成文本的摘要;
S17:对摘要进行语义分析和标签识别得到分类结果;
S18:根据分类结果和时间段生成信创产业研究报告。
本发明实施例提供的生成信创产业研究报告的方法,在获取待生成摘要的文本后,将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;对于文本中不在词表中的词,根据语义模型得到该词的语义值。当语义值大于或等于预设语义值时,将该词作为第二目标词;之后依据文本中词的顺序,将第二目标词插入到第一目标词中以生成摘要。最后对摘要进行分类,并根据分类和时间段生成信创产业研究报告。本申请方案在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
第二实施例,作为对第一实施例的补充说明,本发明提供一种具体的生成信创产业研究报告的方法,包括以下步骤:
获取待生成摘要的文本;使用网络爬虫技术采集信创公众号、官网等网络渠道,首先选取一定URL作为初始URL,并将其放入抓取队列,然后从队列中依次取出URL并进行解析,得到网页源码,而后顺序抓取网页中的内容,并将其中新的URL放入队列中,最终将数据存储在数据库中。最后对信创知识文本进行清洗,删除过短或本身就是摘要内容的数据,删除表情符号,将部分长文本切割为多个短文本,保证数据质量。然后,对信创知识文本进行预处理,首先对文本进行分句处理,利用不同的信创知识单句之间已有的标点符号以及根据句子的语法定义来进行分句任务,然后进行分词处理,基于规则匹配和统计结合的算法,计算一个单字与周围的n个单字出现的次数,然后依靠计算结果决定要不要认为这些连续字符是一个中文单词,即中文单字组合的关系性转换为数值的方法,既可以快速分词,匹配速度也十分快,又可以利用分词结合上下文消除歧义。对信创知识文本进行预处理之后,文本不再有不适合被处理的信创知识单词,达到去重、噪声处理、字体转换、去除符号、生成文本格式的效果,同时处理后的信创知识文本也更加适合后面模型训练。具体地,对于每个分句,获取分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;若次数小于或等于预设次数,则将单字与相邻的预设数量的单字组成的连续字符不认为是一个词;若次数大于预设次数,则将单字与相邻的预设数量的单字组成的连续字符认为是一个词,并根据连续字符构成的词对分句进行分词。
若预设的词表中存在文本中的词,则将文本中的词根据预设词表转化得到词向量,并根据词向量得到第一目标词;具体地,采用编码器将文本转化为词向量。
若词表中不存在文本中的词,则获取词所在句子的句向量,将句向量和词输入到预训练的语义模型中,得到用于表征词在句子中的语义重要程度的语义值,句向量由句子中的词向量按顺序组成;当语义值大于或等于预设语义值时,则将词作为第二目标词;这样即使文本中的词未出现在词表中,也可以保证后续能够输出该词,确保关键词不被省略。
作为本发明实施例一种可选的实现方式,根据词向量得到第一目标词包括:计算词向量与预设目标词库中任一目标词的第一相似度;将目标词库中第一相似度最大的目标词作为第一目标词;还包括:计算当前词向量与上一词向量的第二相似度,并获取上一词向量在目标词库中对应的上一第一目标词;计算当前词向量与上一第一目标词的初始第一相似度,将初始第一相似度乘以第二相似度作为当前词向量与上一第一目标词的第一相似度;根据当前词向量与目标词库中所有目标词的第一相似度得到当前词向量对应的当前第一目标词。通过当前词向量与上一词向量进行相似度计算得到第二相似度,然后在计算上一第一目标词与当前词向量的第一相似度时,引入第二相似度,以降低当前词向量与上一第一目标词的相似度,能够避免生成重复内容。
依据文本中词的顺序,将第二目标词插入第一目标词中生成文本的摘要;可以理解的是,摘要中各个词需要一定的顺序,因此依照原文本中各词的顺序,对第一目标词和第二目标词进行排序,以使摘要与原文本中词的顺序一致。
对摘要进行语义分析和标签识别得到分类结果,其中,对摘要进行标签识别包括:建立信创知识库:采用网络爬虫技术,采集各类信创知识;将信创知识定义标签;标签包括主管部门、指导机构、法律法规、行业和产业,行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,基础软件包括操作系统、数据库、中间件和云平台,基础硬件包括存储、打印机和扫描仪,应用软件包括办公系统OA、电子公文、ERP和MES,工控软件包括PLC、SCADA和DCS,其中主管部门和指导机构根据实际需要设置;基于定义的标签对信创知识进行分类存储,以形成信创知识库;基于信创知识库训练得到分类模型;采用分类模型对摘要进行分类,得到摘要在信创知识库中对应的标签;
根据分类结果和时间段生成信创产业研究报告,具体地根据时间段生成月、周、日等信创产业研究报告。
本发明实施例提供的具体地生成信创产业研究报告的方法,通过采用网络爬虫技术,采集各类信创知识,将信创知识定义标签,进行分类存储,形成海量的信创知识语料库,基于分类标识的海量语料库中,采用相似度判断摘要输出词是根据词表还是直接采用原词,进一步提升中文文本摘要模型的性能,模型生成的摘要表达更加流畅。根据生成的摘要进行语义分析和标签识别,判定是芯片、操作系统、数据库、中间件、办公软件等不同类别的知识,然后根据时间段生成月、周、日等信创产业研究报告。通过构建开放的信创知识库平台为信创从业者提供全面、系统、客观的信创政策、标准规范、信创产品、适配测试等各类知识;为信创产业实现信创知识积累、共享、创新,并用知识赋能信创产业高效发展提供助力。
第三实施例,本发明提供一种生成信创产业研究报告的装置,如图2所示,包括:
文本获取模块21,用于获取待生成摘要的文本;具体地,文本获取模块21使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列;从抓取队列中依次取出网络地址进行解析,得到网页源码;根据网页源码抓取网页中的内容作为待生成摘要的文本。在获取待生成摘要的文本后还包括:若文本字数小于第一预设字数,则文本获取模块21删除小于预设字数的文本;若文本字数大于第二预设字数,则文本获取模块21将所文本切割为预设数量的文本;并删除文本中的表情符号,第二预设字数大于第一预设字数。此后,文本获取模块21将文本进行分句处理;对分句进行分词,以便于文本进行摘要生成。其中,对分句进行分词,包括:对于每个分句,获取分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;若次数小于或等于预设次数,则将单字与相邻的预设数量的单字组成的连续字符不认为是一个词;若次数大于预设次数,则将单字与相邻的预设数量的单字组成的连续字符认为是一个词,并根据连续字符构成的词对分句进行分词。
第一目标词获取模块22,用于若预设的词表中存在文本中的词,则将文本中的词根据预设词表转化得到词向量,并根据词向量得到第一目标词;具体地,第一目标词获取模块22用于计算词向量与预设目标词库中任一目标词的第一相似度;将目标词库中第一相似度最大的目标词作为第一目标词;此外,第一目标词获取模块22还用于计算当前词向量与上一词向量的第二相似度,并获取上一词向量在目标词库中对应的上一第一目标词;计算当前词向量与上一第一目标词的初始第一相似度,将初始第一相似度乘以第二相似度作为当前词向量与上一第一目标词的第一相似度;根据当前词向量与目标词库中所有目标词的第一相似度得到当前词向量对应的当前第一目标词
第二目标词获取模块23,用于若词表中不存在文本中的词,则获取词所在句子的句向量,将句向量和词输入到预训练的语义模型中,得到用于表征词在句子中的语义重要程度的语义值,句向量由句子中的词向量按顺序组成;当语义值大于或等于预设语义值时,则将词作为第二目标词;
摘要生成模块24,用于依据文本中词的顺序,将第二目标词插入第一目标词中生成文本的摘要。
摘要分类模块25,用于对摘要进行语义分析和标签识别得到分类结果;其中,对摘要进行标签识别包括:采用网络爬虫技术,采集各类信创知识;将信创知识定义标签,标签包括主管部门、指导机构、法律法规、行业和产业,行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,基础软件包括操作系统、数据库、中间件和云平台,基础硬件包括存储、打印机和扫描仪,应用软件包括办公系统OA、电子公文、ERP和MES,工控软件包括PLC、SCADA和DCS;基于定义的标签对信创知识进行分类存储,以形成信创知识库;基于信创知识库训练得到分类模型;采用分类模型对摘要进行分类,得到摘要在信创知识库中对应的标签。
信创产业研究报告生成模块26,用于根根据分类结果和时间段生成信创产业研究报告。
本发明实施例提供的生成信创产业研究报告的装置,文本获取模块获取待生成摘要的文本;向量转化模块将文本转化得到词向量;相似度计算模块计算词向量与预构建的词表中任一词的相似度;当词表中存在相似度大于预设相似度的目标词时,则摘要生成模块输出目标词;当不存在相似度大于预设相似度的目标词时,则摘要生成模块将向量对应的词作为输出,根据输出得到摘要;摘要分类模块对摘要进行语义分析和标签识别得到分类结果;信创产业研究报告生成模块根据分类结果对文本进行分类存储,以得到信创知识库。本发明实施例提供的生成装置,在获取待生成摘要的文本后,将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;对于文本中不在词表中的词,根据语义模型得到该词的语义值。当语义值大于或等于预设语义值时,将该词作为第二目标词;之后依据文本中词的顺序,将第二目标词插入到第一目标词中以生成摘要。最后对摘要进行分类,并根据分类和时间段生成信创产业研究报告。本申请方案在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
第四实施例,本发明提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
处理器被配置为用于执行第一实施例或第二实施例提供的生成信创产业研究报告的方法。
本发明实施例提供的电子设备,通过存储器处理器的可执行指令,当可执行指令被执行时,处理器能够在获取待生成摘要的文本后,将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;对于文本中不在词表中的词,根据语义模型得到该词的语义值。当语义值大于或等于预设语义值时,将该词作为第二目标词;之后依据文本中词的顺序,将第二目标词插入到第一目标词中以生成摘要。最后对摘要进行分类,并根据分类和时间段生成信创产业研究报告。本申请方案在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
第五实施例,本发明提供一种信创知识库平台,信创知识库平台采用第一实施例或第二实施例提供的生成信创产业研究报告的方法生成信创产业研究报告。
平台采用前后端分离架构,前端的知识门户面向使用者,侧重知识的使用,如知识查看,知识搜索;管理理后台则侧重知识的管理,如采编知识,分类管理知识,分配权限等,面向对象是采编者和管理者。平台从网络大数据中采用分布式采集技术,准确地识别、提取不同来源和形式的数据,通过增量采集机制实现高效地采集大量的信息,对结构化和非结构化数据进行解析、分类、预测、聚类、分析,基于AI能力层提供的知识图谱引擎及非监督学习的挖掘知识的能力,对大规模的数据进行挖掘分析,并应用积累的信创行业知识和NLP能力,可以将传统的人力为主的知识工程流程自动化,极大程度提升构建图谱的效率,降低构建图谱的门槛。基于NLP模块集成SOTA算法和预训练模型,结合语料积累和语言学知识,分别针对短文本(口语、对话等)和长文本的特点进行语言模型和上下文理解模型的开发,对知识内容自动摘要,生成信创知识信创产业研究报告,实现信创知识在全域网络以及各类客户的智能推送。建立知识分类模型,将信创知识分为主管部门、指导机构、法律法规、行业、产业等,行业下又分党政、金融、能源、电信、医疗、教育、应急、水利、交通等,产业下又分基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能、半导体等,平台通过语义分析,将每个知识打上标签,自动进行知识分类。面向信创从业者,知识库具备以下几个能力:
智能采集:定时面向网络大数据异步采集筛选信创领域相关知识信息,整理格式,定向导入知识库各个目录分类。
智能标签:对于自动或人工导入的文章及知识,通过人工智能算法学习,精准地形成知识标签,面对不同客户可精准标注兴趣标签,方便入库分类以及面对精准人群推送。
智能检索:通过全文、关键字、组合条件、标签等丰富的搜索方式,高效获取所需知识。
智能推荐:面对不同员工和用户的不同兴趣和需求,推送针对不同人群的个性化信创知识信息。
智能图谱:通过数据挖掘将显性知识和隐形知识多级关联,为信创技术研究和业务协同提供形象生动地知识参考。
智能信创产业研究报告:通过知识关联策略,精准形成相应信创知识定制化信创产业研究报告。定期以期刊形式推送用户,实现个人知识聚集,集体知识反哺的良性生态循环。
智能问答:用户可自由问答,向平台和专家进行提问,平台通过积累的信创行业知识及自动学习能力,提供回答的可靠性和置信度。
本发明实施例提供的信创知识库平台是具备认知AI的信创知识共享平台,基于NLP技术面向信创产业用于知识采集、沉淀、检索使用和分享的信创知识库,采用分布式存储、基于人工智能检索,海量文档查询仅需毫秒级响应。通过对海量结构化或非结构化信创知识数据进行采集,基于强大的自然语言理解和知识挖掘能力,自动进行文本解析和知识抽取,自动构建知识图谱,生成信创知识信创产业研究报告,实现智能搜索、知识分类、知识推送、智能问答等多种知识应用。为信创从业者提供全面、系统、客观的信创政策、标准规范、信创产品、适配测试等各类知识;为信创产业实现信创知识积累、共享、创新,并用知识赋能信创产业高效发展提供助力。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种生成信创产业研究报告的方法,其特征在于,包括以下步骤:
获取待生成摘要的文本;
若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;
若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;
依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;
对所述摘要进行语义分析和标签识别得到分类结果;
根据所述分类结果和时间段生成信创产业研究报告;
所述根据所述词向量得到第一目标词包括:计算所述词向量与预设目标词库中任一目标词的第一相似度;将所述目标词库中第一相似度最大的目标词作为第一目标词;还包括:
计算当前词向量与上一词向量的第二相似度,并获取所述上一词向量在目标词库中对应的上一第一目标词;
计算所述当前词向量与所述上一第一目标词的初始第一相似度,将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度;
根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词;
所述对所述摘要进行标签识别包括:
采用网络爬虫技术,采集各类信创知识;
将所述信创知识定义标签;所述标签包括主管部门、指导机构、法律法规、行业和产业,所述行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,所述产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,所述基础软件包括操作系统、数据库、中间件和云平台,所述基础硬件包括存储、打印机和扫描仪,所述应用软件包括办公系统OA、电子公文、ERP和MES,所述工控软件包括PLC、SCADA和DCS;
基于定义的标签对所述信创知识进行分类存储,以形成信创知识库;
基于所述信创知识库训练得到分类模型;
采用所述分类模型对所述摘要进行分类,得到所述摘要在所述信创知识库中对应的标签。
2.根据权利要求1所述的方法,其特征在于:所述获取待生成摘要的文本,包括:
使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列;
从所述抓取队列中依次取出网络地址进行解析,得到网页源码;
根据所述网页源码抓取网页中的内容作为待生成摘要的文本。
3.根据权利要求1所述的方法,其特征在于:在获取待生成摘要的文本后还包括:
若所述文本字数小于第一预设字数,则删除小于预设字数的文本;
若所述文本字数大于第二预设字数,则将所文本切割为预设数量的文本;并删除所述文本中的表情符号,所述第二预设字数大于第一预设字数。
4.根据权利要求3所述的方法,其特征在于:还包括:
将所述文本进行分句处理;
对所述分句进行分词,以便于所述文本进行摘要生成。
5.根据权利要求4所述的方法,其特征在于:所述对所述分句进行分词,包括:
对于每个分句,获取所述分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;
若所述次数小于或等于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符不认为是一个词;若所述次数大于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符认为是一个词,并根据所述连续字符构成的词对所述分句进行分词。
6.一种生成信创产业研究报告的装置,其特征在于,包括:
文本获取模块,用于获取待生成摘要的文本;
第一目标词获取模块,用于若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;所述根据所述词向量得到第一目标词包括:计算所述词向量与预设目标词库中任一目标词的第一相似度;将所述目标词库中第一相似度最大的目标词作为第一目标词;还包括:计算当前词向量与上一词向量的第二相似度,并获取所述上一词向量在目标词库中对应的上一第一目标词;计算所述当前词向量与所述上一第一目标词的初始第一相似度,将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度;根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词;
第二目标词获取模块,用于若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;
摘要生成模块,用于依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;
摘要分类模块,用于对所述摘要进行语义分析和标签识别得到分类结果;所述对所述摘要进行标签识别包括:采用网络爬虫技术,采集各类信创知识;将所述信创知识定义标签;所述标签包括主管部门、指导机构、法律法规、行业和产业,所述行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,所述产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,所述基础软件包括操作系统、数据库、中间件和云平台,所述基础硬件包括存储、打印机和扫描仪,所述应用软件包括办公系统OA、电子公文、ERP和MES,所述工控软件包括PLC、SCADA和DCS;基于定义的标签对所述信创知识进行分类存储,以形成信创知识库;基于所述信创知识库训练得到分类模型;采用所述分类模型对所述摘要进行分类,得到所述摘要在所述信创知识库中对应的标签;
信创产业研究报告生成模块,用于根据所述分类结果和时间段生成信创产业研究报告。
7.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为用于执行权利要求1-5任一项所述的方法。
8.一种信创知识库平台,其特征在于:采用权利要求1-5任一项所述的方法生成信创产业研究报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339719.7A CN116049385B (zh) | 2023-04-03 | 2023-04-03 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339719.7A CN116049385B (zh) | 2023-04-03 | 2023-04-03 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049385A CN116049385A (zh) | 2023-05-02 |
CN116049385B true CN116049385B (zh) | 2023-06-13 |
Family
ID=86133608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310339719.7A Active CN116049385B (zh) | 2023-04-03 | 2023-04-03 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049385B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
CN114925175A (zh) * | 2022-06-16 | 2022-08-19 | 平安科技(深圳)有限公司 | 基于人工智能的摘要生成方法、装置、计算机设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060026136A1 (en) * | 2004-02-04 | 2006-02-02 | Realtydata Corp. | Method and system for generating a real estate title report |
CN106227722B (zh) * | 2016-09-12 | 2019-07-05 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN109783794A (zh) * | 2017-11-14 | 2019-05-21 | 北大方正集团有限公司 | 文本分类方法及装置 |
CN112948543A (zh) * | 2021-02-20 | 2021-06-11 | 河海大学 | 基于加权TextRank的多语言多文档摘要抽取方法 |
-
2023
- 2023-04-03 CN CN202310339719.7A patent/CN116049385B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
CN114925175A (zh) * | 2022-06-16 | 2022-08-19 | 平安科技(深圳)有限公司 | 基于人工智能的摘要生成方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116049385A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Trupthi et al. | Sentiment analysis on twitter using streaming API | |
Ghosh et al. | Fracking sarcasm using neural network | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN117009524B (zh) | 一种基于舆情情感分析的互联网大数据分析方法及系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
Sandhiya et al. | A review of topic modeling and its application | |
Anupama et al. | Real time Twitter sentiment analysis using natural language processing | |
Alfreihat et al. | Emo-SL Framework: Emoji Sentiment Lexicon Using Text-Based Features and Machine Learning for Sentiment Analysis | |
Defersha et al. | Tuning hyperparameters of machine learning methods for afan oromo hate speech text detection for social media | |
CN114764463A (zh) | 基于事件传播特征的互联网舆情事件自动预警系统 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN116049385B (zh) | 一种生成信创产业研究报告的方法、装置和设备及平台 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Karanth et al. | Breaking Barriers in Text Analysis: Leveraging Lightweight OCR and Innovative Technologies for Efficient Text Analysis | |
Bhoir et al. | Resume Parser using hybrid approach to enhance the efficiency of Automated Recruitment Processes | |
Khadilkar et al. | A Knowledge Graph Based Approach for Automatic Speech and Essay Summarization | |
Le et al. | A multi-filter BiLSTM-CNN architecture for vietnamese sentiment analysis | |
Bembenik et al. | Towards automatic argument extraction and visualization in a deliberative model of online consultations for local governments | |
Darwin et al. | Sentimental Analysis Based on User Emotions Using Machine Learning | |
Tambe et al. | Abstractive Text Summarization using Deep Learning | |
Das et al. | Tagging of research publications based on author and year extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |