CN116069899A - 一种文本分析方法及系统 - Google Patents

一种文本分析方法及系统 Download PDF

Info

Publication number
CN116069899A
CN116069899A CN202211092217.0A CN202211092217A CN116069899A CN 116069899 A CN116069899 A CN 116069899A CN 202211092217 A CN202211092217 A CN 202211092217A CN 116069899 A CN116069899 A CN 116069899A
Authority
CN
China
Prior art keywords
database
files
information set
analysis
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211092217.0A
Other languages
English (en)
Other versions
CN116069899B (zh
Inventor
李丹妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Sidapu Planning And Design Consulting Service Co ltd
Original Assignee
Chongqing Sidapu Planning And Design Consulting Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Sidapu Planning And Design Consulting Service Co ltd filed Critical Chongqing Sidapu Planning And Design Consulting Service Co ltd
Priority to CN202211092217.0A priority Critical patent/CN116069899B/zh
Publication of CN116069899A publication Critical patent/CN116069899A/zh
Application granted granted Critical
Publication of CN116069899B publication Critical patent/CN116069899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分析方法,其通过根据多个第一标准文件构建多维标签池;并根据所述多维标签池分别为多个第二标准文件和多个第三文件自动匹配多维标签,根据所获取的分析条件,匹配得到多维标签的优先层级,并根据该优先层级顺序分别对多个第二标准文件和第三文件进行全文逻辑提取,分别得到相应的第一逻辑信息集和第二逻辑信息集;然后计算第二逻辑信息集与第一逻辑信息集的匹配度,并根据匹配度大于预设阈值的第二逻辑信息集自动生成第一分析报告。

Description

一种文本分析方法及系统
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本分析方法及系统。
背景技术
随着文本挖掘分析技术的日趋成熟,其在广电、金融、交通、零售等商业领域的应用越来越广泛。现有的文本分析方法,通常是根据同一词汇的词频高低关系,以及同一词汇的多引文来源匹配信息罗列,如文本分词、文本抽取、频次统计、高频筛选、高频词汇图谱展示。
例如,申请号为CN202110950273.2的中国发明专利申请公开了一种信息的处理方法,其通过数据源层收集获取数据信息,并将收集的数据信息整合至数据原始层,数据原始层分为第一数据库和企业数据库,第一数据信息存储至第一数据库,企业信息储存至企业数据库,对收集到的第一数据信息进行数据处理,得到相应的信息特征,对收集的企业信息进行数据处理,得到每个企业的信息特征,再通过特征信息词汇等为企业匹配合适的第一数据信息,通过构建的企业靶向模型进行相对应的第一数据信息推送。
再如,申请号为CN202210080919.0的中国发明专利申请公开了一种文本逻辑条件抽取AI模型构建方法、抽取方法及系统,其通过对训练文本进行序列片段的标准和序列片段之间的逻辑关系的标注,并构建序列片段特征和逻辑关系矩阵特征,然后进行模型训练以进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。
又如,专利号为CN202010362633.2的中国发明专利公开了一种用户零参与的科技文本分析报告自动构建系统及方法,其通过利用字段映射器对待分析科技文本进行11个维度的结构重组,并以二进制数据结构进行存储,然后利用数据解读器对分析结果进行解读输出一段文字描述、图形绘制器根据分析结果进行图形绘制、报告结构组织器对输出的分析报告的内容和结构进行限定和组织、报告撰写器按照报告结构组织器的描述符对分析报告进行撰写,遇到对应的描述符,调取所需的二进制数据结构数据,按照描述符的描述进行输出。
然而,上述的文本分析方法,缺少多词汇因果关系、层递关系、主次关系、空间关系等文本信息逻辑分析功能,不能应对相同文本根据上下文进行顺序关系即逻辑关系等机器学习,存在信息分析技术缺陷,并不满足如科学研究领域等对文本信息深度分析需要。
发明内容
本发明的目的在于提供一种文本分析方法和系统,部分地解决或缓解现有技术中的上述不足,能够对文本进行深度分析。
为了解决上述所提到的技术问题,本发明具体采用以下技术方案:
本发明的第一方面,在于提供一种文本分析方法,其包括步骤:
根据预设的第一数据库构建多维标签池;所述第一数据库包括多个第一标准文件;所述多维标签池的维度包括至少七维;
预先根据所述多维标签池分别为预设的第二数据库中多个第二标准文件和预设第三数据库中多个待分析第三文件自动匹配多维标签;
获取用户输入的分析条件,并根据所述分析条件匹配到多维标签的优先层级;
按照从最高优先层级到最低优先层级的顺序逐层级分别对所述第二标准文件和所述第三文件进行全文逻辑抽取,得到第一逻辑信息集和第二逻辑信息集;
计算所述第二逻辑信息集与所述第一逻辑信息集的匹配度,并判断所述匹配度是否达到预设阈值,若所述匹配度大于或等于预设阈值,根据所述第二逻辑信息集自动生成第一分析报告;
其中,所述第二标准文件的优先级大于所述第三文件的优先级。
在一些实施例中,所述方法还包括步骤:根据所述多维标签池对预设的第四数据库中的所有待分析第四文件进行全文逻辑抽取,得到第三逻辑信息集;对比分析所述第三逻辑信息集和所述第二逻辑信息集,并根据分析结果生成差异报告;在所述第一分析报告的基础上,结合所述差异报告生成第二分析报告。
在一些实施例中,所述第一数据库还包括多个所述第三文件,和/或,多个所述第四文件。
在一些实施例中,根据新的所述第一标准文件或所述第二标准文件或所述第三文件或所述第四文件动态更新所述多维标签池。
在一些实施例中,所述多维标签池的维度为七维,分别为:客观因素、区域、相关性、策略、机遇、扶持标准、时间。
本发明的第二方面,在于提供一种文本分析系统,其包括:存储模块,用于存储第一、二、三数据库,所述第一数据库包括多个第一文件,所述第二数据库包括多个第二文件,所述第三数据库包括多个第三文件,其中,所述第二文件的优先级大于所述第三文件的优先级;标签池构建模块,用于根据所述第一数据库中的所述第一文件构建多维标签池;所述多维标签池的维度包括至少七维;输入模块,用于用户输入分析条件;第一匹配模块,用于获取用户通过所述输入模块输入的分析条件,并根据所述分析条件匹配多维标签的优先层级;第一预处理模块,用于根据所述多维标签池分别为第二数据库的多个所述第二标准文件和第三数据库中多个第三文件自动匹配多维标签;第二预处理模块,用于根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,分别对所述第二数据库中多个第二标准文件和所述第三数据库中多个待分析所述第三文件进行全文逻辑抽取,得到第一逻辑信息集和第二逻辑信息集;第二匹配模块,用于计算所述第一逻辑信息集与所述第二逻辑信息集之间的匹配度,然后判断所述匹配度是否达到预设阈值;第一报告生成模块,用于当所述第二匹配模块判断出所述匹配度大于或等于所述预设阈值时,根据所述第一逻辑信息集自动生成第一分析报告。
在一些实施例中,所述存储模块还用于存储第四数据库,所述第四数据库包括多个待分析第四文件,相应地,所述文本分析系统还包括:第三预处理模块,用于根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,对所述第四数据库中的所述第四文件进行全文逻辑抽取,得到第三逻辑信息集;对比分析模块,用于对比分析所述第三逻辑信息集与所述第二逻辑信息集,并根据分析结果生成差异报告;第二报告生成模块,用于在所述第一分析报告的基础上,结合所述差异报告生成第二分析报告。
有益效果:1)通过构建多维标签池,然后通过该多维标签池分别对低优先级的所有待分析文件及高优先层级的标准文件进行全文本逻辑信息抽取,分别得到相应的逻辑信息集,并将待分析文件对应的逻辑信息集与对应标准文件的逻辑信息集进行匹配,从而得到符合该上一层级逻辑信息集要求的下一层级的逻辑信息集,进而根据该逻辑信息集和匹配结果自动生成相应的分析报告,实现了对待分析文件的全文逻辑分析。也即预先将所有相关文件全部纳入分析的范围,以避免通过关键词等方式进行文件筛查而导致遗漏(也即查全率降低)的情况;然后利用高优先层级的标准文件的逻辑信息集来剔除不符合标准的待分析文件(或数据),以排出干扰,也即在尽量保证一定查全率的前提下提高了分析的准确率;并且由于是的全文进行多维度的逻辑抽取,而并非关键词与关键词之间的逻辑匹配,实现对文件的深度分析。
2)基于关键词进行文本分析的方式,由于关键词有多种变型,并且随着社会的发展,尤其现在网络新潮词汇的快速更新,因此,通过关键词进行文本分析不仅会产生遗漏,例如,对于关键词“永远的神”,“YYDS”往往会被判定为异常值,又如,以前没有出现过的词汇“绿色发展”也会被判定为异常值,从而导致遗漏的情况。而本申请中,通过构建多维标签池对文件进行全文逻辑抽取,也即是说,除了标点符号外,全文都是关键词,从而避免遗漏的情况,大大保证了查全率;另一方面,通过高层级文件的逻辑信息集来层层排除掉较低层级文件中的不符合标准要求的文件,避免了噪声的干扰,也即在查全和查准之间取得一个平衡。进一步地,还可根据实时新增的文件来动态调整该多维标签池。
3)相较于进行特征挖掘、靶向模型分析等后,按照序列标注模型对敏感关键词语进行搜索和抽取的方式,本申请无需对文件进行预处理,并通过动态调整的多维标签池对全文本进行逻辑抽取,使得分析过程中,可根据实际需要进行动态调整或变化,大大提高了分析的灵活性。
4)相较于将待分析文本重组为二进制数据结构进行存储和解读的方式,由于将待分析文本进行二进制简化,并通过简单的“是”与“否”的单向判别输出和代入、层层删除的逻辑方法,无法解决空间、时间、领域、区域、多维算法的差时交叉和正反向迭代共存的需要,例如简单的二进制数据存储和解读,在单一逻辑中,对于判断否的二进制数据,不显示,此阶段不显示数据,在下一个单逻辑中,无法重新显示生成,由于过程数据丢失量大,极容易产生常识性错误结论。而本申请中,通过具有优先层级的多维标签对待分析文件进行全文的逻辑抽取,并对多维度数据首先进行类别判断,对于不同阶段(或不同优先层级)单一逻辑算法叠加后,形成的新数据池,会不断与类别原始数据进行重复交叉检验,并同步进入下一阶段(或下一优先层级)数据分析处理库,运用不同阶段(或不同优先层级)的标签处理,解决信息同质计算、非同质错误替代、信息遗漏等问题,满足差时数据交叉需要,解决常识性错误出现问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种文本分析方法的流程框图;
图2为本发明一示例性实施例的文本分析方法的流程图;
图3为本发明又一示例性实施例的文本分析方法的流程图;
图4为本发明再一示例性实施例的文本分析方法的流程图;
图5为本发明一种文本分析系统的功能模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本文中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本文中,“标准文件”是指各种具有方向性、指导性的文件。例如,关于某一研究专题的国家标准/规范等,也即优先层级最高的标准文件;关于前述研究课题的各省或各市或各区的标准/行业标准等,也即次优先层级的标准文件。根据不同的研究专题(或分析项目),标准文件之间有不同的优先层级。例如,可根据地域性来划分层级:国家级的标准文件优先层级最高,省市级的标准文件优先级次之,区县级的标准文件优先层级再次之,依次类推。又如,可根据相应技术领域的研究技术路径来划分优先层级,例如,针对生物领域,其包括多个技术分支:细菌、真菌、动植物···,而每个技术分支下又包括多个技术子分支,相应地,该技术分支对应的标准文件的优先层级高于该技术子分支对应标准文件的优先层级。在一些实施例中,该标准文件可预先通过爬虫技术等录入第一数据库中。
本文中,“待分析文件”是指根据上述具有方向性、指导性文件所完成的相关研究材料或实施相应项目的相关材料。例如,某区根据国家、省市、区级的城镇化建设标准文件,进行该区城镇化建设所对应的报告或材料,如城镇化建设进度报告和建设中的各计划等等。又如,某区或企业根据生物研究领域的各标准文件,进行生物研究时所得到的研究资料或报告或记录文件等。在另一些实施例中,该待分析文件也可以是优先层级最低的标准文件。
本文中“正类文件”是指当各待分析文件对应的逻辑信息集与对应的标准文件对应的逻辑信息集的匹配度达到预设阈值的文件,或者说,符合对应标准文件要求或执行标准的下一层级文件。相应地,匹配度小于预设阈值的文件,或者说,不符合相应标准文件(例如,上一层级文件)要求或执行标准的下一层级文件则为负类文件。例如,在其他维度都匹配的前提下,上一层级文件中的时间维度t的阈值为2020年-2022年,而下一层级文件的时间维度t为2020年-2021年(在2020-2022年范围内),也即匹配值为100%(大于预设阈值80%),则将该文件标记为正类文件。相应地,若其时间维度t为2020-2023年,即超出2020-2022年,或者,多个维度的逻辑信息子集不匹配,使得匹配值小于预设阈值,因此,将该文件标记为负类文件。
本文中,“全文逻辑抽取”是指从多个维度对各个文件进行信息抽取,从而得到该文件对应的多个维度的信息集合,并且,由于该多个维度之间具有一定的优先层级关系,且多个维度之间的优先层级关系可根据不同的分析目标/分析条件进行调整,因此,抽取得到的多个维度的数据集合,也即该文件对应的逻辑信息集。例如,通过七维标签池对待分析文件进行全文逻辑抽取,得到该文件对应的逻辑信息集,其包括:每个维度对应的逻辑信息子集。在一些实施例中,进行全文逻辑抽取时,先根据多维标签之间的优先层级进行文件筛选,然后再从筛选得到的正类文件进行相应维度的逻辑信息抽取;当然,也可以先对各文件进行多维度的逻辑信息抽取,然后再根据多维度标签之间的优先层级对抽取的逻辑信息进行筛选。
本文中“和/或”包括任何和所有一个或多个列出的相关项的组合。
本文中“多个”意指两个或两个以上,即其包含两个、三个、四个、五个等。
本发明的第一方面,在于提供一种多层级文件之间的文本分析方法,参见图1,该方法包括步骤:
S101,根据预设的第一数据库构建多维标签池,其中,该第一数据库包括多个第一标准文件。
在一些实施例中,可预先通过模型训练的方式来构建该多维标签池。具体地,该第一数据库中的第一标准文件包括训练样本集和测试样本集,并预先标记相应的多维标签(在另一些实施例中,还可根据不同的分析条件或不同的分析项目,为该多维标签标记不同的优先层级顺序),然后将标记有多维标签的训练样本集输入预先构建的深度学习模型,或者机器学习模型进行训练,从而得到标签自动学习模型,然后利用测试样本集对训练得到的标签自动学习模型进行测试,得到最终的多维标签自动学习模型,并利用该多维标签自动学习模型对该第一数据库中的各个标准文件自动匹配多维标签,进而得到相应的多维标签池。
例如,若该第一数据库中包括某一技术领域研究的各种国家标准文件,当利用该标签自动学习模型进行学习后,得到对应的多维标签池,从而使得可根据该多维标签池对相应的标准文件或待分析文件进行全文逻辑抽取。
在另一些实施例中,该第一数据库除了上述的第一标准文件外,也可包括第二标准文件、第三文件和第四文件等,以尽可能地使得丰富训练样本,从而提高标签自动学习模型的匹配标签的准确率。
在另一些实施例中,该第一数据库可预先划分多个专题子库,从而利用不同的专题子库进行训练得到不同专题对应的多维标签池或标签自动学习模型。
S102,预先根据多维标签池分别为预设的第二数据库中的多个第二标准文件和预设的第三数据中多个待分析第三文件自动匹配多维标签。
在一些实施例中,该第三数据库包括对应于某个专题的多个待分析文件。例如,A区进行“城镇化建设”过程中形成的建设进度报告、记录等文件。又如,B区进行母城建设过程中得到的相关文件。相应地,该第二数据库包括某专题待分析文件对应的各方向性、指导性的标准文件,或者说,该第二数据库为某一专题待分析文件对应的专题标准库。例如,某专题待分析文件为某市各区进行“城镇化建设”过程中形成的建设进度报告、记录等文件;而该第二数据库包括相应市级,和/或省级,和/或国家级针对“城镇化建设”所提出的相应的不同优先层级的指导性标准文件等,也即城镇化建设的专题标准库。又如,当待分析文件为某市各区进行“母城建设”相关的文件,而该第二数据库中包括了不同层级的各种具有指导性的关于“母城建设”的标准文件,也即母城建设的专题标准库。
在另一些实施例中,因为不同的分析专题,其对应的待分析文件不同,因此,该第二数据库中包括了不同分析专题对应的标准文件,第三数据库也包括了不同分析专题对应的待分析文件。例如,该第二数据库中包括了上述关于“城镇化建设”的所有指导性标准文件(即第一专题标准库),同时,也包括了上述关于“母城建设”的所有指导性标准文件(即第二专题标准库),还包括了关于“生物面料研究”的所有指导性标准文件(即第三专题标准库)等等,并且每个专题标准库都对应于预设的分类标签(当然,该分类标签也可是预先构建该专题标准库时由专家标注的,也可以是通过上述的标签自动学习模型自动匹配的)。相应地,该第三数据库也包括了这三个专题的待分析文件,即待分析的三个专题数据库。
S103,获取用户输入的分析条件,并根据该分析条件匹配相应的多维标签的优先层级。
在一些实施例中,该分析条件包括分析项目的关键词(或专题词),以及分析目的。例如,分析条件为“A区城镇化建设项目评估”,其中,分析项目的关键词为:A区、城镇化;分析目的为:项目评估。具体地,用户可通过用户界面键入关键词的方式,或者通过下拉菜单的方式,或者其他方式输入该分析条件。
在一些实施例中,预先根据不同的分析项目和分析目的设定了不同的优先层级,因此,当用户输入相应的分析条件后,系统将自动根据该分析条件匹配到相应的多维标签的优先层级。当然,在另一些实施例中,该多维标签的优先层级也可由用户根据实际需要进行调整。
在另一些实施例中,如前所述,当第二数据库包括多个专题标准库,第三数据库包括多个专题数据库,先根据该分析条件中的关键词匹配到相应的专题标准库/专题数据库,然后再匹配到该相应多维标签的优先层级。
具体地,每个专题标准库/专题数据库都预设有相应的分类标签(该分类标签可以是人工标记的,也可是通过机器学习自动标记的,也可以是通过上述构建的多维标签池自动匹配到的)。
S104,按照从最高优先层级到最低优先层级的顺序逐层级分别对第二数据库中多个第二标准文件和第三数据库中的多个待分析第三文件进行全文逻辑抽取,分别得到第一逻辑信息集和第二逻辑信息集。
在一些实施例中,利用该多维标签进行全文逻辑抽取的步骤,实际上也是对各标准文件和待分析文件进行筛选,并对筛选出的文件进行信息抽取的过程。即通过逐层级进行全文逻辑抽取的方式,使得每完成一个层级的筛选和抽取,就会得到新的数据池,即逐级剔除不符合要求的数据,大大降低了干扰数据。
S105,计算步骤S104中第二逻辑信息集与第一逻辑信息集的匹配度,并判断计算得到的匹配度是否达到预设阈值,若是执行步骤S106,否则结束。
在一些实施例中,由于第一逻辑信息集包括每个维度下的第一逻辑信息子集,第二逻辑信息集也包括每个维度下的第二逻辑信息子集,因此,计算匹配度时,先判断每个维度对应的第二逻辑信息子集与第一逻辑信息子集是否匹配,并根据每个维度的逻辑信息子集的匹配结果计算第二逻辑信息集与第一逻辑信息集之间的匹配度。具体地,该匹配度K的计算公式如下:
K=a1k1+a2k2+...aiki...+aNkN
其中,ki为第i个维度对应的第二逻辑信息子集与第i个维度的第一逻辑信息子集之间的匹配值,ai为第i个维度逻辑信息子集的权重值,N为维度,N≥7,且为正整数。
在一些实施例中,上述逻辑信息子集包括量化信息和非量化信息。其中,量化信息是指以具体阈值(例如最大值或最小值或者峰值等),或者,数值区间范围等可通过数值量化表征的信息。例如,时间t维度下的第一逻辑信息子集为2020-2025年,而时间t维度下的第二逻辑信息子集为2020-2024年)。其中,非量化数据是指不能够用具体阈值或区间范围等数值量化表征的信息,例如关键词,如区域维度下的地域名称,如XX市,或A区等。
在一些实施例中,若第二逻辑信息子集与对应维度的第一逻辑信息子集相匹配,则对应的匹配值ki取值为1,相应地,不匹配,则取值为0。在另一些实施例中,该第二逻辑信息子集与对应维度的第一逻辑信息子集的匹配值,为两者的匹配程度,例如,待分析文件中的某项指标的完成度,而其对应标准文件中有该项指标的规定目标。
在一些实施例中,逻辑信息子集的权重值ai可根据不同维度标签的优先层级进行调整,例如,优先层级高的,其对应逻辑信息子集的权重值较大。
在一些实施例中,该预设阈值可以是用户输入分析条件时设定的,也可以是对各标准文件进行逻辑抽取时抽取到的。
在一些实施例中,若匹配度未达到预设阈值,可由用户根据实际的分析项目调整该预设阈值;或者,调整维多标签的优先层级顺序等。
S106,根据第二逻辑信息集及上述匹配结果生成第一分析报告。
进一步地,该方法还包括步骤:
S107,按照从最高优先层级到最低优先层级的顺序逐层级对预设的第四数据库中的多个待分析第四文件进行全文逻辑抽取,得到第三逻辑信息集。
在一些实施例中,该第四数据库包括某个专题的多个待分析文件,但该第四数据库中的多个待分析文件与第三数据库中某个专题的多个待分析文件属于同一专题,但对应的是不同研究对象,或不同地域。例如,第三数据库中为A区进行“城镇化建设”过程中形成的建设进度报告、记录等文件;而第四数据库中为D区进行“城镇化建设”过程中形成的建设进度报告、记录等文件。优选地,该第四数据库中的多个待分析文件的第三逻辑信息集与其对应的标准文件的第一逻辑信息集的匹配度大于预设相应的预设阈值,且大于上述第二逻辑信息集与对应标准文件的第一逻辑信息集的匹配度。
在另一些实施例中,该第四数据库为上述第三数据库中的一个专题数据库。
在一些实施例中,该第三逻辑信息集包括每个维度对应的第三逻辑信息子集。
S108,对比分析所第三逻辑信息集和第二逻辑信息集,并根据分析结果生成差异报告。
在一些实施例中,进行对比分析时,将同一维度对应的逻辑信息子集进行对比。
S109,在第一分析报告的基础上,结合差异报告生成第二分析报告。
在一些实施例中,上述第一数据库、第二数据库、第三数据库和第四数据库可为同一个数据库,或者合并为一个数据库。
进一步地,该第一数据库中的文件(例如,第一文件、第二文件、第三文件、第四文件等)是动态更新的,相应地,根据该第一数据库中新增的文件动态调整该多维标签池。通过动态可调多维标签池,大大增加了后续文本分析过程中的灵活性。
在一些实施例中,对该多维标签池的动态调整包括:调整多维标签池中各维标签之间的优先层级,或者,量化类标签的阈值范围,或者该标签池中标签的具体维度,例如,七维可调整得到八维或更多维度。
下面结合具体实施例和附图对本发明的文本分析方法进行详细说明。
实施例一
本发明示例性实施例以A区的生物面料开发为示例进行说明。参见图2,为本发明一示例性实施例的文本分析方法的流程图,具体地,该方法包括步骤:
S201,预先根据第一数据库中的多个关于生物研究的标准文件构建七维标签池。
在一些实施例中,该第一数据库中的该标准文件包括各种关于生物研究的标准文件:国际标准化组织制定的关于生物研究的各类标准,例如,(ISO/TS 23105-2021生物技术.生物库.研究和开发用植物生物材料的生物库要求、ISO 14199:2015健康信息学-信息模型-生物医学研究综合领域组(Bridg)模型等;各国关于生物研究的标准,例如,XX国标准学会制定的关于生物研究的标准:BS ISO 14199-2015健康信息学-信息模型-生物医学研究集成域组(BRIDG)模型等;以及各市关于生物研究的标准,例如,XX市市场监督管理局指定的关于生物研究的标准:DB4403/T 86-2020涉及人的生物医学研究伦理审查规范;NP EN12128-2000生物技术类-生物工程研究,开发及分析实验室,微生物实验室的密封级别,风险范围以及相关物理安全要求等;XXX市质量技术监督局制定的DB31/T 899-2015涉及人的生物医学研究伦理审查规范等等。优选地,按照国际、国家、省市、区县等地域层级划分各标准文件的优先层级,其中,国家层级的标准文件的优先级最高。
在一些实施例中,可通过网络爬虫技术来获取上述各标准文件。
在一些实施例中,该步骤S101中通过模型训练的方式来构建该七维标签池。具体地,预先从该第一数据库中的各标准文件标记相应的七维标签,然后将标记有七维标签的各标准文件进行模型训练,从而得到标签自动学习模型,并利用该标签自动学习模型对个标准文件进行学习,进而得到七维标签池。
在一些实施例中,该七维标签具体包括:factor-基本事实或,客观存在的因素,例如,植物量、植物生长量、土壤墒情、土壤酸碱度、气候气温等;R-区域,例如,XX市或YY市;relevant-相关性,例如,山水林田湖草沙;tactics-策略,例如,优种培育、基本农田保护等;tactics-策略,例如,优种培育、基本农田保护等;O-机遇,例如,纺织产品交易价格等;g-扶持标准;t-时间,例如,五年计划:2020年-2025年。
S202,预先根据上述的七维标签池分别为第二数据库中的多个动植物分支的标准文件和第三数据库中多个生物面料研究报告(即第三文件)自动匹配七维标签。
在一些实施例中,该第二数据库包括各种关于生物面料开发研究下动植物分支的标准文件,并预先通过七维标签池为多个标准文件自动匹配相应的七维标签,得到:
标签factor:皮/毛/角/根/茎/叶等;
标签R:全球/全国/区属省市/A区;
标签相关性(relevant):山/水/林/田/湖/草/沙/algorithm91(纤维生产周期算法部分示例);
标签tactics:data(tag fiber quantity)max1min1;max2min2;max3min3;……;
标签O:data choice algorithm92;
标签g:data in entropy(A区);
标签t:data free。
在一些实施例中,该第三数据库中为某市某区相应的生物面料开发实施方案及其实施进度材料等。
在另一些实施例中,该第三数据库中为某市某区指定的相应的标准文件,也即该第三数据库中为最低优先层级的标准文件。
S203,获取用户输入的分析条件,并根据该分析条件匹配相应的多维标签的优先层级。
在一些实施例中,该分析条件为:生物面料开发方案(即分析专题:生物面料;分析目的:开发方案),由于开发方案需要全方面考虑各个标准文件,因此,匹配到各维度标签的优先层级为:factor>relevant>R>tactics>g>o>t。
在另一些实施例中,该分析条件为:A区生物面料开发评估(即关键词包括:专题词-生物面料、区域-A区;分析目的-开发方案评估),由于是针对某一地区进行针对性的评估,因此,地域标签的优先层级应该最高,也即匹配到各维度标签的优先层级:R>factor>relevant>tactics>g>o>t。当然,用户也可根据实际需要进行调整。
S204,按照从最高优先层级到最低优先层级的顺序逐层级分别对第二数据库中多个动植物分支标准文件和第三数据库中的多个植物研究报告进行全文逻辑抽取,得到相应的第一逻辑信息集和关于各植物研究报告的第二逻辑信息集。
在一些实施例中,该第一逻辑信息集包括:“纯素皮革市场应用推广”、“植物剩余资源利用循环化”、“纺织面料国家标准”、“蘑菇菌丝细胞培养”、“木屑、咖啡渣、果皮、仙人掌植物纤维合成”、“基本农田保护”、“XXYY地区双城经济圈高质量蔬菜带建设”、“average棉纤维含量”、“average棉纤维染色度”、“verage动物皮革利用意愿”、“average化学纤维防腐度”等。
在一些实施例中,该第二逻辑信息集包括:min蘑菇纤维量,min蘑菇纤维染色度;trend纯素皮革利用意愿;min蘑菇纤维防腐度等。
S205,计算第二逻辑信息集与上述第一逻辑信息集之间的匹配度,并判断匹配度是否达到预设阈值,若是,执行步骤S206,否则结束。
在一些实施例中,计算A区的生物面料开发研究报告对应的第二逻辑信息集与上述第一逻辑信息集之间是否匹配,具体地,包括:
判断A区的生物面料开发研究报告中蘑菇纤维量是否大于第一逻辑信息集中的average棉纤维含量,若是,则判断匹配,并输出匹配值为1;
判断A区的生物面料开发研究报告中min蘑菇纤维染色度是否大于第一逻辑信息集中的average棉纤维染色度,若是,则判断匹配,并输出匹配值为1;
判断A区的生物面料开发研究报告中trend纯素皮革利用意愿是否大于第一逻辑信息集中的average动物皮革利用意愿,若是,则判断匹配,并输出匹配值为1;
A区的生物面料开发研究报告中min蘑菇纤维防腐度是否大于第一逻辑信息集中的average化学纤维防腐度,若是,则判断匹配,并输出匹配值为1;
······
由此可知,该匹配度K=a1*1+a2*1+...aiki...+aN*0=0.8。
在一些实施例中,预设阈值为0.75,由于步骤S205中计算得到A区的生物面料开发研究方案与其对应的标准文件的匹配度为0.8,也即该生物面料开发研究方案符合相应的规定要求,并符合行业标准,因此,执行步骤S207。
在另一些实施例中,当判断出计算的匹配度未达到预设阈值时,可根据用户调整的各维标签的优先层级顺序重新对该第二数据库中的待分析文件进行信息提取。
在另一些实施例中,当判断出计算的匹配度未达到预设阈值时,可根据实际需要调整量化类标签对应的各阈值范围;或者调整上述的预设阈值。
S206,根据上述第二逻辑信息集自动生成对应的第一评价报告。
在一些实施例中,该第一评价报告如下:
一、A区可利用纤维植物产量特征分析
(一)基本农田结构现状
2022年,A区可利用基本农田总规模XX亩,植物种植面积XX亩,产量XX万吨/各年度,呈上升趋势。
(二)植物种植历史及技术情况
1.植物种植品类
2.植物种植气候适宜度
3.菌类种植品类
4.菌类种植适宜度
5.种植技术升级度
(三)可利用品类分析
1.品类纤维量分析
2.品类纤维量适用度
3.可开发品类评估筛选
二、菌类纤维可开发因素分析
1.纯素皮革市场空间
2.纯素皮革需求空间
3.技术开发升级匹配能力
4.技术人员及硬件配套综合匹配
三、菌丝项目研判分析
项目情景A
投资额:XX万元
建筑面积:XX平方公里
人力需求:XX人/X技术能级
产量:XX万吨
生态足迹:XX平方米
生态承载评估:高/中/低
风险评估:高/中/低
项目情景B
……
实施例二
本发明示例性实施例以“城乡融合建设项目评估”为示例进行说明。具体地,参见图3,该方法包括步骤:
S301,根据预设的第一数据库中的关于“城乡融合建设”的标准文件构建七维标签池。
在一些实施例中,该第一数据库中的该标准文件包括各种关于“城乡融合建设项目”的指导性标准文件。
在一些实施例中,可通过网络爬虫技术来获取上述各文件。
在一些实施例中,通过模型训练的方式来构建该七维标签池。具体地,预先从该第一数据库中的各标准文件标记相应的七维标签,然后将标记有七维标签的各文件进行模型训练,从而得到标签自动学习模型,并利用该标签自动学习模型对个标准文件进行学习,进而得到七维标签池。
在一些实施例中,该七维标签池具体包括:factor-基本事实或,客观存在的因素,例如,农业转移人口市民化数量、返乡创业人口数量、返乡创业人群的子女教育程度、医疗服务每千人床位数、人均住房面积、社保覆盖率、就业规模等;R-区域,例如,全国/XX市/A区;relevant-相关性,例如,产业产值、企业新增数量、城区基建投资额度等;tactics-策略,例如,项目方案、体制机制创新等;O-机遇,例如,第三批项目等;g-扶持标准;t-时间,例如,项目开始时间>2016年。
S302,预先根据上述的七维标签池分别对第二数据库中ZZ市关于“城乡融合建设”的多个标准文件,以及第三数据库中A区关于“城乡融合建设”的多个实施进度文件自动匹配七维标签。
在一些实施例中,由于对A区的城乡融合建设项目进行评估通过是首先判断其是否符合市级要求,因此,该第二数据库中只需要有相应市级的标准文件即可。
在一些实施例中,利用七维标签池对该第二数据库中的标准文件自动匹配七维标签:
标签factor=data warehouse人口流动/城市建设/城市公共服务/产业园区/教育/医疗/应急/社会保障等;
标签R=data choice全球/全国/区属省市/A区;
标签relevant=data warehouse产业产值/企业新增数量/安全城市建设投入/水利建设投资额度/algorithm81(农村产权相关周期算法部分示例);
标签tactics=data(tag人均收入/人均面积/人均绿地/人均床位/人均学位)max1min1;max2min2;max3min3;……;
标签o=data choice algorithm82;
标签g=data in entropy(A区);
标签t=data free。
当然,在另一些实施例中,该第二数据库中还可以包括省级的标准文件、国家级的标准文件。也即,对A区的城乡融合建设项目进行评估,除了要判断该A区的城乡融合建设项目是否符合市级要求外,还需要判断其是否符合省级要求,和/或,国家要求等。
S303,获取用户输入的分析条件,并根据该分析条件匹配相应的多维标签的优先层级。
在一些实施例中,该分析条件为:对A区城镇化融合建设进行评估,由于是针对A区进行评估,也即区域优先级最高,而城镇化融合建设通常都有时间要求规定,则匹配得到七维标签的优先层级为:R>t>factor>relevant>tactics>g>o。
S304,按照从最高优先层级到最低优先层级的顺序逐层级分别对第二数据库中的标准文件和第三数据库中的待分析文件进行全文逻辑抽取,分别得到第一逻辑信息集和第二逻辑信息集。
在一些实施例中,首先从第二数据库中剔除不是ZZ市A区的标准文件,即第一子集,然后从该第一子集中排除不符合时间维度t标签对应条件的标准文件,得到第二子集,再从该第二子集中排除不符合客观事实维度factor标签的标准文件,得到第三子集···依次类推,最终得到目标标准文件集,并进行全文逻辑抽取,得到第一逻辑信息集包括:“有序推进农业转移人口市民化”、“推进新型城市建设”、“提升城市承载能力”、“建设新型工业化示范区”、“大力发展现代服务业”、“五大任务及50项子任务”、“average市级培训新增比例”、“average前五年年度医疗卫生投资额度”、“average市级财政公共服务投入增长率”、“average市级社保覆盖率”、“average全国文化古城保护完成度”、“average国家空气质量优良天数”等。同理,根据七维标签对第三数据库进行全文逻辑抽取,得到第二逻辑信息集包括:“min年度创业培训人员新增比例”、“min年度医疗卫生投资额度”、“trend财政增量公共服务投入增长率”、“min社保覆盖率”、“min文化古城保护工作完成度”、“trend空气质量优良天数”等。
在另一些实施例中,由于还需要判断其是否符合省级要求,和国家要求,因此,进行全文逻辑抽取时,先从第二数据库中剔除不是ZZ市的标准文件(例如,其他城市YY市的标准文件),然后利用七维标签进行全文逻辑抽取。也即,利用七维标签对同一专题对应的不同层级的标准文件进行逻辑抽取,从而得到该专题对应的包括不同层级的标准文件的逻辑信息集。
S305,计算第二逻辑信息集与上述第一逻辑信息集之间的匹配度,并判断匹配度是否达到预设阈值,若是,执行步骤S306,否则执行步骤S307。
在一些实施例中,计算第二逻辑信息集与第一逻辑信息集之间是否匹配,具体地,包括:
判断min年度创业培训人员新增比例是否大于average市级培训新增比例,若是,则判断匹配,并输出匹配值为1;
判断min年度医疗卫生投资额度是否大于average前五年年度医疗卫生投资额度,若是,则判断匹配,并输出匹配值为1;
判断trend财政增量公共服务投入增长率是否大于average市级财政公共服务投入增长率,若是,则判断匹配,并输出匹配值为1;
判断min社保覆盖率是否大于average市级社保覆盖率,若是,则判断匹配,并输出匹配值为1;
判断min文化古城保护工作完成度是否大于average全国文化古城保护完成度,若是,则判断匹配,并输出匹配值为1;
判断trend空气质量优良天数是否大于average国家空气质量优良天数,若是,则判断匹配,并输出匹配值为1;
······
在一些实施例中,在进行逻辑信息集匹配时,将根据匹配结果得到相应的短板,也即相应逻辑信息子集与标准文件对应的逻辑信息子集并不匹配,例如,判断出:
A区的城市公共绿地面积<标准文件中预设的2600万平方米、A区的城市立体绿化面积<标准文件中预设的60万平方米、A区的建成区绿化覆盖率<标准文件中预设的50%、A区的人均公园绿地面积<标准文件中预设的30平方米···;相应地,各子集的匹配值被置为0,并基于这部分逻辑信息子集得到该A区城镇化融合建设的短板信息。
在另一些实施例中,由于该第一逻辑信息集包括不同层级的标准文件的逻辑信息集,因此,在计算匹配度时,分别计算不同层级的标准文件对应的逻辑信息集与上述第二逻辑信息集之间的匹配度,并判断该匹配度是否达到相应层级标准文件对应的预设阈值。
当然,在另一些实施例中,当判断出匹配度未达到预设阈值时,也可调整多维标签的优先层级,或者预设阈值,然后,再执行步骤S304。
S306,根据匹配度达到预设阈值的第二逻辑信息集自动生成第一评估报告。
在一些实施例中,该第一评估报告包括基本评估情况,以及相应的优势信息和短板信息(以实现预警的目的),其中,短板信息是基于未与标准文件的逻辑信息子集相匹配的逻辑信息子集生成的(例如,第二逻辑信息集中匹配值为0的逻辑信息子集),相应地,优势信息是基于与标准文件的逻辑信息子集相匹配的逻辑信息子集生成(例如,第二逻辑信息集中匹配值为1)。具体地,生成的该第一评估报告可以从该第二逻辑信息集中直接抽取相关字符,也可从第一逻辑信息集中抽取相关字符进行重组生成。
在另一些实施例中,由于分别计算不同层级的标准文件对应的逻辑信息集与上述第二逻辑信息集之间的匹配度。当然,也可根据该分析项目为该第二逻辑信息集与每个层级标准文件对应逻辑信息集之间的匹配度设置相应的权重,然后判断所有层级对应的匹配度之总和是否达到预设总阈值,若达到则生成该第一评估报告。
S307,按照从最高优先层级到最低优先层级的顺序逐层级分别对第四数据库中的优秀城镇化融合建设项目的建设进度文件进行全文逻辑抽取,得到第三逻辑信息集,并对比分析该第三逻辑信息集和第二逻辑信息集,得到差异性报告。
在一些实施例中,为了给出合理的建议,或者找到出现短板信息的原因,还可利用其他优秀城镇化融合建设项目的进度研究报告进行对比分析,具体地,利用上述七维标签对该优秀城镇化融合建设项目的进度研究报告进行全文逻辑抽取,得到相应的第三逻辑信息集,并将其与上述第二逻辑信息集进行对比分析(具体地的对比分析可采用其与第一逻辑信息集的对比方式,这里不再赘述)。
在一些实施例中,该差异性报告包括该优秀城镇化融合建设项目所采取的措施,而在A区城镇化融合建设中并没有出现的,也即空白点:“凡在特色小镇示范点投资创业、务工的,本人及共同生活的配偶、父母、未成年子女等可申请登记城镇常住户口”“争取市级转移人口奖励资金和基础设施投资补助资金,学校实行零收费,并与本地户籍学生享有同等的接受奖励、资助等权益”等等。
S308,根据上述第一评估报告和该差异性报告自动生成第二评估报告。
在一些实施例中,该第二评估报告,如下:
一、A区新型城镇化综合建设情况评估
按照《A区新型城镇化综合建设工作实施方案》要求,本次评估重点对“有序推进农业转移人口市民化”、“推进新型城市建设”、“提升城市承载能力”、“建设新型工业化示范区”、“大力发展现代服务业”五大任务及50项子任务的完成情况进行评估。本次评估主要采用目标一致性评估方式,通过文本分析法、实地调查法、专家咨询法等调查分析方法,实施情况及完成进度,结合各责任单位自查,总结A区新型城镇化进展,分析A区新型城镇化综合建设工作中存在的主要问题及原因。以2020年底为时间截止点,核定50个子任务的事实依据,对完成情况进行“全面完成”、“基本完成”、“未完成”三种判定,其中“全面完成”指所有指标均达到或超过目标值;“基本完成”指主要和关键指标达到目标值,其他指标存在接近目标值情况,工作推进有力效果显著,证据充分;“未完成”指大部分指标未达到目标值或工作推进证据不足,对因标准变动产生的任务调整需提供证据。根据综合评价结果,工作任务“全面完成”共计14项,占比28%;“基本完成”32项,占比64%;“没有完成”4项,占比8%。
(一)分领域重点任务评估
1.“有序推进农业转移人口市民化”任务基本完成
(1)畅通农业转移人口进城落户通道。包括“积极引导人口转移”等子项任务共计3项,评价均为“基本完成”。
……
2.“推进新型城市建设”任务一半以上全面完成
(5)建设生态宜居城市。包括“城市公园及动植物多样化”“水资源和水系保护”等子项任务共计2项,均为“基本完成”。水生态保护方面,2018年通过“全国水生态文明城市”验收,河段长制建立,渝西水资源配置工程动工。
(6)建设文化古城。“形成60万平方米仿古建筑”工作任务基本完成。通过挖掘A区1200多年历史“故事”,再现A区人文精神和民俗风情,在城市中植入人文元素,合理布局古建筑空间,已建成投用古道湾及配套设施建设项目20万平方米。
(7)建设绿色节能城市。包括“新能源汽车推广应用”“环境治理能力现代化”“节能改造”等子任务共计5项,其中“环境治理能力现代化”“节能改造”2项为全面完成,其余3项均为“基本完成”。···环境治理方面,空气质量优良天数逐年递增并突破300天,达到314天,同比增加19天,超出年度目标任务14天,增幅位于全市前列;···污染地块安全利用率达100%。
二、A区新型城镇化综合建设工作短板不足和存在问题
(25)农业转移人口体制机制创新方面仍需深化。实施方案提出的“凡在特色小镇示范点投资创业、务工的,本人及共同生活的配偶、父母、未成年子女等可申请登记城镇常住户口”“争取市级转移人口奖励资金和基础设施投资补助资金,学校实行零收费,并与本地户籍学生享有同等的接受奖励、资助等权益”等任务没有完成……
(26)城市建设仍有短板。生态城市建设方面,2600万平方米城市公共绿地面积、60万平方米城市立体绿化面积、50%建成区绿化覆盖率、30平方米人均公园绿地面积这四项指标未完成···等建设任务未能完成。城市交通建设方面,8公里/平方公里城市建成区平均路网密度未能实现。
(27)产业发展仍需提速。“市级、国家级循环经济园区,争创国家循环经济示范城市”“争创全市新能源汽车推广应用运营示范区”任务未能完成。高新区规上工业产值仅达到650.1亿元,增长8.2%,未能实现任务目标。旅游及相关产业增加值占地区生产总值仅为3.0%,未完成既定5%的目标值;6大类、50个旅游项目建设未能完成。商贸流通领域,商贸物流配送体系、粮油收储供应体系等领域开展相应项目未能推进。
三、优化完善新型城镇化建设的举措建议
……
实施例三
本发明示例性实施例以A区碳排放项目实施方案路径研究为示例进行说明。参见图4,为本发明一示例性实施例的文本分析方法的流程图,具体地,该方法包括步骤:
S401,根据预设的第一数据库中的各个关于碳排放项目建设目标的指导性文件(即第一标准文件)构建七维标签池。
S402,步骤S401所构建的七维标签池对预设的第二数据库中某市关于碳排放项目建设目标的相关第二标准文件自动匹配七维标签。
在一些实施例中,该第二数据库与上述第一数据库中的标准文件相同,或者,为第一数据库的一个子集。
S403,根据步骤S401所构建的七维标签池对预设的第三数据库中某市下A区关于碳排放项目建设目标的第三文件自动匹配七维标签。
在一些实施例中,该七维标签为:
标签factor=data warehouse工业/服务业/农业/城市/科技/人口/山水林田湖草沙/;
标签R=data choice全球/全国/区属省市/A区;
标签relevant=data warehouse企业产出/人口增长/循环周期algorithm1(碳领域周期算法部分示例
标签tactics=data(tag ecology)max1 min1;max2min2;max3min3;……
标签o=data choice algorithm2(碳排驱动力算法部分示例
标签g=data in entropy(A区);
标签t=data>=2019。
S404,获取用户输入的分析条件,并根据该分析条件匹配相应的七维标签的优先层级。
在一些实施例中,该分析条件为:A区碳排放项目实施方案路径分析,其中,A区和碳排放为用户在用户界面键入的关键词(如专题词),实施方案路径分析为用户在用户界面选择的分析目的。相应地,根据该分析条件,系统根据该分析条件为七维标签匹配到的优先层级为:t>g>factor>R>tactics>o>relevant。
S405,按照从最高优先层级到最低优先层级的顺序逐层级分别对碳排放项目建设目标的标准文件和碳排放项目建设的待分析文件进行全文逻辑抽取,分别得到第一逻辑信息集和第二逻辑信息集。
在一些实施例中,该第一逻辑信息集包括:“系统推进制造业向产业结构高端化、能源消费低碳化、资源利用循环化、生产过程清洁化、生产方式数字化转型”、“推进XX新能源换电模式成为国家标准”、“建设新能源汽车核心零部件产业园”、“港城工业园提档升级”、“建设超低能耗建筑、近零能耗建筑、低碳(零碳)建筑示范”、“系统化推进海绵城市建设”、“可持续的城市绿色更新模式”、“推动北站—A区高铁公交化”、“创建区属省市生态产品交易平台”、“average区属省市综合能源消费量”、“min单领域区属省市能源消费量”、“average区属省市二氧化碳总排放量tCO2”、“average区属省市工业过程排放tCO2”、“Proportion天然气n”等等。
在一些实施例中,该第二逻辑信息集包括:综合能源消费量tce、max单领域能源消费量、trend二氧化碳总排放量tCO2、max工业过程排放tCO2、Proportion天然气n+1等等。
S406,计算第二逻辑信息集与上述第一逻辑信息集的匹配度,并判断该匹配度是否达到预设阈值,若是,执行步骤S407,否则结束。S407,根据匹配度达到预设阈值的第二逻辑信息集自动生成对应的第一分析报告。
在一些实施例中,该第一分析报告可以从该第二逻辑信息集中提取相关内容,和/或从该第二逻辑信息集对应的标准文件或待分析文件中提取相应的信息进行组合得到,例如:
一、A区能源消费及碳排放现状特征分析
(一)能源消费及结构现状
1.能源消费总量总体下降
2016-2020年,A区各年度能源消费总量分别为232.25万tce、243.78万tce、254.67万tce、262.79万tce、260.75万tce,各年度同比增长率分别为5.01%、4.46%、3.19%、-0.78%。2016年以来,A区能源消费总量总体呈上升趋势。能耗强度分比为0.27tce/万元、0.25tce/万元、0.24tce/万元、0.23tce/万元、0.22tce/万元,呈下降趋势,远低于市级能耗强度。
(二)二氧化碳排放历史及现状
1.二氧化碳排放总体情况
2016-2020年,A区碳排放总量持续上升,碳强度持续降低,A区工业过程排放为0,总碳排放量即为能源活动所含碳排放量。2020年排放总量达到364.76万吨二氧化碳,A区碳排放总量2016年到2018年增加,2019年开始下降,2020年持续降低。
2016年-2020年碳强排放度由0.44下降至2020年的0.31吨二氧化碳/万元(2015年不变价)。2016年-2020年A区碳排放强度均低于区属省市碳排放强度
……
(三)重点产业领域碳排放现状
1.重点产业碳排放现状
A区一产碳排放占比较低,基本保持稳定小幅下降,二产碳排放呈上下波动,2016年至2028年逐年上升,2019年大幅下降后2020年稳步上升。三产总体呈上升趋势。
2.重点领域碳排放情况
A区主要排放的重点领域为建筑领域、工业领域、交通领域,其中2020年,建筑领域占比最大,占比55.5%;工业领域,占比24.78%,交通领域占比19.70%,农业领域为0.02%。
……
二、碳排放项目驱动因素分析
1.在能源维度,碳减排贡献率最大的时段为2019—2020,贡献率为122.15%。
2.在城市发展维度,2020—2021年贡献碳排放份额最大,为127.03万吨,贡献率为514.27%
……
三、碳排放项目目标研判分析
表一 碳排放项目达标情景A
表二 碳排放项目达标情景
表三 碳排放项目达标情景C
四、碳排放项目行动路径
1.加快推动支柱产业绿色低碳转型。以汽车、电子电器、生物医疗传统支柱产业为重点,引导产业链向绿色低碳转型。推动汽车产业向新能源和智能网联方向突破,实施“新能源+智能”项目,加强新能源智能汽车的技术开发、配套设施建设和运营服务体系构建……
实施例四
基于上述的文本分析方法,本发明还提供一种文本分析系统,下面结合具体实施例和附图进行详细说明。
参见图5,为本发明一示例性实施例的文本分析系统的功能模块图,具体地,该文本分析系统包括:
存储模块,用于存储第一、二、三数据库,其中,第一数据库包括多个第一文件,第二数据库包括多个第二文件,第三数据库包括多个第三文件,且该第一文件的优先级大于第二文件的优先级,第二文件的优先级大于第三文件的优先级;当然,在一些实施例中,该第一数据库也可包括多个第二文件和/或第三文件,或者该第一数据库、第二数据库、第三数据库结合为一个数据库;
标签池构建模块,用于根据上述第一数据库中的多个第一文件构建多维标签池;多维标签池的维度包括至少七维;优选地,该多维标签池的维度为七维,分别为客观因素、区域、相关性、策略、机遇、公开、时间;
输入模块,用于用户输入分析条件;或者调整多维标签的优先层级;
第一匹配模块,用于获取用户通过所述输入模块输入的分析条件,并根据所述分析条件匹配多维标签的优先层级;
第一预处理模块,用于根据上述多维标签池分别为第二数据库的多个第二文件和第三数据库中的待分析文件自动匹配多维标签;
第二预处理模块,根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,分别对所述第二数据库中多个第二标准文件和所述第三数据库中多个待分析所述第三文件进行全文逻辑抽取,得到第一逻辑信息集和第二逻辑信息集;
第二匹配模块,用于计算上述第一逻辑信息集与上述第二逻辑信息集之间的匹配度,然后判断该匹配度是否达到预设阈值;
第一报告生成模块,当所述第二匹配模块判断出所述匹配度大于或等于所述预设阈值时,根据所述第一逻辑信息集自动生成第一分析报告。
在一些实施例中,上述存储模块还用于存储第四数据库,且第四数据库包括多个第四文件,该第四文件的优先级与上述第三文件的优先级相同。
进一步地,在另一些实施例中,该文本分析系统还包括:
第三预处理模块,用于根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,对四数据库中的各个第四文件进行全文逻辑抽取,得到第三逻辑信息集;
对比分析模块,用于对比分析第三逻辑信息集与第二逻辑信息集,并根据分析结果生成差异报告;
第二报告生成模块,用于在上述第一分析报告的基础上,结合该差异报告生成第二分析报告。
进一步地,在另一些实施例中,该文本分析系统还包括:
数据更新模块,用于根据第一数据库中新增的第一文件或第二文件,或第三文件动态更新多维标签池。具体地,可以是更新该多维标签池的维度,和/或,相应维度的阈值或条件等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台计算机终端(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种文本分析方法,其特征在于,包括步骤:
预先根据预设的第一数据库构建多维标签池;所述第一数据库包括多个第一标准文件;所述多维标签池的维度包括至少七维;
预先根据所述多维标签池分别为预设的第二数据库中多个第二标准文件和预设第三数据库中多个待分析第三文件自动匹配多维标签;
获取用户输入的分析条件,并根据所述分析条件匹配到多维标签的优先层级;按照从最高优先层级到最低优先层级的顺序逐层级分别对所述第二标准文件和所述第三文件进行全文逻辑抽取,得到第一逻辑信息集和第二逻辑信息集;计算所述第二逻辑信息集与所述第一逻辑信息集的匹配度,并判断所述匹配度是否达到预设阈值,若所述匹配度大于或等于预设阈值,根据所述第二逻辑信息集自动生成第一分析报告;
其中,所述第二标准文件的优先级大于所述第三文件的优先级。
2.根据权利要求1所述的方法,其特征在于,还包括步骤:
根据所述多维标签池对预设的第四数据库中的所有待分析第四文件进行全文逻辑抽取,得到第三逻辑信息集;
对比分析所述第三逻辑信息集和所述第二逻辑信息集,并根据分析结果生成差异报告;
在所述第一分析报告的基础上,结合所述差异报告生成第二分析报告。
3.根据权利要求1或2所述的方法,其特征在于,所述第一数据库还包括多个所述第三文件,和/或,多个所述第四文件。
4.根据权利要求3所述的方法,其特征在于,根据新的所述第一标准文件或所述第二标准文件或所述第三文件或所述第四文件动态更新所述多维标签池。
5.根据权利要求1所述的方法,其特征在于,所述多维标签池的维度为七维,分别为:客观因素、区域、相关性、策略、机遇、扶持标准、时间。
6.一种文本分析系统,其特征在于,包括:
存储模块,用于存储第一、二、三数据库,所述第一数据库包括多个第一标准文件,所述第二数据库包括多个第二标准文件,所述第三数据库包括多个待分析第三文件,其中,所述第二标准文件的优先级大于所述第三文件的优先级;
标签池构建模块,用于根据第一数据库中的所述第一标准文件构建多维标签池;所述多维标签池的维度包括至少七维;
输入模块,用于用户输入分析条件;
第一匹配模块,用于获取用户通过所述输入模块输入的分析条件,并根据所述分析条件匹配多维标签的优先层级;
第一预处理模块,用于根据所述多维标签池分别为第二数据库的多个所述第二标准文件和第三数据库中多个第三文件自动匹配多维标签;
第二预处理模块,用于根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,分别对所述第二数据库中多个第二标准文件和所述第三数据库中多个待分析所述第三文件进行全文逻辑抽取,得到第一逻辑信息集和第二逻辑信息集;
第二匹配模块,用于计算所述第一逻辑信息集与所述第二逻辑信息集之间的匹配度,然后判断所述匹配度是否达到预设阈值;
第一报告生成模块,用于当所述第二匹配模块判断出所述匹配度大于或等于所述预设阈值时,根据所述第一逻辑信息集自动生成第一分析报告。
7.根据权利要求6所述的系统,其特征在于,所述存储模块还用于存储第四数据库,所述第四数据库包括多个待分析第四文件,相应地,所述文本分析系统还包括:
第三预处理模块,用于根据所述第一匹配模块所匹配到的优先层级顺序,按照从高到低的顺序逐层级,对所述第四数据库中的所述第四文件进行全文逻辑抽取,得到第三逻辑信息集;
对比分析模块,用于对比分析所述第三逻辑信息集与所述第二逻辑信息集,并根据分析结果生成差异报告;
第二报告生成模块,用于在所述第一分析报告的基础上,结合所述差异报告生成第二分析报告。
8.根据权利要求6所述的系统,其特征在于,所述第一数据库还包括多个所述第二文件和/或,多个所述第三文件。
9.根据权利要求6所述的系统,其特征在于,还包括:数据更新模块,用于根据所述第一数据库中新增的所述第一标准文件或所述第二标准文件,或所述第三文件动态更新所述多维标签池。
10.根据权利要求6所述的系统,其特征在于,所述多维标签池的维度为七维,分别为:客观因素、区域、相关性、策略、机遇、扶持标准、时间。
CN202211092217.0A 2022-09-08 2022-09-08 一种文本分析方法及系统 Active CN116069899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211092217.0A CN116069899B (zh) 2022-09-08 2022-09-08 一种文本分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211092217.0A CN116069899B (zh) 2022-09-08 2022-09-08 一种文本分析方法及系统

Publications (2)

Publication Number Publication Date
CN116069899A true CN116069899A (zh) 2023-05-05
CN116069899B CN116069899B (zh) 2023-06-30

Family

ID=86180930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211092217.0A Active CN116069899B (zh) 2022-09-08 2022-09-08 一种文本分析方法及系统

Country Status (1)

Country Link
CN (1) CN116069899B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794277A (zh) * 2010-03-01 2010-08-04 苏州数字地图网络科技有限公司 一种网络文字信息中嵌入地理标签的方法及系统
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
US10467252B1 (en) * 2012-01-30 2019-11-05 DiscoverReady LLC Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
CN112559865A (zh) * 2020-12-15 2021-03-26 泰康保险集团股份有限公司 信息处理系统、计算机可读存储介质及电子设备
CN113836381A (zh) * 2021-09-30 2021-12-24 广东南方信息安全研究院 一种系统评分覆盖度调优方法
CN114510566A (zh) * 2021-11-29 2022-05-17 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) 基于工单的热词挖掘、分类和分析的方法和系统
CN114611489A (zh) * 2022-01-24 2022-06-10 企知道网络技术有限公司 文本逻辑条件抽取ai模型构建方法、抽取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794277A (zh) * 2010-03-01 2010-08-04 苏州数字地图网络科技有限公司 一种网络文字信息中嵌入地理标签的方法及系统
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
US10467252B1 (en) * 2012-01-30 2019-11-05 DiscoverReady LLC Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
CN112559865A (zh) * 2020-12-15 2021-03-26 泰康保险集团股份有限公司 信息处理系统、计算机可读存储介质及电子设备
CN113836381A (zh) * 2021-09-30 2021-12-24 广东南方信息安全研究院 一种系统评分覆盖度调优方法
CN114510566A (zh) * 2021-11-29 2022-05-17 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) 基于工单的热词挖掘、分类和分析的方法和系统
CN114611489A (zh) * 2022-01-24 2022-06-10 企知道网络技术有限公司 文本逻辑条件抽取ai模型构建方法、抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIM LOUGHRAN等: "textual analysis in accounting and finance:a survey", JOURNAL OF ACCOUNTING RESEARCH, pages 1187 - 1230 *
刘丽员;杨昔阳;: "基于文本相关性的高校网络舆情监控系统的设计与实现", 泉州师范学院学报, vol. 34, no. 02, pages 50 - 54 *
张雪;孙宏宇;辛东兴;李翠平;陈红;: "自动术语抽取研究综述", 软件学报, vol. 31, no. 07, pages 2062 - 2094 *

Also Published As

Publication number Publication date
CN116069899B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
McGuckin et al. The longitudinal research database (LRD): Status and research possibilities
Lin et al. A historical introduction to grey systems theory
Copus et al. Approaches to rural typology in the European Union
Tonietto et al. Toward a carbon neutral campus: A scalable approach to estimate carbon storage and biosequestration, an example from University of Michigan
Ladi et al. Applications of machine learning and deep learning methods for climate change mitigation and adaptation
Jin et al. Mapping Chinese land system types from the perspectives of land use and management, biodiversity conservation and cultural landscape
CN116069899B (zh) 一种文本分析方法及系统
Harris et al. Community-based social impact assessment: the case of salmon-recovery on the lower Snake River
Waseem et al. Impact assessment of urban pull-factors to cause uncontrolled urbanization: evidence from Pakistan
Costa et al. Product and service innovation in Portugal: patterns and specificities
Brewer et al. The potential supply of cropland
Zhang et al. [Retracted] Environmental Quality Optimization of Sustainable Rural Revitalization Strategy Based on Improved Genetic Algorithm
Xiaoli et al. A spatial decision support system for land-use structure optimization
CN112699933A (zh) 用户教学素材加工处理能力自动识别方法及系统
Hariyanti et al. Economic transformation based on Leading Commodities through sustainable development of the oil palm industry
Zhou et al. Knowledge Framework and Evolution of Fuzzy Portfolio Research: A Bibliometric Analysis
Retnowardhani et al. Review Study of Business Intelligence to Support Strategic Decision Making
Elharari Iceberg Theory in Entrepreneurship: The Different Factors Affecting an Investment Decisions
Panwar Role of Data Warehousing & Data Mining in E-Goverance
Liu et al. RETRACTED ARTICLE: Detection of PM2. 5 in mountain air based on fuzzy multi-attribute and construction of folk sports activities
Hesami Identification of effective dimensions on forecasting urban planning with economic approach
Begum et al. The Role of Women’s Participation in Participation in Co-Management of the Sundarban Mangrove Forest of Bangladesh
Rajapaksha et al. Analysis of the ‘Toll Free Agricultural Advisory Service’Data as Decision Support Tool for the Department of Agriculture
Lai Research on the Application of Decision Tree in Mobile Marketing
Asemi et al. Systematic Review and Propose an Investment Type Recommender System Using Investor’s Demographic Using ANFIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant