CN117875706A - 一种基于ai的评级工艺数字化管理方法 - Google Patents

一种基于ai的评级工艺数字化管理方法 Download PDF

Info

Publication number
CN117875706A
CN117875706A CN202410006595.5A CN202410006595A CN117875706A CN 117875706 A CN117875706 A CN 117875706A CN 202410006595 A CN202410006595 A CN 202410006595A CN 117875706 A CN117875706 A CN 117875706A
Authority
CN
China
Prior art keywords
data
rating
rating process
generate
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410006595.5A
Other languages
English (en)
Inventor
方园
毛继恩
蒋申
郑惠文
张祺
王卓林
柯志平
牛海洋
方深田
钟亚剑
梁永寿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Securities Pengyuan Credit Rating Co ltd
Original Assignee
China Securities Pengyuan Credit Rating Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Securities Pengyuan Credit Rating Co ltd filed Critical China Securities Pengyuan Credit Rating Co ltd
Priority to CN202410006595.5A priority Critical patent/CN117875706A/zh
Publication of CN117875706A publication Critical patent/CN117875706A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数字管理技术领域,尤其涉及一种基于AI的评级工艺数字化管理方法。所述方法包括以下步骤:获取评级工艺数据源;对评级工艺数据源进行数据预处理,生成标准评级工艺数据;对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据;基于预设的语料库对评级工艺聚合数据进行文本分类,生成评级工艺文本分类数据;对评级工艺文本分类数据序列标注模型训练,生成序列标注智能模块;本发明通过数据处理、智能文本处理、纠错审核和风险预测等步骤,解决了评级工艺管理中的数据问题、文本分析困难和风险预测挑战,提高了纠错的准确性。

Description

一种基于AI的评级工艺数字化管理方法
技术领域
本发明涉及数字管理技术领域,尤其涉及一种基于AI的评级工艺数字化管理方法。
背景技术
评级工艺数字化管理领域一直是金融与企业管理中的重要组成部分。早期,这一领域依赖于传统的手工处理、人工审核和基本的数据分析方法。然而,随着信息技术的发展和人工智能的兴起,数字化管理迎来了革命性的转变。随着自然语言处理技术的进步,管理者开始尝试将其应用于评级工艺中。这种技术使得处理文本数据和理解语义变得更加高效和准确。同时,文本纠错和智能化审核工具的出现进一步提升了数据处理的质量和速度。近年来,基于AI的评级工艺数字化管理方法不断演进,不再局限于单一领域。它整合了数据挖掘、自然语言处理、深度学习、大数据分析等多种技术,实现了从数据获取、清洗、修复到智能化处理、风险预测等全流程自动化。然而目前的评级工艺对于文本的智能纠错与审核以及审核规则构建仍然无法解决原始纠错报告难以量化、规范化的问题,导致纠错的准确性较低。
发明内容
基于此,有必要提供一种基于AI的评级工艺数字化管理方法,以解决至少一个上述技术问题。
为实现上述目的,一种基于AI的评级工艺数字化管理方法,所述方法包括以下步骤:
步骤S1:获取评级工艺数据源;对评级工艺数据源进行数据预处理,生成标准评级工艺数据;对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据;
步骤S2:基于预设的语料库对评级工艺聚合数据进行文本分类,生成评级工艺文本分类数据;对评级工艺文本分类数据序列标注模型训练,生成序列标注智能模块;将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据;
步骤S3:通过错误识别API对第二智能抽取结果数据进行文本智能纠错,生成评级工艺智能纠错数据;对文本语义错误识别数据进行文本智能纠错,生成智能纠错报告;
步骤S4:对智能纠错报告进行审核逻辑规则构建,生成评级工艺审核规则;基于评级工艺审核规则对评级工艺智能纠错数据进行历史数据收集,生成历史工艺评级数据;利用历史工艺评级数据进行模型训练,从而得到风险分析审查模型;将工艺评级数据源导入至风险分析审查模型进行评级风险预测,生成评级风险报告。
本发明通过对评级工艺数据源进行预处理和修复,可以解决数据中可能存在的不一致性和错误,从而提高数据的一致性,数据修复阶段有助于修复评级工艺数据中的缺失或损坏,进而提升数据的质量。高质量的数据对于后续的分析和应用至关重要。通过将评级工艺修复数据和标准评级工艺数据进行合并,生成评级工艺聚合数据,可以建立一个更为综合和全面的数据视图。这有助于对整个评级工艺系统有更深入的理解,修复和合并数据有助于提高数据的准确性。这对于评级工艺系统的可靠性和稳定性至关重要。生成的评级工艺聚合数据可能为决策制定提供更好的支持。决策者可以依据更完整、一致和准确的数据做出更明智的决策。通过对评级工艺数据进行深入的处理和合并,可能揭示出一些优化的机会。这可以帮助组织更好地理解评级工艺,并采取措施改进和优化。通过文本分类和序列标注,系统可以自动对评级工艺聚合数据进行分类和结构化,从而使得原本非结构化或半结构化的数据变得更易管理和理解,序列标注模型的训练和文本分类的应用可以提高数据抽取的准确性。这有助于确保从文本中提取的信息是正确的,减少了手动错误的可能性。自动抽取和分类过程可以大幅提高处理大量数据的效率。这对于大规模评级工艺聚合数据的处理特别有用,能够在较短时间内完成复杂的结构化任务。通过使用错误识别API,系统可以检测和纠正第二智能抽取结果中的文本错误,从而提高数据的准确性。这对于确保从数据中提取的信息是准确的和可信的至关重要,错误识别API的应用使得错误修复变得更加自动化,减轻了人工进行纠错的负担。这有助于提高效率和降低人工成本,智能纠错可以帮助提高文本的质量,使其更加规范和易于理解。不仅仅是拼写和语法错误,错误识别API的语义错误识别功能可以进一步提高对文本意义的理解,确保提取的信息在语境中是合理和一致的。对智能纠错报告进行审核逻辑规则构建,有助于制定一套系统化的审核标准,确保评级工艺的合规性和准确性,基于评级工艺审核规则对智能纠错数据进行历史数据收集,生成历史工艺评级数据。这有助于建立对过去评级工艺表现的全面了解,并为后续的模型训练提供丰富的数据源,利用历史工艺评级数据进行模型训练,得到风险分析审查模型。这使得系统能够不断学习和适应新的评级工艺,提高其对复杂情境的适应能力。因此,本发明通过数据处理、智能文本处理、纠错审核和风险预测等步骤,解决了评级工艺管理中的数据问题、文本分析困难和风险预测挑战,提高了纠错的准确性。
本发明的有益效果在于通过对评级工艺数据的预处理、修复和合并,系统生成了标准评级工艺数据和聚合数据。这有助于确保数据的一致性、准确性和可比性,为后续的分析提供高质量的输入。基于语料库的文本分类和序列标注模型,系统能够从评级工艺聚合数据中提取结构化信息。这有助于自动化数据提取过程,减少了手动劳动,并提高了数据处理的效率。通过人工复核对第一智能抽取结果数据的审查,系统进一步提高了数据的准确性和可信度,生成了更为精确的第二智能抽取结果数据。利用错误识别API对抽取结果进行文本智能纠错,有助于消除语法、拼写等方面的错误,提高了数据的质量。生成的智能纠错报告为用户提供了对数据修复过程的透明度。对智能纠错报告进行审核逻辑规则构建,有助于制定一套系统化的审核标准。这确保了对评级工艺数据的审查符合特定标准,提高了数据审核的一致性和可靠性。利用评级工艺审核规则对智能纠错数据进行历史数据收集,并通过这些数据进行模型训练。这使系统能够学习过去的经验,不断提升对评级工艺的理解和处理能力。基于历史工艺评级数据训练风险分析审查模型,系统能够进行评级风险预测。这有助于及早发现潜在问题,并采取相应的纠正措施,提高了评级工艺的可靠性和合规性。通过生成评级风险报告,系统为决策者提供了清晰的风险状况和建议。这有助于在决策时考虑评级工艺的各个方面,提高了决策的科学性和准确性。因此,本发明通过数据处理、智能文本处理、纠错审核和风险预测等步骤,解决了评级工艺管理中的数据问题、文本分析困难和风险预测挑战,提高了纠错的准确性。
附图说明
图1为一种基于AI的评级工艺数字化管理方法的步骤流程示意图;
图2为图1中步骤S2的详细实施步骤流程示意图;
图3为图2中步骤S21的详细实施步骤流程示意图;
图4为图1中步骤S3的详细实施步骤流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
为实现上述目的,请参阅图1至图4,一种基于AI的评级工艺数字化管理方法,所述方法包括以下步骤:
步骤S1:获取评级工艺数据源;对评级工艺数据源进行数据预处理,生成标准评级工艺数据;对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据;
步骤S2:基于预设的语料库对评级工艺聚合数据进行文本分类,生成评级工艺文本分类数据;对评级工艺文本分类数据序列标注模型训练,生成序列标注智能模块;将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据;
步骤S3:通过错误识别API对第二智能抽取结果数据进行文本智能纠错,生成评级工艺智能纠错数据;对文本语义错误识别数据进行文本智能纠错,生成智能纠错报告;
步骤S4:对智能纠错报告进行审核逻辑规则构建,生成评级工艺审核规则;基于评级工艺审核规则对评级工艺智能纠错数据进行历史数据收集,生成历史工艺评级数据;利用历史工艺评级数据进行模型训练,从而得到风险分析审查模型;将工艺评级数据源导入至风险分析审查模型进行评级风险预测,生成评级风险报告。
本发明通过对评级工艺数据源进行预处理和修复,可以解决数据中可能存在的不一致性和错误,从而提高数据的一致性,数据修复阶段有助于修复评级工艺数据中的缺失或损坏,进而提升数据的质量。高质量的数据对于后续的分析和应用至关重要。通过将评级工艺修复数据和标准评级工艺数据进行合并,生成评级工艺聚合数据,可以建立一个更为综合和全面的数据视图。这有助于对整个评级工艺系统有更深入的理解,修复和合并数据有助于提高数据的准确性。这对于评级工艺系统的可靠性和稳定性至关重要。生成的评级工艺聚合数据可能为决策制定提供更好的支持。决策者可以依据更完整、一致和准确的数据做出更明智的决策。通过对评级工艺数据进行深入的处理和合并,可能揭示出一些优化的机会。这可以帮助组织更好地理解评级工艺,并采取措施改进和优化。通过文本分类和序列标注,系统可以自动对评级工艺聚合数据进行分类和结构化,从而使得原本非结构化或半结构化的数据变得更易管理和理解,序列标注模型的训练和文本分类的应用可以提高数据抽取的准确性。这有助于确保从文本中提取的信息是正确的,减少了手动错误的可能性。自动抽取和分类过程可以大幅提高处理大量数据的效率。这对于大规模评级工艺聚合数据的处理特别有用,能够在较短时间内完成复杂的结构化任务。通过使用错误识别API,系统可以检测和纠正第二智能抽取结果中的文本错误,从而提高数据的准确性。这对于确保从数据中提取的信息是准确的和可信的至关重要,错误识别API的应用使得错误修复变得更加自动化,减轻了人工进行纠错的负担。这有助于提高效率和降低人工成本,智能纠错可以帮助提高文本的质量,使其更加规范和易于理解。不仅仅是拼写和语法错误,错误识别API的语义错误识别功能可以进一步提高对文本意义的理解,确保提取的信息在语境中是合理和一致的。对智能纠错报告进行审核逻辑规则构建,有助于制定一套系统化的审核标准,确保评级工艺的合规性和准确性,基于评级工艺审核规则对智能纠错数据进行历史数据收集,生成历史工艺评级数据。这有助于建立对过去评级工艺表现的全面了解,并为后续的模型训练提供丰富的数据源,利用历史工艺评级数据进行模型训练,得到风险分析审查模型。这使得系统能够不断学习和适应新的评级工艺,提高其对复杂情境的适应能力。因此,本发明通过数据处理、智能文本处理、纠错审核和风险预测等步骤,解决了评级工艺管理中的数据问题、文本分析困难和风险预测挑战,提高了纠错的准确性。
本发明实施例中,参考图1所述,为本发明一种基于AI的评级工艺数字化管理方法的步骤流程示意图,在本实例中,所述一种基于AI的评级工艺数字化管理方法包括以下步骤:
步骤S1:获取评级工艺数据源;对评级工艺数据源进行数据预处理,生成标准评级工艺数据;对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据;
本发明实施例中,通过获取评级工艺数据源,数据源可能包括数据库、文件、API或其他数据存储形式。数据可以是结构化的,比如数据库表格,也可以是非结构化的,如文本文件或日志。数据预处理包括数据清洗、去重、缺失值处理、异常值处理等。这一步骤旨在确保数据的质量和一致性,如果数据包含多个来源,可能需要标准化字段名称、单位或数据格式,以便统一处理。数据修复可能包括缺失值填充、异常值处理、错误修正等操作,基于数据的统计分析或机器学习算法可以用来填补缺失值或识别并纠正异常值。将修复后的数据与标准数据进行合并,生成包含完整信息的评级工艺聚合数据集,数据合并可能需要基于某些唯一标识符(例如ID)将数据源进行整合。
步骤S2:基于预设的语料库对评级工艺聚合数据进行文本分类,生成评级工艺文本分类数据;对评级工艺文本分类数据序列标注模型训练,生成序列标注智能模块;将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据;
本发明实施例中,通过将语料库划分为训练集和测试集。训练集用于模型训练,测试集用于评估模型性能,使用词袋模型、TF-IDF(词频-逆文档频率)、word embeddings(词嵌入)等方法将文本数据转换为数值向量表示,可采用机器学习方法(如朴素贝叶斯、支持向量机、深度学习模型如循环神经网络、卷积神经网络等)进行文本分类模型的训练。使用已标注的序列数据,比如序列标注数据集,作为训练和验证的数据来源,序列标注模型可以采用诸如条件随机场(CRF)、循环神经网络(RNN)、长短期记忆网络(LSTM)、转换器(Transformer)等。通过训练这些模型来学习文本序列的结构信息。使用已训练好的文本分类模型和序列标注模型对评级工艺聚合数据进行处理。首先进行文本分类,然后使用序列标注模型进行信息抽取,提取标签、关键信息或实体,将文本数据转化为结构化的形式,比如将文本中的关键信息映射到数据库字段或表格中。人工对第一智能抽取结果进行检查,验证其准确性。发现错误或不准确的地方进行修正,反馈到智能模块中,用于改进模型或流程,通过人工修正形成的数据集,可以用作进一步训练模型的补充数据。
步骤S3:通过错误识别API对第二智能抽取结果数据进行文本智能纠错,生成评级工艺智能纠错数据;对文本语义错误识别数据进行结果可视化,生成智能纠错报告;
本发明实施例中,通过确保已经安装了所需的库,例如requests(用于API请求)、matplotlib(用于结果可视化)、pandas(用于数据处理)等,使用错误识别API提供的访问凭证,向API发送请求并获取纠错后的文本。结合错误识别API返回的纠错后的文本和第二智能抽取的其他结果,生成评级工艺智能纠错数据,将文本语义错误识别数据进行可视化。这可以包括使用matplotlib绘制差异对比图,以直观展示文本修正的地方。利用pandas等工具,将纠错数据整合为报告。这可以是一个表格,包含原始文本、纠正后的文本、错误识别的类型等信息,生成智能纠错报告。
步骤S4:对智能纠错报告进行审核逻辑规则构建,生成评级工艺审核规则;基于评级工艺审核规则对评级工艺智能纠错数据进行历史数据收集,生成历史工艺评级数据;利用历史工艺评级数据进行模型训练,从而得到风险分析审查模型;将工艺评级数据源导入至风险分析审查模型进行评级风险预测,生成评级风险报告。
本发明实施例中,通过审核逻辑规则是为了检查评级工艺智能纠错数据是否符合特定的标准。这可以包括文本结构、语法、业务规则等方面。规则的构建通常需要领域专业知识,将审核逻辑规则应用于评级工艺智能纠错数据,生成历史工艺评级数据。这可以是一个标签化的数据集,其中包含输入文本、纠正后的文本、审核结果等。使用历史工艺评级数据训练机器学习模型。这可以是一个二元分类问题,其中目标是预测是否符合审核逻辑规则。选择合适的特征工程和模型架构。将评级工艺数据源导入训练好的模型中,进行评级风险预测。根据预测的风险,生成评级风险报告。报告可以包括风险概要、具体风险点以及建议的改进措施。
优选的,步骤S1包括以下步骤:
步骤S11:获取评级工艺数据源;对评级工艺数据源进行数据源识别,得到评级工艺识别数据源;
步骤S12:通过网络API对评级工艺识别数据源进行数据筛选,生成初始评级工艺数据集;对初始评级工艺数据进行数据清洗,生成评级工艺清洗数据;对评级工艺清洗数据进行数据格式化,生成评级工艺格式化数据;
步骤S13:对评级工艺格式化数据进行数据类型识别,生成评级工艺类型数据;通过评级工艺类型数据对评级工艺格式化数据进行数据标准化,从而生成标准评级工艺数据;
步骤S14:对标准评级工艺数据进行数据质量评估,生成数据质量评估数据;利用缺失值填充方法通过数据质量评估数据对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据。
本发明通过获取原始的评级工艺数据来源,通过网络API对评级工艺数据源进行筛选,可能是根据特定的参数或标准来过滤数据,以生成初始的评级工艺数据集,对初始数据进行清洗,可能包括去除重复项、处理异常值或错误数据,以生成评级工艺清洗数据。将清洗过的数据按照特定格式整理,以生成评级工艺格式化数据。基于确定的数据类型,对格式化数据进行标准化处理,以生成标准评级工艺数据,使数据在整体上更一致和易于处理。对标准评级工艺数据进行质量评估,可能包括检查数据完整性、准确性和一致性,生成数据质量评估数据。通过网络API对评级工艺数据源进行筛选,可能是根据特定的参数或标准来过滤数据,以生成初始的评级工艺数据集。通过缺失值填充等方法,对评估出的数据质量问题进行修复,生成评级工艺修复数据。将修复后的数据与原始标准评级工艺数据合并,形成评级工艺聚合数据,这样可以获得更完整和修复后的数据集合。
本发明实施例中,通过获取原始的评级工艺数据来源,可能涉及从不同来源(数据库、文件、API等)获取原始的评级工艺数据,这些数据可能包含有关某个过程或系统的评级信息,对获取的数据源进行分析和识别,以了解数据的结构、特性和质量。这个步骤有助于后续的处理和分析,确保理解数据的背景和含义。使用网络API通过特定的请求和参数对评级工艺数据源进行筛选,以获取符合条件的数据,形成初始评级工艺数据集,清洗数据涉及处理缺失值、异常值、重复项等,以确保数据质量。这可能包括数据清理和规范化操作,将清洗过的数据按照事先定义的格式进行整理,以确保数据的一致性和易于理解。分析格式化数据,确定各个字段的数据类型,如文本、数字、日期等,为后续的处理和分析提供基础,基于确定的数据类型,对格式化数据进行标准化操作,确保数据在整体上保持一致性,这包括单位转换、命名规范等。对标准评级工艺数据进行全面的质量评估,包括检查数据的完整性、准确性、一致性和可靠性等方面,基于评估结果,采用相应的方法对数据质量问题进行修复,可能包括缺失值填充、异常值处理等,将修复后的数据与原始标准评级工艺数据合并,生成评级工艺聚合数据。这样的合并有助于获得更完整、一致且具备高质量的数据集。
优选的,步骤S2包括以下步骤:
步骤S21:基于预设的语料库对评级工艺聚合数据进行智能文档数据抽取,生成评级工艺智能抽取数据;
步骤S22:对评级工艺智能抽取数据进行场景特征提取,生成评级工艺场景特征提取数据;将评级工艺场景特征提取数据进行文本分类,生成评级工艺文本分类数据,其中评级工艺文本分类数据包括章节定位数据、段落抽取数据和表格抽取数据;
步骤S23:通过基础分类器对章节定位数据、段落抽取数据和表格抽取数据进行分类特征向量转换,生成文本分类特征向量数据;根据文本分类特征向量数据进行分类模型训练,生成文本分类智能模块;
步骤S24:通过序列标注技术对章节定位数据、段落抽取数据和表格抽取数据进行序列标注特征向量转换,生成文本序列标注特征向量数据;根据文本序列标注特征向量数据进行序列标注模型训练,生成序列标注智能模块;
步骤S25:将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据。
本发明通过利用预设的语料库,使用智能抽取技术从评级工艺聚合数据中提取关键信息,这可以包括关键词、短语、或其他语义信息,提高了从大量文本中提取信息的效率,减少了人工提取的工作量。从智能抽取数据中提取场景相关的特征,可能包括上下文、关键词等,对场景特征提取数据进行分类,将其分为不同的类别,例如章节定位、段落抽取和表格抽取,使系统能够理解文本中不同部分的作用,为后续处理提供更多上下文信息。将章节定位、段落抽取和表格抽取数据转换为分类模型可以理解的特征向量,使用转换后的特征向量对基础分类器进行训练,生成文本分类智能模块,使系统能够在新的评级工艺数据上进行准确的分类,提高了分类的精度。将章节定位、段落抽取和表格抽取数据转换为序列标注模型可以理解的特征向量,使用转换后的特征向量对序列标注模型进行训练,生成序列标注智能模块,使系统能够理解文本中不同部分的序列关系,提高了对文本结构的理解能力。将文本分类智能模块和序列标注智能模块应用于评级工艺聚合数据,生成第一智能抽取结果数据,即结构化的信息,对第一智能抽取结果数据进行人工复核,验证其准确性和完整性,从而生成第二智能抽取结果数据,结合了智能和人工的优势,确保了提取结果的高质量和可信度。
作为本发明的一个实例,参考图2所示,在本实例中所述步骤S2包括:
步骤S21:基于预设的语料库对评级工艺聚合数据进行智能文档数据抽取,生成评级工艺智能抽取数据;
本发明实施例中,通过构建一个包含大量文本数据的语料库,其中可能包括与评级工艺相关的文档、报告、手册等,确保语料库具有多样性,覆盖不同领域和主题,以提高抽取模型的泛化能力。对评级工艺聚合数据进行文本清洗,去除噪音、特殊字符等,进行分词、词性标注等预处理步骤,以便更好地理解文本的语义。根据任务需求,选择合适的特征,例如词袋模型、TF-IDF(词频-逆文档频率)、词嵌入等,可以使用预训练的词向量模型,如Word2Vec、GloVe或BERT,来捕捉词语之间的语义关系。使用信息抽取技术,例如基于规则的抽取、模式匹配、基于统计的方法或机器学习模型,机器学习模型可以包括传统的分类器(如支持向量机、随机森林)或深度学习模型(如循环神经网络、卷积神经网络)。划分数据集为训练集和测试集,使用训练集对信息抽取模型进行训练,并使用测试集进行性能评估,进行模型调优,可能涉及调整超参数、特征选择等。评估模型的性能,包括准确率、召回率、F1分数等指标,根据评估结果对模型进行优化,可能需要重新调整参数、增加训练数据或改进特征工程。
步骤S22:对评级工艺智能抽取数据进行场景特征提取,生成评级工艺场景特征提取数据;将评级工艺场景特征提取数据进行文本分类,生成评级工艺文本分类数据,其中评级工艺文本分类数据包括章节定位数据、段落抽取数据和表格抽取数据;
本发明实施例中,通过理解评级工艺智能抽取数据的结构和内容,确定需要提取的场景特征,例如关键词、短语、实体等。根据场景特征的性质,选择适当的特征提取方法。可能的方法包括TF-IDF、词嵌入、主题建模等,考虑使用预训练的模型(如BERT)来提取更高层次的语义信息。针对每个评级工艺智能抽取数据,使用选择的特征提取方法提取相关的场景特征,这可以涉及从文本中提取关键短语、实体,计算词频、词向量等。为评级工艺场景特征提取数据创建标签,指示每个数据点的分类。标签可以是章节定位、段落抽取或表格抽取等。将数据集划分为训练集和测试集,确保两者的类别分布相似,选择适当的文本分类模型,例如朴素贝叶斯、支持向量机、深度学习模型(如卷积神经网络、循环神经网络)等,考虑使用预训练的模型,如BERT、GPT,以提高性能。使用训练集对文本分类模型进行训练,根据需要进行模型调优,调整超参数以提高性能。使用测试集对模型进行评估,计算准确率、召回率、F1分数等指标。使用测试集对模型进行评估,计算准确率、召回率、F1分数等指标。
步骤S23:通过基础分类器对章节定位数据、段落抽取数据和表格抽取数据进行分类特征向量转换,生成文本分类特征向量数据;根据文本分类特征向量数据进行分类模型训练,生成文本分类智能模块;
本发明实施例中,通过将章节定位数据、段落抽取数据和表格抽取数据需要进行预处理,如去除停用词、词干提取、标记化等,对预处理后的数据应用特征提取方法,如词袋模型(Bag-of-Words)、TF-IDF、词嵌入(Word Embeddings)等,针对每个数据类型(章节定位、段落、表格),应用相应的特征提取方式。将提取的特征转换为向量表示,以便用于分类器的训练。这可能涉及将文本数据转换为稀疏矩阵或密集向量。准备与文本特征向量对应的标签,指示每个向量的分类,选择适当的分类器作为基础分类器。常用的包括朴素贝叶斯、支持向量机、决策树、随机森林等,对于深度学习方法,可以考虑使用卷积神经网络(CNN)、循环神经网络(RNN)、BERT等预训练模型,使用特征向量数据和对应的标签对分类模型进行训练,生成文本分类智能模块。
步骤S24:通过序列标注技术对章节定位数据、段落抽取数据和表格抽取数据进行序列标注特征向量转换,生成文本序列标注特征向量数据;根据文本序列标注特征向量数据进行序列标注模型训练,生成序列标注智能模块;
本发明实施例中,通过对章节定位数据、段落抽取数据和表格抽取数据进行预处理,包括分词、标记化、词性标注等,将每个文本数据中的词语、句子或段落与其对应的标签进行配对。将文本数据中的词语或标记转换为特征向量。通常使用的方法是将词语转换为词嵌入向量(Word Embeddings),如Word2Vec、GloVe或使用预训练的词向量模型(如BERT)进行特征提取。对于每个词语或句子,需要将其对应的序列标注标签进行编码。例如,对于命名实体识别(NER)任务,可能使用BIO(Begin,Inside,Outside)或BIOES(Begin,Inside,Outside,End,Single)标签方案来标注实体。选择合适的序列标注模型,例如循环神经网络(RNN)、长短时记忆网络(LSTM)、双向长短时记忆网络(BiLSTM)、转换器(Transformer)、条件随机场(CRF)等,用于处理序列标注任务。设计并构建序列标注模型,将特征向量输入模型中进行训练,可以使用深度学习框架(如TensorFlow、PyTorch)或者使用现有的库(如NLTK、spaCy)来实现模型。使用已标注的训练数据对模型进行训练。在训练过程中,模型会学习如何根据输入的特征向量预测每个词语或句子的标签,生成序列标注智能模块。
步骤S24:通过序列标注技术对章节定位数据、段落抽取数据和表格抽取数据进行序列标注特征向量转换,生成文本序列标注特征向量数据;根据文本序列标注特征向量数据进行序列标注模型训练,生成序列标注智能模块;
本发明实施例中,通过收集并准备章节定位数据、段落抽取数据和表格抽取数据。这些数据可以是已经标注好的数据集,或者是需要进行标注的未标注数据集。数据中的每个文本段落应该与其所属的章节、段落或表格相关联。将文本数据进行分词,将句子或段落分割成标记化的词语。根据任务需求,选择适当的词嵌入技术将词语转换为向量表示。可以使用预训练的词向量模型(如Word2Vec、GloVe)或深度预训练模型(如BERT)来提取词嵌入特征。对每个词语进行其他特征提取,如词性标签、词频等,以丰富特征表示。定义序列标注任务所需的标签集合,具体取决于任务的类型。例如,对于命名实体识别(NER)任务,可能使用BIO(Begin,Inside,Outside)或BIOES(Begin,Inside,Outside,End,Single)标签方案来标注实体。将每个词语或句子与其对应的标签进行配对,构成训练样本。选择适合序列标注任务的模型,例如循环神经网络(RNN)、长短时记忆网络(LSTM)、双向长短时记忆网络(BiLSTM)、转换器(Transformer)等。构建模型架构,将特征向量作为输入,并根据标签进行序列标注的预测,使用已准备好的训练数据对模型进行训练。通过反向传播算法优化模型参数,使模型能够更好地预测标签,生成序列标注智能模块。
步骤S25:将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据。
本发明实施例中,通过将文本分类智能模块和序列标注智能模块进行集成。这可能涉及将两个模块的输出结果整合为一个数据结构,确保两个模块的输出能够协同工作,以提供对评级工艺聚合数据的全面抽取。确定需要从评级工艺聚合数据中提取的具体信息。这可能涉及标识关键字段、属性或实体,例如日期、地点、关键词等,制定抽取规则,可以是基于模式匹配、关键词匹配、正则表达式等方法,也可以使用机器学习模型来进行抽取,利用文本分类模块确定评级工艺聚合数据的类别,以指导抽取过程,例如不同类别可能需要抽取不同的信息。使用文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行处理,生成第一智能抽取结果数据,将抽取的结构化信息以数据表、JSON格式等形式进行存储,以便后续处理和人工复核。设计人工复核的流程,确定复核人员的任务和标准。这可能包括检查第一智能抽取结果数据的准确性、完整性和一致性,提供给复核人员的界面应该清晰显示抽取的信息,并提供必要的上下文,以便复核人员能够理解数据背后的语境。在人工复核完成后,根据复核人员的反馈,生成第二智能抽取结果数据。这可以通过修正第一智能抽取结果数据或者将复核人员的标注信息整合到抽取结果中来实现。
优选的,步骤S21包括以下步骤:
步骤S211:基于预设的语料库对评级工艺聚合数据进行词性分类,生成评级工艺词性分类数据,其中评级工艺词性分类数据包括特征样本数据、表格样本数据、组合字段样本数据和规则样本数据;
步骤S212:基于评级特征权重计算公式对评级工艺词性分类数据中的特征样本数据进行特征权重计算,生成评级工艺特征权重数据;将评级工艺特征权重数据和预设的特征权重阈值进行对比,当评级工艺特征权重数据大于特征权重阈值时,则将对应的评级工艺特征权重数据标记为高相似度特征数据;当高相似度特征数据和低相似度特征数据;当评级工艺特征权重数据小于特征权重阈值时,则将对应的评级工艺特征权重数据标记为低相似度特征数据;
步骤S213:对高相似度特征数据进行模板匹配处理,生成评级工艺第一抽取数据;对低相似度特征数据进行序列标注处理,生成评级工艺第二抽取数据;利用自定义的规则模型对规则样本数据进行规则抽取,生成评级工艺第三抽取数据;
步骤S214:对表格样本数据进行表格抽取,生成评级工艺第四抽取数据;对组合字段样本数据进行字段关系分析,生成组合字段关联关系数据;通过组合字段关联关系数据对组合字段样本数据进行关系抽取,从而生成评级工艺第五抽取数据;
步骤S215:将评级工艺第一抽取数据、评级工艺第二抽取数据、评级工艺第三抽取数据、评级工艺第四抽取数据和评级工艺第五抽取数据进行数据整合,得到评级工艺智能抽取数据。
本发明通过使用语料库对评级工艺聚合数据进行词性分类,生成各种样本数据,包括特征、表格、组合字段和规则样本数据。基于计算公式,对特征样本数据进行权重计算。将计算出的权重与预设阈值进行比较,标记高相似度和低相似度的特征数据。对高相似度特征数据进行模板匹配,生成第一抽取数据,对低相似度特征数据进行序列标注处理,生成第二抽取数据,使用自定义规则模型对规则样本数据进行处理,生成第三抽取数据。从表格样本数据中进行表格抽取,生成第四抽取数据。分析组合字段样本数据中的字段关系,生成关联关系数据,并通过这些关联关系进行字段的抽取,生成第五抽取数据。整合第一至第五抽取数据,形成评级工艺智能抽取数据,充分利用了多种方法来处理评级工艺聚合数据,从词性分类到权重计算、不同抽取方式到数据整合,这样的流程可以提高数据抽取的准确性和全面性。
作为本发明的一个实例,参考图3所示,在本实例中所述步骤S21包括:
步骤S211:基于预设的语料库对评级工艺聚合数据进行词性分类,生成评级工艺词性分类数据,其中评级工艺词性分类数据包括特征样本数据、表格样本数据、组合字段样本数据和规则样本数据;
本发明实施例中,通过收集和准备用于训练的语料库。这可能是包含各种评级工艺文本的大型数据集,以确保模型在不同上下文中都能良好地进行词性分类,对评级工艺聚合数据进行预处理,包括分句、分词、去除停用词和特殊字符等。这一步确保输入数据的格式符合模型的需求,并且能够提高模型的性能。在语料库中进行手动或自动标注,为每个词汇分配相应的词性标签。这样的标注工作应该涵盖到特征、表格、组合字段和规则等不同类型的数据,以使模型能够识别并分类各种语言元素。选择适当的机器学习或深度学习模型进行词性分类。常见的模型包括隐马尔可夫模型(HMM)、条件随机场(CRF)、循环神经网络(RNN)或基于注意力机制的Transformer等。使用标注的语料库训练模型,调整参数以提高性能。利用验证集评估模型的性能,调整模型参数和特征以优化词性分类结果,迭代性地进行实验和调整,确保模型在评级工艺词性分类任务上达到满意的效果。在训练好的模型上对评级工艺聚合数据进行词性分类。将分类结果按照特征、表格、组合字段和规则等类型导出,形成评级工艺词性分类数据。
步骤S212:基于评级特征权重计算公式对评级工艺词性分类数据中的特征样本数据进行特征权重计算,生成评级工艺特征权重数据;将评级工艺特征权重数据和预设的特征权重阈值进行对比,当评级工艺特征权重数据大于特征权重阈值时,则将对应的评级工艺特征权重数据标记为高相似度特征数据;当评级工艺特征权重数据小于特征权重阈值时,则将对应的评级工艺特征权重数据标记为低相似度特征数据;
本发明实施例中,通过设计或选择评级特征权重计算公式,这个公式应该考虑到评级工艺词性分类数据中的特征样本数据的属性和重要性,对每个特征样本数据应用权重计算公式,计算得到相应的评级工艺特征权重数据。将评级工艺特征权重数据与预设的特征权重阈值进行比较,当评级工艺特征权重数据大于特征权重阈值时,将其标记为高相似度特征数据。当评级工艺特征权重数据小于特征权重阈值时,将其标记为低相似度特征数据。预设的特征权重阈值通常是根据具体任务和需求来确定的。可以通过实验和调整来找到最合适的阈值,以平衡高相似度和低相似度特征数据的准确性。根据阈值比较的结果,将相应的评级工艺特征权重数据标记为高相似度或低相似度特征数据。导出带有相似度标记的评级工艺特征权重数据。
步骤S213:对高相似度特征数据进行模板匹配处理,生成评级工艺第一抽取数据;对低相似度特征数据进行序列标注处理,生成评级工艺第二抽取数据;利用自定义的规则模型对规则样本数据进行规则抽取,生成评级工艺第三抽取数据;
本发明实施例中,通过针对高相似度特征数据,定义模板以捕捉关键信息。模板可以包括占位符,表示可变的部分,使用正则表达式或其他模式匹配技术,将模板应用于高相似度特征数据,提取匹配的信息,根据模板匹配结果,抽取关键信息形成评级工艺第一抽取数据。使用已标注的低相似度特征数据,训练序列标注模型,如基于深度学习的序列标注模型(例如,BiLSTM-CRF)。将训练好的模型应用于未标注的低相似度特征数据,进行序列标注,标记出关键信息的序列,根据标注的序列,抽取关键信息形成评级工艺第二抽取数据。基于领域知识,定义一系列规则,这些规则可以是基于关键词、语法结构等的,将定义好的规则应用于规则样本数据,用于抽取关键信息,根据规则匹配结果,抽取关键信息形成评级工艺第三抽取数据。
步骤S214:对表格样本数据进行表格抽取,生成评级工艺第四抽取数据;对组合字段样本数据进行字段关系分析,生成组合字段关联关系数据;通过组合字段关联关系数据对组合字段样本数据进行关系抽取,从而生成评级工艺第五抽取数据;
本发明实施例中,通过理解表格数据的结构和内容,进行预处理以清洗和标准化数据,使用表格识别工具或技术,如基于规则的方法或深度学习模型,识别表格的结构和内容。从识别的表格中提取所需信息,可能涉及表头、行、列等数据的抽取。根据抽取的信息形成评级工艺第四抽取数据。理解组合字段数据的特点和关联性,进行特征工程,如数据归一化、缺失值处理等,使用统计方法(如相关系数)、可视化工具或机器学习方法(如决策树、随机森林)分析字段之间的相关性,根据分析结果选择关键的字段或特征,以便后续关系抽取使用。使用关联规则挖掘算法(例如Apriori算法)或基于图的方法,分析组合字段之间的关联关系,基于挖掘到的关联关系,构建关系模型或图模型,表示字段之间的关系,将关系模型应用于组合字段样本数据,根据关联关系抽取相关信息,形成评级工艺第五抽取数据。
步骤S215:将评级工艺第一抽取数据、评级工艺第二抽取数据、评级工艺第三抽取数据、评级工艺第四抽取数据和评级工艺第五抽取数据进行数据整合,得到评级工艺智能抽取数据。
本发明实施例中,通过理解每个抽取数据的结构、字段和含义,确保每个抽取数据中相同含义的字段具有相同的命名和结构,创建字段映射表,将不同抽取数据中的字段进行对应,以确保数据的一致性。根据字段映射关系,将不同抽取数据合并为一个大的数据集,可能需要进行连接操作,如数据库中的JOIN操作或pandas库中的merge操作。处理合并时可能出现的冲突,例如不同数据源对同一实体的描述不一致的情况,定义冲突解决策略,可能需要根据数据质量、来源可信度等因素进行决策。进行整合后的数据集的质量验证,包括确保数据的完整性、准确性和一致性,可以使用统计指标、可视化工具或专业领域知识进行验证,根据整合后的数据集,生成评级工艺智能抽取数据。
优选的,步骤S212中的评级特征权重计算公式如下所示:
式中,Wi表示为评级工艺中的第i个特征的权重,N表示为评级工艺中的样本数量,xij表示为评级工艺中第i个特征的第j个样本数据,di表示为评级工艺中第i个特征的归一化因子,p表示为调节特征样本数据的词性权重系数,a表示为调节指数项的衰减速率参数,β表示为调节正弦项的频率参数,t表示为积分的自变量,M表示为评级工艺中的特征数量,yik表示为评级工艺中的第i个特征的第k个样本数据,q表示为调节特征样本数据的分类权重系数,Zk表示为调节特征样本数据的影响参数,μ表示为评级特征权重计算异常调整值。
本发明构建了一种评级特征权重计算公式,公式中的归一化因子用于对特征样本数据进行归一化处理。通过将特征样本数据除以其归一化因子的平方根,可以确保不同特征之间的权重计算具有一致性,并且避免了某些特征样本数据过大或过小对权重计算的影响。指数参数用于调节特征样本数据的权重。通过增大q和p的值,可以增强特征样本数据对特征权重的影响,使具有较大数值的样本数据在权重计算中占据更重要的位置。积分项参数用于调节指数项和正弦项的衰减速率和频率。通过调节a和β的值,可以控制积分项的形状,影响特征样本数据在积分过程中的衰减和振荡情况,从而对权重计算产生不同的影响。根据评级工艺中的样本数量与以上各参数之间的相互关系构成了一种函数关系:
/>
通过调整公式中的积分变量是积分过程中的自变量,表示在积分过程中的取值范围。通过对积分变量的取值范围设定为从0到正无穷大,可以确保对特征样本数据的整个范围进行权重计算,调节因子用于调节特征样本数据的影响。通过增大Zk的值,可以减小特征样本数据对特征权重的影响,从而对某些具有较大值的特征样本数据进行削弱,以平衡各个特征之间的权重。通过评级特征权重计算异常调整值μ,用于校正由于实际系统的复杂性和非理想性而引起的误差和偏差。它可以纠正公式中的理论假设与实际系统之间的差异,提高评级特征权重计算的准确性和可靠性,更加准确的生成评级工艺中的第i个特征的权重Wi,同时公式中的评级工艺中第i个特征的归一化因子、积分的自变量等参数可以根据实际情况进行调整,从而适应不同的评级特征权重计算场景,提高了算法的适用性和灵活性。在使用本领域常规的评级特征权重计算公式时,可以得到评级工艺中的第i个特征的权重,通过应用本发明提供的评级特征权重计算公式,可以更加精确的计算出评级工艺中的第i个特征的权重。综上所述,S212中的评级特征权重计算公式通过对特征样本数据进行归一化、指数调节和积分项计算,结合调节因子和异常调整值的作用,可以实现对评级工艺中特征权重的计算,并根据不同参数的设定,对特征样本数据的词性、分类以及影响程度进行灵活调节,从而获得符合实际需求的评级特征权重数据。
优选的,步骤S3包括以下步骤:
步骤S31:通过错误识别API对第二智能抽取结果数据进行文本语义错误识别,生成文本语义错误识别数据,其中文本语义错误识别数据包括政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据;
步骤S32:对文本语义错误识别数据进行文本智能纠错,生成评级工艺智能纠错数据;
步骤S33:利用可视化技术将评级工艺智能纠错数据进行数据可视化,生成智能纠错报告。
本发明通过识别评级工艺智能抽取结果中的政治错误,可以避免因政治敏感性而引起的问题,确保数据的中立性和客观性。识别并纠正评级工艺智能抽取结果中的常识错误,有助于提高数据的合理性和逻辑性。通过捕捉通用语义错误,可以改善评级工艺智能抽取数据的语言表达和准确性。通过检测数值相关的错误,确保评级工艺智能抽取的数值数据的一致性和准确性。对文本语义错误识别数据进行智能纠错,可以提高数据的精确性和可信度,智能纠错有助于自动化修复一些识别到的错误,减轻人工修复的工作量。利用可视化技术将评级工艺智能纠错数据进行展示,使得问题和改进点一目了然,生成智能纠错报告可以为相关团队提供清晰的汇总,帮助决策者了解数据质量的改进情况和下一步的行动计划。
作为本发明的一个实例,参考图4所示,在本实例中所述步骤S3包括:
步骤S31:通过错误识别API对第二智能抽取结果数据进行文本语义错误识别,生成文本语义错误识别数据,其中文本语义错误识别数据包括政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据;
本发明实施例中,通过选择或开发适用于文本语义错误的错误识别API。这可能包括使用自然语言处理(NLP)技术,机器学习模型,或深度学习模型,具体取决于项目的需求和可用资源。将第二智能抽取的结果数据准备好,以便输入错误识别API。这可能涉及数据清洗、格式转换和预处理。利用选择的错误识别API对第二智能抽取结果的数据进行调用。API应该能够识别文本中的语义错误,并返回相应的错误识别数据。根据API返回的结果,生成文本语义错误识别数据。确保这些数据包括政治错误、常识错误、通用语义错误、数值符号错误和数值校验错误,以便后续处理和分析。将生成的文本语义错误识别数据进行组织和存储。这可能包括将数据结构化,使用数据库进行存储,或者采用其他适当的存储方法。
步骤S32:对文本语义错误识别数据进行文本智能纠错,生成评级工艺智能纠错数据;
本发明实施例中,通过选择或开发适用于文本智能纠错的模型。这可能包括使用预训练的语言模型(如BERT、GPT等)或其他专门用于文本纠错的模型。确保选择的模型能够理解上下文,并能够自动纠正文本中的语义错误,将步骤S31生成的文本语义错误识别数据准备好,以便输入到文本智能纠错模型中。这可能需要数据清洗和格式转换。使用选择或训练好的文本智能纠错模型对文本语义错误识别数据进行纠错。模型应该能够自动识别和修复文本中的语义错误,生成纠错后的文本。将模型输出的纠错结果整合成评级工艺智能纠错数据。确保包含每个文本样本的原始文本、纠错前后的对比,以及可能的评级信息。对生成的评级工艺智能纠错数据进行质量控制。可以通过随机抽样验证纠错的准确性,确保模型产生的纠错不会引入新的错误。
步骤S32:利用可视化技术将评级工艺智能纠错数据进行数据可视化,生成智能纠错报告。
本发明实施例中,通过选择适合数据可视化的工具和库,如Python中的Matplotlib、Seaborn、Plotly,或者JavaScript中的D3.js、Chart.js等。选择工具应考虑数据类型和可视化需求,确定智能纠错报告的目标和关键信息,比如错误类型的分布、纠错效果的对比、评级信息的统计等。这有助于指导可视化设计。根据目标和数据特点,设计合适的可视化图表。例如:条形图/饼图:用于展示错误类型的分布情况;折线图/柱状图:用于比较不同纠错模型的性能或不同评级信息的变化趋势;热力图/散点图:用于显示文本纠错的准确度或错误类型之间的关联性;词云图:展示常见错误或修正的词汇;箱线图/分布图:用于展示评级信息的分布情况。结合所选的可视化图表,创建智能纠错报告。
优选的,步骤S32包括以下步骤:
步骤S321:利用N元语法模型对文本语义错误识别数据进行自动分词,生成文本语义错误分词数据;通过文本语义错误分词数据对文本语义错误识别数据进行第一语义纠正,从而生成第一语义纠正方案;
步骤S322:对文本语义错误识别数据进行词向量转换,生成文本语义错误词向量数据;对文本语义错误词向量数据进行语义距离分析,生成错误语义距离数据;通过错误语义距离数据对文本语义错误识别数据进行第二语义纠正,生成第二语义纠正方案;
步骤S323:对文本语义错误识别数据进行错误候选词筛选,生成语义错误候选词数据;对语义错误候选词数据进行权重排序,生成候选词权重排序数据;通过候选词权重排序数据对文本语义错误识别数据进行第三语义纠正,生成第三语义纠正方案;
步骤S324:对文本语义错误识别数据进行错误文本分类,生成错误原句数据;基于文本纠错置信度分数对错误原句数据进行二分类问题转换,生成错误候选句数据;将错误原句数据和错误候选句数据进行同位置数据抽取,生成错误原句字符和错误候选句字符;利用SVM模型对错误原句字符和错误候选句字符进行第四语义纠正,生成第四语义纠正方案;
步骤S325:对文本语义错误识别数据进行上下文环境识别,生成文本语义上文环境数据和文本语义下文环境数据;对文本语义上文环境数据和文本语义下文环境数据进行错误序列标记,生成文本错误序列区域数据;通过CRF模型对文本错误序列区域数据对文本语义错误识别数据进行第五语义纠正,生成第五语义纠正方案;
步骤S326:对文本语义错误识别数据进行深度语义分析,生成文本语义问题数据;基于文本语义问题数据进行关联数据收集,得到文本语义问题关联数据;根据文本语义问题关联数据进行知识图谱构建,生成问题关联语义知识图谱;通过问题关联语义知识图谱对文本语义错误识别数据进行第六语义纠正,生成第六语义纠正方案;
步骤S327:将政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据和第一语义纠正方案、第二语义纠正方案、第三语义纠正方案、第四语义纠正方案、第五语义纠正方案和第六语义纠正方案进行智能匹配,从而生成评级工艺智能纠错数据。
本发明通过使用N元语法模型对文本进行自动分词。这有助于理解文本的语法结构和词语之间的关系,基于自动分词的结果,执行第一次语义纠正以修复文本中可能存在的语义错误。这可能包括替换或调整词语顺序以更好地反映文本的语义。将文本语义错误识别数据转换为词向量表示,以便计算词语之间的语义距离,通过计算词向量之间的语义距离,生成错误语义距离数据。这有助于识别文本中的潜在语义错误。基于错误语义距离数据,进行第二次语义纠正,进一步提高文本的语义准确性。对文本语义错误识别数据执行错误候选词的筛选,确定潜在的语义错误候选词,对语义错误候选词数据进行权重排序,以确保在后续语义纠正中更重要的词语得到更高的优先级,基于候选词权重排序数据,进行第三次语义纠正,以更好地捕捉文本的语义含义。对文本进行错误文本分类,将其划分为不同的错误类型,例如政治错误、常识错误等,基于文本纠错置信度分数进行二分类问题转换,生成错误候选句数据,利用支持向量机(SVM)模型对错误原句字符和错误候选句字符进行第四次语义纠正。对文本语义错误识别数据进行上下文环境识别,生成文本语义上文环境数据和文本语义下文环境数据,对文本语义上文环境数据和文本语义下文环境数据进行错误序列标记,以捕捉上下文中的语义信息,通过条件随机场(CRF)模型对文本错误序列区域数据进行第五次语义纠正。对文本语义错误识别数据进行深度语义分析,识别文本中的语义问题,基于语义问题关联数据构建知识图谱,以更好地理解文本中的语义关系,基于语义问题关联数据构建知识图谱,以更好地理解文本中的语义关系。将政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据与第一到第六语义纠正方案进行智能匹配,通过智能匹配,生成最终的评级工艺智能纠错数据,这包括了多个语义纠正方案的综合结果。
本发明实施例中,通过使用N元语法模型(例如,1-gram、2-gram、3-gram等)对文本进行自动分词,常用的分词工具包括jieba(中文)、NLTK(英文)等。使用生成的文本语义错误分词数据,通过语义分析算法对文本语义错误进行第一轮纠正。这可能包括使用预训练的语义模型,如BERT、GPT等,来理解和纠正文本中的语义错误。利用词嵌入模型(如Word2Vec、FastText、BERT Embeddings等)将文本语义错误识别数据转换为词向量,使用生成的文本语义错误词向量数据计算词之间的语义距离,例如使用余弦相似度或其他相似性度量。利用错误语义距离数据,通过进一步的语义分析对文本进行第二轮纠正。利用某种算法(可能基于规则或机器学习)对文本语义错误识别数据进行错误候选词筛选,对错误候选词数据进行权重排序,可能基于词频、TF-IDF等。利用候选词权重排序数据,通过语义分析对文本进行第三轮纠正。使用文本分类算法对文本语义错误识别数据进行错误文本分类,基于文本纠错置信度分数将错误原句数据转换为二分类问题,可能使用支持向量机(SVM)等算法。利用SVM模型对错误原句字符和错误候选句字符进行第四轮语义纠正。利用某种算法对文本语义错误识别数据进行上下文环境识别,生成文本语义上文环境数据和文本语义下文环境数据,使用条件随机场(CRF)模型对文本语义上下文环境数据进行错误序列标记,利用CRF模型生成的错误序列区域数据进行第五轮语义纠正。利用深度学习模型对文本进行深度语义分析,生成文本语义问题数据。基于文本语义问题数据进行关联数据收集,然后构建知识图谱,可能使用图数据库或其他知识表示方法,利用构建的问题关联语义知识图谱对文本进行第六轮语义纠正。将政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据与之前生成的六个语义纠正方案进行智能匹配。根据匹配结果生成最终的评级工艺智能纠错数据。
优选的,步骤S4包括以下步骤:
步骤S41:基于SPO三元组形式对智能纠错报告进行要点转换,生成审核规则节点数据;对审核规则节点数据进行审核逻辑规则构建,生成评级工艺审核规则;
步骤S42:基于评级工艺审核规则对评级工艺智能纠错数据进行工艺评级,得到工艺评级数据;对工艺评级数据进行历史数据收集,生成历史工艺评级数据;
步骤S43:利用评级风险指数计算公式对历史工艺评级数据进行评级指标计算,得到评级风险数据;将评级风险数据进行数据集划分,生成模型训练集和模型测试集;通过时间序列算法对模型训练集进行模型训练,生成风险分析审查预模型;利用模型测试集对风险分析审查预模型进行模型测试,从而得到风险分析审查模型;
步骤S44:将工艺评级数据源导入至风险分析审查模型进行评级风险预测,从而生成评级风险预测数据;利用可视化方法对评级风险预测数据进行数据可视化,生成评级风险报告。
本发明通过将智能纠错报告中的关键信息按照SPO(Subject-Predicate-Object)三元组的形式提取出来,利用这些提取出来的信息构建审核规则节点数据,根据审核规则节点数据建立审核的逻辑规则,利用审核逻辑规则生成一个用于评级工艺的审核规则。利用刚生成的评级工艺审核规则对智能纠错数据进行评级,得到工艺评级数据。对工艺评级数据进行收集,形成历史工艺评级数据,利用一个特定的公式对历史工艺评级数据进行评级风险指数的计算,得到评级风险数据,将评级风险数据划分为模型训练集和模型测试集,利用时间序列算法对模型训练集进行训练,生成一个风险分析审查预模型。使用模型测试集对风险分析审查预模型进行测试,得到一个完善的风险分析审查模型。将工艺评级数据导入风险分析审查模型,进行评级风险的预测,生成评级风险预测数据,利用可视化方法将评级风险预测数据展示成图表或报告形式,生成评级风险报告,有助于识别并处理潜在的风险。
本发明实施例中,通过使用自然语言处理(NLP)技术,如语义分析、实体抽取等,将智能纠错报告中的关键信息提取成SPO三元组的形式,将提取的SPO三元组转换为结构化的数据,形成审核规则节点数据,使用图数据库或其他适当的数据存储结构保存这些节点数据。基于审核规则节点数据,使用专业领域知识或专业人员的经验,构建审核逻辑规则,结合审核逻辑规则,生成用于评级工艺的审核规则。使用评级工艺审核规则对智能纠错数据进行工艺评级,结果可能是离散的等级,如低、中、高等级。存储工艺评级数据,并建立历史记录数据库。制定评级风险指数计算公式,结合历史工艺评级数据计算评级风险指数,将评级风险数据按时间划分为训练集和测试集,选择合适的时间序列算法,如ARIMA、LSTM等,对模型训练集进行训练。根据训练得到的模型,生成风险分析审查的预模型,使用模型测试集对预模型进行测试,评估模型性能。将实时或最新的工艺评级数据导入已构建的风险分析审查模型中,利用模型对新的工艺评级数据进行评级风险预测,使用可视化工具(如Matplotlib、Seaborn、Tableau等),将评级风险预测数据呈现成直观的图表和报告。
优选的,步骤S41包括以下步骤:
步骤S411:对智能纠错报告进行审核主题确认,得到审核主体数据;基于SPO三元组形式对审核主体数据进行句式结构划分,生成第一实体数据、第二实体数据和谓词数据;将第一实体数据、第二实体数据和谓词数据进行审核逻辑连接,生成审核规则业务逻辑节点;
步骤S412:基于审核规则业务逻辑节点进行出入口节点确认,生成计算图入口节点和计算图出口节点;将审核规则业务逻辑节点、计算图入口节点和计算图出口节点进行节点合并,生成审核计算图;根据审核规则业务逻辑节点对计算图入口节点和计算图出口节点进行节点路径确认,生成计算图节点路径数据;
步骤S413:将计算图节点路径数据和预设的节点路径阈值进行对比,当计算图节点路径数据小于节点路径阈值时,则将审核主体数据标记为审核不通过数据并进行剔除;当计算图节点路径数据等于节点路径阈值时,则将审核主体数据标记为审核通过并生成第一审核规则;当计算图节点路径数据大于节点路径阈值时,则对审核计算图进行节点抽象,生成复核审核节点;将复核审核节点进行节点整合,生成审核复核计算图;利用审核复核计算图对计算图节点路径数据进行二次审查,从而生成第二审核规则;
步骤S414:将第一审核规则和第二审核规则进行规则合并,得到评级工艺审核规则。
本发明通过对智能纠错报告的审核主体进行确认,可以确保后续的审核流程集中在关键主题上,提高审核的针对性,将审核主体数据以SPO三元组的形式划分,有助于将复杂的自然语言文本结构化,使得后续处理更加方便和可控,通过连接第一实体数据、第二实体数据和谓词数据,形成审核规则业务逻辑节点,为后续的计算图生成奠定基础。确认计算图的入口和出口节点,有助于定义审查流程的开始和结束,提高整体结构的清晰度,根据审核规则业务逻辑节点确认计算图入口和出口节点的路径,为后续的计算图节点路径数据生成提供了方向和依据,将确认的节点路径数据生成,为后续的决策提供了数据支持。通过将计算图节点路径数据与预设的节点路径阈值进行对比,可以对审核主体数据进行初步分类,提高审查效率,通过确认的计算图节点路径数据生成第一审核规则,标记审核主体数据为审核通过,有助于建立初步的审核准则,当计算图节点路径数据大于阈值时,生成复核审核节点,进行对初步结果的二次审查,将复核审核节点整合生成审核复核计算图,为进一步提高审核准确性和可信度提供支持。通过审核复核计算图进行二次审查,生成第二审核规则,有助于提高审查的全面性和深度,将第一和第二审核规则合并,形成最终的评级工艺审核规则,集成了初步审核和复核审核的结果,提高了整体的审核准确性。
本发明实施例中,通过使用NLP技术,例如文本分类、关键词提取、实体识别等,对报告进行自动审核,根据审核主体数据,使用NLP工具和技术提取出SPO(Subject-Predicate-Object)三元组形式的数据,基于SPO三元组,设计算法生成审核规则业务逻辑节点,可能需要定义语义规则和逻辑连接规则。基于审核规则业务逻辑节点,设计算法确定计算图的入口和出口节点,将业务逻辑节点、计算图入口和计算图出口节点进行合并,生成审核计算图。可能需要使用图论算法来处理节点之间的连接关系。根据业务逻辑节点对计算图入口和计算图出口节点进行路径确认,生成计算图节点路径数据,将计算图节点路径数据与预设的节点路径阈值进行比对,制定比对算法,根据比对结果对审核主体数据进行标记。根据计算图节点路径数据的比对结果,生成第一审核规则。对于大于阈值的情况,进行节点抽象生成复核审核节点,再次审查生成第二审核规则。将第一和第二审核规则进行合并,可能需要定义合并规则和逻辑运算,得到最终的评级工艺审核规则。
优选的,步骤S43中的评级风险指数计算公式如下所示:
式中,R表示为评级风险指数,Gz表示为在第z个方面的风险程度值,Hz表示为在第z个方面的评级风险的贡献系数,n表示为评级风险考虑方面数量,z表示为考虑方面的索引,T1表示为考虑风险评级的初始时间点,T2表示为考虑风险评级的终止时间点,Xv表示为在第v个考虑指标的重要性权重参数,Yv(T)表示为第v个考虑指标在时间点T的历史风险程度变化参数,m表示为评级风险考虑指标数量,v表示为考虑指标的索引,T表示为风险评价时间点,ω表示为评级风险指数计算异常修正量。
本发明构建了一种评级风险指数计算公式,公式中的在第z个方面的风险程度值通过将不同方面的风险程度纳入考虑,可以全面评估风险的多个维度。在第z个方面的评级风险的贡献系数反映了每个方面对评级风险的重要性。较高的贡献系数意味着该方面对评级风险指数的贡献更大。评级风险考虑的方面数量通过增加考虑的方面数量,可以更全面地评估风险情况,提高评级风险指数的准确性。通过设定评级的时间范围,可以限定评级的时间段,以便更精确地评估特定时间段的风险情况。根据在第z个方面的风险程度值与以上各参数之间的相互关系构成了一种函数关系:
通过调整公式中的第v个考虑指标的重要性权重参数。通过调整不同指标的权重,可以根据其重要性对评级风险指数的贡献进行加权,使指标的贡献与其重要性相匹配。第v个考虑指标在时间点T的历史风险程度变化参数。通过考虑指标在不同时间点上的风险程度变化,可以反映出时间对风险的影响,提高评级风险指数的准确性。评级风险考虑的指标数量。通过增加考虑的指标数量,可以综合多个指标对评级风险的贡献,更全面地评估风险情况。风险评价的时间点通过在特定时间点进行评估,可以获取特定时间点的风险情况,帮助决策和风险管理。通过评级风险指数计算异常修正量ω,用于校正由于实际系统的复杂性和非理想性而引起的误差和偏差。它可以纠正公式中的理论假设与实际系统之间的差异,提高评级风险指数计算的准确性和可靠性,更加准确的生成评级风险指数R,同时公式中的评级风险考虑方面数量、考虑风险评级的终止时间点等参数可以根据实际情况进行调整,从而适应不同的评级风险指数计算场景,提高了算法的适用性和灵活性。在使用本领域常规的评级风险指数计算公式时,可以得到评级风险指数,通过应用本发明提供的评级风险指数计算公式,可以更加精确的计算出评级风险指数。通过综合考虑上述参数,该评级风险指数计算公式能够提供一个综合性的评估,考虑多个方面的风险程度和权重,以及历史风险程度的变化和时间因素的影响。它能够帮助决策者更准确地评估风险情况,提高风险管理的有效性和决策的可靠性。
本发明的有益效果在于通过对评级工艺数据的预处理、修复和合并,系统生成了标准评级工艺数据和聚合数据。这有助于确保数据的一致性、准确性和可比性,为后续的分析提供高质量的输入。基于语料库的文本分类和序列标注模型,系统能够从评级工艺聚合数据中提取结构化信息。这有助于自动化数据提取过程,减少了手动劳动,并提高了数据处理的效率。通过人工复核对第一智能抽取结果数据的审查,系统进一步提高了数据的准确性和可信度,生成了更为精确的第二智能抽取结果数据。利用错误识别API对抽取结果进行文本智能纠错,有助于消除语法、拼写等方面的错误,提高了数据的质量。生成的智能纠错报告为用户提供了对数据修复过程的透明度。对智能纠错报告进行审核逻辑规则构建,有助于制定一套系统化的审核标准。这确保了对评级工艺数据的审查符合特定标准,提高了数据审核的一致性和可靠性。利用评级工艺审核规则对智能纠错数据进行历史数据收集,并通过这些数据进行模型训练。这使系统能够学习过去的经验,不断提升对评级工艺的理解和处理能力。基于历史工艺评级数据训练风险分析审查模型,系统能够进行评级风险预测。这有助于及早发现潜在问题,并采取相应的纠正措施,提高了评级工艺的可靠性和合规性。通过生成评级风险报告,系统为决策者提供了清晰的风险状况和建议。这有助于在决策时考虑评级工艺的各个方面,提高了决策的科学性和准确性。因此,本发明通过数据处理、智能文本处理、纠错审核和风险预测等步骤,解决了评级工艺管理中的数据问题、文本分析困难和风险预测挑战,提高了纠错的准确性。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于AI的评级工艺数字化管理方法,其特征在于,包括以下步骤:
步骤S1:获取评级工艺数据源;对评级工艺数据源进行数据预处理,生成标准评级工艺数据;对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据;
步骤S2:基于预设的语料库对评级工艺聚合数据进行文本分类,生成文本分类智能模块;对评级工艺文本分类数据进行序列标注模型训练,生成序列标注智能模块;将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据;
步骤S3:通过错误识别API对第二智能抽取结果数据进行文本智能纠错,生成评级工艺智能纠错数据;对评级工艺智能纠错数据进行结果可视化,生成智能纠错报告;
步骤S4:对智能纠错报告进行审核逻辑规则构建,生成评级工艺审核规则;基于评级工艺审核规则对评级工艺智能纠错数据进行历史数据收集,生成历史工艺评级数据;利用历史工艺评级数据进行模型训练,从而得到风险分析审查模型;将工艺评级数据源导入至风险分析审查模型进行评级风险预测,生成评级风险报告。
2.根据权利要求1所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S1包括以下步骤:
步骤S11:获取评级工艺数据源;对评级工艺数据源进行数据源识别,得到评级工艺识别数据源;
步骤S12:通过网络API对评级工艺识别数据源进行数据筛选,生成初始评级工艺数据集;对初始评级工艺数据进行数据清洗,生成评级工艺清洗数据;对评级工艺清洗数据进行数据格式化,生成评级工艺格式化数据;
步骤S13:对评级工艺格式化数据进行数据类型识别,生成评级工艺类型数据;通过评级工艺类型数据对评级工艺格式化数据进行数据标准化,从而生成标准评级工艺数据;
步骤S14:对标准评级工艺数据进行数据质量评估,生成数据质量评估数据;利用缺失值填充方法通过数据质量评估数据对标准评级工艺数据进行数据修复,生成评级工艺修复数据;将评级工艺修复数据和标准评级工艺数据进行数据合并,生成评级工艺聚合数据。
3.根据权利要求2所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S2包括以下步骤:
步骤S21:基于预设的语料库对评级工艺聚合数据进行智能文档数据抽取,生成评级工艺智能抽取数据;
步骤S22:对评级工艺智能抽取数据进行场景特征提取,生成评级工艺场景特征提取数据;将评级工艺场景特征提取数据进行文本分类,生成评级工艺文本分类数据,其中评级工艺文本分类数据包括章节定位数据、段落抽取数据和表格抽取数据;
步骤S23:通过基础分类器对章节定位数据、段落抽取数据和表格抽取数据进行分类特征向量转换,生成文本分类特征向量数据;根据文本分类特征向量数据进行分类模型训练,生成文本分类智能模块;
步骤S24:通过序列标注技术对章节定位数据、段落抽取数据和表格抽取数据进行序列标注特征向量转换,生成文本序列标注特征向量数据;根据文本序列标注特征向量数据进行序列标注模型训练,生成序列标注智能模块;
步骤S25:将文本分类智能模块和序列标注智能模块对评级工艺聚合数据进行数据结构化抽取,生成第一智能抽取结果数据;对第一智能抽取结果数据进行人工复核,从而生成第二智能抽取结果数据。
4.根据权利要求3所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S21包括以下步骤:
步骤S211:基于预设的语料库对评级工艺聚合数据进行词性分类,生成评级工艺词性分类数据,其中评级工艺词性分类数据包括特征样本数据、表格样本数据、组合字段样本数据和规则样本数据;
步骤S212:基于评级特征权重计算公式对评级工艺词性分类数据中的特征样本数据进行特征权重计算,生成评级工艺特征权重数据;将评级工艺特征权重数据和预设的特征权重阈值进行对比,当评级工艺特征权重数据大于特征权重阈值时,则将对应的评级工艺特征权重数据标记为高相似度特征数据;当评级工艺特征权重数据小于特征权重阈值时,则将对应的评级工艺特征权重数据标记为低相似度特征数据;
步骤S213:对高相似度特征数据进行模板匹配处理,生成评级工艺第一抽取数据;对低相似度特征数据进行序列标注处理,生成评级工艺第二抽取数据;利用自定义的规则模型对规则样本数据进行规则抽取,生成评级工艺第三抽取数据;
步骤S214:对表格样本数据进行表格抽取,生成评级工艺第四抽取数据;对组合字段样本数据进行字段关系分析,生成组合字段关联关系数据;通过组合字段关联关系数据对组合字段样本数据进行关系抽取,从而生成评级工艺第五抽取数据;
步骤S215:将评级工艺第一抽取数据、评级工艺第二抽取数据、评级工艺第三抽取数据、评级工艺第四抽取数据和评级工艺第五抽取数据进行数据整合,得到评级工艺智能抽取数据。
5.根据权利要求4所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S212中的评级特征权重计算公式如下所示:
式中,Wi表示为评级工艺中的第i个特征的权重,N表示为评级工艺中的样本数量,xij表示为评级工艺中第i个特征的第j个样本数据,di表示为评级工艺中第i个特征的归一化因子,p表示为调节特征样本数据的词性权重系数,a表示为调节指数项的衰减速率参数,β表示为调节正弦项的频率参数,t表示为积分的自变量,M表示为评级工艺中的特征数量,yik表示为评级工艺中的第i个特征的第k个样本数据,q表示为调节特征样本数据的分类权重系数,Zk表示为调节特征样本数据的影响参数,μ表示为评级特征权重计算异常调整值。
6.根据权利要求4所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S3包括以下步骤:
步骤S31:通过错误识别API对第二智能抽取结果数据进行文本语义错误识别,生成文本语义错误识别数据,其中文本语义错误识别数据包括政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据;
步骤S32:对文本语义错误识别数据进行文本智能纠错,生成评级工艺智能纠错数据;
步骤S33:利用可视化技术将评级工艺智能纠错数据进行数据可视化,生成智能纠错报告。
7.根据权利要求6所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S32包括以下步骤:
步骤S321:利用N元语法模型对文本语义错误识别数据进行自动分词,生成文本语义错误分词数据;通过文本语义错误分词数据对文本语义错误识别数据进行第一语义纠正,从而生成第一语义纠正方案;
步骤S322:对文本语义错误识别数据进行词向量转换,生成文本语义错误词向量数据;对文本语义错误词向量数据进行语义距离分析,生成错误语义距离数据;通过错误语义距离数据对文本语义错误识别数据进行第二语义纠正,生成第二语义纠正方案;
步骤S323:对文本语义错误识别数据进行错误候选词筛选,生成语义错误候选词数据;对语义错误候选词数据进行权重排序,生成候选词权重排序数据;通过候选词权重排序数据对文本语义错误识别数据进行第三语义纠正,生成第三语义纠正方案;
步骤S324:对文本语义错误识别数据进行错误文本分类,生成错误原句数据;基于文本纠错置信度分数对错误原句数据进行二分类问题转换,生成错误候选句数据;将错误原句数据和错误候选句数据进行同位置数据抽取,生成错误原句字符和错误候选句字符;利用SVM模型对错误原句字符和错误候选句字符进行第四语义纠正,生成第四语义纠正方案;
步骤S325:对文本语义错误识别数据进行上下文环境识别,生成文本语义上文环境数据和文本语义下文环境数据;对文本语义上文环境数据和文本语义下文环境数据进行错误序列标记,生成文本错误序列区域数据;通过CRF模型对文本错误序列区域数据对文本语义错误识别数据进行第五语义纠正,生成第五语义纠正方案;
步骤S326:对文本语义错误识别数据进行深度语义分析,生成文本语义问题数据;基于文本语义问题数据进行关联数据收集,得到文本语义问题关联数据;根据文本语义问题关联数据进行知识图谱构建,生成问题关联语义知识图谱;通过问题关联语义知识图谱对文本语义错误识别数据进行第六语义纠正,生成第六语义纠正方案;
步骤S327:将政治错误识别数据、常识错误识别数据、通用语义错误识别数据、数值符号错误识别数据和数值校验识别数据和第一语义纠正方案、第二语义纠正方案、第三语义纠正方案、第四语义纠正方案、第五语义纠正方案和第六语义纠正方案进行智能匹配,从而生成评级工艺智能纠错数据。
8.根据权利要求7所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S4包括以下步骤:
步骤S41:基于SPO三元组形式对智能纠错报告进行要点转换,生成审核规则节点数据;对审核规则节点数据进行审核逻辑规则构建,生成评级工艺审核规则;
步骤S42:基于评级工艺审核规则对评级工艺智能纠错数据进行工艺评级,得到工艺评级数据;对工艺评级数据进行历史数据收集,生成历史工艺评级数据;
步骤S43:利用评级风险指数计算公式对历史工艺评级数据进行评级指标计算,得到评级风险数据;将评级风险数据进行数据集划分,生成模型训练集和模型测试集;通过时间序列算法对模型训练集进行模型训练,生成风险分析审查预模型;利用模型测试集对风险分析审查预模型进行模型测试,从而得到风险分析审查模型;
步骤S44:将工艺评级数据源导入至风险分析审查模型进行评级风险预测,从而生成评级风险预测数据;利用可视化方法对评级风险预测数据进行数据可视化,生成评级风险报告。
9.根据权利要求7所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S41包括以下步骤:
步骤S411:对智能纠错报告进行审核主题确认,得到审核主体数据;基于SPO三元组形式对审核主体数据进行句式结构划分,生成第一实体数据、第二实体数据和谓词数据;将第一实体数据、第二实体数据和谓词数据进行审核逻辑连接,生成审核规则业务逻辑节点;
步骤S412:基于审核规则业务逻辑节点进行出入口节点确认,生成计算图入口节点和计算图出口节点;将审核规则业务逻辑节点、计算图入口节点和计算图出口节点进行节点合并,生成审核计算图;根据审核规则业务逻辑节点对计算图入口节点和计算图出口节点进行节点路径确认,生成计算图节点路径数据;
步骤S413:将计算图节点路径数据和预设的节点路径阈值进行对比,当计算图节点路径数据小于节点路径阈值时,则将审核主体数据标记为审核不通过数据并进行剔除;当计算图节点路径数据等于节点路径阈值时,则将审核主体数据标记为审核通过并生成第一审核规则;当计算图节点路径数据大于节点路径阈值时,则对审核计算图进行节点抽象,生成复核审核节点;将复核审核节点进行节点整合,生成审核复核计算图;利用审核复核计算图对计算图节点路径数据进行二次审查,从而生成第二审核规则;
步骤S414:将第一审核规则和第二审核规则进行规则合并,得到评级工艺审核规则。
10.根据权利要求7所述的基于AI的评级工艺数字化管理方法,其特征在于,步骤S43中的评级风险指数计算公式如下所示:
式中,R表示为评级风险指数,Gz表示为在第z个方面的风险程度值,Hz表示为在第z个方面的评级风险的贡献系数,n表示为评级风险考虑方面数量,z表示为考虑方面的索引,T1表示为考虑风险评级的初始时间点,T2表示为考虑风险评级的终止时间点,Xv表示为在第v个考虑指标的重要性权重参数,Yv(T)表示为第v个考虑指标在时间点T的历史风险程度变化参数,m表示为评级风险考虑指标数量,v表示为考虑指标的索引,T表示为风险评价时间点,ω表示为评级风险指数计算异常修正量。
CN202410006595.5A 2024-01-02 2024-01-02 一种基于ai的评级工艺数字化管理方法 Pending CN117875706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410006595.5A CN117875706A (zh) 2024-01-02 2024-01-02 一种基于ai的评级工艺数字化管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410006595.5A CN117875706A (zh) 2024-01-02 2024-01-02 一种基于ai的评级工艺数字化管理方法

Publications (1)

Publication Number Publication Date
CN117875706A true CN117875706A (zh) 2024-04-12

Family

ID=90578632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410006595.5A Pending CN117875706A (zh) 2024-01-02 2024-01-02 一种基于ai的评级工艺数字化管理方法

Country Status (1)

Country Link
CN (1) CN117875706A (zh)

Similar Documents

Publication Publication Date Title
CN110825882B (zh) 一种基于知识图谱的信息系统管理方法
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
US20070094216A1 (en) Uncertainty management in a decision-making system
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN117271767A (zh) 基于多智能体的运维知识库的建立方法
CN114969363A (zh) 一种基于知识图谱风险等级的数控机床安全部件分析方法
CN116610592B (zh) 基于自然语言处理技术的可定制软件测试评价方法及系统
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN116894152A (zh) 一种多源数据调研与实时分析方法
CN116467437A (zh) 面向复杂场景描述的自动流程建模方法
Han et al. A novel part of speech tagging framework for nlp based business process management
CN117875706A (zh) 一种基于ai的评级工艺数字化管理方法
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN117540727B (zh) 基于albert模型与rpa技术的主观题评分方法及系统
CN113377746B (zh) 一种试验报告数据库构建和智能诊断分析系统
CN117436453B (zh) 基于专利数据变化的技术线路变化趋势分析方法及系统
CN113378560B (zh) 一种基于自然语言处理的试验报告智能诊断分析方法
CN117435777B (zh) 一种产业链图谱自动构建方法与系统
CN115374108B (zh) 一种基于知识图谱技术的数据标准生成与自动映射方法
CN117540004B (zh) 基于知识图谱和用户行为的工业领域智能问答方法及系统
Rybak et al. Machine Learning-Enhanced Text Mining as a Support Tool for Research on Climate Change: Theoretical and Technical Considerations
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination