CN116757807A

CN116757807A - 一种基于光学字符识别的智能辅助评标方法

Info

Publication number: CN116757807A
Application number: CN202311019736.9A
Authority: CN
Inventors: 吴景文; 湛亮; 黄睿; 梅锌国
Original assignee: Hunan Valin E Commerce Co ltd
Current assignee: Hunan Valin E Commerce Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-15
Anticipated expiration: 2043-08-14
Also published as: CN116757807B

Abstract

本发明涉及数据辅助处理技术领域，尤其涉及一种基于光学字符识别的智能辅助评标方法。该方法包括以下步骤：获取投标文件数据，并对投标文件数据进行投标文件数据同步以及清洗，获得投标文件清洗数据；对投标文件清洗数据进行投标结构化处理，获得投标文件结构化数据；获取评审要求数据，并利用评审要求数据对投标文件结构化数据进行智能检测，从而获得检测要求数据，并根据检测要求数据进行评审意见生成，生成评审意见数据；根据投标文件结构化数据进行企业信息提取，获取投标企业数据，并根据当前投标企业数据以及对比投标企业数据进行相似度检测，获得横向企业风险检测数据。本发明中采用智能评审，降低评标专家的评审强度，提升准确率。

Description

一种基于光学字符识别的智能辅助评标方法

技术领域

本发明涉及数据辅助处理技术领域，尤其涉及一种基于光学字符识别的智能辅助评标方法。

背景技术

OCR（Optical Character Recognition）通过识别和提取图像或扫描文档中的文字信息，将其转换为可编辑和可搜索的文本格式。OCR技术可以将印刷体或手写文字转化为数字化的文本数据，以便计算机能够理解和处理这些文字内容。NLP（Natural LanguageProcessing）是一种涉及人类语言和计算机之间交互的技术领域。NLP利用计算机科学、人工智能和语言学等多学科知识，处理和分析人类语言数据，以便计算机能够理解、处理和生成自然语言。NLP技术可用于文本分析、语义理解、情感分析、机器翻译、问答系统等多种应用领域，使计算机能够与人类语言进行交互和沟通。专家对于检查投标单位围串标一直缺乏有效的辅助工具，依靠人力无法客观严谨的做决策；同时，专家在封闭的评审环境中，无法对投标文件中的资质证书、营业执照等信息进行验真；传统的电子招标采购往往操作复杂且智能性不足，依赖于专家主观判断，如何基于光学字符识别以实现数据辅助评标，从而提高结果公信力，减少学习成本便成为了一个问题。

发明内容

本发明为解决上述技术问题，提出了一种基于光学字符识别的智能辅助评标方法，以解决至少一个上述技术问题。

本申请提供了一种基于光学字符识别的智能辅助评标方法，包括以下步骤：

步骤S1：获取投标文件数据，并对投标文件数据进行投标文件数据同步以及清洗，从而获得投标文件清洗数据；

步骤S2：对投标文件清洗数据进行投标结构化处理，从而获得投标文件结构化数据；

步骤S3：获取评审要求数据，并利用评审要求数据对投标文件结构化数据进行智能检测，从而获得检测要求数据，并根据检测要求数据进行评审意见生成，生成评审意见数据；

步骤S4：根据投标文件结构化数据进行企业信息提取，从而获取投标企业数据，并根据投标企业信息中的当前投标企业数据以及对比投标企业数据进行相似度检测，从而获得横向企业风险检测数据；

步骤S5：根据投标企业信息进行纵向企业风险检测，从而获得纵向企业风险检测数据；

步骤S6：获取评标进度数据，并将评标进度数据、评审意见数据、横向企业风险检测数据以及纵向企业风险检测数据进行关联处理，从而生成评标关联数据，以供智能辅助评标系统进行评标进度提示作业。

本发明通过自动化的投标文件数据获取、清洗和结构化处理，减少了手动处理的工作量和时间，提高了评标的效率。通过智能检测评审要求并生成评审意见数据，减少了人工操作的主观性和误差，提高了评标的准确性。通过横向和纵向企业风险检测，识别和评估投标企业的风险情况，帮助评标人员更全面地了解企业的背景和潜在风险，减少采购过程中的风险。通过关联处理评标进度数据、评审意见数据和风险检测数据，系统能够智能地提供评标进度提示，帮助评标人员了解当前进展和下一步操作流程，提高评标工作的顺利进行。应用智能辅助评标系统，大幅替代人工评审繁杂的工作，节约投标人信息复核、信托材料查找等商务评审时间，显著提高评审专家工作效率。采用“智能评审”方式，实现评审要求智能提取、投标文件自动定位、响应性检查、智能验真等，大大降低评标专家的评审强度，提升准确率，专家有更多的精力处理技术含量更高的技术评审，进一步提升评标质量。以数据辅助决策，降低在评审过程中人为干预的可能性，有效规避了评审专家主观判断的风险，使得评标结果更加公平公正。

优选地，步骤S1具体为：

步骤S11：从电子投标云平台获取投标文件数据，以进行投标文件数据同步；

步骤S12：采用分布式计算框架对投标文件数据进行投标文件数据清洗，从而获得投标文件清洗数据。

本发明中通过从电子投标云平台获取投标文件数据，可以实现快速、高效地同步数据。这有助于确保评标系统能够及时获取最新的投标文件数据，避免了手动输入或传输数据的繁琐过程，提高了数据同步的效率。采用分布式计算框架对投标文件数据进行清洗。这意味着可以利用并行处理的优势，快速处理大量的投标文件数据。通过数据清洗，可以去除非结构化的数据、处理格式错误和一致性问题，使得投标文件数据变得规范和可靠。这有助于提高后续处理步骤的准确性和可信度。通过投标数据同步和清洗的过程，可以显著提升投标文件数据的质量。清洗后的数据更加准确、一致，并符合特定的数据标准和要求。这有助于提高后续步骤中的数据分析、挖掘和应用的效果，减少因数据质量问题而引起的错误和偏差。采用分布式计算框架进行投标文件数据清洗，可以实现自动化的数据处理过程。这降低了人工干预的需求，减少了人为错误的可能性，提高了数据处理的效率和一致性。该方法通过采用分布式计算框架，具备良好的可扩展性。可以根据实际需求，灵活地调整计算资源的规模，适应不同规模和复杂度的投标数据处理任务。

优选地，步骤S12中投标文件数据清洗的步骤具体为：

步骤S121：对投标文件数据进行非文字字符去除以及去噪，获取去异常后的投标文件数据；

步骤S122：对去异常后的投标文件数据进行数据异常检测以及修复，获取修改后的投标文件数据；

步骤S123：对修改后的投标文件数据进行格式错误校正，获得校正后的投标文件数据；

步骤S124：对校正后的投标文件数据进行去重处理，获得去重后的投标文件数据。

本发明中对投标文件数据进行非文字字符去除以及去噪。这有助于去除投标文件中的非文字字符和噪声，净化数据，提高数据的质量和可用性。通过去除非文字字符和噪声，可以降低后续处理步骤中的干扰和误解，确保数据的准确性和一致性。对投标文件数据进行非文字字符去除以及去噪。这有助于去除投标文件中的非文字字符和噪声，净化数据，提高数据的质量和可用性。通过去除非文字字符和噪声，可以降低后续处理步骤中的干扰和误解，确保数据的准确性和一致性。对投标文件的修复数据进行格式错误校正。在投标文件数据清洗过程中，可能会出现格式错误的情况，例如日期格式不一致、字段类型错误等。通过格式错误校正，可以将投标文件数据统一为规范的格式，减少数据处理过程中的错误和偏差，提高数据的一致性和可靠性。对投标文件的校正数据进行去重处理。在投标文件数据中，可能存在重复的记录或信息，这可能导致数据分析和决策过程中的偏倚和不准确性。通过去重处理，可以消除重复数据，确保每条记录的唯一性，提高数据处理和分析的准确性和可信度。使得投标文件数据更加规范、准确和可靠，为后续的数据分析、挖掘和决策提供更可靠的基础，从而提高评标工作的准确性、效率和可信度。

优选地，去异常后的投标文件数据为第二去异常后的投标文件数据，步骤S121具体为：

步骤S101：对投标文件数据的投标文件非文字数据进行聚类计算，从而获得投标文件聚类特征数据；

步骤S102：获取标准投标文件聚类特征数据，并利用标准投标文件聚类特征数据对投标文件聚类特征数据进行分布识别，从而获得分布异常识别数据；

步骤S103：确定分布异常识别数据为正确分布异常识别数据时，将投标文件数据的投标文件非文字数据标记为第一去异常后的投标文件数据；

步骤S104：确定分布异常识别数据为错误分布异常识别数据时，利用分布异常识别数据对投标文件数据的投标文件非文字数据进行去异常处理，从而获得第一去异常后的投标文件数据；

步骤S105：对第一去异常后的投标文件数据进行非文字数据去噪处理，从而获得第二去异常后的投标文件数据。

本发明中对投标文件数据的非文字数据进行聚类计算，提取投标文件的聚类特征数据。通过聚类算法，可以将投标文件的非文字数据分为不同的聚类簇，每个簇代表着相似的数据特征。这有助于将相似的数据点归为一类，提取出投标文件的聚类特征，利用标准投标文件聚类特征数据对投标文件的聚类特征数据进行分布识别。通过比较投标文件的聚类特征数据与标准投标文件聚类特征数据的分布差异，可以识别出分布异常情况。这有助于检测投标文件中与标准数据分布不一致的异常情况，例如异常的数据分布形态或偏离标准分布的情况。根据分布异常识别数据的结果，对投标文件的非文字数据进行异常数据去除与修复。正确的分布异常识别数据被标记为第一去异常后的投标文件数据，表示这部分数据是正常的。错误的分布异常识别数据则被用于去除和修复投标文件的异常数据，从而获得第一去异常后的投标文件数据。这有助于排除异常数据的干扰，提高投标文件数据的准确性和可靠性。对第一去异常后的投标文件数据进行非文字数据去噪处理。通过应用适当的去噪算法，可以去除第一去异常后的投标文件数据中的噪声和不必要的非文字字符。这有助于进一步净化数据，提高数据的质量和可用性。

优选地，其中非文字数据去噪处理通过非文字数据去噪计算公式进行计算，其中非文字数据去噪计算公式具体为：

;

为第/>时刻的第二去异常后的投标文件数据，/>为第/>时刻的第一去异常后的投标文件数据，/>为平滑调整项，/>为常数项，/>为保留细节调整项，/>为当前时刻，/>为非负的时间窗口，/>为第/>时刻的第一去异常后的投标文件数据，/>为第/>时刻的第二去异常后的投标文件数据，/>为第/>时刻的第二去异常后的投标文件数据的修正项。

本发明构造了一种非文字数据去噪计算公式，该公式充分考虑了第时刻的第一去异常后的投标文件数据/>、平滑调整项/>、常数项/>、保留细节调整项/>、当前时刻/>、非负的时间窗口/>、第/>时刻的第一去异常后的投标文件数据/>、第/>时刻的第二去异常后的投标文件数据/>以及相互之间的作用关系，通过对第一去异常后的投标文件数据/>进行修正和调整，得到第二去异常后的投标文件数据/>。其中，公式中的各项调整参数和运算符起到去除噪声和异常数据的作用，使得第二去异常后的投标文件数据更加准确和可靠。平滑调整项/>用于平衡公式中的各项参数的影响力，控制第二去异常后的投标文件数据的平滑度。通过调整平滑调整项的大小，可以控制数据平滑的程度，减少异常数据的突变或波动。常数项/>用于调整公式中的对数计算，防止除数为0的情况发生。该常数项通常取一个较小的正数，以确保计算的稳定性和避免除法操作出现异常。保留细节调整项/>用于控制公式中积分项对第二去异常后的投标文件数据的影响程度。通过调整保留细节调整项的大小，可以平衡保留细节和平滑数据之间的关系，保持对细节的适当保留。时间窗口/>用于确定计算公式中积分的时间范围。公式中的积分项表示在时间窗口内的数据累积影响，通过调整时间窗口的大小，可以控制数据的历史影响范围，限制只考虑一定时间范围内的数据对当前数据的影响。第/>时刻的第二去异常后的投标文件数据的修正项/>用于对第二去异常后的投标文件数据进行进一步的修正和调整。

优选地，步骤S2具体为：

步骤S21：对投标文件清洗数据进行文本解析并提取，从而获得投标文件关键文本数据；

步骤S22：对投标文件清洗数据进行实体关系抽取，从而获得投标文件实体关系数据；

步骤S23：根据投标文件关键文本数据以及投标文件实体关系数据进行耦合关联，生成结构关联数据；

步骤S24：根据结构关联数据进行数据标准化，从而获得结构关联标准数据；

步骤S25：对结构关联标准数据进行数据校验，获得投标文件结构化数据。

本发明中通过文本解析技术，将投标文件清洗数据中的文本进行解析和提取，从中获取关键的文本信息，如项目名称、招标要求、技术规格。通过实体关系抽取技术，识别和提取投标文件清洗数据中实体之间的关系，如企业和投标金额之间的关系、产品和供应商之间的关系等。可以帮助分析投标文件中的关联信息，进行风险评估、供应链分析。通过将投标文件关键文本数据和投标文件实体关系数据进行耦合关联，建立起结构化的关联数据，以表示投标文件中的信息结构和关联关系。这些结构关联数据可以用于构建投标文件的信息网络，进行关联性分析、可视化展示。通过对结构关联数据进行标准化处理，使得投标文件的结构关联数据具备一致的格式和规范，便于后续的数据管理和分析。标准化可以包括数据类型转换、单位统一、命名实体规范化等处理，以确保数据的一致性和可用性。通过对结构关联标准数据进行校验，可以验证数据的完整性、一致性和准确性。校验可以包括数据格式检查、逻辑关系验证、异常值检测，以确保投标文件的结构化数据质量可靠，提供可信的数据基础。

优选地，评审意见数据包括第一评审意见数据以及第二评审意见数据，步骤S3具体为：

步骤S31：获取评审要求数据；

步骤S32：获取评审要求数据，并利用评审要求数据对投标文件结构化数据进行智能检测，从而获得检测要求数据；

步骤S33：利用预设的专家规则对检测要求数据进行第一评审意见生成，生成第一评审意见数据；

步骤S34：利用预设的历史检验要求规则数据对检测要求数据进行第二评审意见生成，生成第二评审意见数据。

本发明中用于获取评审过程中的评审要求数据，这些要求通常由招标文件或相关规定中定义。评审要求数据可以提供对投标文件进行评估和比较的标准，用于后续的智能检测和评审意见生成。通过利用评审要求数据对投标文件结构化数据进行智能检测，可以自动化地检查和验证投标文件是否符合评审要求的各项指标和标准。检测要求数据包含了针对投标文件的评审要求检测结果，为后续评审意见生成提供依据。通过预设的专家规则，对检测要求数据进行分析和判定，生成第一评审意见数据。第一评审意见可以包括对投标文件的合规性、技术可行性、商业竞争力的方面的评估，为评审过程中的初步决策和建议提供支持。通过利用预设的历史检验要求规则数据，结合检测要求数据的结果，生成第二评审意见数据。第二评审意见可以基于历史数据和经验，进一步对投标文件的可行性、质量水平、风险评估等方面进行评估，为评审过程中的终审决策和建议提供支持。

优选地，步骤S4具体为：

步骤S41：根据投标文件结构化数据进行企业文本解析，从而获取投标企业文本数据；

步骤S42：对投标企业文本数据进行实体识别，从而获取投标企业实体数据；

步骤S43：对投标企业实体数据进行关键词匹配并通过预设的文本模式进行转换，从而获取投标企业信息；

步骤S44：对当前投标企业数据以及对比投标企业数据进行向量化，从而获得当前投标企业向量数据以及对比投标企业向量数据；

步骤S45：根据当前投标企业向量数据以及对比投标企业向量数据进行相似度检测，从而获得横向企业风险检测数据。

本发明中通过对投标文件进行结构化数据解析和实体识别，可以准确提取出与投标企业相关的文本信息和实体数据。这有助于避免信息提取过程中的误差和不准确性，提供高质量的企业信息作为后续分析和评审的基础。通过对投标文件进行结构化数据解析和实体识别，可以准确提取出与投标企业相关的文本信息和实体数据。这有助于避免信息提取过程中的误差和不准确性，提供高质量的企业信息作为后续分析和评审的基础。通过将企业数据向量化，并计算相似度，本方法为评标人员提供了可量化的企业比较和评估依据。相似度计算可以帮助评标人员快速了解当前企业与其他企业之间的相似程度，从而查明投标企业可能存在的围串标风险。这种基于数据的比较和评估方法，提供了客观的依据，减少了主观因素对评审结果的影响。通过自动化的数据处理和智能检测技术，能够快速提取、分析和比较企业数据。这有助于加速评标过程，减轻评标人员的工作负担，并提高评标的效率和准确性。评标人员可以更专注于分析和决策，而不需要花费大量时间和精力在手工处理和整理数据上。

优选地，纵向企业风险检测数据包括第一纵向企业风险检测数据以及第二纵向企业风险检测数据，步骤S5具体为：

步骤S51：根据投标企业信息进行企业相关数据采集，从而获得企业经营数据；

步骤S52：对企业经营数据进行第一风险评估，从而获得第一纵向企业风险检测数据；

步骤S53：根据投标企业信息以及企业经营数据进行第二风险评估，从而获得第二纵向企业风险检测数据。

本发明中通过采集和分析投标企业的经营数据，本方法能够实现对企业的纵向风险进行全面评估。步骤S51中的企业相关数据采集确保了获取到与企业经营相关的信息，包括财务数据、经营指标、市场表现等。步骤S52和S53的风险评估过程利用这些数据对企业进行综合分析和评估，从而产生第一纵向企业风险检测数据和第二纵向企业风险检测数据。在纵向风险评估过程中考虑多个关键指标，包括财务数据、经营指标等。这些指标可以反映企业的财务健康状况、盈利能力、资产负债状况、市场份额等方面的情况。通过对这些指标的分析和评估，可以得出具体的风险评估结果，为评标人员提供有关企业的定量风险数据。这有助于评标人员更准确地评估企业的纵向风险，并作出基于数据的决策。提供了结构化的企业纵向风险检测数据，为评标人员提供了辅助决策的依据。通过第一纵向企业风险检测数据和第二纵向企业风险检测数据，评标人员可以了解企业在不同时间段内的风险变化情况，判断企业的稳定性和发展趋势，并综合考虑其他评审要素做出综合评估和决策。这有助于评标人员更全面、客观地评价企业的风险状况，减少主观因素对评审结果的影响。

优选地，步骤S6具体为：

步骤S61：获取评标进度数据，并将评标进度数据、评审意见数据、横向企业风险检测数据以及纵向企业风险检测数据进行关联处理，从而生成评标关联数据，其中评标关联数据包括合格评标关联数据、存疑评标关联数据以及违规评标关联数据；

步骤S62：确定评标关联数据为合格评标关联数据时，将评标关联数据通过智能辅助评标系统以第一评标亮度/音量在第一评标区域进行第一评标提示作业；

步骤S63：确定评标关联数据为存疑评标关联数据时，将评标关联数据通过智能辅助评标系统以第二评标亮度/音量在第二评标区域进行第二评标提示作业；

步骤S64：确定评标关联数据为违规评标关联数据时，将评标关联数据通过智能辅助评标系统以第三评标亮度/音量在第三评标区域进行第三评标提示作业，其中第一评标区域、第二评标区域以及第三评标区域为不同区域。

本发明中通过将评标进度数据、评审意见数据、横向企业风险检测数据以及纵向企业风险检测数据进行关联处理，本方法能够自动化地生成评标关联数据。这些数据包含了评标过程中的关键信息，包括评审意见、企业风险情况等。通过自动化的关联处理，可以确保评标人员在评审过程中拥有准确、全面的数据支持，提高评审的效率和准确性。通过智能辅助评标系统，根据评标关联数据以不同的亮度或音量进行评标提示作业。这意味着不同的评标区域可以根据评标关联数据进行有针对性的提示，以帮助评标人员更好地注意和理解与评审相关的信息。智能辅助评标系统可以根据评标关联数据的特征进行自动化的提示和提醒，提高评标人员的工作效率和准确性。根据评标关联数据的确定，本方法将评标提示作业分为不同的评标区域，例如第一评标区域、第二评标区域和第三评标区域。更好地组织评审工作，将注意力集中在特定的评审阶段或评审内容上。评标区域的划分有助于提高评标人员的专注度和工作效率，确保评审过程的顺利进行。

本发明中投标方在电子招投标平台上传投标文件后，投标文件进入底层Mysql数据库，通过API的方式将数据文件同步到Hadoop中，通过数据中台对数据进行清洗、处理等工作。在数据中台中，通过pyspark分布式计算，基于OCR及NLP技术对投标文件的信息进行结构化处理，大幅提升解读文件及提取关键信息的效率，同时为后续相关需求及延展应用打好基础；系统对招投标文件进行智能解析，提取评审要求，通过文件智能定位，比对检测投标文件是否响应以及其正确率，并出具校验结果，辅助专家决策；通过信息横向对比进行标书相似度检测，以及企业关系检查，查明投标企业可能存在的围串标风险，以可视化的方式呈现异常结果，并出具检查报告。科学严谨，方便专家快速掌握异常情况，提高评审质量；对投标人企业经营过程中可能涉及的风险信息进行警示，包括法律诉讼、失信公司、被执行公司、经营异常、行政处罚查询、严重违法、股权出质、动产抵押等八大类企业风险检查，让采购风险前置；实时显示评标进度，通过智能语音和提示告知评审人员下一步操作流程，辅助对系统不熟悉的评审人员顺利完成评审工作，减少系统学习成本。

本发明的有益效果在于：1.基于OCR及NLP技术对投标文件的信息进行结构化处理，大幅提升解读文件及提取关键信息的效率，同时为后续相关需求及延展应用打好基础；

2.系统对招投标文件进行智能解析，提取评审要求，通过文件智能定位，比对检测投标文件是否响应以及其正确率，并出具校验结果，辅助专家决策；

3.通过信息横向对比进行标书相似度检测，以及企业关系检查，查明投标企业可能存在的围串标风险，以可视化的方式呈现异常结果，并出具检查报告。科学严谨，方便专家快速掌握异常情况，提高评审质量；

4.对投标人企业经营过程中可能涉及的风险信息进行警示，包括法律诉讼、失信公司、被执行公司、经营异常、行政处罚查询、严重违法、股权出质、动产抵押等八大类企业风险检查，让采购风险前置；

5.实时显示评标进度，通过智能语音和提示告知评审人员下一步操作流程，辅助对系统不熟悉的评审人员顺利完成评审工作，减少系统学习成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了一实施例的基于光学字符识别的智能辅助评标方法的步骤流程图；

图2示出了一实施例的投标文件清洗数据获取方法的步骤流程图；

图3示出了一实施例的去异常后的投标文件数据获取方法的步骤流程图；

图4示出了一实施例的投标文件结构化数据获取方法的步骤流程图；

图5示出了一实施例的评审意见数据获取方法的步骤流程图；

图6示出了一实施例的横向企业风险检测数据获取方法的步骤流程图；

图7示出了一实施例的纵向企业风险检测数据获取方法的步骤流程图；

图8示出了一实施例的评标进度提示作业的步骤流程图。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

请参阅图1至图8，本申请提供了一种基于光学字符识别的智能辅助评标方法，包括以下步骤：

具体地，例如从电子邮件或在线招标平台中获取投标文件数据，使用自动化工具对数据进行清洗，去除无效或重复的信息，统一格式。

具体地，例如使用自然语言处理（NLP）技术和文本解析算法对投标文件清洗数据进行解析和结构化处理。提取关键信息，如投标人名称、投标价格、投标截止日期、投标文件内容等，并将其存储为结构化的数据形式，例如表格、JSON格式或数据库记录。

具体地，例如从评审要求文件、规范或数据库中获取评审要求数据。利用自然语言处理和智能算法对投标文件结构化数据进行智能检测，验证是否符合评审要求。根据检测结果和预设的规则，生成评审意见数据，包括优缺点分析、风险评估。

具体地，例如从投标文件结构化数据中提取企业相关信息，如企业名称、注册资金、经营范围等。利用相似度计算方法（如余弦相似度或编辑距离）比较当前投标企业数据与对比投标企业数据的相似程度。根据相似度检测结果识别横向企业风险，例如存在关联企业、重复投标、不合规行为或围标行为。

具体地，例如收集与投标企业相关的纵向企业数据，如财务报表、经营状况、信用评级等。运用风险评估模型和指标，对纵向企业数据进行分析和评估，识别潜在的风险因素，如财务健康状况、信用风险、法律诉讼。

具体地，例如监控评标过程中的关键时间节点和评标进度数据，例如评标开始时间、评审意见提交时间等。将评标进度数据与评审意见数据、横向企业风险检测数据、纵向企业风险检测数据进行关联处理，建立评标关联数据。将评标关联数据传递给智能辅助评标系统，在相应的评标区域进行亮度或音量等提示作业，以提醒评标人员注意评标进度和相关风险。

优选地，步骤S1具体为：

具体地，例如登录电子投标云平台，进入相应的招标项目。在平台上选择下载投标文件的选项，获取投标文件数据。将下载的投标文件保存到本地或服务器上，准备进行后续处理。

具体地，例如使用分布式计算框架，如Apache Spark或Hadoop等，搭建数据处理环境。将投标文件数据加载到分布式文件系统或分布式数据库中，以便进行分布式数据处理。利用分布式计算框架提供的并行计算能力，对投标文件数据进行清洗和预处理。执行数据清洗操作，如去除空白行、处理缺失值、规范化字段格式等，确保数据的准确性和一致性。在分布式计算环境中运行清洗数据的任务，并将清洗后的数据保存为投标文件清洗数据。

优选地，步骤S12中投标文件数据清洗的步骤具体为：

具体地，例如读取投标文件数据，包括文字和非文字字符。针对非文字字符，如空格、制表符、换行符等，进行去除操作，以清除无关的字符。针对投标文件中的噪声数据，使用合适的算法或规则进行去噪处理，例如使用滤波器、傅里叶变换等方法去除噪声。经过非文字字符去除和去噪处理后，获得投标文件的去异常数据，即去除了无关字符和噪声的干净数据。

具体地，例如对去异常后的投标文件数据进行数据异常检测，通过比较数据与预设规则或模型，检测数据中的异常值、缺失值、重复值等。根据检测到的数据异常情况，进行数据修复操作，可以使用插值、平均值填充、删除异常记录等方法进行数据修复。经过数据异常检测和修复处理后，获得投标文件的修复数据，其中包含修复后的数据和处理异常值的记录。

具体地，例如对修改后的投标文件数据进行格式错误校正，例如校正日期格式、数值格式、文本格式等。根据预设的数据格式规则或使用正则表达式等方法，对数据进行校验和调整，确保数据符合特定的格式要求。经过格式错误校正处理后，获得投标文件的校正数据，其中包含已经校正过格式的数据。

具体地，例如对校正后的投标文件数据进行重复值检测，查找并标识出重复的记录或数据项。根据预设的去重策略，对重复的数据进行处理，可以选择保留第一条记录、保留最后一条记录或进行合并等方式。经过去重处理后，获得投标文件的去重数据，其中包含已经去除重复值的数据。

具体地，例如从投标文件数据中提取非文字数据，如数字、符号、图表等。使用聚类算法（如K-means、层次聚类等）对投标文件的非文字数据进行计算，将具有相似特征的数据点划分到同一个聚类簇中。基于聚类结果，获得投标文件的聚类特征数据，即将非文字数据归类为不同的簇，每个簇代表一类相似的数据。

具体地，例如准备标准投标文件的聚类特征数据，这些数据代表了正常分布情况下的投标文件非文字数据特征。将标准投标文件聚类特征数据与待处理的投标文件聚类特征数据进行对比，通过计算它们之间的相似度或距离，识别出与标准数据分布不一致的数据点。基于分布识别结果，获得分布异常识别数据，即标记出与标准数据分布不一致的数据点。

具体地，例如经过分布异常识别后，判断识别结果中与标准数据分布不一致的数据点是否属于正确的异常情况，即判断是否为第一去异常后的投标文件数据。如果分布异常识别数据被确定为正确分布异常识别数据，将该数据标记为第一去异常后的投标文件数据。

具体地，例如经过分布异常识别后，如果识别结果中与标准数据分布不一致的数据点被确定为错误分布异常识别数据，需要对这些数据进行去异常处理。根据具体的业务规则或方法，对分布异常识别数据进行异常值的修复、缺失值的填充或删除异常记录等操作，从而获得第一去异常后的投标文件数据。

具体地，例如针对第一去异常后的投标文件数据中的非文字数据，执行去噪处理操作，以去除数据中的干扰或错误项。使用合适的方法，如滤波器、平滑算法等，对非文字数据进行平滑处理，以去除噪声或异常波动。经过非文字数据去噪处理后，获得第二去异常后的投标文件数据，其中包含经过去异常和去噪处理的干净数据。

;

优选地，步骤S2具体为：

具体地，例如使用文本解析技术，如自然语言处理（NLP）算法、文本分析工具等，对投标文件清洗数据进行解析，将文本数据分割为不同的文本单元，如句子、段落、关键词等。根据业务需求，从解析后的文本数据中提取投标文件关键文本数据，这些数据可能包括投标方名称、项目描述、技术规格、合同条款等重要信息。

具体地，例如利用实体抽取技术，如命名实体识别（NER）、实体关系抽取算法等，从投标文件清洗数据中识别和提取出具有特定含义的实体，如公司名称、人名、地点、产品等。基于抽取的实体，进一步识别和提取实体之间的关系，例如合作关系、所有权关系、层级关系等。

具体地，例如将投标文件关键文本数据和投标文件实体关系数据进行耦合关联，根据它们之间的逻辑关系和语义关联，建立数据之间的连接。可以使用图数据库、关系数据库或其他数据结构，将投标文件关键文本数据和投标文件实体关系数据进行存储和组织，生成结构关联数据。

具体地，例如对结构关联数据进行数据清洗和转换，去除重复、不一致或错误的数据，使数据符合特定的标准格式和规范。对数据字段进行统一命名、单位转换、数据类型转换等操作，从而获得结构关联标准数据。

具体地，例如可以进行数据验证、逻辑校验、规则匹配等操作，获得投标文件结构化数据。

步骤S31：获取评审要求数据；

具体地，例如从评审流程或相关文件中获取评审要求数据，包括评审标准、评分细则、评审指标等，以确定评审要求的内容和标准。

具体地，例如从评审流程或相关文件中获取评审要求数据，包括评审标准、评分细则、评审指标等。确定评审要求的内容和标准，从而获得检测要求数据。

具体地，例如基于预设的专家规则和评审要求数据，对检测要求数据进行分析和评估。根据规则和标准，生成第一评审意见数据，包括对投标文件的优点、不足、建议等方面的评价。

具体地，例如基于历史的检验要求数据和评审要求数据，对检测要求数据进行综合评估和分析。利用历史数据中的经验和知识，生成第二评审意见数据，提供额外的评价、建议或决策支持。

优选地，步骤S4具体为：

具体地，例如采用自然语言处理技术对投标文件结构化数据进行解析，提取与投标企业相关的文本信息。例如，可以使用文本解析算法提取企业名称、注册资金、联系方式、经营范围的关键信息。

具体地，例如通过实体识别技术，对投标企业文本数据进行处理，识别出其中的实体，如人名、地名、公司名等，获取投标企业的实体数据。

具体地，例如将投标企业实体数据与预设的关键词进行匹配，识别出与投标企业相关的重要信息。同时，可以应用预设的文本模式，将文本数据进行转换和规范化，从而获取投标企业信息。

具体地，例如将当前投标企业数据和对比投标企业数据进行向量化，将其表示为数学向量的形式。

具体地，例如利用相似度计算方法，对当前投标企业向量数据和对比投标企业向量数据进行比较，从而确定它们之间的相似度。这样可以得到横向企业风险检测数据，相似度计算方式如余弦相似度是用来衡量两个向量夹角的相似程度。通过计算两个向量的夹角的余弦值来度量它们的相似度。余弦相似度的取值范围在-1到1之间，值越接近1表示两个向量越相似。

具体地，例如通过公开数据库或行业数据源获取企业的财务报表、经营指标等经营数据，获取企业的营业执照、信用评级报告、行政处罚记录等相关信息；进行网络搜索和信息抓取，获取企业在新闻、社交媒体等渠道的信息；与企业进行合作或合作伙伴提供的接口获取企业的交易数据、供应链数据等相关信息。

具体地，例如对企业的财务报表进行财务分析，评估企业的盈利能力、偿债能力、经营稳定性等风险指标；根据企业的经营指标，如营业额、利润率等，与行业平均值进行比较，评估企业的竞争力和市场风险；分析企业的资产负债结构、现金流状况等，评估企业的资金风险和流动性风险；根据企业的信用评级、法律诉讼记录等信息，评估企业的信用风险和法律合规风险。

具体地，例如基于预设的规则结合企业的经营数据和行业趋势，分析企业的市场前景和行业风险；根据企业的供应链数据，评估供应商的可靠性和供应链风险；考虑企业的发展战略、组织结构等内部因素，评估企业的战略风险和管理风险；分析企业的创新能力、技术竞争力等，评估企业的技术风险和创新风险。

优选地，步骤S6具体为：

具体地，例如获取评标进度数据，包括评标会议时间、评标专家人员安排等信息；将评审意见数据与评标进度数据进行关联，确保评审意见与相应的评标阶段关联起来；将横向企业风险检测数据与评标进度数据进行关联，确保横向企业风险检测结果与相应的评标阶段关联起来；将纵向企业风险检测数据与评标进度数据进行关联，确保纵向企业风险检测结果与相应的评标阶段关联起来；综合评标进度数据、评审意见数据、横向企业风险检测数据以及纵向企业风险检测数据，生成评标关联数据。

具体地，例如评标关联数据为合格评标关联数据，将评标关联数据通过智能辅助评标系统以正常音量/正常亮度在第一评标区域或者标准展示规格进行第一评标提示作业，如可视化界面展示或语音提示作业。

具体地，例如评标关联数据为存疑评标关联数据，将存疑评标关联数据对应的评标关联数据以较高亮度/音量在第二评标区域或者标准展示规格进行第二评标提示作业，如可视化界面展示或语音提示作业。

具体地，例如评标关联数据为违规评标关联数据，将违规评标关联数据对应的评标关联数据以最高亮度/音量在第三评标区域或者标准展示规格进行第三评标提示作业，如可视化界面展示或数次提醒的语音提示作业。

具体地，例如根据评标关联数据的内容和重要性，确定其为评标关联数据；通过智能辅助评标系统，在评标区域显示评标关联数据，可以是以相应的方式进行提示，以引起评标人员的注意；合格评标关联数据可能包括重要的评审意见、关键的横向企业风险检测结果或其他与评标进度相关的信息。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附申请文件而不是上述说明限定，因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于光学字符识别的智能辅助评标方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

3.根据权利要求2所述的方法，其特征在于，步骤S12中投标文件数据清洗的步骤具体为：

4.根据权利要求3所述的方法，其特征在于，去异常后的投标文件数据为第二去异常后的投标文件数据，步骤S121具体为：

对投标文件数据的投标文件非文字数据进行聚类计算，从而获得投标文件聚类特征数据；

获取标准投标文件聚类特征数据，并利用标准投标文件聚类特征数据对投标文件聚类特征数据进行分布识别，从而获得分布异常识别数据；

确定分布异常识别数据为正确分布异常识别数据时，将投标文件数据的投标文件非文字数据标记为第一去异常后的投标文件数据；

确定分布异常识别数据为错误分布异常识别数据时，利用分布异常识别数据对投标文件数据的投标文件非文字数据进行去异常处理，从而获得第一去异常后的投标文件数据；

对第一去异常后的投标文件数据进行非文字数据去噪处理，从而获得第二去异常后的投标文件数据。

5.根据权利要求4所述的方法，其特征在于，其中非文字数据去噪处理通过非文字数据去噪计算公式进行计算，其中非文字数据去噪计算公式具体为：

;

6.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

对投标文件清洗数据进行文本解析并提取，从而获得投标文件关键文本数据；

对投标文件清洗数据进行实体关系抽取，从而获得投标文件实体关系数据；

根据投标文件关键文本数据以及投标文件实体关系数据进行耦合关联，生成结构关联数据；

根据结构关联数据进行数据标准化，从而获得结构关联标准数据；

对结构关联标准数据进行数据校验，获得投标文件结构化数据。

7.根据权利要求1所述的方法，其特征在于，评审意见数据包括第一评审意见数据以及第二评审意见数据，步骤S3具体为：

获取评审要求数据；

获取评审要求数据，并利用评审要求数据对投标文件结构化数据进行智能检测，从而获得检测要求数据；

利用预设的专家规则对检测要求数据进行第一评审意见生成，生成第一评审意见数据；

利用预设的历史检验要求规则数据对检测要求数据进行第二评审意见生成，生成第二评审意见数据。

8.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

根据投标文件结构化数据进行企业文本解析，从而获取投标企业文本数据；

对投标企业文本数据进行实体识别，从而获取投标企业实体数据；

对投标企业实体数据进行关键词匹配并通过预设的文本模式进行转换，从而获取投标企业信息；

对当前投标企业数据以及对比投标企业数据进行向量化，从而获得当前投标企业向量数据以及对比投标企业向量数据；

根据当前投标企业向量数据以及对比投标企业向量数据进行相似度检测，从而获得横向企业风险检测数据。

9.根据权利要求1所述的方法，其特征在于，纵向企业风险检测数据包括第一纵向企业风险检测数据以及第二纵向企业风险检测数据，步骤S5具体为：

根据投标企业信息进行企业相关数据采集，从而获得企业经营数据；

对企业经营数据进行第一风险评估，从而获得第一纵向企业风险检测数据；

根据投标企业信息以及企业经营数据进行第二风险评估，从而获得第二纵向企业风险检测数据。

10.根据权利要求1所述的方法，其特征在于，步骤S6具体为：

获取评标进度数据，并将评标进度数据、评审意见数据、横向企业风险检测数据以及纵向企业风险检测数据进行关联处理，从而生成评标关联数据，其中评标关联数据包括合格评标关联数据、存疑评标关联数据以及违规评标关联数据；

确定评标关联数据为合格评标关联数据时，将评标关联数据通过智能辅助评标系统以第一评标亮度/音量在第一评标区域进行第一评标提示作业；

确定评标关联数据为存疑评标关联数据时，将评标关联数据通过智能辅助评标系统以第二评标亮度/音量在第二评标区域进行第二评标提示作业；

确定评标关联数据为违规评标关联数据时，将评标关联数据通过智能辅助评标系统以第三评标亮度/音量在第三评标区域进行第三评标提示作业，其中第一评标区域、第二评标区域以及第三评标区域为不同区域。