CN114547404B

CN114547404B - 一种大数据平台系统

Info

Publication number: CN114547404B
Application number: CN202210019074.4A
Authority: CN
Inventors: 孟竹; 王普昕
Original assignee: Purui Chunzheng Medical Technology Suzhou Co ltd
Current assignee: Purui Chunzheng Medical Technology Suzhou Co ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-02-17
Anticipated expiration: 2042-01-10
Also published as: CN114547404A

Abstract

本发明公开了一种大数据平台，包括：数据获取模块、数据处理模块以及数据展示模块，数据获取模块与数据处理模块连接，数据处理模块与数据展示模块连接，数据获取模块用于获取、解析、更新和写入存储公司名称数据，并传输至数据处理模块，数据处理模块接收到公司名数据并与历史存储的公司名数据进行匹配形成含映射关系的公司名数据，数据处理模块将含映射关系的公司名数据传输至数据展示模块中以便外部程序调用。本发明通过构建大数据平台，用于获取、解析以及归纳公司数据以便用户查询。

Description

一种大数据平台系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种大数据平台系统。

背景技术

不同国家的医疗合规性信息分布在各个不同的专业网站中，用户需要单独去各个数据源(网站)查询相关信息，并且大部分的数据源头只有最新的数据。由于不同国家以及不同区域的差异性，同一个机构可能会有不同的公司名称，由于公司的变动导致数据的变化，导致大量的历史数据缺失，且目前无法根据某一个网站识别现有的国内外多个公司是否为同一家公司，提高了用户查询数据的难度。

发明内容

本发明的目的在于提供一种大数据平台，集数据获取、分析以及归纳的医疗合规性的大数据平台，以解决目前用户难以查询相关公司的医疗数据的问题。

为实现上述目的，本发明提供一种大数据平台，包括：数据获取模块、数据处理模块以及数据展示模块，所述数据获取模块与所述数据处理模块连接，所述数据处理模块与所述数据展示模块连接；

所述数据获取模块用于获取、解析、更新和写入存储公司名称数据，并传输至所述数据处理模块；

所述数据处理模块接收到所述公司名数据并与历史存储的公司名数据进行匹配形成含映射关系的公司名数据；

所述数据处理模块将所述含映射关系的公司名数据传输至所述数据展示模块中以便外部程序调用。

优选地，所述数据获取模块包括请求模块、解析模块、更新模块和写入存储模块；

所述请求模块和所述解析模块连接，所述解析模块和所述更新模块连接，所述更新模块和所述写入存储模块连接；

所述请求模块用于根据不同的数据源网站编写对应的数据源获取逻辑，并获取公司名称源数据；

所述解析模块接收所述公司名称源数据并生成表单，并将所述表单传输至所述更新模块，所述更新模块用于将所述表单中的内容与历史存储的数据进行匹配，生成历史记录文件数据、增量文件数据和全量文件数据；

所述写入存储模块用于存储所述历史记录文件数据、所述增量文件数据和所述全量文件数据。

优选地，所述数据处理模块还包括数据下载模块和格式转化模块，所述数据下载模块与所述格式转化模块连接；

所述数据下载模块用于下载所述写入存储模块中的所述增量文件数据；

所述格式转化模块用于将所述增量文件数据采用神经语言程序学和模糊逻辑技术进行格式转换。

优选地，所述数据处理模块还包括数据预处理模块，所述数据预处理模块与所述格式转化模块连接，所述数据预处理模块用于删除所述增量文件数据中的公司名数据的特殊字符、额外空格、包含非英文字符的字符串，还用于将所述公司名数据中的大写字母转换为小写。

优选地，所述数据处理模块还包括数据匹配模块，数据匹配模块用于接收经所述数据预处理模块处理的数据，并采用模糊字符串匹配的方式进行数据匹配。

优选地，所述数据匹配模块包括聚类模块，所述聚类模块用于将属于同一家公司的不同公司名称归类。

优选地，所述数据匹配模块还包括名称标准化模块，所述名称标准化模块与所述聚类模块连接，所述名称标准化模块用于接收所述聚类模块的归类数据，并对每一类数据中提取最长的公共子串作为当前类的标准名称，获取名称标准的公司名数据。

优选地，所述数据匹配模块还包括置信度模块，所述置信度模块与所述名称标准化模块连接，所述置信度模块用于将所述名称标准的公司名数据与历史存储的公司名数据进行匹配形成含映射关系的公司名数据。

优选地，所述展示模块包括数据存储模块和数据调用接口模块，所述数据存储模块与所述置信度模块连接，用于将所述含映射关系的公司名数据进行存储，所述数据调用接口模块用于提供外部程序调用接口。

优选地，所述数据调用接口模块还与所述写入存储模块连接，用于调用所述写入存储模块存储的所述历史记录文件数据、所述增量文件数据和所述全量文件数据。

相对于现有技术，本发明的有益效果在于：

本发明通过构建数据获取模块、数据处理模块和数据展示模块，将获取的公司名数据进行处理，并提供外部程序接口以便调用，其中，通过对公司名数据的处理，将不同名字但是同一家公司的数据进行归类，以便用户查询，提高用户体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的大数据平台的结构示意图；

图2是本发明某一实施例提供的大数据平台中的数据处理流程示意图；

图3是本发明某一实施例提供的数据获取模块数据处理流程图；

图4是本发明提供的请求模块的数据处理流程示意图；

图5是本发明提供的解析模块的数据处理流程示意图；

图6是本发明提供的更新模块的数据处理流程示意图；

图7是本发明提供的数据匹配模块的结构示意图；

图8是本发明又一实施例提供的数据获取模块的数据处理流程示意图；

图9是本发明提供的数据展示模块的数据处理流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明某一实施例提供一种大数据平台，包括：数据获取模块100、数据处理模块200以及数据展示模块300，数据获取模块100与数据处理模块200连接，数据处理模块200与数据展示模块300连接，数据获取模块100用于获取、解析、更新和写入存储公司名称数据，并传输至数据处理模块200，数据处理模块200接收到公司名数据并与历史存储的公司名数据进行匹配形成含映射关系的公司名数据，数据处理模块200将含映射关系的公司名数据传输至数据展示模块300中以便外部程序调用。

请参阅图2，系统采用微软Azure云计算框架，PaaS(Platform as a Service)架构开发，不同于传统计算机架构中“硬件+操作系统/开发工具+应用软件”的模式，云计算的平台层提供一整套开发、运行和运营应用软件的支撑平台。微软Azure云计算框架主要有六个部分组成：Azure Functions(包括Spider类和Holmes类)、Azure Data Lake Storage、Azure SQL database、Data Factory、Azure Web Apps、Azure Databricks。首先通过AzureData Factory配置整体流程，目前是每天定时运行称作Spider的Azure Functions，将获取到的数据文件存储在Azure Data Lake Storage中，再运行一个称作Holmes的AzureFunctions获取Spider取得的所有数据文件，并进行转换和加工，存储到Azure SQLdatabase中，最终由Azure Web Apps提供API供外部程序调用。本发明采用数据获取模块100和数据处理模块200相当于微软Azure云计算框架中的Azure Functions中的Spider类和Holmes类，数据展示模块300相当于微软Azure云计算框架中的Azure Web Apps。

微软Azure云计算框架中的Azure Databricks是一个已针对Microsoft Azure云服务平台进行优化的数据分析平台。Azure Databricks提供了两种用于开发数据密集型应用程序的环境：Azure Databricks SQL Analytics和Azure Databricks工作区。

Azure Databricks SQL Analytics为想要针对数据湖运行SQL查询、创建多种可视化类型以从不同角度探索查询结果，以及生成和共享仪表板的分析员提供了一个易于使用的平台。

Azure Databricks工作区提供了一个交互工作区，支持数据工程师、数据科学家和机器学习工程师之间的协作。使用大数据管道时，原始或结构化的数据将通过Azure数据工厂以批的形式引入Azure，或者通过Apache Kafka、事件中心或IoT中心进行准实时的流式传输。此数据将驻留在Data Lake(长久存储)、Azure Blob存储或Azure Data LakeStorage中。在分析工作流中，使用Azure Databricks从多个数据源读取数据，并使用Spark将数据转换为突破性见解。

Azure SQL数据库是一个完全托管的平台即服务(PaaS)数据库引擎，可在无需用户参与的情况下处理大多数数据库管理功能，如升级、修补、备份和监控，可以为Azure中的应用程序和解决方案创建高度可用且高性能的数据存储层。SQL数据库可成为各种新式云应用程序的正确选择。

定时运行一次数据获取模块100，仅在数据有更新时触发数据处理模块200并即使存储在写入存储模块14中。具体的，微软Azure云计算框架中的Data Factory用以调配其它的Azure计算服务。为混合提取-转换-加载(ETL)、提取-加载-转换(ELT)和数据集成项目而构建的托管云服务。对于每一个数据源制定一套流程，并可以定时触发流程，并根据每一步的输入输出指定逻辑关系及流程。

通过Azure云计算框架，主要专注于Azure Function(数据获取模块100和数据处理模块200)和Azure web apps(数据展示模块300)，分别用于获取和加工数据以及展示数据，数据的安全性和维护可以在Azure上轻松配置实现。本方案即可获取到分布在数据源中的医疗器械合规性数据，并不断更新和维护，还能识别出相同厂家因在不同国家/地区申报的名字不同而导致的差异。通过云平台的方式搭建了一个集合数据获取、分析、归纳的大数据平台。

Azure Functions的主模块由两个python实现的程序组成，分为Spider和Homles两个主模块，RestAPI层则由python实现的API接口单独构成，这两层是整个系统架构中通过python代码实现的，数据的存储、转换和维护均由Azure提供的apps配置实现。

数据获取模块100包括请求模块11、解析模块12、更新模块13和写入存储模块14，请求模块11和解析模块12连接，解析模块12和更新模块13连接，更新模块13和写入存储模块14连接，请求模块11用于根据不同的数据源网站编写对应的数据源获取逻辑，并获取公司名称源数据，解析模块12接收公司名称源数据并生成表单，并将表单传输至更新模块13，更新模块13用于将表单中的内容与历史存储的数据进行匹配，生成历史记录文件数据、增量文件数据和全量文件数据，写入存储模块14用于存储历史记录文件数据、增量文件数据和全量文件数据。

请参阅图3，具体的，在微软Azure云计算框架中表示数据获取模块100，具体如下，Spider类是基于Azure Functions编写的适应无服务器体系结构的函数类，使用配置文件来指定运行目标，一个目标可以包括一个或多个数据源，具体取决于应用程序的输入参数。Spider类的执行过程分为四个阶段：请求、解析、更新和写入存储。这四个阶段按请求、解析、更新和写入存储的顺序执行，请求负责向数据源发出HTTP请求，根据不同的数据源网站由于展示公开数据的地址和方式不同，针对每一个数据源编写一套获取内容的逻辑，通过HTTP协议模拟人工访问页面，获取其公开数据，并将返回的对象(可能是xml\html的网页内容，也可能是pdf，csv，excel的文件)传递给解析器，解析器负责从请求的对象中提取有用的信息，即数据源网站所公开的所有医疗合规性数据部分，并将这些信息制定到表中。然后将此表传递给更新程序，更新程序将此表与上一次运行产生的表进行比较。然后生成最新的历史记录文件、增量文件和全量文件，再从增量文件中提取公司名称、产品名称、产品分类、时间、编号、国家和地址、记录变动方式(新增、修改还是删除)等信息用以写入SQL，供RestAPI查询。最后，所有文件将上传至Azure Blob进行存储。

请求、解析和更新具有处理最常见情况的默认类，也有可以对其进行自定义以满足特定需求的子类，并且可以在目标的配置文件中指定该子类或默认类，然后Spider将执行指定的子类。

请参阅图4，数据获取模块100包括请求模块11，Spider类中包括Request类，Request类根据HTTP请求的URL获取数据源的关键字，再以这个关键字在配置文件中查询相关的配置，包括链接地址、参数，格式化规则等等。通过链接从对应网站或第三方数据供应商获取表单内容数据。

请参阅图5，数据获取模块100包括解析模块12，Spider类中还包括Parser类，取得Request获取到的数据后，根据配置文件中该数据源的配置，对日期、公司名和设备名的字段进行格式化，输出成统一的格式。

请参阅图6，数据获取模块100包括更新模块13，Spider类中还包括Updaters类，Updates类通过Parser生成的数据表单和Azure Blob上已有的历史数据进行比较，生成数据的增、删、改操作的增量文件，并将本次的数据与历史数据合并，生成新的数据集合，称为全量文件。并将生成的文件上传至Azure Blob。

数据处理模块200还包括数据下载模块21和格式转化模块22，数据下载模块21与格式转化模块22连接，数据下载模块21用于下载写入存储模块14中的增量文件数据，格式转化模块22用于将增量文件数据采用神经语言程序学和模糊逻辑技术进行格式转换。数据处理模块200还包括数据预处理模块23，数据预处理模块23与格式转化模块22连接，数据预处理模块23用于删除增量文件数据中的公司名数据的特殊字符、额外空格、包含非英文字符的字符串，还用于将公司名数据中的大写字母转换为小写。数据处理模块200还包括数据匹配模块24，数据匹配模块24用于接收经数据预处理模块23处理的数据，并采用模糊字符串匹配的方式进行数据匹配。

请参阅图7，数据匹配模块24包括聚类模块241，聚类模块241用于将属于同一家公司的不同公司名称归类。数据匹配模块24还包括名称标准化模块242，名称标准化模块242与聚类模块241连接，名称标准化模块242用于接收聚类模块241的归类数据，并对每一类数据中提取最长的公共子串作为当前类的标准名称，获取名称标准的公司名数据。数据匹配模块24还包括置信度模块243，置信度模块243与名称标准化模块242连接，置信度模块243用于将名称标准的公司名数据与历史存储的公司名数据进行匹配形成含映射关系的公司名数据。

请参阅图8，具体的，在微软Azure云计算框架中表示数据处理模块200，具体如下，Holmes类从Azure Blob下载Spider类抓取的数据集，使用NLP和模糊逻辑技术实现的公司名称标准化的两层自动化方法，其中NLP表示是神经语言程序学(Neuro-LinguisticProgramming)。

考虑公司名称可能存在以下情况：

a)名称、部门名称和机构名称不同/不规范的法人实体。

b)机构名称缩写。

c)拼写错误。

d)除组织名称外还存在国家/地区名称。

e)提供电子邮件ID而不是组织名称。

f)使用了非英文字符。

g)可能无法映射到母公司名称的子公司名称。

采用格式转化模块22对数据进行格式化，格式化后产生一个标准化实体名称，提取并格式化其中的公司名称。(例如，“Beijing Biosis Healing Biological Technology，Inc.”得到“biosis healing biological”)，并将算法产生的结果输出到Azure中的SQL数据库作为数据集合供下一次运行时访问，第一层将普通业务实体描述名称标识为"stop-words"，然后删除为"常见"字，第二层，使用模糊字符串匹配为基础的方法，以实现目标标准化实体名称。采用以下方法来解决上述情况，以达到格式化标准化实体名称的目的。

首先需要识别出现在公司名称中的常见术语，然后将常见术语从文本中删除。此过程用于减少数据中的噪音，这些噪音可能会导致数据模型中将不同的公司标记在一起。这些要删除的常用词被视为停用词。例如，Corporation、Private Limited、Solutions和此类术语通常出现在多个公司名称中，因此可能会错误地导致不同公司名称的高相似度得分。具体的工作流程如下：

第一步工作流程：数据预处理模块23用于删除增量文件数据中的公司名数据的特殊字符、额外空格、包含非英文字符的字符串，还用于将公司名数据中的大写字母转换为小写。具体的，基本预处理，包括删除特殊字符、额外空格、包含非英语字符的字符串以及将所有文本转换为小写，具体如下：

a)标记字符串以分别分析每个单词。

b)识别语料库中出现频率最高的词。

c)在确定的频繁出现的术语中，手动选择那些与特定公司名称无关且会增加噪音的术语。这些词将被视为停用词并从分析中删除。

第二步工作流程：使用基于模糊字符串匹配的方法来实现目标标准化实体名称，具体如下：

a)确定相似度分数。使用第一步中获取的清理过的公司名称，创建维度为nxn的相似矩阵S，其中n是数据集中公司名称的数量，相似度矩阵的元素Sij是一个分数，用于量化第i个和第j个姓名之间的文本相似度。为了计算相似度分数，借助Python中的FuzzyWuzzy库，该库使用Levenshtein距离的基本概念来计算两个字符串之间的差异。FuzzyWuzzy库中提供了几种方法来计算字符串相似度。考虑了FuzzyWuzzy包中的partial_ratio和token_set_ratio度量的调和平均值，以获得成对的文本相似性度量，这会处理部分字符串匹配。

b)采用聚类模块241进行相似名称的聚类。在这个矩阵上运行聚类算法来创建可能属于同一家公司的名称集群。本发明使用的聚类算法是Affinity Propagation，因为Affinity Propagation根据提供的数据选择聚类数，而不是K-means聚类需要必须提供聚类数，该算法可以选择在预先计算的相似度上运行聚类矩阵。

c)采用名称标准化模块242进行分配标准名称。根据分配的集群，考虑特定集群中的所有名称对。对于每一对找到最长的公共子串。本发明使用Python中difflib库中的Sequence Matcher函数完成的。从集群的子字符串列表中提取出现次数最多的那个(模式)，该模式被认为是要分配给当前集群的标准名称。然后对所有集群重复该练习，一个列表可以有多种模式，在这种情况下，将返回所有模式。

d)采用置信度模块243进行置信度判定。分配标准名称后，测量标准名称作为该集群的实际代表名称的置信度。这是通过将清理后的字符串与标准名称进行比较来完成的，对于识别出多个标准名称的情况，对每个标准名称进行字符串匹配，并取所有值的平均值。FuzzyWuzzy库的token_set_ratio函数再次用于此目的。根据测量标准名称获取一个置信度分数，量化了以上获取的标准名称真正代表原始字符串的公司名称的置信度。

e)空白校正。最后检查标识的两个不同的标准名称是否仅存在空格差异，如果是，则删除空格以获得单个标准名称。

Holmes软件类即数据处理模块200，将给定的Azure Blob中的记录与Azure SQL数据库存储的现有记录通过以上算法链接，程序实质上会读取以前从未出现过的制造商名称的值，并将其与文件中现有的制造商唯一标识符匹配，或者在匹配失败时创建新的标识符，在各个数据集中的制造商名称与制造商标识符之间建立的这些链接存储SQL数据库中。

本发明提供的大数据平台还包括数据存储模块31，Azure的存储平台，用以存储和维护获取到的所有数据集，Azure的存储平台是Microsoft提供的适用于现代数据存储方案的云存储解决方案，核心存储服务为数据对象提供可大规模缩放的对象存储、为Azure虚拟机(VM)提供磁盘存储、为云提供文件系统服务，并且提供用于可靠消息传送的消息传送存储以及NoSQL存储。这些服务包括：

1)持久且具有高可用性。冗余可确保数据在发生短暂的硬件故障时是安全的。还可以选择在各个数据中心或地理区域之间复制数据，从而在发生本地灾难或自然灾害时提供额外的保护，以此方式复制的数据在发生意外中断时将保持高可用性。

2)安全。该服务会对写入到Azure存储账户的所有数据进行加密。Azure存储可以精细地设置访问数据者的权限。

3)可缩放。Azure存储设计为可大规模缩放以满足当今的应用程序在数据存储和性能方面的需求。

4)托管的。Azure为你处理硬件维护、更新和关键问题。

5)易访问。可以通过HTTP或HTTPS从世界上的任何位置访问Azure存储中的数据，Microsoft以各种语言(包括NET、Java、Node.js、Python、PHP、Ruby、Go和其他语言)提供了适用于Azure存储的客户端库以及成熟的REST API。Azure存储支持通过Azure PowerShell或Azure CLI运行脚本。而且，Azure门户和Azure存储资源管理器提供了用于处理数据的简单可视化解决方案

请参阅图9，数据展示模块300，Azure应用服务是一项基于HTTP的服务，用于托管Web应用程序、REST API和移动后端。可以使用.NET、NET Core、Java、Ruby、Node.js、PHP或Python等偏好的语言进行开发。在基于Windows和Linux的环境中，应用程序都可以轻松地运行和缩放。

应用服务不仅可将Microsoft Azure的强大功能(例如安全性、负载均衡、自动缩放和自动管理)添加到应用程序。还可以利用其DevOps功能，例如，从Azure DevOps、GitHub、Docker Hub和其他源进行持续部署，包管理，过渡环境，自定义域和TLS/SSL证书。

通过数据展示模块300配置和部署基于Python实现的API，供前端调用及展示处理后的数据。

数据展示模块300还包括数据调用接口模块32中的RestApi类，RestApi类是Azure的web App服务。服务与大多数(如果不是全部)主流网站框架兼容。通过预配置一个AzureApp资源提供HTTP的访问接口。由后台python程序搭键一个web服务器，指定访问的url和参数(要查询的实体名称、数据源、时间范围等)，并加入Azure身份验证，web服务收到前端发送的访问请求后，通过指定的参数查询Azure SQL数据库，并将查询的结果组装成json返回。

本发明系统可以连接到多个数据源进行数据抓取以及解析，通过配置文件和自定义的程序类简单地进行新数据源拓展，存储所有数据源的历史数据变动，抓取数据的同时可以进行数据分析，模组化系统设计便于维护与拓展，数据存储模式与多个前端应用兼容，多运行系统兼容，得益于系统的模组化设计，此系统已经和超过20个数据源相连，并且每小时抓取上百万数据条目并与已存储的数据进行对比更新。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种大数据平台系统，其特征在于，包括：数据获取模块、数据处理模块、数据预处理模块以及数据展示模块，所述数据获取模块与所述数据处理模块连接，所述数据处理模块与所述数据展示模块连接；

所述数据处理模块将所述含映射关系的公司名数据传输至所述数据展示模块中以便外部程序调用；

数据处理模块包括数据匹配模块，数据匹配模块用于接收经所述数据预处理模块处理的数据，并采用模糊字符串匹配的方式进行数据匹配；数据匹配模块包括聚类模块、名称标准化模块和置信度模块，所述名称标准化模块与所述聚类模块连接，所述置信度模块与所述名称标准化模块连接；所述聚类模块用于将属于同一家公司的不同公司名称归类；所述名称标准化模块用于接收所述聚类模块的归类数据，并对每一类数据中提取最长的公共子串作为当前类的标准名称，获取名称标准的公司名数据；所述置信度模块用于将所述名称标准的公司名数据与历史存储的公司名数据进行匹配形成含映射关系的公司名数据。

2.根据权利要求1所述的大数据平台系统，其特征在于，所述数据获取模块包括请求模块、解析模块、更新模块和写入存储模块；

3.根据权利要求2所述的大数据平台系统，其特征在于，所述数据处理模块还包括数据下载模块和格式转化模块，所述数据下载模块与所述格式转化模块连接；

4.根据权利要求3所述的大数据平台系统，其特征在于，所述数据预处理模块与所述格式转化模块连接，所述数据预处理模块用于删除所述增量文件数据中的公司名数据的特殊字符、额外空格、包含非英文字符的字符串，还用于将所述公司名数据中的大写字母转换为小写。

5.根据权利要求2所述的大数据平台系统，其特征在于，所述数据展示模块包括数据存储模块和数据调用接口模块，所述数据存储模块与所述置信度模块连接，用于将所述含映射关系的公司名数据进行存储，所述数据调用接口模块用于提供外部程序调用接口。

6.根据权利要求5所述的大数据平台系统，其特征在于，所述数据调用接口模块还与所述写入存储模块连接，用于调用所述写入存储模块存储的所述历史记录文件数据、所述增量文件数据和所述全量文件数据。