CN110222093A - 处理列车数据的方法、装置及存储介质 - Google Patents
处理列车数据的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110222093A CN110222093A CN201910505731.4A CN201910505731A CN110222093A CN 110222093 A CN110222093 A CN 110222093A CN 201910505731 A CN201910505731 A CN 201910505731A CN 110222093 A CN110222093 A CN 110222093A
- Authority
- CN
- China
- Prior art keywords
- data
- train
- type
- matching
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 241001269238 Data Species 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000003862 health status Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及列车数据处理技术领域,公开了一种处理列车数据的方法、装置及存储介质,解决了现有技术中利用多个来源数据综合分析评估列车的健康状态时,由于表述和格式不一致造成的数据丢失、不完整等问题。所述方法包括:获取待转换的列车数据;根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。本发明实施例还用于将多源数据进行标准化存储的过程。
Description
技术领域
本发明涉及列车数据处理技术领域,具体地,涉及一种处理列车数据的方法、装置及存储介质。
背景技术
目前与铁路列车健康状态有关的数据来源较多,例如,5t系统数据、HMIS(Hmanagement information system,铁路货车技术管理信息系统)数据、制造厂家数据、列车调度系统数据、列车运行环境数据等。不同系统对同一列车零部件或其他对象的表述方法经常会出现不一致现象,特别是人工录入的数据,常常会存在多种表述方式。这给通过多个来源数据综合分析评估列车的健康状态造成了数据的丢失、不完整等很多问题。
发明内容
本发明实施例的目的是提供一种处理列车数据的方法、装置及存储介质,利用基于相似度的语义识别方法,将多种表达方式的同类数据转换为标准化数据,解决了现有技术中利用多个来源数据综合分析评估列车的健康状态时,由于表述和格式不一致造成的数据丢失、不完整等问题,保证了数据表述的一致性和完整性。
为了实现上述目的,本发明提供一种处理列车数据的方法,所述方法包括:获取待转换的列车数据;根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
进一步地,所述根据预设标准数据类型,确定所述列车数据的数据类型匹配结果包括:提取所述列车数据中的原始数据类型;根据数据类型关系以及所述预设标准数据类型,查找所述原始数据类型对应的预设标准数据类型;当未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配;当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
进一步地,所述预设标准数据类型包括字符串型和数字型,所述根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据包括:根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据;根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。
进一步地,所述根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据包括:根据所述字符串型对应的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配;当未得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为不匹配;当得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字;当不存在同一个字符匹配多个关键字的情况时,确定所匹配的关键字为所述列车数据对应的字符串转换数据;当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
进一步地,所述根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果包括:根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内;当所述列车数据中的数值在所述数值范围内时,得到所述列车数据中的数值匹配结果为匹配;当所述列车数据中的数值不在所述数值范围内时,得到所述列车数据中的数值匹配结果为不匹配。
进一步地,所述方法还包括:当确定匹配结果为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换,所述匹配结果为所述数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个。
相应的,本发明实施例还提供一种处理列车数据的装置,包括:获取单元,用于获取待转换的列车数据;第一匹配单元,用于根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;第二匹配单元,用于当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;存储单元,用于当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
进一步地,所述第一匹配单元还用于提取所述列车数据中的原始数据类型;根据数据类型关系以及所述预设标准数据类型,查找所述原始数据类型对应的预设标准数据类型;当未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配;当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
进一步地,所述预设标准数据类型包括字符串型和数字型,所述第二匹配单元还用于根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据;根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。
进一步地,所述第二匹配单元还用于根据所述字符串型对应的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配;当未得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为不匹配;当得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字;当不存在同一个字符匹配多个关键字的情况时,确定所匹配的关键字为所述列车数据对应的字符串转换数据;当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
进一步地,所述第二匹配单元还用于根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内;当所述列车数据中的数值在所述数值范围内时,得到所述列车数据中的数值匹配结果为匹配;当所述列车数据中的数值不在所述数值范围内时,得到所述列车数据中的数值匹配结果为不匹配。
进一步地,所述装置还包括:处理单元,用于当确定匹配结果为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换,所述匹配结果为所述数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个。
相应的,本发明实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上所述的处理列车数据的方法。
通过上述技术方案,根据预设标准数据类型,确定所述列车数据的数据类型匹配结果,当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据,当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。本发明实施例解决了现有技术中利用多个来源数据综合分析评估列车的健康状态时,由于表述和格式不一致造成的数据丢失、不完整的问题,保证了数据表述的一致性和完整性。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明实施例提供的一种处理列车数据的方法的流程示意图;
图2是现有技术中数据类型关系的部分架构图;
图3是本发明实施例提供的一种处理列车数据的装置的结构示意图;
图4是本发明实施例提供的另一种处理列车数据的装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明实施例提供的一种处理列车数据的方法的流程示意图。如图1所示,所述方法包括如下步骤:
步骤101,获取待转换的列车数据;
步骤102,根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;
步骤103,当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;
步骤104,当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
其中,在获取了某一段待转换的列车数据后,首先提取所述列车数据中的原始数据类型,进行数据类型相似度匹配。数据类型相似度是指两个属性的数据类型之间能够表示同一种数据的可能性。例如,对于字符串类型的数据,各类系统数据库中可能会使用同样的varchar类型,也可能有些系统的数据库中会使用char之类的定长字符串进行定义。于是,从数据类型角度而言,并不能简单使用是否符合同一类型进行判断。因此,在本发明实施例中根据数据类型的类属关系以及相似关系判断所述列车数据对应的数据类型。如图2所示,给出了现有技术中数据类型关系的部分架构图,其中箭头连接的两种类型为类属关系,实线连接的两种类型为相似关系。另外,在本发明实施例中预设标准数据类型,例如字符串型和数字型。在提取出所述列车数据中的原始数据类型之后,可以首先查看所述原始数据类型是否与预设标准数据类型相同,若相同,则确定所述数据类型匹配结果为匹配,可直接得到所述列车数据对应的数据类型为预设标准数据类型。若是所述原始数据类型与预设标准数据类型不相同,则可根据数据类型关系,查找所述原始数据类型对应的预设标准数据类型。即查看原始数据类型对应的类属关系的数据类型中,以及其相似类型的数据类型中是否存在所述预设标准数据类型,若未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配,当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
当所述数据类型匹配结果为匹配时,例如,如果对所述列车数据的数据类型匹配得到了字符串型和数字型后,对这两种数据类型进行不同的处理。
对于所述列车数据中的字符串型数据,根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据。
其中,预先设置字符串型的关键字,例如,铁路局的标准值为:中国铁路北京局有限公司、中国铁路上海局有限公司、中国铁路广州局有限公司等共18个,这个“局”是必不可少的,即为关键字,其关键字权重最大,例如其关键字权重为0.4,还可设关键字“铁路”,其关键字权重可设为0.3,其它的关键字对应于地名,如“北京”、“上海”、“广州”等,其关键字权重可设为0.2,另外,这些地名还存在简称“京”、“沪”、“粤”等,其关键字权重可设为0.1。
首先,根据预设的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,如果在众多的预设关键字中,未得到匹配的字符串数据以及关键字时,则确定所述列车数据中的字符串匹配结果为不匹配。若是得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字。当不存在同一个字符匹配多个关键字的情况时,直接确定所匹配的关键字为所述列车数据对应的字符串转换数据。当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
对于所述列车数据中的数字型数据,根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内,当所述列车数据中的数值在所述数值范围内时,确定所述列车数据中的数值匹配结果为匹配,当所述列车数据中的数值不在所述数值范围内时,确定所述列车数据中的数值匹配结果为不匹配。例如预先针对数字型数据设置数值范围,如1万~10万,而所述列车数据中的数字型数据为5000万,则数据5000万不在数值范围1万~10万内,确定所述列车数据中的数值匹配结果为不匹配。
当上述列车数据中的字符串匹配结果以及数值匹配结果均为匹配时,即所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中,而所述转换数据可由与所述列车数据中的字符串数据相匹配的关键字得到。
而如果当上述的数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换。之后,可通过人工或其它方式处理所述列车数据,从而存入预设标准数据库中。
通过本发明实施例可将来源于多个不同系统中的列车数据,按照统一的标准,转换为标准化数据,解决了现有技术中通过多个来源数据综合分析评估列车的健康状态造成了数据的丢失、不完整的问题,保证了数据表述的一致性和完整性。
以预设标准数据库中包含两个字段:铁路局、员工数,铁路局定义为字符串型,员工数定义为数字型,铁路局的标准值为:中国铁路北京局有限公司、中国铁路上海局有限公司、中国铁路广州局有限公司等共18个,员工数值范围为:1万~10万人,关键字为“局”(权重为0.4)、“铁路”(权重为0.3)及“北京”、“上海”、“广州”等(权重为0.2)。现采集来的列车数据为:北京铁路局拥有5000万人的顾客群,在与标准的“中国铁路北京局有限公司”匹配过程中,有“北京铁路局”为字符串型,匹配度高,“北京”“铁路”“局”,关键字总匹配度为:0.2+0.3+0.4=0.9,匹配度高,数值5000万,数据类型匹配,但数值已超出标准数值范围1~10万,匹配度为0。因此所述列车数据不能存入预设标准数据库中。
相应的,图3是本发明实施例提供的一种处理列车数据的装置的结构示意图。如图3所示,所述装置30包括:获取单元31,用于获取待转换的列车数据;第一匹配单元32,用于根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;第二匹配单元33,用于当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;存储单元34,用于当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
进一步地,所述第一匹配单元还用于提取所述列车数据中的原始数据类型;根据数据类型关系以及所述预设标准数据类型,查找所述原始数据类型对应的预设标准数据类型;当未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配;当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
进一步地,所述预设标准数据类型包括字符串型和数字型,所述第二匹配单元还用于根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据;根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。
进一步地,所述第二匹配单元还用于根据所述字符串型对应的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配;当未得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为不匹配;当得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字;当不存在同一个字符匹配多个关键字的情况时,确定所匹配的关键字为所述列车数据对应的字符串转换数据;当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
进一步地,所述第二匹配单元还用于根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内;当所述列车数据中的数值在所述数值范围内时,得到所述列车数据中的数值匹配结果为匹配;当所述列车数据中的数值不在所述数值范围内时,得到所述列车数据中的数值匹配结果为不匹配。
进一步地,如图4所示,所述装置还包括:处理单元41,用于当确定匹配结果为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换,所述匹配结果为所述数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个。
通过本发明实施例,根据预设标准数据类型,确定所述列车数据的数据类型匹配结果,当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据,当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。本发明实施例解决了现有技术中通过多个来源数据综合分析评估列车的健康状态造成了数据的丢失、不完整的问题,保证了数据表述的一致性和完整性。
相应的,本发明实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例所述的处理列车数据的方法。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (13)
1.一种处理列车数据的方法,其特征在于,包括:
获取待转换的列车数据;
根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;
当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;
当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
2.根据权利要求1所述的方法,其特征在于,所述根据预设标准数据类型,确定所述列车数据的数据类型匹配结果包括:
提取所述列车数据中的原始数据类型;
根据数据类型关系以及所述预设标准数据类型,查找所述原始数据类型对应的预设标准数据类型;
当未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配;
当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
3.根据权利要求1所述的方法,其特征在于,所述预设标准数据类型包括字符串型和数字型,所述根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据包括:
根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据;
根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据包括:
根据所述字符串型对应的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配;
当未得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为不匹配;
当得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字;
当不存在同一个字符匹配多个关键字的情况时,确定所匹配的关键字为所述列车数据对应的字符串转换数据;
当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
5.根据权利要求3所述的方法,其特征在于,所述根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果包括:
根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内;
当所述列车数据中的数值在所述数值范围内时,得到所述列车数据中的数值匹配结果为匹配;
当所述列车数据中的数值不在所述数值范围内时,得到所述列车数据中的数值匹配结果为不匹配。
6.根据权利要求2、4或5任一项所述的方法,其特征在于,所述方法还包括:
当确定匹配结果为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换,所述匹配结果为所述数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个。
7.一种处理列车数据的装置,其特征在于,包括:
获取单元,用于获取待转换的列车数据;
第一匹配单元,用于根据预设标准数据类型,确定所述列车数据的数据类型匹配结果;
第二匹配单元,用于当所述数据类型匹配结果为匹配时,根据所对应的预设标准数据类型对应的匹配标准,将所述列车数据进行相似度匹配,并确定所述列车数据的匹配结果以及对应的转换数据;
存储单元,用于当所述列车数据的匹配结果为匹配时,将所述列车数据对应的转换数据存入预设标准数据库中。
8.根据权利要求7所述的装置,其特征在于,所述第一匹配单元还用于提取所述列车数据中的原始数据类型;根据数据类型关系以及所述预设标准数据类型,查找所述原始数据类型对应的预设标准数据类型;当未查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为不匹配;当查找到所述原始数据类型对应的预设标准数据类型时,确定所述数据类型匹配结果为匹配。
9.根据权利要求7所述的装置,其特征在于,所述预设标准数据类型包括字符串型和数字型,所述第二匹配单元还用于根据所述字符串型对应的关键字以及关键字权重,将所述列车数据中的字符串数据与所述关键字进行相似度匹配,得到所述列车数据中的字符串匹配结果以及对应的转换数据;根据所述数字型对应的数值范围,将所述列车数据中的数值与所述数值范围进行匹配,得到所述列车数据中的数值匹配结果。
10.根据权利要求9所述的装置,其特征在于,所述第二匹配单元还用于根据所述字符串型对应的关键字,将所述列车数据中的字符串数据与所述关键字进行相似度匹配;当未得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为不匹配;当得到匹配的字符串数据以及关键字时,确定所述列车数据中的字符串匹配结果为匹配,并判断所匹配的字符串数据中是否存在同一个字符匹配多个关键字;当不存在同一个字符匹配多个关键字的情况时,确定所匹配的关键字为所述列车数据对应的字符串转换数据;当存在同一个字符匹配多个关键字的情况时,查找所述多个关键字对应的关键字权重中的最大权重,将所述最大权重对应的关键字确定为所述字符的关键字,并将所述字符的关键字与所匹配的其它关键字确定为所述列车数据对应的转换数据。
11.根据权利要求9所述的装置,其特征在于,所述第二匹配单元还用于根据所述数字型对应的数值范围,判断所述列车数据中的数值是否在所述数值范围内;当所述列车数据中的数值在所述数值范围内时,得到所述列车数据中的数值匹配结果为匹配;当所述列车数据中的数值不在所述数值范围内时,得到所述列车数据中的数值匹配结果为不匹配。
12.根据权利要求8、10或11任一项所述的装置,其特征在于,所述装置还包括:处理单元,用于当确定匹配结果为不匹配时,停止对所述列车数据的处理,并提示所述列车数据无法转换,所述匹配结果为所述数据类型匹配结果、字符串匹配结果或数值匹配结果中的任意一个。
13.一种存储介质,其特征在于,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-6任一项所述的处理列车数据的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910505731.4A CN110222093A (zh) | 2019-06-12 | 2019-06-12 | 处理列车数据的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910505731.4A CN110222093A (zh) | 2019-06-12 | 2019-06-12 | 处理列车数据的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110222093A true CN110222093A (zh) | 2019-09-10 |
Family
ID=67816703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910505731.4A Pending CN110222093A (zh) | 2019-06-12 | 2019-06-12 | 处理列车数据的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222093A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090077217A1 (en) * | 2007-09-14 | 2009-03-19 | Mcfarland Max E | Workflow-Enabled Provider |
CN102233887A (zh) * | 2011-05-16 | 2011-11-09 | 铁道部运输局 | Ctcs-3级列车运行控制系统 |
CN202145276U (zh) * | 2011-06-16 | 2012-02-15 | 长沙南睿轨道交通电气设备有限公司 | 一种基于无线宽带通信的非网络化机车无线重联控制装置 |
CN103458024A (zh) * | 2013-08-30 | 2013-12-18 | 国电南瑞科技股份有限公司 | 一种用于列车自动监控系统人机界面数据更新及同步方法 |
CN104361001A (zh) * | 2014-09-29 | 2015-02-18 | 株洲南车时代电气股份有限公司 | 一种lkj基础数据比对方法及系统 |
CN105243117A (zh) * | 2015-09-28 | 2016-01-13 | 四川长虹电器股份有限公司 | 一种数据处理系统和方法 |
CN105574021A (zh) * | 2014-10-14 | 2016-05-11 | 北京神州泰岳软件股份有限公司 | 一种数据库的数据压缩方法和装置 |
CN107391632A (zh) * | 2017-06-30 | 2017-11-24 | 北京奇虎科技有限公司 | 数据库存储处理方法、装置、计算设备及计算机存储介质 |
CN107544340A (zh) * | 2017-09-21 | 2018-01-05 | 中车青岛四方机车车辆股份有限公司 | 列车的数据采集控制器 |
CN108319251A (zh) * | 2017-12-29 | 2018-07-24 | 中车唐山机车车辆有限公司 | 列车数据采集方法及装置 |
US20190114558A1 (en) * | 2016-04-22 | 2019-04-18 | Sony Corporation | Information processing apparatus, information processing method, and program |
-
2019
- 2019-06-12 CN CN201910505731.4A patent/CN110222093A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090077217A1 (en) * | 2007-09-14 | 2009-03-19 | Mcfarland Max E | Workflow-Enabled Provider |
CN102233887A (zh) * | 2011-05-16 | 2011-11-09 | 铁道部运输局 | Ctcs-3级列车运行控制系统 |
CN202145276U (zh) * | 2011-06-16 | 2012-02-15 | 长沙南睿轨道交通电气设备有限公司 | 一种基于无线宽带通信的非网络化机车无线重联控制装置 |
CN103458024A (zh) * | 2013-08-30 | 2013-12-18 | 国电南瑞科技股份有限公司 | 一种用于列车自动监控系统人机界面数据更新及同步方法 |
CN104361001A (zh) * | 2014-09-29 | 2015-02-18 | 株洲南车时代电气股份有限公司 | 一种lkj基础数据比对方法及系统 |
CN105574021A (zh) * | 2014-10-14 | 2016-05-11 | 北京神州泰岳软件股份有限公司 | 一种数据库的数据压缩方法和装置 |
CN105243117A (zh) * | 2015-09-28 | 2016-01-13 | 四川长虹电器股份有限公司 | 一种数据处理系统和方法 |
US20190114558A1 (en) * | 2016-04-22 | 2019-04-18 | Sony Corporation | Information processing apparatus, information processing method, and program |
CN107391632A (zh) * | 2017-06-30 | 2017-11-24 | 北京奇虎科技有限公司 | 数据库存储处理方法、装置、计算设备及计算机存储介质 |
CN107544340A (zh) * | 2017-09-21 | 2018-01-05 | 中车青岛四方机车车辆股份有限公司 | 列车的数据采集控制器 |
CN108319251A (zh) * | 2017-12-29 | 2018-07-24 | 中车唐山机车车辆有限公司 | 列车数据采集方法及装置 |
Non-Patent Citations (1)
Title |
---|
万里鹏等: "文本文件数据转换中间件的研究与实现", 《宜宾学院学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levine et al. | Eta squared, partial eta squared, and misreporting of effect size in communication research | |
CN107451153A (zh) | 输出结构化查询语句的方法和装置 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
US20040249796A1 (en) | Query classification | |
CN101872349A (zh) | 处理自然语言问题的方法和装置 | |
CN105868179A (zh) | 一种智能问答方法及装置 | |
AU2005243114B2 (en) | A system and method for retrieving information and a system and method for storing information | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN114579709B (zh) | 一种基于知识图谱的智能问答意图识别方法 | |
KR101333485B1 (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
Yang et al. | Database semantic interoperability based on information flow theory and formal concept analysis | |
CN110222093A (zh) | 处理列车数据的方法、装置及存储介质 | |
CN112241438A (zh) | 一种政策服务信息数据处理和查询方法及系统 | |
Amato et al. | Using nlp and ontologies for notary document management systems | |
CN116842142A (zh) | 一种医疗器械智能化检索系统 | |
Gómez-Adorno et al. | A question answering system for reading comprehension tests | |
Mochales-Palau et al. | Study on sentence relations in the automatic detection of argumentation in legal cases | |
CN114116972A (zh) | 一种基于BiLSTM的变压器知识智能问答模型的处理系统 | |
Chen | Natural language processing in web data mining | |
CN108573003A (zh) | 一种与汽车相关的多源数据的整合存储系统及方法 | |
US8024347B2 (en) | Method and apparatus for automatically differentiating between types of names stored in a data collection | |
Venugopal et al. | Revisiting the role of classical readability formulae parameters in complex word identification (Part 2) | |
CN114118060B (zh) | 一种从销售会话中自动识别关键事件的方法及系统 | |
Veerappa et al. | Syntax and Table Aware Parsing Based Naturalized Structured Query Language. | |
CN107622460A (zh) | 一键投档方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190910 |
|
RJ01 | Rejection of invention patent application after publication |