CN115409549A - 一种数据处理方法、系统、电子设备及计算机存储介质 - Google Patents

一种数据处理方法、系统、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN115409549A
CN115409549A CN202211014877.7A CN202211014877A CN115409549A CN 115409549 A CN115409549 A CN 115409549A CN 202211014877 A CN202211014877 A CN 202211014877A CN 115409549 A CN115409549 A CN 115409549A
Authority
CN
China
Prior art keywords
freight rate
product
freight
data
products
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211014877.7A
Other languages
English (en)
Other versions
CN115409549B (zh
Inventor
刘辉
李亮
阎松柏
朱先昊
王新红
史晓菲
刘佳瑞
郭画
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202211014877.7A priority Critical patent/CN115409549B/zh
Publication of CN115409549A publication Critical patent/CN115409549A/zh
Priority to PCT/CN2023/112558 priority patent/WO2024041399A1/zh
Application granted granted Critical
Publication of CN115409549B publication Critical patent/CN115409549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据处理方法、系统、电子设备及计算机存储介质,该方法包括:将运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据;针对每一运价产品的运价数据和运价数据对应的规则,对运价产品的运价数据进行分析,确定运价产品中的每一特征的价值;基于每一特征的价值,确定满足预设阈值的价值;将满足预设阈值的价值所对应的特征作为决策特征;确定同一产品类型的运价产品;对同一产品类型的所有运价产品的特征集合,以及同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。通过上述方式不仅能够在规定的时间内完成数据处理,即能够提高处理分析的速度,且能够准确的进行数据分析。

Description

一种数据处理方法、系统、电子设备及计算机存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、系统、电子设备及计算机存储介质。
背景技术
随着航空服务业务的快速发展,机票业务发展迅猛,航空公司为了应对当前的市场变化,运价产品制定和销售的策略需要频繁变更。因此需要对现有的运价数据进行分析。
目前,常通过人工的方式将运价数据进行分析和组合,以能够完整、准确的描述一个运价产品,需要考虑功能点之间的关联关系,可谓“牵一发而动全身”的网状功能结构,从而导致通过人工的方式处理分析的速度较慢,且容易出现数据混乱。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、系统、电子设备及计算机存储介质,以解决现有技术中出现的处理分析的速度较慢,且容易出现数据混乱的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面示出了一种数据处理方法,所述方法包括:
将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性;
针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;
基于所述每一特征的价值,确定满足预设阈值的价值;
将所述满足预设阈值的价值所对应的特征作为决策特征;
确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;
对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
可选的,所述将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,包括:
根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签;
基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
可选的,所述针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值,包括:
所述针对每一运价产品的运价数据,基于所述运价产品的运价数据和所述运价数据对应的规则,获取所述运价产品的特征,所述特征的数量至少为一个;
基于所述特征的值域,确定所述特征各个值域的数量集合;
基于所述特征各个值域的数量集合进行计算,得到所述运价产品的每一特征的价值。
可选的,所述基于所述每一特征的价值,确定满足预设阈值的价值,包括:
判断所述每一特征的价值中是否存在大于等于预设阈值的价值;
若存在,则执行将所述满足预设阈值的价值所对应的特征作为决策特征这一步骤。
可选的,所述确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合,包括:
比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品;
将同一产品类型的所述运价产品进行聚合。
本发明实施例第二方面示出了一种数据处理系统,所述系统包括:
产品分类组件,用于将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性;
特征提取组件,用于针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;基于所述每一特征的价值,确定满足预设阈值的价值;将所述满足预设阈值的价值所对应的特征作为决策特征;
产品聚类组件,用于确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;
业务模型分析组件,用于对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
可选的,所述产品分类组件包括产品标记模块、产品分组模块和产品族构造模块;
产品标记模块,用于根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签;
产品分组模块和产品族构造模块,用于基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
可选的,所述产品聚类组件包括特征匹配模块和产品归并模块;
特征匹配模块,用于比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品;
产品归并模块,用于将同一产品类型的所述运价产品进行聚合。
本发明实施例第三方面示出了一种电子设备,所述电子设备用于运行程序,其中,所述程序运行时执行如本发明实施例第一方面示出的任一所述的数据处理方法。
本发明实施例第四方面示出了一种计算机存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面示出的任一所述的数据处理方法。
基于上述本发明实施例提供的一种数据处理方法、系统、电子设备及计算机存储介质,该方法包括:将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性;针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;基于所述每一特征的价值,确定满足预设阈值的价值;将所述满足预设阈值的价值所对应的特征作为决策特征;确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。在本发明实施例中,运价数据集等训练集中数据通过模式识别中特征提取的方法,计算出不同运价产品的决策特征;确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;从而分析出不同产品类型下运价产品的关键功能点,以及运价产品定义的潜在业务意图。通过上述方式不仅能够在规定的时间内完成数据处理,即能够提高处理分析的速度,且能够准确的进行数据分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例示出的一种数据处理系统的结构示意图;
图2为本发明实施例示出的一种数据处理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
参见图1,为本发明实施例示出的一种数据处理系统的结构示意图,该系统包括产品分类组件10、特征提取组件20、产品聚类组件30、和业务模型分析组件40。
产品分类组件10与特征提取组件20连接,特征提取组件20连接与产品聚类组件30连接,产品聚类组件30和业务模型分析组件40连接。
产品分类组件10与特征提取组件20还与训练集,即数据库连接。
训练集主要用于存储运价数据、权限数据、规则数据和航线数据。
其中,运价数据定义了卖什么、卖多少的问题,主要涉及航空公司、可以销售时间范围、始发地、目的地、舱位、价格、运价基础等维度;权限数据定义了谁来卖的问题,主要涉及渠道、群组、终端配置、代理人账号等维度;规则数据和航线数据定义了怎么卖、卖给谁、何时卖的问题,涉及乘客身份、销售星期、组合条件、航班、中转点、经停点、舱位等维度。
产品分类组件10,用于将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性。
其中,产品分类组件10包括产品标记模块11、产品分组模块12和产品族构造模块13。
产品标记模块11根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签;接着,产品分组模块12和产品族构造模块13基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
具体的,产品标记模块11首先从准备的训练集,即数据库中获取运价系统的运价数据集,以及运价产品相关的产品定义和产品属性;分析运价数据集,并根据产品定义的字段标记每条运价数据的产品标签。产品分组模块12 和产品族构造模块13依据产品标签对运价数据进行产品分类处理,具体的,将一运价产品的同一产品标签的运价数据分为一组,即将同一产品标签的运价数据作为一运价产品的运价数据;依次类推,直至确定属于每一运价产品的运价数据,也就是说,按照运价发布的航空公司属性,将包含运价数据的所有产品归为此航空公司的产品族。
需要说明的是,运价数据集包括多条运价数据,运价数据由识别标识ID,航空公司名称、营业部,运价产品的协议编号,始发地,目的地,机票价格等数据组成。
运价数据集是指同一航空公司中运价系统的运价数据。
产品标签与产品定义相对应,且产品定义是指根据运价产品的理论基础编写的。
特征提取组件20,用于针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;基于所述每一特征的价值,确定满足预设阈值的价值;将所述满足预设阈值的价值所对应的特征作为决策特征。
其中,特征提取组件20包括数据集成21、特征价值分析模块22和决策确定模块23。
决策确定模块23所述针对每一运价产品的运价数据,基于所述运价产品的运价数据和所述运价数据对应的规则,获取所述运价产品的特征,所述特征的数量至少为一个;数据集成21基于所述特征的值域,确定所述特征各个值域的数量集合;特征价值分析模块22基于所述特征各个值域的数量集合进行计算,得到所述运价产品的每一特征的价值。基于所述每一特征的价值,确定是否存在满足预设阈值的价值,若确定存在满足预设阈值的价值,将所述满足预设阈值的价值所对应的特征作为决策特征。
具体的,决策确定模块23首先从准备的训练集,即数据库中获取规则数据中与所述运价数据对应的规则,将运价数据与对应的规则进行关联,从所述运价数据,和运价数据与对应的规则中获取所述运价产品的特征。数据集成21基于所述运价产品中每一特征存在值的数量,确定所述运价产品中每一特征的值域和基数;基于运价产品,以及对应特征,以及值域进行组合形成相关的数据量,计算所述数据量的个数,确定所述运价产品中特征各个值域对应的数量集合。特征价值分析模块22先计算所述特征各个值域的数量集合 Zij的标准差σij,将所述标准差σij和所述特征各个值域的数量集合Zij代入公式(1),计算运价产品Si中每一特征fj的价值τij。确定所述每一特征的价值中是否存在大于等于预设阈值的价值,也就是说,从每一特征中筛选出每一有价值的特征;将筛选出的每一有价值的特征作为决策特征。
公式(1):
Figure BDA0003812199950000071
其中,τij为运价产品Si中每一特征fj的)价)值,L为值域的基数,max(Zij) 是Zij中的最大值,submax(Zij)是Zij中的次大值。
需要说明的是,若σij=0,说明运价产品Si中特征fj能够将数据均衡分组,其价值设定为最大值MaxValue。如果|Dij|=1,运价产品Si中特征fj只有一个值,没有分组能力,其价值设定为0。
产品聚类组件30,用于确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合。
其中,产品聚类组件30包括特征匹配模块31和产品归并模块32。
特征匹配模块31比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品;接着产品归并模块32将同一产品类型的所述运价产品进行聚合。
具体的,特征匹配模块31同一航空公司内,比较、匹配所有运价产品的决策特征,将具有相同的决策特征的运价产品归并为一个产品类型;接着产品归并模块32对归并为同一产品类型的运价产品进行聚合,使得该产品类型下存在多个运价产品,以及运价产品的运价数据。
可选的,对同一产品类型的运价产品进行聚合后,可根据产品类型及其决策特征,生成产品特征集合矩阵。
需要说明的是,产品特征集合矩阵是指不同的产品类型涉及不同的特征集合,因此产品特征集合矩阵包含不同产品类型,及其所对应的不同特征集合。
业务模型分析组件40,用于对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
其中,业务模型分析组件40包括产品信息提取模块41、产品定义模块42 和产品统计模块43。
具体的,产品信息提取模块41针对同一产品类型,分析该产品类型中各个运价数据的始发地和目的地;产品统计模块43统计产品类型中占比高的始发地和目的地,即热门航线;产品定义模块42根据该产品类型下所有运价产品的决策特征,确定热门航线产品定义模式,进而生成对应的运价产品分析报告,以便航司快速调整航线以及运价数据。
在本发明实施例中,运价数据集等训练集中数据通过模式识别中特征提取的方法,计算出不同运价产品的决策特征;确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;从而分析出不同产品类型下运价产品的关键功能点,以及运价产品定义的潜在业务意图。通过上述方式不仅能够在规定的时间内完成数据处理,即能够提高处理分析的速度,且能够准确的进行数据分析。
基于上述本发明实施例示出的数据处理系统,本发明实施例还对应示出了一种数据处理方法,如图2所示,为本发明实施例示出的一种数据处理方法的流程示意图,该方法包括:
步骤S201:将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据。
在步骤S201中,所述产品基础信息包括产品定义和产品属性。
需要说明的是,具体实现步骤S201的过程包括以下步骤:
步骤S11:根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签。
在具体实现步骤S11的过程中,首先从准备的训练集,即数据库中获取运价系统的运价数据集,以及运价产品相关的产品定义和产品属性;分析运价数据集,并根据产品定义的字段标记每条运价数据的产品标签。
需要说明的是,运价数据集包括多条运价数据,运价数据由识别标识ID,航空公司名称、营业部,运价产品的协议编号,始发地,目的地,机票价格等数据组成。
运价数据集是指同一航空公司中运价系统的运价数据。
步骤S12:基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
在具体实现步骤S12的过程中,首先,依据产品标签对运价数据进行产品分类处理,具体的,将一运价产品的同一产品标签的运价数据分为一组,即将同一产品标签的运价数据作为一运价产品的运价数据;依次类推,直至确定属于每一运价产品的运价数据。
需要说明的是,产品标签与产品定义相对应,且产品定义是指根据运价产品的理论基础编写的。
例如:表(1)中包括12条运价数据集合A,该运价数据集A的识别标识ID,航空公司名称、营业部,协议编号,始发地,目的地,以及机票价格如表(1) 所示。分析运价数据集A,并根据产品定义的字段标记每条运价数据的产品标签,比如将运价产品的协议编号为F21052114的运价数据标记标为“1”,也就是说,协议编号为F21052114的运价数据的产品标签为“1”;将运价产品的协议编号为CA080516H的运价数据标记标为“2”,也就是说,协议编号为 CA080516H的运价数据的产品标签为“2”;将运价产品的协议编号为 F21040212的运价数据标记标为“3”,也就是说,协议编号为F21040212的运价数据的产品标签为“3”。
将产品标签相同的运价数据分成一组,也就是说,将协议编号为 F21052114的运价数据1、运价数据2、运价数据3、运价数据4和运价数据5分为一组,即将运价数据1、运价数据2、运价数据3、运价数据4和运价数据5作为运价产品F21052114的运价数据;将协议编号为CA080516H的运价数据6、运价数据7和运价数据8为一组,即将运价数据6、运价数据7和运价数据8作为运价产品CA080516H的运价数据;将协议编号为F21040212的运价数据9、运价数据10、运价数据11和运价数据12为一组,即将运价数据9、运价数据10、运价数据11和运价数据12作为运价产品F21040212的运价数据,如表(2)所示。
表(1):
Figure BDA0003812199950000101
表(2):
Figure BDA0003812199950000111
步骤S202:针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值。
需要说明的是,具体实现步骤S202的过程包括以下步骤:
步骤S21:所述针对每一运价产品的运价数据,基于所述运价产品的运价数据和所述运价数据对应的规则,获取所述运价产品的特征。
在步骤S21中,所述特征的数量至少为一个。
在具体实现步骤S21的过程中,首先从准备的训练集,即数据库中获取规则数据中与所述运价数据对应的规则,将运价数据与对应的规则进行关联,从所述运价数据,和运价数据与对应的规则中获取所述运价产品的特征。
需要说明的是,训练集主要包括运价数据、权限数据、规则数据和航线数据。
运价数据定义了卖什么、卖多少的问题,主要涉及航空公司、可以销售时间范围、始发地、目的地、舱位、价格、运价基础等维度。
权限数据定义了谁来卖的问题,主要涉及渠道、群组、终端配置、代理人账号等维度。
规则数据和航线数据定义了怎么卖、卖给谁、何时卖的问题,涉及乘客身份、销售星期、组合条件、航班、中转点、经停点、舱位等维度。
步骤S22:基于所述运价产品中特征的值域,确定所述运价产品中特征各个值域对应的数量集合。
在具体实现步骤S22的过程中,基于所述运价产品中每一特征存在值的数量,确定所述运价产品中每一特征的值域和基数;基于运价产品,以及对应特征,以及值域进行组合形成相关的数据量,计算所述数据量的个数,确定所述运价产品中特征各个值域对应的数量集合。
需要说明的是,运价产品S是运价数据集A的子集,如果有I个运价产品,则某运价产品
Figure BDA0003812199950000121
Figure BDA0003812199950000122
运价产品Si中特征fj的值域记为Dij,|Dij| 为运价产品Si中特征fj的值域的基数。
其中,i小于等于I,j小于等于J,J为特征的数量。
需要说明的是,|Dij|=L,与运价产品Si中特征fj的某个值域dl相关的数据集合为Δ(Si,fj,dl),为方便描述,将Δ(Si,fj,dl)简化为Δij,比如|Δijl|可为运价产品 Si中特征fj的某个值域dl相关的数据量,
例如:运价产品Si包含5条运价数据,某个特征Si有2种值,分别为“1”和“2”,运价产品Si中特征fj的值域Dij为{1,2},基数|Dij|为2。基于运价产品 Si,以及对应特征fj,以及值域Dij进行组合形成相关的数据量|Δijl|、|Δij2|...和|ΔijL|,计算所述数据量的个数,确定所述运价产品中特征各个值域对应的数量集合 Zij,其中,Zij={|Δijl|,|Δij2|...|ΔijL|}。
例如:运价产品Si中特征fj为dl=“1”的数据有3条,则|Δijl|为3。
步骤S23:基于所述特征各个值域的数量集合进行计算,得到所述运价产品的每一特征的价值。
在具体实现步骤S23的过程中,先计算所述特征各个值域的数量集合Zij的标准差σij,将所述标准差σij和所述特征各个值域的数量集合Zij代入公式 (1),计算运价产品Si中每一特征fj的价值τij
需要说明的是,若σij=0,说明运价产品Si中特征fj能够将数据均衡分组,其价值设定为最大值MaxValue。如果|Dij|=1,运价产品Si中特征fj只有一个值,没有分组能力,其价值设定为0。
可选的,还包括将某运价产品的有价值的特征集合为θi,θi可表示为θi={fj|ατij≥λ,i∈[1,I],j∈[1,n],|Dij|>1,fj∈F}。
其中,α为常量系数,λ为价值阈值,α和λ默认为1,也可以自定义为其它值。
例如:从准备的训练集,即数据库中获取规则数据中与所述运价数据集A 对应的规则B,将运价数据集A与对应的规则B进行关联,形成如下的结构数据,如表(3)所示;从所述12条运价数据,和运价数据与对应的规则B中获取所述运价产品的特征,具体涉及3个特征,团队限制、提前销售限制、和星期限制。
对于运价产品F2105211,f团队限制有2个值,也就是说,将5条运价数据分为2 组,分别包含2条和3条运价数据。基于所述运价产品中特征f团队限制存在值域的数量,也就是说,此时可根据预构建的数学模型或参数计算方法计算所述运价产品中每一特征的值域和基数,即确定|D团队限制|为2,σ团队限制为0.5;通过公式 (1)计算出来的价值为12.25。
表(3):
Figure BDA0003812199950000131
Figure BDA0003812199950000141
步骤S203:基于所述每一特征的价值,确定是否存在满足预设阈值的价值,若确定存在满足预设阈值的价值,执行步骤S204至步骤S206,若存在不满足预设阈值的价值,这将其抛弃。
需要说明的是,具体实现步骤S203的过程中,包括以下步骤:
步骤S31:判断所述每一特征的价值中是否存在大于等于预设阈值的价值,若存在,则执行步骤S204至步骤S206,若不存在,则这将其抛弃。
在具体实现步骤S31的过程中,确定所述每一特征的价值中是否存在大于等于预设阈值的价值,也就是说,从每一特征中筛选出每一有价值的特征;若存在,则执行步骤S204至步骤S206,若不存在,则这将其抛弃。
需要说明的是,预设阈值是预先根据实际情况设置的,比如,可设置为大于等于1的正整数。
步骤S204:将所述满足预设阈值的价值所对应的特征作为决策特征。
在具体实现步骤S204的过程中,将筛选出的每一有价值的特征作为决策特征。
基于上述步骤S203和步骤S204示出的具体内容,下面进行举例说明。
例如:基于上述示出表(3)示出的内容,确定|D团队限制|为2,σ团队限制为0.5,通过公式(1)计算出来的价值为12.25,f团队限制的价值大于预设阈值1,f团队限制被选择出来,作为决策特征。同理,可以选择出f提前销售限制作为决策特征。而f星期限制不具备数据区分能力,所以,不能作为决策特征。因此,运价产品 F21052114的决策特征集合为{f团队限制,f提前销售限制}。
以此类推,运价产品CA080516H的决策特征集合为{f团队限制,f提前销售限制},运价产品F21040212的决策特征集合为{f团队限制,f提前销售限制,f星期限制}。
步骤S205:确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合。
需要说明的是,具体实现步骤S205的过程,包括以下步骤:
步骤S41:比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品。
在具体实现步骤S41的过程中,同一航空公司内,比较、匹配所有运价产品的决策特征,将具有相同的决策特征的运价产品归并为一个产品类型。
步骤S42:将同一产品类型的所述运价产品进行聚合。
在具体实现步骤S42的过程中,对归并为同一产品类型的运价产品进行聚合,使得该产品类型下存在多个运价产品,以及运价产品的运价数据。
例如:基于上述表(2)示出的内容以及步骤S103和步骤S104示出的内容,确定运价产品F21052114的决策特征集合为{f团队限制,,f提前销售限制},运价产品 CA080516H的决策特征集合为{f团队限制,f提前销售限制},以及运价产品F21040212的决策特征集合为{f团队限制,f提前销售限制,f星期限制}。同一航空公司CA内,比较、匹配所有运价产品的决策特征,确定运价产品F21052114和运价产品CA080516H 具有相同的决策特征集合{f团队限制,,f提前销售限制},因此两个运价产品可以归并为一个产品类型。最终形成如下的结构,如表(4)所示,进而可生成对应的产品特征集合矩阵并存储。
表(4):
Figure BDA0003812199950000151
Figure BDA0003812199950000161
步骤S206:对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
在具体实现步骤S206的过程中,针对同一产品类型,分析该产品类型中各个运价数据的始发地和目的地,统计产品类型中占比高的始发地和目的地,即热门航线;根据该产品类型下所有运价产品的决策特征,确定热门航线产品定义模式,进而生成对应的运价产品分析报告,以便航司快速调整航线以及运价数据。
例如:基于上述表(4)示出的内容,产品类型1包含运价产品F21052114 和运价产品CA080516H,共包含8条运价数据,在考虑运价始发地和目的顺序的前提下,有7条运价数据的城市对为CGQ(长春)和CAN(广州),只有一条运价数据的城市对为CGQ(长春)和HAK(海口),因此,航空公司产品类型1的热点航线是长春到广州(反之亦然),并且该产品的决策特征集合为{f团队限制,,f提前销售限制}。从而可以确定该热点航线的运价产品主要是由“团队限制”和“提前销售限制”定义的。同理可以推导出,“航空公司产品类型2”主要是由“团队限制”、“提前销售限制”和“星期限制”定义的,基于上述分析生成对应的运价产品分析报告,以便航司快速调整航线以及运价数据。
可选的,上述步骤S201至步骤S206的具体实现过程可于以数学模型形式实现的。
在本发明实施例中,运价数据集等训练集中数据通过模式识别中特征提取的方法,计算出不同运价产品的决策特征;确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;从而分析出不同产品类型下运价产品的关键功能点,以及运价产品定义的潜在业务意图。通过上述方式不仅能够在规定的时间内完成数据处理,即能够提高处理分析的速度,且能够准确的进行数据分析。
本发明实施例还公开了一种电子设备,该电子设备用于运行数据库存储过程,其中,所述运行数据库存储过程时执行上述图2公开的数据处理方法。
本发明实施例还公开了一种计算机存储介质,所述存储介质包括存储数据库存储过程,其中,在所述数据库存储过程运行时控制所述存储介质所在设备执行上述图2公开的数据处理方法。
在本公开的上下文中,计算机存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器 (CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性;
针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;
基于所述每一特征的价值,确定满足预设阈值的价值;
将所述满足预设阈值的价值所对应的特征作为决策特征;
确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;
对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
2.根据权利要求1所述的方法,其特征在于,所述将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,包括:
根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签;
基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
3.根据权利要求1所述的方法,其特征在于,所述针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值,包括:
所述针对每一运价产品的运价数据,基于所述运价产品的运价数据和所述运价数据对应的规则,获取所述运价产品的特征,所述特征的数量至少为一个;
基于所述特征的值域,确定所述特征各个值域的数量集合;
基于所述特征各个值域的数量集合进行计算,得到所述运价产品的每一特征的价值。
4.根据权利要求1所述的方法,其特征在于,所述基于所述每一特征的价值,确定满足预设阈值的价值,包括:
判断所述每一特征的价值中是否存在大于等于预设阈值的价值;
若存在,则执行将所述满足预设阈值的价值所对应的特征作为决策特征这一步骤。
5.根据权利要求1所述的方法,其特征在于,所述确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合,包括:
比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品;
将同一产品类型的所述运价产品进行聚合。
6.一种数据处理系统,其特征在于,所述系统包括:
产品分类组件,用于将所述运价系统中的运价数据集和产品基础信息进行处理,确定每一运价产品对应的运价数据,所述产品基础信息包括产品定义和产品属性;
特征提取组件,用于针对每一运价产品的运价数据和所述运价数据对应的规则,对所述运价产品的运价数据进行分析,确定所述运价产品中的每一特征的价值;基于所述每一特征的价值,确定满足预设阈值的价值;将所述满足预设阈值的价值所对应的特征作为决策特征;
产品聚类组件,用于确定同一产品类型的所述运价产品,并将同一产品类型的所述运价产品进行聚合;
业务模型分析组件,用于对所述同一产品类型的所有运价产品的特征集合,以及所述同一产品类型的所有运价产品的运价数据进行处理,生成对应运价产品的分析报告。
7.根据权利要求6所述的系统,其特征在于,所述产品分类组件包括产品标记模块、产品分组模块和产品族构造模块;
产品标记模块,用于根据所述产品基础信息中的产品定义的字段,标记所述运价数据集中的每一运价数据的产品标签;
产品分组模块和产品族构造模块,用于基于所述产品标签和所述产品基础信息的产品属性对所述运价数据集中的每一运价数据进行分类处理,确定属于每一运价产品的运价数据。
8.根据权利要求6所述的系统,其特征在于,所述产品聚类组件包括特征匹配模块和产品归并模块;
特征匹配模块,用于比较每一所述运价产品的每一决策特征,若存在决策特征均相同的运价产品,则将决策特征均相同的运价产品作为同一产品类型的所述运价产品;
产品归并模块,用于将同一产品类型的所述运价产品进行聚合。
9.一种电子设备,其特征在于,所述电子设备用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一所述的数据处理方法。
10.一种计算机存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的数据处理方法。
CN202211014877.7A 2022-08-23 2022-08-23 一种数据处理方法、系统、电子设备及计算机存储介质 Active CN115409549B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211014877.7A CN115409549B (zh) 2022-08-23 2022-08-23 一种数据处理方法、系统、电子设备及计算机存储介质
PCT/CN2023/112558 WO2024041399A1 (zh) 2022-08-23 2023-08-11 一种数据处理方法、系统、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014877.7A CN115409549B (zh) 2022-08-23 2022-08-23 一种数据处理方法、系统、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN115409549A true CN115409549A (zh) 2022-11-29
CN115409549B CN115409549B (zh) 2024-05-14

Family

ID=84161364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014877.7A Active CN115409549B (zh) 2022-08-23 2022-08-23 一种数据处理方法、系统、电子设备及计算机存储介质

Country Status (2)

Country Link
CN (1) CN115409549B (zh)
WO (1) WO2024041399A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024041399A1 (zh) * 2022-08-23 2024-02-29 中国民航信息网络股份有限公司 一种数据处理方法、系统、电子设备及计算机存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN107480187A (zh) * 2017-07-10 2017-12-15 北京京东尚科信息技术有限公司 基于聚类分析的用户价值分类方法和装置
WO2018174319A1 (ko) * 2017-03-23 2018-09-27 대한민국(해양수산부) 아시아 컨테이너 해상운임지수를 제공하기 위한 해상운임지수 산출 방법 및 그를 이용한 해운정보 중개서비스 방법
CN108595566A (zh) * 2018-04-13 2018-09-28 中国民航信息网络股份有限公司 信息聚类方法及装置
CN110737665A (zh) * 2019-10-21 2020-01-31 中国民航信息网络股份有限公司 一种数据处理方法及装置
CN112307065A (zh) * 2020-10-30 2021-02-02 中国民航信息网络股份有限公司 一种数据处理方法、装置及服务器
CN112434067A (zh) * 2020-11-24 2021-03-02 携程旅游网络技术(上海)有限公司 国际运价的缓存数据处理方法、系统、设备及介质
CN113807456A (zh) * 2021-09-26 2021-12-17 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类算法
KR20220066652A (ko) * 2020-11-16 2022-05-24 씨제이올리브네트웍스 주식회사 딥러닝 기반의 동적 가격 산정 방법 및 동적 가격 산정 시스템
CN114861084A (zh) * 2022-03-29 2022-08-05 携程商旅信息服务(上海)有限公司 数据处理方法、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615422B1 (en) * 2011-11-10 2013-12-24 American Airlines, Inc. Airline pricing system and method
US20150310570A1 (en) * 2014-04-28 2015-10-29 Duetto Research, Inc. Open pricing and pricing rules
CN105654338A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 规则运价计算方法及装置、系统
CN107451872A (zh) * 2017-08-10 2017-12-08 中国民航信息网络股份有限公司 航班运价的管理方法及装置
CN109978619B (zh) * 2019-03-25 2021-07-06 携程旅游网络技术(上海)有限公司 机票定价策略筛选的方法、系统、设备以及介质
CN115409549B (zh) * 2022-08-23 2024-05-14 中国民航信息网络股份有限公司 一种数据处理方法、系统、电子设备及计算机存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
WO2018174319A1 (ko) * 2017-03-23 2018-09-27 대한민국(해양수산부) 아시아 컨테이너 해상운임지수를 제공하기 위한 해상운임지수 산출 방법 및 그를 이용한 해운정보 중개서비스 방법
CN107480187A (zh) * 2017-07-10 2017-12-15 北京京东尚科信息技术有限公司 基于聚类分析的用户价值分类方法和装置
CN108595566A (zh) * 2018-04-13 2018-09-28 中国民航信息网络股份有限公司 信息聚类方法及装置
CN110737665A (zh) * 2019-10-21 2020-01-31 中国民航信息网络股份有限公司 一种数据处理方法及装置
CN112307065A (zh) * 2020-10-30 2021-02-02 中国民航信息网络股份有限公司 一种数据处理方法、装置及服务器
KR20220066652A (ko) * 2020-11-16 2022-05-24 씨제이올리브네트웍스 주식회사 딥러닝 기반의 동적 가격 산정 방법 및 동적 가격 산정 시스템
CN112434067A (zh) * 2020-11-24 2021-03-02 携程旅游网络技术(上海)有限公司 国际运价的缓存数据处理方法、系统、设备及介质
CN113807456A (zh) * 2021-09-26 2021-12-17 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类算法
CN114861084A (zh) * 2022-03-29 2022-08-05 携程商旅信息服务(上海)有限公司 数据处理方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周劲波 等: "基于价值特征的决策模型研究", 心理科学, 31 December 2005 (2005-12-31), pages 1347 - 1352 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024041399A1 (zh) * 2022-08-23 2024-02-29 中国民航信息网络股份有限公司 一种数据处理方法、系统、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN115409549B (zh) 2024-05-14
WO2024041399A1 (zh) 2024-02-29

Similar Documents

Publication Publication Date Title
US10521748B2 (en) Retention risk determiner
US10482093B2 (en) Data mining method
CN111383101A (zh) 贷后风险监控方法、装置、设备及计算机可读存储介质
CN109919781A (zh) 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN108985347A (zh) 分类模型的训练方法、店铺分类的方法及装置
CN111563074B (zh) 一种基于多维标签的数据质量检测方法和系统
CN108777004B (zh) 高速公路客运车辆跨省匹配方法及装置
CN106934412A (zh) 一种用户行为分类方法及系统
CN106874943A (zh) 业务对象分类方法和系统
CN109858974A (zh) 已购车用户识别模型构建方法及识别方法
CN115409549A (zh) 一种数据处理方法、系统、电子设备及计算机存储介质
CN107248023B (zh) 一种对标企业名单的筛选方法和装置
CN111210321B (zh) 一种基于合同管理的风险预警方法及系统
CN110852792B (zh) 一种基于大数据分析的航线价值评估方法及相关产品
WO2017221856A1 (ja) 分析装置、分析方法、および記憶媒体
CN107924423A (zh) 模型确定设备和模型确定方法
CN111046947B (zh) 分类器的训练系统及方法、异常样本的识别方法
US10586046B1 (en) Automated security feed analysis for threat assessment
CN110400106A (zh) 信息获取方法、装置及电子设备
CN108614811B (zh) 一种数据分析方法及装置
CN115099986A (zh) 车险续保的处理方法、装置及相关设备
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN111784182A (zh) 资产信息处理方法和装置
CN110119464A (zh) 一种合同中数值的智能推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant