CN114943260A - 话务场景的识别方法、装置、设备及存储介质 - Google Patents
话务场景的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114943260A CN114943260A CN202110172620.3A CN202110172620A CN114943260A CN 114943260 A CN114943260 A CN 114943260A CN 202110172620 A CN202110172620 A CN 202110172620A CN 114943260 A CN114943260 A CN 114943260A
- Authority
- CN
- China
- Prior art keywords
- data
- cell
- scene
- candidate
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013145 classification model Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims description 49
- 238000012360 testing method Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/50—Business processes related to the communications industry
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种话务场景的识别方法、装置、设备及存储介质。包括:根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。本申请实施例提供的话务场景的识别方法,从构造的数据特征中选择设定数量的特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景,可以快速且准确的确定出小区的话务场景。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种话务场景的识别方法、装置、设备及存储介质。
背景技术
随着通信技术的高速发展,基站的策略在不断的丰富和复杂化,然而对不同的基站用不同的策略,就会造成大量人力和财力的浪费,但是对所有的基站用相同的策略,就忽视了基站所处位置的特性,达不到应有的效果。例如,地铁场景的基站往往白天有大量用户,但是到了深夜地铁关闭之后,就没有用户了,因此,对于这种地铁场景的基站,可以采用统一的策略,比如在深夜的时候进入节能模式,白天的时候恢复。类似于地铁场景的基站还有很多,比如少年宫、小学等。
在现有的话务场景的识别方法,都是根据基站规划的时候,基站所处的地理位置决定了该话务模型特征,比如学校、医院、地铁、高铁等等。但是实际上,同一个地方也会出现不同的话务模型,比如在学校,教室是白天有话务,深夜无话务,宿舍是白天无话务,晚上有话务,都是学校的基站,但是话务场景不同。另外,规划的时候对话务场景的记录会有不全或者记错,导致后续的分析错误。另外,小区的话务场景也会随着时间的推移而变化,无法一直保持不变。
发明内容
本申请实施例提供一种话务场景的识别方法、装置、设备及存储介质,可以快速且准确的确定出小区的话务场景。
为了实现上述目的,本申请实施例公开了一种话务场景的识别方法,包括:
根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;
从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;
将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
为了实现上述目的,本申请实施例公开了一种话务场景的识别装置,包括:
数据特征构造模块,用于根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;
数据特征选择模块,用于从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;
目标话务场景确定模块,用于将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
为了实现上述目的,本申请实施例公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请实施例所述的话务场景的识别方法。
为了实现上述目的,本申请实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的话务场景的识别方法。
本申请实施例公开了一种话务场景的识别方法、装置、设备及存储介质,根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。本申请实施例提供的话务场景的识别方法,从构造的数据特征中选择设定数量的特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景,可以快速且准确的确定出小区的话务场景。
附图说明
图1是本申请实施例公开的一种话务场景的识别方法的流程图;
图2是本申请实施例公开的类地铁场景的用户数据图;
图3是本申请实施例公开的工作日大波峰场景的用户数据图;
图4是本申请实施例公开的场景识别二分类模型的训练方法的流程图;
图5是本申请实施例公开的一种务场景的识别装置的结构示意图;
图6是本申请实施例公开的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
在一个实施例中,图1为本申请实施例提供的一种话务场景的识别方法的流程图。该方法可以适用对小区的话务场景进行识别的情况。该方法可以由话务场景的识别装置了执行。如图1所示,该方法包括S110-S130。
S110,根据待识别小区在设定时段内的用户数据构造多个数据特征。
其中,数据特征包括小区级特征和扇区级特征。设定时段可以是1周、一个月或者半年等。用户数据可以是建立无线资源控制(Radio Resource Control,RRC)连接的用户数量。设定时段内的用户数据可以是设定时段内以设定粒度划分的用户数据,例如:以小时粒度。
本申请实施例中,根据待识别小区在设定时段内的用户数据构造多个数据特征的方式可以是:获取待识别小区及待识别小区所在扇区在设定时段内以设定粒度划分的用户数据;其中,扇区包括待识别小区及待识别小区的同覆盖小区;根据待识别小区对应的用户数据构造小区级特征;根据待识别小区所在扇区对应的用户数据构造扇区级特征。
其中,扇区包括待识别小区及待识别小区的同覆盖小区。同覆盖小区满足如下条件:经纬度与待识别小区相差第一设定值(如100米);方向角与待识别小区相差第二设定值(如30度);小区为室外小区;频点与待识别小区的频点不一样。
本实施例中,构造数据特征方式可以理解为:对用户数据按照统计的方式进行分析,以获得多个数据特征。小区级特征包括:基础信息类、低话务类、高话务类、相关性类、差值类、突变类及分布类;扇区级特征包括:扇区基础信息类、扇区低话务类及扇区高话务类。示例性的,表1示出了构造出的小区级特征;表2示出了构造出的扇区级特征。
表1
其中,TA为时间提前量(Timing Advance,TA)分布;RSRP为小区参考信号接收强度(Reference signal received power,RSRP);NI为噪声干扰(Noise and Interference,NI);PL为路损(Path Loss,PL);MCS为调制解调方式(Modulation and Coding Scheme,MCS);CQI为下行信道指示(Channel Quality Indicator,CQI)。
表2
S120,从多个数据特征中选择候选话务场景对应的设定数量的数据特征。
其中,候选话务场景可以为多个,可以是人为设定的,例如:类地铁场景、工作日大波峰场景及突发场景等。示例性的,图2是本申请实施例中的类地铁场景的用户数据图。图3是本申请实施例中的工作日大波峰场景的用户数据图。如图2-图3所示,为1个月内的用户数据。本实例中,不同的话务场景,选择的设定数量的数据特征也可能不同。假设话候选话务场景包括类地铁场景、工作日大波峰场景和突发场景,则需要分别选择类地铁场景对应的第一设定数量的数据特征,选择工作日大波峰场景对应的第二设定数量的数据特征,选择突发场景对应的第二设定数量的数据特征。
步骤130,将设定数量的数据特征输入候选话务场景对应的场景识别二分类模型中,获得待识别小区的目标话务场景。
本实施例中,不同的话务场景对应的场景识别二分类模型也不同。假设话候选话务场景包括类地铁场景、工作日大波峰场景和突发场景。则将第一设定数量的数据特征输入类地铁场景对应的场景识别二分类模型,确定待识别小区是否属于类地铁场景;将第二设定数量的数据特征输入工作日大波峰场景对应的场景识别二分类模型,确定待识别小区是否属于工作日大波峰场景;将第三设定数量的数据特征输入突发场景对应的场景识别二分类模型,确定待识别小区是否属于突发场景。
本实施例的技术方案,根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。本申请实施例提供的话务场景的识别方法,从构造的数据特征中选择设定数量的特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景,可以快速且准确的确定出小区的话务场景。
可选的,图4是本申请实施例中的场景识别二分类模型的训练方法的流程图。如图场景识别二分类模型的训练方法包括如下步骤:
S410,根据样本小区在设定时段内的用户数据构造多个数据特征。
其中,样本小区可以是处于特定位置(如地铁、商场、办公楼、公园、学校及体育场等)的小区。设定时段可以是1周、一个月或者半年等。用户数据可以是建立无线资源控制(Radio Resource Control,RRC)连接的用户数量。设定时段内的用户数据可以是设定时段内以设定粒度划分的用户数据,例如:以小时粒度。
具体的,根据样本小区在设定时段内的用户数据构造多个数据特征的过程可以是:获取样本小区及样本小区所在扇区在设定时段内以设定粒度划分的用户数据;根据样本小区对应的用户数据构造小区级特征;根据样本小区所在扇区对应的用户数据构造扇区级特征。
本实施例中,构造的小区级特征参照表1,构造的扇区级特征参照表2,此处不再赘述。
S420,从多个数据特征中选择候选话务场景分别对应的设定数量的数据特征。
本申实施例中,不同的候选话务场景,选择的设定数量的数据特征可以不同。具体的,从多个数据特征中选择候选话务场景分别对应的设定数量的数据特征的方式可以是:将样本小区划分为候选话务场景类和非候选话务场景类;根据候选话务场景类和非候选话务场景类确定各数据特征的分类指数;根据分类指数从多个数据特征中选择设定数量的数据特征。
具体的,根据候选话务场景类和非候选话务场景类确定各数据特征的分类指数的方式可以是:针对每个数据特征,确定数据特征在候选话务场景类内的特征中心;计算候选话务场景类内的数据特征与特征中心与间的平均类内距离;计算非候选话务场景类内的数据特征与特征中心间的平均类间距离;对平均类内距离和平均类间距离进行加权求和,获得数据特征的分类指数。
按照如下公式计算候选话务场景类内的数据特征与特征中心与间的平均类内距离:按照如下公式计算非候选话务场景类内的数据特征与特征中心间的平均类间距离:其中,yij表示非候选话务场景类的第i个样本小区的第j个特征,m表示非候选话务场景类有m个样本小区,p表示为距离指数,为正整数,可以设置为2。
对平均类内距离和平均类间距离进行加权求和的计算公式可以是:Dj=c1*Djout-c2*Djin,其中,c1和c2的区间为[0,1],c1可以取0.3,c2可以取0.7。本申请实施例中,分类指数越大,表明该数据特征对分类越有利。
本申请实施例中,在获得各数据特征的分类指数后,按照分类指数从大到小的顺序对数据特征进行排序,然后提取排序靠前设定数量的数据特征,作为候选话务场景的数据特征。设定数量可以是10-20之间的任意值。不同的候选话务场景,选择的数量可以不同。
S430,确定属于候选话务场景的样本小区的样本权重。
本申请实施例中,有些话务场景的样本数量往往非常稀少,样本之间非常不平衡。为了避免样本之间不平衡对模型的影响,需要对样本进行加权。
确定属于所述候选话务场景的样本小区的样本权重可以按照如下公式计算:其中,Pn为某一类候选话务场景的样本的数量比例,vn为自定义类别重要性,由用户设置,取值范围[0,1],默认为1,wn为某候选话务场景类别的权重。
S440,基于样本权重和设定数量的数据特征训练候选话务场景对应的场景识别二分类模型。
本实施例中,一种候选话务场景对应一个场景识别二分类模型。
具体的,基于样本权重和设定数量的数据特征训练候选话务场景对应的场景识别二分类模型的方式可以是:对设定神经网络配置枚举型参数,获得多个初始二分类模型;将样本小区按照设定比例划分为训练集和测试集;基于训练集对多个初始二分类模型分别进行训练,获得多个中间二分类模型;基于测试集对多个中间二分类模型分别进行测试,获得测试结果;根据测试结果确定场景识别二分类模型。
其中,设定神经网络可以是基于随机森林、梯度下降树(Gradient BoostingDecision Tree,GBDT)、xgboost等算法构建的神经网络。配置枚举性参数可以理解为对神经网络中的参数采用网格法进行调整。设定比例可以是3:1。将测试结果中精度最高的中间二分类模型确定为最终的场景识别二分类模型。
本申请实施例中,基于训练集对多个初始二分类模型分别进行训练,获得多个中间二分类模型的方式可以是:对于每个初始二分类模型,将训练集划分为N份数据;遍历N份数据,将遍历到的一份数据作为验证集,其余N-1份数据作为子训练集;基于子训练集对初始二分类模型进行训练,基于验证集对训练后的初始二分类模型进行验证,获得验证结果;直到N份数据遍历完成,获得N个训练后的初始二分类模型及N个验证结果;根据验证结果从N个训练后的初始二分类模型确定出初始二分类模型对应的中间二分类模型。
其中,N可以设置为5。具体的,将验证结果中精度最高的确定为初始二分类模型对应的中间二分类模型。
本申请实施例的技术方案,根据样本小区在设定时段内的用户数据构造多个数据特征;从多个数据特征中选择候选话务场景分别对应的设定数量的数据特征;确定属于候选话务场景的样本小区的样本权重;基于样本权重和设定数量的数据特征训练候选话务场景对应的场景识别二分类模型。本申请实施例提供的话务场景的识别方法,基于样本权重和设定数量的数据特征训练候选话务场景对应的场景识别二分类模型,并基于训练好的场景识别二分类模型确定待识别小区的目标话务场景,可以快速且准确的确定出小区的话务场景。
示例性的,下述实施例对类地铁场景对应的场景识别二分类模型进行训练:
表3为样本小区的类别编码:
表3
类别代号 | 类别名称 |
0 | 类地铁场景 |
1 | 非类地铁场景 |
按照上述实施例公开的方式确定类地铁场景和非类地铁场景的各数据特征的分类指数。选择分类指数排序靠前设定数量的数据特征确定为类地铁场景对应的数据特征。
确定属于类地铁场景的样本小区的样本权重可以按照如下公式计算:其中,Pn为某一类候选话务场景的样本的数量比例,vn为自定义类别重要性,由用户设置,取值范围[0,1],默认为1,wn为某候选话务场景类别的权重。表4为v取值。
表4
类别代号 | 类别名称 | v |
0 | 类地铁场景 | 1 |
1 | 非类地铁场景 | 0.8 |
本实施例中,神经网络采用xgboost算法构建。调整的参数包括基分类器数量n_estimators,基分类器的最大深度max_depth,叶子节点分裂最低阈值gamma,学习速率learning_rate,列采样比例colsample_bytree。
设定每个参数的枚举变量:n_estimators=[50,100,150,200];max_depth=[6,8,10,15];gamma=[0,0.1,0.2];learning_rate=[0.1,0.3,0.5];colsample_bytree=[0.5,0.8,1]。这样可以获得4*4*3*3*3=432个初始二分类模型。
对于每个初始二分类模型,将样本小区划分为:训练集:测试集=0.75:0.25。将训练集再次划分为5份,用4份作为训练,1份作为验证,循环5次,得到5个模型,在5个模型中,选择精度最高的模型作为本次训练的模型,利用测试集测试该模型,得到测试集的分类结果。
根据xgboost的分类过程,用混淆矩阵来表示分类结果的好坏,混淆矩阵如表5所示:
表5
对模型的测试结果的评价过程按照如下公式计算:
F1为模型的最终评价分数,F1越高模型越准确,选择F1最高的模型作为最终的场景识别二分类模型。
示例性的,下述实施例对工作日大波峰场景对应的场景识别二分类模型进行训练:
表6为样本小区的类别编码:
表6
按照上述实施例公开的方式确定工作日大波峰场景和非工作日大波峰场景的各数据特征的分类指数。选择分类指数排序靠前设定数量的数据特征确定为工作日大波峰场景对应的数据特征。
确定属于工作日大波峰场景的样本小区的样本权重可以按照如下公式计算:其中,Pn为某一类候选话务场景的样本的数量比例,vn为自定义类别重要性,由用户设置,取值范围[0,1],默认为1,wn为某候选话务场景类别的权重。表7为v取值。
表7
类别代号 | 类别名称 | v |
0 | 工作日大波峰场景 | 1 |
1 | 非工作日大波峰场景 | 0.8 |
本实施例中,神经网络采用GBDT算法构建。调整的参数包括:基分类器数量n_estimators,基分类器的最大深度max_depth,基分类器选择的最大特征数max_features,学习深度learning_rate。设置每个参数的枚举变量:n_estimators=[50,100,150,200];max_depth=[6,8,10,12];max_features=[sqrt,0.7,0.9,1];learning_rate=[0.1,0.2,0.4,0.8]。这样可以获得4*4*4*4=256个初始二分类模型。
对于每个初始二分类模型,将样本小区划分为:训练集:测试集=0.75:0.25。将训练集再次划分为5份,用4份作为训练,1份作为验证,循环5次,得到5个模型,在5个模型中,选择精度最高的模型作为本次训练的模型,利用测试集测试该模型,得到测试集的分类结果。
根据GBDT的分类过程,用混淆矩阵来表示分类结果的好坏,混淆矩阵如表8所示:
表8
对模型的测试结果的评价过程按照如下公式计算:
F1为模型的最终评价分数,F1越高模型越准确,选择F1最高的模型作为最终的场景识别二分类模型。
图5是本申请实施例公开的一种务场景的识别装置的结构示意图。如图5所示,该装置包括:
数据特征构造模块210,用于根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;
数据特征选择模块220,用于从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;
目标话务场景确定模块230,用于将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
可选的,数据特征构造模块210,还用于:
获取样本小区及样本小区所在扇区在设定时段内以设定粒度划分的用户数据;其中,扇区包括样本小区及样本小区的同覆盖小区;
根据样本小区对应的用户数据构造小区级特征;
根据样本小区所在扇区对应的用户数据构造扇区级特征。
可选的,还包括:模型训练模块,用于:
根据样本小区在设定时段内的用户数据构造多个数据特征;
从所述多个数据特征中选择候选话务场景分别对应的设定数量的数据特征;
确定属于所述候选话务场景的样本小区的样本权重;
基于所述样本权重和所述设定数量的数据特征训练所述候选话务场景对应的场景识别二分类模型。
可选的,模型训练模块,还用于:
将样本小区划分为候选话务场景类和非候选话务场景类;
根据候选话务场景类和非候选话务场景类确定各数据特征的分类指数;
根据分类指数从多个数据特征中选择设定数量的数据特征。
可选的,模型训练模块,还用于:
针对每个数据特征,确定数据特征在候选话务场景类内的特征中心;
计算候选话务场景类内的数据特征与特征中心与间的平均类内距离;
计算非候选话务场景类内的数据特征与特征中心间的平均类间距离;
对平均类内距离和平均类间距离进行加权求和,获得数据特征的分类指数。
可选的,模型训练模块,还用于:
对设定神经网络配置枚举型参数,获得多个初始二分类模型;
将样本小区按照设定比例划分为训练集和测试集;
基于训练集对多个初始二分类模型分别进行训练,获得多个中间二分类模型;
基于测试集对多个中间二分类模型分别进行测试,获得测试结果;
根据测试结果确定场景识别二分类模型。
可选的,模型训练模块,还用于:
对于每个初始二分类模型,将训练集划分为N份数据;
遍历N份数据,将遍历到的一份数据作为验证集,其余N-1份数据作为子训练集;
基于子训练集对初始二分类模型进行训练,基于验证集对训练后的初始二分类模型进行验证,获得验证结果;直到N份数据遍历完成,获得N个训练后的初始二分类模型及N个验证结果;
根据验证结果从N个训练后的初始二分类模型确定出初始二分类模型对应的中间二分类模型。
在一个实施例中,图6是本申请实施例提供的一种计算机设备的结构示意图。如图6所示,本申请提供的设备,包括:处理器310以及存储器320。该设备中处理器310的数量可以是一个或者多个,图6中以一个处理器310为例。该设备中存储器320的数量可以是一个或者多个,图6中以一个存储器320为例。该设备的处理器310以及存储器320可以通过总线或者其他方式连接,图6中以通过总线连接为例。实施例中,该设备为计算机设备。
存储器320作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序以及模块,如本申请任意实施例的设备对应的程序指令/模块(例如,数据传输装置中的编码模块和第一发送模块)。存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述提供的设备可设置为执行上述任意实施例提供的应用于话务场景的识别方法,具备相应的功能和效果。
对应存储器320中存储的程序可以是本申请实施例所提供应用于中断处理方法对应的程序指令/模块,处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的一种或多种功能应用以及数据处理,即实现上述方法实施例中应用于数据的关联查询方法。可以理解的是,上述设备为接收端时,可执行本申请任意实施例所提供的应用于中断处理方法,且具备相应的功能和效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种话务场景的识别方法,该方法包括:根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
本领域内的技术人员应明白,术语用户设备涵盖任何适合类型的无线用户设备,例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。
一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(Read-Only Memory,ROM)、随机访问存储器(Random Access Memory,RAM)、光存储器装置和系统(数码多功能光碟(Digital Video Disc,DVD)或光盘(Compact Disk,CD))等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Field-Programmable Gate Array,FGPA)以及基于多核处理器架构的处理器。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目的代码。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本发明的范围。因此,本发明的恰当范围将根据权利要求确定。
Claims (10)
1.一种话务场景的识别方法,其特征在于,包括:
根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;
从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;
将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
2.根据权利要求1所述的方法,其特征在于,根据待识别小区在设定时段内的用户数据构造多个数据特征,包括:
获取待识别小区及所述待识别小区所在扇区在设定时段内以设定粒度划分的用户数据;其中,所述扇区包括所述待识别小区及所述待识别小区的同覆盖小区;
根据所述待识别小区对应的用户数据构造小区级特征;
根据所述待识别小区所在扇区对应的用户数据构造扇区级特征。
3.根据权利要求1所述的方法,其特征在于,所述场景识别二分类模型的训练方式为:
根据样本小区在设定时段内的用户数据构造多个数据特征;
从所述多个数据特征中选择候选话务场景分别对应的设定数量的数据特征;
确定属于所述候选话务场景的样本小区的样本权重;
基于所述样本权重和所述设定数量的数据特征训练所述候选话务场景对应的场景识别二分类模型。
4.根据权利要求3所述的方法,其特征在于,从所述多个数据特征中选择候选话务场景分别对应的设定数量的数据特征,包括:
将所述样本小区划分为候选话务场景类和非候选话务场景类;
根据所述候选话务场景类和非候选话务场景类确定各数据特征的分类指数;
根据所述分类指数从所述多个数据特征中选择设定数量的数据特征。
5.根据权利要求4所述的方法,其特征在于,根据所述候选话务场景类和非候选话务场景类确定各数据特征的分类指数,包括:
针对每个数据特征,确定所述数据特征在所述候选话务场景类内的特征中心;
计算所述候选话务场景类内的所述数据特征与所述特征中心与间的平均类内距离;
计算所述非候选话务场景类内的所述数据特征与所述特征中心间的平均类间距离;
对所述平均类内距离和所述平均类间距离进行加权求和,获得所述数据特征的分类指数。
6.根据权利要求3所述的方法,其特征在于,基于所述样本权重和所述设定数量的数据特征训练所述候选话务场景对应的场景识别二分类模型,包括:
对设定神经网络配置多种参数,获得多个初始二分类模型;
将所述样本小区按照设定比例划分为训练集和测试集;
基于所述训练集对所述多个初始二分类模型分别进行训练,获得多个中间二分类模型;
基于所述测试集对所述多个中间二分类模型分别进行测试,获得测试结果;
根据所述测试结果确定场景识别二分类模型。
7.根据权利要求6所述的方法,其特征在于,基于所述训练集对所述多个初始二分类模型分别进行训练,获得多个中间二分类模型,包括:
对于每个初始二分类模型,将所述训练集划分为N份数据;
遍历所述N份数据,将遍历到的一份数据作为验证集,其余N-1份数据作为子训练集;
基于所述子训练集对所述初始二分类模型进行训练,基于所述验证集对训练后的初始二分类模型进行验证,获得验证结果;直到所述N份数据遍历完成,获得N个训练后的初始二分类模型及N个验证结果;
根据所述验证结果从N个训练后的初始二分类模型确定出所述初始二分类模型对应的中间二分类模型。
8.一种话务场景的识别装置,其特征在于,包括:
数据特征构造模块,用于根据待识别小区在设定时段内的用户数据构造多个数据特征;所述数据特征包括小区级特征和扇区级特征;
数据特征选择模块,用于从所述多个数据特征中选择候选话务场景对应的设定数量的数据特征;
目标话务场景确定模块,用于将所述设定数量的数据特征输入所述候选话务场景对应的场景识别二分类模型中,获得所述待识别小区的目标话务场景。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的话务场景的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的话务场景的识别方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172620.3A CN114943260A (zh) | 2021-02-08 | 2021-02-08 | 话务场景的识别方法、装置、设备及存储介质 |
PCT/CN2021/133696 WO2022166334A1 (zh) | 2021-02-08 | 2021-11-26 | 话务场景的识别方法、装置、设备及存储介质 |
US18/263,805 US20240236697A9 (en) | 2021-02-08 | 2021-11-26 | Traffic scenario identification method and apparatus, device, and storage medium |
EP21924329.2A EP4290914A4 (en) | 2021-02-08 | 2021-11-26 | METHOD AND DEVICE FOR IDENTIFYING A TRAFFIC SCENARIO, DEVICE AND STORAGE MEDIUM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172620.3A CN114943260A (zh) | 2021-02-08 | 2021-02-08 | 话务场景的识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943260A true CN114943260A (zh) | 2022-08-26 |
Family
ID=82741839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110172620.3A Pending CN114943260A (zh) | 2021-02-08 | 2021-02-08 | 话务场景的识别方法、装置、设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240236697A9 (zh) |
EP (1) | EP4290914A4 (zh) |
CN (1) | CN114943260A (zh) |
WO (1) | WO2022166334A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117750304A (zh) * | 2022-09-14 | 2024-03-22 | 华为技术有限公司 | 一种数据处理方法及终端设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101998465B (zh) * | 2009-08-21 | 2012-11-07 | 中国移动通信集团设计院有限公司 | 一种网络优化的方法及系统 |
CN101808339A (zh) * | 2010-04-06 | 2010-08-18 | 哈尔滨工业大学 | 一种应用k-means和先验知识的话务小区自适应分类方法 |
CN103037375B (zh) * | 2011-09-29 | 2015-05-27 | 中国移动通信集团河南有限公司 | 小区话务场景划分方法及装置 |
CN104427505B (zh) * | 2013-09-11 | 2018-05-11 | 中国移动通信集团设计院有限公司 | 一种小区场景划分的方法及装置 |
CN104023351B (zh) * | 2014-05-15 | 2017-09-26 | 北京融信数联科技有限公司 | 一种话务量预测方法 |
CN107734507A (zh) * | 2016-08-12 | 2018-02-23 | 索尼公司 | 无线场景识别装置和方法以及无线通信设备和系统 |
CN107567039B (zh) * | 2017-08-31 | 2020-09-08 | 北京市天元网络技术股份有限公司 | 一种移动网络的小区场景自动识别方法及装置 |
US10582526B2 (en) * | 2017-11-30 | 2020-03-03 | Verizon Patent And Licensing Inc. | System and method for measuring end-to-end channel capacity entropy |
CN111417132B (zh) * | 2019-01-07 | 2023-04-07 | 中国移动通信有限公司研究院 | 小区的划分方法、装置及设备 |
CN112243249B (zh) * | 2019-07-19 | 2022-05-20 | 大唐移动通信设备有限公司 | 5g nsa组网下lte新入网锚点小区参数配置方法和装置 |
-
2021
- 2021-02-08 CN CN202110172620.3A patent/CN114943260A/zh active Pending
- 2021-11-26 WO PCT/CN2021/133696 patent/WO2022166334A1/zh active Application Filing
- 2021-11-26 EP EP21924329.2A patent/EP4290914A4/en active Pending
- 2021-11-26 US US18/263,805 patent/US20240236697A9/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4290914A4 (en) | 2024-08-28 |
WO2022166334A1 (zh) | 2022-08-11 |
EP4290914A1 (en) | 2023-12-13 |
US20240137777A1 (en) | 2024-04-25 |
US20240236697A9 (en) | 2024-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180089566A1 (en) | Method and apparatus for positioning of artificial neural network | |
CN107809766B (zh) | 一种用于网络优化的机器学习样本的生成方法及装置 | |
CN109996245B (zh) | 通信资源投放评估方法、装置、电子设备及存储介质 | |
CN109214446A (zh) | 潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质 | |
US20230034994A1 (en) | Channel Identification Method and Apparatus, Transmission Method, Transmission Device, Base Station, and Medium | |
CN104331502A (zh) | 针对快递员周边人群营销中快递员数据的识别方法 | |
CN112651546B (zh) | 一种公交线路优化方法以及系统 | |
CN111586728B (zh) | 一种面向小样本特征的异构无线网络故障检测与诊断方法 | |
CN108243435A (zh) | 一种lte小区场景划分中的参数优化方法及装置 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN111932302A (zh) | 一种区域中业务站点数量的确定方法、装置、设备及系统 | |
CN114943260A (zh) | 话务场景的识别方法、装置、设备及存储介质 | |
CN106897743B (zh) | 基于贝叶斯模型的移动考勤防作弊大数据检测方法 | |
CN116528282B (zh) | 覆盖场景识别方法、装置、电子设备和可读存储介质 | |
CN117349771A (zh) | 错误标签数据识别方法、装置、电子设备及可读存储介质 | |
CN107517474B (zh) | 一种网络分析优化方法及装置 | |
CN115082767B (zh) | 随机森林模型训练方法和装置 | |
CN114615693B (zh) | 网络容量预测方法、装置、电子设备及计算机存储介质 | |
CN109993185A (zh) | 无线信令分析方法、装置、计算设备及存储介质 | |
CN111081221B (zh) | 训练数据选择方法、装置、电子设备及计算机存储介质 | |
CN111401591A (zh) | 一种质差用户确定方法、装置和可读介质 | |
CN113194426B (zh) | 一种指纹库的更新方法、装置、设备及计算机存储介质 | |
CN118301658B (zh) | 共站址检测方法、装置、设备、存储介质及程序产品 | |
CN112257435B (zh) | 一种基于人工智能分词技术的警情数据治理方法 | |
KR102553344B1 (ko) | 다중 격자를 이용한 최적지 분석 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |