CN117576823B - 一种排队叫号系统终端 - Google Patents

一种排队叫号系统终端 Download PDF

Info

Publication number
CN117576823B
CN117576823B CN202311610716.9A CN202311610716A CN117576823B CN 117576823 B CN117576823 B CN 117576823B CN 202311610716 A CN202311610716 A CN 202311610716A CN 117576823 B CN117576823 B CN 117576823B
Authority
CN
China
Prior art keywords
data
relevance
dimension
queuing
distribution curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311610716.9A
Other languages
English (en)
Other versions
CN117576823A (zh
Inventor
伍启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huishi Technology Group Co ltd
Original Assignee
Shanghai Huishi Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huishi Technology Group Co ltd filed Critical Shanghai Huishi Technology Group Co ltd
Priority to CN202311610716.9A priority Critical patent/CN117576823B/zh
Publication of CN117576823A publication Critical patent/CN117576823A/zh
Application granted granted Critical
Publication of CN117576823B publication Critical patent/CN117576823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C11/00Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C11/00Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere
    • G07C2011/04Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere related to queuing systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及互联网平台领域,具体涉及一种排队叫号系统终端,该系统终端包括:排队叫号系统终端数据采集模块、排队叫号系统终端异常检测模块、排队叫号系统终端优化模块、排队叫号系统终端叫号模块;采集排队叫号数据;构建概率分布曲线并获取关联性维度;对概率分布曲线进行分段,获取关联性维度的目标分段;获取初始聚类中心点得到聚类结果;计算聚类簇在所述关联性维度的数据分布特征;获取聚类簇在每个关联性维度的树的数量参数;根据树的数量参数进行孤立森林异常检测,获取样本数据点的综合异常分数值;根据样本数据点的综合异常分数值获取异常数据点;对排队叫号数据进行优化并叫号,提高了异常排队叫号数据的检测精度。

Description

一种排队叫号系统终端
技术领域
本发明涉及互联网平台领域,具体涉及一种排队叫号系统终端。
背景技术
排队叫号系统终端是服务行业常见的互联网平台工具,利用网络、硬件、软件技术,以及数据管理、多语言支持、安全技术等背景技术,优化客户排队和服务流程,提高效率和客户满意度。其中,排队叫号中异常叫号或异常数据的出现会影响服务准确性、系统效率、客户体验感及资源的浪费等。
排队叫号产生的数据包括服务时间对应的人数、各类服务的需求量等,在此类数据中若存在异常数据,那么会影响到系统服务的准确性和效率。为了消除此类数据中的异常部分,选择使用孤立森林进行去除操作。孤立森林对于此类异常数据具有着较高的敏感性,可以较为准确地筛选出异常数据点。然而在获取异常值的过程中,需要设置孤立森林树的数量参数,若使用相同数量的树构建孤立森林,会导致异常结果丢失数据的基本特征,进而使得异常结果的获取出错。进一步地,会导致部分正常数据点被视作异常,影响互联网平台用户体验的满意度。
发明内容
为了解决上述问题,本发明提供一种排队叫号系统终端,所述系统终端包括:
排队叫号系统终端数据采集模块,用于通过排队叫号系统终端来采集排队叫号数据,其中一条排队叫号数据中包含若干维度的数据值;
排队叫号系统终端异常检测模块,对于任意一个维度的排队叫号数据构建概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度;
对任意一个关联性维度的概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段;
根据所有的关联性维度的目标分段,获取样本空间坐标系的初始聚类中心点;根据获取的样本空间坐标系的初始聚类中心点进行聚类得到聚类结果,其中聚类结果中包含若干聚类簇;
对于任意一个聚类簇的任意一个关联性维度,根据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征;
根据聚类簇在每个关联性维度的数据分布特征,获取聚类簇在每个关联性维度的树的数量参数;根据聚类簇在每个关联性维度的树的数量参数进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值;
根据聚类簇在所有关联性维度中样本数据点的异常分数值,获取样本数据点的综合异常分数值;根据样本数据点的综合异常分数值获取异常数据点;
排队叫号系统终端优化模块,用于根据排队叫号数据的异常数据,对排队叫号数据进行优化;
排队叫号系统终端叫号模块,用于根据优化后的排队叫号数据进行叫号。
进一步的,所述对于任意一个维度的排队叫号数据构建概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度,包括的步骤为:
对于任意一个维度的排队叫号数据,记为目标维度,利用目标维度的所有排队叫号数据构建目标维度的概率分布曲线,其中目标维度的概率分布曲线横坐标为从小到大排列的目标维度的数据,纵坐标为目标维度的每个数据值对应的排队叫号数据的数量;
获取标准正态分布曲线记为F',将目标维度的概率分布曲线与标准正态分布曲线进行dtw匹配,得到目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离;
通过目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离来计算目标维度的关联性R的计算方法为:
R=exp[-dtw(F,F′)]
其中,F表示目标维度的概率分布曲线;F'表示标准正态分布曲线;dtw(F,F')表示目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离;exp[ ]表示以自然常数为底数的指数函数;
预设维度的关联性阈值,若目标维度的关联性大于关联性阈值时,将目标维度记为关联性维度。
进一步的,所述对任意一个关联性维度的概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段,包括的步骤为:
对于任意一个关联性维度,将所述关联性维度的概率分布曲线划分为若干个分段,其中每个分段的长度的为所述关联性维度的概率分布曲线的横坐标长度除以100得到的整数值;
对于任意一个分段,将所述分段中的若干个横坐标的数据值构建待提取数据集合,其中待提取数据集合中包含有若干所述关联性维度的数据值;
在所有的排队叫号数据中,将所述关联性维度为待提取数据集合中的任意一个数据值的若干排队叫号数据,记为提取数据;
根据每个分段的提取数据,通过构建样本空间坐标系获取每个分段的提取数据点以及所述提取数据点的邻域数据点,通过每个分段的提取数据点以及所述提取数据点的邻域数据点计算每个分段的数据差异性来获取目标分段。
进一步的,所述根据每个分段的提取数据,通过构建样本空间坐标系获取每个分段的提取数据点以及所述提取数据点的邻域数据点,通过每个分段的提取数据点以及所述提取数据点的邻域数据点计算每个分段的数据差异性来获取目标分段,包括的步骤为:
构建样本空间坐标系,其中样本空间坐标系为多维空间,并由多个关联性维度的坐标轴组成,其中每个样本数据点的在各个关联性维度坐标轴上的坐标为每个关联性维度的数据值;将所有排队叫号数据置入到样本空间坐标系中转换为样本数据点,其中每个分段的提取数据同样转化为提取数据点;
获取所述提取数据点最近的8个样本数据点作为所述提取数据点的邻域数据点;
对于第i个分段,根据第i个分段中的提取数据点与邻域数据点计算第i个分段的数据差异性,其中第i个分段的数据差异性Di的计算方法为:
其中,Ni表示第i个分段的提取数据点的数量;Var(dn)表示第i个分段的第n个提取数据点与所述提取数据点的各个邻域数据点之间的欧式距离的方差值;Var(ki)表示第i个分段的概率分布曲线上的横坐标相邻点之间的斜率的方差,Var( )表示获取方差值的函数;
对所有分段的数据差异性进行线性归一化处理,预设数据差异性阈值,若第i个分段的归一化处理后的数据差异性小于数据差异性阈值,则将第i个分段作为目标分段。
进一步的,所述根据所有的关联性维度的目标分段,获取样本空间坐标系的初始聚类中心点,包括的步骤为:
对于任意一个关联性维度的任意一个目标分段,将目标分段的所有提取数据点构建所述目标分段的目标数据点集合,获取所有目标分段的目标数据点集合的并集,作为所述关联性维度的目标数据点集合;
获取所有关联性维度的所有目标分段的目标数据点集合;
对于任意一个样本数据点,对所述样本数据点设置标记值,其中所述样本数据点的标记值为,所述样本数据点在所有关联性维度的目标数据点集合中存在的数量;
根据所有样本数据点的标记值,将每个关联性维度的目标数据点集合中标记值最大的目标数据点记为样本空间坐标系的初始聚类中心点。
进一步的,所述对于任意一个聚类簇的任意一个关联性维度,根据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征,包括的步骤为:
对于第v个聚类簇,根据所述第v个聚类簇中的所有样本数据点在任意一个关联性维度中构建概率分布曲线;
根据所述第v个聚类簇在所述关联性维度的概率分布曲线以及所述关联性维度的关联性计算第v个聚类簇在所述关联性维度的数据分布特征γv,其中第v个聚类簇在所述关联性维度的数据分布特征γv的计算方法为:
其中,Mv表示第v个聚类簇的数据点的数量;max(qv)表示第v个聚类簇的概率分布曲线的最大纵坐标值;min(qv)表示第v个聚类簇的概率分布曲线的最小纵坐标值;Mv表示第v个聚类簇的概率分布曲线的横坐标值的长度;Δqv,m表示第v个聚类簇的概率分布曲线的第m个横坐标数据值的纵坐标值,与前一个横坐标数据值的纵坐标值的差值的绝对值;Rv表示第v个聚类簇的关联性维度的关联性;||表示取绝对值函数;exp[]表示以自然常数为底数的指数函数。
进一步的,所述根据聚类簇在每个关联性维度的数据分布特征,获取聚类簇在每个关联性维度的树的数量参数,包括的步骤为:
预设孤立森林的树的数量参数为h;
根据预设的孤立森林树的数量参数,以及第v个聚类簇在所述关联性维度的数据分布特征,获取第v个聚类簇在所述关联性维度的树的数量参数,其中第v个聚类簇在所述关联性维度的树的数量参数的计算方法为Hv
Hv=(1+γv)×h
其中,γv表示第v个聚类簇在所述关联性维度的数据分布特征;h表示预设孤立森林的树的数量参数。
进一步的,所述根据聚类簇在每个关联性维度的树的数量参数进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值,包括的步骤为:
对于任意一个样本数据点,计算所述样本数据点的在所有关联性维度中异常分数值的加权平均值,其中各个关联性维度的加权平均过程中采用的权重值为关联性维度的关联性的值;
将样本数据点的各个关联性维度的异常分数值的加权平均值记为所述样本数据点的综合异常分数值。
进一步的,所述根据聚类簇在所有关联性维度中样本数据点的异常分数值,获取样本数据点的综合异常分数值;根据样本数据点的综合异常分数值获取异常数据点,包括的步骤为:
预设异常分数值阈值,对于任意一个样本数据点,若所述样本数据点的综合异常分数值大于预设异常分数值阈值,将所述样本数据点记为异常数据点,将所述样本数据点表征的排队叫号数据记为排队叫号数据的异常数据点。
进一步的,所述根据排队叫号数据的异常数据,对排队叫号数据进行优化,包括的步骤为:
根据排队叫号系统终端异常检测模块获取的排队叫号数据的异常数据,将排队叫号数据的异常数据进行剔除,并将所述剔除的数据的后面的排队叫号数据的位置序号均向前移一位。
本发明具有如下有益效果:
本发明通过对排队叫号数据进行自适应孤立森林检测,获取排队叫号数据的异常数据,并根据排队叫号数据的异常数据对叫号顺序进行优化,以自适应调整排队叫号顺序。其中通过构建每个维度的概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度;并通过对关联性维度的概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段,获取样本空间坐标系的初始聚类中心点,进行聚类得到聚类结果。在此基础上,据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征,进而自适应的树的数量参数,进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值,进而获取异常排队叫号数据,实现对排队叫号数据的优化,避免了传统的孤立森林检测过程中,设置固定树的数量导致异常结果丢失数据的基本特征,进而导致异常数据的获取存在误差的缺点,使得异常排队叫号数据异常检测结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种排队叫号系统终端的系统框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种排队叫号系统终端,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种排队叫号系统终端的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种排队叫号系统终端,该系统包括以下模块:
排队叫号系统终端数据采集模块101,用于通过排队叫号系统终端来采集排队叫号数据。
需要说明的是,本实施例是通过采集用户使用排队叫号系统终端时的排队叫号数据,并根据排队叫号数据进行孤立森林算法检测,获取排队叫号数据中的异常数据,进而获取去除异常数据的排队叫号数据,根据去除异常数据的排队记号数据进行优化排队叫号。
具体的,本实施例对排队叫号数据进行采集,其中采集所有排队叫号数据,其中每条排队叫号数据包括不同的维度,其中维度包括预约服务时长、预约服务类型、预约叫号时间等数据,其中对于不同维度的数据进行数值化处理,例如,对于预约服务时长维度的数据,预约服务时长分为0.5小时,1小时,1.5小时,2小时以及2.5小时几种数据,对于预约服务时间维度的不同数据分别标记为1,2,3,4以及5,进而实现数值化处理。作为其他实施方式,实施者可根据具体情况进行数据化处理。类似操作,得到对其他维度进行相同的数值化处理。其中各个排队叫号数据的位置序号为叫号的顺序,且其中一条排队叫号数据中包含若干维度的数据值。
排队叫号系统终端异常检测模块102,用于根据排队叫号系统终端数据采集模块采集的不同维度的排队叫号数据,进行异常检测获取排队叫号数据的异常数据。
需要说明的是,为了使得排队叫号系统终端起到稳定高效率的作用,需要根据排队叫号数据进行分析,并根据分析结果进行排队序号的更新,因此为了消除异常排队叫号数据对排队效率以及客户满意度产生的影响,往往需要对异常排队叫号数据进行去除。由于排队叫号数据中包含有不同维度的数据,并且每个维度的数据对整条排队叫号数据具有较高的敏感性,因此往往采用孤立森林算法对排队叫号数据进行异常检测。
(1)对每一个维度的排队叫号数据构建概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度,并对概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段;根据目标分段获取样本空间坐标系的初始聚类中心点,并得到聚类结果。
需要说明的是,在利用孤立森林算法对数据中的异常排队叫号数据进行检测的过程中,由于不同维度数据对整条数据的高敏感性,若对不同的数据点设置相同数量的树构建孤立森林,会导致异常结果丢失数据的基本特征,进而导致异常数据的获取存在误差。在不同维度的排队叫号数据中,排队叫号数据的数量与各个维度具有一定的关联性,而所述数据之间的关联性体现为正态分布的特征,即对于大量的排队叫号数据来,排队叫号的各个维度数据是独立同分布的,根据中心极限定理,且具有相同的概率分布,因此排队叫号数据中的部分维度具有一定的关联性,而对于不存在关联性的维度其对应的数据分布较为离散,因此若对不存在关联性的维度进行分析,其维度的置信度比较低。在获取各个维度的关联性过程中,需要获取所有排队叫号数据在不同维度的概率分布信息。由于排队叫号数据有不同类别的数据,相同类别的排队叫号数据的分布特性较为相同,因此在获取不同维度的概率分布信息的基础上,需要将排队叫号数据进行分类处理,在同一类的排队叫号数据中自适应获取树的数量。
具体的,对于任意一个维度的排队叫号数据,记为目标维度,在所有排队叫号数据中构建目标维度的概率分布曲线,其中目标维度的概率分布曲线横坐标为从小到大排列的目标维度的数据,包含有若干目标维度的数据值,纵坐标为目标维度的每个数据值对应的排队叫号数据的数量。获取标准正态分布曲线记为F',需要说明的是,标准正态分布曲线为公知的,在此不再赘述,并记目标维度的概率分布曲线为F。将目标维度的概率分布曲线与标准正态分布曲线进行dtw匹配,得到目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离。因此通过目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离来计算目标维度的关联性R的计算方法为:
R=exp[-dtw(F,F′)]
其中,F表示目标维度的概率分布曲线;F'表示标准正态分布曲线;dtw(F,F')表示目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离;exp[ ]表示以自然常数为底数的指数函数,需要说明的是,本实施例中所用的exp[-x]模型仅用于表示负相关关系和约束模型输出的结果处于[0,1)区间内,具体实施时可替换成具有同样目的的其他模型,本实施例只是以exp[-x]模型为例进行叙述,不对做具体限定,其中x表示该模型的输入。其中通过计算目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离来表征两条曲线之间的关联性,dtw距离越小两条曲线之间的关联性越大,则表明目标维度的关联性越大。
进一步的,预设维度的关联性阈值为0.65,若目标维度的关联性大于关联性阈值时,则将目标维度记为关联性维度,其中关联性阈值可根据实施者具体实施情况而定,本实施例给出的仅为经验值。
进一步的,对于任意一个关联性维度,将所述关联性维度的概率分布曲线划分为若干个分段,其中每个分段的长度的为所述关联性维度的概率分布曲线的横坐标长度除以100得到的整数值。需要说明的是,对所述关联性维度的概率分布曲线进行划分的过程中,若最后一个分段包含的数据个数不足每个分段的长度,则在后续计算过程中按照该分段实际包含的数据个数进行计算。对于任意一个分段,将所述分段中的若干个横坐标的数据值构建待提取数据集合,其中待提取数据集合中包含有若干所述关联性维度的数据值。在所有的排队叫号数据中,将所述关联性维度为待提取数据集合中的任意一个数据值的若干排队叫号数据,记为提取数据。
进一步的,构建样本空间坐标系,其中样本空间坐标系为多维空间,并由多个关联性维度的坐标轴组成,其中每个样本数据点的在各个关联性维度坐标轴上的坐标为每个关联性维度的数据值;将所有排队叫号数据置入到样本空间坐标系中转换为样本数据点,其中每个分段的提取数据同样转化为提取数据点。对于任意一个提取数据点,获取所述提取数据点最近的8个样本数据点作为所述提取数据点的邻域数据点,根据第i个分段中的提取数据点与邻域数据点之间的分布特征来计算第i个分段的数据差异性,其中第i个分段的数据差异性Di的计算方法为:
其中,Ni表示第i个分段的提取数据点的数量;Var(dn)表示第i个分段的第n个提取数据点与所述提取数据点的各个邻域数据点之间的欧式距离的方差值;Var(ki)表示第i个分段的概率分布曲线上的横坐标相邻点之间的斜率的方差,其中需要说明的是,获取斜率的过程中,是通过第i个分段的概率分布曲线上的点与前一个点计算得到,对于此分段中的的第一个点的斜率设置为与第二个点的斜率相同;Var()表示获取方差值的函数。其中表征第i个分段的提取数据点与邻域数据点的分布特征的差异性,是作为分段的数据差异性的基准值,若分布特征的差异性较大,则表明该分段的数据分布较为混乱,则分段的数据差异性较大;[1+Var(ki)]表征概率分布曲线上的数据分布差异的整体的权重,通过在概率分布曲线上在整体数据分布上对差异性的基准值进行调整,若第i个分段的数据在整体数据分布上波动较大,则表明在同一个分段中在同一个关联性维度的数据值较为相似性,整体分布混乱,则需要放大数据差异性基准值。
进一步的,对所有分段的数据差异性进行线性归一化处理,其中采用的归一化函数为Max_Min函数,可根据实施者具体实施情况而定。预设数据差异性阈值0.45,若第i个分段的归一化处理后的数据差异性小于阈值,则将第i个分段作为目标分段。
进一步的,对于任意一个目标分段,将目标分段的所有提取数据点构建所述目标分段的目标数据点集合,类似操作得到其他目标分段的目标数据点集合,获取所有目标分段的目标数据点集合的并集,作为所述关联性维度的目标数据点集合。同样的操作,得到其他关联性维度的目标数据点集合。对于任意一个样本数据点,对所述样本数据点设置标记值,其中所述样本数据点的标记值为,所述样本数据点在所有关联性维度的目标数据点集合中存在的数量。类似操作,得到其他样本数据点的标记值。根据所有样本数据点的标记值,将每个关联性维度的目标数据点集合中标记值最大的目标数据点记为样本空间坐标系的初始聚类中心点,其中需要说明的是,在关联性维度的目标数据点集合中可能存在多个相同最大值的目标数据点,则在相同最大值的目标数据点中任意选取一个目标数据点作为样本空间坐标系的初始聚类中心点。
进一步的,在样本空间坐标系中对所有的样本数据点进行K-Means聚类得到聚类结果,其中聚类结果中包含若干聚类簇,且K-Means算法中K值大小设置为初始聚类中心点的数量,且K-Means的聚类过程中设置的初始聚类中心为所述获取的初始聚类中心点,其中K-Means聚类过程为公知技术,在本实施例中不再赘述。
(2)对于任意一个聚类簇的任意一个关联性维度,根据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征,并获取聚类簇在每个关联性维度的树的数量参数,进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值。
需要说明的是,在不同的聚簇之间拥有着不同的排队叫号数据的分布特征,其中根据获取的初始聚类中心点,可以将相同类型的排队叫号数据聚集为一个聚类簇,并且聚类簇中的排队叫号数据分布特征表征的为所有的排队叫号数据中在以所述关联性维度为基准上的相同的分布类别,在此聚类簇中进行孤立森林异常检测的过程中,需要对不同聚类簇的树的数量进行自适应,而树的数量取决于所述聚类簇中的排队叫号数据分布特征。
具体的,对于第v个聚类簇,根据所述第v个聚类簇中的所有样本数据点在任意一个关联性维度中构建概率分布曲线。根据所述第v个聚类簇在所述关联性维度的概率分布曲线以及所述关联性维度的关联性计算第v个聚类簇在所述关联性维度的数据分布特征γv,其中第v个聚类簇在所述关联性维度的数据分布特征γv的计算方法为:
其中,Mv表示第v个聚类簇的数据点的数量;max(qv)表示第v个聚类簇的概率分布曲线的最大纵坐标值;min(qv)表示第v个聚类簇的概率分布曲线的最小纵坐标值;Mv表示第v个聚类簇的概率分布曲线的横坐标值的长度,也即第v个聚类簇的概率分布曲线的数据点的横坐标数据值的数量;Δqm表示第v个聚类簇的概率分布曲线的第m个横坐标数据值的纵坐标值,与前一个横坐标数据值的纵坐标值的差值的绝对值,需要说明的是,对于所述概率分布曲线中第一个横坐标数据值不存在前一个横坐标数据值,将第一个横坐标数据值的纵坐标值的差值的绝对值设置为0;Rv表示第v个聚类簇的关联性维度的关联性;exp[]表示以自然常数为底数的指数函数,需要说明的是,本实施例中所用的exp[-x]模型仅用于表示负相关关系和约束模型输出的结果处于[0,1)区间内,具体实施时可替换成具有同样目的的其他模型,本实施例只是以exp[-x]模型为例进行叙述,不对做具体限定,其中x表示该模型的输入;||表示取绝对值函数。其中,表示第v个聚类簇概率分布曲线整体分布变化程度,Δqm表示第v个聚类簇概率分布曲线在第m个横坐标数据值的局部分布变化程度,则/>表示的为整体分布变化程度与局部分布变化程度的比值差异,通过计算/>与1的差异来表示整体分布变化程度与局部分布变化程度的差异,若差异越小,则表明第v个聚类簇的概率分布曲线变化规律,则在聚类簇对应的关联性维度的分布越有序,则越符合聚类簇的对应的关联性维度的关联性特征;同时由于获取第v个聚类簇的关联性维度的关联性大小不同,即通过1-Rv)来对1进行调整,若关联性越大,则允许的整体分布变化程度与局部分布变化程度的差异越小,因此需要将1调整变小。
进一步的,预设孤立森林的树的数量参数为h,本实施例中给出经验h=60,可根据实施者具体实施情况而定。根据预设的孤立森林树的数量参数,以及第v个聚类簇在所述关联性维度的数据分布特征,获取第v个聚类簇在所述关联性维度的树的数量参数,其中第v个聚类簇在所述关联性维度的树的数量参数的计算方法为Hv
Hv=(1+γv)×h
其中,γv表示第v个聚类簇在所述关联性维度的数据分布特征;h表示预设孤立森林的树的数量参数。其中若第v个聚类簇在所述关联性维度的数据分布特征越大,表征第v个聚类簇在所述关联性维度的数据越符合聚类簇的对应的关联性维度的关联性特征,则第v个聚类簇需要设置的树的数量参数较小就可以表征聚类簇中数据的分布特征得到孤立森林异常检测的结果。
进一步的,获取第v个聚类簇在所述关联性维度的树的数量参数进行孤立森林异常检测,得到第v个聚类簇在所述关联性维度中样本数据点的异常分数值。类似操作,得到关联性维度的所有样本数据点的异常分数值。
进一步的,获取所有关联性维度的所有样本数据点的异常分数值,其中每个样本数据点包含有不同关联性维度的不同异常分数值。对于任意一个样本数据点,计算所述样本数据点的异常分数值的加权平均值,其中各个关联性维度的加权平均过程中采用的权重值为关联性维度的关联性的值,进而将样本数据点的各个关联性维度的异常分数值的加权平均值记为所述样本数据点的综合异常分数值。预设异常分数值阈值0.75,若任意一个样本数据点的综合异常分数值大于预设异常分数值阈值,则表明所述样本数据点为异常数据点,即为排队叫号数据的异常数据。
排队叫号系统终端优化模块103,用于根据排队叫号系统终端异常检测模块获取的排队叫号数据的异常数据,对排队叫号数据进行优化,剔除异常数据。
具体的,根据排队叫号系统终端异常检测模块获取的排队叫号数据的异常数据,将排队叫号数据的异常数据进行剔除,并将所述剔除的数据的后面的排队叫号数据的位置序号均向前移一位。
排队叫号系统终端叫号模块104,用于根据排队叫号系统终端优化模块优化后的排队叫号数据进行叫号。
具体的,根据排队叫号系统终端优化模块优化后的排队叫号数据的位置序号,按照位置序号顺序依次递增地进行叫号。
综上所述,本发明的系统包括排队叫号系统终端数据采集模块、排队叫号系统终端异常检测模块、排队叫号系统终端优化模块、排队叫号系统终端叫号模块。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种排队叫号系统终端,其特征在于,所述系统终端包括:
排队叫号系统终端数据采集模块,用于通过排队叫号系统终端来采集排队叫号数据,其中一条排队叫号数据中包含若干维度的数据值;
排队叫号系统终端异常检测模块,对于任意一个维度的排队叫号数据构建概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度;
对任意一个关联性维度的概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段;
根据所有的关联性维度的目标分段,获取样本空间坐标系的初始聚类中心点;根据获取的样本空间坐标系的初始聚类中心点进行聚类得到聚类结果,其中聚类结果中包含若干聚类簇;
对于任意一个聚类簇的任意一个关联性维度,根据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征;
根据聚类簇在每个关联性维度的数据分布特征,获取聚类簇在每个关联性维度的树的数量参数;根据聚类簇在每个关联性维度的树的数量参数进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值;
根据聚类簇在所有关联性维度中样本数据点的异常分数值,获取样本数据点的综合异常分数值;根据样本数据点的综合异常分数值获取异常数据点;
排队叫号系统终端优化模块,用于根据排队叫号数据的异常数据,对排队叫号数据进行优化;
排队叫号系统终端叫号模块,用于根据优化后的排队叫号数据进行叫号;
所述对于任意一个维度的排队叫号数据构建概率分布曲线,根据概率分布曲线获取维度的关联性并获取关联性维度,包括的步骤为:
对于任意一个维度的排队叫号数据,记为目标维度,利用目标维度的所有排队叫号数据构建目标维度的概率分布曲线,其中目标维度的概率分布曲线横坐标为从小到大排列的目标维度的数据,纵坐标为目标维度的每个数据值对应的排队叫号数据的数量;
获取标准正态分布曲线记为F',将目标维度的概率分布曲线与标准正态分布曲线进行dtw匹配,得到目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离;
通过目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离来计算目标维度的关联性R的计算方法为:
R=exp[-dtw(F,F′)]
其中,F表示目标维度的概率分布曲线;F'表示标准正态分布曲线;dtw(F,F')表示目标维度的概率分布曲线与标准正态分布曲线之间的dtw距离;exp[]表示以自然常数为底数的指数函数;
预设维度的关联性阈值,若目标维度的关联性大于关联性阈值时,将目标维度记为关联性维度;
所述对任意一个关联性维度的概率分布曲线进行分段,计算每个分段的数据差异性,并通过每个分段的数据差异性来获取关联性维度的目标分段,包括的步骤为:
对于任意一个关联性维度,将所述关联性维度的概率分布曲线划分为若干个分段,其中每个分段的长度的为所述关联性维度的概率分布曲线的横坐标长度除以100得到的整数值;
对于任意一个分段,将所述分段中的若干个横坐标的数据值构建待提取数据集合,其中待提取数据集合中包含有若干所述关联性维度的数据值;
在所有的排队叫号数据中,将所述关联性维度为待提取数据集合中的任意一个数据值的若干排队叫号数据,记为提取数据;
根据每个分段的提取数据,通过构建样本空间坐标系获取每个分段的提取数据点以及所述提取数据点的邻域数据点,通过每个分段的提取数据点以及所述提取数据点的邻域数据点计算每个分段的数据差异性来获取目标分段;
所述根据每个分段的提取数据,通过构建样本空间坐标系获取每个分段的提取数据点以及所述提取数据点的邻域数据点,通过每个分段的提取数据点以及所述提取数据点的邻域数据点计算每个分段的数据差异性来获取目标分段,包括的步骤为:
构建样本空间坐标系,其中样本空间坐标系为多维空间,并由多个关联性维度的坐标轴组成,其中每个样本数据点的在各个关联性维度坐标轴上的坐标为每个关联性维度的数据值;将所有排队叫号数据置入到样本空间坐标系中转换为样本数据点,其中每个分段的提取数据同样转化为提取数据点;
获取所述提取数据点最近的8个样本数据点作为所述提取数据点的邻域数据点;
对于第i个分段,根据第i个分段中的提取数据点与邻域数据点计算第i个分段的数据差异性,其中第i个分段的数据差异性Di的计算方法为:
其中,Ni表示第i个分段的提取数据点的数量;Var(dn)表示第i个分段的第n个提取数据点与所述提取数据点的各个邻域数据点之间的欧式距离的方差值;Var(ki)表示第i个分段的概率分布曲线上的横坐标相邻点之间的斜率的方差,Var( )表示获取方差值的函数;
对所有分段的数据差异性进行线性归一化处理,预设数据差异性阈值,若第i个分段的归一化处理后的数据差异性小于数据差异性阈值,则将第i个分段作为目标分段;
所述根据所有的关联性维度的目标分段,获取样本空间坐标系的初始聚类中心点,包括的步骤为:
对于任意一个关联性维度的任意一个目标分段,将目标分段的所有提取数据点构建所述目标分段的目标数据点集合,获取所有目标分段的目标数据点集合的并集,作为所述关联性维度的目标数据点集合;
获取所有关联性维度的所有目标分段的目标数据点集合;
对于任意一个样本数据点,对所述样本数据点设置标记值,其中所述样本数据点的标记值为,所述样本数据点在所有关联性维度的目标数据点集合中存在的数量;
根据所有样本数据点的标记值,将每个关联性维度的目标数据点集合中标记值最大的目标数据点记为样本空间坐标系的初始聚类中心点;
所述对于任意一个聚类簇的任意一个关联性维度,根据聚类簇中的关联性维度的概率分布曲线以及关联性维度的关联性计算聚类簇在所述关联性维度的数据分布特征,包括的步骤为:
对于第v个聚类簇,根据所述第v个聚类簇中的所有样本数据点在任意一个关联性维度中构建概率分布曲线;
根据所述第v个聚类簇在所述关联性维度的概率分布曲线以及所述关联性维度的关联性计算第v个聚类簇在所述关联性维度的数据分布特征γv,其中第v个聚类簇在所述关联性维度的数据分布特征γv的计算方法为:
其中,Mv表示第v个聚类簇的数据点的数量;max(qv)表示第v个聚类簇的概率分布曲线的最大纵坐标值;min(qv)表示第v个聚类簇的概率分布曲线的最小纵坐标值;Mv表示第v个聚类簇的概率分布曲线的横坐标值的长度;Δqv,m表示第v个聚类簇的概率分布曲线的第m个横坐标数据值的纵坐标值,与前一个横坐标数据值的纵坐标值的差值的绝对值;Rv表示第v个聚类簇的关联性维度的关联性;||表示取绝对值函数;exp[ ]表示以自然常数为底数的指数函数;
所述根据聚类簇在每个关联性维度的数据分布特征,获取聚类簇在每个关联性维度的树的数量参数,包括的步骤为:
预设孤立森林的树的数量参数为h;
根据预设的孤立森林树的数量参数,以及第v个聚类簇在所述关联性维度的数据分布特征,获取第v个聚类簇在所述关联性维度的树的数量参数,其中第v个聚类簇在所述关联性维度的树的数量参数的计算方法为Hv
Hv=(1+γv)×h
其中,γv表示第v个聚类簇在所述关联性维度的数据分布特征;h表示预设孤立森林的树的数量参数;
所述根据聚类簇在每个关联性维度的树的数量参数进行孤立森林异常检测,得到聚类簇在每个关联性维度中样本数据点的异常分数值,包括的步骤为:
对于任意一个样本数据点,计算所述样本数据点的在所有关联性维度中异常分数值的加权平均值,其中各个关联性维度的加权平均过程中采用的权重值为关联性维度的关联性的值;
将样本数据点的各个关联性维度的异常分数值的加权平均值记为所述样本数据点的综合异常分数值。
2.根据权利要求1所述的一种排队叫号系统终端,其特征在于,所述根据聚类簇在所有关联性维度中样本数据点的异常分数值,获取样本数据点的综合异常分数值;根据样本数据点的综合异常分数值获取异常数据点,包括的步骤为:
预设异常分数值阈值,对于任意一个样本数据点,若所述样本数据点的综合异常分数值大于预设异常分数值阈值,将所述样本数据点记为异常数据点,将所述样本数据点表征的排队叫号数据记为排队叫号数据的异常数据点。
3.根据权利要求1所述的一种排队叫号系统终端,其特征在于,所述根据排队叫号数据的异常数据,对排队叫号数据进行优化,包括的步骤为:
根据排队叫号系统终端异常检测模块获取的排队叫号数据的异常数据,将排队叫号数据的异常数据进行剔除,并将所述剔除的数据的后面的排队叫号数据的位置序号均向前移一位。
CN202311610716.9A 2023-11-29 2023-11-29 一种排队叫号系统终端 Active CN117576823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311610716.9A CN117576823B (zh) 2023-11-29 2023-11-29 一种排队叫号系统终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311610716.9A CN117576823B (zh) 2023-11-29 2023-11-29 一种排队叫号系统终端

Publications (2)

Publication Number Publication Date
CN117576823A CN117576823A (zh) 2024-02-20
CN117576823B true CN117576823B (zh) 2024-05-14

Family

ID=89863982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311610716.9A Active CN117576823B (zh) 2023-11-29 2023-11-29 一种排队叫号系统终端

Country Status (1)

Country Link
CN (1) CN117576823B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828511B (zh) * 2024-03-04 2024-05-10 中国中医科学院广安门医院 一种麻醉深度脑电信号数据处理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110807488A (zh) * 2019-11-01 2020-02-18 北京芯盾时代科技有限公司 一种基于用户对等组的异常检测方法及装置
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113792749A (zh) * 2020-11-16 2021-12-14 京东城市(北京)数字科技有限公司 时间序列数据异常检测方法、装置、设备及存储介质
CN115025497A (zh) * 2022-05-26 2022-09-09 网易(杭州)网络有限公司 异常数据检测方法、装置、电子设备及存储介质
CN115374851A (zh) * 2022-08-19 2022-11-22 北京市燃气集团有限责任公司 一种燃气数据异常检测方法及装置
CN116383743A (zh) * 2023-02-16 2023-07-04 国能信控互联技术有限公司 基于机器学习的光伏运行异常检测方法及系统
CN116861354A (zh) * 2023-07-17 2023-10-10 国家电网有限公司华北分部 电力变压器监测数据的异常识别及模式区分方法及系统
CN117131449A (zh) * 2023-08-28 2023-11-28 烟台海颐软件股份有限公司 面向数据治理的具有传播学习能力的异常识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110807488A (zh) * 2019-11-01 2020-02-18 北京芯盾时代科技有限公司 一种基于用户对等组的异常检测方法及装置
CN113792749A (zh) * 2020-11-16 2021-12-14 京东城市(北京)数字科技有限公司 时间序列数据异常检测方法、装置、设备及存储介质
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN115025497A (zh) * 2022-05-26 2022-09-09 网易(杭州)网络有限公司 异常数据检测方法、装置、电子设备及存储介质
CN115374851A (zh) * 2022-08-19 2022-11-22 北京市燃气集团有限责任公司 一种燃气数据异常检测方法及装置
CN116383743A (zh) * 2023-02-16 2023-07-04 国能信控互联技术有限公司 基于机器学习的光伏运行异常检测方法及系统
CN116861354A (zh) * 2023-07-17 2023-10-10 国家电网有限公司华北分部 电力变压器监测数据的异常识别及模式区分方法及系统
CN117131449A (zh) * 2023-08-28 2023-11-28 烟台海颐软件股份有限公司 面向数据治理的具有传播学习能力的异常识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛罡等.基于孤立森林算法的电力数据异常检测方法设计.自动化与仪器仪表.2023,全文. *

Also Published As

Publication number Publication date
CN117576823A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN117576823B (zh) 一种排队叫号系统终端
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN109918498B (zh) 一种问题入库方法和装置
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN113723452B (zh) 一种基于kpi聚类的大规模异常检测系统
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
CN113609843B (zh) 一种基于梯度提升决策树的句词概率计算方法及系统
CN113792981A (zh) 效率统计方法、装置及计算机可读存储介质
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN113076437A (zh) 一种基于标签重分配的小样本图像分类方法及系统
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN116185758A (zh) 一种基于滑动窗口和关联规则分析的告警数据收敛方法
CN115719283A (zh) 一种智能化会计管理系统
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CN102693258A (zh) 高精度的类似检索系统
CN110582091A (zh) 定位无线质量问题的方法和装置
CN115935076A (zh) 基于人工智能的旅游服务信息推送方法及系统
CN110929800B (zh) 一种基于sax算法的商业体异常用电检测方法
CN115001941B (zh) 一种通信网管故障的确定方法及装置
CN116993307B (zh) 一种具有人工智能学习能力的协同办公方法及系统
CN117422320B (zh) 一种提取天气对航班韧性运行影响因素的方法
CN111538871B (zh) 一种支持不同数据类型的一体化检索方法
CN113378881B (zh) 基于信息熵增益svm模型的指令集识别方法及装置
CN113722489A (zh) 一种基于nlp算法的关系分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant