CN110084440B - 基于联合相似度的民航旅客不文明等级预测方法及系统 - Google Patents

基于联合相似度的民航旅客不文明等级预测方法及系统 Download PDF

Info

Publication number
CN110084440B
CN110084440B CN201910404740.4A CN201910404740A CN110084440B CN 110084440 B CN110084440 B CN 110084440B CN 201910404740 A CN201910404740 A CN 201910404740A CN 110084440 B CN110084440 B CN 110084440B
Authority
CN
China
Prior art keywords
civilized
penalty
algorithm
civil aviation
passengers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910404740.4A
Other languages
English (en)
Other versions
CN110084440A (zh
Inventor
丁建立
李洋
王怀超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN201910404740.4A priority Critical patent/CN110084440B/zh
Publication of CN110084440A publication Critical patent/CN110084440A/zh
Application granted granted Critical
Publication of CN110084440B publication Critical patent/CN110084440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于联合相似度的民航旅客不文明等级预测方法及系统,包括:一:数据预处理;二:文本信息的特征提取;三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;四:不文明旅客的惩处特征的度量,五:基于联合相似度匹配的旅客不文明等级预测,六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS‑IPS算法中进行实验对比与分析,依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,通过查准率、召回率、F1值和准确率来对实验结果进行评估。

Description

基于联合相似度的民航旅客不文明等级预测方法及系统
技术领域
本发明属于民航安全技术领域,具体涉及一种基于联合相似度的民航旅客不文明等级预测方法及系统。
背景技术
随着民航领域的快速发展,民航客流量的不断攀升,不文明旅客的数量也不断增加,不文明旅客数据库逐渐形成规模。在登机和乘机的过程中不文明旅客因为自己的个人因素对工作人员进行殴打或对航空器进行破坏,极大影响了公共安全秩序,危害航空安全。因此如何对民航不文明旅客行为进行有效的监控与分析,如何建立一套可量化、可测量的指标体系,通过不文明行为记录,形成对不文明旅客服务和交互的全流程量化管理,辅助航空公司对不文明旅客的管理决策和服务政策制定已经成为民航业亟待解决的问题。
目前国内外使用文本挖掘技术对于民航不文明旅客的研究较少,但在犯罪侦查项目中有所应用。亚利桑那州大学和警察机构建立的犯罪侦查项目Coplink和Recap,通过命名实体抽取对犯罪叙述报告的实体进行识别。此外运用文本工程GATE结合犯罪规范词汇,从犯罪记录和目击者的叙述中提取相关实体。通过聚类方法和短文本相似性分析来匹配犯罪过程。因此本文在文本相似性分析的基础上,加入了不文明旅客的惩处规则特征,实现不文明旅客的多粒度联合相似度分析。给旅客是否是不文明旅客身份的潜在程度做出合理的度量和预测。实现航空公司对旅客行为的有效监控,对维护民航安全和航空安全具有重大意义。
目前国内外对文本相似度的研究主要集中在对文本特征题提取和对比分析方面,通过统计文本中的词频TF和逆文档频率指数IDF来计算词语的权重TF-IDF值构成文本特征向量,并运用卷积神经网络(CNN),和深度学习(Deep Learning)等方法对文本进行训练,计算出文本的相似度值。
具有多种文本特征的句子对匹模型是一种多特征文本相似度计算方法,该方法考虑了两个句子间同词的共现,使用对齐特征(Alignment Feature)计算句子的语义相似性,可提高文本语义相似度计算性能。
文本关键词寻优算法,考虑了关键词比例增加的临界点问题,该算法通过更新类别关键词和控制相似度阈值降低了噪声文本加入的概率,提高了效率,通过关键词提取去除非关键词语料,降低了计算的复杂度从而提高了文本相似度计算效率。
同义词林的多粒度计算模型是在原始语料库的基础上将同义词林加入文本共同经过神经网络训练,提升了具有相同意思但不同文字间的计算精度,从而提高性能,同义词林的加入可提高模型对词汇的语义理解,进而提升文本相似性计算精度。
目前国内外研究学者借助于文本词向量表示方法word2vec的成功,对于句子和段落的向量表示工作正尝试展开,从单词向量的简单附加组成到复杂的加权结构。通过联合词语的词向量来获得句子向量对整个句子的语义表达。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种基于联合相似度的民航旅客不文明等级预测方法及系统,该基于联合相似度的民航旅客不文明等级预测方法及系统依据其不文明记录的组成机构,将旅客的行为记录通过词向量的特征提取,惩处特征进行标准化度量,通过行为特征与惩处特征的多粒度融合计算和联合相似性匹配,实现对民航旅客潜在不文明等级的预测,提高了预测准确率。
本发明的第一发明目的是提供一种基于联合相似度的民航旅客不文明等级预测方法,至少包括如下步骤:
步骤一:数据预处理;
将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
步骤二:文本信息的特征提取;
来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
步骤三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
Figure BDA0002060855630000031
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
步骤四:不文明旅客的惩处特征的度量,具体为:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
Figure BDA0002060855630000032
式中:∑Ci代表i种处罚类型总数,
Figure BDA0002060855630000033
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
Figure BDA0002060855630000034
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
Figure BDA0002060855630000041
4)引入概率模型寻优参数β,
Figure BDA0002060855630000042
Figure BDA0002060855630000043
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
Figure BDA0002060855630000044
Figure BDA0002060855630000045
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
步骤六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
本发明的第二发明目的是提供一种基于联合相似度的民航旅客不文明等级预测系统,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
Figure BDA0002060855630000051
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
Figure BDA0002060855630000052
式中:∑Ci代表i种处罚类型总数,
Figure BDA0002060855630000061
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
Figure BDA0002060855630000062
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
Figure BDA0002060855630000063
4)引入概率模型寻优参数β,
Figure BDA0002060855630000064
Figure BDA0002060855630000065
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
Figure BDA0002060855630000066
Figure BDA0002060855630000067
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
本发明具有的优点和积极效果是:
本发明通过研究民航不文明旅客的行为信息和惩处规则提出了IPBS-SIF匹配算法,对不文明旅客的行为特征分析的同时把处罚规则产生的影响纳入考虑。对不文明旅客进行多粒度融合度量。并对非民航人员和民航不文明信息库进行联合相似度计算,来对从事民航活动的旅客发生不文明行为的潜在程度以及旅客的潜在不文明等级进行合理预测,有利于航空公司对旅客的管理决策,对维护民航安全提供了有效的解决方案。实现了对从事民航活动的不文明人员进行重点监控的目的,对维护民航秩序和航空器安全具有重大意义。
附图说明
图1是本发明的联合相似度匹配预测模型整体框架图;
图2是概率模型β参数的寻优分布图;
图3是优化前后不文明旅客惩处特征值PL对比图;
图4是不同方法之间召回率对比图;
图5是本发明与其他方法之间查全率对比图;
图6是本发明与其他方法之间F1值对比图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下:
本发明针对当前民航不文明旅客扰乱机场,机上公共安全秩序等危害航空安全的行为,而在之前又无法对不文明旅客从中甄别的现状,本发明涉及的方法能融合不文明旅客的行为特征,处罚特征实现不文明旅客的多粒度融合度量,通过行为特征的语义相似度和惩处特征的相似度进行联合相似度匹配计算,从而预测社会不文明人员在从事民航活动中发生不文明行为的潜在程度。本发明能够对不文明旅客的多个特征进行融合计算,进而提高预测准确率和精确度。便于航空公司的服务决策,对维护民航安全秩序和航空安全具有重大意义。
本发明研究是采用IPS算法对文本记录词向量加权平均,同时优化平滑反频率参数,从而对不文明旅客的文本记录进行向量表示。此外,对于不文明旅客的分析中不能只考虑行为信息,不文明旅客之间存在造成相同结果的显式关系和不同行为的隐式关系,且不同行为的隐式关系更具有挖掘价值,其次,要考虑不文明旅客的处罚规则和结果在行为匹配中的相互影响;其行为严重程度取决于行为信息又受处罚结果的影响。本文创新性的将不文明旅客的处罚规则特征引入了计算模型,为处罚规则制定统一量化标准,针对不同行为间的隐式关系进行了挖掘,以此来对不文明旅客进行了多粒度融合度量。并对旅客在发生不文明行为之前的潜在程度进行合理预测。
如图1至图4所示,一种基于联合相似度的民航旅客不文明等级预测方法,包括:
步骤一:数据预处理,即将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集。根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入。
步骤二:文本信息的特征提取。来自民航和社会的不文明信息记录以文本形式存在,为了两者之间的相似性计算进而对旅客发生不文明行为的潜在程度的预测,本发明通过word2vec对文本信息进行特征提取。word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示。
步骤三:不文明行为记录句子向量表示。民航不文明旅客与社会不文明人员不文明行为通过IPS算法进行句子向量表示。不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,本发明依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示。详细公式如下所示:
Figure BDA0002060855630000081
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S}。其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率。为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示。
步骤四:不文明旅客的惩处特征的标准化度量,详细步骤如下所示:
1)引入不文明旅客处罚规则概率P
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为
Figure BDA0002060855630000091
式中∑Ci代表i种处罚类型总数,
Figure BDA0002060855630000092
为所有处罚类型数目之和。不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性。
2)引入不文明旅客行为严重程度归一度量标准L
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为
Figure BDA0002060855630000093
其中Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现。
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为
Figure BDA0002060855630000094
4)引入概率模型寻优参数β
Figure BDA0002060855630000095
Figure BDA0002060855630000096
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加。本文以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加。符合民航不文明旅客惩处规则的民航背景。
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
本文使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性。使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数。联合相似度算法如下所示:
Figure BDA0002060855630000101
Figure BDA0002060855630000102
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数,本发明为语义相似度和惩处特征相似度进行权重设置,以发挥模型最好的效果。
步骤六:本发明通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在Average Vector(平均词向量算法)、Doc2vec模型、IPS算法、以及本文设计的IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度。最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
图1是本发明的整体模型框架图,本发明针对当前民航不文明旅客扰乱机场危害航空安全的行为,而在之前又无法对不文明旅客从中甄别的现状,提出了一种基于联合相似度的民航旅客不文明等级预测方法,将社会不文明人员与民航不文明旅客的行为记录数据通过数据预处理构建不文明行为规则库,然后对文本进行特征提取和惩处特征的标准化度量,其次将量化后的特征表示输入联合相似度匹配模型,根据匹配结果预测社会不文明人员在从事民航活动过程中发生不文明行为的潜在程度即不文明等级,为航空公司对旅客行为的监控与分析提供有效的决策依据。
为验证本发明的效果,按照前文所述的步骤进行实验验证,实验验证结果如图2-6所示。
步骤一:社会数据和民航数据采集。社会数据来自于法律家、法律图书馆、人民检察院信息公开网、中国裁判文书网的裁判文书数据:包括危害国家安全,危害公共安全,侵犯财产,妨害社会管理秩序四大类共15132条数据。民航数据来自于中国航空运输协会公布的16批民航不文明旅客的行为记录数据,和来自于信用中国公布的民航旅客特定失信人数据2432条。将上述数据清理后作为实验的输入数据集。依据惩处类型及行为影响严重程度将民航数据分为A,B,C,D四类,其行为严重程度随类别梯度的升高(A->D)而增加。
步骤二:文本信息的特征提取。来自民航和社会的不文明信息记录以文本形式存在,为了两者之间的相似性计算,本发明通过word2vec对文本信息进行特征提取。word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制,获得不文明旅客文本记录信息的语义表示。
步骤三:不文明行为记录句子向量表示。民航不文明旅客与社会不文明人员不文明行为通过IPS算法对不文明行为记录对词向量加权求和获得不文明行为的句子向量表示,作为后续模型的输入。IPS算法的具体公式如下:
Figure BDA0002060855630000111
X←{vs:s∈S}
vs←vs-uuTvs
其中:w代表一个词,vw代表词向量;s代表一条不文明行为记录,S代表数据中不文明行为全集,vs是句子向量,即{vs:s∈S}。p(w)为单词在整个语料库中的频率,其中a为平滑反频率参数。语料库所有的句子向量构成矩阵X,得到X的第一奇异向量u,通过u对原本的vs进行更新获得最终的vs句子向量表示。
步骤四:不文明旅客的惩处特征标准化度量,旅客因其行为情节严重程度划分为不同的等级,不同等级的不文明旅客所占比例不同,根据社会分布规律和真实数据分析,不文明旅客所占比例往往随不文明等级梯度的上升而下降,为符合民航背景需对不文明旅客的惩处特征做标准化度量,使其惩处特征值符合随不文明梯度上升而增加的分布规律。惩处特征的标准化度量方法如下:
Figure BDA0002060855630000121
Figure BDA0002060855630000122
其中:∑Ci代表i种处罚类型总数,
Figure BDA0002060855630000123
为所有处罚类型数目之和,Cij为第i种处罚类型j处罚结果,β为优化参数,其寻优分布如图2所示。由图2可知β在(0.025,0.15)之间符合我们的标准,即各类PL值随处罚梯度的上升(A→D)而上升。选取β=0.1,得到优化前后PL值得对比情况如图3所示,可知优化后的惩处特征值PL符合民航背景。
步骤五:基于联合相似度匹配的旅客不文明等级预测,联合相似度算法如下所示:
Figure BDA0002060855630000124
Figure BDA0002060855630000125
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为不文明记录的语义相似度,sim()为惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数。
步骤六:实验结果对比。分别在Average Vector、Doc2vec、IPS算法、以及本文设计的IPBS-IPS联合相似度匹配算法中进行实验对比,如图4-图6所示分别为查准率、召回率、F1值的对比图,图4、图5显示在查准率、召回率上本发明在性能上高出其他算法10%-20%,且图6显示平均F1值在80%以上。这表明本发明所提方法在同等情况下,优于其他匹配算法,预测效果较好。
一种基于联合相似度的民航旅客不文明等级预测系统,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
Figure BDA0002060855630000131
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
Figure BDA0002060855630000132
式中:∑Ci代表i种处罚类型总数,
Figure BDA0002060855630000133
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
Figure BDA0002060855630000134
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
Figure BDA0002060855630000141
4)引入概率模型寻优参数β,
Figure BDA0002060855630000142
Figure BDA0002060855630000143
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
Figure BDA0002060855630000144
Figure BDA0002060855630000145
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (2)

1.一种基于联合相似度的民航旅客不文明等级预测方法,其特征在于:至少包括如下步骤:
步骤一:数据预处理;
将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分别表示,为后续模型的运算提供数据输入;
步骤二:文本信息的特征提取;
来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
步骤三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
Figure FDA0003930371970000011
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示;
步骤四:不文明旅客的惩处特征的度量,具体为:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
Figure FDA0003930371970000021
式中:∑Ci代表i种处罚类型总数,
Figure FDA0003930371970000022
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
Figure FDA0003930371970000023
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
Figure FDA0003930371970000024
4)引入概率模型寻优参数β,
Figure FDA0003930371970000025
Figure FDA0003930371970000026
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100);β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法如下所示:
Figure FDA0003930371970000031
Figure FDA0003930371970000032
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
步骤六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
2.一种基于联合相似度的民航旅客不文明等级预测系统,其特征在于,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分别表示,为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
Figure FDA0003930371970000041
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
Figure FDA0003930371970000042
式中:∑Ci代表i种处罚类型总数,
Figure FDA0003930371970000043
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
Figure FDA0003930371970000044
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
Figure FDA0003930371970000051
4)引入概率模型寻优参数β,
Figure FDA0003930371970000052
Figure FDA0003930371970000053
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100);β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法如下所示:
Figure FDA0003930371970000054
Figure FDA0003930371970000055
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
CN201910404740.4A 2019-05-15 2019-05-15 基于联合相似度的民航旅客不文明等级预测方法及系统 Active CN110084440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910404740.4A CN110084440B (zh) 2019-05-15 2019-05-15 基于联合相似度的民航旅客不文明等级预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910404740.4A CN110084440B (zh) 2019-05-15 2019-05-15 基于联合相似度的民航旅客不文明等级预测方法及系统

Publications (2)

Publication Number Publication Date
CN110084440A CN110084440A (zh) 2019-08-02
CN110084440B true CN110084440B (zh) 2022-12-23

Family

ID=67420447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910404740.4A Active CN110084440B (zh) 2019-05-15 2019-05-15 基于联合相似度的民航旅客不文明等级预测方法及系统

Country Status (1)

Country Link
CN (1) CN110084440B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342968A (zh) * 2021-05-21 2021-09-03 中国石油天然气股份有限公司 文本摘要提取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Flocking of Heterogeneous Multi-agent with Time Delay and Nonlinear Inner-Coupling Functions;Jianli Ding 等;《Spring》;20181006;全文 *
基于网络文本的我国游客不文明行为分析研究;焦念涛 等;《西安建筑科技大学学报(社会科学版)》;20160630;第35卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110084440A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN110675023B (zh) 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
Dong et al. Identifying incident causal factors to improve aviation transportation safety: Proposing a deep learning approach
CN111753058A (zh) 一种文本观点挖掘方法及系统
Ikram et al. Arabic text classification in the legal domain
KR102091633B1 (ko) 연관법령 제공 방법
Pandur et al. Topic modelling in social sciences: Case study of web of science
CN110084440B (zh) 基于联合相似度的民航旅客不文明等级预测方法及系统
Chi et al. Establish a patent risk prediction model for emerging technologies using deep learning and data augmentation
Li A classification retrieval approach for English legal texts
Li et al. An event ontology construction approach to web crime mining
Jing et al. GeoGAT: Graph model based on attention mechanism for geographic text classification
Li et al. Evaluating the rationality of judicial decision with LSTM-based case modeling
Gapanyuk et al. Architecture and Implementation of an Intelligent News Analysis System.
Fu et al. Prediction of hot topics of agricultural public opinion based on attention mechanism LSTM model
Devi et al. Extended correlated principal component analysis with SVM-PUK in opinion mining
Chen et al. Research on Knowledge Graph Modeling Method for Financial Audit of Power Grid Enterprises
Qing-chao et al. Research on Small Sample Text Classification Based on Attribute Extraction and Data Augmentation
Aqilla et al. Word2vec Architecture in Sentiment Classification of Fuel Price Increase Using CNN-BiLSTM Method
Huang et al. A Malicious Domain Detection Model Based on Improved Deep Learning
Martyshkin et al. A method for identifying potential internal violators based on the analysis of the tone of messages from users of social networks
Gupta et al. Machine Learning based Sentiment Analysis of Hindi Data with TF-IDF and Count Vectorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant