CN110084440B - 基于联合相似度的民航旅客不文明等级预测方法及系统 - Google Patents
基于联合相似度的民航旅客不文明等级预测方法及系统 Download PDFInfo
- Publication number
- CN110084440B CN110084440B CN201910404740.4A CN201910404740A CN110084440B CN 110084440 B CN110084440 B CN 110084440B CN 201910404740 A CN201910404740 A CN 201910404740A CN 110084440 B CN110084440 B CN 110084440B
- Authority
- CN
- China
- Prior art keywords
- civilized
- penalty
- algorithm
- civil aviation
- passengers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 115
- 230000006399 behavior Effects 0.000 claims abstract description 73
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000002474 experimental method Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000630 rising effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims 2
- 230000006870 function Effects 0.000 description 8
- 230000004927 fusion Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于联合相似度的民航旅客不文明等级预测方法及系统,包括:一:数据预处理;二:文本信息的特征提取;三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;四:不文明旅客的惩处特征的度量,五:基于联合相似度匹配的旅客不文明等级预测,六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS‑IPS算法中进行实验对比与分析,依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,通过查准率、召回率、F1值和准确率来对实验结果进行评估。
Description
技术领域
本发明属于民航安全技术领域,具体涉及一种基于联合相似度的民航旅客不文明等级预测方法及系统。
背景技术
随着民航领域的快速发展,民航客流量的不断攀升,不文明旅客的数量也不断增加,不文明旅客数据库逐渐形成规模。在登机和乘机的过程中不文明旅客因为自己的个人因素对工作人员进行殴打或对航空器进行破坏,极大影响了公共安全秩序,危害航空安全。因此如何对民航不文明旅客行为进行有效的监控与分析,如何建立一套可量化、可测量的指标体系,通过不文明行为记录,形成对不文明旅客服务和交互的全流程量化管理,辅助航空公司对不文明旅客的管理决策和服务政策制定已经成为民航业亟待解决的问题。
目前国内外使用文本挖掘技术对于民航不文明旅客的研究较少,但在犯罪侦查项目中有所应用。亚利桑那州大学和警察机构建立的犯罪侦查项目Coplink和Recap,通过命名实体抽取对犯罪叙述报告的实体进行识别。此外运用文本工程GATE结合犯罪规范词汇,从犯罪记录和目击者的叙述中提取相关实体。通过聚类方法和短文本相似性分析来匹配犯罪过程。因此本文在文本相似性分析的基础上,加入了不文明旅客的惩处规则特征,实现不文明旅客的多粒度联合相似度分析。给旅客是否是不文明旅客身份的潜在程度做出合理的度量和预测。实现航空公司对旅客行为的有效监控,对维护民航安全和航空安全具有重大意义。
目前国内外对文本相似度的研究主要集中在对文本特征题提取和对比分析方面,通过统计文本中的词频TF和逆文档频率指数IDF来计算词语的权重TF-IDF值构成文本特征向量,并运用卷积神经网络(CNN),和深度学习(Deep Learning)等方法对文本进行训练,计算出文本的相似度值。
具有多种文本特征的句子对匹模型是一种多特征文本相似度计算方法,该方法考虑了两个句子间同词的共现,使用对齐特征(Alignment Feature)计算句子的语义相似性,可提高文本语义相似度计算性能。
文本关键词寻优算法,考虑了关键词比例增加的临界点问题,该算法通过更新类别关键词和控制相似度阈值降低了噪声文本加入的概率,提高了效率,通过关键词提取去除非关键词语料,降低了计算的复杂度从而提高了文本相似度计算效率。
同义词林的多粒度计算模型是在原始语料库的基础上将同义词林加入文本共同经过神经网络训练,提升了具有相同意思但不同文字间的计算精度,从而提高性能,同义词林的加入可提高模型对词汇的语义理解,进而提升文本相似性计算精度。
目前国内外研究学者借助于文本词向量表示方法word2vec的成功,对于句子和段落的向量表示工作正尝试展开,从单词向量的简单附加组成到复杂的加权结构。通过联合词语的词向量来获得句子向量对整个句子的语义表达。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种基于联合相似度的民航旅客不文明等级预测方法及系统,该基于联合相似度的民航旅客不文明等级预测方法及系统依据其不文明记录的组成机构,将旅客的行为记录通过词向量的特征提取,惩处特征进行标准化度量,通过行为特征与惩处特征的多粒度融合计算和联合相似性匹配,实现对民航旅客潜在不文明等级的预测,提高了预测准确率。
本发明的第一发明目的是提供一种基于联合相似度的民航旅客不文明等级预测方法,至少包括如下步骤:
步骤一:数据预处理;
将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
步骤二:文本信息的特征提取;
来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
步骤三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
步骤四:不文明旅客的惩处特征的度量,具体为:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
步骤六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
本发明的第二发明目的是提供一种基于联合相似度的民航旅客不文明等级预测系统,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
本发明具有的优点和积极效果是:
本发明通过研究民航不文明旅客的行为信息和惩处规则提出了IPBS-SIF匹配算法,对不文明旅客的行为特征分析的同时把处罚规则产生的影响纳入考虑。对不文明旅客进行多粒度融合度量。并对非民航人员和民航不文明信息库进行联合相似度计算,来对从事民航活动的旅客发生不文明行为的潜在程度以及旅客的潜在不文明等级进行合理预测,有利于航空公司对旅客的管理决策,对维护民航安全提供了有效的解决方案。实现了对从事民航活动的不文明人员进行重点监控的目的,对维护民航秩序和航空器安全具有重大意义。
附图说明
图1是本发明的联合相似度匹配预测模型整体框架图;
图2是概率模型β参数的寻优分布图;
图3是优化前后不文明旅客惩处特征值PL对比图;
图4是不同方法之间召回率对比图;
图5是本发明与其他方法之间查全率对比图;
图6是本发明与其他方法之间F1值对比图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下:
本发明针对当前民航不文明旅客扰乱机场,机上公共安全秩序等危害航空安全的行为,而在之前又无法对不文明旅客从中甄别的现状,本发明涉及的方法能融合不文明旅客的行为特征,处罚特征实现不文明旅客的多粒度融合度量,通过行为特征的语义相似度和惩处特征的相似度进行联合相似度匹配计算,从而预测社会不文明人员在从事民航活动中发生不文明行为的潜在程度。本发明能够对不文明旅客的多个特征进行融合计算,进而提高预测准确率和精确度。便于航空公司的服务决策,对维护民航安全秩序和航空安全具有重大意义。
本发明研究是采用IPS算法对文本记录词向量加权平均,同时优化平滑反频率参数,从而对不文明旅客的文本记录进行向量表示。此外,对于不文明旅客的分析中不能只考虑行为信息,不文明旅客之间存在造成相同结果的显式关系和不同行为的隐式关系,且不同行为的隐式关系更具有挖掘价值,其次,要考虑不文明旅客的处罚规则和结果在行为匹配中的相互影响;其行为严重程度取决于行为信息又受处罚结果的影响。本文创新性的将不文明旅客的处罚规则特征引入了计算模型,为处罚规则制定统一量化标准,针对不同行为间的隐式关系进行了挖掘,以此来对不文明旅客进行了多粒度融合度量。并对旅客在发生不文明行为之前的潜在程度进行合理预测。
如图1至图4所示,一种基于联合相似度的民航旅客不文明等级预测方法,包括:
步骤一:数据预处理,即将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集。根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入。
步骤二:文本信息的特征提取。来自民航和社会的不文明信息记录以文本形式存在,为了两者之间的相似性计算进而对旅客发生不文明行为的潜在程度的预测,本发明通过word2vec对文本信息进行特征提取。word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示。
步骤三:不文明行为记录句子向量表示。民航不文明旅客与社会不文明人员不文明行为通过IPS算法进行句子向量表示。不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,本发明依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示。详细公式如下所示:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S}。其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率。为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示。
步骤四:不文明旅客的惩处特征的标准化度量,详细步骤如下所示:
1)引入不文明旅客处罚规则概率P
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为
2)引入不文明旅客行为严重程度归一度量标准L
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为
其中Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现。
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为
4)引入概率模型寻优参数β
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加。本文以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加。符合民航不文明旅客惩处规则的民航背景。
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
本文使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性。使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数。联合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数,本发明为语义相似度和惩处特征相似度进行权重设置,以发挥模型最好的效果。
步骤六:本发明通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在Average Vector(平均词向量算法)、Doc2vec模型、IPS算法、以及本文设计的IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度。最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
图1是本发明的整体模型框架图,本发明针对当前民航不文明旅客扰乱机场危害航空安全的行为,而在之前又无法对不文明旅客从中甄别的现状,提出了一种基于联合相似度的民航旅客不文明等级预测方法,将社会不文明人员与民航不文明旅客的行为记录数据通过数据预处理构建不文明行为规则库,然后对文本进行特征提取和惩处特征的标准化度量,其次将量化后的特征表示输入联合相似度匹配模型,根据匹配结果预测社会不文明人员在从事民航活动过程中发生不文明行为的潜在程度即不文明等级,为航空公司对旅客行为的监控与分析提供有效的决策依据。
为验证本发明的效果,按照前文所述的步骤进行实验验证,实验验证结果如图2-6所示。
步骤一:社会数据和民航数据采集。社会数据来自于法律家、法律图书馆、人民检察院信息公开网、中国裁判文书网的裁判文书数据:包括危害国家安全,危害公共安全,侵犯财产,妨害社会管理秩序四大类共15132条数据。民航数据来自于中国航空运输协会公布的16批民航不文明旅客的行为记录数据,和来自于信用中国公布的民航旅客特定失信人数据2432条。将上述数据清理后作为实验的输入数据集。依据惩处类型及行为影响严重程度将民航数据分为A,B,C,D四类,其行为严重程度随类别梯度的升高(A->D)而增加。
步骤二:文本信息的特征提取。来自民航和社会的不文明信息记录以文本形式存在,为了两者之间的相似性计算,本发明通过word2vec对文本信息进行特征提取。word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制,获得不文明旅客文本记录信息的语义表示。
步骤三:不文明行为记录句子向量表示。民航不文明旅客与社会不文明人员不文明行为通过IPS算法对不文明行为记录对词向量加权求和获得不文明行为的句子向量表示,作为后续模型的输入。IPS算法的具体公式如下:
X←{vs:s∈S}
vs←vs-uuTvs
其中:w代表一个词,vw代表词向量;s代表一条不文明行为记录,S代表数据中不文明行为全集,vs是句子向量,即{vs:s∈S}。p(w)为单词在整个语料库中的频率,其中a为平滑反频率参数。语料库所有的句子向量构成矩阵X,得到X的第一奇异向量u,通过u对原本的vs进行更新获得最终的vs句子向量表示。
步骤四:不文明旅客的惩处特征标准化度量,旅客因其行为情节严重程度划分为不同的等级,不同等级的不文明旅客所占比例不同,根据社会分布规律和真实数据分析,不文明旅客所占比例往往随不文明等级梯度的上升而下降,为符合民航背景需对不文明旅客的惩处特征做标准化度量,使其惩处特征值符合随不文明梯度上升而增加的分布规律。惩处特征的标准化度量方法如下:
其中:∑Ci代表i种处罚类型总数,为所有处罚类型数目之和,Cij为第i种处罚类型j处罚结果,β为优化参数,其寻优分布如图2所示。由图2可知β在(0.025,0.15)之间符合我们的标准,即各类PL值随处罚梯度的上升(A→D)而上升。选取β=0.1,得到优化前后PL值得对比情况如图3所示,可知优化后的惩处特征值PL符合民航背景。
步骤五:基于联合相似度匹配的旅客不文明等级预测,联合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为不文明记录的语义相似度,sim()为惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数。
步骤六:实验结果对比。分别在Average Vector、Doc2vec、IPS算法、以及本文设计的IPBS-IPS联合相似度匹配算法中进行实验对比,如图4-图6所示分别为查准率、召回率、F1值的对比图,图4、图5显示在查准率、召回率上本发明在性能上高出其他算法10%-20%,且图6显示平均F1值在80%以上。这表明本发明所提方法在同等情况下,优于其他匹配算法,预测效果较好。
一种基于联合相似度的民航旅客不文明等级预测系统,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (2)
1.一种基于联合相似度的民航旅客不文明等级预测方法,其特征在于:至少包括如下步骤:
步骤一:数据预处理;
将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分别表示,为后续模型的运算提供数据输入;
步骤二:文本信息的特征提取;
来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
步骤三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示;
步骤四:不文明旅客的惩处特征的度量,具体为:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100);β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
步骤六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
2.一种基于联合相似度的民航旅客不文明等级预测系统,其特征在于,至少包括:
数据预处理模块:将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分别表示,为后续模型的运算提供数据输入;
文本信息的特征提取模块:来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip-gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;
向量表述模块:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客的行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新新的vs向量表示;
不文明旅客的惩处特征的度量模块:
1)引入不文明旅客处罚规则概率P,
在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
2)引入不文明旅客行为严重程度归一度量标准L,
在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;
3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10-4,100);β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e-5作为步长使β在(10-4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;
基于联合相似度匹配的旅客不文明等级预测模块:
使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
约束条件:
α>(1-α),α∈(0,1)
其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;
评估模块:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404740.4A CN110084440B (zh) | 2019-05-15 | 2019-05-15 | 基于联合相似度的民航旅客不文明等级预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404740.4A CN110084440B (zh) | 2019-05-15 | 2019-05-15 | 基于联合相似度的民航旅客不文明等级预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084440A CN110084440A (zh) | 2019-08-02 |
CN110084440B true CN110084440B (zh) | 2022-12-23 |
Family
ID=67420447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910404740.4A Active CN110084440B (zh) | 2019-05-15 | 2019-05-15 | 基于联合相似度的民航旅客不文明等级预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084440B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342968A (zh) * | 2021-05-21 | 2021-09-03 | 中国石油天然气股份有限公司 | 文本摘要提取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
-
2019
- 2019-05-15 CN CN201910404740.4A patent/CN110084440B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
Non-Patent Citations (2)
Title |
---|
Flocking of Heterogeneous Multi-agent with Time Delay and Nonlinear Inner-Coupling Functions;Jianli Ding 等;《Spring》;20181006;全文 * |
基于网络文本的我国游客不文明行为分析研究;焦念涛 等;《西安建筑科技大学学报(社会科学版)》;20160630;第35卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110084440A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN109918505B (zh) | 一种基于文本处理的网络安全事件可视化方法 | |
CN110675023B (zh) | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
Dong et al. | Identifying incident causal factors to improve aviation transportation safety: Proposing a deep learning approach | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
Ikram et al. | Arabic text classification in the legal domain | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
Pandur et al. | Topic modelling in social sciences: Case study of web of science | |
CN110084440B (zh) | 基于联合相似度的民航旅客不文明等级预测方法及系统 | |
Chi et al. | Establish a patent risk prediction model for emerging technologies using deep learning and data augmentation | |
Li | A classification retrieval approach for English legal texts | |
Li et al. | An event ontology construction approach to web crime mining | |
Jing et al. | GeoGAT: Graph model based on attention mechanism for geographic text classification | |
Li et al. | Evaluating the rationality of judicial decision with LSTM-based case modeling | |
Gapanyuk et al. | Architecture and Implementation of an Intelligent News Analysis System. | |
Fu et al. | Prediction of hot topics of agricultural public opinion based on attention mechanism LSTM model | |
Devi et al. | Extended correlated principal component analysis with SVM-PUK in opinion mining | |
Chen et al. | Research on Knowledge Graph Modeling Method for Financial Audit of Power Grid Enterprises | |
Qing-chao et al. | Research on Small Sample Text Classification Based on Attribute Extraction and Data Augmentation | |
Aqilla et al. | Word2vec Architecture in Sentiment Classification of Fuel Price Increase Using CNN-BiLSTM Method | |
Huang et al. | A Malicious Domain Detection Model Based on Improved Deep Learning | |
Martyshkin et al. | A method for identifying potential internal violators based on the analysis of the tone of messages from users of social networks | |
Gupta et al. | Machine Learning based Sentiment Analysis of Hindi Data with TF-IDF and Count Vectorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |