CN111340261A - 判定订单违规行为的方法、系统、计算机设备及存储介质 - Google Patents

判定订单违规行为的方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN111340261A
CN111340261A CN201811468658.XA CN201811468658A CN111340261A CN 111340261 A CN111340261 A CN 111340261A CN 201811468658 A CN201811468658 A CN 201811468658A CN 111340261 A CN111340261 A CN 111340261A
Authority
CN
China
Prior art keywords
classifier
data
violation
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811468658.XA
Other languages
English (en)
Other versions
CN111340261B (zh
Inventor
徐海洋
洪婉玲
李晓辉
贺利强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811468658.XA priority Critical patent/CN111340261B/zh
Publication of CN111340261A publication Critical patent/CN111340261A/zh
Application granted granted Critical
Publication of CN111340261B publication Critical patent/CN111340261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例提出了一种判定订单违规行为的方法、系统、计算机设备及存储介质,方法包括:采集并对司乘样本数据进行标记得到违规行为数据样本和非违规行为数据样本;对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及进行任务规则特征提取得到第二特征数据;训练第一特征数据和第二特征数据,得到第一分类器和第二分类器;通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对分类器进行训练更新;采集目标司乘数据,利用两个分类器对目标司乘数据分类得到第一分类结果和第二分类结果,若两个分类结果相同则确定目标司乘数据对应的订单存在违规行为。

Description

判定订单违规行为的方法、系统、计算机设备及存储介质
技术领域
本公开实施例涉及数据处理技术领域,具体而言,涉及一种判定订单违规行为的方法、系统、计算机设备及存储介质。
背景技术
随着城市交通的飞速发展和交通工具的日益丰富,人们对出行的便捷和安全性要求更高。网约车成为人们出行的重要选择之一,然而在网约车市场下存在一些司乘(司机和乘客)的违规行为,例如:司机利用打车软件,接单后进行的私下现金交易;司机的暴力行为;乘客的恶意下单;乘客的订单信息与实际路线严重不符等行为。因此,为了保护司机和乘客的权益以及乘车安全,对于司乘的行为监督显得尤为重要。
发明内容
本公开实施例旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本公开实施例的一个方面在于提出了一种判定订单违规行为的方法。
本公开实施例的另一个方面在于提出了一种判定订单违规行为的系统。
本公开实施例的再一个方面在于提出了一种计算机设备。
本公开实施例的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本公开实施例的一个方面,提出了一种判定订单违规行为的方法,方法包括:采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;训练第一特征数据和第二特征数据,得到第一分类器和第二分类器;通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对第一分类器和第二分类器进行训练更新;采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
本公开实施例提供的判定订单违规行为的方法,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
根据本公开实施例的上述判定订单违规行为的方法,还可以具有以下技术特征:
在上述技术方案中,优选地,训练第一特征数据和第二特征数据,得到第一分类器和第二分类器,具体包括:通过卷积神经网络模型对第一特征数据和第二特征数据进行训练,分别得到第一分类器和第二分类器。
在该技术方案中,选择卷积神经网络模型作为基分类器,在基分类器的基础上进行第一特征数据和第二特征数据的训练,得到第一分类器和第二分类器,提高识别违规行为的速度和准确性。
在上述任一技术方案中,优选地,通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对第一分类器和第二分类器进行训练更新的步骤,具体包括:通过第一分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过第二分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;将第一测试数据样本添加至第二分类器,将第二测试数据样本添加至第一分类器,并对第一分类器和第二分类器进行训练更新,直至第一分类器和第二分类器均达到收敛条件。
在该技术方案中,在非违规行为数据样本中,分别通过第一分类器和第二分类器判定非违规行为数据样本的置信度(样本的真实值落在预设置信区间的概率,即样本的真实性程度),筛选出置信度高的非违规行为数据样本;第一分类器和第二分类器分别将置信度高的非违规行为数据样本赋予伪标记作为测试样本,并将测试样本提供给另一个分类器,即第一分类器将伪标记样本提供给第二分类器,第二分类器将伪标记样本提供给第一分类器,实现了将非违规行为数据样本加入到违规行为数据样本中去。将新增数据样本用于模型的训练迭代更新,直到分类器收敛。
在上述任一技术方案中,优选地,收敛条件包括以下一种或其组合:无第一测试数据样本及第二测试数据样本、第一分类器和第二分类器的分类正确率达到预设正确值、对第一分类器和第二分类器的训练更新次数达到预设次数。
在该技术方案中,判断分类器是否收敛的条件可以为非违规行为数据样本中最后无高置信度的样本,即无第一测试数据样本及第二测试数据样本;对分类器的分类结果进行测试,当分类器的分类结果正确率达到了预设阈值则确定已收敛;循环更新的次数达到最大次数等,获取到收敛的分类器以确保对司乘的订单违规行为的精确识别。
在上述任一技术方案中,优选地,第一特征数据与第二特征数据相互独立。
在该技术方案中,co-training算法要求从同一数据样本中可以提取出两个不同的特征,且提取的不同特征之间应该是条件独立的。例如,本公开实施例中对于违规行为数据样本,基于文本数据提取的特征和基于设定的相关规则提取的特征之间相互独立。
根据本公开实施例的另一个方面,提出了一种判定订单违规行为的系统,系统包括:标记单元,用于采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;提取单元,用于对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;训练单元,用于训练第一特征数据和第二特征数据,得到第一分类器和第二分类器;以及通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对第一分类器和第二分类器进行训练更新;判定单元,用于采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
本公开实施例提供的判定订单违规行为的系统,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
根据本公开实施例的上述判定订单违规行为的系统,还可以具有以下技术特征:
在上述技术方案中,优选地,训练单元,具体用于通过卷积神经网络模型对第一特征数据和第二特征数据进行训练,分别得到第一分类器和第二分类器。
在该技术方案中,选择卷积神经网络模型作为基分类器,在基分类器的基础上进行第一特征数据和第二特征数据的训练,得到第一分类器和第二分类器,提高识别违规行为的速度和准确性。
在上述任一技术方案中,优选地,训练单元,包括:筛选单元,用于通过第一分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过第二分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;添加单元,用于将第一测试数据样本添加至第二分类器,将第二测试数据样本添加至第一分类器;训练单元,具体用于对第一分类器和第二分类器进行训练更新,直至第一分类器和第二分类器均达到收敛条件。
在该技术方案中,在非违规行为数据样本中,分别通过第一分类器和第二分类器判定非违规行为数据样本的置信度(样本的真实值落在预设置信区间的概率,即样本的真实性程度),筛选出置信度高的非违规行为数据样本;第一分类器和第二分类器分别将置信度高的非违规行为数据样本赋予伪标记作为测试样本,并将测试样本提供给另一个分类器,即第一分类器将伪标记样本提供给第二分类器,第二分类器将伪标记样本提供给第一分类器,实现了将非违规行为数据样本加入到违规行为数据样本中去。将新增数据样本用于模型的训练迭代更新,直到分类器收敛。
在上述任一技术方案中,优选地,收敛条件包括以下一种或其组合:无第一测试数据样本及第二测试数据样本、第一分类器和第二分类器的分类正确率达到预设正确值、对第一分类器和第二分类器的训练更新次数达到预设次数。
在该技术方案中,判断分类器是否收敛的条件可以为非违规行为数据样本中最后无高置信度的样本,即无第一测试数据样本及第二测试数据样本;对分类器的分类结果进行测试,当分类器的分类结果正确率达到了预设阈值则确定已收敛;循环更新的次数达到最大次数等,获取到收敛的分类器以确保对司乘的订单违规行为的精确识别。
在上述任一技术方案中,优选地,第一特征数据与第二特征数据相互独立。
在该技术方案中,co-training算法要求从同一数据样本中可以提取出两个不同的特征,且提取的不同特征之间应该是条件独立的。例如,本公开实施例中对于违规行为数据样本,基于文本数据提取的特征和基于设定的相关规则提取的特征之间相互独立。
根据本公开实施例的再一个方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的判定订单违规行为的方法的步骤。
本公开实施例提供的计算机设备,处理器执行计算机程序时实现采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
根据本公开实施例的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的判定订单违规行为的方法的步骤。
本公开实施例提供的计算机可读存储介质,计算机程序被处理器执行时实现采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
本公开实施例的附加方面和优点将在下面的描述部分中变得明显,或通过本公开实施例的实践了解到。
附图说明
本公开实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本公开实施例的一个实施例的判定订单违规行为的方法的流程示意图;
图2示出了本公开实施例的另一个实施例的判定订单违规行为的方法的流程示意图;
图3示出了本公开实施例的一个实施例的判定订单违规行为的系统的示意框图;
图4示出了本公开实施例的另一个实施例的判定订单违规行为的系统的示意框图;
图5示出了本公开实施例的一个实施例的计算机设备的示意框图。
具体实施方式
为了能够更清楚地理解本公开实施例的上述目的、特征和优点,下面结合附图和具体实施方式对本公开实施例进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开实施例,但是,本公开实施例还可以采用其他不同于在此描述的其他方式来实施,因此,本公开实施例的保护范围并不限于下面公开的具体实施例的限制。
本公开实施例第一方面的实施例,提出一种判定订单违规行为的方法,图1示出了本公开实施例的一个实施例的判定订单违规行为的方法的流程示意图。其中,该方法包括:
步骤102,采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
步骤104,对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;
步骤106,训练第一特征数据和第二特征数据,得到第一分类器和第二分类器;
步骤108,通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对第一分类器和第二分类器进行训练更新;
步骤110,采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
本公开实施例提供的判定订单违规行为的方法,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
图2示出了本公开实施例的另一个实施例的判定订单违规行为的方法的流程示意图。其中,该方法包括:
步骤202,采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
步骤204,对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;
步骤206,通过卷积神经网络模型对第一特征数据和第二特征数据进行训练,分别得到第一分类器和第二分类器;
步骤208,通过第一分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过第二分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;
步骤210,将第一测试数据样本添加至第二分类器,将第二测试数据样本添加至第一分类器,并对第一分类器和第二分类器进行训练更新,直至第一分类器和第二分类器均达到收敛条件;
步骤212,采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
在该实施例中,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取,得到第一特征数据和第二特征数据。选择卷积神经网络模型作为基分类器,在基分类器的基础上进行第一特征数据和第二特征数据的训练,得到第一分类器和第二分类器,提高识别违规行为的速度和准确性。
在非违规行为数据样本中,分别通过第一分类器和第二分类器判定非违规行为数据样本的置信度(样本的真实值落在预设置信区间的概率,即样本的真实性程度),筛选出置信度高的非违规行为数据样本;第一分类器和第二分类器分别将置信度高的非违规行为数据样本赋予伪标记作为测试样本,并将测试样本提供给另一个分类器,即第一分类器将伪标记样本提供给第二分类器,第二分类器将伪标记样本提供给第一分类器,实现了将非违规行为数据样本加入到违规行为数据样本中去。将新增数据样本用于模型的训练迭代更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。
在本公开实施例的一个实施例中,优选地,收敛条件包括以下一种或其组合:无第一测试数据样本及第二测试数据样本、第一分类器和第二分类器的分类正确率达到预设正确值、对第一分类器和第二分类器的训练更新次数达到预设次数。
在该实施例中,判断分类器是否收敛的条件可以为非违规行为数据样本中最后无高置信度的样本,即无第一测试数据样本及第二测试数据样本;对分类器的分类结果进行测试,当分类器的分类结果正确率达到了预设阈值则确定已收敛;循环更新的次数达到最大次数等,获取到收敛的分类器以确保对司乘的订单违规行为的精确识别。
在本公开实施例的一个实施例中,优选地,第一特征数据与第二特征数据相互独立。
在该实施例中,co-training算法要求从同一数据样本中可以提取出两个不同的特征,且提取的不同特征之间应该是条件独立的。例如,本公开实施例中对于违规行为数据样本,基于文本数据提取的特征和基于设定的相关规则提取的特征之间相互独立。
具体实施例中,通过对司机和乘客的对话数据(包括文本数据和语音数据)进行分析,采用co-training的半监督学习方法,设计基于特定任务的规则和文本本身两个视图,并选择卷积神经网络作为基分类器,构建训练模型,并输出分类结果。示例性过程如下:
1.获取司乘的原始数据:
在司机与乘客的订单执行过程中,记录司机与乘客的对话数据。该对话数据包括网约车软件上的文本对话内容、语音对话内容、司机与乘客的电话沟通录音内容等。例如,在网约车软件中,可以记录乘客与司机的对话沟通内容,分析其中是否存在一些敏感词汇,例如,私下交易之类的词汇、暴力、恐吓之类的词汇、违法行为之类的词汇等。对司机和乘客通过网约车软件拨通的电话对话内容,进行录音记录,并对录音内容进行识别分析。
2.数据预处理:
对于司乘的原始对话数据进行标记处理,分析当前数据,判断司乘是否存在违规行为,并做上相应标记。例如,对于存在违规行为的数据样本打上labeled标记,对于不存在违规行为的数据样本打上unlabeled标记。
在一些实施例中,数据预处理还可以包括对原始对话数据进行去噪、筛选、过滤等操作。
3.分别进行文本信息特征提取和设定规则特征提取:
(1)对labeled数据进行机器特征提取,得到机器特征向量。例如,对labeled数据进行embedding(嵌入)处理,得到对应的向量数据。
(2)基于人工设定的规则,来提取相关的数据特征,得到人工特征向量。例如,针对特定任务,设定相应的规则。针对司乘分析的特定问题,设定相关的规则,通过分析司乘的labeled数据,提取判定司乘行为是否规范的特征(如:数据中是否存在一些敏感词汇等)。
4.基于卷积神经网络进行模型训练,得到第一分类器和第二分类器:
(1)基于卷积神经网络,将通过文本信息提取的机器特征向量输入到预设模型(卷积神经网络模型)中,进行训练,模型学习输出第一分类器。
(2)基于卷积神经网络,将通过人工设定规则提取的人工特征向量输入到预设模型中,进行训练,模型学习输出第二分类器。
5.基于co-training算法,迭代更新分类器模型:
(1)在unlabeled样本中,通过第一分类器和第二分类器判定unlabeled样本的置信度(样本的真实值落在预设置信区间的概率,即样本的真实性程度),筛选出置信度高的样本。
(2)第一分类器和第二分类器分别将置信度高的unlabeled样本(测试样本)赋予伪标记,并将伪标记样本提供给另一个分类器(第一分类器将伪标记样本提供给第二分类器,第二分类器将伪标记样本提供给第一分类器),实现了将unlabeled的样本加入到labeled样本中去。
(3)将新增的有标记样本(新加入到labeled样本中的样本)用于分类器模型的训练更新。
(4)重复上述步骤,迭代更新直到分类器模型收敛,分类器模型的收敛条件包括:unlabeled样本集中最后无高置信度的样本;分类器模型的分类正确率达到了预设阈值;或者循环达到最大次数等。
co-Training算法可以利用小规模的labeled样本(训练样本),对大规模的unlabeled样本(测试样本)进行标注分类。它的主要思想是:每次循环,从labeled样本中训练出两个不同的分类器f1和f2,然后用这两个分类器对unlabeled样本中数据进行分类,然后把可信度最高的n个数据加入到labeled样本中。例如unlabeled样本中,文本本身视图A类和基于特定任务的规则的视图B类数据量比是1:2,那就可以每次从A类里面选1个,B类里面选2个加入labeled样本,继续循环直到unlabeled样本中没有数据或者达到循环最大次数。
co-training算法要求从同一数据样本中可以提取出两个不同的特征,且提取的不同特征之间应该是条件独立的。例如,本公开实施例中对于labeled样本数据集(数据量较小),基于文本数据提取的特征和基于设定规则提取的特征之间相互独立。然后针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对unlabeled的样本数据集(数据量较大)进行分类,将可信度最高的unlabeled样本数据加入到labeled样本数据集中,利用新加入labeled样本数据集中的数据对分类器模型进行训练更新直到模型收敛。
进一步地将新的司乘对话数据进行数据处理后,直接输入分类器模型,得到分类结果,根据分类结果判断司机或者乘客是否存在违规行为。
本公开实施例第二方面的实施例,提出一种判定订单违规行为的系统,
图3示出了本公开实施例的一个实施例的判定订单违规行为的系统300的示意框图。其中,该系统300包括:
标记单元302,用于采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
提取单元304,用于对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;
训练单元306,用于训练第一特征数据和第二特征数据,得到第一分类器和第二分类器;以及通过第一分类器和第二分类器对非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对第一分类器和第二分类器进行训练更新;
判定单元308,用于采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
本公开实施例提供的判定订单违规行为的系统300,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
图4示出了本公开实施例的另一个实施例的判定订单违规行为的系统400的示意框图。其中,该系统400包括:
标记单元402,用于采集司乘样本数据,并对司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
提取单元404,用于对违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对违规行为数据样本进行任务规则特征提取得到第二特征数据;
训练单元406,用于通过卷积神经网络模型对第一特征数据和第二特征数据进行训练,分别得到第一分类器和第二分类器;
训练单元406包括:筛选单元462,用于通过第一分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过第二分类器对非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;添加单元464,用于将第一测试数据样本添加至第二分类器,将第二测试数据样本添加至第一分类器;
训练单元406,具体用于对第一分类器和第二分类器进行训练更新,直至第一分类器和第二分类器均达到收敛条件。
判定单元408,用于采集目标司乘数据,分别利用第一分类器和第二分类器对目标司乘数据进行分类得到第一分类结果和第二分类结果,若第一分类结果和第二分类结果相同,则确定目标司乘数据对应的订单存在违规行为。
在该实施例中,采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取,得到第一特征数据和第二特征数据。选择卷积神经网络模型作为基分类器,在基分类器的基础上进行第一特征数据和第二特征数据的训练,得到第一分类器和第二分类器,提高识别违规行为的速度和准确性。
在非违规行为数据样本中,分别通过第一分类器和第二分类器判定非违规行为数据样本的置信度(样本的真实值落在预设置信区间的概率,即样本的真实性程度),筛选出置信度高的非违规行为数据样本;第一分类器和第二分类器分别将置信度高的非违规行为数据样本赋予伪标记作为测试样本,并将测试样本提供给另一个分类器,即第一分类器将伪标记样本提供给第二分类器,第二分类器将伪标记样本提供给第一分类器,实现了将非违规行为数据样本加入到违规行为数据样本中去。将新增数据样本用于模型的训练迭代更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。
在本公开实施例的一个实施例中,优选地,收敛条件包括以下一种或其组合:无第一测试数据样本及第二测试数据样本、第一分类器和第二分类器的分类正确率达到预设正确值、对第一分类器和第二分类器的训练更新次数达到预设次数。
在该实施例中,判断分类器是否收敛的条件可以为非违规行为数据样本中最后无高置信度的样本,即无第一测试数据样本及第二测试数据样本;对分类器的分类结果进行测试,当分类器的分类结果正确率达到了预设阈值则确定已收敛;循环更新的次数达到最大次数等,获取到收敛的分类器以确保对司乘的订单违规行为的精确识别。
在本公开实施例的一个实施例中,优选地,第一特征数据与第二特征数据相互独立。
在该实施例中,co-training算法要求从同一数据样本中可以提取出两个不同的特征,且提取的不同特征之间应该是条件独立的。例如,本公开实施例中对于违规行为数据样本,基于文本数据提取的特征和基于设定的相关规则提取的特征之间相互独立。
本公开实施例第三方面的实施例,提出一种计算机设备,图5示出了本公开实施例的一个实施例的计算机设备500的示意框图。其中,该计算机设备500包括:
存储器502、处理器504及存储在存储器502上并可在处理器504上运行的计算机程序,处理器504执行计算机程序时实现如上述任一项的判定订单违规行为的方法的步骤。
本公开实施例提供的计算机设备500,处理器504执行计算机程序时实现采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
本公开实施例第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的判定订单违规行为的方法的步骤。
本公开实施例提供的计算机可读存储介质,计算机程序被处理器执行时实现采集司乘样本数据,例如记录司机与乘客的对话数据,分析司乘样本数据,初步判断是否违规,并做上相应标记,例如对于存在违规行为的样本数据打上标记,区分出违规行为数据样本和非违规行为数据样本。采用co-training的半监督学习方法构建训练分类器,具体为分别对违规行为数据样本进行基于文本数据特征提取和基于设定的相关规则特征提取。进一步地针对这两个不同的特征数据,分别训练出两个不同的分类器,再利用这两个不同的分类器对非违规行为数据样本进行分类,进而对分类器模型进行训练更新,直到分类器收敛。进一步地通过分类器判断目标司乘数据是否为存在违规行为,并在存在违规行为时发出提示。本公开实施例可以有效地缓解标注数据稀少以及类别不平衡的问题,提高了判定结果的准确性。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本公开实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本公开实施例的优选实施例而已,并不用于限制本公开实施例,对于本领域的技术人员来说,本公开实施例可以有各种更改和变化。凡在本公开实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开实施例的保护范围之内。

Claims (12)

1.一种判定订单违规行为的方法,其特征在于,所述方法包括:
采集司乘样本数据,并对所述司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
对所述违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对所述违规行为数据样本进行任务规则特征提取得到第二特征数据;
训练所述第一特征数据和所述第二特征数据,得到第一分类器和第二分类器;
通过所述第一分类器和所述第二分类器对所述非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对所述第一分类器和所述第二分类器进行训练更新;
采集目标司乘数据,分别利用所述第一分类器和所述第二分类器对所述目标司乘数据进行分类得到第一分类结果和第二分类结果,若所述第一分类结果和所述第二分类结果相同,则确定所述目标司乘数据对应的订单存在违规行为。
2.根据权利要求1所述的判定订单违规行为的方法,其特征在于,所述训练所述第一特征数据和所述第二特征数据,得到第一分类器和第二分类器,具体包括:
通过卷积神经网络模型对所述第一特征数据和所述第二特征数据进行训练,分别得到所述第一分类器和所述第二分类器。
3.根据权利要求1所述的判定订单违规行为的方法,其特征在于,所述通过所述第一分类器和所述第二分类器对所述非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对所述第一分类器和所述第二分类器进行训练更新的步骤,具体包括:
通过所述第一分类器对所述非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过所述第二分类器对所述非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;
将所述第一测试数据样本添加至所述第二分类器,将所述第二测试数据样本添加至所述第一分类器,并对所述第一分类器和所述第二分类器进行训练更新,直至所述第一分类器和所述第二分类器均达到收敛条件。
4.根据权利要求3所述的判定订单违规行为的方法,其特征在于,
所述收敛条件包括以下一种或其组合:无所述第一测试数据样本及所述第二测试数据样本、所述第一分类器和所述第二分类器的分类正确率达到预设正确值、对所述第一分类器和所述第二分类器的训练更新次数达到预设次数。
5.根据权利要求1至4中任一项所述的判定订单违规行为的方法,其特征在于,所述第一特征数据与所述第二特征数据相互独立。
6.一种判定订单违规行为的系统,其特征在于,所述系统包括:
标记单元,用于采集司乘样本数据,并对所述司乘样本数据进行标记,得到违规行为数据样本和非违规行为数据样本;
提取单元,用于对所述违规行为数据样本进行文本信息特征提取得到第一特征数据,以及对所述违规行为数据样本进行任务规则特征提取得到第二特征数据;
训练单元,用于训练所述第一特征数据和所述第二特征数据,得到第一分类器和第二分类器;以及通过所述第一分类器和所述第二分类器对所述非违规行为数据样本进行置信度判定,利用置信度大于预设阈值的非违规行为数据样本分别对所述第一分类器和所述第二分类器进行训练更新;
判定单元,用于采集目标司乘数据,分别利用所述第一分类器和所述第二分类器对所述目标司乘数据进行分类得到第一分类结果和第二分类结果,若所述第一分类结果和所述第二分类结果相同,则确定所述目标司乘数据对应的订单存在违规行为。
7.根据权利要求6所述的判定订单违规行为的系统,其特征在于,
所述训练单元,具体用于通过卷积神经网络模型对所述第一特征数据和所述第二特征数据进行训练,分别得到所述第一分类器和所述第二分类器。
8.根据权利要求6所述的判定订单违规行为的系统,其特征在于,所述训练单元,包括:
筛选单元,用于通过所述第一分类器对所述非违规行为数据样本进行置信度判定,筛选出置信度高于第一预设阈值的非违规行为数据样本作为第一测试数据样本,以及通过所述第二分类器对所述非违规行为数据样本进行置信度判定,筛选出置信度高于第二预设阈值的非违规行为数据样本作为第二测试数据样本;
添加单元,用于将所述第一测试数据样本添加至所述第二分类器,将所述第二测试数据样本添加至所述第一分类器;
所述训练单元,具体用于对所述第一分类器和所述第二分类器进行训练更新,直至所述第一分类器和所述第二分类器均达到收敛条件。
9.根据权利要求8所述的判定订单违规行为的系统,其特征在于,
所述收敛条件包括以下一种或其组合:无所述第一测试数据样本及所述第二测试数据样本、所述第一分类器和所述第二分类器的分类正确率达到预设正确值、对所述第一分类器和所述第二分类器的训练更新次数达到预设次数。
10.根据权利要求6至9中任一项所述的判定订单违规行为的系统,其特征在于,所述第一特征数据与所述第二特征数据相互独立。
11.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的判定订单违规行为的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的判定订单违规行为的方法的步骤。
CN201811468658.XA 2018-12-03 2018-12-03 判定订单违规行为的方法、系统、计算机设备及存储介质 Active CN111340261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811468658.XA CN111340261B (zh) 2018-12-03 2018-12-03 判定订单违规行为的方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811468658.XA CN111340261B (zh) 2018-12-03 2018-12-03 判定订单违规行为的方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111340261A true CN111340261A (zh) 2020-06-26
CN111340261B CN111340261B (zh) 2023-07-18

Family

ID=71185234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811468658.XA Active CN111340261B (zh) 2018-12-03 2018-12-03 判定订单违规行为的方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111340261B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360204A (zh) * 2022-03-21 2022-04-15 天津市职业大学 一种基于区块链的网联汽车信息安全通信系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
US20130336538A1 (en) * 2012-06-19 2013-12-19 Xerox Corporation Occupancy detection for managed lane enforcement based on localization and classification of windshield images
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测系统及方法
CN106683073A (zh) * 2015-11-11 2017-05-17 杭州海康威视数字技术股份有限公司 一种车牌的检测方法及摄像机和服务器
US20170140300A1 (en) * 2015-11-18 2017-05-18 Honda Motor Co., Ltd. Classification apparatus, robot, and classification method
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN107730314A (zh) * 2017-10-11 2018-02-23 北京小度信息科技有限公司 信息获取方法、装置、电子设备和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
US20130336538A1 (en) * 2012-06-19 2013-12-19 Xerox Corporation Occupancy detection for managed lane enforcement based on localization and classification of windshield images
CN106683073A (zh) * 2015-11-11 2017-05-17 杭州海康威视数字技术股份有限公司 一种车牌的检测方法及摄像机和服务器
US20170140300A1 (en) * 2015-11-18 2017-05-18 Honda Motor Co., Ltd. Classification apparatus, robot, and classification method
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测系统及方法
CN107730314A (zh) * 2017-10-11 2018-02-23 北京小度信息科技有限公司 信息获取方法、装置、电子设备和计算机可读存储介质
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360204A (zh) * 2022-03-21 2022-04-15 天津市职业大学 一种基于区块链的网联汽车信息安全通信系统

Also Published As

Publication number Publication date
CN111340261B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN109194612B (zh) 一种基于深度置信网络和svm的网络攻击检测方法
CN110969130B (zh) 一种基于yolov3司机危险动作识别方法及系统
CN106960154A (zh) 一种基于决策树模型的恶意程序动态识别方法
CN106295541A (zh) 车辆类型识别方法及系统
CN108280542A (zh) 一种用户画像模型的优化方法、介质以及设备
CN109934255A (zh) 一种适用于饮料瓶回收机投递物分类识别的模型融合方法
CN108769104B (zh) 一种基于车载诊断系统数据的路况分析预警方法
CN107145778B (zh) 一种入侵检测方法及装置
CN109903053B (zh) 一种基于传感器数据进行行为识别的反欺诈方法
CN111626367A (zh) 对抗样本检测方法、装置、设备及计算机可读存储介质
CN112733146B (zh) 基于机器学习的渗透测试方法、装置、设备及存储介质
CN106503710A (zh) 一种车标识别方法及装置
CN107229614A (zh) 用于分类数据的方法和装置
CN110738080A (zh) 一种识别改装机动车的方法、装置和电子设备
CN107291774A (zh) 错误样本识别方法和装置
CN111340261B (zh) 判定订单违规行为的方法、系统、计算机设备及存储介质
CN111126112B (zh) 候选区域确定方法和装置
CN114419584A (zh) 一种改进的非极大值抑制YOLOv4交通标志识别定位方法
CN110301892A (zh) 一种基于静脉识别的检测方法及相关产品
CN115688107B (zh) 一种涉诈app检测系统和方法
CN108900538B (zh) 一种工控信号检测方法和装置
CN111784360A (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
Erdelić et al. Classification of travel modes using streaming GNSS data
CN113379169B (zh) 信息处理方法、装置、设备及介质
CN111552970B (zh) 基于三位一体综合画像的恶意代码检测及恶意性定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant