CN115017399B - 一种网约车车型自动推荐方法和装置 - Google Patents

一种网约车车型自动推荐方法和装置 Download PDF

Info

Publication number
CN115017399B
CN115017399B CN202111308999.2A CN202111308999A CN115017399B CN 115017399 B CN115017399 B CN 115017399B CN 202111308999 A CN202111308999 A CN 202111308999A CN 115017399 B CN115017399 B CN 115017399B
Authority
CN
China
Prior art keywords
user
vehicle type
learning model
text
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111308999.2A
Other languages
English (en)
Other versions
CN115017399A (zh
Inventor
丁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202111308999.2A priority Critical patent/CN115017399B/zh
Publication of CN115017399A publication Critical patent/CN115017399A/zh
Application granted granted Critical
Publication of CN115017399B publication Critical patent/CN115017399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请实施例提供一种网约车车型自动推荐方法和装置,涉及终端领域,能够为用户提供准确的网约车的车型选择,提高用户体验。其方法为:响应于用户输入起点和终点以及选中打车选项的操作,显示车型选择界面;对车型选择页面进行截图;基于OCR模型、第一深度学习模型和第二深度学习模型对车型选择界面的截图包含的信息进行处理,从而得到车型选择界面中各种车型对应的价格、接驾时间、复选框的中心坐标、复选框是否被用户选中等信息在内的全部打车相关信息;再根据打车相关信息和用户数据生成推荐车型,最后选中推荐车型的复选框。

Description

一种网约车车型自动推荐方法和装置
技术领域
本申请涉及终端领域,尤其涉及一种网约车车型自动推荐方法和装置。
背景技术
网约车是移动互联网辅助下的一种非常便利的出行方式。用户可以在电子设备(例如,手机)上安装网约车应用(application,APP)。在网约车APP中,通常存在不同价格、不同车型的网约车。用户可以根据自己的需求手动选择相应的网约车。
但是,用户在网约车APP中手动选择车型的过程繁琐且耗时,因此如何在终端侧自动为用户提供准确的车型选择成为亟待解决的问题。
发明内容
本申请提供一种网约车车型自动推荐方法和装置,能够为用户提供准确的网约车的车型选择,提高用户体验。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种网约车车型自动推荐方法,包括:响应于用户输入起点和终点以及选中打车选项的操作,显示车型选择界面;对车型选择页面进行截图;基于光学字符识别OCR模型获取截图中的文本及文本坐标;将截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将截图切分成多个子图,对多个子图中的每个子图分别进行编码得到图片编码v;将x和v输入第一深度学习模型中,获取第一深度学习模型输出的语义角色标注结果,语义角色标注结果包括打车起点和终点、车型名称、接驾时间和价格中的至少一项;再将x和v以及语义角色标注结果输入第二深度学习模型中,获取第二深度学习模型输出的复选框信息,复选框信息包括车型名称对应的复选框中心坐标以及车型名称对应的复选框是否被选中的信息;根据语义角色标注结果、复选框信息和用户数据生成推荐车型,其中,用户数据包括用户打车的时间、用户输入的起点和终点、用户打车时的天气、用户打车时电子设备的电量、用户的常驻地中的至少一项;根据推荐车型的复选框中心坐标选中推荐车型。
基于本申请实施例提供的方法,检测到用户(乘客)打开网约车页面后,响应于用户输入起点和终点以及选中打车选项的操作,可以显示车型选择界面。进一步的,可以通过多个深度学习模型(例如,OCR模型、第一深度学习模型和第二深度学习模型)对车型选择界面的截图包含的信息进行处理,从而得到车型选择界面中各种车型对应的价格、接驾时间、复选框的中心坐标、复选框是否被用户选中等信息在内的全部打车相关信息。再根据打车相关信息和用户打车的时间、地点(起点和/或终点)、天气、电子设备的电量、用户的常驻地等特征可以自动完成车型选择的操作,能够实现在电子设备端全自动完成用户打车功能,免去用户的思考与点选操作,简化用户操作流程。
在一种可能的设计中,第一深度学习模型的计算流程如公式(1)-(4)所示,
v=(v1,v2,…,vm),x=(x1,x2,…,xn)    (1)
Figure BDA0003341112130000011
(p1,p2,…,pn)=FFN(h)    (3)
Figure BDA0003341112130000012
其中,公式(1)表示第一深度学习模型的输入编码的文本部分x与图像部分v,文本部分x包括n个文本编码,图像部分v包括m个图像编码;公式(2)表示将输入编码x和v输入到Transformer编码器中得到隐藏状态h;公式(3)表示将隐藏状态h的文本部分输入前馈神经网络FFN得到每个文本字符的标签(p1,p2,…,pn);公式(4)表示将px与真实标签y计算交叉熵得到第一深度学习模型的损失。
在一种可能的设计中,第二深度学习模型的计算流程如公式(5)-(17)所示,
x=(x1,x2,…,xn),v=(v1,v2,…,vm)     (5)
Figure BDA0003341112130000021
Figure BDA0003341112130000022
Figure BDA0003341112130000023
lossmatch=CrossEntropy(pmatch,ymatch)(9)
u=v⊙cvis    (10)
Figure BDA0003341112130000024
Figure BDA0003341112130000025
pcord=sig(FFN(g))    (13)
losscord=MSE(pcord,ycord)     (14)
pselect=softmax(FFN(g))      (15)
lossselect=CrossEntropy(pselect,yselect)    (16)
L=lossmatch+losscord+lossselect     (17)
其中,公式(5)表示第二深度学习模型的输入编码的文本部分x与图像部分v,文本部分x包括n个文本编码,图像部分v包括m个图像编码;公式(6)表示将拼接后的输入编码
Figure BDA0003341112130000026
输入到Transformer编码器中,获取模型的隐藏状态编码c,其中,
Figure BDA0003341112130000027
表示向量拼接;公式(7)表示将文本部分编码的所有key实体起始位置字符隐藏状态
Figure BDA0003341112130000028
与Key向量emb(entity)where entity in(key)拼接,将所有Value实体起始位置字符隐藏状态
Figure BDA0003341112130000029
与Value向量emb(entity)where entity in(value)拼接得到
Figure BDA00033411121300000210
Figure BDA00033411121300000211
公式(8)表示将
Figure BDA00033411121300000212
Figure BDA00033411121300000213
到双仿射前馈神经网络BiaffineFNN网络计算匹配概率pmatch;公式(9)表示基于匹配概率pmatch与真实匹配标签计算匹配损失lossmatch;公式(10)表示将图像隐藏状态cvis与输入的图像编码v进行哈达玛积运算,作为残差连接,得到融合残差连接的图像上下文表示u;公式(11)表示将图像上下文表示u的转置矩阵与KV实体向量
Figure BDA00033411121300000214
拼接并进行线性变换(乘W表示线性变换)后的矩阵进行乘法运算,得到矩阵相乘结果后对结果进行softmax运算得到最终的注意力值a;公式(12)表示基于注意力值a计算图像的最终编码表示g;公式(13)与公式(15)表示基于图像编码表示g接入坐标回归任务层与选择预测任务层;如公式(14)与公式(16)表示分别使用均方误差和交叉熵的方式计算最损失losscord和lossselect;公式(17)表示在训练阶段进行损失求和,得到整体损失指导模型更新参数L。
在一种可能的设计中,根据结构化车型数据预测生成推荐车型包括:根据车型数据和用户数据对车型进行优先级排序;选取优先级排序前M的车型作为推荐车型,M为大于或等于1的整数。
在一种可能的设计中,根据车型数据和用户数据对车型进行优先级排序包括:运行第一机器学习模型生成推荐车型,第一机器学习模型是根据众包数据对lamdaMART模型进行训练得到的,众包数据包括服务器从多个电子设备收集得到的网约车的车型选择数据;收集用户对于第一机器学习模型生成的推荐车型的修改结果并生成监督数据;当监督数据的数目大于等于预设阈值时,根据车型数据、用户数据和监督数据对第一机器学习模型进行训练得到第二机器学习模型;运行第二机器学习模型,得到截图中全部车型的优先级排序结果。
第二方面,本申请实施例提供一种路线自动推荐方法,包括:响应于用户输入起点和终点以及选中骑行、步行或驾车选项的操作,显示路线选择界面;对路线选择页面进行截图;基于光学字符识别OCR模型获取路线选择页面中的文本及文本坐标;将截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将截图切分成多个子图,对多个子图中的每个子图分别进行编码得到图片编码v;将x和v输入第一深度学习模型中,获取第一深度学习模型输出的语义角色标注结果,语义角色标注结果包括路线的标识以及路线对应的耗费时间中的至少一项;再将x和v以及语义角色标注结果输入第二深度学习模型中,获取第二深度学习模型输出的复选框信息,复选框信息包括路线的标识对应的复选框中心坐标以及路线的标识对应的复选框是否被选中的信息;根据语义角色标注结果、复选框信息和用户数据生成推荐路线;用户数据包括用户骑行、步行或驾车的时间、用户输入的起点和终点、用户骑行、步行或驾车时的天气、用户骑行、步行或驾车时电子设备的电量、用户的常驻地中的至少一项;根据推荐路线的复选框中心坐标选中推荐路线。
基于本申请实施例提供的方法,响应于用户输入起点和终点以及选中打车选项的操作,可以显示路线选择界面。进一步的,可以通过多个深度学习模型(例如,OCR模型、第一深度学习模型和第二深度学习模型)对路线选择界面的截图包含的信息进行处理,从而得到路线选择界面中各种路线的标识以及路线对应的耗费时间、复选框的中心坐标、复选框是否被用户选中等信息在内的全部路线相关信息。再根据路线相关信息和用户骑行、步行或驾车的时间、地点(起点和/或终点)、天气、电子设备的电量、用户的常驻地等特征可以自动完成路线选择的操作,能够实现在电子设备端全自动完成用户路线选择功能,免去用户的思考与点选操作,简化用户操作流程。
第三方面,本申请实施例提供一种影院座位自动推荐方法,包括:响应于用户选中电影院和电影的操作,显示影院座位选择界面;对影院座位选择页面进行截图;基于光学字符识别OCR模型获取影院座位选择页面中的文本及文本坐标;根据文本与截图获取影院座位数据,影院座位数据包括影院座位的座位号,以及影院座位对应的复选框中心坐标、以及复选框是否被选中的至少一种;将截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将截图切分成多个子图,对多个子图中的每个子图分别进行编码得到图片编码v;将x和v输入第一深度学习模型中,获取第一深度学习模型输出的语义角色标注结果,语义角色标注结果包括影院座位的座位号;再将x和v以及语义角色标注结果输入第二深度学习模型中,获取第二深度学习模型输出的复选框信息,复选框信息包括影院座位的座位号对应的复选框中心坐标以及影院座位的座位号对应的复选框是否被选中的信息;根据语义角色标注结果、复选框信息和用户数据生成推荐影院座位;其中,用户数据包括用户选座的时间、用户输入的影院的地点、名称、用户选座时电子设备的电量中的至少一项;根据推荐影院座位的复选框中心坐标选中推荐影院座位。
基于本申请实施例提供的方法,响应于用户输入起点和终点以及选中电影院和电影的操作,可以显示影院座位选择界面。进一步的,可以通过多个深度学习模型(例如,OCR模型、第一深度学习模型和第二深度学习模型)对影院座位选择界面的截图包含的信息进行处理,从而得到影院座位选择界面中影院座位的座位号,以及影院座位对应的复选框中心坐标、以及复选框等信息在内的全部选座相关信息。再根据选座相关信息和用户选座的时间、用户输入的影院的地点、名称、用户选座时电子设备的电量等特征可以自动完成选座操作,能够实现在电子设备端全自动完成选座功能,免去用户的思考与点选操作,简化用户操作流程。
第四方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面-第三方面及其任一种可能的设计方式所述的方法。
第五方面,本申请实施例提供了一种数据的处理装置,包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面-第三方面及其任一种可能的设计方式所述的方法。所述装置可以为电子设备或服务器设备;或可以为电子设备或服务器设备中的一个组成部分,如芯片。
第六方面,本申请实施例提供了一种数据的处理装置,所述装置可以按照功能划分为不同的逻辑单元或模块,各单元或模块执行不同的功能,以使得所述装置执行上述第一方面-第三方面及其任一种可能的设计方式所述的方法。
第七方面,本申请提供一种芯片系统,该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。上述芯片系统可以应用于包括通信模块和存储器的电子设备。该接口电路用于从电子设备的存储器接收信号,并向处理器发送接收到的信号,该信号包括存储器中存储的计算机指令。当处理器执行该计算机指令时,电子设备可以执行如第一方面-第三方面及其任一种可能的设计方式所述的方法。
第八方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。当计算机指令在电子设备(如手机)上运行时,使得该电子设备执行如第一方面-第三方面及其任一种可能的设计方式所述的方法。
可以理解地,上述提供的第四方面所述的计算机程序产品及第五方面、第六方面所述的装置、第七方面所述的芯片系统及第八方面所述的计算机可读存储介质所能达到的有益效果,可参考如第一方面-第三方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
基于本申请实施例提供的方法,检测到用户(乘客)打开网约车页面后,响应于用户输入起点和终点以及选中打车选项的操作,可以显示车型选择界面。进一步的,可以通过多个深度学习模型(例如,OCR模型、第一深度学习模型和第二深度学习模型)对车型选择界面的截图包含的信息进行处理,从而得到车型选择界面中各种车型对应的价格、接驾时间、复选框的中心坐标、复选框是否被用户选中等信息在内的全部打车相关信息。再根据打车相关信息和用户打车的时间、地点(起点和/或终点)、天气、电子设备的电量、用户的常驻地等特征可以自动完成车型选择的操作,能够实现在电子设备端全自动完成用户打车功能,免去用户的思考与点选操作,简化用户操作流程。
附图说明
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种网约车车型自动推荐方法的流程示意图;
图3为本申请实施例提供的一种显示示意图;
图4为本申请实施例提供的一种Mu-SER模型的示意图;
图5为本申请实施例提供的一种EcA-JOP模型的示意图;
图6为本申请实施例提供的一种多模态打车页面识别模块的整体流程示意图;
图7为本申请实施例提供的一种车型预测模型的训练流程示意图;
图8为本申请实施例提供的又一种显示示意图;
图9为本申请实施例提供的又一种显示示意图;
图10为本申请实施例提供的一种芯片系统的结构示意图。
具体实施方式
目前,网约车越来越普及,用户可以在网约车APP中,根据自身的需求,选择相应价格和车型的网约车。但是,用户在网约车APP中手动选择车型的过程繁琐且耗时。本申请的发明人想到,如果能对用户实际的使用习惯进行准确预测,就可以自动为用户选择贴合用户需求的车型。目前,一些网约车APP可以获取到用户对网约车使用习惯的数据。但由于用户通常会同时使用多种网约车APP进行打车,导致某个网约车APP只可获取到关于用户网约车使用习惯的有偏数据,从而无法对用户实际的使用习惯进行准确预测。综上所述,如何在终端侧为用户提供准确的车型选择成为亟待解决的问题。
为了解决上述问题,本申请实施例提供一种网约车车型自动推荐方法和装置,可以应用于用户通过电子设备(例如,手机)打车时选择车型的场景。检测到用户(乘客)打开网约车页面后,响应于用户输入起点和终点以及选中打车选项的操作,可以显示车型选择界面。进一步的,可以通过多个深度学习模型(例如,OCR模型、第一深度学习模型和第二深度学习模型)对车型选择界面的截图包含的信息进行处理,从而得到车型选择界面中各种车型对应的价格、接驾时间、复选框的中心坐标、复选框是否被用户选中等信息在内的全部打车相关信息。再根据打车相关信息和用户打车的时间、地点(起点和/或终点)、天气、电子设备的电量、用户的常驻地等特征可以自动完成车型选择的操作,能够实现在电子设备端全自动完成用户打车功能,免去用户的思考与点选操作,简化用户操作流程。
本申请实施例提供的网约车车型自动推荐方法可以应用于电子设备。电子设备例如可以为手机、平板电脑、台式机(桌面型电脑)、手持计算机、笔记本电脑(膝上型电脑)、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等,本申请实施例对电子设备的具体形态不作特殊限制。或者,本申请实施例提供的方法可以应用于服务器设备。
如图1所示,上述电子设备具体可以为手机100。手机100可以包括处理器110,外部存储器接口120,内部存储器121,USB接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,射频模块150,通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及SIM卡接口195等。其中传感器模块可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以是集成在同一个处理器中。
本发明实施例示意的结构并不构成对手机100的限定。可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
本申请实施例中,可以将用户从打开网约车APP到自动选择完成的过程分为三个阶段,分别为打车页面识别阶段(阶段一)、用户选择预测阶段(阶段二)和模拟操作阶段(阶段三)。
本申请实施例提供一种多模态交叉注意力机制的联合预测模型,该联合预测模型包括多模态打车页面识别模块、车型预测模块和模拟操作模块等三个模块,每个模块对应一个阶段。
其中,阶段一可以对应多模态打车页面识别模块,多模态打车页面识别模块可以基于图像和文本对齐信息识别文本图片当中所需的键值对(例如,车型和价格)与键值对的选中、坐标信息。阶段二可以对应车型预测模块。车型预测模块可以基于打车起点、终点、打车时间、车型价格与接驾时间等信息对上一模块抽取到的不同车型进行优先级排序,可以取排序前三(TOP3)的结果作为推荐用户选择的车型;阶段三可以对应模拟操作模块。模拟操作模块可以基于车型预测模块得到的车型结果点选需要被选中但未选中的车型。并且,可以点选不需要被选中但已经被选中的车型。
如图2所示,多模态打车页面识别模块可以执行以下步骤:
201、识别用户打开网约车页面,选择起点和终点,进入车型选择页面。
本申请实施例中,网约车页面可以是安装在电子设备的网约车APP(也可以称为打车APP)提供的。网约车APP是指可以提供打车功能的APP。示例性的,网约车APP可以包括
Figure BDA0003341112130000061
Figure BDA0003341112130000062
等。网约车页面也可以是通过其他入口(例如,
Figure BDA0003341112130000063
)打开的。例如,网约车厂商可以通过
Figure BDA0003341112130000064
等入口向用户提供网约车的打车服务。
如图3中的(a)所示,用户可以在网约车页面301中选择打车选项,并输入起点(例如,XX大厦)和终点。响应于用户输入终点(例如,YY机场)的操作,如图3中的(b)所示,手机可以显示车型选择页面302。车型选择页面302中包括弹框303,弹框303中包括多种车型以及车型对应的价格和勾选框。其中,车型可以包括特惠快车、快车、优享、X滴、XX出行、YY出行和XX约车等。
202、对车型选择页面进行截图。
由于网约车APP的页面进行了加密,手机无法直接获取到网约车APP页面的具体信息。因此,可以采用截屏手段对车APP的页面信息(例如,车型选择页面的信息)进行获取。例如,可以调用终端系统自带的截图功能对网约车APP车型选择页面进行截图。
203、基于OCR模型获取APP车型选择页面中的文本及文本坐标。
基于光学字符识别(optical character recognition,OCR)模型(参见步骤204中的相关说明),可以通过对步骤202中截屏得到的图片进行OCR文字识别,可以得到截图中的文本(文字)以及文本坐标(文本对应的文本框在截图中的坐标,可以反映了文本在截图中的位置信息)。
204、根据文本与截图获取结构化车型数据,结构化车型数据包括车型,以及车型对应的价格、接驾时间、是否被选中、复选框中心坐标中的至少一种。
需要说明的是,多模态打车页面识别模块包含多个深度学习模型,需要提前完成前序模型训练。其中,需要预先完成训练的模型包括OCR模型、多模态语义角色标注(multimodal-semantic entity recognition,Mu-SER)模型、基于实体-图片交叉注意力机制的联合目标预测(entity-figure cross attention joint object prediction,EcA-JOP)模型以及目标检测框架(Detectron2模型)。
下面对多模态打车页面识别模块涉及到的模型进行说明:
OCR模型:用于从图片(截图)中识别出文字。识别文字的流程包括:1、识别出文字区域(例如,可以通过滑动窗口算法遍历图片,找到文字区域)。2、对文字区域矩形分割,拆分成不同的字符(例如,可以在矩形中做一维滑动窗口移动,判断字符间间距,对字符进行划分);3、字符分类(对划分好的字符根据监督算法,对字符进行预测);4、识别出文字。其余可以参考现在技术的相关说明,在此不做赘述。
Detectron2模型:用于将图片(截图)转换成向量,向量用于描述图片的语义信息、像素信息以及线条轮廓等信息。
Mu-SER模型(第一深度学习模型):在训练与预测阶段,Mu-SER模型的整体输入包括车型选择页面截图与OCR模型识别得到的文本及文本坐标。训练目标为使Mu-SER模型可以对车型选择页面中的文本序列完成标注。标注方案可以为:将车型选择页面中打车起点与终点的文本序列标注为Header(或者可以将打车起点与终点的文本序列分别标注为start和finish),将车型名称序列标注为Key,将车型名称对应的接驾时间文本与价格文本序列标注为Value。
示例性的,假设车型选择页面中包括的文本为“2:30建邺金鹰天地蘑菇餐厅特惠快车单单特惠16.5元……”,其标注结果可以如表1所示。
表1
Figure BDA0003341112130000071
如表1所示,|O表示除Header、Key和Value之外的其他数据类型。|B表示代表这个字符是词汇的开始字符。|I表示这个字符是词汇的中间字符。|E表示这个字符是词汇的结束字符。
标注为Header的文本序列可以表示打车起点/终点,起点为建邺金鹰天地,终点为蘑菇餐厅。标注为Key的文本序列表示车型名称,即车型名称为特惠快车。标注为Value的文本序列表示车型名称对应的接驾时间为16.5元。
Mu-SER模型的计算流程如公式(1)-(4)所示。
v=(v1,v2,…,vm),x=(x1,x2,…,xn)    (1)
Figure BDA0003341112130000072
(p1,p2,…,pn)=FFN(h)    (3)
Figure BDA0003341112130000073
其中,公式(1)表示输入编码的文本部分x与图像部分v。如公式(2)所示,在获取到输入编码x和v后,将其拼接输入到基于LayoutXLM(Layout X language model)模型的Transformer编码器(转换器)中。如公式(3)所示,使用隐藏状态h的文本部分输入前馈神经网络(feedforward neural network,FFN)。FFN相当于一个字符级别分类器(TokenClassifier),可以预测得到每个字符的标签(p1,p2,…,pn)。其中,隐藏状态h的长度等于m+n,即文本个数与图像个数(车型选择页面截图被分割的份数)的和。如公式(4)所示,在获取到模型预测概率px后,将其与真实标签y计算交叉熵,即可得到此时训练的损失。根据损失进行反向传播得到模型更新参数。迭代完成上述步骤,即可完成Mu-SER模型的训练。在预测阶段,直接获取公式(3)的结果,对每个字符的概率分布p进行归一化指数函数(softmax)运算,即可得到当前字符对应的最大概率标签,即为当前字符的预测结果。
如图4所示,为Mu-SER模型的整体结构,包括输入编码部分、非线性变换部分和任务部分。
一、输入编码部分包括:
(1)、段落编码(Segment Embedding),用于区分图片编码段与文本编码段。示例性的,C表示图片编码段。A表示文本编码段。
(2)、1维位置编码(1D position embedding):编码图像顺序与文本顺序。例如,图像编码v1的排列顺序为0,表示图像编码v1是被分割的截图中的第一块图像。又例如,文本编码CLS(句首文本)的排列顺序为0,表示文本编码CLS是截图中的第1个文本。
(3)、2维位置编码(2D position embedding):编码图像切分后子图的左上角与右下角二维坐标,以及图像中的文本所在位置的左上角与右下角。例如,图像编码v1的位置坐标Boxv1可以包括图像编码v1的左上角的位置坐标和右下角的位置坐标。又例如,文本编码T1的位置坐标BoxT1可以包括文本编码T1对应的文本框的左上角的位置坐标和右下角的位置坐标。
(4)、视觉/文本编码(Visual/text token embedding):包括经过Detectron2模型处理得到的图像编码(例如,V1-V4)与经过OCR模型模型处理得到的文本编码(例如,T1-T7)。
即针对截图的每部分图片(截图被分割后的任意一份图像。例如,截图被分割为4份,该4份中的任意一份)或截图中的每个文本(字符),模型输入由段落编码、1维位置编码、2维位置编码与视觉/文本编码组成。输入编码部分可以根据OCR模型与Detectron2模型输出得到。
二、非线性变换部分:
非线性变换部分即Transformer层(也可以称为变换层),Transformer层可以对输入编码部分进行非线性变换。具体的,可以融合图片文本上下文信息,生成基于上下文注意力的图片表示或文本表示。
三、任务部分包括:
(1)文本-图片匹配任务:基于Transformer层编码结果,判断输入图片编码与文本是否匹配,是句子级别分类任务。
(2)图片掩码预测任务:在文本与图片匹配的情况下,判断文本在图片中的位置是否被覆盖(cover),是标记级别分类任务(token classifier)。
(3)文本掩码预测任务:随机遮挡输入文本的标记(Token),根据掩码视觉语言模型基于上下文完成当前文本的预测。
EcA-JOP模型(第二深度学习模型):EcA-JOP模型的主要思想为图像和文本整体编码,联合学习三个网约车任务强相关的子任务,分别为Key-Value匹配任务、坐标回归任务与选中判定任务。
如公式(5)-(17)所示,EcA-JOP模型的训练损失由三个部分组成:Key-value匹配损失、坐标回归损失与选中判定损失。
x=(x1,x2,…,xn),v=(v1,v2,…,vm)     (5)
Figure BDA0003341112130000091
Figure BDA0003341112130000092
Figure BDA0003341112130000093
lossmatch=CrossEntropy(pmatch,ymatch)   (9)
u=v⊙cvis    (10)
Figure BDA0003341112130000094
Figure BDA0003341112130000095
pcord=sig(FFN(g))    (13)
losscord=MSE(pcord,ycord)     (14)
pselect=softmax(FFN(g))   (15)
lossselect=CrossEntropy(pselect,yselect)    (16)
L=lossmatch+losscord+lossselect     (17)
如公式(5)所示,输入数据由图像编码v与文本编码x组成。如公式(6)所示,将拼接后的输入编码
Figure BDA0003341112130000096
输入到Transformer编码器中,获取模型的隐藏状态编码c。其中,
Figure BDA0003341112130000097
表示向量拼接。在获取得到隐藏状态编码c后,如公式(7)所示,将文本部分编码的所有key实体起始位置字符隐藏状态
Figure BDA0003341112130000098
与Key向量emb(entity)where entity in(key)拼接,所有Value实体起始位置字符隐藏状态
Figure BDA0003341112130000099
与Value向量emb(entity)where entity in(value)拼接得到
Figure BDA00033411121300000910
如公式(8)所示,将
Figure BDA00033411121300000911
Figure BDA00033411121300000912
两两输入到双仿射前馈神经网络BiaffineFNN网络计算匹配概率pmatch。如公式(9)所示,得到匹配概率pmatch后基于匹配概率与真实匹配标签计算交叉熵损失CrossEntropy,即得到匹配损失lossmatch。与此同时,如公式(10)所示,将传统方法未利用的图像隐藏状态cvis与输入的图像编码v进行哈达玛积运算,作为残差连接,得到融合残差连接的图像上下文表示u,提升收敛速度与效果。如公式(11)所示,将图像上下文表示u的转置矩阵与KV实体向量
Figure BDA00033411121300000913
拼接并进行线性变换(乘W表示线性变换)后的矩阵进行乘法运算,计算实体-图片交叉注意力,作为指导模型关注图片具体内容的机制。得到矩阵相乘结果后对结果进行softmax运算(神经网络的一种激活函数),得到最终的注意力值a。如公式(12)所示,基于注意力值a,计算图像的最终编码表示g。如公式(13)与公式(15)所示,基于图像编码表示g,在下游接入坐标回归任务层与选择预测任务层。如公式(14)与公式(16)所示,分别使用均方误差和交叉熵的方式计算最损失losscord和lossselect。如公式(17)所示,最终在训练阶段将三部分损失求和,得到整体损失指导模型更新参数L。在预测阶段,直接使用公式(8)、公式(13)和公式(15)的结果(pmatch、pcord和pselect)作为模型结果进行输出,得到预测值。
如图5所示,为EcA-JOP模型的整体结构,包括输入编码部分和预训练任务部分。
其中,EcA-JOP模型的输入编码部分与Mu-SER模型的输入编码部分基本相同。区别在于,EcA-JOP模型的输入编码部分相对于Mu-SER模型的输入编码部分多了B-key、I-key、E-key、B-val、E-val等数据。其中,B-key、I-key、E-key、B-val、E-val等数据是Mu-SER模型的输出。B-key、I-key、E-key分别表示车型的第一个字符,中间部分的字符和最后一个字符。B-val、E-val分别表示价格的第一个字符和最后一个字符。
EcA-JOP模型的非线性变换部分:
非线性变换部分即Transformer层(也可以称为变换层),Transformer层可以对输入编码部分进行非线性变换。具体的,可以融合图片文本上下文信息,生成基于上下文注意力的图片表示或文本表示。
EcA-JOP模型的任务部分包括:
(1)Key-value匹配任务:基于传输(Transformer)层编码结果,取实体首个字符的上下文编码与实体类型向量拼接后送入双仿射分类器(Biaffine classifier)。将车型与所有接驾时间、价格分别进行匹配,抽取对应结构化数据。抽取结果例如可以为:{“key”:“优享”,“价格”:“99.8元”,“接驾时间”:“4分钟”}。
(2)坐标回归(Cord regression)与选择判定任务(Selection classifier):可以利用视觉编码特征(Global fig embedding),完成以图像为核心的坐标回归与选择判定任务。
需要说明的是,在执行坐标回归任务和选择判定任务时,可以增加残差连接(Residual connection),防止图像任务训练过程中分布不一致拟合过慢。还可以引入实体(Entity embedding)-视觉注意力机制(Vis-text attention),引导模型对实体相关区域进行额外关注。还可以在下游接入坐标回归层与选择判定层,与原任务联合学习。
即可以通过EcA-JOP模型获取车型选择页面中的结构化信息与选中信息。在信息抽取算法方面,通过引入实体-图像交叉注意力机制对齐图像-文本细粒度模态信息。再使用联合学习方法同步完成键值对、键值对选中信息、键值对对应的复选框坐标的抽取。
示例性的,EcA-JOP模型输入、输出数据的标注格式可以如表2所示。
表2
Figure BDA0003341112130000101
完成模型训练(OCR模型,Detectron2模型,Mu-SER模型,EcA-JOP)后,即可构建多模态打车页面识别模块整体流程。
如图6所示,为多模态打车页面识别模块的整体流程。首先构造输入数据,将车型选择页面中的所有文本拼接,再通过查找(lookup)函数获取到输入文本编码x。同时根据超参数选择将车型选择页面截图进行resize后切分成4-7个子图,对每个子图分别使用Detectron2模型进行编码得到输入的图片编码v。将x、v输入到Mu-SER模型中,获取车型选择页面的语义角色标注结果(head、key、value)。再将x、v以及语义角色标注结果输入到EcA-JOP模型中,EcA-JOP模型输出包括车型、接驾时间、价格、是否被选中以及复选框中心坐标信息。
车型预测模块可以执行以下步骤:
205、根据多模态打车页面识别模块的输出预测生成推荐车型。
基于用户打车时的时间、地点(起点和/或终点)等特征,可以对多模态打车页面识别模块识别得到的车型进行优先级排序。并且,可以选取满足预设条件的车型作为推荐用户选择的车型。例如,可以选取排序前三(TOP3)的结果作为推荐用户选择的车型。
206、将用户是否接受选择作为标签,生成车型预测模块的训练数据,训练车型预测模块。
端侧可以自学习车型预测模块(车型预测模型),全局理解用户打车需求,自动预测贴合用户需求的车型。
如图7所示,在初始化场景下,端侧(电子设备,例如手机)部署有车型预测模型。初始车型预测模型可以是云侧利用众包数据对lamdaMART(lamda Multiple AdditiveRegression Tree)模型进行训练得到的。其中,lambdaMART是一种排序学习(Learning ToRank)算法,适用于多种排序场景。lamdaMART支持在移动端侧训练与预测的开源轻量化模型。众包数据包括云侧从多个端侧收集得到的车型选择数据。在端侧运行阶段,收集用户对于初始化车型选择结果(手机基于初始车型预测模型向用户推荐的车型选择结果)的修改结果并生成监督数据。当端侧的数据积累到一定数量(例如,20条)后,联合初始数据在端侧对车型预测模型进行训练得到车型预测模块(也可以称为个性化车型预测模块),以对齐用户的个性化选择。进一步的,可以基于每次用户是否接受选择的标签对车型预测模块继续迭代训练,以更好地贴和用户诉求。
模拟操作模块可以执行以下步骤:
207、自动点击模块根据车型坐标完成选择。
自动点击模块可以作为提供服务的最后一步,完成车型自动选择功能。具体的,自动点击模块可以基于车型预测模块推荐的结果,与多模态打车页面识别模块识别到的车型对应坐标,完成需要车型且未选中的模拟点选以及不需要车型但选中的取消点选。
示例性的,如图8中的(a)所示,检测到用户打开网约车APP选择打车选项并输入起点和终点时,识别到起点和终点分别是XX大厦和YY机场,再结合用户打车的时间(周内早晨,例如,周一8:00),可以认为用户需要出差,因此可以自动为用户选择商务型车型(例如,优享和专车),以更好地贴合用户需求。如图8中的(b)所示,检测到用户打开网约车APP选择打车选项并输入起点和终点时,识别到起点和终点分别是XX大厦和XX小区,再结合用户打车的时间(周内晚上,例如,周三20:00),可以认为用户是日常通勤,可以自动为用户选择经济型车型(特惠快车、X滴,XX出行等),以更好地贴合用户需求。
基于本申请实施例提供的网约车车型自动推荐方法,能够实现在电子设备端全自动完成用户打车功能,免去用户的思考与点选操作,简化用户操作流程。
上文以手机打车自动选择车型的场景为例进行说明,本申请实施例提供的方法还可以应用于端侧(电子设备,例如手机)各种需要用户手动在相应页面进行选择的场景。即端侧包含选择选项的页面都可以应用本申请实施例提供的方法进行自动选择。例如,可以应用于端侧导航路线自动选择,电影预定自动选座等场景,使用范围广泛。
在一些实施例中,还提供一种路线自动推荐方法,包括:响应于用户输入起点和终点以及选中骑行、步行或驾车选项的操作,可以显示路线选择界面(如图9中的(a)所示);对路线选择页面进行截图;基于OCR模型获取路线选择页面中的文本及文本坐标;根据文本与截图获取路线数据,路线数据包括路线的标识,以及路线对应的耗费时间、复选框中心坐标以及复选框是否被选中的信息中的至少一种。根据路线数据和用户数据生成推荐路线;用户数据包括用户骑行、步行或驾车的时间、用户输入的起点和终点、用户骑行、步行或驾车时的天气、用户骑行、步行或驾车时电子设备的电量、用户的常驻地中的至少一项;根据推荐路线的复选框中心坐标选中推荐路线。
其中,根据文本与截图获取路线数据具体可以包括:将截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将截图切分成多个子图,对多个子图中的每个子图分别进行编码得到图片编码v;将x和v输入第一深度学习模型中,获取第一深度学习模型输出的语义角色标注结果,语义角色标注结果包括路线的标识以及路线对应的耗费时间中的至少一项;再将x和v以及语义角色标注结果输入第二深度学习模型中,获取第二深度学习模型输出的复选框信息,复选框信息包括路线的标识对应的复选框中心坐标以及路线的标识对应的复选框是否被选中的信息。
示例性的,如图9中的(a)所示,响应于用户在界面901选择起点(我的位置)、终点(蘑菇餐厅)以及骑行选项902的操作,手机可以基于用户需求智能推荐路线903。
在另一些实施例中,还提供一种影院座位自动推荐方法,包括:响应于用户选中电影院和电影的操作,显示影院座位选择界面(如图9中的(b)所示);对影院座位选择页面进行截图;基于OCR模型获取影院座位选择页面中的文本及文本坐标;根据文本与截图获取影院座位数据,影院座位数据包括影院座位的座位号,以及影院座位对应的复选框中心坐标、以及复选框是否被选中的至少一种;根据影院座位数据和用户数据生成推荐影院座位;其中,用户数据包括用户选座的时间、用户输入的影院的地点、名称、用户选座时电子设备的电量中的至少一项;根据推荐影院座位的复选框中心坐标选中推荐影院座位。
其中,根据文本与截图获取影院座位数据包括:根据文本与截图获取影院座位数据,影院座位数据包括影院座位的座位号,以及影院座位对应的复选框中心坐标、以及复选框是否被选中的至少一种;将截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将截图切分成多个子图,对多个子图中的每个子图分别进行编码得到图片编码v;将x和v输入第一深度学习模型中,获取第一深度学习模型输出的语义角色标注结果,语义角色标注结果包括影院座位的座位号;再将x和v以及语义角色标注结果输入第二深度学习模型中,获取第二深度学习模型输出的复选框信息,复选框信息包括影院座位的座位号对应的复选框中心坐标以及影院座位的座位号对应的复选框是否被选中的信息。
示例性的,如图9中的(b)所示,手机可以基于用户需求与电影排座情况自动为用户选择最佳观影位置905,再通过提示框906和907向用户提示具体的座位信息。
本申请实施例还提供一种芯片系统,如图10所示,该芯片系统包括至少一个处理器1001和至少一个接口电路1002。处理器1001和接口电路1002可通过线路互联。例如,接口电路1002可用于从其它装置(例如,电子设备的存储器)接收信号。又例如,接口电路1002可用于向其它装置(例如处理器1001)发送信号。
例如,接口电路1002可读取电子设备中存储器中存储的指令,并将该指令发送给处理器1001。当所述指令被处理器1001执行时,可使得电子设备(如图1所示的手机100)执行上述实施例中的各个步骤。
当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在电子设备(如图1所示的手机100)上运行时,使得手机100执行上述方法实施例中电子设备执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中电子设备执行的各个功能或者步骤。
本申请实施例还提供了一种处理装置,所述处理装置可以按照功能划分为不同的逻辑单元或模块,各单元或模块执行不同的功能,以使得所述处理装置执行上述方法实施例中电子设备执行的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种网约车车型自动推荐方法,其特征在于,包括:
响应于用户输入起点和终点以及选中打车选项的操作,显示车型选择界面;
对所述车型选择界面进行截图;
基于光学字符识别OCR模型获取所述截图中的文本及文本坐标;
将所述截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将所述截图切分成多个子图,对所述多个子图中的每个子图分别进行编码得到图片编码v;
将所述x和所述v输入第一深度学习模型中,获取所述第一深度学习模型输出的语义角色标注结果,所述语义角色标注结果包括打车起点和终点、车型名称、接驾时间和价格中的至少一项;
再将所述x和所述v以及所述语义角色标注结果输入第二深度学习模型中,获取所述第二深度学习模型输出的复选框信息,所述复选框信息包括所述车型名称对应的复选框中心坐标以及所述车型名称对应的复选框是否被选中的信息;
根据所述语义角色标注结果、所述复选框信息和用户数据生成推荐车型,其中,所述用户数据包括用户打车的时间、用户输入的起点和终点、用户打车时的天气、用户打车时电子设备的电量、用户的常驻地中的至少一项;
根据所述推荐车型的复选框中心坐标选中所述推荐车型。
2.根据权利要求1所述的方法,其特征在于,所述第一深度学习模型的计算流程如公式(1)-(4)所示,
v=(v1,v2, …,vm) ,x=(x1,x2, …,xn)   (1)
h=Transformers(v⊕x)  (2)
(p1,p2, …,pn)=FFN(h)  (3)
Figure FDA0004030089460000011
其中,公式(1)表示所述第一深度学习模型的输入编码的文本部分x与图像部分v,文本部分x包括n个文本编码,图像部分v包括m个图像编码;公式(2)表示将输入编码x和v输入到Transformer编码器中得到隐藏状态h;公式(3)表示将隐藏状态h的文本部分输入前馈神经网络FFN得到每个文本字符的标签(p1,p2,…,pn);公式(4)表示将px与真实标签y计算交叉熵得到所述第一深度学习模型的损失。
3.根据权利要求1所述的方法,其特征在于,所述第二深度学习模型的计算流程如公式(5)-(17)所示,
x=(x1,x2, …,xn),v=(v1,v2, …,vm)    (5)
c=Transformers(v⊕x)  (6)
Figure FDA0004030089460000012
Figure FDA0004030089460000013
lossmatch=CrossEntropy(pmatch,ymatch) (9)
u=v⊙cvis   (10)
Figure FDA0004030089460000014
Figure FDA0004030089460000015
pcord=sig(FFN(g))  (13)
losscord=MSE(pcord,ycord)   (14)
pselect=softmax(FFN(g)) (15)
lossselect=CrossEntropy(pselect,yselect)  (16)
L=lossmatch+losscord+lossselect    (17)
其中,公式(5)表示所述第二深度学习模型的输入编码的文本部分x与图像部分v,文本部分x包括n个文本编码,图像部分v包括m个图像编码;公式(6)表示将拼接后的输入编码(v⊕x)输入到Transformer编码器中,获取模型的隐藏状态编码c,其中,⊕表示向量拼接;公式(7)表示将文本部分编码的所有key实体起始位置字符隐藏状态
Figure FDA0004030089460000021
与Key向量emb(entity)where entity in(key)拼接,将所有Value实体起始位置字符隐藏状态
Figure FDA0004030089460000022
与Value向量emb(entity)where entity in(value)拼接得到
Figure FDA0004030089460000023
Figure FDA0004030089460000024
公式(8)表示将
Figure FDA0004030089460000025
Figure FDA0004030089460000026
到双仿射前馈神经网络BiaffineFNN网络计算匹配概率pmatch;公式(9)表示基于匹配概率pmatch与真实匹配标签计算匹配损失lossmatch;公式(10)表示将图像隐藏状态cvis与输入的图像编码v进行哈达玛积运算,作为残差连接,得到融合残差连接的图像上下文表示u;公式(11)表示将图像上下文表示u的转置矩阵与KV实体向量
Figure FDA0004030089460000027
拼接并进行线性变换后的矩阵进行乘法运算,得到矩阵相乘结果后对结果进行softmax运算得到最终的注意力值a;公式(12)表示基于注意力值a计算图像的最终编码表示g;公式(13)与公式(15)表示基于图像编码表示g接入坐标回归任务层与选择预测任务层;如公式(14)与公式(16)表示分别使用均方误差和交叉熵的方式计算最损失losscord和lossselect;公式(17)表示在训练阶段进行损失求和,得到整体损失指导模型更新参数L。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述语义角色标注结果、所述复选框信息和用户数据生成推荐车型包括:
根据车型数据和用户数据对车型进行优先级排序;
选取优先级排序前M的车型作为推荐车型,M为大于或等于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述车型数据和用户数据对车型进行优先级排序包括:
运行第一机器学习模型生成推荐车型,所述第一机器学习模型是根据众包数据对lamdaMART模型进行训练得到的,所述众包数据包括服务器从多个电子设备收集得到的网约车的车型选择数据;
收集用户对于所述第一机器学习模型生成的推荐车型的修改结果并生成监督数据;
当所述监督数据的数目大于等于预设阈值时,根据所述车型数据、所述用户数据和所述监督数据对所述第一机器学习模型进行训练得到第二机器学习模型;
运行所述第二机器学习模型,得到所述截图中全部车型的优先级排序结果。
6.一种路线自动推荐方法,其特征在于,包括:
响应于用户输入起点和终点以及选中骑行、步行或驾车选项的操作,显示路线选择界面;
对所述路线选择界面进行截图;
基于光学字符识别OCR模型获取所述路线选择界面中的文本及文本坐标;
将所述截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将所述截图切分成多个子图,对所述多个子图中的每个子图分别进行编码得到图片编码v;
将所述x和所述v输入第一深度学习模型中,获取所述第一深度学习模型输出的语义角色标注结果,所述语义角色标注结果包括路线的标识以及路线对应的耗费时间中的至少一项;
再将所述x和所述v以及所述语义角色标注结果输入第二深度学习模型中,获取所述第二深度学习模型输出的复选框信息,所述复选框信息包括所述路线的标识对应的复选框中心坐标以及所述路线的标识对应的复选框是否被选中的信息;
根据所述语义角色标注结果、所述复选框信息和用户数据生成推荐路线;所述用户数据包括用户骑行、步行或驾车的时间、用户输入的起点和终点、用户骑行、步行或驾车时的天气、用户骑行、步行或驾车时电子设备的电量、用户的常驻地中的至少一项;
根据所述推荐路线的复选框中心坐标选中所述推荐路线。
7.一种影院座位自动推荐方法,其特征在于,包括:
响应于用户选中电影院和电影的操作,显示影院座位选择界面;
对所述影院座位选择界面进行截图;
基于光学字符识别OCR模型获取所述影院座位选择界面中的文本及文本坐标;
根据所述文本与所述截图获取影院座位数据,所述影院座位数据包括影院座位的座位号,以及影院座位对应的复选框中心坐标、以及所述复选框是否被选中的至少一种;
将所述截图中的所有文本拼接,通过查找函数获取输入文本编码x,同时根据超参数将所述截图切分成多个子图,对所述多个子图中的每个子图分别进行编码得到图片编码v;
将所述x和所述v输入第一深度学习模型中,获取所述第一深度学习模型输出的语义角色标注结果,所述语义角色标注结果包括影院座位的座位号;
再将所述x和所述v以及所述语义角色标注结果输入第二深度学习模型中,获取所述第二深度学习模型输出的复选框信息,所述复选框信息包括所述影院座位的座位号对应的复选框中心坐标以及所述影院座位的座位号对应的复选框是否被选中的信息;
根据所述语义角色标注结果、所述复选框信息和用户数据生成推荐影院座位;其中,所述用户数据包括用户选座的时间、用户输入的影院的地点、名称、用户选座时电子设备的电量中的至少一项;
根据所述推荐影院座位的复选框中心坐标选中所述推荐影院座位。
8.一种芯片系统,其特征在于,所述芯片系统包括一个或多个接口电路和一个或多个处理器;所述接口电路和所述处理器通过线路互联;
所述芯片系统应用于包括通信模块和存储器的电子设备;所述接口电路用于从所述存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1-7中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,包括计算机指令;
当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种推荐装置,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时使得所述装置实现权利要求1-7中任一项所述的方法。
CN202111308999.2A 2021-11-05 2021-11-05 一种网约车车型自动推荐方法和装置 Active CN115017399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111308999.2A CN115017399B (zh) 2021-11-05 2021-11-05 一种网约车车型自动推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111308999.2A CN115017399B (zh) 2021-11-05 2021-11-05 一种网约车车型自动推荐方法和装置

Publications (2)

Publication Number Publication Date
CN115017399A CN115017399A (zh) 2022-09-06
CN115017399B true CN115017399B (zh) 2023-04-07

Family

ID=83064305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111308999.2A Active CN115017399B (zh) 2021-11-05 2021-11-05 一种网约车车型自动推荐方法和装置

Country Status (1)

Country Link
CN (1) CN115017399B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117608565B (zh) * 2024-01-23 2024-05-10 杭州实在智能科技有限公司 基于屏幕截图分析的rpa中ai类组件推荐方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202316A (zh) * 2016-07-01 2016-12-07 传线网络科技(上海)有限公司 基于视频的商品信息获取方法及装置
CN112017001A (zh) * 2020-08-28 2020-12-01 北京嘀嘀无限科技发展有限公司 网约车车型推荐方法、装置、电子设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4708323B2 (ja) * 2006-12-15 2011-06-22 株式会社ナビタイムジャパン ナビゲーションシステム、経路探索サーバおよび経路探索方法ならびに端末装置
CN104484486B (zh) * 2015-01-14 2018-10-26 北京搜狗科技发展有限公司 一种信息推荐方法及电子设备
US9864803B2 (en) * 2015-07-22 2018-01-09 TCL Research America Inc. Method and system for multimodal clue based personalized app function recommendation
CN108040125A (zh) * 2017-12-28 2018-05-15 北京陌上花科技有限公司 内容识别及推送方法及电视伴随式ai助理装置
CN108564399B (zh) * 2018-03-29 2021-09-17 北京红马传媒文化发展有限公司 场馆座位的价值属性设置方法和装置、及推荐方法和装置
CN108924218B (zh) * 2018-06-29 2020-02-18 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109242646A (zh) * 2018-10-18 2019-01-18 大陆汽车投资(上海)有限公司 用于为计划出行的用户推荐车型的方法和终端设备
CN110070239B (zh) * 2019-03-29 2021-05-11 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN111159566A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 金融市场产品的资讯推送方法及装置
CN111310055A (zh) * 2020-03-06 2020-06-19 汉海信息技术(上海)有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN113177821A (zh) * 2021-04-28 2021-07-27 北京趣拿软件科技有限公司 信息处理方法、装置及系统、计算机可读存储介质
CN113449002A (zh) * 2021-06-28 2021-09-28 平安银行股份有限公司 车辆推荐方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202316A (zh) * 2016-07-01 2016-12-07 传线网络科技(上海)有限公司 基于视频的商品信息获取方法及装置
CN112017001A (zh) * 2020-08-28 2020-12-01 北京嘀嘀无限科技发展有限公司 网约车车型推荐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN115017399A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111931664A (zh) 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111753746B (zh) 属性识别模型训练方法、识别方法、电子设备、存储介质
CN111742345A (zh) 通过着色的视觉跟踪
CN112884235B (zh) 出行推荐方法、出行推荐模型的训练方法、装置
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN114092759A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN114972944B (zh) 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN115017399B (zh) 一种网约车车型自动推荐方法和装置
CN111274946B (zh) 一种人脸识别方法和系统及设备
CN115578570A (zh) 图像处理方法、装置、可读介质及电子设备
CN115063867A (zh) 说话状态识别方法及模型训练方法、装置、车辆、介质
CN114580425A (zh) 命名实体识别的方法和装置,以及电子设备和存储介质
US11900067B1 (en) Multi-modal machine learning architectures integrating language models and computer vision systems
CN114170484A (zh) 图片属性预测方法、装置、电子设备和存储介质
CN114328679A (zh) 图像处理方法、装置、计算机设备以及存储介质
CN111797266B (zh) 图像处理方法和装置、存储介质和电子设备
CN117313740A (zh) 语言模型训练方法
CN113792569B (zh) 对象识别方法、装置、电子设备及可读介质
CN114332798A (zh) 网约车环境信息的处理方法及相关装置
CN111353536B (zh) 图像的标注方法、装置、可读介质和电子设备
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN113822324A (zh) 基于多任务模型的图像处理方法、装置及相关设备
CN111460169B (zh) 语义表达式生成方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant