CN113362540A

CN113362540A - 基于多模交互的交通票务处理装置、系统及方法

Info

Publication number: CN113362540A
Application number: CN202110656421.XA
Authority: CN
Inventors: 黄羿衡; 倪勇
Original assignee: Jiangsu Suyun Information Technology Co ltd
Current assignee: Jiangsu Suyun Information Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-07

Abstract

本发明提供基于多模交互的交通票务处理装置，包括信号采集模块、处理模块和引导模块；所述信号采集模块包括语音采集单元和图像采集单元；所述处理模块包括识别单元、解析单元、若干预设深度学习模型；所述识别单元包括人脸检测器、解码器；所述多模信号包括语音和用户图像。能够进行多模交互，有效抑制背景噪音干扰，更准确的识别语音获取用户的出行需求，票务处理效率高，更便捷。本发明提供的交通票务处理系统因采用本发明的交通票务处理装置而具有相应优势。本发明提供的交通票务处理方法，对人工依赖少、利于缩短票务处理时间、提高用户出行体验。

Description

基于多模交互的交通票务处理装置、系统及方法

技术领域

本发明属于自动票务处理技术领域，尤其涉及基于多模交互技术的智能化交通票务处理装置、系统及相应的票务处理方法。

背景技术

目前越来越多的城市拥有轨道交通，地铁自助售票机也被大量使用；而火车自助售票系统也已经在全国大部分城市使用，以补充人工窗口交通票务处理能力的不足，应对高频的人员流动和日益复杂多样的交通线路。现有的地铁或高铁等交通票务处理系统除了人工服务窗口以外，一般都还包括集中设置的多台自助售票机。以地铁票务处理为例，交通票务处理的必要操作包括：选择地铁线路；判定目的站；塞硬币或纸币或扫码；出票。可知传统的自动票务处理技术，依赖人工的判断、决策和操作；现有的自动票务处理技术主要还是基于传统的IT信息技术，而当下在其它领域已有应用的智能化的技术使用较少，特别的对于不熟悉IT界面操作的老年人或外地乘客并不够友好，还是需要人工窗口工作人员或其他人介入，确定合适的线路及目的站名后再排队购票，反而延长了乘客的购票时间；除了用户体验差，根本上来说并不能真正减轻票务处理的人工操作，提高票务处理效率，缓解出行人流压力。完成了选择路线，还要选择票数，再塞硬币，整个过程出票时间占比不高，大部分时间是在选择路线及目的站，以及硬币或纸币支付，造成高峰期人流拥堵。

据了解，全球首台语音售票机不久前才在上海南站投入使用，位于上海南站地铁站5号口附近。投放这台设备的初衷是考虑对于初到上海的乘客，只要知道要去哪儿，例如对售票机说“去东方明珠”，售票机做出响应，帮助选择就近的陆家嘴站。以此为例，可知智能化的票务处理对人工操作的依赖更低，显然有利于老年人或不熟悉线路的乘客快速的完成购票过程，满足人们交通出行的便利化需求，真正有利于缓解交通票务处理的人工服务窗口的压力。

现有的单纯语音交互售票机有效工作的前提是对特定购票乘客的人声信息的准确识别。但不难想象，例如上海南站，拥挤的人流、嘈杂的环境中，单纯的语音交互中输入的不止是特定乘客的人声，还有环境杂音以及目标用户左右其他人的人声，如何准确识别票务处理目标用户的语音内容是亟需解决的问题。现有的语音售票机还并没能完全如其预期的那样有效解决上述票务处理中的现实问题。

因此目前十分需要研究智能化的交通票务处理装置、系统及方法，能够适用于语音交互形式的自动票务处理且准确率有保障，兼顾现有设备的改造升级成本，提高交通运输部门的票务处理的效率，改善公共交通出行的购票体验。以此进一步推动自动票务处理技术的广泛应用及深入发展，将智能科技成果更充分的惠及到普通人的生活中。

发明内容

本发明是为解决上述现有技术的全部或部分问题，本发明一方面提供了基于多模交互的交通票务处理装置，适用于非人工窗口的交通票务处理。本发明的第二个方面提供了交通票务处理系统，具有本发明的交通票务处理装置。本发明同时第三方面给出了交通票务处理方法。

本发明一方面提供的基于多模交互的交通票务处理装置，包括信号采集模块、处理模块和引导模块；所述信号采集模块包括语音采集单元和图像采集单元；所述处理模块包括识别单元、解析单元和预设深度学习模型；所述识别单元包括人脸检测器、、解码器；所述识别单元基于多模信号运行识别算法得到对应语音内容的文本，所述多模信号包括语音和用户图像；所述预设深度学习模型包括序列标注模型、长短期记忆网络模型、2D卷积神经网络模型；所述解析单元基于语义理解算法从所述文本中获取票务处理所需内容；所述引导模块根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。一般情况中，所述票务处理所需内容包括用户所说的目的地；所述票务处理结果包括目的站和基于目的站的相关票务信息，一般包括线路、购票金额（票价）和/或需要购票的数量（票数）等。所述人脸检测器基于人脸检测算法（计算机视觉的一种算法，输入一张图片，把人脸部分用矩形框框出来）用于提取用户面部特征数据。运行语义理解算法能够获取文本词汇的含义，理解特定词语在一段话或一个句子中代表的含义。

所述用户图像是指用户唇部图片；所述识别算法包括多模唇语识别算法。通过所述多模唇语识别算法能够将所述多模信号进行综合地判断，基于唇动特征判断用户是否在说话，获取用户说话内容的文本。能够结合嘴巴的张闭、形态，达到更加准确的识别用户发出的语音内容。相比现有的单纯语音交互，多模交互有效的改善了环境嘈杂导致识别准确率低、无意义语音识别导致票务处理装置功耗高、效率低的缺陷。多模交互的交通票务处理装置极大提高了智能化技术在自动化票务处理领域的实用价值。

所述用户图像包括用户虹膜图片；所述识别算法包括虹膜识别算法。通过人脸检测器获取人脸上的虹膜特征，通过虹膜识别算法在识别用户说话内容的同时对说话的用户完成身份实名认证，免去了现有交通票务处理过程中必须出示身份证或者票务处理装置中必须配有身份证读取设备完成实名认证操作的技术限制。

所述人脸检测器是带人脸关键点检测的人脸检测算法模型，根据人脸关键点抠取唇部图片；唇部图片的特征抽取模型是所述2D卷积神经网络模型；结合唇部图片特征和语音特征输入到所述长短期记忆网络模型；所述语义理解算法解析单元包括基于所述长短期记忆网络模型的自然语言处理算法。所述解析单元通过文本意图识别模型和序列标注模型进行解析，所述文本意图识别模型包括但不限于长短期记忆网络模型、卷积网络模型等文本分类模型，所述序列标注模型包括但不限于条件随机场模型（CRF）、长短期记忆网络-条件随机场（LSTM-CRF）模型。所述意图识别模型用于判断用户所说内容是否为买票意图，以避免非买票语音干扰；所述序列标注模型用于抽取用户目的地、购票张数等关键信息。LSTM模型(长短期记忆模型，long-short term memory)是一种RNN模型。RNN（Recurrent neuralnetwork，循环神经网络）是一系列能够处理序列数据的神经网络的总称。采用LSTM模型可以对一段时间内用户发出的语音进行识别，能够通过深度学习提高识别准确性和识别速度。所述解析单元基于语义理解算法能够更高效且准确的提取用户所说的有效目的地。

所述引导模块包括导航地图软件；所述引导模块基于所述解析单元获取的目的地，调用所述导航地图软件接口，输出目的站，并根据所述目的站进行计算输出相关票务信息；所述相关票务信息包括票价、线路、票数或取票位置中的一个或几个。当本发明的交通票务处理装置单独集成在独立的电子设备中或者作为一个独立的电子设备时，或者出票点与本发明的交通票务处理装置相分离设置时，所述相关票务信息包括取票位置可以引导用户至最方便取票的出票点取票。对于拥挤的车站，繁忙的人流，这样的设置一方面有利于配合车站出票点的灵活设置，另一方面将多模交互过程与取票操作分离有利于优化票务处理效率，进一步节约排队时间，整个过程出票时间占比高。

所述引导模块还包括语音播报器和/或显示装置。通过所述语音播报器将所述目的站和所述相关票务信息进行播报，特别有利于提高文化程度不高的乘客或者视力衰退的老年人的用户体验。通过所述显示装置将所述票务处理结果反馈给用户，更加直观，且目前现有的自助购票机一般都有显示屏，通过显示装置反馈所述票务处理结果不增加额外设备配置成本，有利于现有自助购票机的改造升级。

所述引导模块也可以包括打印装置和/或发送装置，用于将所述票务处理结果以小票打印的形式反馈给用户或者直接发送到用户指定的手机上，有利于加强保护用户的出行信息的私密性。所述引导模块也可以结合具体应用场景及具体需要设置其它用于加强保护用户出行信息私密性的装置或结构，并不限定。

所述语音采集单元包括麦克风阵列和回声消除芯片。通过所述麦克风阵列接收用户的语音，通过所述回声消除(Acoustic Echo Cancellation，AEC)芯片能够将所述麦克风阵列接收的环境杂音去除。

所述图像采集单元包括双目摄像头，用于同一时间捕获两帧图像；所述识别单元运行双目测距算法计算得到用户的位置信息，所述用户图像是指当前图像中最靠前的用户的图像。通过所述双目摄像头能够支持实现双目立体视觉，对于同一时间捕获的两帧图像基于已知的双目测距算法能够得到图像包含内容的景深，即图像包含内容的位置远近关系。因此所述识别单元能够获取当前用户的位置信息，当有很多用户拥挤在一起同时发起与本发明的交通票务处理装置前时（对于现有的票务处理人工服务窗口这也是可能的场景），所述识别单元能够运行双目测距算法得到距离本发明的交通票务处理装置最近的用户（最靠前的用户）作为识别的目标用户提取所述用户图像进行后续识别。仅提取目标的用户的图像作为多模信号中的所述用户图像优化了多模交互的识别效率、有效抑制了识别噪声，识别结果可信度更好、不会误导非目标用户，也不会干扰目标用户购票。

还包括交易模块，用于完成票价的电子支付。所述交易模块可以与所述信号采集模块、所述处理模块和所述引导模块集成在同一电子设备中，也可以单独设置在其它电子设备中，并不限定。

所述交易模块包括被动标识载体，所述被动标识载体包括一维条形码、二维条形码、RFID、NFC。标识载体是指承载标识编码以及标识编码相关信息的物理实体，支持对标识编码以及标识编码相关信息的操作。所述被动标识载体是附着在工业设备或者产品的表面，由标识读写器读取后用于相关操作。例如用户根据所述引导模块反馈的购票金额进行扫码支付或者NFC支付。

所述交易模块包括网络通信单元，所述网络通信单元用于将所述人脸检测器获取的面部特征数据上传至服务器，进行人脸支付认证。通过所述交易模块能够实现人脸支付，使得整个支付过程更加便捷，当用户接受所述引导模块反馈的票务结果，确认购票的同时完成支付过程，进一步缩短了票务处理时间。

本发明第二方面提供一种交通票务处理系统，包括若干本发明第一方面的交通票务处理装置和若干自动出票装置，所述交通票务处理装置与所述自动出票装置通信连接。所述交通票务处理装置和所述自动出票装置可以集成在一台电子设备中，集成度高可以直接投放使用。所述交通票务处理装置和所述自动出票装置也可以是各自独立的装置。例如所述自动出票装置可以是现有的自助售票机的一个部分。

所述交通票务处理装置与所述自动出票装置通过局域网通信连接；一台所述自动出票装置对应连接多台所述交通票务处理装置。能够结合车站的空间灵活布局所述交通票务处理装置和所述自动出票装置，同时便于多用户同时发起与所述交通票务处理装置的多模交互，出票是票务处理中相对单一的环节，而多模交互中涉及的票务处理流程相对更多，如此设置有利于节约排队的总体时间，提高出票的时间占比。

本发明第三方面提供一种交通票务处理方法，包括：步骤S1.信息采集模块录入用户语音及图像数据；步骤S2.识别单元提取多模信号，运行识别算法得到对应语音内容的文本；步骤S3.基于语义理解算法从所述文本中获取票务处理所需内容；步骤S4.根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。

所述步骤S1中，所述录入用户语音及图像数据，由用户人为触发。

所述步骤S2中，识别单元提取多模信号包括：人脸检测算法检测人脸，并得到人脸landmark点（人脸检测算法在检测人脸时，标出关键部位的关键点，如眼镜、鼻子、唇部）；提取一段时间内的多帧唇部图片，卷积神经网络模型判断用户是否有唇动，若唇动则连续提取对应的音频mfcc特征（Mel-frequency cepstral coefficients，梅尔频率倒谱系数）直至检测到无唇动。

所述“提取一段时间内的多帧唇部图片”之前，所述识别单元运行双目测距算法进行计算，所述唇部图片是指当前图像中最靠前的用户的唇部图片。

所述步骤S2中，“运行识别算法得到对应语音内容的文本”具体是运行多模唇语识别算法，将所述唇部图片输入2D卷积神经网络模型得到唇部图片特征，将唇部图片特征以及所述音频mfcc特征输入长短期记忆网络模型，经解码器解码输出对应语音内容的文本。

所述步骤S3中，包括将所述对应语音内容的文本输入到长短期记忆网络模型或文本卷积模型进行意图类别，若是请求买票意图，则将文本输入到序列标注模型抽取出目的地、票数内容，如所述对应语音内容的文本不属于买票意图则提示用户选择重新进行交互或中止当前票务处理。

所述步骤S4中，包括调用导航地图软件接口，基于步骤S3中得到的目的地，搜索得到最合适的目的站。

所述步骤S4中，包括引导用户进行支付和取票。

与现有技术相比，本发明的主要有益效果：

1、本发明的基于多模交互的交通票务处理装置，包括采集单元，能够采集用户在语音交互同时的图像信息，通过所述识别单元能够提取多模信号，并基于多模信号识别语音内容，识别更精确，使得智能化的交通票务处理装置较现有单一的语音交互设备更进一步具备了在车站嘈杂环境的实际应用价值。所述采集单元包括双目摄像头，能够如人的双眼一样实现双目立体视觉，基于双目测距算法，识别单元能够提取最靠前的用户的图像，进一步避免了识别干扰因素，识别结果可信，不会误导非目标用户。所述交易模块支持电子支付，提高了多模交互与票务处理的后段环节的连续性，节省整个购票的时间，利于改善站内拥挤购票的问题。本发明的交通票务处理系统，因具有基于多模交互的交通票务处理装置具有相应优势，与所述自动出票装置灵活配合，利于适应车站内结合检票口、人流量及相关空间布局进行设置。通过局域网将多台本发明的交通票务处理装置配合连接一台自动出票装置，利于缩短用户排队时间，也能够让多个用户间隔一定距离进行多模语音交互，避免了多个用户不得不聚集到一台交通票务处理装置进行交互，而造成的问题，例如个人隐私保护的难度大，传播疾病风险高的。本发明的交通票务处理装置，构造简单，易于在现有的自助购票机基础上进行改造，不浪费现有资源，节约投入成本。

2、本发明的交通票务处理方法，步骤简洁，效率高、结果可靠。不依赖于用户的文化程度和对交通线路熟悉，只要说出目的地，即可得到票务处理结果，人工操作步骤少。

附图说明

图1为本发明实施例一的交通票务处理装置示意图。

图2为本发明实施例一的交通票务处理系统示意图。

图3为本发明实施例一的交通票务处理方法示意图

图4为本发明实施例二的交通票务处理装置示意图。

图5为本发明实施例二的交通票务处理系统示意图。

具体实施方式

下面将对本发明具体实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解。附图中，相同结构或功能的部分利用相同的附图标记来标记，出于显示清楚的原因必要时并不是所有示出的部分在全部附图中用所属的附图标记来标记。

在下述实施例中采用特定次序描绘了实施例的操作，这些次序的描述是为了更好的理解实施例中的细节以全面了解本发明，但这些次序的描述并不一定与本发明的方法一一对应，也不能以此限定本发明的范围。

需要说明的是，附图中的流程图和框图，图示出按照本发明实施例的方法可能实现的操作过程。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以并不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以穿插的执行，依所涉及的步骤要实现的目的而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与人工操作结合来实现。

实施例一

本发明实施例一中，如图1所示，基于多模交互的交通票务处理装置，包括相互通信连接的信号采集模块1、处理模块2和引导模块3。本实施例中，多模信号包括语音和用户图像，信号采集模块1包括语音采集单元11和图像采集单元12。所谓“模态”（Modality），是德国生理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，例如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机或具有计算机功能的装置进行交流，充分模拟人与人之间的交互方式。由此可以理解，基于多模交互的交通票务处理装置根据实际交互的多模信号及结合实际应用需要还可以包括其他采集单元，例如采集用户温度的体温采集单元，通过体温采集单元获取目标用户的体温特征判断是否为正常体温的用户在进行交互购票等等，并不限定。处理模块2包括识别单元21、解析单元22和若干预设深度学习模型；识别单元21基于多模信号运行识别算法得到对应语音内容的文本，解析单元22基于语义理解算法从所述文本中获取票务处理所需内容。引导模块3根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。本实例具体的预设深度学习模型包括序列标注模型、长短期记忆网络模型、2D卷积神经网络模型；文本意图识别模型。

本实施例中，语音采集单元11包括麦克风阵列、回声消除芯片和录音按钮，用户按下录音按钮启动语音录入。相较于现有智能语音设备中通过触发音来启动语音录入了做法，采用人工按下按钮来触发更适合车站的应用场景。在一些具体场景中也可以采用普通的麦克风进行语音采集，节约硬件成本，麦克风安装在摄像头附近。图像采集单元12采用一个角度较大的摄像头，以便适配不同身高段的用户，能拍摄到说话人的脸部特征的变化。所述用户图像是指用户唇部图片；识别单元21基于采集的语音和用户图像，采用多模唇语识别算法得到相应语音内容的文本。本实施例中，识别单元21包括人脸检测器、解码器。本实施例选用的是BlazeFace人脸检测器，适用于在近距离正脸场景下的人脸检测任务，既可以保证检测的准确性，又有很快的推理速度，也易于部署于嵌入式设备中。解析单元22通过文本意图识别模型和序列标注模型进行语义解析。本实施例的文本意图识别模型具体采用LSTM-Attention模型，所述序列标注模型具体采用LSTM-CRF模型。解析单元22采用的语义理解算法，包括基于长短期记忆网络模型的自然语言处理算法。自然语言处理（NaturalLanguage Processing，NLP）技术是与自然语言的计算机处理有关的所有技术的统称，其目的是使计算机能够理解和接受人类用自然语言输入的指令。LSTM模型结合编码器得到用户说话内容的文本，解析单元22从中提取所说的目的地和票数等票务处理所需内容。

本实施例中示例的引导模块3包括内置的预设导航地图软件、语音播报器31和显示装置32。显示装置32采用触摸显示屏，直观的显示线路地图及票务处理结果。语音采集单元11的录音按钮本实施例中是由触摸显示屏界面的一个控件实现的。引导模块3得到解析单元22提取的目的地，调用导航地图软件接口，运行导航地图软件获取相适合的目的站、线路，并根据导航地图软件给出的目的站和线路计算票价，由显示装置32向用户展示。本实施例中预设导航地图软件为百度地图。

本实施例的交通票务处理系统如图2所示，包括若干台电子设备，图2仅以一台电子设备为例，一台本实施例的交通票务处理装置P和一台自动出票装置Q集成在该电子设备中构成交通票务处理系统，也是多台电子设备共同构成交通票务处理系统，并不限定。本实施例的自动出票装置Q是车站现有的没有语音交互功能的自助购票机的一个部分。

本实施例的交通票务处理方法，如图3所示，包括：步骤S1.信息采集模块录入用户语音及图像数据；步骤S2.识别单元提取多模信号，运行识别算法得到对应语音内容的文本；步骤S3.基于语义理解算法从所述文本中获取票务处理所需内容；步骤S4.根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。本实施例在步骤S1中，所述录入用户语音及图像数据，由用户人为触发。也可以通过设置距离传感器等设备，当用户进入某一区域范围即触发票务处理流程的启动，并不限定。在步骤S2中，识别单元21提取多模信号包括：人脸检测算法检测人脸，并得到人脸landmark点；提取一段时间内的多帧唇部图片，长短期记忆网络模型判断用户是否有唇动，若唇动则连续提取对应的音频mfcc特征直至检测到无唇动。具体在步骤S3中，将所述对应语音内容的文本输入到长LSTM-Attention模型进行意图识别，若是请求买票意图，则将文本输入到LSTM-CRF模型抽取出目的地、票数内容，如所述对应语音内容的文本不属于买票意图则通过语音播报器31或者在显示装置32的图形界面弹出对话框提示用户选择重新输入语音或中止当前票务处理。用户可能说了一些跟买票无关的话，判断出这句话所属的意图类别，是买票还是非买票，过滤掉无关内容。在步骤S4中，调用导航地图软件接口，基于步骤S3中得到的目的地，搜索得到最合适的目的站，本实施例中最合适的目的站是导航地图软件根据距离计算得到的距离目的地最近的目的站。在也有的实施例中最合适的目的站是指去往距离目的地在预设公里数内的所有目的站中所需支付票价最低的一个目的站，并不限定。在步骤S4中，还引导用户进行支付和取票，具体是告知用户票价、支付方式、取票位置和取票操作方法。

实施例二

如图4所示，实施例二与实施例一的区别主要在于，交通票务处理装置还包括交易模块4，用于完成票价的电子支付。本实施例中交易模块4具体包括采用丝网印刷附着在电子设备表面的二维码。在也有的实施场景中采用其他被动标识载体，采用NFC、RFID等方式实现无接触电子支付。在还有的实施场景中，为了避免附着在电子设备表面的被动标识载体被磨损，交易模块4包括网络通信单元41，网络通信单元41用于将人脸检测器获取的面部特征数据上传至服务器，进行人脸支付认证。支持实现人脸识别支付技术，用户只用说一句话（说出去哪儿），就能一体化完成交通票务处理流程中的全部购票环节。

本实施例中，图像采集单元12包括双目摄像头12A，用于同一时间捕获两帧图像；识别单元21基于双目测距算法得出当前图像所包含用户的相对远近关系，本实施例的多模信号中用户图像是指当前图像中最靠前的用户的图像。本实施例的双目测距算法基于OpenCV实现。（OpenCV是一个跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。由一系列 C 函数和少量 C++ 类构成，同时提供了Python、Ruby、MATLAB等语言的接口）。其具体过程包括：双目定标和校正，获得摄像头的参数矩阵：立体匹配，获得视差图；得出测距。其原理基于人眼双目立体视觉，单目摄像头无法得出某一个景物点的深度。因为在一条直线上的投影，在单目摄像头中都是同一个点，就像只用一只眼睛看东西很难判断准确其远近。人眼能够感知物体的远近，是由于两只眼睛对同一个物体呈现的图像存在差异，也称“视差”。物体距离越远，视差越小；反之，视差越大。视差的大小对应着物体与眼睛之间距离的远近。因此双目摄像头能够通过三角形相似定律得出某一个景物点离双目摄像头的焦平面的垂直距离，记为z。摄像头焦距记为f，左右摄像头基线相距b，视差记为d，即同一时间捕获两帧图像中两个相同的景物点分别在两帧图像中的坐标差值。通过公式

基于可以预知的b和f运算得出景物点与双目摄像头12A所在平面的距离。本实施例中，在进行多模唇语识别之前先得出当前图像所包含全部人脸上鼻尖部位的相对远近关系，选取鼻尖部位距离摄像头最近的人脸提取其唇部图片，进行后续多模唇语识别。有效避免了误识别，进一步抑制了识别干扰因素，识别更准确、结果可靠。本实施例中在双目摄像头12A下方垂直间距10cm-30cm的区域设置有语音采集单元11的音频输入端11A，用于接收用户语音。

如图5所示，本实施例的交通票务处理系统示例的包括相隔1米以上设置的多台本实施例的交通票务处理装置P和1台自动出票装置Q，交通票务处理装置P和自动出票装置Q通过车站内部局域网相互通信连接。一般的做法中5台交通票务处理装置P连接1台自动出票装置Q。交通票务处理装置P和自动出票装置Q可以结合车站空间布局灵活设置，例如自动出票装置Q设置在车站安检区附近，交通票务处理装置P设置在人工车票改签窗口附近。由于本实施例的交通票务处理装置P基于其构成能够集成在小型化的电子设备中，也可以集成于用户的智能移动终端中（如智能手机、平板电脑等）易于大量配置，而自动出票装置Q由于其必要的打印车票的功能需要考虑硬件空间和打印原材料空间。一台自动出票装置Q配多台交通票务处理装置P是一种资源优化配置，多台交通票务处理装置P可以同时满足多个用户的相对较多的票务处理前端环节，节约排队时间；自动出票装置Q只有一个出票和一个取票这两个操作，一次由一个用户按秩序完成也已经大幅缩短了采用现有的票务处理系统需要的时间。

本发明为了便于叙述清楚而采用的一些常用的英文名词或字母只是用于示例性指代而非限定性解释或特定用法，不应以其可能的中文翻译或具体字母来限定本发明的保护范围。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明进行了详细介绍，本文中应用了具体的个例对本发明的结构及工作原理进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求保护的范围内。

Claims

1.基于多模交互的交通票务处理装置，其特征在于：包括信号采集模块、处理模块和引导模块；

所述信号采集模块包括语音采集单元和图像采集单元；所述处理模块包括识别单元、解析单元和预设深度学习模型；

所述识别单元包括人脸检测器、解码器；所述识别单元基于多模信号运行识别算法得到对应语音内容的文本，所述多模信号包括语音和用户图像；

所述预设深度学习模型包括序列标注模型、长短期记忆网络模型、2D卷积神经网络模型；

所述解析单元基于语义理解算法从所述文本中获取票务处理所需内容；

所述引导模块根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。

2.根据权利要求1所述的基于多模交互的交通票务处理装置，其特征在于：所述用户图像是指用户唇部图片；所述识别算法包括多模唇语识别算法。

3.根据权利要求1所述的基于多模交互的交通票务处理装置，其特征在于：所述人脸检测器是带人脸关键点检测的人脸检测算法模型，根据人脸关键点抠取唇部图片；唇部图片的特征抽取模型是所述2D卷积神经网络模型；结合唇部图片特征和语音特征输入到所述长短期记忆网络模型；所述语义理解算法包括基于所述长短期记忆网络模型的自然语言处理算法。

4.根据权利要求1所述的基于多模交互的交通票务处理装置，其特征在于：所述引导模块包括导航地图软件；

所述引导模块基于所述解析单元获取的目的地，调用所述导航地图软件接口，输出目的站，并根据所述目的站进行计算输出相关票务信息；

所述相关票务信息包括票价、线路、票数或取票位置中的一个或几个。

5.根据权利要求1-4任意一项所述的基于多模交互的交通票务处理装置，其特征在于：所述语音采集单元包括麦克风阵列和回声消除芯片。

6.根据权利要求1-4任意一项所述的基于多模交互的交通票务处理装置，其特征在于：所述图像采集单元包括双目摄像头，用于同一时间捕获两帧图像；

所述识别单元运行双目测距算法计算当前图像所包含用户的相对远近关系，所述用户图像是指当前图像中最靠前的用户的图像。

7.根据权利要求1-4任意一项所述的基于多模交互的交通票务处理装置，其特征在于：还包括交易模块，用于完成票价的电子支付。

8.根据权利要求7所述的基于多模交互的交通票务处理装置，其特征在于：所述交易模块包括网络通信单元，所述网络通信单元用于将所述人脸检测器获取的面部特征数据上传至服务器，进行人脸支付认证。

9.交通票务处理系统，其特征在于：包括若干权利要求1-8任意一项所述的交通票务处理装置和若干自动出票装置，所述交通票务处理装置与所述自动出票装置通信连接。

10.根据权利要求9所述的交通票务处理系统，其特征在于：所述交通票务处理装置与所述自动出票装置通过局域网通信连接；一台所述自动出票装置对应连接多台所述交通票务处理装置。

11.交通票务处理方法，其特征在于：包括：

步骤S1.信息采集模块录入用户语音及图像数据；

步骤S2.识别单元提取多模信号，运行识别算法得到对应语音内容的文本；

步骤S3.基于语义理解算法从所述文本中获取票务处理所需内容；

步骤S4.根据所述票务处理所需内容得到票务处理结果并将其反馈给用户。

12.根据权利要求11所述的交通票务处理方法，其特征在于：所述步骤S1中，所述录入用户语音及图像数据，由用户人为触发。

13.根据权利要求11所述的交通票务处理方法，其特征在于：所述步骤S2中，识别单元提取多模信号包括：人脸检测算法检测人脸，并得到人脸landmark点；提取一段时间内的多帧唇部图片，卷积神经网络模型判断用户是否有唇动，若唇动则连续提取对应的音频mfcc特征直至检测到无唇动。

14.根据权利要求13所述的交通票务处理方法，其特征在于：所述“提取一段时间内的多帧唇部图片”之前，所述识别单元运行双目测距算法进行计算得到用户的位置信息，所述唇部图片是指当前图像中最靠前的用户的唇部图片。

15.根据权利要求13所述的交通票务处理方法，其特征在于：所述步骤S2中，“运行识别算法得到对应语音内容的文本”具体是运行多模唇语识别算法，将唇部图片输入到2D卷积神经网络模型得到唇部图片特征，再将所述唇部图片特征、所述音频mfcc特征输入长短期记忆网络模型，经解码器解码输出对应语音内容的文本。

16.根据权利要求11所述的交通票务处理方法，其特征在于：所述步骤S3中，包括将所述对应语音内容的文本输入到长短期记忆网络模型或文本卷积模型进行意图识别，若是请求买票意图，则将文本输入到序列标注模型抽取出目的地、票数内容，如所述对应语音内容的文本不属于买票意图则提示用户选择重新输入语音或中止当前票务处理。

17.根据权利要求11所述的交通票务处理方法，其特征在于：所述步骤S4中，包括调用导航地图软件接口，基于步骤S3中得到的目的地，搜索得到最合适的目的站。

18.根据权利要求11-17任意一项所述的交通票务处理方法，其特征在于：所述步骤S4中，包括引导用户进行支付和取票。