CN117455645A - 一种基于多模态组件的企业级金融音视频平台 - Google Patents
一种基于多模态组件的企业级金融音视频平台 Download PDFInfo
- Publication number
- CN117455645A CN117455645A CN202311545066.4A CN202311545066A CN117455645A CN 117455645 A CN117455645 A CN 117455645A CN 202311545066 A CN202311545066 A CN 202311545066A CN 117455645 A CN117455645 A CN 117455645A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- service
- platform
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 claims abstract description 77
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 62
- 238000007689 inspection Methods 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 35
- 230000005540 biological transmission Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 26
- 230000011664 signaling Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 24
- 230000001133 acceleration Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 17
- 238000011161 development Methods 0.000 claims description 17
- 238000012544 monitoring process Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000002955 isolation Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000003908 quality control method Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 238000013475 authorization Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 210000001503 joint Anatomy 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009545 invasion Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于多模态组件的企业级金融音视频平台,平台整体逻辑架构包括:基础设施层,为音视频平台的运行提供操作环境和硬件设施;中台能力层,提供多种AI计算能力以及音视频数据存储能力;音视频服务层,提供包括音视频引擎、音视频基础服务以及音视频核心服务;应用组件层,基于音视频基础服务和核心服务,构建并提供标准化、可复用的音视频应用组件;渠道接入层,根据音视频应用场景,提供多种客户渠道接入;应用场景层,基于音视频服务层与音视频应用组件,为各种应用场景提供音视频服务;运营管理层,为音视频平台提供运营管理功能。本发明为商业银行构建线上线下一体化智能音视频金融交易服务体系提供新的解决方案。
Description
技术领域
本发明涉及线上金融业务办理技术领域,尤其是涉及一种基于多模态组件的企业级金融音视频平台。
背景技术
随着商业银行渠道转型,线上金融业务办理成为常态,客户行为发生深刻改变,对线上金融服务需求日益增长,这对银行服务模式和数字化转型提出了更高要求。将人工服务的温情化品质和互联网服务的高效便捷相融合,以新的渠道模式解决传统银行服务在时空限制和服务触达上痛点,成为商业银行渠道转型的选择方向。
近年来,伴随5G、音视频和人工智能等技术不断发展,互动流媒体应用被广为接受,远程音视频技术的创新应用已进入规模化商用落地阶段,为大型商业银行探索和落地数字化音视频创新服务提供可靠的技术支撑。商业银行智能音视频金融交易服务体系建设依赖于音视频系统,然而现有音视频系统存在以下问题:
一是跨平台支持不足,难以全面支持和兼容移动端和桌面端各类操作系统;二是音视频核心能力不足,缺乏视频互动、路由调度、智能质检等核心能力,金融业务视频仍需人工质检人力成本较高,并且缺乏企业级可复用的音视频能力,开发效率较低,开发周期较长,无法快速落地金融音视频应用场景;三是稳定性和高可用不足,现有方案一般基于裸光纤链路通讯,存在视频延时高、视频不流畅等问题,难以满足高并发的音视频金融业务场景要求;四是安全防护能力不足,现有音视频系统的信令和音视频数据传输和存储的安全防护不满足金融级安全管控要求,难以防止恶意攻击,存在数据泄露风险。
发明内容
本发明的目的是克服上述现有技术存在的缺陷而提供一种基于多模态组件的企业级金融音视频平台。
本发明的目的可以通过以下技术方案来实现:
一种基于多模态组件的企业级金融音视频平台,所述音视频平台整体逻辑架构包括:
基础设施层,为音视频平台的运行提供操作环境和硬件设施;
中台能力层,提供多种AI计算能力以及音视频数据存储能力;
音视频服务层,提供包括音视频引擎、音视频基础服务以及音视频核心服务;其中所述音视频基础服务包括信令管理、链路加速服务、路由调度以及质检服务;
应用组件层,基于音视频基础服务和核心服务,构建并提供标准化、可复用的音视频应用组件;
渠道接入层,根据音视频应用场景,提供多种客户渠道接入;
应用场景层,基于音视频服务层与音视频应用组件,为各种应用场景提供音视频服务;
运营管理层,为音视频平台提供运营管理功能。
进一步的,所述中台能力层包括AI能力中台和数据中台,所述AI能力中台提供包括OCR、生物识别、TTS、ASR、NLP和机器学习的多种AI计算能力;所述数据中台提供音视频数据存储能力。
进一步的,所述音视频服务层中:
所述音视频引擎提供具备功能包括音频采集、视频采集、音频编解码、视频编解码、回声消除、噪声抑制、图像增强以及视频特效;
所述音视频基础服务包括信令管理、链路加速服务、会话服务、房间管理、媒体服务、路由调度、互动服务、录制服务以及质检服务;
所述音视频核心服务提供包括实时音视频、直播、点播以及即时通讯的音视频核心服务。
进一步的,所述音视频基础服务中:
所述链路加速服务通过构建音视频专属链路加速网络为音视频数据传输提供安全加速服务,实现边缘就近接入与智能路由调度;
所述媒体服务提供媒体协商与媒体质量控制功能,通过协商双方的设备、网络状况和传输质量参数,确定最佳的音视频传输方案;通过监测音视频传输过程中的实时质量数据,自动调整音视频质量;
所述路由调度提供自定义调度规则配置,根据调度规则配置进行智能路由统一调度,调度规则包括根据用户标签、根据坐席空闲时长、根据坐席技能以及根据坐席所属网点进行路由调度;
所述质检服务提供视频双录文件基础质检和内容质检功能,所述基础质检包括对音视频码率、帧率和双录时长偏离度进行检测;所述内容质检包括对视频内容进行审核和检测,所述质检服务支持在会话过程中完整导出或截帧导出音视频流,对双录内容进行动态质检。
进一步的,所述应用组件层基于音视频基础服务和核心服务构建的音视频应用组件以SDK、API、H5三种方式进行集成和调用提供给各类渠道系统;
所述音视频应用组件通过5G网络或者专线网络与接入方进行对接,按租户方式对接入方进行统一管理,对双录视频文件物理隔离存储,并对数据全链路加密传输。
进一步的,所述音视频应用组件包括:坐席组件、会客室组件、智能双录组件、智能质检组件、直播组件、点播组件、会议组件、即时通讯组件、视频调阅组件以及视频监控组件,其中:
所述坐席组件,集成包括人脸识别、OCR识别、手签验真、TTS和ASR的AI服务,支持1对1视频和多方视频通话,包括信息区、会话区与交易区;信息区具备客户信息展示、文字聊天与内容推送的功能,会话区具备音视频通讯、会话转接与视频互动功能,交易区内嵌业务交易,办理业务时跳转至基于接入规范开发的功能页面;
所述双录组件,用于提供业务全流程的双录功能,建立基于产品库的可编排模板,根据不同产品动态配置话术、响应、事件与工作流;
所述智能质检组件,提供质检功能包括:视频质量检测、人脸识别、证件识别、人证比对、内容检测、双人同框检测、人脸遮挡/离框检测、话术检测、话术播报、动作检测、多人音频分离以及情绪识别,用于对各种业务场景视频进行自动化检测;
所述用户接入组件,用户接入组件提供功能包括视频通话、投屏、双录、签名、聊天与身份核验,支持多种平台、浏览器以及渠道的接入。
进一步的,所述运营管理层提供功能包括运营调度、音视频门户、多租户管理、存储管理以及安全管理,其中:
所述运营调度提供统一调度、统一监控和统一视图功能,统一调度按路由调度规则集中调度音视频金融交易任务,将各类客户和后台服务人员的精准匹配;统一监控按机构与场景维度实时监控房间数量、参会人员数量和通话时长信息;统一视图功能按产品、机构和渠道维度展示各场景成效指标,包括交易量、交易金额、成功率与通话时长;
所述音视频门户提供音视频应用组件、开发手册与应用案例;
所述多租户管理以租户方式对接入方进行统一管理,按租户、场景和功能维度分配音视频房间通话时长与使用时限资源;
存储管理提供包括视频数据统一存储与视频统一调阅;
安全管理提供包括国密加密、加密传输与密钥自管理。
进一步的,所述音视频平台采用基于云计算平台的多活多中心部署架构,包括两个或多个主从配置的同城中心以及异地灾备中心;
所述同城中心与异地灾备中心配置并提供音视频服务与数据存储,音视频服务提供音视频引擎、音视频基础服务以及音视频核心服务;其中,音视频流媒体数据存储于OSS,利用OSS数据复制机制实现多中心之间的数据同步;
所述同城中心与异地灾备中心同客户端之间设置DMZ进行隔离,所述DMZ部署有音视频网关以及代理服务器,具备均衡以及内网访问外网的正向代理功能;客户端通过外网DNS域名解析服务就近接入同城中心。
进一步的,音视频平台实时音视频通讯包括纯公网、内外网与纯内网三种模式;
纯外网音视频通讯:服务人员使用外网设备,客户使用外网渠道;两端的信令流均在内网和外网传输以完成注册鉴权和音视频呼叫操作;音视频流在外网传输,通过云端链路加速服务进行加速,并将视频双录文件保存至内网音视频平台;
内外网音视频通讯:服务人员使用内网设备,客户使用外网渠道;客户信令流通过DMZ传输至内网音视频平台,服务人员信令流在内网传输;音视频流在外网和内网之间传输,通过云端链路加速服务进行加速;
纯内网音视频通讯:服务人员使用内网设备,客户使用内网设备;信令流和音视频流均在内网传输,通过音视频平台相互推流,实现音视频通讯。
进一步的,所述音视频平台构建有多维立体的信息安全防护体系,覆盖包括客户端、数据传输和存储、视频融合双录、身份与信任管理、访问控制以及安全审计;
所述客户端采用的安全机制方面包括采用SDK混淆、SDK鉴权、信令流私有协议、数据流私有协议及本地数据加密;
所述数据传输采用的安全机制方面包括采用国密算法,通过获取一次性密钥,对单个会话进行加密;
所述视频融合双录采用的安全机制方面包括双录密钥私有管理,通过加密双录媒体流,录制服务拉取媒体流到私有化环境,通道数据不留存;
所述数据存储采用的安全机制方面包括通过私有云对象存储Bucket权限、多用户访问控制、STS临时授权以及采用多区域存储。
与现有技术相比,本发明具有以下有益效果:
本发明提出的基于多模态智能化组件的企业级金融音视频平台,
通过企业级可复用的金融音视频应用组件,提高了音视频金融应用的开发效率,降低了音视频金融应用的开发成本,缩短了开发周期,为商业银行以规模化方式快速建设音视频金融应用场景奠定技术基础。
为商业银行构建线上线下一体化智能音视频金融交易服务体系提供新的解决方案,以新的渠道模式解决传统银行服务在时空限制和服务触达上痛点,促进商业银行数字化经营能力整体提升。
1)本发明平台设置AI能力中层,并综合运用能力中层中的OCR、人脸识别、语音识别、机器学习、动作检测等AI技术,构建了一套标准化、可复用的多模态智能化音视频应用组件,同时具备可编排可配置能力,覆盖各类音视频金融应用场景,提升智慧化和合规水平,提高了音视频金融应用的开发效率,降低了音视频金融应用的开发成本,缩短了开发周期,为商业银行以规模化方式快速建设音视频金融应用场景奠定技术基础。
2)本发明平台构建的金融音视频应用组件支持各类渠道系统以SDK、API、H5三种方式灵活集成和组装,降低对渠道侵入,解耦系统依赖,实现业务流和音视频流的松耦合,支持商业银行以规模化方式打造音视频应用场景生态。
3)本发明平台提供云端链路加速、智能路由调度、智能质检等多模态智能化音视频能力,提升了音视频金融应用的智慧化和合规水平,降低商业银行人力成本和经营成本。
4)企业级金融音视频平台采用端到端信创技术和分布式架构,基于云计算平台实现多活多中心部署,具备高可靠、高性能、高扩展等技术特性,并且具备强大的跨平台兼容性和多渠道接入特性,提升了音视频通讯质量,提高了用户体验,满足了各类用户音视频金融服务需求。
5)本发明音视频平台还构建有金融级多维立体的信息安全防护体系,保障了金融交易安全,防止用户隐私信息泄露,满足金融级系统安全性要求。
附图说明
图1为本发明的企业级金融音视频平台逻辑架构示意图;
图2为本发明企业级金融音视频平台部署架构示意图;
图3为本发明企业级金融音视频平台安全架构示意图;
图4为本发明企业级金融音视频平台纯外网实时音视频通讯示意图;
图5为本发明企业级金融音视频平台内外网实时音视频通讯示意图;
图6为本发明企业级金融音视频平台纯内网实时音视频通讯示意图;
图7为本发明企业级金融音视频平台网点音视频交易时序图;
图8为本发明企业级金融音视频平台人机交互视频双录时序图;
图9为本发明企业级金融音视频平台贷款会客室时序图;
图10为本发明企业级金融音视频平台理财视频双录质检时序图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本发明针对商业银行音视频金融交易服务体系建设,传统音视频平台存在跨平台支持不足、音视频核心能力不足、音视频通话品质欠佳、开发效率较低等问题,为了解决这些问题,本发明提供了一种基于多模态智能化组件的企业级金融音视频平台。
本发明提供的企业级金融音视频平台采用端到端信创技术和分布式架构,基于云计算平台实现多活多中心部署,具备高可靠、高性能、高扩展等技术特性。平台构建了涵盖实时音视频、即时通讯、直播、点播四大基础能力,以及视频互动、智能调度、智能双录、智能质检、国密加密等音视频增强能力。平台具备强大的跨平台兼容性,支持Android、iOS、MACOS、iPadOS、Windows、银河麒麟、鸿蒙等8种平台,支持Safari、Chrome、QQ、Firefox、Edge、360等30余种浏览器。平台具备强大的多渠道接入特性,支持手机银行、网银、微信小程序、智能终端、PC客户端、H5等渠道接入。平台构建了一套标准化、可复用的金融音视频应用组件,包括视频坐席组件、会客室组件、双录组件、质检组件、直播组件、点播组件、视频调阅组件等组件,支持各类渠道系统以SDK、API、H5三种方式灵活集成和组装,降低对渠道侵入,解耦系统依赖,实现业务流和音视频流的松耦合,支持商业银行以规模化方式打造音视频应用场景生态。平台综合运用OCR、人脸识别、语音识别、机器学习、动作检测等AI技术,实现多模态智能化音视频应用组件,同时具备可编排可配置能力,覆盖各类音视频金融应用场景,提升智慧化和合规水平,降低人力成本。平台建立多维度的路由调度规则引擎,根据客户画像进行智能匹配,实现不同业务场景下音视频任务智能路由统一调度,满足各类客户个性化、多元化、温情化的音视频金融服务需求。平台为商业银行建设线上线下一体化智能音视频金融交易服务体系提供支撑,涵盖云网点、云客服、云信贷、云理财等多领域多渠道音视频金融服务。
音视频平台整体架构:
企业级金融音视频平台整体架构由基础设施层、中台能力层、音视频服务层、应用组件层、应用场景层、渠道接入层、运营管理层和数据层组成,逻辑架构图如图1所示。
1.1)基础设施层。基础设施层为企业级金融音视频平台正常运行提供操作环境和硬件设施,包括网络、计算和存储等资源。基础设施层为上层提供物理资源和驱动,是企业级金融音视频平台的基础支持。采用分布式架构和信创技术架构,并基于云计算平台部署。
1.2)中台能力层。中台能力层包括AI能力中台和数据中台,AI能力中台提供OCR、生物识别、TTS、ASR、NLP、机器学习等能力,为音视频智慧化应用场景提供AI原子能力支撑。数据中台提供音视频数据存储能力。
1.3)音视频服务层。音视频服务层包括音视频引擎、基础服务和核心服务三部分,其中基础服务包括信令管理、链路加速服务、会话服务、房间管理、媒体服务、路由调度、互动服务、录制服务、质检服务等。核心服务提供实时音视频、直播、点播、即时通讯等音视频核心能力。
音视频引擎:提供音频采集、视频采集、音频编解码、视频编解码、回声消除、噪声抑制、图像增强、视频特效等基础功能。
信令管理:实现通信双方网络信息和媒体信息交换,协调通信双方之间的连接、建立、断开和控制等,同时为上层应用系统提供业务流程指令传输通道。
链路加速服务:构建金融音视频专属链路加速网络,为音视频数据传输提供安全加速服务,实现边缘就近接入、智能路由调度,提升音视频通讯质量。
会话服务:提供会话管理功能,包括会话建立、会话转接、会话暂停、会话结束、会话干预、会话异常处理、会话中断恢复等。会话服务具备抗弱网、抗网络抖动、抗数据丢包等适配能力,保障通讯可靠性。
房间服务:提供房间创建、房间销毁、房间状态管理、房间成员管理等功能。房间状态管理包括房间在线状态、人数限制、密码控制、房间公告等功能。成员管理包括成员上下线、重连、禁言、踢出等功能。
媒体服务:提供媒体协商、媒体质量控制等功能。通过协商双方的设备、网络状况、传输质量等参数,确定最佳的音视频传输方案。通过监测音视频传输过程中的实时质量数据,如帧率、码率、丢包率等,自动调整音视频质量,以提供最佳的通信体验。
路由调度:提供自定义调度规则配置,根据规则配置进行智能路由统一调度,调度规则包括根据用户标签、根据坐席空闲时长、根据坐席技能、根据坐席所属网点等。
互动服务:提供互动投屏、互动白板、互动批注、图文推送、语音与视频切换等功能。
录制服务:提供视频会话录制、视频会话与业务数据融合录制。支持在会话过程中对参与方摄像头画面、视频坐席操作过程等内容进行录制,录制内容包含关键业务环节。提供双录内容回放查看,包括音视频会话回放、业务操作记录等。
质检服务:提供视频双录文件基础质检和内容质检功能,基础质检主要对音视频码率、帧率、双录时长偏离度等进行检测,内容质检主要对视频内容进行审核和检测,支持在会话过程中完整导出或截帧导出音视频流,对双录内容进行动态质检。
实时音视频:提供一对一视频、多方视频、一对一语音、多方语音等功能,为各类实时音视频通讯场景提供基础支撑。
直播:提供视频直播、直播回放、直播互动、直播评论等功能,管理端拥有主流的媒体、图片、文件图层展示和丰富的主播端设置,支持第三方推流助手。
点播:提供视频上传、视频下载、视频转码、视频播放等功能。支持主流媒体格式在线播放,包括MP4、MOV、MKV、WEBM等。
即时通讯:提供消息传输、会话管理、群组管理、状态管理、表情包管理等功能,支持机构和用户数据导入。为实时音视频、直点播等各类应用场景提供文字聊天、图文推送、敏感词过滤等能力支撑。
1.4)应用组件层。应用组件层基于音视频基础服务和核心服务,构建一套标准化、可复用的智能金融音视频应用组件,包括视频坐席组件、用户接入组件、会客室组件、双录组件、直播组件、点播组件、会议组件、即时通讯组件、质检组件等。音视频应用组件以统一SDK、API、H5三种方式提供给各类渠道系统,应用系统根据音视频接入规范完成业务交易和流程开发,快速落地音视频应用场景。
1.5)应用场景层。各类应用系统基于音视频应用组件与音视频基础服务,可快速落地网点、信贷、理财、客服、营销、风控、内部管理等领域的音视频应用场景,包括云网点、云理财、信贷会客室、视频客服、理财双录、视频营销等对客音视频场景,以及视频会议、在线培训、在线面试等内部管理音视频场景。
1.6)渠道接入层。根据金融业务音视频应用场景,支持多种客户渠道接入,包括手机银行、网上银行、微信小程序、智能屏、智能机具、互联网金融APP、政务APP或者小程序、H5等,也支持坐席人员、客户经理、内部管理人员使用的移动端、PC端等员工平台和渠道接入。
1.7)运营管理层。运营管理层提供运营调度、音视频门户、多租户管理、存储管理、安全管理等功能。运营调度提供统一调度、统一监控和统一视图功能,统一调度按路由调度规则集中调度音视频金融交易任务,实现各类客户和后台服务人员的精准匹配;统一监控按机构、场景等维度实时监控房间数量、参会人员数量、通话时长等信息;统一视图功能按产品、机构、渠道维度展示各场景成效指标,包括交易量、交易金额、成功率、通话时长等。音视频门户提供音视频应用组件、开发手册、应用案例等。安全管理支持国密加密、加密传输、密钥自管理等。多租户管理以租户方式对接入方进行统一管理,按租户、场景和功能等维度分配音视频房间通话时长、使用时限等资源。存储管理包括视频数据统一存储、视频统一调阅等。
音视频平台的部署架构:
本发明的企业级金融音视频平台采用多活多中心部署架构,支持负载均衡、双活、灾备等机制,具备高可用、高可靠、高扩展等特性,保障业务连续性。以“同城双中心+异地灾备中心”为例,具体部署架构如图2所示。
2.1)互联网访问。客户端通过外网DNS域名解析服务就近接入双中心。如双中心均发生区域级灾难,则启用备用DNS服务将流量引至灾备中心。A中心机房级灾难时,数据存储服务将切换到从库,当前接入A中心的服务将中断,由B中心继续提供服务。
2.2)DMZ区隔离。DMZ区部署音视频网关以及代理服务器,使用Nginx以及Socks5代理等技术实现负载均衡以及内网访问外网的正向代理功能。
2.3)音视频服务。音视频引擎、信令管理、链路加速服务、会话服务、房间管理、媒体服务、路由调度、互动服务、融合双录、质检服务等基础服务,实时音视频、直播、点播、即时通讯等音视频核心服务。
2.4)数据存储。采用Mysql存储平台运行基础数据、Mongodb存储即时通讯数据、Redis存储音视频会话信息、用户信息等,通过双中心部署一主一从,主从同步保证高可用,灾备中心利用异步复制备份机制实现数据备份。音视频流媒体数据存储于OSS,利用OSS数据复制机制实现数据同步。
信息安全防护体系:
如图3所示,企业级金融音视频平台实现金融级多维立体的信息安全防护体系,覆盖客户端、数据传输和存储、视频融合双录、身份与信任管理、访问控制、安全审计等,客户端安全机制方面,采用SDK混淆、SDK鉴权、信令流私有协议、数据流私有协议、本地数据加密等方式保证端侧信息安全。传输安全机制方面,支持国密算法,通过获取一次性密钥,对单个会话进行加密,保证公网数据传输安全。双录安全机制方面,双录密钥私有管理,通过加密双录媒体流,录制服务拉取媒体流到私有化环境,通道数据不留存,保证视频录制数据安全。存储安全机制方面,通过私有云对象存储Bucket权限、多用户访问控制、STS临时授权、多区域存储,保证存储文件安全。实现对音视频金融交易的全渠道、全链路、全生命周期的信息安全防护,满足金融级系统安全性要求。
金融音视频通讯模式:
企业级金融音视频平台实时音视频通讯包括纯公网、内外网、纯内网三种典型模式。
纯外网音视频通讯:服务人员使用外网设备,客户使用手机银行和小程序等渠道,两端的信令流均在内网和外网传输,完成注册鉴权和音视频呼叫等操作。音视频流在外网传输,通过云端链路加速服务进行加速,并将视频双录文件保存至内网音视频平台,如图4所示。
内外网音视频通讯:服务人员使用内网设备,客户使用手机银行和小程序等渠道,客户信令流通过DMZ传输至内网音视频平台,服务人员信令流在内网传输。音视频流在外网和内网之间传输,通过云端链路加速服务进行加速,如图5所示。
纯内网音视频通讯:服务人员使用内网设备,客户使用内网智能机具等设备,信令流和音视频流均在内网传输,通过音视频平台相互推流,实现音视频通讯,如图6所示。
多模态智能化音视频应用组件:
基于企业级音视频应用技术标准和规范,建立一套标准化、可复用、智能化的金融音视频应用组件,包括音视频通讯基础组件及面向金融业务场景的音视频应用组件。音视频应用组件主要包括坐席组件、会客室组件、智能双录组件、智能质检组件、直播组件、点播组件、视频调阅组件、视频监控组件等,支持各类渠道系统以SDK、API、H5三种方式灵活快速集成和调用,实现业务流和音视频流的松耦合,降低对渠道侵入,解耦系统依赖,实现金融应用场景的集成和组装,提升敏捷交付能力。同时,音视频应用组件具备灵活输出能力,支持接入方各类渠道系统快速集成,支持接入方通过5G网络或者专线网络进行对接,支持按租户方式对接入方进行统一管理,支持双录视频文件物理隔离存储,并实现数据全链路加密传输,确保数据安全和隐私。
3.1)视频坐席组件。坐席组件分为信息区、会话区、交易区三个区,信息区具备客户信息展示、文字聊天、内容推送等功能,会话区具备音视频通讯、会话转接、视频互动等功能,交易区内嵌业务交易,办理业务时跳转至应用系统基于接入规范开发的功能页面。同时坐席组件集成人脸识别、OCR识别、手签验真、TTS、ASR等AI服务,支持1对1视频和多方视频通话,面向远程视频坐席人员、网点柜员、客户经理等用户,可应用于云网点、云理财、云客服等业务场景。
3.2)会客室组件。会客室组件提供预约会客室的创建、修改、删除、筛选功能,生成邀请链接、入会跳转、入会提醒、成员管理、会话控制等功能,支持多方视频通话。会客室组件可用于贷款申请、信息核实、征信授权、合同签订、线上审批等各个信贷业务环节,涵盖车贷、经营贷、消费贷、房贷、抵押贷等各类信贷产品,优化客户信贷旅程。
3.3)智能双录组件。双录组件包括自助双录组件和视频双录组件,视频双录组件按不同渠道又分为线上视频双录组件和线下视频双录组件,提供各类理财业务全流程的双录功能。建立了基于产品库的可编排模板,可根据不同产品动态配置话术、响应、事件、工作流。双录组件应用于各类理财产品的购买和销售场景,包括理财、基金、保险、信托、资管等产品,为客户财富管理提供便捷渠道。双录组件实现理财业务全过程融合双录,满足监管合规要求。
3.4)智能质检组件。质检组件提供视频质量检测、人脸识别、证件识别、人证比对、内容检测、双人同框检测、人脸遮挡/离框检测、话术检测、话术播报、动作检测、多人音频分离、情绪识别等质检功能,实现理财、信贷、客服等视频业务场景的自动化检测,节省人工质检成本。
3.5)用户接入组件。用户接入组件提供视频通话、投屏、双录、签名、聊天、身份核验等功能,支持Android、iOS、MACOS、iPadOS、Windows、银河麒麟、鸿蒙等8种平台,支持Safari、Chrome、QQ、Firefox、Edge、360等30余种浏览器,支持手机银行、网银、小程序、智能机具、政务APP/小程序、互联网金融APP、H5等渠道接入。
3.6)直播组件。直播组件提供直播推流、直播观看、直播回放、观看密码、美颜设置、直播水印、敏感词过滤、一键禁播、禁言等基础功能。同时支持产品图推送/下架、直播签到、聊天评论、祝福点赞、一对一连麦等互动功能。可应用于直播营销、招聘宣讲、线上培训等业务场景。
3.7)点播组件。点播组件提供上载、存储、审核、剪辑、检索、转码、下发等功能,以及视频发布、视频分析、视频审核等功能。视频播放中支持断点续播、弹幕发送、倍速播放、视频截图等功能。可通过视频,应用于银行客户营销、产品推介、知识分享、在线培训等各类直点播场景。
3.8)会议组件:该组件在多方视频通讯的基础上,对接OA系统、会议系统等,构建会议信息、会议材料等管理能力,应用于线上视频会议场景。
3.9)即时通讯组件:该组件在文字、视频、图片、文件等收发的基础上,建立机构、用户等信息管理能力,可集成在坐席、直播、点播、会议等业务组件中协同使用,也可单独应用于即时通讯、文件分享等场景。
3.10)视频调阅组件。视频调阅组件提供会话信息、双录视频信息、截图信息、聊天信息、音视频质量信息、视频打点标注等功能,实现在线播放、倍速播放、拖拽播放等功能,并具备播放地址防泄漏、播放并发限流管控等。可集成各个业务,坐席组件、会客室组件、双录组件等组件中用于及时回看视频录制状况,也可以集成至业务流程的审核岗、质检岗等合规环节。
3.11)视频监控组件。视频监控组件提供音视频通话和投屏的实时查看和控制功能,监控人员以静默的方式进入音视频通话中,并能进行结束音视频通话、指定用户踢出房间、指定用户打开关闭麦克风等功能。可用于业务监督人员抽查音视频业务,约束坐席服务人员、网点柜员、客户经理的违规行为,间接提升在线业务的办理质量。
典型音视频金融应用:
4.1、如图7所示为利用本发明音视频平台进行网点音视频交易时序图:
4.1.1)坐席登录。坐席组件从音视频服务端获取密钥SM2公钥,用于坐席端初步的加密交互,通过公钥加密请求向音视频服务端获取SM4的密钥和密文,最终解密生成SM4密钥。坐席组件从音视频服务端获取即时通讯的令牌Token,以及音视频通讯配置信息,包括域名、端口等。坐席组件将坐席人员签入、签出的状态同步给音视频服务端,由其同步至排队服务。
4.1.2)用户登录。用户接入组件从音视频服务端获取密钥SM2公钥,用于用户端初步的加密交互,通过公钥加密请求向音视频服务端获取SM4的密钥和密文,最终解密生成SM4密钥。用户组件从音视频服务端获取即时通讯的令牌Token,以及音视频通讯配置信息,包括域名、端口等。
4.1.3)建立音视频会话。用户接入组件先音视频服务端发起请求,获取空闲坐席人员。如有空闲坐席,则向音视频服务端发起音视频呼叫,并通知坐席组件产生振铃;音视频服务端收到坐席组件的接听指令,通知用户接入组件加入会话,在成功加入会话并通知坐席组件加入会话。双方在各自加入会话后开始推流,完成音视频会话建立,坐席组件并将状态同步至排队服务。
4.1.4)邀请第三方坐席加入会话。坐席组件先从排队服务获取空闲坐席人员,再向音视频服务端发起第三方坐席进房邀请,第三方坐席组件收到音视频服务端通知后产生振铃并发送接听指令;音视频服务端发送会话信息,第三方坐席加入会话并开始推流。
4.1.5)人脸识别。坐席组件向用户接入组件发送人脸识别卡框指令,用户接入组件显示人脸识别卡框。坐席组件截取一帧用户人脸图片,将图片发送至音视频服务端,坐席组件获取图片URL并进行预览,并通过用户接入组件关闭人脸识别卡框。坐席组件向音视频服务端发起人脸识别请求,音视频服务端调用人证比对服务,并将结果返回至坐席组件。
4.1.6)OCR识别。坐席组件向用户接入组件发送OCR识别卡框指令,用户接入组件显示OCR识别卡框。坐席组件截取一帧用户证件图片,将图片发送至音视频服务端,坐席组件获取图片URL并进行预览,并通过用户接入组件关闭OCR识别卡框。坐席组件向音视频服务端发起证件OCR识别请求,音视频服务端调用OCR识别服务,并将识别结果返回至坐席组件。
4.1.7)签字。坐席组件推送签字版指令给用户接入组件,用户接入组件在客户端展示签字板,客户完成签字后生成签字图片并进行Base64编码上传至音视频服务端,音视频服务端通知坐席组件对图片进行预览。
4.1.8)投屏。用户接入组件向音视频服务端发起投屏请求,服务端将投屏辅流加入本地录制,并返回允许投屏结果给用户接入组件,用户接入组件进行投屏辅流。
4.1.9)会话挂断。坐席组件和用户接入组件均可发起挂断请求,音视频服务端关闭本地录制,并记录会话时间。
4.1.10)会话小结。坐席组件获取会话小结页面,并生成会话小结,发送至音视频服务端,同时更新坐席状态并同步至排队服务。
4.2、如图8所示为利用本发明音视频平台进行人机交互视频双录时序图:
4.2.1)获取产品编排信息。人机双录组件向音视频服务端发送请求,获取产品库对应产品描述信息及产品的动态配置话术、响应、事件、工作流等产品编排信息,根据产品编排信息,初始化理财双录流程及产品交互事件响应逻辑。随后顺序调用获取密钥接口、登录接口、动态音视频通讯配置接口完成用户登录。
4.2.2)建立音视频会话。人机双录组件向音视频服务端发起创建音视频会话请求,音视频服务端创建会话信息用于管理整个音视频通话的生命周期,创建视频房间用于管理视频房间成员的进入退出等操作,创建媒体服务用于进行音视频通话和媒体质量控制,创建本地录制子进程用于拉取视频流在本地进行混流录制。音视频服务端返回创建会话成功,人机双录组件监听回调事件,开始推送音视频流和组件画面的渲染,同时音视频服务端本地录制服务订阅此音视频流,在服务端拉流混流生成录制视频文件。
4.2.3)人脸质检。人机双录组件进入双录流程后,会全程显示人脸定位卡框,按配置策略定时截帧获取用户画面,并向音视频服务端发送人脸质检请求,音视频服务端按照人脸在框、人脸遮挡、多人同框等检测点调用AI服务进行检测,并将检测结果返回给人机双录组件,人机双录组件按照配置的阈值进行文字提醒,或者中断录制流畅。
4.2.4)话术播报。人机双录组件通过产品配置信息,显示当前流程节点话术文本,并将话术文本发送至AI服务,由TTS服务返回语音音频文件。人机双录组件在本地缓存音频文件,从缓存区读取音频流播放给用户,同时将话术音频混入推送给音视频服务端的音视频流中,用于服务端进行视频录制。在语音播报结束后,截帧获取用户画面,向音视频服务端发送请求,进行用户活体检测和人脸比对。
4.2.5)语音识别。人机双录组件根据流程配置,通过文字和语音引导用户回答,同时录制用户回答语音,生成音频文件,并将音频文件发送至AI服务,由ASR服务返回语音识别文本结果,人机双录组件将文本结果与产品库响应事件进行匹配,按流程配置判断后续流程。整个理财双录过程中会按重复执行产品话术播报和用户语音识别流程,直至配置的流程执行完毕。
4.2.6)提交录像。人机双录组件发送会话结束请求至音视频服务端,音视频服务端结束本地录制,并异步生成录制文件的转码和转存任务;音视频服务端结束视频房间和会话信息,更新统计信息并失效会话密钥;音视频服务端结束媒体服务释放音视频通话资源。人机双录组件收到成功结束会话返回后,通过事件监听停止推送音视频流,结束视频双录流程。
4.3、如图9所示为利用本发明音视频平台贷款会客室时序图:
4.3.1)创建会客室。会客室组件向音视频服务端发送请求,根据贷款任务类型、贷款会客室起止时间、操作人、所属租户、渠道、场景等信息创建会客室预约记录,并提供修改与检索功能。
4.3.2)生成邀请链接。会客室组件向音视频服务端发送请求,根据成员类型、成员角色、姓名、手机号码等信息维护会客室成员,并通过音视频服务端按时效策略、接入渠道,生成邀请链接,向客户发送短信提醒。
4.3.3)入会流程。客户点击短信链接后,按照接入渠道打开对应的用户接入组件,完成登录等操作,并授权上传定位等信息用于生成视频录制水印。客户按流程加入会客室后,并推送音视频流进行音视频通话。音视频服务端向已登录的主持人推送客户入会提醒,主持人加入会客室,并推送音视频流。主持人可在通话过程中进行截帧、人脸识别、OCR识别、投屏、签字板推送等操作。
4.3.4)成员管理。主持人可对会客室成员进行关闭麦克风、关闭摄像头、移除会客室等操作。会客室组件向音视频服务端发送指定成员静音请求,音视频服务端向该成员推送静音指令,用户接入组件接收指令后执行禁用本地麦克风操作。会客室组件向音视频服务端发送移除指定成员请求,音视频服务端向该成员推送退出房间指令,用户接入组件接收指令后向音视频服务端发送退出会客室请求,收到退出结果返回后,停止推送音视频流,同时主持人及其他会客室成员重新按成员布局渲染界面。
4.3.5)分段录制。会客室组件支持用户自定义录制模式,当采取分段录制模式时,主持人点击开始录制按钮,向音视频服务端发送请求,音视频服务端创建本地录制服务,并异步监听拉取会客室房间音视频流。主持人点击开始录制按钮时,音视频服务端结束本地录制服务,并异步生成转存任务,用于存储视频文件,生成在线播放地址。
4.3.6)退出/解散会客室。主持人或客户均可主动退出会客室,会客室组件向音视频服务端发送退出会客室请求,收到退出结果返回后,停止推送音视频流。主持人可进行解散会客室操作,会客室组件向音视频服务端发送解散会客室请求,收到解散成功返回后,停止推送音视频流;音视频服务端向会客室内其他成员推送退出房间信令,其他组件接收指令后向音视频服务端发送退出会客室请求,收到退出结果返回后,停止推送音视频流。
4.4、如图10所示为利用本发明音视频平台进行理财视频双录质检时序图
4.4.1)建立音视频会话。线下双录组件向音视频服务端发起创建音视频会话请求,音视频服务端创建会话信息用于管理整个音视频通话的生命周期,创建视频房间用于管理视频房间成员的进入退出等操作,创建媒体服务用于进行音视频通话和媒体质量控制,创建本地录制子进程用于拉取视频流在本地进行混流录制。音视频服务端返回创建会话成功,线下双录组件监听回调事件,开始推送音视频流和组件画面的渲染,同时音视频服务端本地录制服务订阅此音视频流,在服务端拉流混流生成录制视频文件。
4.4.2)获取产品话术信息。线下双录组件向音视频服务端发送请求,获取产品库对应产品描述信息及产品的动态配置话术信息。
4.4.3)话术播报。线下双录组件将产品话术显示在录制区域右侧,点击开始播报按钮后,将话术文本发送至AI服务,由TTS服务返回语音音频文件。线下双录组件在本地缓存音频文件,从缓存区读取音频流播放给用户,同时将话术音频混入推送给音视频服务端的音视频流中,用于服务端进行视频录制。
4.4.4)语音识别。线下双录组件根据话术弹框提示和语音引导用户回答,同时录制用户回答语音,生成音频文件,并将音频文件发送至AI服务,由ASR服务返回语音识别文本结果,线下双录组件将文本结果与期望客户的回答结果进行匹配,当客户回答不符合预期时,可以进行重新回答或结束双录,当客户回答符合预期时,进行判断是否需要进行AI质检,若无需执行AI质检,则自动播报下一条话术。
4.4.5)AI质检。线下双录组件在话术播报完毕且语音识别结束后,根据话术相关信息判断是否需要执行AI质检识别,包括人脸识别、身份证识别、文档识别(文档类型包含:基金合同、基金产品资料概要、基金招募说明书、保险条款、投保提示书、投保单、理财产品合同、理财产品协议书)、动作识别(出示动作识别、签字动作识别),在执行本条话术需要执行的所有AI质检识别后,将会自动播报下一条话术。
4.4.6)提交录像。线下双录组件发送会话结束请求至音视频服务端,音视频服务端结束本地录制,并异步生成录制文件的转码和转存任务;音视频服务端结束视频房间和会话信息,更新统计信息并失效会话密钥;音视频服务端结束媒体服务释放音视频通话资源。线下双录组件收到成功结束会话返回后,通过事件监听停止推送音视频流,结束视频双录流程。
本发明提供的一种基于多模态智能化组件的企业级金融音视频平台,为商业银行构建线上线下一体化智能音视频金融交易服务体系提供新的解决方案,以新的渠道模式解决传统银行服务在时空限制和服务触达上痛点,促进商业银行数字化经营能力整体提升。
1.通过企业级可复用的金融音视频应用组件,提高了音视频金融应用的开发效率,降低了音视频金融应用的开发成本,缩短了开发周期,为商业银行以规模化方式快速建设音视频金融应用场景奠定技术基础。
2.通过丰富的音视频功能、强大的跨平台兼容性和多渠道接入特性,提升了音视频通讯质量,提高了用户体验,满足了各类用户音视频金融服务需求。
3.通过多模态智能化音视频能力,提升了音视频金融应用的智慧化和合规水平,降低商业银行人力成本和经营成本。
4.通过金融级多维立体的信息安全防护体系,保障了金融交易安全,防止用户隐私信息泄露,满足金融级系统安全性要求。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频平台整体逻辑架构包括:
基础设施层,为音视频平台的运行提供操作环境和硬件设施;
中台能力层,提供多种AI计算能力以及音视频数据存储能力;
音视频服务层,提供包括音视频引擎、音视频基础服务以及音视频核心服务;其中所述音视频基础服务包括信令管理、链路加速服务、路由调度以及质检服务;
应用组件层,基于音视频基础服务和核心服务,构建并提供标准化、可复用的音视频应用组件;
渠道接入层,根据音视频应用场景,提供多种客户渠道接入;
应用场景层,基于音视频服务层与音视频应用组件,为各种应用场景提供音视频服务;
运营管理层,为音视频平台提供运营管理功能。
2.根据权利要求1所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述中台能力层包括AI能力中台和数据中台,所述AI能力中台提供包括OCR、生物识别、TTS、ASR、NLP和机器学习的多种AI计算能力;所述数据中台提供音视频数据存储能力。
3.根据权利要求1所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频服务层中:
所述音视频引擎提供具备功能包括音频采集、视频采集、音频编解码、视频编解码、回声消除、噪声抑制、图像增强以及视频特效;
所述音视频基础服务包括信令管理、链路加速服务、会话服务、房间管理、媒体服务、路由调度、互动服务、录制服务以及质检服务;
所述音视频核心服务提供包括实时音视频、直播、点播以及即时通讯的音视频核心服务。
4.根据权利要求3所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频基础服务中:
所述链路加速服务通过构建音视频专属链路加速网络为音视频数据传输提供安全加速服务,实现边缘就近接入与智能路由调度;
所述媒体服务提供媒体协商与媒体质量控制功能,通过协商双方的设备、网络状况和传输质量参数,确定最佳的音视频传输方案;通过监测音视频传输过程中的实时质量数据,自动调整音视频质量;
所述路由调度提供自定义调度规则配置,根据调度规则配置进行智能路由统一调度,调度规则包括根据用户标签、根据坐席空闲时长、根据坐席技能以及根据坐席所属网点进行路由调度;
所述质检服务提供视频双录文件基础质检和内容质检功能,所述基础质检包括对音视频码率、帧率和双录时长偏离度进行检测;所述内容质检包括对视频内容进行审核和检测,所述质检服务支持在会话过程中完整导出或截帧导出音视频流,对双录内容进行动态质检。
5.根据权利要求4所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述应用组件层基于音视频基础服务和核心服务构建的音视频应用组件以SDK、API、H5三种方式进行集成和调用提供给各类渠道系统;
所述音视频应用组件通过5G网络或者专线网络与接入方进行对接,按租户方式对接入方进行统一管理,对双录视频文件物理隔离存储,并对数据全链路加密传输。
6.根据权利要求5所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频应用组件包括:坐席组件、会客室组件、智能双录组件、智能质检组件、直播组件、点播组件、会议组件、即时通讯组件、视频调阅组件以及视频监控组件,其中:
所述坐席组件,集成包括人脸识别、OCR识别、手签验真、TTS和ASR的AI服务,支持1对1视频和多方视频通话,包括信息区、会话区与交易区;信息区具备客户信息展示、文字聊天与内容推送的功能,会话区具备音视频通讯、会话转接与视频互动功能,交易区内嵌业务交易,办理业务时跳转至基于接入规范开发的功能页面;
所述双录组件,用于提供业务全流程的双录功能,建立基于产品库的可编排模板,根据不同产品动态配置话术、响应、事件与工作流;
所述智能质检组件,提供质检功能包括:视频质量检测、人脸识别、证件识别、人证比对、内容检测、双人同框检测、人脸遮挡/离框检测、话术检测、话术播报、动作检测、多人音频分离以及情绪识别,用于对各种业务场景视频进行自动化检测;
所述用户接入组件,用户接入组件提供功能包括视频通话、投屏、双录、签名、聊天与身份核验,支持多种平台、浏览器以及渠道的接入。
7.根据权利要求1所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述运营管理层提供功能包括运营调度、音视频门户、多租户管理、存储管理以及安全管理,其中:
所述运营调度提供统一调度、统一监控和统一视图功能,统一调度按路由调度规则集中调度音视频金融交易任务,将各类客户和后台服务人员的精准匹配;统一监控按机构与场景维度实时监控房间数量、参会人员数量和通话时长信息;统一视图功能按产品、机构和渠道维度展示各场景成效指标,包括交易量、交易金额、成功率与通话时长;
所述音视频门户提供音视频应用组件、开发手册与应用案例;
所述多租户管理以租户方式对接入方进行统一管理,按租户、场景和功能维度分配音视频房间通话时长与使用时限资源;
存储管理提供包括视频数据统一存储与视频统一调阅;
安全管理提供包括国密加密、加密传输与密钥自管理。
8.根据权利要求1-7任一所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频平台采用基于云计算平台的多活多中心部署架构,包括两个或多个主从配置的同城中心以及异地灾备中心;
所述同城中心与异地灾备中心配置并提供音视频服务与数据存储,音视频服务提供音视频引擎、音视频基础服务以及音视频核心服务;其中,音视频流媒体数据存储于OSS,利用OSS数据复制机制实现多中心之间的数据同步;
所述同城中心与异地灾备中心同客户端之间设置DMZ进行隔离,所述DMZ部署有音视频网关以及代理服务器,具备均衡以及内网访问外网的正向代理功能;客户端通过外网DNS域名解析服务就近接入同城中心。
9.根据权利要求8所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,音视频平台实时音视频通讯包括纯公网、内外网与纯内网三种模式;
纯外网音视频通讯:服务人员使用外网设备,客户使用外网渠道;两端的信令流均在内网和外网传输以完成注册鉴权和音视频呼叫操作;音视频流在外网传输,通过云端链路加速服务进行加速,并将视频双录文件保存至内网音视频平台;
内外网音视频通讯:服务人员使用内网设备,客户使用外网渠道;客户信令流通过DMZ传输至内网音视频平台,服务人员信令流在内网传输;音视频流在外网和内网之间传输,通过云端链路加速服务进行加速;
纯内网音视频通讯:服务人员使用内网设备,客户使用内网设备;信令流和音视频流均在内网传输,通过音视频平台相互推流,实现音视频通讯。
10.根据权利要求1所述的一种基于多模态组件的企业级金融音视频平台,其特征在于,所述音视频平台构建有多维立体的信息安全防护体系,覆盖包括客户端、数据传输和存储、视频融合双录、身份与信任管理、访问控制以及安全审计;
所述客户端采用的安全机制方面包括采用SDK混淆、SDK鉴权、信令流私有协议、数据流私有协议及本地数据加密;
所述数据传输采用的安全机制方面包括采用国密算法,通过获取一次性密钥,对单个会话进行加密;
所述视频融合双录采用的安全机制方面包括双录密钥私有管理,通过加密双录媒体流,录制服务拉取媒体流到私有化环境,通道数据不留存;
所述数据存储采用的安全机制方面包括通过私有云对象存储Bucket权限、多用户访问控制、STS临时授权以及采用多区域存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545066.4A CN117455645A (zh) | 2023-11-20 | 2023-11-20 | 一种基于多模态组件的企业级金融音视频平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545066.4A CN117455645A (zh) | 2023-11-20 | 2023-11-20 | 一种基于多模态组件的企业级金融音视频平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117455645A true CN117455645A (zh) | 2024-01-26 |
Family
ID=89596702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311545066.4A Pending CN117455645A (zh) | 2023-11-20 | 2023-11-20 | 一种基于多模态组件的企业级金融音视频平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455645A (zh) |
-
2023
- 2023-11-20 CN CN202311545066.4A patent/CN117455645A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9742830B2 (en) | Systems and methods for asynchronously joining and leaving video conferences and merging multiple video conferences | |
US8917306B2 (en) | Previewing video data in a video communication environment | |
CN100562095C (zh) | 一种用即时消息系统实现视频会议的方法及系统 | |
US20120017149A1 (en) | Video whisper sessions during online collaborative computing sessions | |
CN107995456A (zh) | 智慧园区视频会议系统 | |
US10938870B2 (en) | Content management across a multi-party conferencing system by parsing a first and second user engagement stream and facilitating the multi-party conference using a conference engine | |
US20100153858A1 (en) | Uniform virtual environments | |
WO2013043207A1 (en) | Event management/production for an online event | |
US8855280B1 (en) | Communication detail records (CDRs) containing media for communications in controlled-environment facilities | |
CN106605386A (zh) | 分享内容 | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
CN107370610A (zh) | 会议同步方法和装置 | |
US20140047025A1 (en) | Event Management/Production for an Online Event | |
CN111711528A (zh) | 网络会议的管控方法、装置、计算机可读存储介质及设备 | |
US12015494B2 (en) | Sidebars for virtual meetings | |
WO2012133860A1 (ja) | 遠隔会議システム | |
US11671472B1 (en) | Voice agent for sidebars during virtual meetings | |
CN117455645A (zh) | 一种基于多模态组件的企业级金融音视频平台 | |
CN116193062A (zh) | 一种会议互联的方法、装置、电子设备以及存储介质 | |
JP7391390B2 (ja) | 情報処理装置 | |
CN112804267B (zh) | 分级会议处理方法及装置、电子设备和存储介质 | |
CN102016816A (zh) | 事件之间的消息传送 | |
CN102017620A (zh) | 安排好的事件之前的通信 | |
US20240195850A1 (en) | Aggregation & distribution of diverse multimedia feeds | |
US12034554B2 (en) | Enhanced conference rooms for persistent hybrid virtual collaborative workspaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |