CN118260447A - 信息处理方法及装置、存储介质和电子设备 - Google Patents

信息处理方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN118260447A
CN118260447A CN202410542652.1A CN202410542652A CN118260447A CN 118260447 A CN118260447 A CN 118260447A CN 202410542652 A CN202410542652 A CN 202410542652A CN 118260447 A CN118260447 A CN 118260447A
Authority
CN
China
Prior art keywords
target
vector
text
detection result
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410542652.1A
Other languages
English (en)
Inventor
刘唱
张锦元
林晓锐
姚冕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410542652.1A priority Critical patent/CN118260447A/zh
Publication of CN118260447A publication Critical patent/CN118260447A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种信息处理方法及装置、存储介质和电子设备,涉及人工智能技术领域、金融科技领域或其他相关领域。该方法包括:获取目标对象在办理金融业务的过程中的目标视频和语音信息;对目标视频进行截取处理,得到图像集合;将语音信息转换为文本集合;将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为。通过本申请,解决了相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题。

Description

信息处理方法及装置、存储介质和电子设备
技术领域
本申请涉及人工智能技术领域、金融科技领域或其他相关领域,具体而言,涉及一种信息处理方法及装置、存储介质和电子设备。
背景技术
目前网点已大规模推广智能柜员机,帮助客户快速办理业务,但智能柜员机办理业务过程中,仍需依赖网点工作人员的协助及授权等,在办理过程中,可能会出现工作人员的一些违规操作,例如代客操作、违规拨打电话、多人同时操作等,迫切需要自动化方案检测网点工作人员的违规行为。
相关技术一中,一般通过对视觉图像进行处理,来检测是否存在目前动作,也即,通过判断图片中的人体关键点,将其与危险动作的关键点对比得出检测结论。但是,相关技术一中对于动作检测的方法比较老旧,只采用简单的图像关键点对比的方式,准确率较差。
相关技术二中,一般采用基于深度学习的图像识别方法来获得更精确的动作定位和分类结果。但是,相关技术二中的基于深度学习的图像识别方法只运用了视觉上的图像数据,来识别视频图像中的违规动作,导致识别违规动作的准确性较低。另外,在环境较为复杂的场景下,例如,视频采集不清晰、光线不稳定等情况下,相关技术一和相关技术二采用的方法的鲁棒性也比较有限。
针对相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种信息处理方法及装置、存储介质和电子设备,以解决相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种信息处理方法。该方法包括:获取目标对象在办理金融业务的过程中的目标视频和语音信息;对所述目标视频进行截取处理,得到图像集合,其中,所述图像集合中包括至少一个图像;将所述语音信息转换为文本集合,其中,所述文本集合中包括至少一个文本;将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果,其中,所述目标检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标行为,所述目标行为表征在办理所述金融业务的过程中禁止操作的行为。
进一步地,将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果包括:通过所述目标检测模型对所述图像集合中的图像进行特征提取处理,得到第一向量集合,其中,所述第一向量集合中包括至少一个第一向量,所述至少一个第一向量为所述图像集合中的图像对应的向量;对所述文本集合中的文本进行特征提取处理,得到第二向量集合,其中,所述第二向量集合中包括至少一个第二向量,所述至少一个第二向量为所述文本集合中的文本对应的向量;依据所述图像集合中的图像的生成时刻和所述文本集合中的文本对应的语音的生成时刻,对所述第一向量集合中的第一向量和所述第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,所述对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;基于所述第一向量集合中的第一向量、所述第二向量集合中的第二向量和所述对齐后的向量集合中的向量,得到对所述目标对象的所述目标检测结果。
进一步地,基于所述第一向量集合中的第一向量、所述第二向量集合中的第二向量和所述对齐后的向量集合中的向量,得到对所述目标对象的所述目标检测结果包括:基于所述第一向量集合中的第一向量,对所述目标对象在办理所述金融业务时的动作进行检测处理,得到第一检测结果,其中,所述第一检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标动作,所述目标动作为在办理所述金融业务的过程中禁止执行的动作;基于所述第二向量集合中的第二向量,对所述目标对象在办理所述金融业务时的语音进行检测处理,得到第二检测结果,其中,所述第二检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标语音,所述目标语音为在办理所述金融业务的过程中禁止出现的语音;基于所述对齐后的向量集合中的向量,对所述目标对象在办理所述金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,所述第三检测结果用于表示所述目标对象在办理所述金融业务时是否存在所述目标动作和所述目标语音;依据所述第一检测结果、所述第二检测结果和所述第三检测结果,得到对所述目标对象的所述目标检测结果。
进一步地,依据所述第一检测结果、所述第二检测结果和所述第三检测结果,得到对所述目标对象的所述目标检测结果包括:若所述第一检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作,和/或,所述第二检测结果表示所述目标对象在办理所述金融业务时存在所述目标语音,和/或,所述第三检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作和/或所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时存在所述目标行为;若所述第一检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作,且所述第二检测结果表示所述目标对象在办理所述金融业务时不存在所述目标语音,且所述第三检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作和所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时不存在所述目标行为。
进一步地,所述目标检测模型通过以下方式得到:获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,所述图像向量为所述样本图像对应的向量,所述原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;将每个样本文本输入所述原始检测模型进行特征提取处理,输出多个文本向量,其中,所述文本向量为所述样本文本对应的向量;基于所述多个带有标签的样本图像、所述多个带有标签的样本文本、所述多个图像向量和所述多个文本向量,得到所述目标检测模型。
进一步地,基于所述多个带有标签的样本图像、所述多个带有标签的样本文本、所述多个图像向量和所述多个文本向量,得到所述目标检测模型包括:基于所述多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;基于所述多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;依据所述第一识别结果、所述第二识别结果、所述多个带有标签的样本图像和所述多个带有标签的样本文本,计算损失函数;基于所述损失函数,对所述原始检测模型的参数进行调整,得到所述目标检测模型。
进一步地,将所述语音信息转换为文本集合包括:对所述语音信息进行切分处理,得到至少一个目标语句;对所述至少一个目标语句进行转写处理,得到所述至少一个文本;依据所述至少一个文本,确定所述文本集合。
为了实现上述目的,根据本申请的另一方面,提供了一种信息处理装置。该装置包括:第一获取单元,用于获取目标对象在办理金融业务的过程中的目标视频和语音信息;第一处理单元,用于对所述目标视频进行截取处理,得到图像集合,其中,所述图像集合中包括至少一个图像;第一转换单元,用于将所述语音信息转换为文本集合,其中,所述文本集合中包括至少一个文本;第二处理单元,用于将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果,其中,所述目标检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标行为,所述目标行为表征在办理所述金融业务的过程中禁止操作的行为。
进一步地,所述第二处理单元包括:第一处理子单元,用于通过所述目标检测模型对所述图像集合中的图像进行特征提取处理,得到第一向量集合,其中,所述第一向量集合中包括至少一个第一向量,所述至少一个第一向量为所述图像集合中的图像对应的向量;第二处理子单元,用于对所述文本集合中的文本进行特征提取处理,得到第二向量集合,其中,所述第二向量集合中包括至少一个第二向量,所述至少一个第二向量为所述文本集合中的文本对应的向量;第三处理子单元,用于依据所述图像集合中的图像的生成时刻和所述文本集合中的文本对应的语音的生成时刻,对所述第一向量集合中的第一向量和所述第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,所述对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;第一确定子单元,用于基于所述第一向量集合中的第一向量、所述第二向量集合中的第二向量和所述对齐后的向量集合中的向量,得到对所述目标对象的所述目标检测结果。
进一步地,所述第一确定子单元包括:第一处理模块,用于基于所述第一向量集合中的第一向量,对所述目标对象在办理所述金融业务时的动作进行检测处理,得到第一检测结果,其中,所述第一检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标动作,所述目标动作为在办理所述金融业务的过程中禁止执行的动作;第二处理模块,用于基于所述第二向量集合中的第二向量,对所述目标对象在办理所述金融业务时的语音进行检测处理,得到第二检测结果,其中,所述第二检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标语音,所述目标语音为在办理所述金融业务的过程中禁止出现的语音;第三处理模块,用于基于所述对齐后的向量集合中的向量,对所述目标对象在办理所述金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,所述第三检测结果用于表示所述目标对象在办理所述金融业务时是否存在所述目标动作和所述目标语音;第一确定模块,用于依据所述第一检测结果、所述第二检测结果和所述第三检测结果,得到对所述目标对象的所述目标检测结果。
进一步地,所述第一确定模块包括:第一确定子模块,用于若所述第一检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作,和/或,所述第二检测结果表示所述目标对象在办理所述金融业务时存在所述目标语音,和/或,所述第三检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作和/或所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时存在所述目标行为;第二确定子模块,用于若所述第一检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作,且所述第二检测结果表示所述目标对象在办理所述金融业务时不存在所述目标语音,且所述第三检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作和所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时不存在所述目标行为。
进一步地,所述目标检测模型通过以下单元得到:第二获取单元,用于获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;第一标注单元,用于依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;第三处理单元,用于将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,所述图像向量为所述样本图像对应的向量,所述原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;第四处理单元,用于将每个样本文本输入所述原始检测模型进行特征提取处理,输出多个文本向量,其中,所述文本向量为所述样本文本对应的向量;第一确定单元,用于基于所述多个带有标签的样本图像、所述多个带有标签的样本文本、所述多个图像向量和所述多个文本向量,得到所述目标检测模型。
进一步地,所述第一确定单元包括:第一识别子单元,用于基于所述多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;第二识别子单元,用于基于所述多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;第一计算子单元,用于依据所述第一识别结果、所述第二识别结果、所述多个带有标签的样本图像和所述多个带有标签的样本文本,计算损失函数;第一调整子单元,用于基于所述损失函数,对所述原始检测模型的参数进行调整,得到所述目标检测模型。
进一步地,所述第一转换单元包括:第四处理子单元,用于对所述语音信息进行切分处理,得到至少一个目标语句;第五处理子单元,用于对所述至少一个目标语句进行转写处理,得到所述至少一个文本;第二确定子单元,用于依据所述至少一个文本,确定所述文本集合。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储程序,其中,所述程序执行上述的任意一项所述的信息处理方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的信息处理方法。
通过本申请,采用以下步骤:获取目标对象在办理金融业务的过程中的目标视频和语音信息;对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为,解决了相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题。通过从银行网点工作人员为客户办理业务的视频中的关键图像,以及业务办理过程中的对话文本等多模态数据中提取特征,并进行交互学习,同时将提取的图像与文本的向量表示输入识别网络模型中进行推理,确定网点工作人员在为客户办理业务时是否存在违规行为,从而可以提升违规动作识别的能力,进而达到了提升检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的信息处理方法的流程图;
图2是根据本申请实施例提供的信息处理系统的示意图;
图3是根据本申请实施例提供的可选的信息处理方法的流程图;
图4是本实施例中对识别网络模型进行训练的流程图;
图5是本实施例中识别网络模型的结构图;
图6是根据本申请实施例提供的信息处理装置的示意图;
图7是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的信息处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标对象在办理金融业务的过程中的目标视频和语音信息。
例如,上述的目标对象可以为金融机构或者银行网点的工作人员;上述的目标视频可以为金融机构或者银行网点的工作人员在为客户办理业务时录制的视频录像;上述的语音信息可以为金融机构或者银行网点的工作人员在为客户办理业务时,对业务办理过程的对话进行录音而得到的语音信息。
步骤S102,对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像。
例如,在采集业务办理视频(对应上述的目标视频)之后,可以按照每秒视频截取5帧的数量取得关键帧图像(对应上述的至少一个图像),并将取得的多张关键帧图像汇总在一起,得到上述的图像集合。
步骤S103,将语音信息转换为文本集合,其中,文本集合中包括至少一个文本。
例如,在获取到业务办理过程录制的音频(对应上述的语音信息)之后,可以按照语句维度对业务办理过程的音频(对应上述的语音信息)进行切分,并将切分后的每段语音分别转写为文本(对应上述的至少一个文本),再将转换后的多个文本汇总在一起,得到上述的文本集合。
步骤S104,将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为。
例如,可以将获得的多张关键帧图像(对应上述的图像集合)和转写后的多个文本(对应上述的文本集合)输入识别网络模型(对应上述的目标检测模型)中进行推理,得到金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规行为(对应上述的目标行为)。
需要说明的是,本申请实施例提供的信息处理方法可以应用于金融场景中。
通过上述的步骤S101至S104,通过从银行网点工作人员为客户办理业务的视频中的关键图像,以及业务办理过程中的对话文本等多模态数据中提取特征,并进行交互学习,同时将提取的图像与文本的向量表示输入识别网络模型中进行推理,确定网点工作人员在为客户办理业务时是否存在违规行为,从而可以提升违规动作识别的能力,进而达到了提升检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性的效果。
可选地,在本申请实施例提供的信息处理方法中,将语音信息转换为文本集合包括:对语音信息进行切分处理,得到至少一个目标语句;对至少一个目标语句进行转写处理,得到至少一个文本;依据至少一个文本,确定文本集合。
例如,在将业务办理过程中的对话(对应上述的语音信息)实现文字转写时,可以按照语句维度对业务办理过程的音频(对应上述的语音信息)进行切分,并将切分后的每段语音分别转写为文本(对应上述的至少一个文本),再将转换后的多个文本汇总在一起,得到上述的文本集合。
通过上述的方案,可以方便的将业务办理过程中的对话转写为文本信息。
可选地,在本申请实施例提供的信息处理方法中,将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果包括:通过目标检测模型对图像集合中的图像进行特征提取处理,得到第一向量集合,其中,第一向量集合中包括至少一个第一向量,至少一个第一向量为图像集合中的图像对应的向量;对文本集合中的文本进行特征提取处理,得到第二向量集合,其中,第二向量集合中包括至少一个第二向量,至少一个第二向量为文本集合中的文本对应的向量;依据图像集合中的图像的生成时刻和文本集合中的文本对应的语音的生成时刻,对第一向量集合中的第一向量和第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果。
例如,在将获得的多张关键帧图像(对应上述的图像集合)和转写后的多个文本(对应上述的文本集合)输入识别网络模型(对应上述的目标检测模型)中之后,可以采用GCN(Graph Convolutional Network,一种用于图数据的深度学习模型)进行图像特征提取,实现图像的向量表示(对应上述的第一向量);并采用CNN(Convolutional NeuralNetwork,卷积神经网络,一种专门用于处理图像数据的深度学习模型)实现文本特征提取,处理文本内容,并提取关键特征,得到文本的向量表示(对应上述的第二向量);然后可以对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习,也即,需要将同一时间发生的图像和语音放在一起处理,并可以判断出在该时间上是否存在办理业务的违规行为,在将图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)对齐之后,可以根据图像的向量表示(对应上述的第一向量)、文本的向量表示(对应上述的第二向量)和同一时间上的图像和语音的向量表示(对应上述的对齐后的向量集合中的向量),识别金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规行为(对应上述的目标行为),即得到上述的目标检测结果。
综上所述,通过对业务办理视频和业务办理过程的对话进行特征提取,并采用时间水平交互学习的方法,可以提升通过模型识别违规行为的准确性。
可选地,在本申请实施例提供的信息处理方法中,基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果包括:基于第一向量集合中的第一向量,对目标对象在办理金融业务时的动作进行检测处理,得到第一检测结果,其中,第一检测结果用于表示目标对象在办理金融业务时是否存在目标动作,目标动作为在办理金融业务的过程中禁止执行的动作;基于第二向量集合中的第二向量,对目标对象在办理金融业务时的语音进行检测处理,得到第二检测结果,其中,第二检测结果用于表示目标对象在办理金融业务时是否存在目标语音,目标语音为在办理金融业务的过程中禁止出现的语音;基于对齐后的向量集合中的向量,对目标对象在办理金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,第三检测结果用于表示目标对象在办理金融业务时是否存在目标动作和目标语音;依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果。
例如,通过对视频图像提取的图像的向量表示(对应上述的第一向量),可以识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规动作(对应上述的目标动作);并通过对语音文本提取的文本的向量表示(对应上述的第二向量),可以识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在禁止出现的语音(对应上述的目标语音),比如上述的目标语音可以为金融机构或者银行网点的工作人员(对应上述的目标对象)说:“我来帮你弄”,“你们两个人一起过来办”等;再通过对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习后得到的向量(对应上述的对齐后的向量集合中的向量),可以识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的某一个时间上是否存在违规动作(对应上述的目标动作)和/或禁止出现的语音(对应上述的目标语音);然后可以根据对视频图像提取的图像的向量表示(对应上述的第一向量)得到的检测结果(对应上述的第一检测结果)、对语音文本提取的文本的向量表示(对应上述的第二向量)得到的检测结果(对应上述的第二检测结果),以及对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习后得到的向量(对应上述的对齐后的向量集合中的向量)得到的检测结果(对应上述的第三检测结果),确定金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规行为(对应上述的目标行为),即得到上述的目标检测结果。
通过上述的方案,根据图像的向量表示、文本的向量表示和基于时间水平交互学习得到的检测结果,可以快速准确的判断银行网点工作人员在为客户办理业务的过程中是否存在违规行为。
可选地,在本申请实施例提供的信息处理方法中,依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果包括:若第一检测结果表示目标对象在办理金融业务时存在目标动作,和/或,第二检测结果表示目标对象在办理金融业务时存在目标语音,和/或,第三检测结果表示目标对象在办理金融业务时存在目标动作和/或目标语音,则确定目标检测结果为目标对象在办理金融业务时存在目标行为;若第一检测结果表示目标对象在办理金融业务时不存在目标动作,且第二检测结果表示目标对象在办理金融业务时不存在目标语音,且第三检测结果表示目标对象在办理金融业务时不存在目标动作和目标语音,则确定目标检测结果为目标对象在办理金融业务时不存在目标行为。
例如,如果对视频图像提取的图像的向量表示(对应上述的第一向量)得到的检测结果(对应上述的第一检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中存在违规动作(对应上述的目标动作),和/或,对语音文本提取的文本的向量表示(对应上述的第二向量)得到的检测结果(对应上述的第二检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中存在禁止出现的语音(对应上述的目标语音),和/或,对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习后得到的向量(对应上述的对齐后的向量集合中的向量)得到的检测结果(对应上述的第三检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的某一个时间上是否存在违规动作(对应上述的目标动作)和/或禁止出现的语音(对应上述的目标语音),则最终可以确定金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中存在违规行为(对应上述的目标行为),即得到上述的目标检测结果。
例如,如果对视频图像提取的图像的向量表示(对应上述的第一向量)得到的检测结果(对应上述的第一检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中不存在违规动作(对应上述的目标动作),且对语音文本提取的文本的向量表示(对应上述的第二向量)得到的检测结果(对应上述的第二检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中不存在禁止出现的语音(对应上述的目标语音),且对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习后得到的向量(对应上述的对齐后的向量集合中的向量)得到的检测结果(对应上述的第三检测结果)表示金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的某一个时间上不存在违规动作(对应上述的目标动作)和禁止出现的语音(对应上述的目标语音),则最终可以确定金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中不存在违规行为(对应上述的目标行为),即得到上述的目标检测结果。
通过上述的方案,根据图像的向量表示的检测结果、文本的向量表示的检测结果和基于时间水平交互学习得到的检测结果,可以提升识别银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性。
可选地,在本申请实施例提供的信息处理方法中,目标检测模型通过以下方式得到:获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,图像向量为样本图像对应的向量,原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;将每个样本文本输入原始检测模型进行特征提取处理,输出多个文本向量,其中,文本向量为样本文本对应的向量;基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型。
例如,在对模型进行训练时,可以先采集并标注数据,即可以根据不同类别的违规行为对图片(对应上述的多个样本图像)及对应的文本(对应上述的多个样本文本)进行标签标注;然后进行特征提取,比如可以采用CNN(Convolutional Neural Network,卷积神经网络,一种专门用于处理图像数据的深度学习模型)实现文本特征提取,处理文本内容并提取关键特征(对应上述的多个文本向量),并采用GCN(Graph Convolutional Network,一种用于图数据的深度学习模型)进行图像特征提取,实现向量表示(对应上述的多个图像向量);并搭建原始的网络(对应上述的原始检测模型);然后对原始的网络(对应上述的原始检测模型)进行监督训练时,可以向原始的网络(对应上述的原始检测模型)输入训练数据(对应上述的多个文本向量和多个图像向量),并根据原始的网络(对应上述的原始检测模型)输出的检测结果以及进行了标签标注的图像和文本,得到上述的训练好的目标检测模型。
通过上述的方案,采用训练集数据可以方便的对原始检测模型进行学习训练。
可选地,在本申请实施例提供的信息处理方法中,基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型包括:基于多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;基于多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;依据第一识别结果、第二识别结果、多个带有标签的样本图像和多个带有标签的样本文本,计算损失函数;基于损失函数,对原始检测模型的参数进行调整,得到目标检测模型。
例如,在将图像向量表示(对应上述的多个图像向量)输入到原始的网络(对应上述的原始检测模型)中之后,可以识别出每个样本图像对应的违规行为的类别(对应上述的第一识别结果);并在将文本向量表示(对应上述的多个图像向量)输入到原始的网络(对应上述的原始检测模型)中之后,可以识别出每个样本文本对应的违规行为的类别(对应上述的第二识别结果);然后可以根据识别到的每个样本图像对应的违规行为的类别(对应上述的第一识别结果)、每个样本文本对应的违规行为的类别(对应上述的第二识别结果)、进行了标签标注的图像和文本(对应上述的多个带有标签的样本图像和多个带有标签的样本文本),计算损失函数,并不断调整参数直至模型收敛;然后得到最优解参数和最终的网络模型(对应上述的目标检测模型)。
通过上述的方案,根据计算得到的损失函数,可以快速准确的得到训练好的检测模式。
例如,本实施例提出了一种多模态的网点工作人员违规行为检测方法。本实施例主要解决的问题为:
(1)从视频关键图像、文本等多模态数据中提取特征,进行交互学习,提升违规动作识别的能力,例如,一些对话中可能出现相关信息能够辅助判断是否存在违规行为,例如服务人员说:“我来帮你弄”,“你们两个人一起过来办”等。
(2)使用文本等补充信息,克服视频、图像质量较差时识别不准确的问题,提升违规行为识别的鲁棒性。
例如,图2是根据本申请实施例提供的信息处理系统的示意图,如图2所示,本申请实施例提供的信息处理系统(多模态的网点工作人员违规行为检测系统)包含以下部分:
(1)视频采集模块:该模块主要用于对业务办理过程进行录像,并截取关键图像,用于作为识别网络的输入数据。
(2)语音采集模块:该模块主要用于对业务办理过程的对话进行录音。
(3)语音识别模块:该模块主要用于将业务办理过程中的对话实现文字转写。
(4)特征提取模块:该模块主要是将不同模态的数据进行特征提取。
(5)行为检测模块:该模块主要是对以上输入的各个模态特征进行员工的违规行为检测,例如检测是否存在代客操作。
例如,图3是根据本申请实施例提供的可选的信息处理方法的流程图,如图3所示,可选的信息处理方法包括如下步骤:
S301:采集业务办理视频并截取关键帧:通过智能柜员机摄像头录制业务办理视频,按照每秒视频截取5帧的数量取得关键帧图像。
S302:采集业务办理录音:通过智能柜员机麦克风录制业务办理过程的对话。
S303:语音转文本:将S302录制的音频按照语句维度切分并分别转写为文本。
S304:特征提取及向量表示:采用CNN(Convolutional Neural Network,卷积神经网络,一种专门用于处理图像数据的深度学习模型)实现文本特征提取,处理文本内容并提取关键特征,采用GCN(Graph Convolutional Network,一种用于图数据的深度学习模型)进行图像特征提取,实现向量表示。
S305:动作及行为识别:将图像与文本的向量表示输入识别网络模型中进行推理。
例如,图4是本实施例中对识别网络模型进行训练的流程图,如图4所示,对识别网络模型进行训练包括如下步骤:
S401采集并标注数据:根据不同类别的违规行为对图片及对应的文本进行标签标注。
S402特征提取:采用CNN(Convolutional Neural Network,卷积神经网络,一种专门用于处理图像数据的深度学习模型)实现文本特征提取,处理文本内容并提取关键特征,采用GCN(Graph Convolutional Network,一种用于图数据的深度学习模型)进行图像特征提取,实现向量表示。
S403网络搭建:根据图5的结构搭建网络,且图5是本实施例中识别网络模型的结构图。
S404监督训练:输入训练数据,根据推理结果和标签计算损失函数,不断调整参数直至模型收敛。
S405调参:得到最优解参数和最终的网络模型。
例如,图5是本实施例中识别网络模型的结构图,如图5所示,在将获得的多张关键帧图像(对应上述的图像集合)和转写后的多个文本(对应上述的文本集合)输入识别网络模型(对应上述的目标检测模型)中之后,可以采用GCN(Graph Convolutional Network,一种用于图数据的深度学习模型)进行图像特征提取,实现图像的向量表示(对应上述的第一向量);并采用CNN(Convolutional Neural Network,卷积神经网络,一种专门用于处理图像数据的深度学习模型)实现文本特征提取,处理文本内容,并提取关键特征,得到文本的向量表示(对应上述的第二向量);然后可以对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习,也即,需要将同一时间发生的图像和语音放在一起处理,并可以判断出在该时间上是否存在办理业务的违规行为,在将图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)对齐之后,可以根据图像的向量表示(对应上述的第一向量),识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规动作(对应上述的目标动作);并根据文本的向量表示(对应上述的第二向量),识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在禁止出现的语音(对应上述的目标语音),比如上述的目标语音可以为金融机构或者银行网点的工作人员(对应上述的目标对象)说:“我来帮你弄”,“你们两个人一起过来办”等;并根据同一时间上的图像和语音的向量表示(对应上述的对齐后的向量集合中的向量),识别出金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的某一个时间上是否存在违规动作(对应上述的目标动作)和/或禁止出现的语音(对应上述的目标语音);然后可以根据对视频图像提取的图像的向量表示(对应上述的第一向量)得到的检测结果(对应上述的第一检测结果)、对语音文本提取的文本的向量表示(对应上述的第二向量)得到的检测结果(对应上述的第二检测结果),以及对图像的向量表示(对应上述的第一向量)和文本的向量表示(对应上述的第二向量)进行时间水平交互学习后得到的向量(对应上述的对齐后的向量集合中的向量)得到的检测结果(对应上述的第三检测结果),确定金融机构或者银行网点的工作人员(对应上述的目标对象)在为客户办理业务(对应上述的金融业务)的过程中是否存在违规行为(对应上述的目标行为),即得到上述的目标检测结果。
在本实施例中,通过从视频关键图像、文本等多模态数据中提取特征,进行交互学习,提升违规动作识别的能力,例如,一些对话中可能出现相关信息能够辅助判断是否存在违规行为,例如服务人员说:“我来帮你弄”,“你们两个人一起过来办”等。而且,使用文本等补充信息,可以克服视频、图像质量较差时识别不准确的问题,提升违规行为识别的鲁棒性。
综上,本申请实施例提供的信息处理方法,通过获取目标对象在办理金融业务的过程中的目标视频和语音信息;对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为,解决了相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题。通过从银行网点工作人员为客户办理业务的视频中的关键图像,以及业务办理过程中的对话文本等多模态数据中提取特征,并进行交互学习,同时将提取的图像与文本的向量表示输入识别网络模型中进行推理,确定网点工作人员在为客户办理业务时是否存在违规行为,从而可以提升违规动作识别的能力,进而达到了提升检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种信息处理装置,需要说明的是,本申请实施例的信息处理装置可以用于执行本申请实施例所提供的用于信息处理方法。以下对本申请实施例提供的信息处理装置进行介绍。
图6是根据本申请实施例提供的信息处理装置的示意图。如图6所示,该装置包括:第一获取单元601、第一处理单元602、第一转换单元603和第二处理单元604。
具体地,第一获取单元601,用于获取目标对象在办理金融业务的过程中的目标视频和语音信息;
第一处理单元602,用于对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;
第一转换单元603,用于将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;
第二处理单元604,用于将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为。
综上,本申请实施例提供的信息处理装置,通过第一获取单元601获取目标对象在办理金融业务的过程中的目标视频和语音信息;第一处理单元602对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;第一转换单元603将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;第二处理单元604将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为,解决了相关技术中检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性较低的问题。通过从银行网点工作人员为客户办理业务的视频中的关键图像,以及业务办理过程中的对话文本等多模态数据中提取特征,并进行交互学习,同时将提取的图像与文本的向量表示输入识别网络模型中进行推理,确定网点工作人员在为客户办理业务时是否存在违规行为,从而可以提升违规动作识别的能力,进而达到了提升检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性的效果。
可选地,在本申请实施例提供的信息处理装置中,第二处理单元包括:第一处理子单元,用于通过目标检测模型对图像集合中的图像进行特征提取处理,得到第一向量集合,其中,第一向量集合中包括至少一个第一向量,至少一个第一向量为图像集合中的图像对应的向量;第二处理子单元,用于对文本集合中的文本进行特征提取处理,得到第二向量集合,其中,第二向量集合中包括至少一个第二向量,至少一个第二向量为文本集合中的文本对应的向量;第三处理子单元,用于依据图像集合中的图像的生成时刻和文本集合中的文本对应的语音的生成时刻,对第一向量集合中的第一向量和第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;第一确定子单元,用于基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果。
可选地,在本申请实施例提供的信息处理装置中,第一确定子单元包括:第一处理模块,用于基于第一向量集合中的第一向量,对目标对象在办理金融业务时的动作进行检测处理,得到第一检测结果,其中,第一检测结果用于表示目标对象在办理金融业务时是否存在目标动作,目标动作为在办理金融业务的过程中禁止执行的动作;第二处理模块,用于基于第二向量集合中的第二向量,对目标对象在办理金融业务时的语音进行检测处理,得到第二检测结果,其中,第二检测结果用于表示目标对象在办理金融业务时是否存在目标语音,目标语音为在办理金融业务的过程中禁止出现的语音;第三处理模块,用于基于对齐后的向量集合中的向量,对目标对象在办理金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,第三检测结果用于表示目标对象在办理金融业务时是否存在目标动作和目标语音;第一确定模块,用于依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果。
可选地,在本申请实施例提供的信息处理装置中,第一确定模块包括:第一确定子模块,用于若第一检测结果表示目标对象在办理金融业务时存在目标动作,和/或,第二检测结果表示目标对象在办理金融业务时存在目标语音,和/或,第三检测结果表示目标对象在办理金融业务时存在目标动作和/或目标语音,则确定目标检测结果为目标对象在办理金融业务时存在目标行为;第二确定子模块,用于若第一检测结果表示目标对象在办理金融业务时不存在目标动作,且第二检测结果表示目标对象在办理金融业务时不存在目标语音,且第三检测结果表示目标对象在办理金融业务时不存在目标动作和目标语音,则确定目标检测结果为目标对象在办理金融业务时不存在目标行为。
可选地,在本申请实施例提供的信息处理装置中,目标检测模型通过以下单元得到:第二获取单元,用于获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;第一标注单元,用于依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;第三处理单元,用于将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,图像向量为样本图像对应的向量,原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;第四处理单元,用于将每个样本文本输入原始检测模型进行特征提取处理,输出多个文本向量,其中,文本向量为样本文本对应的向量;第一确定单元,用于基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型。
可选地,在本申请实施例提供的信息处理装置中,第一确定单元包括:第一识别子单元,用于基于多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;第二识别子单元,用于基于多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;第一计算子单元,用于依据第一识别结果、第二识别结果、多个带有标签的样本图像和多个带有标签的样本文本,计算损失函数;第一调整子单元,用于基于损失函数,对原始检测模型的参数进行调整,得到目标检测模型。
可选地,在本申请实施例提供的信息处理装置中,第一转换单元包括:第四处理子单元,用于对语音信息进行切分处理,得到至少一个目标语句;第五处理子单元,用于对至少一个目标语句进行转写处理,得到至少一个文本;第二确定子单元,用于依据至少一个文本,确定文本集合。
信息处理装置包括处理器和存储器,上述的第一获取单元601、第一处理单元602、第一转换单元603和第二处理单元604等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升检测银行网点工作人员在为客户办理业务的过程中是否存在违规行为的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述信息处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述信息处理方法。
如图7所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标对象在办理金融业务的过程中的目标视频和语音信息;对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为。
处理器执行程序时还实现以下步骤:将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果包括:通过目标检测模型对图像集合中的图像进行特征提取处理,得到第一向量集合,其中,第一向量集合中包括至少一个第一向量,至少一个第一向量为图像集合中的图像对应的向量;对文本集合中的文本进行特征提取处理,得到第二向量集合,其中,第二向量集合中包括至少一个第二向量,至少一个第二向量为文本集合中的文本对应的向量;依据图像集合中的图像的生成时刻和文本集合中的文本对应的语音的生成时刻,对第一向量集合中的第一向量和第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果。
处理器执行程序时还实现以下步骤:基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果包括:基于第一向量集合中的第一向量,对目标对象在办理金融业务时的动作进行检测处理,得到第一检测结果,其中,第一检测结果用于表示目标对象在办理金融业务时是否存在目标动作,目标动作为在办理金融业务的过程中禁止执行的动作;基于第二向量集合中的第二向量,对目标对象在办理金融业务时的语音进行检测处理,得到第二检测结果,其中,第二检测结果用于表示目标对象在办理金融业务时是否存在目标语音,目标语音为在办理金融业务的过程中禁止出现的语音;基于对齐后的向量集合中的向量,对目标对象在办理金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,第三检测结果用于表示目标对象在办理金融业务时是否存在目标动作和目标语音;依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果。
处理器执行程序时还实现以下步骤:依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果包括:若第一检测结果表示目标对象在办理金融业务时存在目标动作,和/或,第二检测结果表示目标对象在办理金融业务时存在目标语音,和/或,第三检测结果表示目标对象在办理金融业务时存在目标动作和/或目标语音,则确定目标检测结果为目标对象在办理金融业务时存在目标行为;若第一检测结果表示目标对象在办理金融业务时不存在目标动作,且第二检测结果表示目标对象在办理金融业务时不存在目标语音,且第三检测结果表示目标对象在办理金融业务时不存在目标动作和目标语音,则确定目标检测结果为目标对象在办理金融业务时不存在目标行为。
处理器执行程序时还实现以下步骤:目标检测模型通过以下方式得到:获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,图像向量为样本图像对应的向量,原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;将每个样本文本输入原始检测模型进行特征提取处理,输出多个文本向量,其中,文本向量为样本文本对应的向量;基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型。
处理器执行程序时还实现以下步骤:基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型包括:基于多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;基于多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;依据第一识别结果、第二识别结果、多个带有标签的样本图像和多个带有标签的样本文本,计算损失函数;基于损失函数,对原始检测模型的参数进行调整,得到目标检测模型。
处理器执行程序时还实现以下步骤:将语音信息转换为文本集合包括:对语音信息进行切分处理,得到至少一个目标语句;对至少一个目标语句进行转写处理,得到至少一个文本;依据至少一个文本,确定文本集合。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标对象在办理金融业务的过程中的目标视频和语音信息;对目标视频进行截取处理,得到图像集合,其中,图像集合中包括至少一个图像;将语音信息转换为文本集合,其中,文本集合中包括至少一个文本;将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果,其中,目标检测结果用于表示目标对象在办理金融业务时是否存在目标行为,目标行为表征在办理金融业务的过程中禁止操作的行为。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:将图像集合和文本集合输入目标检测模型进行处理,输出对目标对象的目标检测结果包括:通过目标检测模型对图像集合中的图像进行特征提取处理,得到第一向量集合,其中,第一向量集合中包括至少一个第一向量,至少一个第一向量为图像集合中的图像对应的向量;对文本集合中的文本进行特征提取处理,得到第二向量集合,其中,第二向量集合中包括至少一个第二向量,至少一个第二向量为文本集合中的文本对应的向量;依据图像集合中的图像的生成时刻和文本集合中的文本对应的语音的生成时刻,对第一向量集合中的第一向量和第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:基于第一向量集合中的第一向量、第二向量集合中的第二向量和对齐后的向量集合中的向量,得到对目标对象的目标检测结果包括:基于第一向量集合中的第一向量,对目标对象在办理金融业务时的动作进行检测处理,得到第一检测结果,其中,第一检测结果用于表示目标对象在办理金融业务时是否存在目标动作,目标动作为在办理金融业务的过程中禁止执行的动作;基于第二向量集合中的第二向量,对目标对象在办理金融业务时的语音进行检测处理,得到第二检测结果,其中,第二检测结果用于表示目标对象在办理金融业务时是否存在目标语音,目标语音为在办理金融业务的过程中禁止出现的语音;基于对齐后的向量集合中的向量,对目标对象在办理金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,第三检测结果用于表示目标对象在办理金融业务时是否存在目标动作和目标语音;依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据第一检测结果、第二检测结果和第三检测结果,得到对目标对象的目标检测结果包括:若第一检测结果表示目标对象在办理金融业务时存在目标动作,和/或,第二检测结果表示目标对象在办理金融业务时存在目标语音,和/或,第三检测结果表示目标对象在办理金融业务时存在目标动作和/或目标语音,则确定目标检测结果为目标对象在办理金融业务时存在目标行为;若第一检测结果表示目标对象在办理金融业务时不存在目标动作,且第二检测结果表示目标对象在办理金融业务时不存在目标语音,且第三检测结果表示目标对象在办理金融业务时不存在目标动作和目标语音,则确定目标检测结果为目标对象在办理金融业务时不存在目标行为。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:目标检测模型通过以下方式得到:获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,图像向量为样本图像对应的向量,原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;将每个样本文本输入原始检测模型进行特征提取处理,输出多个文本向量,其中,文本向量为样本文本对应的向量;基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:基于多个带有标签的样本图像、多个带有标签的样本文本、多个图像向量和多个文本向量,得到目标检测模型包括:基于多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;基于多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;依据第一识别结果、第二识别结果、多个带有标签的样本图像和多个带有标签的样本文本,计算损失函数;基于损失函数,对原始检测模型的参数进行调整,得到目标检测模型。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:将语音信息转换为文本集合包括:对语音信息进行切分处理,得到至少一个目标语句;对至少一个目标语句进行转写处理,得到至少一个文本;依据至少一个文本,确定文本集合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取目标对象在办理金融业务的过程中的目标视频和语音信息;
对所述目标视频进行截取处理,得到图像集合,其中,所述图像集合中包括至少一个图像;
将所述语音信息转换为文本集合,其中,所述文本集合中包括至少一个文本;
将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果,其中,所述目标检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标行为,所述目标行为表征在办理所述金融业务的过程中禁止操作的行为。
2.根据权利要求1所述的方法,其特征在于,将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果包括:
通过所述目标检测模型对所述图像集合中的图像进行特征提取处理,得到第一向量集合,其中,所述第一向量集合中包括至少一个第一向量,所述至少一个第一向量为所述图像集合中的图像对应的向量;
对所述文本集合中的文本进行特征提取处理,得到第二向量集合,其中,所述第二向量集合中包括至少一个第二向量,所述至少一个第二向量为所述文本集合中的文本对应的向量;
依据所述图像集合中的图像的生成时刻和所述文本集合中的文本对应的语音的生成时刻,对所述第一向量集合中的第一向量和所述第二向量集合中的第二向量进行对齐处理,得到对齐后的向量集合,其中,所述对齐后的向量集合中包括至少一个对齐后的第一向量和至少一个对齐后的第二向量;
基于所述第一向量集合中的第一向量、所述第二向量集合中的第二向量和所述对齐后的向量集合中的向量,得到对所述目标对象的所述目标检测结果。
3.根据权利要求2所述的方法,其特征在于,基于所述第一向量集合中的第一向量、所述第二向量集合中的第二向量和所述对齐后的向量集合中的向量,得到对所述目标对象的所述目标检测结果包括:
基于所述第一向量集合中的第一向量,对所述目标对象在办理所述金融业务时的动作进行检测处理,得到第一检测结果,其中,所述第一检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标动作,所述目标动作为在办理所述金融业务的过程中禁止执行的动作;
基于所述第二向量集合中的第二向量,对所述目标对象在办理所述金融业务时的语音进行检测处理,得到第二检测结果,其中,所述第二检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标语音,所述目标语音为在办理所述金融业务的过程中禁止出现的语音;
基于所述对齐后的向量集合中的向量,对所述目标对象在办理所述金融业务时的同一时刻的动作和语音进行检测处理,得到第三检测结果,其中,所述第三检测结果用于表示所述目标对象在办理所述金融业务时是否存在所述目标动作和所述目标语音;
依据所述第一检测结果、所述第二检测结果和所述第三检测结果,得到对所述目标对象的所述目标检测结果。
4.根据权利要求3所述的方法,其特征在于,依据所述第一检测结果、所述第二检测结果和所述第三检测结果,得到对所述目标对象的所述目标检测结果包括:
若所述第一检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作,和/或,所述第二检测结果表示所述目标对象在办理所述金融业务时存在所述目标语音,和/或,所述第三检测结果表示所述目标对象在办理所述金融业务时存在所述目标动作和/或所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时存在所述目标行为;
若所述第一检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作,且所述第二检测结果表示所述目标对象在办理所述金融业务时不存在所述目标语音,且所述第三检测结果表示所述目标对象在办理所述金融业务时不存在所述目标动作和所述目标语音,则确定所述目标检测结果为所述目标对象在办理所述金融业务时不存在所述目标行为。
5.根据权利要求1所述的方法,其特征在于,所述目标检测模型通过以下方式得到:
获取不同类别的目标行为对应的样本图像和样本文本,得到多个样本图像和多个样本文本;
依据每个样本图像对应的目标行为的类别信息,对每个样本图像进行标签标注,得到多个带有标签的样本图像,并依据每个样本文本对应的目标行为的类别信息,对每个样本文本进行标签标注,得到多个带有标签的样本文本;
将每个样本图像输入原始检测模型进行特征提取处理,输出多个图像向量,其中,所述图像向量为所述样本图像对应的向量,所述原始检测模型用于检测每个样本图像对应的目标行为的类别信息和/或每个样本文本对应的目标行为的类别信息;
将每个样本文本输入所述原始检测模型进行特征提取处理,输出多个文本向量,其中,所述文本向量为所述样本文本对应的向量;
基于所述多个带有标签的样本图像、所述多个带有标签的样本文本、所述多个图像向量和所述多个文本向量,得到所述目标检测模型。
6.根据权利要求5所述的方法,其特征在于,基于所述多个带有标签的样本图像、所述多个带有标签的样本文本、所述多个图像向量和所述多个文本向量,得到所述目标检测模型包括:
基于所述多个图像向量,识别每个样本图像对应的目标行为的类别信息,得到第一识别结果;
基于所述多个文本向量,识别每个样本文本对应的目标行为的类别信息,得到第二识别结果;
依据所述第一识别结果、所述第二识别结果、所述多个带有标签的样本图像和所述多个带有标签的样本文本,计算损失函数;
基于所述损失函数,对所述原始检测模型的参数进行调整,得到所述目标检测模型。
7.根据权利要求1所述的方法,其特征在于,将所述语音信息转换为文本集合包括:
对所述语音信息进行切分处理,得到至少一个目标语句;
对所述至少一个目标语句进行转写处理,得到所述至少一个文本;
依据所述至少一个文本,确定所述文本集合。
8.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取目标对象在办理金融业务的过程中的目标视频和语音信息;
第一处理单元,用于对所述目标视频进行截取处理,得到图像集合,其中,所述图像集合中包括至少一个图像;
第一转换单元,用于将所述语音信息转换为文本集合,其中,所述文本集合中包括至少一个文本;
第二处理单元,用于将所述图像集合和所述文本集合输入目标检测模型进行处理,输出对所述目标对象的目标检测结果,其中,所述目标检测结果用于表示所述目标对象在办理所述金融业务时是否存在目标行为,所述目标行为表征在办理所述金融业务的过程中禁止操作的行为。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储程序,其中,所述程序执行权利要求1至7中任意一项所述的信息处理方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的信息处理方法。
CN202410542652.1A 2024-04-30 2024-04-30 信息处理方法及装置、存储介质和电子设备 Pending CN118260447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410542652.1A CN118260447A (zh) 2024-04-30 2024-04-30 信息处理方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410542652.1A CN118260447A (zh) 2024-04-30 2024-04-30 信息处理方法及装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN118260447A true CN118260447A (zh) 2024-06-28

Family

ID=91609013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410542652.1A Pending CN118260447A (zh) 2024-04-30 2024-04-30 信息处理方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN118260447A (zh)

Similar Documents

Publication Publication Date Title
CN109783642A (zh) 多人会议场景的结构化内容处理方法、装置、设备及介质
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
CN111885375A (zh) 双录视频的检验方法、装置、服务器及系统
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN111739537B (zh) 语义识别方法、装置、存储介质及处理器
US20220318349A1 (en) Liveness detection using audio-visual inconsistencies
CN113095204B (zh) 双录数据质检方法、装置及系统
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN112329748B (zh) 面向交互场景的自动谎言检测方法、装置、设备及介质
CN113315979A (zh) 数据处理方法、装置、电子设备和存储介质
CN115376559A (zh) 基于音视频的情绪识别方法、装置及设备
CN114677634B (zh) 面签识别方法、装置、电子设备及存储介质
CN111612284A (zh) 数据的处理方法、装置及设备
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN116994188A (zh) 一种动作识别方法、装置、电子设备及存储介质
CN117556828B (zh) 图文情感分析方法
CN110728193A (zh) 一种脸部图像丰富度特征的检测方法及设备
CN117671701A (zh) 金融账户的开通方法及装置、存储介质和电子设备
CN113076533A (zh) 一种业务处理方法及装置
CN118260447A (zh) 信息处理方法及装置、存储介质和电子设备
CN113888227A (zh) 一种诱导广告素材识别方法及装置
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
CN110673722A (zh) 一种人机交互方式展示方法、装置及设备
US20240194200A1 (en) System and method for change point detection in multi-media multi-person interactions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination