CN113627301A

CN113627301A - 实时视频信息提取方法、装置和系统

Info

Publication number: CN113627301A
Application number: CN202110882648.6A
Authority: CN
Inventors: 冯军
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-09
Anticipated expiration: 2041-08-02
Also published as: CN113627301B

Abstract

本发明提供一种实时视频信息提取方法、装置和系统，其中方法包括：确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；提取第一方和/或第二方的实时音频中的实时语义信息；基于实时语义信息，对第一方的实时视频进行目标检测，得到包含目标的视频帧；从至少一个视频帧中识别目标的信息。本发明通过提取第一方和/或第二方的实时音频的实时语义信息，可以预估第一方提供数据的时间，据此对第一方的实时视频进行目标检测，得到包含目标的视频帧后，对视频帧进行图像处理，可以实现数据的自动获取，使得整个交互过程中，数据提供方仅需在摄像头前展示需提供的数据，而无需另行收集数据并传输给对方，提高了数据获取的效率。

Description

实时视频信息提取方法、装置和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种实时视频信息提取方法、装置和系统。

背景技术

随着即时通信技术的发展，用户可以在网络上更方便地进行各种交互。以视频客服场景为例，客户和业务办理人员可以进行音视频的实时沟通，以实现各种业务的远程办理。

然而，目前的视频客服应用中，用户在进行业务远程办理时，需要在交互过程以外单独创建数据传输通道进行业务资料的传输，并由业务办理人员手动将业务资料录入到业务系统中并在与客户的沟通过程中进行信息确认，过程繁琐且耗时，降低了业务数据获取的效率以及业务办理的效率。

发明内容

本发明提供一种实时视频信息提取方法、装置和系统，用以解决现有技术中数据录入效率低下的缺陷。

本发明提供一种实时视频信息提取方法，包括：

确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；

提取所述第一方和/或所述第二方的实时音频中的实时语义信息；

基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧；

从至少一个所述视频帧中识别所述目标的信息。

根据本发明提供的一种实时视频信息提取方法，所述基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧，包括：

确定所述实时语义信息中存在操作指令，则基于所述操作指令在所述实时音频中的时间戳，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧。

根据本发明提供的一种实时视频信息提取方法，所述对所述第一方的实时视频进行目标检测，得到包含目标的视频帧，包括：

基于所述操作指令关联的目标类型，对所述第一方的实时视频进行目标检测，得到包含所述目标类型对应目标的视频帧。

根据本发明提供的一种实时视频信息提取方法，所述对所述第一方的实时视频进行目标检测，包括：

基于所述操作指令在所述实时音频中的时间戳，确定预设长度的视频截取窗口，并获取所述第一方的实时视频中位于所述视频截取窗口内的视频片段；

对所述视频片段进行目标检测。

根据本发明提供的一种实时视频信息提取方法，所述确定所述实时语义信息中存在操作指令，包括：

基于预设的指令关键词，确定所述实时语义信息中各个语义信息片段与所述指令关键词是否相关；

确定所述语义信息片段与所述指令关键词相关，则确定所述实时语义信息中存在操作指令。

根据本发明提供的一种实时视频信息提取方法，所述基于预设的指令关键词，确定所述实时语义信息中各个语义信息片段与所述指令关键词是否相关，包括：

对所述各个语义信息片段进行意图识别，得到所述各个语义信息片段的说话人意图文本；

基于所述各个语义信息片段的说话人意图文本，以及所述指令关键词，确定所述各个语义信息片段与所述指令关键词是否相关。

根据本发明提供的一种实时视频信息提取方法，所述从至少一个所述视频帧中识别所述目标的信息，包括：

对各个视频帧进行文字识别，得到所述各个视频帧的文字识别结果；

比对所述各个视频帧的文字识别结果，并在确定所述各个视频帧的文字识别结果一致时，确定任一视频帧的文字识别结果为所述目标的信息。

本发明还提供一种实时视频信息提取装置，包括：

音视频数据确定单元，用于确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；

语义信息提取单元，用于提取所述第一方和/或所述第二方的实时音频中的实时语义信息；

目标检测单元，用于基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧；

信息提取单元，用于从至少一个所述视频帧中识别所述目标的信息。

本发明还提供一种实时视频信息提取系统，包括存储器、处理器、网络传输模块、音频采集模块及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述网络传输模块用于与第一方的第一设备建立音视频通话；

所述音频采集装置用于采集第二方的实时音频；

所述处理器用于获取所述第一设备在音视频通话过程中采集的所述第一方的实时音频和实时视频，并执行所述程序以实现如上述任一种所述实时视频信息提取方法的步骤。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述实时视频信息提取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述实时视频信息提取方法的步骤。

本发明提供的实时视频信息提取方法、装置和系统，通过提取第一方和/或第二方的实时音频中的实时语义信息，可以预估第一方提供数据的时间，据此对第一方的实时视频进行目标检测，得到包含目标的视频帧后，对视频帧进行图像处理，可以实现数据的自动获取，使得整个交互过程中，数据提供方仅需在摄像头前展示需提供的数据，而无需另行收集数据并传输给对方，提高了数据获取的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的实时视频信息提取方法的流程示意图之一；

图2为本发明提供的目标检测方法的流程示意图；

图3为本发明提供的操作指令检测方法的流程示意图；

图4为本发明提供的相关性检测方法的流程示意图；

图5为本发明提供的实时视频信息提取方法的流程示意图之二；

图6为本发明提供的实时视频信息提取装置的结构示意图；

图7为本发明提供的实时视频信息提取系统的结构示意图；

图8为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着即时通信技术的发展，用户可以在网络上更方便地进行各种交互。以视频客服场景为例，客户和业务办理人员可以通过网络进行音视频的实时沟通，以实现各种业务的远程办理。

然而，目前的视频客服应用中，用户在进行业务远程办理时，需要在交互过程以外单独创建数据传输通道进行业务资料的传输，并由业务办理人员手动将业务资料录入到业务系统中并在与客户的沟通过程中进行信息确认，过程繁琐且耗时，降低了业务数据获取的效率以及整个业务办理的效率。

对此，本发明实施例提供了一种实时视频信息提取方法。图1为本发明实施例提供的实时视频信息提取方法的流程示意图之一，如图1所示，该方法包括：

步骤110，确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频。

此处，交互双方可以通过建立音视频通话进行实时交互。以视频客服场景为例，交互双方可以为客户和业务办理人员。获取双方在音视频交互过程中产生的第一方的实时音频和实时视频，以及第二方的实时音频。其中，第一方和第二方为进行音视频交互的对象，而第一方为可以为交互双方中提供数据的一方，例如视频客服场景中的客户。第一方的实时音频和实时视频是同步采集的，其中实时音频中包含交互过程中第一方的语音数据，实时视频中录制了交互过程中第一方的行为，包括第一方的数据展示行为，例如身份证、票据等展示行为。第二方的实时音频中则包含交互过程中第二方的语音数据。

步骤120，提取第一方和/或第二方的实时音频中的实时语义信息。

此处，在第一方和第二方的交互过程中，第二方可能会根据当前场景在合适的时机提示第一方展示数据，例如业务办理人员会根据当前业务办理的环节提醒客户提供对应的证件信息或票据信息。因此第二方的实时音频中可能包含有与第一方的数据展示行为相关的交互信息。另外，在交互过程中第一方也可能会主动提及数据展示的相关话题，故第一方的实时音频中也可能包含有与第一方的数据展示行为相关的交互信息。因此，可以对第一方或第二方的实时音频进行语音识别，提取其中的实时语义信息，也可以对第一方和第二方的实时音频分别进行语音识别，提取其中的实时语义信息。其中，实时语义信息为第一方和/或第二方在交互过程中的语音交互信息，其中包括第一方和/或第二方提及的与数据展示行为相关的语音交互信息。在另一些实施例中，第一方和第二方之间可以首先仅进行语音交互，并实时采集语音交互过程中产生的第一方和第二方的实时音频。待提取第一方和/或第二方的实时音频中的实时语义信息之后，可以根据实时语义信息中包含的第一方和/或第二方提及的与数据展示行为相关的语音交互信息，在判断得知第一方将要进行数据展示时，动态控制第一方一侧的视频采集装置开始采集第一方的实时视频。

步骤130，基于实时语义信息，对第一方的实时视频进行目标检测，得到包含目标的视频帧。

此处，可以根据实时语义信息中包含的第一方和/或第二方提及的与数据展示行为相关的语音交互信息，预估第一方展示数据的时间。然后，根据第一方展示数据的时间，可以对第一方的实时视频进行目标检测，得到包含目标的视频帧。其中，上述目标为视频帧中第一方展示的数据所在的图像区域。例如，若第一方展示的数据为身份证等证件信息，则目标为视频帧中证件所在的图像区域。此处，针对预估得到的第一方展示数据的时间，可以根据第一方展示数据可能持续的时间，设置进行目标检测的时间范围，并对该时间范围内的第一方的实时视频逐帧进行目标检测；还可以对该时间之后拍摄的第一方的实时视频逐帧进行目标检测，直至检测到一个或多个包含目标的视频帧，则停止目标检测。

步骤140，从至少一个视频帧中识别上述目标的信息。

此处，对至少一个包含目标的视频帧进行图像处理，从中提取上述目标中包含的信息，例如文字信息或图像信息等。其中，图像处理的具体方式可以根据实际应用场景设定。以第一方展示身份证等证件信息为例，可以对包含目标(此时目标为视频帧中证件所在的图像区域)的视频帧进行光学字符识别(Optical Character Recognition，OCR)，得到该证件上的身份信息，如身份证号、家庭住址等，还可以对视频帧进行人脸识别，得到人脸区域，从而截取证件上的证件照信息。获取到目标的相关信息后，可以将上述信息存储至对应系统中，实现数据的自动录入，从而提高数据录入的效率。

本发明实施例提供的方法，通过提取第一方和/或第二方的实时音频中的实时语义信息，可以预估第一方提供数据的时间，据此对第一方的实时视频进行目标检测，得到包含目标的视频帧后，对视频帧进行图像处理，可以实现数据的自动获取，使得整个交互过程中，数据提供方仅需在摄像头前展示需提供的数据，而无需另行收集数据并传输给对方，提高了数据获取的效率。

基于上述实施例，步骤130包括：

确定实时语义信息中存在操作指令，则基于操作指令在实时音频中的时间戳，对第一方的实时视频进行目标检测，得到包含目标的视频帧。

此处，可以根据当前场景设定一种或多种操作指令，每种操作指令可以对应一类数据展示行为。例如，在视频客服场景中，可以根据办理的业务类型，预先设置该业务的各业务办理环节可能涉及的操作指令，如“身份证展示”指令和“票据展示”指令等操作指令。基于预设的操作指令，判断实时语义信息中是否存在一种或多种操作指令。若判断实时语义信息中存在操作指令，表明第一方可能会根据该操作指令执行数据展示行为，因此可以即时开启针对第一方的实时视频的目标检测操作。

具体可以在确认实时语义信息中存在操作指令时，获取该操作指令在对应实时音频中的时间戳。其中，发出操作指令需要持续一段时间，因此可以获取包含该操作指令的语音片段的起始时间，作为该操作指令在对应实时音频中的时间戳，也可以获取包含该操作指令的语音片段的结束时间，作为该操作指令在对应实时音频中的时间戳。基于操作指令在实时音频中的时间戳，划定第一方的实时视频中进行目标检测的时间范围，并对该时间范围内的视频帧进行目标检测，得到包含目标的视频帧。

基于上述任一实施例，对第一方的实时视频进行目标检测，得到包含目标的视频帧，包括：

基于操作指令关联的目标类型，对第一方的实时视频进行目标检测，得到包含该目标类型对应目标的视频帧。

此处，不同操作指令对应不同类型的数据展示行为，相应地，不同操作指令也关联不同类型的目标类型。例如，“身份证展示”指令对应“身份证”展示行为，其关联的目标类型为“身份证”，“票据展示”指令对应“票据”展示行为，其关联的目标类型为“票据”。因此，可以根据操作指令关联的目标类型，针对性地对第一方的实时视频进行目标检测，判断实时视频的视频帧中是否包含该目标类型对应的特征，从而获取包含该目标类型对应目标的视频帧。其中，若任一视频帧包含该目标类型对应的特征，则该视频帧中包含该目标类型对应的目标。例如，若操作指令关联的目标类型为“身份证”，则可以根据“身份证”这一目标类型具备的特征，对第一方的实时视频进行检测，判断实时视频的各帧中是否存在上述特征。

其中，可以预先根据目标类型对应目标具备的特征，形成该目标类型对应的检测规则，利用该检测规则对第一方的实时视频进行目标检测。例如，对于“身份证”这一目标类型，其具备右侧为证件照图像，证件照图像左侧包含四行以上文字且下方包含一行数字等特征，因此可以据此提取出该目标类型对应的检测规则，并利用该检测规则快速检测第一方的实时视频中符合该检测规则的视频帧。还可以预先收集大量的包含同一目标类型对应目标的样本图像，标注该样本图像的目标检测结果。随后基于上述样本图像及其目标检测结果训练初始模型，自主学习该目标类型对应目标的特征，得到可以准确检测出该目标类型对应目标的神经网络模型，从而利用该模型对第一方的实时视频进行目标检测。

本发明实施例提供的方法，基于操作指令关联的目标类型，针对性地对第一方的实时视频进行目标检测，可以快速检测到包含对应目标类型特征的视频帧，提高了目标检测的效率。

基于上述任一实施例，图2为本发明实施例提供的目标检测方法的流程示意图，如图2所示，对第一方的实时视频进行目标检测，包括：

步骤210，基于操作指令在实时音频中的时间戳，确定预设长度的视频截取窗口，并获取第一方的实时视频中位于该视频截取窗口内的视频片段；

步骤220，对该视频片段进行目标检测。

此处，考虑到第一方会根据发出的操作指令进行数据展示，因此第一方做出数据展示行为的时间通常邻近该操作指令的操作时间，且通常位于该操作指令的操作时间之后。因此，可以基于操作指令在对应实时音频中的时间戳，确定一个预设长度的视频截取窗口，并获取第一方的实时视频中位于该视频截取窗口内的视频片段。此时，可以认为该视频片段内录制了第一方展示数据的行为。

其中，可以根据操作指令在实时音频中的时间戳，确定视频截取窗口的起点。例如可以将该时间戳作为为视频截取窗口的起点，也可以将该时间戳之前或之后的某个时间点作为视频截取窗口的起点。视频截取窗口的长度可以根据第一方听到操作指令之后可能的反应时间，以及第一方进行数据展示可能持续的时间预先设定。

随后，可以对截取的视频片段进行目标检测，得到包含目标的视频帧。

基于上述任一实施例，图3为本发明实施例提供的操作指令检测方法的流程示意图，如图3所示，确定实时语义信息中存在操作指令，包括：

步骤310，基于预设的指令关键词，确定实时语义信息中各个语义信息片段与指令关键词是否相关；

步骤320，确定语义信息片段与指令关键词相关，则确定实时语义信息中存在操作指令。

此处，可以根据每种操作指令涉及的数据展示行为，为每种操作指令设定若干个指令关键词。在设定指令关键词时，可以针对展示的对象以及展示这一动作分别设置展示对象关键词和展示动作关键词，且展示对象关键词或展示动作关键词均可以包括多个词义相近的关键词。例如，针对“身份证展示”指令，可以设定“身份证”、“身份证件”等作为展示对象关键词，还可以设定“展示”、“出示”等作为展示动作关键词。

基于预设的指令关键词，确定实时语义信息中各个语义信息片段与各个操作指令的指令关键词是否相关，并根据语义信息片段与指令关键词是否相关的判断结果，确定实时语义信息中是否存在操作指令。其中，若任一语义信息片段与某一操作指令的任一展示对象关键词相关，且与该操作指令的任一展示动作关键词相关，则可以确定实时语义信息中存在操作指令。

基于上述任一实施例，图4为本发明实施例提供的相关性检测方法的流程示意图，如图4所示，步骤310包括：

步骤311，对各个语义信息片段进行意图识别，得到各个语义信息片段的说话人意图文本；

步骤312，基于各个语义信息片段的说话人意图文本，以及指令关键词，确定各个语义信息片段与该指令关键词是否相关。

此处，在确定任一语义信息片段是否与任一指令关键词相关时，可以直接判断该语义信息片段中是否包含该指令关键词或该指令关键词的近义词。然而考虑到语言表达的多样性，可能双方在交互时没有直接使用指令关键词或者类似表达，为了避免漏检，可以对各个语义信息片段进行意图识别，根据语义信息片段的整体语义分析其对应说话人的意图，得到说话人意图文本。此处，可以利用训练好的意图识别模型对各个语义信息片段进行意图识别。其中，可以通过收集大量的样本待识别文本，对各样本待识别文本进行人工标注，得到对应的意图识别文本，从而基于样本待识别文本及其样本意图识别文本训练初始模型，得到意图识别模型。将各语义信息片段的说话人意图文本与指令关键词进行匹配，确定各个语义信息片段与该指令关键词是否相关。

基于上述任一实施例，步骤140包括：

对各个视频帧进行文字识别，得到各个视频帧的文字识别结果；

比对各个视频帧的文字识别结果，并在确定各个视频帧的文字识别结果一致时，确定任一视频帧的文字识别结果为该目标的信息。

此处，可以利用OCR技术对检测得到的各个包含目标的视频帧进行文字识别，得到各个视频帧的文字识别结果。随后，比对各个视频帧的文字识别结果是否一致，以进行信息确认，避免OCR识别错误导致信息提取错误。若各个视频帧的文字识别结果一致，可以认为各个视频帧在进行文字识别时没有出现错误，其文字识别结果可信，因此可以选定任一视频帧的文字识别结果作为其中包含的目标的信息。若各个视频帧的文字识别结果不一致，则可以对各个视频帧重新进行文字识别处理，或转由人工确认。

基于上述任一实施例，图5为本发明实施例提供的实时视频信息提取方法的流程示意图之二，如图5所示，以视频客服场景为例，该方法的应用场景为：在客户(第一方)与业务办理人员(第二方)之间建立音视频通话，根据客户业务办理需要，业务办理人员通过语音引导客户进入对应业务办理流程，客户在业务办理人员的语音指引下，在摄像头前展示各业务办理环节所需的业务数据。该方法包括：

确定双方在音视频交互过程中产生的客户方的实时音频和实时视频，以及业务办理人员的实时音频。

基于客户和/或业务办理人员的实时音频，对实时音频的语音流进行实时语音识别，提取实时音频的实时语义信息，并记录各语义信息片段的起止时间。

对实时语义信息进行语义分析，判断实时语义信息中是否存在操作指令。此处，可以根据每种操作指令涉及的数据展示行为，为每种操作指令设定若干个指令关键词。例如，针对“身份证展示”指令，可以设定“身份证”、“身份证件”等作为展示对象关键词，还可以设定“展示”、“出示”等作为展示动作关键词。随后，对各个语义信息片段进行意图识别，得到各个语义信息片段的说话人意图文本，并将各个语义信息片段的说话人意图文本与各操作指令对应的指令关键词进行匹配，确定各个语义信息片段与各操作指令对应的指令关键词是否相关。

若实时语义信息中的任一语义信息片段与任一操作指令对应的指令关键词相关，表明该实时语义信息中包含该操作指令，可以认为客户在该操作指令的指引下会进行数据展示。因此，可以基于该操作指令在实时音频中的时间戳，确定预设长度的视频截取窗口，并获取第一方的实时视频中位于该视频截取窗口内的视频片段。此时，可以认为该视频片段中记录了客户进行数据展示的行为。此处，可以以该操作指令在实时音频中的时间戳作为视频截取窗口的起点。视频截取窗口的长度可以取决于客户听到操作指令之后可能的反应时间，以及客户进行数据展示可能持续的时间，例如可以设为30s。

截取出视频片段后，可以对该视频片段进行目标检测。其中，客户展示的数据(即目标)与该操作指令密切相关，例如操作指令为“展示身份证”时，客户展示的数据应当为“身份证”，而不是其他票据。因此，可以根据该操作指令关联的目标类型，对该视频片段进行针对性地目标检测，得到包含该目标类型对应目标的视频帧。

例如，“身份证展示”指令对应“身份证”展示行为，其关联的目标类型为“身份证”，“票据展示”指令对应“票据”展示行为，其关联的目标类型为“票据”。因此，可以根据操作指令关联的目标类型，判断视频片段的视频帧中是否包含该目标类型对应的特征。其中，若任一视频帧包含该目标类型对应的特征，则该视频帧中包含该目标类型对应的目标。例如，若操作指令关联的目标类型为“身份证”，则可以根据“身份证”这一目标类型具备的特征，对视频片段进行检测，判断实时视频片段的各帧中是否存在上述特征。

提取到包含目标的视频帧后，对其进行图像处理，获取视频帧中该目标的信息。例如，当客户展示身份证后，获取包含身份证的视频帧，然后对该视频帧进行OCR处理，识别出身份证图像中的各个字段信息，如姓名、民族和家庭住址等，还可以对该视频帧进行人脸识别，识别出身份证图像中的人脸区域，并截取出证件照。

随后，可以基于该操作指令关联的目标类型对从该视频帧中识别出的信息进行标记，将该目标的信息与该操作指令建立关联，以便后续办理业务时可以快速获取对应数据。例如，在业务办理的某个环节需要使用客户的身份证信息时，可以根据“身份证”这一标记快速获取该客户的身份证信息。此外，还可上述标记好的信息存储到业务系统中，并在需要的时候将其展示给客户。

基于上述任一实施例，图6为本发明实施例提供的实时视频信息提取装置的结构示意图，如图6所示，该装置包括：音视频数据确定单元610、语义信息提取单元620、目标检测单元630和信息提取单元640。

其中，音视频数据确定单元610用于确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；

语义信息提取单元620用于提取第一方和/或第二方的实时音频中的实时语义信息；

目标检测单元630用于基于实时语义信息，对第一方的实时视频进行目标检测，得到包含目标的视频帧；

信息提取单元640用于从至少一个视频帧中识别上述目标的信息。

本发明实施例提供的装置，通过提取第一方和/或第二方的实时音频中的实时语义信息，可以预估第一方提供数据的时间，据此对第一方的实时视频进行目标检测，得到包含目标的视频帧后，对视频帧进行图像处理，可以实现数据的自动获取，使得整个交互过程中，数据提供方仅需在摄像头前展示需提供的数据，而无需另行收集数据并传输给对方，提高了数据获取的效率。

基于上述任一实施例，目标检测单元630用于：

本发明实施例提供的装置，基于操作指令关联的目标类型，针对性地对第一方的实时视频进行目标检测，可以快速检测到包含对应目标类型特征的视频帧，提高了目标检测的效率。

基于上述任一实施例，对第一方的实时视频进行目标检测，包括：

基于操作指令在实时音频中的时间戳，确定预设长度的视频截取窗口，并获取第一方的实时视频中位于该视频截取窗口内的视频片段；

对该视频片段进行目标检测。

基于上述任一实施例，确定实时语义信息中存在操作指令，包括：

基于预设的指令关键词，确定实时语义信息中各个语义信息片段与指令关键词是否相关；

确定语义信息片段与指令关键词相关，则确定实时语义信息中存在操作指令。

基于上述任一实施例，基于预设的指令关键词，确定实时语义信息中各个语义信息片段与指令关键词是否相关，包括：

对各个语义信息片段进行意图识别，得到各个语义信息片段的说话人意图文本；

基于各个语义信息片段的说话人意图文本，以及指令关键词，确定各个语义信息片段与该指令关键词是否相关。

基于上述任一实施例，信息提取单元640用于：

基于上述任一实施例，图7为本发明实施例提供的实时视频信息提取系统的结构示意图，如图7所示，该系统可以部署在第二方(例如视频客服场景下的业务办理人员一侧)的电子设备上，该系统包括：存储器710、处理器720、网络传输模块730和音频采集模块740。

其中，存储器710上存储有可在处理器720上运行的计算机程序；

网络传输模块730用于与第一方的第一设备建立音视频通话；

音频采集装置740用于采集第二方的实时音频；

处理器720用于获取第一设备在音视频通话过程中采集的第一方的实时音频和实时视频，并执行上述程序以实现如上述任一实施例提供的实时视频信息提取方法的步骤。

本发明实施例提供的系统，通过提取第一方和/或第二方的实时音频中的实时语义信息，可以预估第一方提供数据的时间，据此对第一方的实时视频进行目标检测，得到包含目标的视频帧后，对视频帧进行图像处理，可以实现数据的自动获取，使得整个交互过程中，数据提供方仅需在摄像头前展示需提供的数据，而无需另行收集数据并传输给对方，提高了数据获取的效率。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行实时视频信息提取方法，该方法包括：确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；提取所述第一方和/或所述第二方的实时音频中的实时语义信息；基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧；从至少一个所述视频帧中识别所述目标的信息。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的实时视频信息提取方法，该方法包括：确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；提取所述第一方和/或所述第二方的实时音频中的实时语义信息；基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧；从至少一个所述视频帧中识别所述目标的信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的实时视频信息提取方法，该方法包括：确定音视频交互产生的第一方的实时音频和实时视频，以及第二方的实时音频；提取所述第一方和/或所述第二方的实时音频中的实时语义信息；基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧；从至少一个所述视频帧中识别所述目标的信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种实时视频信息提取方法，其特征在于，包括：

从至少一个所述视频帧中识别所述目标的信息。

2.根据权利要求1所述的实时视频信息提取方法，其特征在于，所述基于所述实时语义信息，对所述第一方的实时视频进行目标检测，得到包含目标的视频帧，包括：

3.根据权利要求2所述的实时视频信息提取方法，其特征在于，所述对所述第一方的实时视频进行目标检测，得到包含目标的视频帧，包括：

4.根据权利要求2或3所述的实时视频信息提取方法，其特征在于，所述对所述第一方的实时视频进行目标检测，包括：

对所述视频片段进行目标检测。

5.根据权利要求2所述的实时视频信息提取方法，其特征在于，所述确定所述实时语义信息中存在操作指令，包括：

6.根据权利要求5所述的实时视频信息提取方法，其特征在于，所述基于预设的指令关键词，确定所述实时语义信息中各个语义信息片段与所述指令关键词是否相关，包括：

7.根据权利要求1至3、5和6任一项所述的实时视频信息提取方法，其特征在于，所述从至少一个所述视频帧中识别所述目标的信息，包括：

8.一种实时视频信息提取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述实时视频信息提取方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述实时视频信息提取方法的步骤。

11.一种实时视频信息提取系统，其特征在于，包括存储器、处理器、网络传输模块、音频采集模块及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述音频采集模块用于采集第二方的实时音频；

所述处理器用于获取所述第一设备在音视频通话过程中采集的所述第一方的实时音频和实时视频，并执行所述程序以实现如权利要求1至7任一项所述实时视频信息提取方法的步骤。