CN113095204B - 双录数据质检方法、装置及系统 - Google Patents

双录数据质检方法、装置及系统 Download PDF

Info

Publication number
CN113095204B
CN113095204B CN202110370685.9A CN202110370685A CN113095204B CN 113095204 B CN113095204 B CN 113095204B CN 202110370685 A CN202110370685 A CN 202110370685A CN 113095204 B CN113095204 B CN 113095204B
Authority
CN
China
Prior art keywords
result
signature
data
detection result
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110370685.9A
Other languages
English (en)
Other versions
CN113095204A (zh
Inventor
高伟
王亚新
刘金山
魏薇郦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110370685.9A priority Critical patent/CN113095204B/zh
Publication of CN113095204A publication Critical patent/CN113095204A/zh
Application granted granted Critical
Publication of CN113095204B publication Critical patent/CN113095204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Collating Specific Patterns (AREA)

Abstract

一种双录数据质检方法、装置及系统,可用于金融领域及其他领域。方法包括:据,确定双录数据对应的多个分段时间点;对时间戳信息及分段时间点进行匹配,若匹配通过,则根据时间戳信息对视频数据与音频数据进行切分;对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组并进行识别,得到签名识别结果;对分段后的音频数据进行语音识别,得到分段文本数据,进行文本规则匹配,得到文本匹配结果;根据预设的有效性规则,进行有效性检测,得到有效性检测结果;根据确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。本发明提高了检测准确率,及双录质检检测成功率。

Description

双录数据质检方法、装置及系统
技术领域
本发明涉及音视频处理技术领域,尤指一种双录数据质检方法、装置及系统。
背景技术
为了保护消费者的权益,监管机构要求商业银行业金融机构在销售理财和代销保单等金融产品时,通过录音录像(双录)规范金融机构的销售行为。目前商业银行通常采用本地缓存视频文件,等整个双录音视频录制完毕后异步上传云端保存,以备后续监管部门进行合规审查。
金融机构为保证双录视频的合规性,一般采用人工智能技术对离线音视频数据进行检查,但是存在以下问题,导致质检成功率不高:(1)客户确认环节依赖于语音转文本后的规则匹配,但客户说话声音小或环境嘈杂时,客户确认环节很容易导致质检不通过。(2)在客户签字动作环节,一般采用动作检测模型进行识别,但是动作检测模型本身识别准确率不高,同时客户经理展示签字内容时,有时候图片比较模糊,无法识别签字内容,导致质检不通过概率增大。(3)话术模板各环节依靠语音转文本后进行分段(文本分类),然后根据模板检测点对每个分段内容进行后续相应的质检内容(比如:证件检测、签名动作检测、客户确认等),目前这种分段方法准确率有待提升,如果分段出现错误,那么后续相关检测无法开展。
发明内容
针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种双录数据质检方法、装置及系统,实现提高双录质检成功率,提升客户服务满意度。
为了实现上述目的,本发明实施例提供一种双录数据质检方法,所述方法包括:
获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据;
对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;
对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;
对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;
对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;
根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;
根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
可选的,在本发明一实施例中,所述根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点包括:
对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
可选的,在本发明一实施例中,所述时间戳信息包括节点名称及对应的切分时间点。
可选的,在本发明一实施例中,所述对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分包括:
分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
可选的,在本发明一实施例中,所述对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组包括:
对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
可选的,在本发明一实施例中,所述对所述签名图片组进行识别,得到签名识别结果包括:
对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
可选的,在本发明一实施例中,所述对所述分段文本数据进行文本规则匹配,得到文本匹配结果包括:
根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
可选的,在本发明一实施例中,所述根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果包括:
根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
可选的,在本发明一实施例中,所述根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果包括:
根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过;
根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过;
根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
本发明实施例还提供一种双录数据质检装置,所述装置包括:
数据获取模块,用于获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据;
分段时间点模块,用于对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;
数据分段模块,用于对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;
视频数据模块,用于对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;
音频数据模块,用于对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;
电子签名模块,用于根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;
质检结果模块,用于根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
可选的,在本发明一实施例中,所述分段时间点模块还用于对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
可选的,在本发明一实施例中,所述时间戳信息包括节点名称及对应的切分时间点。
可选的,在本发明一实施例中,所述数据分段模块包括:
时间差单元,用于分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
数据切分单元,用于利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
可选的,在本发明一实施例中,所述视频数据模块包括:
确认动作检测单元,用于对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
确认检测结果单元,用于根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
可选的,在本发明一实施例中,所述视频数据模块还包括:
图片识别单元,用于对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
签名识别单元,用于根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
可选的,在本发明一实施例中,所述音频数据模块还用于根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
可选的,在本发明一实施例中,所述电子签名模块还用于根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
可选的,在本发明一实施例中,所述质检结果模块包括:
确认检测单元,用于根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过;
签名检测单元,用于根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过;
质检结果单元,用于根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
本发明实施例还提供一种双录数据质检系统,所述系统包括:录像设备、业务操作设备、电子签名设备及双录数据质检模块;
录像设备用于采集双录数据,并将所述双录数据发送至所述双录数据质检模块;
业务操作设备用于接收业务操作指令及生成时间戳信息,根据所述业务操作指令控制所述录像设备采集双录数据,并将所述时间戳信息发送至所述双录数据质检模块;
电子签名设备用于采集电子签名信息,并将所述电子签名信息发送至所述双录数据质检模块;
双录数据质检模块用于将所述双录数据分解为视频数据与音频数据;对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明通过对视频数据、音频数据等数据进行识别及检测,提升了双录质检时客户确认环节、客户签名环境的检测准确率,并且提高了视频数据与音频数据分段的准确率,同时利用对客户的确认动作及签名图片组等数据的识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种双录数据质检方法的流程图;
图2为本发明实施例中双录数据分段的流程图;
图3为本发明实施例中得到确认动作检测结果的流程图;
图4为本发明实施例中得到签名识别结果的流程图;
图5为本发明实施例中生成双录数据质检结果的流程图;
图6为本发明实施例中一种双录数据质检系统的结构示意图;
图7为本发明实施例中双录数据质检模块的结构示意图;
图8为本发明实施例中双录数据采集的流程图;
图9为本发明实施例中数据预处理的流程图;
图10为本发明实施例中双录数据质检模块的工作流程图;
图11为本发明实施例一种双录数据质检装置的结构示意图;
图12为本发明实施例中数据分段模块的结构示意图;
图13为本发明实施例中视频数据模块的结构示意图;
图14为本发明另一实施例中视频数据模块的结构示意图;
图15为本发明实施例中质检结果模块的结构示意图;
图16为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供一种双录数据质检方法、装置及系统,可用于金融领域或其他领域,需要说明的是,本发明的双录数据质检方法、装置及系统可用于金融领域,也可用于除金融领域之外的任意领域,本发明的双录数据质检方法、装置及系统应用领域不做限定。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例一种双录数据质检方法的流程图,本发明实施例提供的双录数据质检方法的执行主体包括但不限于计算机。图中所示方法包括:
步骤S1,获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据。
其中,通过录像录音设备对双录(录像录音)数据进行采集,通过业务操作设备在进行业务处理时得到对应的时间戳信息,并通过电子签名设备采集客户的电子签名信息。
进一步的,对获取到的双录数据进行分离,具体的,可以采用FFMPEG工具对双录数据进行分离,得到视频数据及音频数据。
步骤S2,对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点。
其中,可以采用现有语音识别技术对音频数据进行语音识别,得到语音文本数据。
具体的,预设的话术节点信息为预设话术模板中的节点信息,例如,征询客户意见、明示身份及明确提醒客户注意事项等等。
进一步的,根据语音文本数据中记录的词汇或语句信息,与话术节点信息进行匹配。若在语音文本数据中出现与话术节点信息相匹配的词汇或语句,例如,话术节点信息为征询客户意见,而语音文本数据中出现了“您对XX是否有其他意见”的语句,则判定此处的语音文本数据与话术节点信息相匹配。
进一步的,对于与话术节点信息相匹配的语音文本数据,可以为词汇或语句,将该词汇或语句对应的时间点作为双录数据对应的分段时间点。具体的,语音文本数据中可以存在多个词汇或语句与话术节点信息相匹配,因此,双录数据具有多个分段时间点。
进一步的,与话术节点信息相匹配的语音文本数据,可以为词汇或语句,该词汇或语句在音频数据中对应的可能为时间段。可以选取该词汇或语句的起始时间、终止时间,或者起始时间与终止时间之间的中间时间点作为该词汇或语句对应的时间点。
步骤S3,对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据。
其中,时间戳信息包括节点名称及对应的切分时间点,具体的,节点名称为预设话术模板中预先设置的,节点名称即业务处理中各环节的名称,例如,展示注意事项节点、身份验证节点等。与节点名称相对应的切分时间点,是业务操作设备在业务进行到某具体节点时,记录下来的时间戳。该时间戳代表了上一个节点的结束,及下一个节点的开始。
进一步的,对时间戳信息及分段时间点进行匹配具体为:将每一分段时间点与各时间戳信息中的切分时间点分别作差,可以计算得到每一分段时间点对应的时间差最小值。当该最小值小于预设的时间差阈值(30秒)时,则匹配通过,说明通过对语音文本数据进行识别分析得到的分段时间点,与业务操作设备记录的时间戳是一致的,即说明该时间戳有效。若匹配不通过,则说明该时间戳无效。利用匹配通过的时间戳,对双录数据中的视频数据及音频数据进行切分,并将节点名称写入对应的分段后的视频数据及音频数据中,得到的分段后的视频数据及音频数据用于后续的双录数据质检过程。
步骤S4,对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果。
其中,对分段后的视频数据进行确认动作检测为对视频数据进行识别及检测,判断视频数据中客户是否出现确认动作。
具体的,对视频数据进行点头检测,判断客户是否出现点头动作,可以采用Hopenet等头部姿态估计算法实现。若检测到客户出现点头动作,则点头检测结果为检测通过,否则,点头检测结果为不通过。
进一步的,对视频数据进行手势检测,判断客户是否出现手势确认动作,例如OK等手势,可以采用现有手势识别技术进行手势识别,例如百度AI开放平台等。若检测到客户出现手势确认动作,则手势检测结果为检测通过,否则,手势检测结果为不通过。
进一步的,对视频数据进行唇语检测,判断客户是否说出了同意、了解、知道或明白等肯定馈语,可以采用耦合3D卷积神经网络进行唇语检测。其中,肯定馈语可以预先设置,若检测到客户说出肯定馈语,则唇语检测结果为检测通过,否则,唇语检测结果为不通过。
进一步的,当点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,表明客户表达出肯定反馈,则生成确认动作检测结果,且确认动作检测结果为检测通过。若点头检测结果、手势检测结果及唇语检测结果均为不通过,则生成确认动作检测结果,且确认动作检测结果为不通过。
此外,可以采用现有的视频解析技术,解析双录数据中分段后的视频数据,得到多张连续的图片,作为签名图片组。
进一步的,对签名图片组进行识别,判断图片中是否出现签字笔。具体可以采用YoloV4算法进行检测,得到签字笔识别结果。若在签名图片组中识别出签字笔,则签字笔识别结果为识别通过,否则签字笔识别结果为不通过。
进一步的,对签名图片组进行识别,判断图片中是否出现手部。具体可以采用Faster R-CNN算法进行检测,得到手部识别结果。若在签名图片组中识别出手部,则手部识别结果为识别通过,否则手部识别结果为不通过。
进一步的,若签字笔识别结果与手部识别结果均为识别通过,则说明视频数据中同时出现手部及签字笔,生成签名识别结果,且签名识别结果为识别通过。若签字笔识别结果与手部识别结果中任何一个结果为不通过,则生成签名识别结果,且签名识别结果为不通过。
步骤S5,对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果。
其中,可以采用现有语音识别技术对分段后的音频数据进行语音识别,得到分段文本数据。此外,通过预设匹配规则,对分段文本数据进行文本规则匹配。
具体的,预设的匹配规则包括肯定反馈信息,例如,肯定反馈信息为同意、明白等可能词汇。对分段文本数据进行文本规则匹配,若分段文本数据中包括匹配规则中的肯定反馈信息,则说明客户表达了明确的确认反馈,文本匹配结果为匹配通过。若分段文本数据中不包括匹配规则中的肯定反馈信息,则说明客户没有表达确认反馈,文本匹配结果为不通过。
进一步的,预设的匹配规则还包括肯定反馈信息对应的业务问题,例如,肯定反馈信息应该在对应的具体业务问题之后。对分段文本数据进行文本规则匹配时,可以结合肯定反馈信息对应的业务问题,确定肯定反馈信息是针对业务问题的回应。例如,业务问题为询问客户是否了解了业务办理的注意事项,客户在此业务问题后给出了肯定反馈信息“了解”,由此判定客户表达了明确的确认反馈,文本匹配结果为匹配通过。
步骤S6,根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果。
其中,预设的有效性规则可以包括字迹清晰度、签名辨识度等指标。具体的,对电子签名信息中的电子签名进行识别,可以采用现有文字识别技术,得到签名识别结果。若得到的签名识别结果,符合有效性规则中字迹清晰度、签名辨识度等指标的要求,则得到有效性检测结果,且有效性检测结果为签名有效。若得到的签名识别结果,不符合有效性规则中字迹清晰度、签名辨识度等指标的要求,则得到有效性检测结果,且有效性检测结果为签名无效。
步骤S7,根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
其中,根据确认动作检测结果及文本匹配结果,生成客户确认检测结。若确认动作检测结果为检测通过,或者文本匹配结果为匹配通过,则说明客户表达了明确的确认反馈,生成客户确认检测结果,且客户确认检测结果为通过。若确认动作检测结果与文本匹配结果均为不通过,则说明客户没有表达确认反馈,生成客户确认检测结果,且客户确认检测结果为不通过。
进一步的,根据签名识别结果及有效性检测结果,生成客户签名检测结果。若签名识别结果为识别通过,且有效性检测结果为签名有效,说明视频数据中同时出现手部及签字笔,并且产生的电子签名信息为有效签名,则生成客户签名检测结果,且客户签名检测结果为检测通过。若签名识别结果为不通过,或者有效性检测结果为签名无效,或者两个结果均不通过,说明视频数据中手部及签字笔并没有同时出现,或者产生的电子签名信息为无效签名,则生成客户签名检测结果,且客户签名检测结果为不通过。
进一步的,根据客户确认检测结果及客户签名检测结果,生成双录数据质检结果。其中,若客户确认检测结果为检测通过,且客户签名检测结果为检测通过,则双录数据质检结果为检查通过。若客户确认检测结果与客户签名检测结果中任何一个检测结果为不通过,则双录数据质检结果为不通过。
作为本发明的一个实施例,根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点包括:对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
其中,根据语音文本数据中记录的词汇或语句信息,与话术节点信息进行匹配。若在语音文本数据中出现与话术节点信息相匹配的词汇或语句,例如,话术节点信息为身份信息确认,而语音文本数据中出现了“请核对您的身份信息”的语句,则判定此处的语音文本数据与话术节点信息相匹配。
进一步的,对于与话术节点信息相匹配的语音文本数据,可以为词汇或语句,将该词汇或语句对应的时间点作为双录数据对应的分段时间点。具体的,语音文本数据中可以存在多个词汇或语句与话术节点信息相匹配,因此,双录数据具有多个分段时间点。
进一步的,与话术节点信息相匹配的语音文本数据,可以为词汇或语句,该词汇或语句在音频数据中对应的可能为时间段。可以选取该词汇或语句的起始时间、终止时间,或者起始时间与终止时间之间的中间时间点作为该词汇或语句对应的时间点。
作为本发明的一个实施例,时间戳信息包括节点名称及对应的切分时间点。
其中,时间戳信息包括节点名称及对应的切分时间点,具体的,节点名称为预设话术模板中预先设置的,节点名称即业务处理中各环节的名称,例如,展示注意事项节点、身份验证节点等。与节点名称相对应的切分时间点,是业务操作设备在业务进行到某具体节点时,记录下来的时间戳。该时间戳代表了上一个节点的结束,及下一个节点的开始。
在本实施例中,如图2所示,对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分包括:
步骤S21,分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
步骤S22,利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
其中,对时间戳信息及分段时间点进行匹配具体为:将每一分段时间点与各时间戳信息中的切分时间点分别作差,可以计算得到每一分段时间点对应的时间差最小值。当该最小值小于预设的时间差阈值(30秒)时,则匹配通过,说明通过对语音文本数据进行识别分析得到的分段时间点,与业务操作设备记录的时间戳是一致的,即说明该时间戳有效。若匹配不通过,则说明该时间戳无效。利用匹配通过的时间戳,对双录数据中的视频数据及音频数据进行切分,并将节点名称写入对应的分段后的视频数据及音频数据中,得到的分段后的视频数据及音频数据用于后续的双录数据质检过程。
作为本发明的一个实施例,如图3所示,对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组包括:
步骤S31,对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
步骤S32,根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
其中,对视频数据进行点头检测,判断客户是否出现点头动作,可以采用Hopenet等头部姿态估计算法实现。若检测到客户出现点头动作,则点头检测结果为检测通过,否则,点头检测结果为不通过。
进一步的,对视频数据进行手势检测,判断客户是否出现手势确认动作,例如OK等手势,可以采用现有手势识别技术进行手势识别,例如百度AI开放平台等。若检测到客户出现手势确认动作,则手势检测结果为检测通过,否则,手势检测结果为不通过。
进一步的,对视频数据进行唇语检测,判断客户是否说出了同意、了解、知道或明白等肯定馈语,可以采用耦合3D卷积神经网络进行唇语检测。其中,肯定馈语可以预先设置,若检测到客户说出肯定馈语,则唇语检测结果为检测通过,否则,唇语检测结果为不通过。
进一步的,当点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,表明客户表达出肯定反馈,则生成确认动作检测结果,且确认动作检测结果为检测通过。若点头检测结果、手势检测结果及唇语检测结果均为不通过,则生成确认动作检测结果,且确认动作检测结果为不通过。
作为本发明的一个实施例,如图4所示,对所述签名图片组进行识别,得到签名识别结果包括:
步骤S41,对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
步骤S42,根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
其中,对签名图片组进行识别,判断图片中是否出现签字笔。具体可以采用YoloV4算法进行检测,得到签字笔识别结果。若在签名图片组中识别出签字笔,则签字笔识别结果为识别通过,否则签字笔识别结果为不通过。
进一步的,对签名图片组进行识别,判断图片中是否出现手部。具体可以采用Faster R-CNN算法进行检测,得到手部识别结果。若在签名图片组中识别出手部,则手部识别结果为识别通过,否则手部识别结果为不通过。
进一步的,若签字笔识别结果与手部识别结果均为识别通过,则说明视频数据中同时出现手部及签字笔,生成签名识别结果,且签名识别结果为识别通过。若签字笔识别结果与手部识别结果中任何一个结果为不通过,则生成签名识别结果,且签名识别结果为不通过。
作为本发明的一个实施例,对所述分段文本数据进行文本规则匹配,得到文本匹配结果包括:根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
其中,预设的匹配规则包括肯定反馈信息,例如,肯定反馈信息为同意、明白等可能词汇。对分段文本数据进行文本规则匹配,若分段文本数据中包括匹配规则中的肯定反馈信息,则说明客户表达了明确的确认反馈,文本匹配结果为匹配通过。若分段文本数据中不包括匹配规则中的肯定反馈信息,则说明客户没有表达确认反馈,文本匹配结果为不通过。
进一步的,预设的匹配规则还包括肯定反馈信息对应的业务问题,例如,肯定反馈信息应该在对应的具体业务问题之后。对分段文本数据进行文本规则匹配时,可以结合肯定反馈信息对应的业务问题,确定肯定反馈信息是针对业务问题的回应。例如,业务问题为询问客户是否了解了业务办理的注意事项,客户在此业务问题后给出了肯定反馈信息“了解”,由此判定客户表达了明确的确认反馈,文本匹配结果为匹配通过。
作为本发明的一个实施例,根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果包括:根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
其中,预设的有效性规则可以包括字迹清晰度、签名辨识度等指标。具体的,对电子签名信息中的电子签名进行识别,可以采用现有文字识别技术,得到签名识别结果。若得到的签名识别结果,符合有效性规则中字迹清晰度、签名辨识度等指标的要求,则得到有效性检测结果,且有效性检测结果为签名有效。若得到的签名识别结果,不符合有效性规则中字迹清晰度、签名辨识度等指标的要求,则得到有效性检测结果,且有效性检测结果为签名无效。
作为本发明的一个实施例,如图5所示,根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果包括:
步骤S51,根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过。
其中,若确认动作检测结果为检测通过,或者文本匹配结果为匹配通过,则说明客户表达了明确的确认反馈,生成客户确认检测结果,且客户确认检测结果为通过。若确认动作检测结果与文本匹配结果均为不通过,则说明客户没有表达确认反馈,生成客户确认检测结果,且客户确认检测结果为不通过。
步骤S52,根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过。
其中,若签名识别结果为识别通过,且有效性检测结果为签名有效,说明视频数据中同时出现手部及签字笔,并且产生的电子签名信息为有效签名,则生成客户签名检测结果,且客户签名检测结果为检测通过。若签名识别结果为不通过,或者有效性检测结果为签名无效,或者两个结果均不通过,说明视频数据中手部及签字笔并没有同时出现,或者产生的电子签名信息为无效签名,则生成客户签名检测结果,且客户签名检测结果为不通过。
步骤S53,根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
其中,根据客户确认检测结果及客户签名检测结果,生成双录数据质检结果。其中,若客户确认检测结果为检测通过,且客户签名检测结果为检测通过,则双录数据质检结果为检查通过。若客户确认检测结果与客户签名检测结果中任何一个检测结果为不通过,则双录数据质检结果为不通过。
本发明通过对视频数据、音频数据等数据进行识别及检测,提升了双录质检时客户确认环节、客户签名环境的检测准确率,并且提高了视频数据与音频数据分段的准确率,同时利用对客户的确认动作及签名图片组等数据的识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。
如图6所示为本发明实施例中一种双录数据质检系统的结构示意图,图中所示系统包括:录像设备1、业务操作设备2、电子签名设备3及双录数据质检模块4;
录像设备1用于采集双录数据,并将所述双录数据发送至所述双录数据质检模块4。
其中,录像设备1用于采集视频和音频数据,包含摄像头和麦克风,为桌面集成式设备。
业务操作设备2用于接收业务操作指令及生成时间戳信息,根据所述业务操作指令控制所述录像设备1采集双录数据,并将所述时间戳信息发送至所述双录数据质检模块4。
其中,业务操作设备2可以为平板电脑,用于展示话术模板,业务人员可以根据话术模板进行朗读给客户听,业务操作设备2采集话术模板每个环节的时间戳信息。根据客户或业务人员的业务操作指令控制录像设备1采集双录数据,并将时间戳信息发送至双录数据质检模块4。
电子签名设备3用于采集电子签名信息,并将所述电子签名信息发送至所述双录数据质检模块4。
其中,电子签名设备3用于供客户签名使用,包括摄像头、手写笔等模块。进一步的,摄像头用于抓取签名时的手部签名动作,可获得电子签名轨迹和签名动作影像数据,将签名动作影像数据作为双录数据中视频数据的一部分发送至双录数据质检模块4,以及将电子签名信息发送至双录数据质检模块4。
双录数据质检模块4用于将所述双录数据分解为视频数据与音频数据;对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
作为本发明的一个实施例,系统还包括数据预处理模块5,具体的,数据预处理模块5包括:
主控单元负责数据预处理单元的总体调度和处理。
话术模板维护单元提供话术模板增删改查等功能。
采集操作单元提供开始双录和结束双录提供操作界面,且业务人员可通过采集操作单元操作业务操作设备2。
录音录像处理单元用于把录像设备采集的双录数据与业务操作设备2采集的每个环节的时间戳信息关联起来,进行一一绑定。
电子签名处理单元用于把电子签名和签名时的动作视频进行一一绑定。
数据关联单元用于为一个双录采集单元赋予一个唯一ID,并关联对应的双录数据,以及电子签名相关数据。
数据存储单元用于存储话术模板、双录数据、电子签名、以及关联关系等数据。
作为本发明的一个实施例,如图7所示,双录数据质检模块4包括质检主控单元、音视频分离单元、分段单元、质检模块维护单元、话术检测单元、同框检测单元、证件检测单元、客户确认检测单元、签名检测单元、质检报告生成单元、质检结果存储单元。具体说明如下:
质检主控单元负责双录质检模块的总体调度和处理。
音视频分离单元用于对双录数据进行音频和视频的分离。
分段单元用于对音频和视频文件,按照话术模板节点(比如节点信息如下:1、征求客户意见;2、明示身份;3、明确提醒投保人注意等)进行分段,结合业务操作设备2采集的话术模板每个环节的时间戳信息进行切分。
质检模板维护单元用于对每个节点的质检规则进行维护,一些质检规则参数如表1所示。
表1
Figure BDA0003009179230000181
话术检测单元用于音频文件转文字后,对文本进行违禁词检测,检测对应节点是否有违禁语。
同框检测单元用于检测整个视频文件2人或3人同框的占比,采用检测算法可采用RFBNet算法。
证件检测单元用于检测某个节点客户经理是否展示证件(工作证或执业证),检测算法可使用RefineDet算法,对银行常用的证件进行标注训练提升准确度。
客户确认检测单元用于在某个环节有征求客户意见时,检测客户是否有同意或知道等肯定反馈,可通过点头、手势ok、唇语识别、文本规则匹配等多项指标检测获得。
签名检测单元用于检测在签名环节客户是否有签名动作,以及是否真的签字。
质检报告生成单元用于对双录数据质检后,把不合规的检测点生成一份报告供工作人员查阅,已图文并茂的方式。
质检结果存储单元用于存储质检不通过的检测项和相对应的图片或视频等数据,以备人工复查。
在本实施例中,客户确认检测单元包括点头检测单元、手势检测单元、唇语检测单元、文本规则匹配单元。这四个单元只要有一个检测通过,就表示客户有肯定反馈,即客户确认质检点通过,具体说明如下:
点头检测单元用于检测客户是否有点头,算法可采用Hopenet等头部姿态估计算法实现。
手势检测单元用于检测客户是否有做ok的手势,算法可采用百度AI开放平台的手势识别实现。
唇语检测单元用于检测客户是否有说同意、了解、知道等肯定反馈语,算法可采用耦合3D卷积神经网络实现。
文本规则匹配单元用于对客户确认回答语音进行语音识别后,对客户回答文字进行规则匹配,匹配成功后,表示客户有肯定反馈。
在本实施例中,签名检测单元包括签字笔检测单元、手部检测单元、电子签名单元。判断是否有签字动作,通过对电子签名终端上摄像头捕获的视频进行检测,检测某个节点是否有手部和签字笔出现,同时是否有电子签名生成。如果同时满足,即表示客户有做现场签名动作。具体说明如下:
签字笔检测单元用于检测视频画面中是否出现签字笔,检测算法可用YoloV4算法。
手部检测单元用于检测视频画面中是否出现手部,检测算法可用Faster R-CNN算法。
电子签名单元用于判断电子签名设备是否有电子签名生成。
作为本发明的一个实施例,如图8所示为双录数据采集流程图,包括以下步骤:
步骤S101,业务操作设备2接收到指令后,从数据预处理单元获取对应话术模板。
步骤S102,业务操作设备2接收开始指令后,显示对应话术模板第一个环节。
步骤S103,业务操作设备2一直在监听,当监听到有下一个环节的指令,则显示对应话术模板上下一个环节的话术内容。
步骤S104,业务操作设备2判断是否有为结束,如果是,则执行S105;否则执行S103。
步骤S105,当业务操作设备2监测比对当前环节为最后一个环节且有结束指令时,结束本次双录。
作为本发明的一个实施例,如图9所示为数据预处理流程图,包括以下步骤:
步骤S201,业务操作设备2上接收到选择的话术模板指令后,记录对应的话术模板名称。
步骤S202,业务操作设备2接收到开始双录指令时,记录此时时间戳和话术模板第一个环节名称,此时记录的时间戳也是第一个环节的开始时间。
步骤S203,业务操作设备2根据话术模板质检规则,判断否有需要客户签名,如果有,则执行S204;否则执行S205。
步骤S204,当有签名时,电子签名设备3开始工作,获取客户的签名动作视频和电子签名,并与该环节进行一一绑定,为后续质检准备。
步骤S205,业务操作设备2接收到下一个环节指令时,记录指令的时间戳和下一个环节的名称,此时的时间戳为上一个环节的结束时间,也是下一个环节的开始时间,为后续双录数据分段提供依据。
步骤S206,业务操作设备2判断是否结束(本环节为结束环节,且接收到指令),如果是,则执行S207;否则执行S203。
步骤S207,双录结束,记录本次双录结束时间,并为整个双录数据赋予唯一ID,然后绑定双录数据、对应话术模板、每个节点的时间戳、以及电子签名和签名动作视频,最后把关联关系进行存储。
作为本发明的一个实施例,如图10所示为双录数据质检系统中双录数据质检模块4的工作流程图,包括以下步骤:
步骤S301,获取定时维护质检模板的质检点和质检任务。
步骤S302,根据质检任务和规则,加载某个双录相关的所有数据,包括双录数据、对应话术模板、每个节点的时间戳、以及电子签名和签名动作视频。
步骤S303,对双录数据进行音频和视频分离,可采用FFMPEG工具。
步骤S304,首先对视频内容进行分段,然后根据质检模板要求,对有质检要求的视频分段进行检测。
步骤S305,首先对音频内容进行分段,然后根据质检模板要求,对有质检要求的音频分段进行检测。
步骤S306,当音频部分某个环节出现不合规点时,记录相关不合规点的内容和节点信息,以及时间戳。
步骤S307,当视频部分某个环节出现不合规点时,记录相关不合规点的图片和节点信息,以及时间戳。
步骤S308,汇总音频和视频不合规点的内容,生成双录质检报告共工作人员复查。
本发明利用传感技术采集一些辅助信息,提升双录质检时的分节和签名动作识别准确率,同时通过点头、手势等意图识别手段,解决单纯依靠语音转文本后的规则匹配检测准确率不高的问题,进而提升双录质检检测成功率。
如图11所示为本发明实施例一种双录数据质检装置的结构示意图,图中所示装置包括:
数据获取模块10,用于获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据;
分段时间点模块20,用于对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;
数据分段模块30,用于对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;
视频数据模块40,用于对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;
音频数据模块50,用于对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;
电子签名模块60,用于根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;
质检结果模块70,用于根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果。
作为本发明的一个实施例,分段时间点模块还用于对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
作为本发明的一个实施例,时间戳信息包括节点名称及对应的切分时间点。
在本实施例中,如图12所示,数据分段模块30包括:
时间差单元31,用于分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
数据切分单元32,用于利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
作为本发明的一个实施例,如图13所示,视频数据模块40包括:
确认动作检测单元41,用于对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
确认检测结果单元42,用于根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
作为本发明的一个实施例,如图14所示,视频数据模块40还包括:
图片识别单元43,用于对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
签名识别单元44,用于根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
作为本发明的一个实施例,音频数据模块还用于根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
作为本发明的一个实施例,电子签名模块还用于根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
作为本发明的一个实施例,如图15所示,质检结果模块70包括:
确认检测单元71,用于根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过;
签名检测单元72,用于根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过;
质检结果单元73,用于根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
基于与上述一种双录数据质检方法相同的申请构思,本发明还提供了上述一种双录数据质检装置。由于该一种双录数据质检装置解决问题的原理与一种双录数据质检方法相似,因此该一种双录数据质检装置的实施可以参见一种双录数据质检方法的实施,重复之处不再赘述。
本发明通过对视频数据、音频数据等数据进行识别及检测,提升了双录质检时客户确认环节、客户签名环境的检测准确率,并且提高了视频数据与音频数据分段的准确率,同时利用对客户的确认动作及签名图片组等数据的识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图16所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图16中所示的所有部件;此外,电子设备600还可以包括图16中没有示出的部件,可以参考现有技术。
如图16所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (17)

1.一种双录数据质检方法,其特征在于,所述方法包括:
获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据;其中,所述时间戳信息包括节点名称及对应的切分时间点;
对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;
对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;
对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;
对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;
根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;
根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果;
其中,所述对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分包括:
分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点包括:
对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
3.根据权利要求1所述的方法,其特征在于,所述对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组包括:
对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
4.根据权利要求1所述的方法,其特征在于,所述对所述签名图片组进行识别,得到签名识别结果包括:
对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
5.根据权利要求1所述的方法,其特征在于,所述对所述分段文本数据进行文本规则匹配,得到文本匹配结果包括:
根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
6.根据权利要求1所述的方法,其特征在于,所述根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果包括:
根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
7.根据权利要求1所述的方法,其特征在于,所述根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果包括:
根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过;
根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过;
根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
8.一种双录数据质检装置,其特征在于,所述装置包括:
数据获取模块,用于获取双录数据、电子签名信息及多个时间戳信息,并将所述双录数据分解为视频数据与音频数据;其中,所述时间戳信息包括节点名称及对应的切分时间点;
分段时间点模块,用于对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;
数据分段模块,用于对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;
视频数据模块,用于对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;
音频数据模块,用于对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;
电子签名模块,用于根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;
质检结果模块,用于根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果;
其中,所述数据分段模块包括:
时间差单元,用于分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
数据切分单元,用于利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
9.根据权利要求8所述的装置,其特征在于,所述分段时间点模块还用于对所述语音文本数据中词汇与所述话术节点信息进行匹配,当所述语音文本数据中词汇与所述话术节点信息匹配通过时,将所述词汇对应的时间点作为分段时间点。
10.根据权利要求8所述的装置,其特征在于,所述视频数据模块包括:
确认动作检测单元,用于对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;
确认检测结果单元,用于根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。
11.根据权利要求8所述的装置,其特征在于,所述视频数据模块还包括:
图片识别单元,用于对所述签名图片组进行签字笔识别,生成签字笔识别结果,并对所述签名图片组进行手部识别,生成手部识别结果;
签名识别单元,用于根据所述签字笔识别结果与所述手部识别结果确定所述签名识别结果是否为识别通过,若所述签字笔识别结果与所述手部识别结果均为识别通过,则所述签名识别结果为识别通过。
12.根据权利要求8所述的装置,其特征在于,所述音频数据模块还用于根据预设的匹配规则确定所述分段文本数据是否符合所述匹配规则,若所述分段文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。
13.根据权利要求8所述的装置,其特征在于,所述电子签名模块还用于根据预设的有效性规则确定所述电子签名信息是否符合所述有效性规则,若所述电子签名信息符合所述有效性规则,则所述有效性检测结果为签名有效。
14.根据权利要求8所述的装置,其特征在于,所述质检结果模块包括:
确认检测单元,用于根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果;其中,若获知所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为检测通过;
签名检测单元,用于根据所述签名识别结果及所述有效性检测结果,生成客户签名检测结果;其中,若获知所述签名识别结果为识别通过,以及所述有效性检测结果为签名有效,则所述客户签名检测结果为检测通过;
质检结果单元,用于根据所述客户确认检测结果及所述客户签名检测结果,生成双录数据质检结果;其中,若获知所述客户确认检测结果为检测通过,以及所述客户签名检测结果为检测通过,则所述双录数据质检结果为检查通过。
15.一种双录数据质检系统,其特征在于,所述系统包括:录像设备、业务操作设备、电子签名设备及双录数据质检模块;
所述录像设备用于采集双录数据,并将所述双录数据发送至所述双录数据质检模块;
所述业务操作设备用于接收业务操作指令及生成时间戳信息,根据所述业务操作指令控制所述录像设备采集双录数据,并将所述时间戳信息发送至所述双录数据质检模块;其中,所述时间戳信息包括节点名称及对应的切分时间点;
所述电子签名设备用于采集电子签名信息,并将所述电子签名信息发送至所述双录数据质检模块;
所述双录数据质检模块用于将所述双录数据分解为视频数据与音频数据;对所述音频数据进行语音识别,得到语音文本数据,并根据所述语音文本数据及预设的话术节点信息,确定所述双录数据对应的多个分段时间点;对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分,得到分段后的视频数据及分段后的音频数据;对分段后的视频数据进行确认动作检测及图片解析,得到确认动作检测结果及签名图片组,并对所述签名图片组进行识别,得到签名识别结果;对分段后的音频数据进行语音识别,得到分段文本数据,并对所述分段文本数据进行文本规则匹配,得到文本匹配结果;根据预设的有效性规则,对所述电子签名信息进行有效性检测,得到有效性检测结果;根据所述确认动作检测结果、签名识别结果、文本匹配结果及有效性检测结果,生成双录数据质检结果;
其中,所述对所述时间戳信息及所述分段时间点进行匹配,若匹配通过,则根据所述时间戳信息对所述视频数据与所述音频数据进行切分包括:
分别确定各所述分段时间点与所述时间戳信息中切分时间点之间时间差的最小值,当所述最小值小于预设时间差阈值时,则所述时间戳信息与所述分段时间点匹配通过;
利用与分段时间点匹配通过的时间戳信息中的切分时间点,分别对所述视频数据与所述音频数据进行切分,并将时间戳信息中的节点名称对应写入分段后的视频数据与音频数据中。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一项所述方法的计算机程序。
CN202110370685.9A 2021-04-07 2021-04-07 双录数据质检方法、装置及系统 Active CN113095204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110370685.9A CN113095204B (zh) 2021-04-07 2021-04-07 双录数据质检方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110370685.9A CN113095204B (zh) 2021-04-07 2021-04-07 双录数据质检方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113095204A CN113095204A (zh) 2021-07-09
CN113095204B true CN113095204B (zh) 2022-09-02

Family

ID=76674353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110370685.9A Active CN113095204B (zh) 2021-04-07 2021-04-07 双录数据质检方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113095204B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679557A (zh) * 2022-03-18 2022-06-28 中国建设银行股份有限公司 录制数据质检方法、装置、设备、存储介质及程序产品
CN114926464B (zh) * 2022-07-20 2022-10-25 平安银行股份有限公司 在双录场景下的图像质检方法、图像质检装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN109905779A (zh) * 2019-03-25 2019-06-18 联想(北京)有限公司 视频数据分段方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578261B (zh) * 2015-12-18 2019-04-26 无锡天脉聚源传媒科技有限公司 一种视频剪辑的方法和装置
CN109767335A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 双录质检方法、装置、计算机设备及存储介质
CN111741356B (zh) * 2020-08-25 2020-12-08 腾讯科技(深圳)有限公司 双录视频的质检方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN109905779A (zh) * 2019-03-25 2019-06-18 联想(北京)有限公司 视频数据分段方法、装置及电子设备

Also Published As

Publication number Publication date
CN113095204A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN111741356B (zh) 双录视频的质检方法、装置、设备及可读存储介质
CN112804400A (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
US11315366B2 (en) Conference recording method and data processing device employing the same
WO2021175019A1 (zh) 音视频录制引导方法、装置、计算机设备及存储介质
CN113095204B (zh) 双录数据质检方法、装置及系统
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN111666746A (zh) 会议纪要的生成方法及装置、电子设备及存储介质
Sun et al. Multi-modal sentiment analysis using deep canonical correlation analysis
CN113095202A (zh) 双录数据质检中的数据分段方法及装置
CN111901627B (zh) 视频处理方法、装置、存储介质及电子设备
KR102476099B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN115376559A (zh) 基于音视频的情绪识别方法、装置及设备
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
CN114677634B (zh) 面签识别方法、装置、电子设备及存储介质
CN115935182A (zh) 模型训练方法、多轮对话中的话题分割方法、介质及装置
CN114155860A (zh) 摘要记录方法、装置、计算机设备和存储介质
CN111783432A (zh) 信用证审单检查要点清单的生成方法及装置
US10446138B2 (en) System and method for assessing audio files for transcription services
US10522135B2 (en) System and method for segmenting audio files for transcription
CN113051924A (zh) 一种录制数据分段质检方法及系统
CN109524009B (zh) 基于语音识别的保单录入方法和相关装置
CN115719058A (zh) 一种内容分析方法、电子设备和存储介质
CN109493868B (zh) 基于语音识别的保单录入方法和相关装置
CN111311197A (zh) 差旅数据处理方法及装置
CN113111759A (zh) 双录数据质检中的客户确认检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant