CN113901839A - 用户视频信息审核方法、装置、设备及存储介质 - Google Patents

用户视频信息审核方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113901839A
CN113901839A CN202111366245.2A CN202111366245A CN113901839A CN 113901839 A CN113901839 A CN 113901839A CN 202111366245 A CN202111366245 A CN 202111366245A CN 113901839 A CN113901839 A CN 113901839A
Authority
CN
China
Prior art keywords
information
auditing
target user
verified
video information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111366245.2A
Other languages
English (en)
Inventor
徐泓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111366245.2A priority Critical patent/CN113901839A/zh
Publication of CN113901839A publication Critical patent/CN113901839A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种用户视频信息审核方法、装置、设备及存储介质,用于提高了目标业务场景下用户视频审核处理速度。所述用户视频信息审核方法包括:获取目标业务场景对应的目标用户视频信息;将目标用户视频信息转换为已识别文字数据;基于预设基准词库将已识别文字数据分类为待验证基础信息关键字集和待验证业务信息关键字集;当待验证基础信息关键字集存在缺失的关键字时,按照预设的通知方式推送错误提示消息;当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型审核待验证业务信息关键字集,得到审核结果。此外,本发明还涉及区块链技术,目标用户视频信息可存储于区块链节点中。

Description

用户视频信息审核方法、装置、设备及存储介质
技术领域
本发明涉及人工智能的语音信号处理技术领域,尤其涉及一种用户视频信息审核方法、装置、设备及存储介质。
背景技术
对于固定的目标业务场景,为确定用户身份信息以及其他业务关键信息,一般首先采集用户录制的视频文件,并对用户录制的视频文件进行审核处理,以避免后续出现用户表示没看到或不清楚某些重要信息,从而产生业务纠纷的情况。
在现有技术中,由于用户录制的视频文件中存在内容缺失和语言表述逻辑问题,且在审核过程中存在信息错漏情况,导致用户视频审核准确率低和业务处理效率低的问题。
发明内容
本发明提供了一种用户视频信息审核方法、装置、设备及存储介质,用于提高目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高业务处理效率。
为实现上述目的,本发明第一方面提供了一种用户视频信息审核方法,包括:获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端;当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果。
可选的,在本发明第一方面的第一种实现方式中,所述获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息,包括:接收目标用户信息审核请求,并对所述目标用户信息审核请求进行解析处理,得到场景标识、目标用户标识和目标用户视频地址数据;根据所述场景标识和所述目标用户标识进行用户身份信息核验处理,得到核验结果;当所述核验结果为核验成功时,根据所述场景标识、所述目标用户标识和所述目标用户视频地址数据,从预设的文件存储系统中读取目标业务场景对应的目标用户视频信息。
可选的,在本发明第一方面的第二种实现方式中,所述对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,包括:通过预设的语音识别模型对所述目标用户视频信息进行语音识别,得到目标用户语音信息;将所述目标用户语音信息转化为待处理文字信息,并按照预设的敏感词库对所述待处理文字信息进行敏感词过滤和文字纠错处理,得到已识别文字数据,所述已识别文字数据包括文字和标点符号。
可选的,在本发明第一方面的第三种实现方式中,所述基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集,包括:对所述已识别文字数据进行碎片化处理,得到多个碎片化文字数据;通过预设基准词库对所述多个碎片化文字数据进行关键字纠正处理,得到多个标准文字数据;对所述多个标准文字数据进行组合搜索和信息重组处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
可选的,在本发明第一方面的第四种实现方式中,所述当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端,包括:当所述待验证基础信息关键字集存在缺失的关键字时,根据所述场景标识和所述目标用户标识确定目标用户语言类型,并获取目标终端对应的终端标识;根据所述目标用户语言类型和所述缺失的关键字查询预设的模板库,得到对应的消息模板,并基于所述消息模板和所述缺失的关键字生成错误提示消息;按照预设的通知方式和所述终端标识将所述错误提示消息推送至所述目标终端,并将所述错误提示消息和所述目标用户信息审核请求映射存储至预设的审核日志中。
可选的,在本发明第一方面的第五种实现方式中,所述当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果,包括:当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行句法分析和命名实体识别,得到实体识别结果;按照所述实体识别结果对待验证业务信息关键字集进行意图分析处理,得到候选话术意图数据,所述候选话术意图数据包括疑问意图数据、肯定意图数据和/或否定意图数据;当所述候选话术意图数据包括所述疑问意图数据和/或所述否定意图数据时,确定审核结果为审核未通过;当所述候选话术意图数据为所述肯定意图数据时,确定审核结果为审核通过。
可选的,在本发明第一方面的第六种实现方式中,所述当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果之后,所述用户视频信息审核方法还包括:若所述审核结果为审核未通过,则从所述待验证业务信息关键字集中获取候选问题话术,并将所述候选问题话术更新至预设的话术数据库中;根据所述预设的话术数据库对多个其他用户视频信息进行文字模糊匹配和相似度计算处理,得到多个相似度;按照所述多个相似度从多个其他用户视频信息中识别异常的用户视频信息,并对所述异常的用户视频信息进行问题定位处理。
本发明第二方面提供了一种用户视频信息审核装置,包括:获取模块,用于获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;转换模块,用于对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;分类模块,用于基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;生成模块,用于当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端;审核模块,用于当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:接收目标用户信息审核请求,并对所述目标用户信息审核请求进行解析处理,得到场景标识、目标用户标识和目标用户视频地址数据;根据所述场景标识和所述目标用户标识进行用户身份信息核验处理,得到核验结果;当所述核验结果为核验成功时,根据所述场景标识、所述目标用户标识和所述目标用户视频地址数据,从预设的文件存储系统中读取目标业务场景对应的目标用户视频信息。
可选的,在本发明第二方面的第二种实现方式中,所述转换模块具体用于:通过预设的语音识别模型对所述目标用户视频信息进行语音识别,得到目标用户语音信息;将所述目标用户语音信息转化为待处理文字信息,并按照预设的敏感词库对所述待处理文字信息进行敏感词过滤和文字纠错处理,得到已识别文字数据,所述已识别文字数据包括文字和标点符号。
可选的,在本发明第二方面的第三种实现方式中,所述分类模块具体用于:对所述已识别文字数据进行碎片化处理,得到多个碎片化文字数据;通过预设基准词库对所述多个碎片化文字数据进行关键字纠正处理,得到多个标准文字数据;对所述多个标准文字数据进行组合搜索和信息重组处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
可选的,在本发明第二方面的第四种实现方式中,所述生成模块具体用于:当所述待验证基础信息关键字集存在缺失的关键字时,根据所述场景标识和所述目标用户标识确定目标用户语言类型,并获取目标终端对应的终端标识;根据所述目标用户语言类型和所述缺失的关键字查询预设的模板库,得到对应的消息模板,并基于所述消息模板和所述缺失的关键字生成错误提示消息;按照预设的通知方式和所述终端标识将所述错误提示消息推送至所述目标终端,并将所述错误提示消息和所述目标用户信息审核请求映射存储至预设的审核日志中。
可选的,在本发明第二方面的第五种实现方式中,所述审核模块具体用于:当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行句法分析和命名实体识别,得到实体识别结果;按照所述实体识别结果对待验证业务信息关键字集进行意图分析处理,得到候选话术意图数据,所述候选话术意图数据包括疑问意图数据、肯定意图数据和/或否定意图数据;当所述候选话术意图数据包括所述疑问意图数据和/或所述否定意图数据时,确定审核结果为审核未通过;当所述候选话术意图数据为所述肯定意图数据时,确定审核结果为审核通过。
可选的,在本发明第二方面的第六种实现方式中,所述用户视频信息审核装置还包括:更新模块,用于若所述审核结果为审核未通过,则从所述待验证业务信息关键字集中获取候选问题话术,并将所述候选问题话术更新至预设的话术数据库中;计算模块,用于根据所述预设的话术数据库对多个其他用户视频信息进行文字模糊匹配和相似度计算处理,得到多个相似度;定位模块,用于按照所述多个相似度从多个其他用户视频信息中识别异常的用户视频信息,并对所述异常的用户视频信息进行问题定位处理。
本发明第三方面提供了一种用户视频信息审核设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述用户视频信息审核设备执行上述的用户视频信息审核方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的用户视频信息审核方法。
本发明提供的技术方案中,获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端;当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果。本发明实施例中,对目标业务场景中目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,并基于预设基准词库和训练好的话术模型依次对已识别文字数据进行审核分析,提高了目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高了业务处理效率。
附图说明
图1为本发明实施例中用户视频信息审核方法的一个实施例示意图;
图2为本发明实施例中用户视频信息审核方法的另一个实施例示意图;
图3为本发明实施例中用户视频信息审核装置的一个实施例示意图;
图4为本发明实施例中用户视频信息审核装置的另一个实施例示意图;
图5为本发明实施例中用户视频信息审核设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种用户视频信息审核方法、装置、设备及存储介质,用于提高目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高业务处理效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中用户视频信息审核方法的一个实施例包括:
101、获取目标用户信息审核请求,并根据目标用户信息审核请求确定目标业务场景对应的目标用户视频信息。
其中,目标业务场景可以为贷款业务场景,也可以为理赔业务场景,具体此处不做限定。具体的,服务器接收目标用户信息审核请求,服务器解析目标用户信息审核请求,得到目标业务场景对应的目标用户视频信息,并将目标业务场景对应的目标用户视频信息存储至预设的文件存储系统中。也就是,目标用户信息审核请求中携带了目标业务场景对应的目标用户视频信息,服务器对目标业务场景对应的目标用户视频信息进行实时接收和语音识别等处理操作。进一步地,服务器将目标用户视频信息存储于区块链数据库中,具体此处不做限定。
可以理解的是,本发明的执行主体可以为用户视频信息审核装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、对目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据。
需要说明的是,目标用户视频信息中的目标用户语音信息可以包括地方方言语音数据,也可以包括外语语音数据,还可以包括普通话语音数据,具体此处不做限定。已识别文字数据为中文类型的文字数据。具体的,服务器获取目标用户视频信息包含的目标用户语音信息;服务器通过预设的语音识别工具提取目标用户语音信息对应的语音特征信息;服务器根据目标用户标识从在预设语音数据库中获取目标用户预录入语音数据,服务器根据目标用户预录入语音数据和语音特征信息进行语音识别和文字转换处理,得到已识别文字数据。
103、基于预设基准词库对已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
其中,预设基准词库包括预设基础信息关键字和预设业务信息关键字,预设基础信息关键字包括目标用户姓名、目标用户年龄和目标用户地址等,预设业务信息关键字包括目标用户应该了解的贷款保险项、目标用户应该了解的还款期限以及目标用户应该了解的理赔条款等。具体的,服务器基于预设基准词库对已识别文字数据进行意图分析、关键字匹配和分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
104、当待验证基础信息关键字集存在缺失的关键字时,根据缺失的关键字生成错误提示消息,并按照预设的通知方式将错误提示消息推送至目标终端。
也就是,目标用户对业务关键信息表述时存在错漏词的情况。具体的,当待验证基础信息关键字集存在缺失的关键字时,服务器根据场景标识、目标用户标识和缺失的关键字确定对应的消息模板,并基于消息模板生成错误提示消息;服务器获取目标终端对应的终端标识,并按照预设的通知方式和终端标识将错误提示消息推送至目标终端,以使得目标终端通知目标用户按照错误提示消息重新录制并上传目标业务场景对应的新的目标用户视频信息。其中,预设的通知方式可以包括短信方式、消息推送方式和邮件方式,还可以包括智能语音通知方式和即时通信通知方式,具体此处不做限定。
105、当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行审核分析,得到审核结果。
可以理解的是,当待验证基础信息关键字集不存在缺失的关键字时,服务器器还需要对待验证业务信息关键字集检验是否存在否定词和疑问词。一般用户视频信息被要求多用肯定句,以避免出现纠纷。具体的,当待验证基础信息关键字集不存在缺失的关键字时,服务器按照训练好的话术模型对待验证业务信息关键字集进行预设词匹配和句型判断处理,得到候选话术句型,候选话术句型包括疑问句句型、否定句句型和/或肯定句句型,预设词包括近义词、语序和动词;服务器根据候选话术句型确定审核结果,审核结果包括审核通过和审核未通过。
本发明实施例中,对目标业务场景中目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,并基于预设基准词库和训练好的话术模型依次对已识别文字数据进行审核分析,提高了目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高了业务处理效率。
请参阅图2,本发明实施例中用户视频信息审核方法的另一个实施例包括:
201、获取目标用户信息审核请求,并根据目标用户信息审核请求确定目标业务场景对应的目标用户视频信息。
其中,目标用户信息审核请求与目标业务场景对应的目标用户视频信息存在对应关系。可选的,服务器接收目标用户信息审核请求,并对目标用户信息审核请求进行解析处理,得到场景标识、目标用户标识和目标用户视频地址数据;服务器根据场景标识和目标用户标识进行用户身份信息核验处理,得到核验结果;当核验结果为核验成功时,服务器根据场景标识、目标用户标识和目标用户视频地址数据,从预设的文件存储系统中读取目标业务场景对应的目标用户视频信息。
可以理解的是,服务器接收目标终端上传的目标用户信息审核请求,目标用户信息审核请求用于指示按照视频方式对目标业务场景中目标用户身份进行审核处理;服务器对目标用户信息审核请求进行参数解析和参数校验处理,得到场景标识、目标用户标识和目标用户视频地址数据,场景标识、目标用户标识和目标用户视频地址数据之间存在对应关系;服务器根据场景标识和目标用户标识进行目标用户身份信息核验处理,得到核验结果;当核验结果为核验成功时,服务器根据场景标识、目标用户标识和目标用户视频地址数据查询预设的文件存储系统,得到目标业务场景对应的目标用户视频信息。其中,预设的文件存储系统可以为独立文件服务器,也可以为分布式文件系统,具体此处不做限定。
202、对目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据。
其中,已识别文字数据包括文字和标点符号。可选的,服务器通过预设的语音识别模型对目标用户视频信息进行语音识别,得到目标用户语音信息;服务器将目标用户语音信息转化为待处理文字信息,并按照预设的敏感词库对待处理文字信息进行敏感词过滤和文字纠错处理,得到已识别文字数据。
需要说明的是,预设的语音识别模型可以对地方方言语音数据、外语语音数据和普通话语音数据进行语音识别和文字转换处理,并且还可以根据目标用户语音信息的内容理解和停顿对已识别文字数据设置标点符号,例如逗号、问号、感叹号和句号等。
203、基于预设基准词库对已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
可以理解的是,服务器预先将目标业务场景的验证语句、固定组合词均存储至预设基准词库,并对预设基准词库中常用词和非常用词固定词组进行编码,以及近义词共用编码。最终比较普通且没什么特殊的语音回复是否具有共同的编码,并注意对语气词动词介词的处理。目标业务场景属于固定场景,固定场景的视频语音内容有限,一个固定场景下的词库,也因为场景固定,语音转化文字的准确率也会提高。
可选的,服务器对已识别文字数据进行碎片化处理,得到多个碎片化文字数据;服务器通过预设基准词库对多个碎片化文字数据进行关键字纠正处理,得到多个标准文字数据;服务器对多个标准文字数据进行组合搜索和信息重组处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
进一步地,服务器判断待验证基础信息关键字集存在缺失的关键字,具体的,服务器统计待验证基础信息关键字集的候选关键字数量,并获取预设基准词库中的标准关键字数量;对候选关键字数量和标准关键字数量进行大小比较;若候选关键字数量小于标准关键字数量,则确定待验证基础信息关键字集存在缺失的关键字,服务器执行步骤204;若候选关键字数量等于标准关键字数量,则确定待验证基础信息关键字集不存在缺失的关键字,服务器执行步骤205。
204、当待验证基础信息关键字集存在缺失的关键字时,根据缺失的关键字生成错误提示消息,并按照预设的通知方式将错误提示消息推送至目标终端。
可以理解的是,错误提示消息用于指示多语言版本的消息报文内容,错误提示消息可以为文字类型消息,也可以为语音类型消息,具体此处不做限定。可选的,当待验证基础信息关键字集存在缺失的关键字时,服务器根据场景标识和目标用户标识确定目标用户语言类型,并获取目标终端对应的终端标识;服务器根据目标用户语言类型和缺失的关键字查询预设的模板库,得到对应的消息模板,并基于消息模板和缺失的关键字生成错误提示消息;服务器按照预设的通知方式和终端标识将错误提示消息推送至目标终端,并将错误提示消息和目标用户信息审核请求映射存储至预设的审核日志中。其中,终端标识可以为手机号,也可以为手机标识码,具体此处不做限定。
205、当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行句法分析和命名实体识别,得到实体识别结果。
具体的,当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行句法分析,得到句法分析结果,对句法分析结果进行命名实体识别,得到实体识别结果。
206、按照实体识别结果对待验证业务信息关键字集进行意图分析处理,得到候选话术意图数据,候选话术意图数据包括疑问意图数据、肯定意图数据和/或否定意图数据。
其中,疑问意图数据用于指示待验证业务信息关键字集中包含疑问词的疑问句巨型,例如,疑问词为吗、呢、吧、啊、为什么、怎么样、如何等,肯定意图数据用于指示待验证业务信息关键字集中包含肯定词的肯定句句型,例如,肯定词为是、对、可以、好等,否定意图数据用于指示待验证业务信息关键字集中包含否定词的否定句句型,例如,否定词为不、没、无、莫或非等。
207、当候选话术意图数据包括疑问意图数据和/或否定意图数据时,确定审核结果为审核未通过。
也就是,当候选话术意图数据包括疑问意图数据和/或否定意图数据时,服务器确定目标用户视频信息中用户语音信息存在异常,目标用户并没有了解与目标业务场景的相关条款,需要目标用户以肯定句方式重新录制新的目标用户视频信息,因此,服务器确定审核结果为审核未通过,服务器设置审核结果为第一预设值,例如,第一预设值为fail或false。
208、当候选话术意图数据为肯定意图数据时,确定审核结果为审核通过。
也就是,当候选话术意图数为肯定意图数据时,服务器确定目标用户视频信息中用户语音信息正常,目标用户已了解与目标业务场景的相关条款,目标用户视频信息审核正常,因此,服务器确定审核结果为审核通过,服务器设置审核结果为第二预设值,例如,第二预设值为success或true。
进一步地,若所述审核结果为审核未通过,则服务器从所述待验证业务信息关键字集中获取候选问题话术,并将所述候选问题话术更新至预设的话术数据库中;服务器根据所述预设的话术数据库对多个其他用户视频信息进行文字模糊匹配和相似度计算处理,得到多个相似度;服务器按照所述多个相似度从多个其他用户视频信息中识别异常的用户视频信息,并对所述异常的用户视频信息进行问题定位处理。用于提高用户视频信息的处理效率。
本发明实施例中,对目标业务场景中目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,并基于预设基准词库和训练好的话术模型依次对已识别文字数据进行审核分析,提高了目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高了业务处理效率。
上面对本发明实施例中用户视频信息审核方法进行了描述,下面对本发明实施例中用户视频信息审核装置进行描述,请参阅图3,本发明实施例中用户视频信息审核装置的一个实施例包括:
获取模块301,用于获取目标用户信息审核请求,并根据目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;
转换模块302,用于对目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;
分类模块303,用于基于预设基准词库对已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;
生成模块304,用于当待验证基础信息关键字集存在缺失的关键字时,根据缺失的关键字生成错误提示消息,并按照预设的通知方式将错误提示消息推送至目标终端;
审核模块305,用于当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行审核分析,得到审核结果。
进一步地,将目标用户视频信息存储于区块链数据库中,具体此处不做限定。
本发明实施例中,对目标业务场景中目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,并基于预设基准词库和训练好的话术模型依次对已识别文字数据进行审核分析,提高了目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高了业务处理效率。
请参阅图4,本发明实施例中用户视频信息审核装置的另一个实施例包括:
获取模块301,用于获取目标用户信息审核请求,并根据目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;
转换模块302,用于对目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;
分类模块303,用于基于预设基准词库对已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;
生成模块304,用于当待验证基础信息关键字集存在缺失的关键字时,根据缺失的关键字生成错误提示消息,并按照预设的通知方式将错误提示消息推送至目标终端;
审核模块305,用于当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行审核分析,得到审核结果。
可选的,获取模块301还可以具体用于:
接收目标用户信息审核请求,并对目标用户信息审核请求进行解析处理,得到场景标识、目标用户标识和目标用户视频地址数据;
根据场景标识和目标用户标识进行用户身份信息核验处理,得到核验结果;
当核验结果为核验成功时,根据场景标识、目标用户标识和目标用户视频地址数据,从预设的文件存储系统中读取目标业务场景对应的目标用户视频信息。
可选的,转换模块302还可以具体用于:
通过预设的语音识别模型对目标用户视频信息进行语音识别,得到目标用户语音信息;
将目标用户语音信息转化为待处理文字信息,并按照预设的敏感词库对待处理文字信息进行敏感词过滤和文字纠错处理,得到已识别文字数据,已识别文字数据包括文字和标点符号。
可选的,分类模块303还可以具体用于:
对已识别文字数据进行碎片化处理,得到多个碎片化文字数据;
通过预设基准词库对多个碎片化文字数据进行关键字纠正处理,得到多个标准文字数据;
对多个标准文字数据进行组合搜索和信息重组处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
可选的,生成模块304还可以具体用于:
当待验证基础信息关键字集存在缺失的关键字时,根据场景标识和目标用户标识确定目标用户语言类型,并获取目标终端对应的终端标识;
根据目标用户语言类型和缺失的关键字查询预设的模板库,得到对应的消息模板,并基于消息模板和缺失的关键字生成错误提示消息;
按照预设的通知方式和终端标识将错误提示消息推送至目标终端,并将错误提示消息和目标用户信息审核请求映射存储至预设的审核日志中。
可选的,审核模块305还可以具体用于:
当待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对待验证业务信息关键字集进行句法分析和命名实体识别,得到实体识别结果;
按照实体识别结果对待验证业务信息关键字集进行意图分析处理,得到候选话术意图数据,候选话术意图数据包括疑问意图数据、肯定意图数据和/或否定意图数据;
当候选话术意图数据包括疑问意图数据和/或否定意图数据时,确定审核结果为审核未通过;
当候选话术意图数据为肯定意图数据时,确定审核结果为审核通过。
可选的,用户视频信息审核装置还包括:
更新模块306,用于若审核结果为审核未通过,则从待验证业务信息关键字集中获取候选问题话术,并将候选问题话术更新至预设的话术数据库中;
计算模块307,用于根据预设的话术数据库对多个其他用户视频信息进行文字模糊匹配和相似度计算处理,得到多个相似度;
定位模块308,用于按照多个相似度从多个其他用户视频信息中识别异常的用户视频信息,并对异常的用户视频信息进行问题定位处理。
本发明实施例中,对目标业务场景中目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,并基于预设基准词库和训练好的话术模型依次对已识别文字数据进行审核分析,提高了目标业务场景下用户视频审核处理速度和用户视频审核的准确性,并提高了业务处理效率。
上面图3和图4从模块化的角度对本发明实施例中的用户视频信息审核装置进行详细描述,下面从硬件处理的角度对本发明实施例中用户视频信息审核设备进行详细描述。
图5是本发明实施例提供的一种用户视频信息审核设备的结构示意图,该用户视频信息审核设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对用户视频信息审核设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在用户视频信息审核设备500上执行存储介质530中的一系列计算机程序操作。
用户视频信息审核设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的用户视频信息审核设备结构并不构成对用户视频信息审核设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述用户视频信息审核方法的步骤。
本发明还提供一种用户视频信息审核设备,所述用户视频信息审核设备包括存储器和处理器,存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述用户视频信息审核方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用户视频信息审核方法,其特征在于,所述用户视频信息审核方法包括:
获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;
对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;
基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;
当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端;
当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果。
2.根据权利要求1所述的用户视频信息审核方法,其特征在于,所述获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息,包括:
接收目标用户信息审核请求,并对所述目标用户信息审核请求进行解析处理,得到场景标识、目标用户标识和目标用户视频地址数据;
根据所述场景标识和所述目标用户标识进行用户身份信息核验处理,得到核验结果;
当所述核验结果为核验成功时,根据所述场景标识、所述目标用户标识和所述目标用户视频地址数据,从预设的文件存储系统中读取目标业务场景对应的目标用户视频信息。
3.根据权利要求1所述的用户视频信息审核方法,其特征在于,所述对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据,包括:
通过预设的语音识别模型对所述目标用户视频信息进行语音识别,得到目标用户语音信息;
将所述目标用户语音信息转化为待处理文字信息,并按照预设的敏感词库对所述待处理文字信息进行敏感词过滤和文字纠错处理,得到已识别文字数据,所述已识别文字数据包括文字和标点符号。
4.根据权利要求1所述的用户视频信息审核方法,其特征在于,所述基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集,包括:
对所述已识别文字数据进行碎片化处理,得到多个碎片化文字数据;
通过预设基准词库对所述多个碎片化文字数据进行关键字纠正处理,得到多个标准文字数据;
对所述多个标准文字数据进行组合搜索和信息重组处理,得到待验证基础信息关键字集和待验证业务信息关键字集。
5.根据权利要求2所述的用户视频信息审核方法,其特征在于,所述当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端,包括:
当所述待验证基础信息关键字集存在缺失的关键字时,根据所述场景标识和所述目标用户标识确定目标用户语言类型,并获取目标终端对应的终端标识;
根据所述目标用户语言类型和所述缺失的关键字查询预设的模板库,得到对应的消息模板,并基于所述消息模板和所述缺失的关键字生成错误提示消息;
按照预设的通知方式和所述终端标识将所述错误提示消息推送至所述目标终端,并将所述错误提示消息和所述目标用户信息审核请求映射存储至预设的审核日志中。
6.根据权利要求1所述的用户视频信息审核方法,其特征在于,所述当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果,包括:
当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行句法分析和命名实体识别,得到实体识别结果;
按照所述实体识别结果对待验证业务信息关键字集进行意图分析处理,得到候选话术意图数据,所述候选话术意图数据包括疑问意图数据、肯定意图数据和/或否定意图数据;
当所述候选话术意图数据包括所述疑问意图数据和/或所述否定意图数据时,确定审核结果为审核未通过;
当所述候选话术意图数据为所述肯定意图数据时,确定审核结果为审核通过。
7.根据权利要求1-6中任意一项所述的用户视频信息审核方法,其特征在于,在所述当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果之后,所述用户视频信息审核方法还包括:
若所述审核结果为审核未通过,则从所述待验证业务信息关键字集中获取候选问题话术,并将所述候选问题话术更新至预设的话术数据库中;
根据所述预设的话术数据库对多个其他用户视频信息进行文字模糊匹配和相似度计算处理,得到多个相似度;
按照所述多个相似度从多个其他用户视频信息中识别异常的用户视频信息,并对所述异常的用户视频信息进行问题定位处理。
8.一种用户视频信息审核装置,其特征在于,所述用户视频信息审核装置包括:
获取模块,用于获取目标用户信息审核请求,并根据所述目标用户信息审核请求确定目标业务场景对应的目标用户视频信息;
转换模块,用于对所述目标用户视频信息进行语音识别和文字转换处理,得到已识别文字数据;
分类模块,用于基于预设基准词库对所述已识别文字数据进行关键字分类处理,得到待验证基础信息关键字集和待验证业务信息关键字集;
生成模块,用于当所述待验证基础信息关键字集存在缺失的关键字时,根据所述缺失的关键字生成错误提示消息,并按照预设的通知方式将所述错误提示消息推送至目标终端;
审核模块,用于当所述待验证基础信息关键字集不存在缺失的关键字时,按照训练好的话术模型对所述待验证业务信息关键字集进行审核分析,得到审核结果。
9.一种用户视频信息审核设备,其特征在于,所述用户视频信息审核设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述用户视频信息审核设备执行如权利要求1-7中任意一项所述的用户视频信息审核方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的用户视频信息审核方法。
CN202111366245.2A 2021-11-18 2021-11-18 用户视频信息审核方法、装置、设备及存储介质 Pending CN113901839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111366245.2A CN113901839A (zh) 2021-11-18 2021-11-18 用户视频信息审核方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111366245.2A CN113901839A (zh) 2021-11-18 2021-11-18 用户视频信息审核方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113901839A true CN113901839A (zh) 2022-01-07

Family

ID=79194652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111366245.2A Pending CN113901839A (zh) 2021-11-18 2021-11-18 用户视频信息审核方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113901839A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115052173A (zh) * 2022-06-07 2022-09-13 北京胜视京基数字文化产业发展有限公司 一种网络短视频的内容分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753350A (zh) * 2008-12-10 2010-06-23 北大方正集团有限公司 一种信息审核方法、装置及系统
US20160078078A1 (en) * 2014-09-12 2016-03-17 Observepoint, Llc Auditing of web-based video
CN110766442A (zh) * 2019-09-06 2020-02-07 中国平安财产保险股份有限公司 客户信息验证方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753350A (zh) * 2008-12-10 2010-06-23 北大方正集团有限公司 一种信息审核方法、装置及系统
US20160078078A1 (en) * 2014-09-12 2016-03-17 Observepoint, Llc Auditing of web-based video
CN110766442A (zh) * 2019-09-06 2020-02-07 中国平安财产保险股份有限公司 客户信息验证方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115052173A (zh) * 2022-06-07 2022-09-13 北京胜视京基数字文化产业发展有限公司 一种网络短视频的内容分析方法及系统

Similar Documents

Publication Publication Date Title
CN109960725B (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN112151014B (zh) 语音识别结果的测评方法、装置、设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
CN112487140A (zh) 问答对话评测方法、装置、设备及存储介质
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112463599B (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110717021B (zh) 人工智能面试中获取输入文本和相关装置
CN114186019A (zh) 结合rpa和ai的企业项目的审核方法及装置
KR101887629B1 (ko) 자연어기반 정보공개분류시스템
CN111859914B (zh) 敏感信息检测方法、装置、计算机设备及存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN118171658A (zh) 智能机器人的用户意图响应方法、装置、设备及存储介质
CN113901839A (zh) 用户视频信息审核方法、装置、设备及存储介质
CN114372082A (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
CN113641808A (zh) 基于槽位信息的解答方法、装置、设备及存储介质
CN112786041A (zh) 语音处理方法及相关设备
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质
CN118095217B (zh) 基于自然语言处理的语音交互式数据分析系统
CN114242047B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN115203057B (zh) 低代码测试自动化方法、装置、设备及存储介质
CN114519357B (zh) 基于机器学习的自然语言处理方法和系统
CN115618857B (zh) 威胁情报处理方法、威胁情报推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination