CN116886992B - 一种视频数据的处理方法、装置、电子设备及存储介质 - Google Patents
一种视频数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116886992B CN116886992B CN202311140162.0A CN202311140162A CN116886992B CN 116886992 B CN116886992 B CN 116886992B CN 202311140162 A CN202311140162 A CN 202311140162A CN 116886992 B CN116886992 B CN 116886992B
- Authority
- CN
- China
- Prior art keywords
- text data
- sub
- data
- preset
- timestamp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000010008 shearing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 abstract description 7
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,本发明涉及信息处理技术领域,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种视频数据的处理方法、装置、电子设备及存储介质。
背景技术
为了保护消费者的权益,监管机构要求商业银行业及金融机构在销售理财和代销保单等金融产品时,通过录音录像(双录)规范金融机构的销售行为。目前,金融机构为保证双录视频的合规性,一般采用人工智能技术对双录视频进行分段,但是这种分段方式分出的视频准确率较低。
发明内容
本申请实施例提供一种视频数据的处理方法、装置、电子设备及存储介质,以解决现有技术中双录视频分段准确率较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种视频数据的处理方法。该方法包括:
对获取到的待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据;
根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
可选的,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据之前,所述方法还包括:
获取初始视频数据和初始预设话术文本数据;
去除所述初始视频数据和所述初始预设话术文本数据中的标点符号和空白字符,得到所述待分段视频数据和所述预设话术文本数据。
可选的,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,包括:
对所述语音文本数据进行拆分,得到多个第二子文本数据,所述多个第二子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;
将所述预设话术文本数据分别与所述第二多个子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;
基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据。
可选的,所述基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个第二子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
可选的,所述基于所述多个匹配结果所对应子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
可选的,所述基于所述预设话术文本数据对所述并集文本数据进行匹配,包括:
基于所述预设话术文本数据对所述并集文本数据中包括的第三字符串进行筛选,得到目标文本数据,所述第三字符串中包括多个不同的字符,所述目标文本数据由所述第三字符串中符合预设要求的多个字符组成。
可选的,所述对待分段视频数据进行语音识别,得到语音文本数据,包括:
基于自动语音识别技术ASR对所述待分段视频数据进行语音识别,得到识别文本数据;
将所述识别文本数据中的数字转换为语言文本,得到所述语音文本数据。
第二方面,本发明实施例还提供一种视频数据的处理装置。该视频数据的处理装置包括:
获取模块,用于对获取到的待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
匹配模块,用于基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述预设话术文本数据包括多个匹配数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的匹配数据的相似度超过预设阈值的文本数据;
确定模块,用于根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
剪切模块,用于基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
第三方面,本发明实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的视频数据的处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的视频数据的处理方法的步骤。
本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的视频数据的处理方法的流程图;
图2是本发明实施例提供的视频数据的处理装置的结构图;
图3是本发明实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种简历处理方法。参见图1,图1是本发明实施例提供的视频数据的处理方法的流程图,如图1所示,包括以下步骤:
步骤101、对待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据。
在本实施例中,本发明一般应用于金融领域,具体地,在金融机构中一般为通过收集双录视频来规范金融机构的销售行为。待分段视频数据即双录视频,其中包括了录音数据和录像数据。
基于预设的语音识别方法对待分段视频数据进行识别,得到语音文本数据,语音文本数据包括文本和时间点,其中,语音文本数据包括由多句话组成的语音文本数据。
步骤102、基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据。
在本实施例中,预设话术文本数据为客户在银行自助柜台进行操作时,自动进行流程的文本数据,一般通过该文本数据对客户进行服务。需要进行说明的是,客户进行不同业务时,预设话术文本数据也不相同。其中,预设话术文本数据包括多个匹配数据,不同匹配数据指每个文本数据中每句话,与第一子文本数据相对应。将多个匹配数据与多个第一子文本数据进行匹配,在预设相似度超过预设阈值时,确认多个目标文本数据,其中目标文本数据为第一子文本数据中的一个或多个。需要进行说明是,预设阈值可以根据实际情况进行适应性设置,预设阈值越高时,相似度需求越高,预设阈值越低时,相似度需求越低,在本实施例中不做具体限定。
示例性的,预设话术文本数据可以为以下内容(其中speechTxt表示发言,starTime表示该发言的开始时间点,endTime表示该发言的结束时间点):
{'speechNo': 's001', 'speechTxt': '您好,为排查风险隐患,提升服务质量,根据监管机构相关要求,收单机构应定期开展商户巡检工作。本次巡检将通过远程视频方式进行,全过程均会录音录像,请问您是否同意?'},
{'speechNo': 's002', 'speechTxt': '我是德助银行的客户经理李四,请问您是特约商户国敏商贸的授权办理人张三吗?'},
{'speechNo': 's003', 'speechTxt': '好的,请您出示授权委托书。'},
{'speechNo': 's004', 'speechTxt': '张三您好,请出示一下您的身份证件人像面!'},
{'speechNo': 's005', 'speechTxt': '好的,请出示一下您的身份证件背面!'},
{'speechNo': 's006', 'speechTxt': '您的姓名是张三,身份证号是222222200002022222,请问信息正确吗?'},
{'speechNo': 's007', 'speechTxt': '请您使用手机后置摄像头,环顾经营场所一周,清晰拍摄经营场所、经营内容及经营证照。'},
{'speechNo': 's008', 'speechTxt': '请您确认下列信息是否正确,没有变更?商户名称:爱国有限公司;商户地址:北京市朝阳区朝阳路4栋1层23号;法人或负责人姓名:张三;法人或负责人联系电话:22222222222'},
{'speechNo': 's009', 'speechTxt': '经查询,特约商户爱国有限公司已绑定如下终端或码牌,请您使用手机后置摄像头,清晰拍摄终端摆放位置及对应编号。终端数量:1;终端类型:pos机;终端编号:055;码牌数量:1;码牌编号:066'},
{'speechNo': 's010', 'speechTxt': '请您确认以上终端或码牌是否可以正常使用?'},
{'speechNo': 's011', 'speechTxt': '特向您进行以下风险提示:1.出租、出借、出售支付受理终端、收款条码、网络支付接口和收单结算账户的行为不仅要受到严厉的金融惩戒,还要承担相应的法律责任,请您依法依规使用德助银行的收单产品及服务。2.不得将我行收单产品应用于违法犯罪活动,不得进行非法经营使用,不得利用其从事或协助他人从事非法活动。3.请注意保护好您的收款设备,定期进行检查,如有任何异常情况,请及时与我行联系。'},
{'speechNo': 's012', 'speechTxt': '请问您对我行收单业务服务是否满意?有何意见或建议?'},
{'speechNo': 's013', 'speechTxt': '本次巡检即将结束,感谢您的支持与配合,在产品使用过程中,如有任何问题可以联系我及我行其他工作人员,也可拨打我行11111客服专线。'}]}
步骤103、根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳。
在本实施例中,得到匹配后的目标文本数据后,根据目标文本数据中的开始时间点和结束时间点来确认第一时间戳和第二时间戳,具体地,第一时间戳和第二时间戳为目标文本数据对应在待分段视频数据中的开始时间点和结束时间点。
步骤104、基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
在本实施例中,通过将第一时间戳和第二时间戳将待分段视频数据进行剪切,最后的得到分段视频数据,其中分段视频数据的开始时间和结束时间分别赌对应第一时间戳和第二时间戳。
本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
在一些可行的实施例中,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据之前,所述方法还包括:
获取初始视频数据和初始预设话术文本数据;
去除所述初始视频数据和所述初始预设话术文本数据中的标点符号和空白字符,得到所述待分段视频数据和所述预设话术文本数据。
在本实施例中,初始视频数据和初始预设话术文本数据中为包括标点符合和空白字符的文本数据,具体地,音文本数据进行清洗,包括去除空白字符、标点符号,并进行合并。例如“张三您好,请出示一下您的身份证件人像面!”通过清洗后得到“张三您好请出示一下您的身份证件人像面”。
通过将标点符号和空白字符进行清洗,可以避免标点符号和空白字符带来的识别误差,从而更好地提高了识别准确率。
在一些可行的实施例中,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,包括:
对所述语音文本数据进行拆分,得到多个第二子文本数据,所述第二多个子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;
将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;
基于所述多个匹配结果所对应第二子文本数据的进行文本整合,得到目标文本数据。
在本实施例中,将语音文本数据进行拆分为多个不完全相同的第二子文本数据,其中,不完全相同是指两个第二子文本数据之间可以有相同的内容,但是必须有不同的内容。另外,第二子文本数包括第二字符串,第一子文本数据包括第一字符串,第二字符串和第一字符串包括的字符数量相同,具体地,第一字符串的长度与第二字符串的长度相同。
示例性的,使用预设话术文本在合并的语音文本段中进行滑动匹配,即如下匹配,得到多个匹配结果,例如以下均为相似度符合匹配数据“张三您好请出示一下您的身份证件人像面”的匹配结果:“确认张三您好请出示一下您的身份证件人”、“认张三您好请出示一下您的身份证件人相”、“张三您好请出示一下您的身份证件人相面”、“三您好请出示一下您的身份证件人相面好”和“您好请出示一下您的身份证件人相面好的”。通过将多个匹配结果进行文本整合,最终的得到目标文本数据。
在一些可行的实施例中,所述将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,包括:
分别计算所述预设话术文本数据与每个所述第二子文本数据之间的编辑距离,得到所述多个匹配结果。
在本实施例中,编辑距离,也叫莱文斯坦距离(Levenshtein),是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。通过计算编辑距离可以更好地获取预设话术文本数据与每个子文本数据之间的差距值,得到到相似度结果更加准确。
在一些可行的实施例中,所述基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个第二子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
在本实施例中,将匹配的子文本数据交叠的部分进行合并,具体地,将“确认张三您好请出示一下您的身份证件人”、“认张三您好请出示一下您的身份证件人相”、“张三您好请出示一下您的身份证件人相面”、“三您好请出示一下您的身份证件人相面好”和“您好请出示一下您的身份证件人相面好的”进行合并,得到并集结果“确认张三您好请出示一下您的身份证件人相面好的”。
在一些可行的实施例中,所述基于所述预设话术文本数据对所述并集文本数据进行匹配,包括:
基于所述预设话术文本数据对所述并集文本数据中包括的第三字符串进行筛选,得到目标文本数据,所述第三字符串中包括多个不同的字符,所述目标文本数据由所述第三字符串中符合预设要求的多个字符组成。
在本实施例中,再次使用预设话术片段对上述结果“确认张三您好请出示一下您的身份证件人相面好的”进行头尾裁剪,即分别不断缩减头尾位置,寻找到第一个相似度极大值位置,最终可以得到以下结果“张三您好请出示一下您的身份证件人相面”。
在一些可行的实施例中,所述对待分段视频数据进行语音识别,得到语音文本数据,包括:
基于自动语音识别技术ASR对所述待分段视频数据进行语音识别,得到识别文本数据;
将所述识别文本数据中的数字转换为语言文本,得到所述语音文本数据。
在本实施例中,自动语音识别技术(Automatic Speech Recognition,简称ASR),是一种将人的语音转换为文本的技术,具体地,目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。通过ASR可以准确地将待分段视频数据进行语音识别,从而提高了识别精度。
本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
在一些可行的实施例中,示例性的,语文文本数据可以为以下内容(其中speechTxt表示发言,starTime表示该发言的开始时间点,endTime表示该发言的结束时间点):{'speechTxt': '以上情况您是否确认确认,', 'starTime': '00:59', 'endTime':'01:02', 'speechSeq': '21'},
{'speechTxt': '张三,', 'starTime': '01:05', 'endTime': '01:06', 'speechSeq': '22'},
{'speechTxt': '您好,', 'starTime': '01:06', 'endTime': '01:06', 'speechSeq': '23'},
{'speechTxt': '请出示一下您的身份证件。', 'starTime': '01:06', 'endTime': '01:09', 'speechSeq': '24'},
{'speechTxt': '人相面。 ', 'starTime': '01:09', 'endTime': '01:09', 'speechSeq': '25'},
{'speechTxt': '好的,', 'starTime': '01:14', 'endTime': '01:15', 'speechSeq': '26'}。
示例性的,预设话术数据如下:
{'speechNo': 's003', 'speechTxt': ' 张三您好,请出示一下您的身份证件人像面!'}。
将上述语音文本数据进行清洗,包括去除空白字符、标点符号,并进行合并。上步中的语音文本数据将变成如下结果
'以上情况您是否确认确认张三您好请出示一下您的身份证件人相面好的'。
将预设话术数据进行清洗,包括去除空白字符、标点符号、数字转化。上步中的预设话术数据将变成如下结果
'张三您好请出示一下您的身份证件人像面'。
使用预设话术文本在合并的语音文本段中进行滑动匹配,对匹配计算编辑距离,然后记录所有超过阈值的匹配子语音文本段。例如
'确认张三您好请出示一下您的身份证件人'。
'认张三您好请出示一下您的身份证件人相'。
'张三您好请出示一下您的身份证件人相面'。
'三您好请出示一下您的身份证件人相面好'。
'您好请出示一下您的身份证件人相面好的' 。
对此,将上述匹配的子语音文本段交叠的部分进行合并,得到以下结果
'确认张三您好请出示一下您的身份证件人相面好的'。
再次使用预设话术片段对上述结果进行头尾裁剪,即分别不断缩减头尾位置,寻找到第一个相似度极大值位置,最终可以得到以下结果:
'张三您好请出示一下您的身份证件人相面'。
参见图2,图2是本发明实施例提供的视频数据的处理装置的结构图。如图2所示,视频数据的处理装置200包括:
获取模块210,用于对待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
匹配模块220,用于基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据;
确定模块230,用于根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
剪切模块240,用于基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
可选的,还包括:
初始获取模块,用于获取初始视频数据和初始预设话术文本数据;
去除模块,用于去除所述初始视频数据和所述初始预设话术文本数据中的标点符号和空白字符,得到所述待分段视频数据和所述预设话术文本数据。
可选的,匹配模块220包括:
拆分子模块,用于对所述语音文本数据进行拆分,得到多个第二子文本数据,所述多个第二子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;
匹配子模块,用于将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;
整合子模块,用于基于所述多个匹配结果所对应子文本数据的进行文本整合,得到目标文本数据。
可选的,匹配子模块包括:
计算单元,用于分别计算所述预设话术文本数据与每个所述第二子文本数据之间的编辑距离,得到所述多个匹配结果。
可选的,匹配子模块包括:
并集计算单元,用于取所述多个第二子文本数据之间的并集,得到并集文本数据;
匹配单元,用于基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
可选的,匹配单元包括:
筛选子单元,用于基于所述预设话术文本数据对所述并集文本数据中包括的第三字符串进行筛选,得到目标文本数据,所述第三字符串中包括多个不同的字符,所述目标文本数据由所述第三字符串中符合预设要求的多个字符组成。
可选的,获取模块210还包括:
识别子模块,用于识别基于自动语音识别技术ASR对所述待分段视频数据进行语音识别,得到识别文本数据;
转换子模块,用于将所述识别文本数据中的数字转换为语言文本,得到所述语音文本数据。
本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
参见图3,图3是本申请又一实施提供的电子设备的结构图,如图3所示,电子设备300包括:处理器301、存储器302及存储在所述存储器302上并可在所述处理器上运行的计算机程序,模型评估装置300中的各个组件通过总线接口303耦合在一起,所述计算机程序被所述处理器301执行时实现如下步骤:
对获取到的待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据;
根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
可选的,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据之前,所述方法还包括:
获取初始视频数据和初始预设话术文本数据;
去除所述初始视频数据和所述初始预设话术文本数据中的标点符号和空白字符,得到所述待分段视频数据和所述预设话术文本数据。
可选的,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,包括:
对所述语音文本数据进行拆分,得到多个第二子文本数据,所述多个第二子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;
将所述预设话术文本数据分别与所述多个子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;
基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据。
可选的,所述基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个第二子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
可选的,所述基于所述多个匹配结果所对应子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与所述处理后的预设话术文本数据之间的相似度超过预设阈值。
可选的,所述基于所述预设话术文本数据对所述并集文本数据进行匹配,包括:
基于所述预设话术文本数据对所述并集文本数据中包括的第三字符串进行筛选,得到目标文本数据,所述第三字符串中包括多个不同的字符,所述目标文本数据由所述第三字符串中符合预设要求的多个字符组成。
可选的,所述对待分段视频数据进行语音识别,得到语音文本数据,包括:
基于自动语音识别技术ASR对所述待分段视频数据进行语音识别,得到识别文本数据;
将所述识别文本数据中的数字转换为语言文本,得到所述语音文本数据。应理解的是,本申请实施例中,所述计算机程序被处理器301执行时能够实现上述模型评估方法实施例中的各个过程,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述模型评估方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (9)
1.一种视频数据的处理方法,其特征在于,包括:
对待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,包括:对所述语音文本数据进行拆分,得到多个第二子文本数据,所述多个第二子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据;
根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
2.根据权利要求1中所述的方法,其特征在于,所述基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据之前,所述方法还包括:
获取初始视频数据和初始预设话术文本数据;
去除所述初始视频数据和所述初始预设话术文本数据中的标点符号和空白字符,得到所述待分段视频数据和所述预设话术文本数据。
3.根据权利要求1中所述的方法,其特征在于,所述将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,包括:
分别计算所述预设话术文本数据与每个所述第二子文本数据之间的编辑距离,得到所述多个匹配结果。
4.根据权利要求1中所述的方法,其特征在于,所述基于所述多个匹配结果所对应的第二子文本数据的进行文本整合,得到目标文本数据,包括:
取所述多个第二子文本数据之间的并集,得到并集文本数据;
基于所述预设话术文本数据对所述并集文本数据进行匹配,得到目标文本数据,所述目标文本数据与处理后的预设话术文本数据之间的相似度超过预设阈值。
5.根据权利要求4中所述的方法,其特征在于,所述基于所述预设话术文本数据对所述并集文本数据进行匹配,包括:
基于所述预设话术文本数据对所述并集文本数据中包括的第三字符串进行筛选,得到目标文本数据,所述第三字符串中包括多个不同的字符,所述目标文本数据由所述第三字符串中符合预设要求的多个字符组成。
6.根据权利要求1中所述的方法,其特征在于,所述对待分段视频数据进行语音识别,得到语音文本数据,包括:
基于自动语音识别技术ASR对所述待分段视频数据进行语音识别,得到识别文本数据;
将所述识别文本数据中的数字转换为语言文本,得到所述语音文本数据。
7.一种视频数据的处理装置,其特征在于,包括:
获取模块,用于对获取到的待分段视频数据进行语音识别,得到语音文本数据,所述语音文本数据包括多个第一子文本数据;
匹配模块,用于基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据,所述目标文本数据为所述多个第一子文本数据中与所述预设话术文本数据中的相似度超过预设阈值的文本数据,所述匹配模块包括:拆分子模块,用于对所述语音文本数据进行拆分,得到多个第二子文本数据,所述多个第二子文本数据中,不同子文本数据所包括的第一字符串不同,所述第二子文本数据包括第二字符串,所述第一字符串中包括的字符数量与所述第二字符串中包括的字符数量相同;匹配子模块,用于将所述预设话术文本数据分别与所述多个第二子文本数据进行匹配,得到多个匹配结果,所述匹配结果用于表征所对应的第二子文本数据与所述预设话术文本数据之间的相似度;整合子模块,用于基于所述多个匹配结果所对应子文本数据的进行文本整合,得到目标文本数据;
确定模块,用于根据所述目标文本数据确定第一时间戳和第二时间戳,所述目标文本数据包括开头字符和结尾字符,所述待分段视频数据包括第一音频和第二音频,所述开头字符与所述第一音频对应的字符匹配,所述结尾字符与所述第二音频对应的字符匹配,所述第一时间戳为所述第一音频在所述待分段视频数据中的时间戳,所述第二时间戳为所述第二音频在所述待分段视频数据中的时间戳;
剪切模块,用于基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的视频数据的处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的视频数据的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140162.0A CN116886992B (zh) | 2023-09-06 | 2023-09-06 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140162.0A CN116886992B (zh) | 2023-09-06 | 2023-09-06 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116886992A CN116886992A (zh) | 2023-10-13 |
CN116886992B true CN116886992B (zh) | 2023-12-01 |
Family
ID=88262538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311140162.0A Active CN116886992B (zh) | 2023-09-06 | 2023-09-06 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116886992B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109275046A (zh) * | 2018-08-21 | 2019-01-25 | 华中师范大学 | 一种基于双视频采集的教学数据标注方法 |
CN112733654A (zh) * | 2020-12-31 | 2021-04-30 | 支付宝(杭州)信息技术有限公司 | 一种视频拆条的方法和装置 |
CN113095202A (zh) * | 2021-04-07 | 2021-07-09 | 中国工商银行股份有限公司 | 双录数据质检中的数据分段方法及装置 |
CN114051154A (zh) * | 2021-11-05 | 2022-02-15 | 新华智云科技有限公司 | 一种新闻视频拆条方法和系统 |
CN114822505A (zh) * | 2022-04-14 | 2022-07-29 | 深圳唯创知音电子有限公司 | 一种基于语音芯片的人物搜寻语音识别系统及方法 |
CN115866290A (zh) * | 2022-05-31 | 2023-03-28 | 北京中关村科金技术有限公司 | 视频打点方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9913001B2 (en) * | 2015-12-31 | 2018-03-06 | Nbcuniversal Media, Llc | System and method for generating segmented content based on related data ranking |
CN112752047A (zh) * | 2019-10-30 | 2021-05-04 | 北京小米移动软件有限公司 | 视频录制方法、装置、设备及可读存储介质 |
-
2023
- 2023-09-06 CN CN202311140162.0A patent/CN116886992B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109275046A (zh) * | 2018-08-21 | 2019-01-25 | 华中师范大学 | 一种基于双视频采集的教学数据标注方法 |
CN112733654A (zh) * | 2020-12-31 | 2021-04-30 | 支付宝(杭州)信息技术有限公司 | 一种视频拆条的方法和装置 |
CN113095202A (zh) * | 2021-04-07 | 2021-07-09 | 中国工商银行股份有限公司 | 双录数据质检中的数据分段方法及装置 |
CN114051154A (zh) * | 2021-11-05 | 2022-02-15 | 新华智云科技有限公司 | 一种新闻视频拆条方法和系统 |
CN114822505A (zh) * | 2022-04-14 | 2022-07-29 | 深圳唯创知音电子有限公司 | 一种基于语音芯片的人物搜寻语音识别系统及方法 |
CN115866290A (zh) * | 2022-05-31 | 2023-03-28 | 北京中关村科金技术有限公司 | 视频打点方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116886992A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150142446A1 (en) | Credit Risk Decision Management System And Method Using Voice Analytics | |
CN110533288A (zh) | 业务办理流程检测方法、装置、计算机设备和存储介质 | |
CN111683285B (zh) | 文件内容识别方法、装置、计算机设备及存储介质 | |
CN111696558A (zh) | 智能外呼方法、装置、计算机设备及存储介质 | |
US20210304741A1 (en) | Systems and methods for formatting informal utterances | |
CN104183238B (zh) | 一种基于提问应答的老年人声纹识别方法 | |
CN111128182B (zh) | 一种智能语音录入方法及装置 | |
CN109462482B (zh) | 声纹识别方法、装置、电子设备及计算机可读存储介质 | |
CN110598008B (zh) | 录制数据的数据质检方法及装置、存储介质 | |
CN100474331C (zh) | 字符串识别装置 | |
CN112235470B (zh) | 基于语音识别的来电客户跟进方法、装置及设备 | |
CN113113022A (zh) | 一种基于说话人声纹信息的自动识别身份的方法 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN113064983A (zh) | 语义检测方法、装置、计算机设备及存储介质 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN103714817A (zh) | 基于声纹识别技术的满意度调查作弊排查方法 | |
CN116886992B (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN109524009B (zh) | 基于语音识别的保单录入方法和相关装置 | |
CN111192584A (zh) | 单据核销方法及系统 | |
CN110853674A (zh) | 文本核对方法、设备以及计算机可读存储介质 | |
CN112989021A (zh) | 用于顾问行为违规判定的方法、装置及设备 | |
CN109493868B (zh) | 基于语音识别的保单录入方法和相关装置 | |
CN113449506A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN113393845A (zh) | 用于说话人识别的方法、装置、电子设备及可读存储介质 | |
JP3360030B2 (ja) | 文字認識装置および文字認識方法および文字認識方法をプログラムの形で記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 228, 2nd Floor, No. 5 Guanghua Road, Zhangjiawan Town, Tongzhou District, Beijing, 101113 Patentee after: BEIJING ZHONGGUANCUN KEJIN TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 130, 1st Floor, Building 5, Courtyard 1, Shangdi Fourth Street, Haidian District, Beijing, 100085 Patentee before: BEIJING ZHONGGUANCUN KEJIN TECHNOLOGY Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |