CN110674337A - 一种音像图文识别系统 - Google Patents

一种音像图文识别系统 Download PDF

Info

Publication number
CN110674337A
CN110674337A CN201910978345.7A CN201910978345A CN110674337A CN 110674337 A CN110674337 A CN 110674337A CN 201910978345 A CN201910978345 A CN 201910978345A CN 110674337 A CN110674337 A CN 110674337A
Authority
CN
China
Prior art keywords
character
audio
image
images
comparing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910978345.7A
Other languages
English (en)
Inventor
曾真
吕聪
田鹏
邵周生
耿涛
张晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengtang Weixun Digital Media Technology (beijing) Co Ltd
Original Assignee
Shengtang Weixun Digital Media Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengtang Weixun Digital Media Technology (beijing) Co Ltd filed Critical Shengtang Weixun Digital Media Technology (beijing) Co Ltd
Priority to CN201910978345.7A priority Critical patent/CN110674337A/zh
Publication of CN110674337A publication Critical patent/CN110674337A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种音像图文识别系统,具体识别系统步骤如下:步骤一:采取字符串算法,由两个字符串之间,由一个转化成另一个所需的最少编辑次数,编辑包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;步骤二:将步骤一的基础上系统采用差异值哈希(dHash),其作用在于生成每张图像的“指纹“(fingerprint),比较不同的图像的指纹信息来判断图像的相似性,结果越接近,图像越相似;步骤三:步骤二处理后对音频文件,系统采取比较声音特征的形式来判定是否存在相识的问题。该发明保证文件存储在系统上的唯一性,非法抄袭或者相似文件无法上传至系统,支持音画图文多种格式文件的类别,精准快速的识别相似文件。

Description

一种音像图文识别系统
技术领域
本发明属于网络系统技术领域,具体涉及一种音像图文识别系统。
背景技术
随着互联网+5G的高速发展,数据的大量增长以及数据占用的存储空间变得越来越大。面对如此大量的数据,无疑给用户带来极大的便利,但是数据的存储的问题也给企业运营中心和数据中心带来巨大的挑战。现有的音像图文识别系统不能保证文件存储在系统上的唯一性,非法抄袭或者相似文件也可以上传至系统,造成系统功能缺陷。
发明内容
本发明的目的在于提供一种音像图文识别系统,以解决上述背景技术中提出的面对如此大量的数据,无疑给用户带来极大的便利,但是数据的存储的问题也给企业运营中心和数据中心带来巨大的挑战。现有的音像图文识别系统不能保证文件存储在系统上的唯一性,非法抄袭或者相似文件也可以上传至系统,造成系统功能缺陷的问题。
为实现上述目的,本发明提供如下技术方案:一种音像图文识别系统,具体识别系统步骤如下:
步骤一:采取字符串算法,由两个字符串之间,由一个转化成另一个所需的最少编辑次数,编辑包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;
步骤二:将步骤一的基础上系统采用差异值哈希(dHash),其作用在于生成每张图像的“指纹“(fingerprint),比较不同的图像的指纹信息来判断图像的相似性,结果越接近,图像越相似;
步骤三: 步骤二处理后对音频文件,系统采取比较声音特征的形式来判定是否存在相识的问题;
步骤四:步骤三处理后对视频文件,系统采取音频和图像分离的模式进行相似度判定匹配。音频文件, 系统使用对于音频文件特征参数的匹配。 视频文件则调用OpenCV+ffMpeg处理视频流的相似性。
进一步的,所述步骤二中对于图像照片,处理流程如下:将图像至9*8的大小,即72个像素点;将缩放后的图片转化为256阶的灰度图,对于彩色图像转化为灰度,采取公式:Gray=Red0.229+Green0.587+Blue0.114;计算相邻像素间的差异值,每行9个像素之间产生了8个不同的差异,共8行,则产生64个差异值;比较差异值:如果前一个像素的颜色强度大于第二个像素,那么差异值就设置为“1”,如果不大于第二个像素,就设置为“0”;构造hash值:组合64个bit位生成hash值,顺序不限但前后保持一致;计算两幅图片的指纹,计算汉明距离。
进一步的,所述步骤三中音频相似判定分为:使用基频变化轨迹和梅尔倒频谱参数对输入的音频文件提取特征参数;利用模式对比的方式对两者的特征参数进行比较,数值接近则说明相似, 数值差异较大则说明音频独立性较高。
进一步的,所述步骤四中利用 OpenCV+ffMpeg 分离并读取视频流;使用PSNR(峰值信躁比),假设有两个图像:I1和I2,具有二维尺寸i和j,由c个通道组成;比较对数尺度的值,通常视频结果值在30-50之间,若图像明显不同,比较值会更低,反之亦然。
与现有技术相比,本发明的有益效果是:
(1)该发明保证文件存储在系统上的唯一性,非法抄袭或者相似文件无法上传至系统,支持音画图文多种格式文件的类别,精准快速的识别相似文件。
(2)通过采取字符串算法和ICTCALS+Simhash两组算法,对普通数据和复杂大数据均能进行分析处理,处理范围大,概括性强,满足了使用中的多种需求,漏洞小,错误率低。
(3)利用采用差异值哈希(dHash)、音频文件和视频文件进行全面处理分析,进一步识别相似文件,保证文件存储在系统上的唯一性。
(4)该音像图文识别系统功能多样,操作简单,便于分析处理,实用强,适合广泛推广使用。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种音像图文识别系统,具体识别系统步骤如下:
步骤一:采取字符串算法,由两个字符串之间,由一个转化成另一个所需的最少编辑次数,编辑包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;
步骤二:将步骤一的基础上系统采用差异值哈希(dHash),其作用在于生成每张图像的“指纹“(fingerprint),比较不同的图像的指纹信息来判断图像的相似性,结果越接近,图像越相似;
步骤三: 步骤二处理后对音频文件,系统采取比较声音特征的形式来判定是否存在相识的问题;
步骤四:步骤三处理后对视频文件,系统采取音频和图像分离的模式进行相似度判定匹配。音频文件, 系统使用对于音频文件特征参数的匹配。 视频文件则调用OpenCV+ffMpeg处理视频流的相似性。
其中,所述步骤二中对于图像照片,处理流程如下:将图像至9*8的大小,即72个像素点;将缩放后的图片转化为256阶的灰度图,对于彩色图像转化为灰度,采取公式:Gray=Red0.229+Green0.587+Blue0.114;计算相邻像素间的差异值,每行9个像素之间产生了8个不同的差异,共8行,则产生64个差异值;比较差异值:如果前一个像素的颜色强度大于第二个像素,那么差异值就设置为“1”,如果不大于第二个像素,就设置为“0”;构造hash值:组合64个bit位生成hash值,顺序不限但前后保持一致;计算两幅图片的指纹,计算汉明距离。
其中,所述步骤三中音频相似判定分为:使用基频变化轨迹和梅尔倒频谱参数对输入的音频文件提取特征参数;利用模式对比的方式对两者的特征参数进行比较,数值接近则说明相似, 数值差异较大则说明音频独立性较高。
其中,所述步骤四中利用 OpenCV+ffMpeg 分离并读取视频流;使用PSNR(峰值信躁比),假设有两个图像:I1和I2,具有二维尺寸i和j,由c个通道组成;比较对数尺度的值,通常视频结果值在30-50之间,若图像明显不同,比较值会更低,反之亦然。
实施例2
一种音像图文识别系统,具体识别系统步骤如下:
步骤一:再对大数据,进行ICTCALS+Simhash,在系统采取Simhash算法前,首先采取ICTCALS分词技术,为Simhash提供更高的精确度;
步骤二:将步骤一的基础上系统采用差异值哈希(dHash),其作用在于生成每张图像的“指纹“(fingerprint),比较不同的图像的指纹信息来判断图像的相似性,结果越接近,图像越相似;
步骤三: 步骤二处理后对音频文件,系统采取比较声音特征的形式来判定是否存在相识的问题;
步骤四:步骤三处理后对视频文件,系统采取音频和图像分离的模式进行相似度判定匹配。音频文件, 系统使用对于音频文件特征参数的匹配。 视频文件则调用OpenCV+ffMpeg处理视频流的相似性。
其中,所述步骤一中系统采取Simhash算法步骤如下:ICTCALS获取关键词,在进行Simhash分词得到有效的关键词特征向量,通过hash函数计算各个关键词特征向量的的hash值,然后在hash值的基础上,给所有特征向量加权(W=Hash * weight),遇到1即相乘,遇到0即负相乘,将各个关键词的特征向量的加权结果相加,变成只有一个的序列串,最后对于n-bit的累加结果进行降维,如果大于0,则置1,否则置0,从而得到该句的simhash值,根据这些来判定它们的相似度。
其中,所述步骤二中对于图像照片,处理流程如下:将图像至9*8的大小,即72个像素点;将缩放后的图片转化为256阶的灰度图,对于彩色图像转化为灰度,采取公式:Gray=Red0.229+Green0.587+Blue0.114;计算相邻像素间的差异值,每行9个像素之间产生了8个不同的差异,共8行,则产生64个差异值;比较差异值:如果前一个像素的颜色强度大于第二个像素,那么差异值就设置为“1”,如果不大于第二个像素,就设置为“0”;构造hash值:组合64个bit位生成hash值,顺序不限但前后保持一致;计算两幅图片的指纹,计算汉明距离。
其中,所述步骤三中音频相似判定分为:使用基频变化轨迹和梅尔倒频谱参数对输入的音频文件提取特征参数;利用模式对比的方式对两者的特征参数进行比较,数值接近则说明相似, 数值差异较大则说明音频独立性较高。
其中,所述步骤四中利用 OpenCV+ffMpeg 分离并读取视频流;使用PSNR(峰值信躁比),假设有两个图像:I1和I2,具有二维尺寸i和j,由c个通道组成;比较对数尺度的值,通常视频结果值在30-50之间,若图像明显不同,比较值会更低,反之亦然。
本发明工作时:该发明保证文件存储在系统上的唯一性,非法抄袭或者相似文件无法上传至系统,支持音画图文多种格式文件的类别,精准快速的识别相似文件;通过采取字符串算法和ICTCALS+Simhash两组算法,对普通数据和复杂大数据均能进行分析处理,处理范围大,概括性强,满足了使用中的多种需求,漏洞小,错误率低;利用采用差异值哈希(dHash)、音频文件和视频文件进行全面处理分析,进一步识别相似文件,保证文件存储在系统上的唯一性;该音像图文识别系统功能多样,操作简单,便于分析处理,实用强,适合广泛推广使用。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种音像图文识别系统,其特征在于,具体识别系统步骤如下:
步骤一:采取字符串算法,由两个字符串之间,由一个转化成另一个所需的最少编辑次数,编辑包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;
步骤二:将步骤一的基础上系统采用差异值哈希(dHash),其作用在于生成每张图像的“指纹“(fingerprint),比较不同的图像的指纹信息来判断图像的相似性,结果越接近,图像越相似;
步骤三:步骤二处理后对音频文件,系统采取比较声音特征的形式来判定是否存在相识的问题;
步骤四:步骤三处理后对视频文件,系统采取音频和图像分离的模式进行相似度判定匹配。
2.音频文件, 系统使用对于音频文件特征参数的匹配。
3.视频文件则调用OpenCV+ffMpeg处理视频流的相似性。
4.根据权利要求1所述的一种音像图文识别系统,其特征在于:所述步骤二中对于图像照片,处理流程如下:将图像至9*8的大小,即72个像素点;将缩放后的图片转化为256阶的灰度图,对于彩色图像转化为灰度,采取公式:Gray=Red0.229+Green0.587+Blue0.114;计算相邻像素间的差异值,每行9个像素之间产生了8个不同的差异,共8行,则产生64个差异值;比较差异值:如果前一个像素的颜色强度大于第二个像素,那么差异值就设置为“1”,如果不大于第二个像素,就设置为“0”;构造hash值:组合64个bit位生成hash值,顺序不限但前后保持一致;计算两幅图片的指纹,计算汉明距离。
5.根据权利要求1所述的一种音像图文识别系统,其特征在于:所述步骤三中音频相似判定分为:使用基频变化轨迹和梅尔倒频谱参数对输入的音频文件提取特征参数;利用模式对比的方式对两者的特征参数进行比较,数值接近则说明相似, 数值差异较大则说明音频独立性较高。
6.根据权利要求1所述的一种音像图文识别系统,其特征在于:所述步骤四中利用OpenCV+ffMpeg 分离并读取视频流;使用PSNR(峰值信躁比),假设有两个图像:I1和I2,具有二维尺寸i和j,由c个通道组成;比较对数尺度的值,通常视频结果值在30-50之间,若图像明显不同,比较值会更低,反之亦然。
CN201910978345.7A 2019-10-15 2019-10-15 一种音像图文识别系统 Pending CN110674337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910978345.7A CN110674337A (zh) 2019-10-15 2019-10-15 一种音像图文识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910978345.7A CN110674337A (zh) 2019-10-15 2019-10-15 一种音像图文识别系统

Publications (1)

Publication Number Publication Date
CN110674337A true CN110674337A (zh) 2020-01-10

Family

ID=69082527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910978345.7A Pending CN110674337A (zh) 2019-10-15 2019-10-15 一种音像图文识别系统

Country Status (1)

Country Link
CN (1) CN110674337A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法
CN118394849A (zh) * 2024-06-26 2024-07-26 杭州古珀医疗科技有限公司 一种医疗领域中全量数据的差异比对方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350043A (zh) * 2007-07-17 2009-01-21 华为技术有限公司 数字内容的一致性检测方法及装置
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
US8634947B1 (en) * 2009-10-21 2014-01-21 Michael Merhej System and method for identifying digital files
CN106454367A (zh) * 2016-10-09 2017-02-22 中国农业大学 一种多媒体文件的标识方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350043A (zh) * 2007-07-17 2009-01-21 华为技术有限公司 数字内容的一致性检测方法及装置
US8634947B1 (en) * 2009-10-21 2014-01-21 Michael Merhej System and method for identifying digital files
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
CN106454367A (zh) * 2016-10-09 2017-02-22 中国农业大学 一种多媒体文件的标识方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
崔丽: "《MATLAB小波分析与应用 30个案例分析》", 30 June 2016, 北京航空航天大学出版社 *
李杭: "《伪造数字图像盲检测技术研究》", 31 January 2016, 吉林大学出版社 *
韩红旗: "《语义指纹著者姓名消歧理论及应用》", 31 July 2018, 科学技术文献出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767438A (zh) * 2020-06-16 2020-10-13 上海同犀智能科技有限公司 一种基于Hash结合积分的身份识别方法
CN118394849A (zh) * 2024-06-26 2024-07-26 杭州古珀医疗科技有限公司 一种医疗领域中全量数据的差异比对方法和装置

Similar Documents

Publication Publication Date Title
KR102683700B1 (ko) 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
Guo et al. Fake colorized image detection
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Akshatha et al. Digital camera identification using PRNU: A feature based approach
Sun et al. Video hashing based on appearance and attention features fusion via DBN
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
WO2010000163A1 (zh) 提取视频摘要的方法、系统及设备
KR20060117890A (ko) 비디오 복제 검출 방법 및 장치
US8175392B2 (en) Time segment representative feature vector generation device
Radha Video retrieval using speech and text in video
Heng et al. How to assess the quality of compressed surveillance videos using face recognition
Roopalakshmi et al. A novel spatio-temporal registration framework for video copy localization based on multimodal features
CN110674337A (zh) 一种音像图文识别系统
CN101464909B (zh) 一种快速鲁棒的近相同视频检测和排除方法
Li et al. Compact video fingerprinting via structural graphical models
Huang et al. A novel video forgery detection model based on triangular polarity feature classification
Mou et al. Content-based copy detection through multimodal feature representation and temporal pyramid matching
Li et al. Coverless Video Steganography Based on Frame Sequence Perceptual Distance Mapping.
Diwan et al. Visualizing the truth: A survey of multimedia forensic analysis
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
Nie et al. Robust video hashing based on representative-dispersive frames
CN117176998A (zh) 基于通道注意力的双流网络跨模态嘴型同步方法和系统
Mizher et al. Action key frames extraction using l1-norm and accumulative optical flow for compact video shot summarisation
Pei et al. Vision Transformer‐Based Video Hashing Retrieval for Tracing the Source of Fake Videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110