CN111046195A - 一种海量媒资智能编目的方法 - Google Patents

一种海量媒资智能编目的方法 Download PDF

Info

Publication number
CN111046195A
CN111046195A CN201911344637.1A CN201911344637A CN111046195A CN 111046195 A CN111046195 A CN 111046195A CN 201911344637 A CN201911344637 A CN 201911344637A CN 111046195 A CN111046195 A CN 111046195A
Authority
CN
China
Prior art keywords
cataloging
media assets
information
media
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911344637.1A
Other languages
English (en)
Inventor
孙海舰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN201911344637.1A priority Critical patent/CN111046195A/zh
Publication of CN111046195A publication Critical patent/CN111046195A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种海量媒资智能编目的方法,根据媒资的基本信息和智能抽取的信息对媒资进行编目,将编目信息添加到媒资的数据库中;用户对已经编目好的媒资进行编目调整,编目调整的记录回流到编目任务中;媒资的编目信息和基本信息一起存储于阿里云OTS数据库中,并实时同步到ES数据库中,ES数据库对编目信息建立索引,用户通过ES数据库进行媒资编目检索。本发明的优点为:可满足用户对海量媒资编目的智能分类和管理,对存量媒资和新增媒资进行批量的智能编目,并且对编目的调整采用智能回流编目算法,进一步优化编目算法,实现对海量编目进行统一管理。

Description

一种海量媒资智能编目的方法
技术领域
本发明涉及互联网技术领域,具体涉及一种海量媒资智能编目的方法。
背景技术
随着互联网和短视频技术的不断发展,媒体资源的数量也在高速地增长,各大媒体平台对海量媒体数据的编目管理需求也越来越多。传统的媒体资源编目系统存在如下缺陷:
(1)手工管理媒资编目效率低,如果采用人工的方式对海量的媒资进行编目标注,会出现人工标注不准确且人力成本高的问题;
(2)智能分类算法识别准确率差;
(3)千万级媒资编目数据无法管理,很多媒资的底层数据库采用mysql等关系型数据库,千万级数据的编目调整会导致数据库不可用,影响系统的正常运行。
发明内容
本发明的目的是提供一种可灵活管理的海量媒资智能编目的方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种海量媒资智能编目的方法,根据媒资的基本信息和智能抽取的信息对媒资进行编目,将编目信息添加到媒资的数据库中;用户对已经编目好的媒资进行编目调整,编目调整的记录回流到编目任务中并进一步优化编目算法;媒资的编目信息和基本信息一起存储于阿里云OTS数据库中,并实时同步到ES数据库中,ES数据库对编目信息建立索引,用户通过ES数据库进行媒资编目检索。
进一步地,媒资的基本信息包括标题和内容;媒资的智能抽取的信息根据不同的媒资类型抽取。
进一步地,图片媒资的智能抽取信息包括图片人脸识别和图片文字识别;音频媒资的智能抽取信息包括音频语音识别和语音识别结果抽取标签;视频媒资的智能抽取信息包括视频人脸识别、视频语音识别和视频字幕识别。
进一步地,媒资编目包括通用媒资编目和自定义媒资编目,自定义编目可自定义编目名称、层级结构和编目识别规则。
进一步地,用户对编目的调整包括新增编目、修改编目和删除编目;用户调整媒资编目后生成一个编目调整任务并加入到媒资编目任务的队列中,等待该编目调整任务的处理,同时编目调整会反馈给编目算法来优化编目算法识别。
本发明与现有技术相比,具有以下优点:
本发明一种海量媒资智能编目的方法,可满足用户对海量媒资编目的智能分类和管理。本发明可对存量媒资和新增媒资进行批量的智能编目,并且对编目的调整采用智能回流编目算法,进一步优化编目算法;除此以外,还能自定义编目,实现对海量编目进行统一管理。
附图说明
图1是本发明一种海量媒资智能编目的方法的流程示意图;
图2是本发明一种海量媒资智能编目的方法的媒资编目调整的流程示意图(一);
图3是本发明一种海量媒资智能编目的方法的媒资编目调整的流程示意图(二)。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
如图1所示,一种海量媒资智能编目的方法,根据媒资的基本信息和智能抽取的信息对媒资进行编目,将编目信息添加到媒资的数据库中;用户对已经编目好的媒资进行编目调整,编目调整的记录回流到编目任务中并进一步优化编目算法,用于优化媒资编目服务的准确率;媒资的编目信息和基本信息一起存储于阿里云OTS数据库中,并实时同步到ES数据库中,ES数据库对编目字段信息建立索引,用户通过ES数据库进行媒资编目检索。
对于新增媒资,需要调用媒资信息抽取服务;对于存量媒资,只需要在数据库中获取抽取信息。媒资的基本信息包括标题和内容;媒资的智能抽取的信息根据不同的媒资类型抽取。具体地,图片媒资的智能抽取信息包括图片人脸识别和图片文字识别;音频媒资的智能抽取信息包括音频语音识别和语音识别结果抽取标签;视频媒资的智能抽取信息包括视频人脸识别、视频语音识别和视频字幕识别。
进一步地,媒资编目包括通用媒资编目和自定义媒资编目。通用媒资编目是针对细分领域进行的媒资编目处理,不同的领域所使用的媒资算法抽取信息是不同的:比如汽车领域的通用编目,一级目录为宝马、奔驰、大众等,二级目录为对应汽车厂家的车型和车系,进行汽车领域编目的处理会使用媒资汽车信息算法抽取服务得到算法结果;又如新闻领域的通用编目为国内、国际、军事、财经、娱乐等。用户可根据实际情况选择使用哪种类型的通用编目做识别,当没有合适的通用编目识别模型或通用编目识别模型有问题时,可选择自定义媒资编目。自定义编目可自定义编目名称、层级结构和编目识别规则:比如,用户可以定义一个突发事件编目,设定规则为媒资标题中有火灾、爆炸等名词时将媒资放到突发事件编目中。
当媒资数据量超过千万级甚至亿级,对媒资编目的检索和修改是一个非常严峻的挑战。本发明对媒资编目调整的处理流程主要分为两个部分。如图2所示,用户对编目的调整包括新增编目、修改编目、删除编目和批量修改媒资编目等;在千万级的数据量下,无法做到完全的实时编目调整,因此在用户调整媒资编目后会立刻生成一个编目调整任务并加入到媒资编目任务的队列中,等待该编目调整服务的处理,同时编目调整会反馈给编目算法来优化编目算法识别。如图3所示,编目调整服务会不停扫描编目任务队列,如果编目任务队列不为空,则在队列头取出一个编目任务进行处理。编目任务处理流程是在阿里云OTS数据库中循环取出一定量的媒资编目数据,修改这部分数据并同步到ES中,直到所有需要修改的媒资编目全部调整完毕。
媒资数据库存储模型可以用多种。对于数据量在千万级别以下可以使用mysql;对于媒资数据基本存储,除了阿里的OTS存储数据库以外,也可使用HBase、Cassandra或MongoDB来替换。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (5)

1.一种海量媒资智能编目的方法,其特征在于:
根据媒资的基本信息和智能抽取的信息对媒资进行编目,将编目信息添加到媒资的数据库中;
用户对已经编目好的媒资进行编目调整,编目调整的记录回流到编目任务中并进一步优化编目算法;
媒资的编目信息和基本信息一起存储于阿里云OTS数据库中,并实时同步到ES数据库中,ES数据库对编目信息建立索引,用户通过ES数据库进行媒资编目检索。
2.根据权利要求1所述的一种海量媒资智能编目的方法,其特征在于:媒资的基本信息包括标题和内容;媒资的智能抽取的信息根据不同的媒资类型抽取。
3.根据权利要求2所述的一种海量媒资智能编目的方法,其特征在于:图片媒资的智能抽取信息包括图片人脸识别和图片文字识别;音频媒资的智能抽取信息包括音频语音识别和语音识别结果抽取标签;视频媒资的智能抽取信息包括视频人脸识别、视频语音识别和视频字幕识别。
4.根据权利要求1所述的一种海量媒资智能编目的方法,其特征在于:媒资编目包括通用媒资编目和自定义媒资编目,自定义编目可自定义编目名称、层级结构和编目识别规则。
5.根据权利要求1所述的一种海量媒资智能编目的方法,其特征在于:用户对编目的调整包括新增编目、修改编目和删除编目;用户调整媒资编目后生成一个编目调整任务并加入到媒资编目任务的队列中,等待该编目调整任务的处理,同时编目调整会反馈给编目算法来优化编目算法识别。
CN201911344637.1A 2019-12-24 2019-12-24 一种海量媒资智能编目的方法 Pending CN111046195A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911344637.1A CN111046195A (zh) 2019-12-24 2019-12-24 一种海量媒资智能编目的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911344637.1A CN111046195A (zh) 2019-12-24 2019-12-24 一种海量媒资智能编目的方法

Publications (1)

Publication Number Publication Date
CN111046195A true CN111046195A (zh) 2020-04-21

Family

ID=70238784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911344637.1A Pending CN111046195A (zh) 2019-12-24 2019-12-24 一种海量媒资智能编目的方法

Country Status (1)

Country Link
CN (1) CN111046195A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784068A (zh) * 2021-01-28 2021-05-11 新华智云科技有限公司 一种媒资自定义编目的管理方法及其系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515267A (zh) * 2008-02-19 2009-08-26 北京新岸线网络技术有限公司 网络媒体智能编目系统
CN107277565A (zh) * 2017-08-07 2017-10-20 苏州市广播电视总台 媒资系统素材的编目方法和编目装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515267A (zh) * 2008-02-19 2009-08-26 北京新岸线网络技术有限公司 网络媒体智能编目系统
CN107277565A (zh) * 2017-08-07 2017-10-20 苏州市广播电视总台 媒资系统素材的编目方法和编目装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁国祥等: "一种用于MAM的语义可扩展视频编目与检索方法", 《中国图象图形学报》 *
何小玲等: "基于用户心理的网络信息资源编目思考", 《大学图书馆学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784068A (zh) * 2021-01-28 2021-05-11 新华智云科技有限公司 一种媒资自定义编目的管理方法及其系统

Similar Documents

Publication Publication Date Title
CN108920716B (zh) 基于知识图谱的数据检索与可视化系统及方法
CN100423004C (zh) 基于内容的视频搜索调度系统
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
CA2865184C (en) Method and system relating to re-labelling multi-document clusters
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN102782642A (zh) 用于将职业关系数据与商用数据内容聚合和关联的系统和方法
CN102368252A (zh) 将搜索查询应用到内容集
CN108255915B (zh) 一种文件管理方法、装置及机器可读存储介质
CN104035993B (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN102955844A (zh) 基于主题版本呈现搜索结果
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
US20200226116A1 (en) Fast index creation system for cloud big data database
CN107783974B (zh) 数据处理系统及方法
CN109582847A (zh) 一种信息处理方法及装置、存储介质
CN103942328A (zh) 一种视频检索方法及视频装置
CN112307318B (zh) 一种内容发布方法、系统及装置
CN105335466A (zh) 一种音频数据的检索方法与装置
CN108984626B (zh) 一种数据处理方法、装置及服务器
CN111046195A (zh) 一种海量媒资智能编目的方法
CN107291938A (zh) 订单查询系统及方法
US11106739B2 (en) Document structures for searching within and across messages
US20160246794A1 (en) Method for entity-driven alerts based on disambiguated features
CN115794861A (zh) 基于特征摘要的离线数据查询复用方法及其应用
CN107203621A (zh) 一种基于拼音首字母的查询方法
CN107480156A (zh) 一种视频搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination