CN113497899A - 文字与图片的匹配方法、装置、设备及存储介质 - Google Patents
文字与图片的匹配方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113497899A CN113497899A CN202110693210.3A CN202110693210A CN113497899A CN 113497899 A CN113497899 A CN 113497899A CN 202110693210 A CN202110693210 A CN 202110693210A CN 113497899 A CN113497899 A CN 113497899A
- Authority
- CN
- China
- Prior art keywords
- matching
- ordered
- image
- preset
- text box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 59
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 238000005520 cutting process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
- H04N21/8153—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Graphics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明涉及图文匹配领域,公开了一种文字与图片的匹配方法、装置、设备及存储介质。该方法包括:获取待处理的文字字符段;根据预置切分算法,对所述文字字符段进行切片处理,生成N段有序字幕,其中,N为正整数;根据预置识别算法,识别所述N段有序字幕中的关键词,得到所述N段有序字幕对应的关键词集;将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图片。
Description
技术领域
本发明涉及图文匹配领域,尤其涉及一种文字与图片的匹配方法、装置、 设备及存储介质。
背景技术
当代,互联网技术不断迸发出巨大的生产力,不断影响人们的生产生活 方式,在购物、消费、出行上都已经发生巨大影响。在细分领域上,互联网 技术上也不断改变传统的处理方式,例如在新闻报道上,人工智能已经可以 实现自主报道新闻,且撰写新闻稿件。
在文字生成上,现有技术已经可以实现,给出主题和关键词就能生成一 篇具有良好故事情节的中短小说。然而,在图片匹配上,可以实现单个文字 与图片的匹配,但是还是无法实现一大段文字分别匹配对应的图片,并根据 顺序排列的图片的效果。因此,在使用技术上还是有一定局限性,每次都要 人工自己寻找文字去匹配图片,效率过于低下,需要能整体处理文字的技术。
发明内容
本发明的主要目的在于解决现有技术不能实现大段文字匹配相关图片并 根据顺序排列的技术问题。
本发明第一方面提供了一种文字与图片的匹配方法,包括步骤:
获取待处理的文字字符段;
根据预置切分算法,对所述文字字符段进行切片处理,生成N段有序字 幕,其中,N为正整数;
根据预置识别算法,识别所述N段有序字幕中的关键词,得到所述N段 有序字幕对应的关键词集;
将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有 序字幕对应的匹配图片。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置切分算 法,对所述文字字符段进行切片处理,生成N段有序字幕包括:
根据所述文字字符段的标点符号,对所述文字字符段进行拆分,得到M 个有序字段,M为正整数;
读取预置文本框的字体大小设置和行间距设置,计算出所述文本框的容 纳行数为X行,其中,X为正整数;
基于所述有序字段,对所述文本框的前X-1行填充处理,生成新的文本 框,以及根据所述文本框第X-1行的最后字符,对所述有序字段进行切分, 将所述有序字段中未填充被切分的字段确定为分析字段;
读取所述分析字段的总字数,根据所述总字数与所述字体大小设置,计 算出所述总字数对应的总长度;
判断所述总长度是否小于所述文本框的宽度;
若小于所述文本框的宽度,则将所述分析字段填入所述文本框的第X行, 得到有序字幕;
若大于所述文本框的宽度,则根据预置逼近拆分算法,将所述分析字段 进行拆分填入至所述文本框的第X行,得到有序字幕。
可选的,在本发明第一方面的第二种实现方式中,所述根据预置逼近拆 分算法,将所述分析字段进行拆分填入至所述文本框的第X行,得到有序字 幕包括:
读取所述分析字段的前i行总字数,根据所述前i行总字数与所述字体大 小设置,计算出所述前i行总字数对应的前i行总长度,其中,i为正整数;
判断所述前i行总长度是否小于所述文本框的宽度;
若小于,则对i的数值增加1,重新读取所述分析字段的前i段总字数;
若不小于,则在所述分析字段中前i-1段进行拆分,得到前i-1段分析字 段和非前i-1段分析字段;
将所述前i-1段分析字段填入所述文本框的第X行,得到有序字幕;
将所述非前i-1段分析字段确定为新的有序字段,进行新的文本框填充。
可选的,在本发明第一方面的第三种实现方式中,所述将所述关键词集 与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图 片包括:
将所述关键词集与预置图像库中的图像进行标签匹配,获取所述图像库 中图像对应的标签匹配数;
抓取最大的标签匹配数对应图像,将所述图像确定为所述关键词集对应 的匹配图片,生成所述N段有序字幕对应的匹配图片。
可选的,在本发明第一方面的第四种实现方式中,在所述将所述关键词 集与预置图像库中的图像进行标签匹配,获取所述图像库中图像对应的标签 匹配数之后,在所述抓取最大的标签匹配数对应图像,将所述图像确定为所 述关键词集对应的匹配图片,生成所述N段有序字幕对应的匹配图片之前, 还包括:
判断最大的标签匹配数是否为零;
若为零,则连接互联网,抓取所述关键词集中任一关键词对应的图像, 将所述图像确定为最大的标签匹配数对应图像。
可选的,在本发明第一方面的第五种实现方式中,在所述将所述关键词 集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配 图片之后,还包括:
根据设置的字幕滚动速度,将所述N段有序字幕进行格式转换处理,得 到空白背景的初步视频数据;
根据所述初步视频数据中所述N段有序字幕的播放顺序,将所述N段有 序字幕对应的匹配图片设置为背景图像,生成字幕视频数据。
可选的,在本发明第一方面的第六种实现方式中,所述图像库的生成方 式包括:
接收图像输入指令;
根据预置图像识别算法,对所述图像输入指令对应的图像进行标签识别 处理,生成所述图像对应的标签数据;
将所述标签数据关联至所述图像输入指令对应的图像,生成带标签的图 像,并将所述图像存储至预置图像库中。
本发明第二方面提供了一种文字与图片的匹配装置,包括:
获取模块,用于获取待处理的文字字符段;
字幕生成模块,用于根据预置切分算法,对所述文字字符段进行切片处 理,生成N段有序字幕,其中,N为正整数;
识别模块,用于根据预置识别算法,识别所述N段有序字幕中的关键词, 得到所述N段有序字幕对应的关键词集;
匹配模块,用于将所述关键词集与预置图像库中的图像进行标签匹配, 得到所述N段有序字幕对应的匹配图片。
本发明第三方面提供了一种文字与图片的匹配设备,包括:存储器和至 少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理 器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使 得所述文字与图片的匹配设备执行上述的文字与图片的匹配方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存 储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文字 与图片的匹配方法。
在发明实施例中,通过对文字段的剪切裁剪,进行分段分析得到不同的 文字段,并且裁剪后的文字是具有顺序,生成具有文字字幕进行匹配图片, 将图片匹配与文字字幕进行关联生成播放视频,解决了现有技术不能实现大 段文字匹配相关图片并根据顺序排列的技术问题。
附图说明
图1为本发明实施例中文字与图片的匹配方法的一个实施例示意图;
图2为本发明实施例中文字与图片的匹配装置的一个实施例示意图;
图3为本发明实施例中文字与图片的匹配装置的另一个实施例示意图;
图4为本发明实施例中文字与图片的匹配设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文字与图片的匹配方法、装置、设备及存储介 质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第 三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的 顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这 里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外, 术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含 了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出 的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、 产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本 发明实施例中文字与图片的匹配方法的一个实施例包括:
101、获取待处理的文字字符段;
在本实施例中,文字字符段的输入可以在文字字符段数据输入前加入一 个文字识别ORC处理系统,将文字识别的数据导入获取。文字字符段的获取 还可以采用输入键盘的直接输入,或者是文本复制输入的方式。
102、根据预置切分算法,对文字字符段进行切片处理,生成N段有序字 幕,其中,N为正整数;
在本实施例中,切分文字段时,先对整个文字段的标点符号进行拆分, 例如“,”、“。”、“?”、“!”、“……”、“[space]”、“[\n]”、“,”则作为拆分最 小单元,进行初步切片,然后将每个切分的文字字符段确定为第一个有序的 字段,由于文本框有字体大小和行间距的限制,会导致不一定每个第一有序 字段每个字段能不超出文本框的限制。而且在文本限制下,需要对第一有序 字段中的字符数值进行识别处理,对超出文本每行限制的进行转换处理。例 如文本框的一行只能显示8个字符,而一句有序字段有9个字符,可以对有 序字段进行5个字符一行,4字符另一行进行拆分显示,还可以第一行显示8 个字符,第二行显示1个字符,生成一个有序字幕。需要说明的是,有可能 出现一个第一有序字幕拆分出2-3个有序字幕。
优选的,102步骤可以执行以下步骤:
1021、根据文字字符段的标点符号,对文字字符段进行拆分,得到M个 有序字段,M为正整数;
1022、读取预置文本框的字体大小设置和行间距设置,计算出文本框的 容纳行数为X行,其中,X为正整数;
1023、基于有序字段,对文本框的前X-1行填充处理,生成新的文本框, 以及根据文本框第X-1行的最后字符,对有序字段进行切分,将有序字段中 未填充被切分的字段确定为分析字段;
1024、读取分析字段的总字数,根据总字数与字体大小设置,计算出总 字数对应的总长度;
1025、判断总长度是否小于文本框的宽度;
1026、若小于文本框的宽度,则将分析字段填入文本框的第X行,得到 有序字幕;
1027、若大于文本框的宽度,则根据预置逼近拆分算法,将分析字段进 行拆分填入至文本框的第X行,得到有序字幕。
在1021-1027步骤中,例如“梵高的一生,充满世俗意义上的“失败”:名 利皆空,情爱亦无,贫病交加。在阳光明媚的法国南部小城,他疯狂地作画。 倾泄的颜料里调和着他的血,而画布,不过是他包扎伤口的绷带。他像夸父 一样地追逐着太阳,最后在阳光中燃烧、倒下。”先对标点进行拆分“梵高的 一生”、“充满世俗意义上的”、“失败”、“名利皆空”、“情爱亦无”、“贫病交 加”、“在阳光明媚的法国南部小城”、“他疯狂地作画”、“倾泄的颜料里调和 着他的血”、“而画布”、“不过是他包扎伤口的绷带”、“他像夸父一样地追逐 着太阳”、“最后在阳光中燃烧”、“倒下”。文本框只能容纳一行4个字,容纳 2行。则每个有序字段都会对文本框进行第一行填充,留下拆分后的分析字段。 “梵高的一生”进行拆分,“梵高的一”为第一行,然后“生”的总长度小于 四个字符的长度,就将“生”填充后,得到一个有序字幕。“在阳光明媚的法 国南部小城”的第一行为“在阳光明”,分析字段为“媚的法国南部小城”大 于四个字段则“媚的法国”为第二字段填入,“南部小城”填入新的文本框中。
进一步的,在1027步骤,还可以执行以下步骤:
10271、读取分析字段的前i行总字数,根据前i行总字数与字体大小设 置,计算出前i行总字数对应的前i行总长度,其中,i为正整数;
10272、判断前i行总长度是否小于文本框的宽度;
10273、若小于,则对i的数值增加1,重新读取分析字段的前i段总字数;
10274、若不小于,则在分析字段中前i-1段进行拆分,得到前i-1段分析 字段和非前i-1段分析字段;
10275、将前i-1段分析字段填入文本框的第X行,得到有序字幕;
10276、将非前i-1段分析字段确定为新的有序字段,进行新的文本框填 充。
在10271-10276实施例中,可以存在分析字段“美语录摘抄经典语录长句 /事在人为是一种积极的人生态度”,而存在两行字,则先读取第一行字,“美 语录摘抄经典语录长句”,第一行字超过了四个字的限制,则对0行字进行拆 分,将零行填充到原先的文本框,即对原来的文本框不进行填充,对1、2行 字“美语录摘抄经典语录长句事在人为是一种积极的人生态度”确定为新的 有序字段,重新分析。而如果,设置的文本框为15个字的限制,则“美语录 摘抄经典语录长句/事在人为是一种积极的人生态度”第一行的“美语录摘抄 经典语录长句”小于15个字,则判断前两行“美语录摘抄经典语录长句/事在 人为是一种积极的人生态度”是否超过15个字超过了,则将第一行“美语录 摘抄经典语录长句”填充至文本框中,而将非第一行“事在人为是一种积极 的人生态度”设置为新的有序字段。
103、根据预置识别算法,识别N段有序字幕中的关键词,得到N段有 序字幕对应的关键词集;
在本实施例中,识别过程方式上,可以采用现有的神经网络模型 RNN-text、CNN、mobile-V3等模型,输入一些需要标记的关键词进行输入训 练处理,生成对特定关键词的识别认定模式。将识别的关键词A、B、C组合 成每个有序字幕对应的关键词集{A,B,C}。
104、将关键词集与预置图像库中的图像进行标签匹配,得到N段有序字 幕对应的匹配图片。
在本实施例中,图像库中的图片是预先打上标签标记的,图像库的标签 设置处理具体可以是如下操作:
1041、接收图像输入指令;
1042、根据预置图像识别算法,对图像输入指令对应的图像进行标签识 别处理,生成图像对应的标签数据;
1043、将标签数据关联至图像输入指令对应的图像,生成带标签的图像, 并将图像存储至预置图像库中。
在1041-1043步骤中,每次接收到图片的输入,则会对该图片进行图像识 别,根据识别出的结果打上特定的标签,这里需要说明,标签不只有一个, 一个图像可以有多个标签。将图像打上标签后,即可存入至图像库中等待匹 配处理。
图像库的预先处理后,对存储的图像进行文字标签匹配,关键词进行图 片匹配,每个图片都会有关键词匹配个数,如果一个图片匹配到关键词个数 是5个,而其他匹配个数都是小于5,则该图片就是最合适的匹配图片。
优选的,104步骤实施例可以执行以下操作:
1044、将关键词集与预置图像库中的图像进行标签匹配,获取图像库中 图像对应的标签匹配数;
1045、抓取最大的标签匹配数对应图像,将图像确定为关键词集对应的 匹配图片,生成N段有序字幕对应的匹配图片。
在1044、1045步骤中,关键词集中有多个关键词,每个关键词都会与图 像库中的图像进行匹配,匹配成功会对图像进行标记记录,匹配数量最多的 图像为关键词集对应的匹配图像,同时也是N段有序字幕中某段有序字幕对 应的匹配图片。
可选的,在1044之后,在1045之前,还可以有步骤:
1046、判断最大的标签匹配数是否为零;
1047、若为零,则连接互联网,抓取关键词集中任一关键词对应的图像, 将图像确定为最大的标签匹配数对应图像。
在1043-1044步骤中,如果关键词集中在图像库中并没有匹配的图像,则 可以从关键词集中抓取一个关键词,在互联网上搜寻到该关键词的网络匹配 图像,从网络匹配图像中选择一个图像作为最大标签匹配数对应的图像,进 行1045的步骤处理
优选的,在104步骤之后,还可以执行以下步骤:
1048、根据设置的字幕滚动速度,将N段有序字幕进行格式转换处理, 得到空白背景的初步视频数据;
1049、根据初步视频数据中N段有序字幕的播放顺序,将N段有序字幕 对应的匹配图片设置为背景图像,生成字幕视频数据。
在1048、1049步骤中,进行文字图片转换为视频,字幕滚动速度可以是 每个文本框4秒一个字幕进行展示,先生成背景是空白的滚动字幕的视频。 然后在基于图片对应的滚动字幕的字符匹配的状态下,将图像作为背景图像 插入值每个视频中,生成带滚动字幕的视频。
在发明实施例中,通过对文字段的剪切裁剪,进行分段分析得到不同的 文字段,并且裁剪后的文字是具有顺序,生成具有文字字幕进行匹配图片, 将图片匹配与文字字幕进行关联生成播放视频,解决了现有技术不能实现大 段文字匹配相关图片并根据顺序排列的技术问题。
上面对本发明实施例中文字与图片的匹配方法进行了描述,下面对本发 明实施例中文字与图片的匹配装置进行描述,请参阅图2,本发明实施例中文 字与图片的匹配装置一个实施例包括:
获取模块201,用于获取待处理的文字字符段;
字幕生成模块202,用于根据预置切分算法,对所述文字字符段进行切片 处理,生成N段有序字幕,其中,N为正整数;
识别模块203,用于根据预置识别算法,识别所述N段有序字幕中的关 键词,得到所述N段有序字幕对应的关键词集;
匹配模块204,用于将所述关键词集与预置图像库中的图像进行标签匹 配,得到所述N段有序字幕对应的匹配图片。
在发明实施例中,通过对文字段的剪切裁剪,进行分段分析得到不同的 文字段,并且裁剪后的文字是具有顺序,生成具有文字字幕进行匹配图片, 将图片匹配与文字字幕进行关联生成播放视频,解决了现有技术不能实现大 段文字匹配相关图片并根据顺序排列的技术问题。
请参阅图3,本发明实施例中文字与图片的匹配装置的另一个实施例包 括:
获取模块201,用于获取待处理的文字字符段;
字幕生成模块202,用于根据预置切分算法,对所述文字字符段进行切片 处理,生成N段有序字幕,其中,N为正整数;
识别模块203,用于根据预置识别算法,识别所述N段有序字幕中的关 键词,得到所述N段有序字幕对应的关键词集;
匹配模块204,用于将所述关键词集与预置图像库中的图像进行标签匹 配,得到所述N段有序字幕对应的匹配图片。
其中,所述字幕生成模块202包括:
拆分单元2021,用于根据所述文字字符段的标点符号,对所述文字字符 段进行拆分,得到M个有序字段,M为正整数;
文本框计算单元2022,用于读取预置文本框的字体大小设置和行间距设 置,计算出所述文本框的容纳行数为X行,其中,X为正整数;
填充切分单元2023,用于基于所述有序字段,对所述文本框的前X-1行 填充处理,生成新的文本框,以及根据所述文本框第X-1行的最后字符,对 所述有序字段进行切分,将所述有序字段中未填充被切分的字段确定为分析 字段;
计算单元2024,用于读取所述分析字段的总字数,根据所述总字数与所 述字体大小设置,计算出所述总字数对应的总长度;
判断单元2025,用于判断所述总长度是否小于所述文本框的宽度;
填入单元2026,用于若小于所述文本框的宽度,则将所述分析字段填入 所述文本框的第X行,得到有序字幕;
拆分填入单元2027,用于若大于所述文本框的宽度,则根据预置逼近拆 分算法,将所述分析字段进行拆分填入至所述文本框的第X行,得到有序字 幕。
其中,所述拆分填入单元2027具体用于:
读取所述分析字段的前i行总字数,根据所述前i行总字数与所述字体大 小设置,计算出所述前i行总字数对应的前i行总长度,其中,i为正整数;
判断所述前i行总长度是否小于所述文本框的宽度;
若小于,则对i的数值增加1,重新读取所述分析字段的前i段总字数;
若不小于,则在所述分析字段中前i-1段进行拆分,得到前i-1段分析字 段和非前i-1段分析字段;
将所述前i-1段分析字段填入所述文本框的第X行,得到有序字幕;
将所述非前i-1段分析字段确定为新的有序字段,进行新的文本框填充。
其中,所述识别模块203具体用于:
将所述关键词集与预置图像库中的图像进行标签匹配,获取所述图像库 中图像对应的标签匹配数;
抓取最大的标签匹配数对应图像,将所述图像确定为所述关键词集对应 的匹配图片,生成所述N段有序字幕对应的匹配图片。
其中,所述文字与图片的匹配装置还包括匹配判断模块205,所述匹配判 断模块205具体用于:
判断最大的标签匹配数是否为零;
若为零,则连接互联网,抓取所述关键词集中任一关键词对应的图像, 将所述图像确定为最大的标签匹配数对应图像。
其中,所述文字与图片的匹配装置还包括视频生成模块206,所述视频生 成模块206具体用于:
根据设置的字幕滚动速度,将所述N段有序字幕进行格式转换处理,得 到空白背景的初步视频数据;
根据所述初步视频数据中所述N段有序字幕的播放顺序,将所述N段有 序字幕对应的匹配图片设置为背景图像,生成字幕视频数据。
其中,所述文字与图片的匹配装置还包括图像库生成模块207,所述图像 库生成模块207具体用于:
接收图像输入指令;
根据预置图像识别算法,对所述图像输入指令对应的图像进行标签识别 处理,生成所述图像对应的标签数据;
将所述标签数据关联至所述图像输入指令对应的图像,生成带标签的图 像,并将所述图像存储至预置图像库中。
在发明实施例中,通过对文字段的剪切裁剪,进行分段分析得到不同的 文字段,并且裁剪后的文字是具有顺序,生成具有文字字幕进行匹配图片, 将图片匹配与文字字幕进行关联生成播放视频,解决了现有技术不能实现大 段文字匹配相关图片并根据顺序排列的技术问题。
上面图3和图4从模块化功能实体的角度对本发明实施例中的文字与图 片的匹配装置进行详细描述,下面从硬件处理的角度对本发明实施例中文字 与图片的匹配设备进行详细描述。
图4是本发明实施例提供的一种文字与图片的匹配设备的结构示意图, 该文字与图片的匹配设备400可因配置或性能不同而产生比较大的差异,可 以包括一个或一个以上处理器(central processing units,CPU)410(例如,一 个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数 据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器 420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序 可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文字与图片的匹配设备400中的一系列指令操作。更进一步地,处理器410可以设置 为与存储介质430通信,在文字与图片的匹配设备400上执行存储介质430 中的一系列指令操作。
基于文字与图片的匹配设备400还可以包括一个或一个以上电源440,一 个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460, 和/或,一个或一个以上操作系统431,例如Windows Serve,Mac OS X,Unix, Linux,FreeBSD等等。本领域技术人员可以理解,图4示出的文字与图片的 匹配设备结构并不构成对基于文字与图片的匹配设备的限定,可以包括比图 示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为 非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算 机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计 算机上运行时,使得计算机执行所述文字与图片的匹配方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个 存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory, ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等 各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其 中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案 的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文字与图片的匹配方法,其特征在于,包括步骤:
获取待处理的文字字符段;
根据预置切分算法,对所述文字字符段进行切片处理,生成N段有序字幕,其中,N为正整数;
根据预置识别算法,识别所述N段有序字幕中的关键词,得到所述N段有序字幕对应的关键词集;
将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图片。
2.根据权利要求1所述的文字与图片的匹配方法,其特征在于,所述根据预置切分算法,对所述文字字符段进行切片处理,生成N段有序字幕包括:
根据所述文字字符段的标点符号,对所述文字字符段进行拆分,得到M个有序字段,M为正整数;
读取预置文本框的字体大小设置和行间距设置,计算出所述文本框的容纳行数为X行,其中,X为正整数;
基于所述有序字段,对所述文本框的前X-1行填充处理,生成新的文本框,以及根据所述文本框第X-1行的最后字符,对所述有序字段进行切分,将所述有序字段中未填充被切分的字段确定为分析字段;
读取所述分析字段的总字数,根据所述总字数与所述字体大小设置,计算出所述总字数对应的总长度;
判断所述总长度是否小于所述文本框的宽度;
若小于所述文本框的宽度,则将所述分析字段填入所述文本框的第X行,得到有序字幕;
若大于所述文本框的宽度,则根据预置逼近拆分算法,将所述分析字段进行拆分填入至所述文本框的第X行,得到有序字幕。
3.根据权利要求2所述的文字与图片的匹配方法,其特征在于,所述根据预置逼近拆分算法,将所述分析字段进行拆分填入至所述文本框的第X行,得到有序字幕包括:
读取所述分析字段的前i行总字数,根据所述前i行总字数与所述字体大小设置,计算出所述前i行总字数对应的前i行总长度,其中,i为正整数;
判断所述前i行总长度是否小于所述文本框的宽度;
若小于,则对i的数值增加1,重新读取所述分析字段的前i段总字数;
若不小于,则在所述分析字段中前i-1段进行拆分,得到前i-1段分析字段和非前i-1段分析字段;
将所述前i-1段分析字段填入所述文本框的第X行,得到有序字幕;
将所述非前i-1段分析字段确定为新的有序字段,进行新的文本框填充。
4.根据权利要求1所述的文字与图片的匹配方法,其特征在于,所述将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图片包括:
将所述关键词集与预置图像库中的图像进行标签匹配,获取所述图像库中图像对应的标签匹配数;
抓取最大的标签匹配数对应图像,将所述图像确定为所述关键词集对应的匹配图片,生成所述N段有序字幕对应的匹配图片。
5.根据权利要求4所述的文字与图片的匹配方法,其特征在于,在所述将所述关键词集与预置图像库中的图像进行标签匹配,获取所述图像库中图像对应的标签匹配数之后,在所述抓取最大的标签匹配数对应图像,将所述图像确定为所述关键词集对应的匹配图片,生成所述N段有序字幕对应的匹配图片之前,还包括:
判断最大的标签匹配数是否为零;
若为零,则连接互联网,抓取所述关键词集中任一关键词对应的图像,将所述图像确定为最大的标签匹配数对应图像。
6.根据权利要求1所述的文字与图片的匹配方法,其特征在于,在所述将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图片之后,还包括:
根据设置的字幕滚动速度,将所述N段有序字幕进行格式转换处理,得到空白背景的初步视频数据;
根据所述初步视频数据中所述N段有序字幕的播放顺序,将所述N段有序字幕对应的匹配图片设置为背景图像,生成字幕视频数据。
7.根据权利要求1所述的文字与图片的匹配方法,其特征在于,所述图像库的生成方式包括:
接收图像输入指令;
根据预置图像识别算法,对所述图像输入指令对应的图像进行标签识别处理,生成所述图像对应的标签数据;
将所述标签数据关联至所述图像输入指令对应的图像,生成带标签的图像,并将所述图像存储至预置图像库中。
8.一种文字与图片的匹配装置,其特征在于,所述文字与图片的匹配装置包括:
获取模块,用于获取待处理的文字字符段;
字幕生成模块,用于根据预置切分算法,对所述文字字符段进行切片处理,生成N段有序字幕,其中,N为正整数;
识别模块,用于根据预置识别算法,识别所述N段有序字幕中的关键词,得到所述N段有序字幕对应的关键词集;
匹配模块,用于将所述关键词集与预置图像库中的图像进行标签匹配,得到所述N段有序字幕对应的匹配图片。
9.一种文字与图片的匹配设备,其特征在于,所述文字与图片的匹配设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述文字与图片的匹配设备执行如权利要求1-7中任一项所述的文字与图片的匹配方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文字与图片的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110693210.3A CN113497899B (zh) | 2021-06-22 | 2021-06-22 | 文字与图片的匹配方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110693210.3A CN113497899B (zh) | 2021-06-22 | 2021-06-22 | 文字与图片的匹配方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113497899A true CN113497899A (zh) | 2021-10-12 |
CN113497899B CN113497899B (zh) | 2024-06-14 |
Family
ID=77997852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110693210.3A Active CN113497899B (zh) | 2021-06-22 | 2021-06-22 | 文字与图片的匹配方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113497899B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599384A (zh) * | 2022-12-14 | 2023-01-13 | 深圳市明源云科技有限公司(Cn) | 图片文字生成方法、装置、设备及其存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065405A (ja) * | 2009-09-17 | 2011-03-31 | Sharp Corp | 表示装置及び表示方法 |
JP2014089516A (ja) * | 2012-10-29 | 2014-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 映像コンテンツ管理プログラム及び映像コンテンツ管理装置 |
CN104766353A (zh) * | 2015-04-25 | 2015-07-08 | 陈包容 | 背景中添加文字内容的方法及装置 |
CN107943839A (zh) * | 2017-10-30 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 基于图片和文字生成视频的方法、装置、设备及存储介质 |
CN109344291A (zh) * | 2018-09-03 | 2019-02-15 | 腾讯科技(武汉)有限公司 | 一种视频生成方法及装置 |
CN109614537A (zh) * | 2018-12-06 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成视频的方法、装置、设备和存储介质 |
CN110781328A (zh) * | 2019-09-09 | 2020-02-11 | 天脉聚源(杭州)传媒科技有限公司 | 基于语音识别的视频生成方法、系统、装置和存储介质 |
KR20200032614A (ko) * | 2018-09-18 | 2020-03-26 | 이승일 | 인공지능을 이용한 텍스트 및 그림 데이터를 동영상 데이터로 생성하는 시스템 |
CN112579826A (zh) * | 2020-12-07 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 视频显示及处理方法、装置、系统、设备、介质 |
-
2021
- 2021-06-22 CN CN202110693210.3A patent/CN113497899B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065405A (ja) * | 2009-09-17 | 2011-03-31 | Sharp Corp | 表示装置及び表示方法 |
JP2014089516A (ja) * | 2012-10-29 | 2014-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 映像コンテンツ管理プログラム及び映像コンテンツ管理装置 |
CN104766353A (zh) * | 2015-04-25 | 2015-07-08 | 陈包容 | 背景中添加文字内容的方法及装置 |
CN107943839A (zh) * | 2017-10-30 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 基于图片和文字生成视频的方法、装置、设备及存储介质 |
CN109344291A (zh) * | 2018-09-03 | 2019-02-15 | 腾讯科技(武汉)有限公司 | 一种视频生成方法及装置 |
KR20200032614A (ko) * | 2018-09-18 | 2020-03-26 | 이승일 | 인공지능을 이용한 텍스트 및 그림 데이터를 동영상 데이터로 생성하는 시스템 |
CN109614537A (zh) * | 2018-12-06 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成视频的方法、装置、设备和存储介质 |
CN110781328A (zh) * | 2019-09-09 | 2020-02-11 | 天脉聚源(杭州)传媒科技有限公司 | 基于语音识别的视频生成方法、系统、装置和存储介质 |
CN112579826A (zh) * | 2020-12-07 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 视频显示及处理方法、装置、系统、设备、介质 |
Non-Patent Citations (1)
Title |
---|
谭乐娟;: "人工智能技术在视频编辑中的应用实践", 中国传媒科技, no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599384A (zh) * | 2022-12-14 | 2023-01-13 | 深圳市明源云科技有限公司(Cn) | 图片文字生成方法、装置、设备及其存储介质 |
CN115599384B (zh) * | 2022-12-14 | 2023-05-26 | 深圳市明源云科技有限公司 | 图片文字生成方法、装置、设备及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113497899B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020437B (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
US20140257995A1 (en) | Method, device, and system for playing video advertisement | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN110232340B (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
CN114827752B (zh) | 视频生成方法、视频生成系统、电子设备及存储介质 | |
CN113423010B (zh) | 基于文档的视频转换方法、装置、设备及存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN109948518B (zh) | 一种基于神经网络的pdf文档内容文本段落聚合的方法 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN111428503A (zh) | 同名人物的识别处理方法及处理装置 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN113497899A (zh) | 文字与图片的匹配方法、装置、设备及存储介质 | |
CN117235546A (zh) | 多版本文件比对方法、装置、系统及存储介质 | |
CN113438543B (zh) | 文档转视频的匹配方法、装置、设备及存储介质 | |
CN112949305B (zh) | 负反馈信息采集方法、装置、设备及存储介质 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN112818687B (zh) | 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 | |
CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN111666437A (zh) | 一种基于局部匹配的图文检索方法及装置 | |
CN115022668B (zh) | 基于直播的视频生成方法和装置、设备、介质 | |
CN111831816B (zh) | 核心内容处理方法、装置、电子设备和可读存储介质 | |
CN107943781B (zh) | 关键词识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 Building 1901, 1902, 1903, Qianhai Kexing Science Park, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Province Applicant after: Shenzhen Flash Scissor Intelligent Technology Co.,Ltd. Address before: 518000 Unit 9ABCDE, Building 2, Haihong Industrial Plant Phase II, Haihong Industrial Plant, West Side of Xixiang Avenue, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Applicant before: Shenzhen big brother Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant |