CN113497899A

CN113497899A - 文字与图片的匹配方法、装置、设备及存储介质

Info

Publication number: CN113497899A
Application number: CN202110693210.3A
Authority: CN
Inventors: 严华培; 王红星
Original assignee: Shenzhen Big Head Brothers Technology Co Ltd
Current assignee: Shenzhen Big Head Brothers Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-10-12
Anticipated expiration: 2041-06-22
Also published as: CN113497899B

Abstract

本发明涉及图文匹配领域，公开了一种文字与图片的匹配方法、装置、设备及存储介质。该方法包括：获取待处理的文字字符段；根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕，其中，N为正整数；根据预置识别算法，识别所述N段有序字幕中的关键词，得到所述N段有序字幕对应的关键词集；将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片。

Description

文字与图片的匹配方法、装置、设备及存储介质

技术领域

本发明涉及图文匹配领域，尤其涉及一种文字与图片的匹配方法、装置、设备及存储介质。

背景技术

当代，互联网技术不断迸发出巨大的生产力，不断影响人们的生产生活方式，在购物、消费、出行上都已经发生巨大影响。在细分领域上，互联网技术上也不断改变传统的处理方式，例如在新闻报道上，人工智能已经可以实现自主报道新闻，且撰写新闻稿件。

在文字生成上，现有技术已经可以实现，给出主题和关键词就能生成一篇具有良好故事情节的中短小说。然而，在图片匹配上，可以实现单个文字与图片的匹配，但是还是无法实现一大段文字分别匹配对应的图片，并根据顺序排列的图片的效果。因此，在使用技术上还是有一定局限性，每次都要人工自己寻找文字去匹配图片，效率过于低下，需要能整体处理文字的技术。

发明内容

本发明的主要目的在于解决现有技术不能实现大段文字匹配相关图片并根据顺序排列的技术问题。

本发明第一方面提供了一种文字与图片的匹配方法，包括步骤：

获取待处理的文字字符段；

根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕，其中，N为正整数；

根据预置识别算法，识别所述N段有序字幕中的关键词，得到所述N段有序字幕对应的关键词集；

将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片。

可选的，在本发明第一方面的第一种实现方式中，所述根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕包括：

根据所述文字字符段的标点符号，对所述文字字符段进行拆分，得到M 个有序字段，M为正整数；

读取预置文本框的字体大小设置和行间距设置，计算出所述文本框的容纳行数为X行，其中，X为正整数；

基于所述有序字段，对所述文本框的前X-1行填充处理，生成新的文本框，以及根据所述文本框第X-1行的最后字符，对所述有序字段进行切分，将所述有序字段中未填充被切分的字段确定为分析字段；

读取所述分析字段的总字数，根据所述总字数与所述字体大小设置，计算出所述总字数对应的总长度；

判断所述总长度是否小于所述文本框的宽度；

若小于所述文本框的宽度，则将所述分析字段填入所述文本框的第X行，得到有序字幕；

若大于所述文本框的宽度，则根据预置逼近拆分算法，将所述分析字段进行拆分填入至所述文本框的第X行，得到有序字幕。

可选的，在本发明第一方面的第二种实现方式中，所述根据预置逼近拆分算法，将所述分析字段进行拆分填入至所述文本框的第X行，得到有序字幕包括：

读取所述分析字段的前i行总字数，根据所述前i行总字数与所述字体大小设置，计算出所述前i行总字数对应的前i行总长度，其中，i为正整数；

判断所述前i行总长度是否小于所述文本框的宽度；

若小于，则对i的数值增加1，重新读取所述分析字段的前i段总字数；

若不小于，则在所述分析字段中前i-1段进行拆分，得到前i-1段分析字段和非前i-1段分析字段；

将所述前i-1段分析字段填入所述文本框的第X行，得到有序字幕；

将所述非前i-1段分析字段确定为新的有序字段，进行新的文本框填充。

可选的，在本发明第一方面的第三种实现方式中，所述将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片包括：

将所述关键词集与预置图像库中的图像进行标签匹配，获取所述图像库中图像对应的标签匹配数；

抓取最大的标签匹配数对应图像，将所述图像确定为所述关键词集对应的匹配图片，生成所述N段有序字幕对应的匹配图片。

可选的，在本发明第一方面的第四种实现方式中，在所述将所述关键词集与预置图像库中的图像进行标签匹配，获取所述图像库中图像对应的标签匹配数之后，在所述抓取最大的标签匹配数对应图像，将所述图像确定为所述关键词集对应的匹配图片，生成所述N段有序字幕对应的匹配图片之前，还包括：

判断最大的标签匹配数是否为零；

若为零，则连接互联网，抓取所述关键词集中任一关键词对应的图像，将所述图像确定为最大的标签匹配数对应图像。

可选的，在本发明第一方面的第五种实现方式中，在所述将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片之后，还包括：

根据设置的字幕滚动速度，将所述N段有序字幕进行格式转换处理，得到空白背景的初步视频数据；

根据所述初步视频数据中所述N段有序字幕的播放顺序，将所述N段有序字幕对应的匹配图片设置为背景图像，生成字幕视频数据。

可选的，在本发明第一方面的第六种实现方式中，所述图像库的生成方式包括：

接收图像输入指令；

根据预置图像识别算法，对所述图像输入指令对应的图像进行标签识别处理，生成所述图像对应的标签数据；

将所述标签数据关联至所述图像输入指令对应的图像，生成带标签的图像，并将所述图像存储至预置图像库中。

本发明第二方面提供了一种文字与图片的匹配装置，包括：

获取模块，用于获取待处理的文字字符段；

字幕生成模块，用于根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕，其中，N为正整数；

识别模块，用于根据预置识别算法，识别所述N段有序字幕中的关键词，得到所述N段有序字幕对应的关键词集；

匹配模块，用于将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片。

本发明第三方面提供了一种文字与图片的匹配设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文字与图片的匹配设备执行上述的文字与图片的匹配方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文字与图片的匹配方法。

在发明实施例中，通过对文字段的剪切裁剪，进行分段分析得到不同的文字段，并且裁剪后的文字是具有顺序，生成具有文字字幕进行匹配图片，将图片匹配与文字字幕进行关联生成播放视频，解决了现有技术不能实现大段文字匹配相关图片并根据顺序排列的技术问题。

附图说明

图1为本发明实施例中文字与图片的匹配方法的一个实施例示意图；

图2为本发明实施例中文字与图片的匹配装置的一个实施例示意图；

图3为本发明实施例中文字与图片的匹配装置的另一个实施例示意图；

图4为本发明实施例中文字与图片的匹配设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种文字与图片的匹配方法、装置、设备及存储介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文字与图片的匹配方法的一个实施例包括：

101、获取待处理的文字字符段；

在本实施例中，文字字符段的输入可以在文字字符段数据输入前加入一个文字识别ORC处理系统，将文字识别的数据导入获取。文字字符段的获取还可以采用输入键盘的直接输入，或者是文本复制输入的方式。

102、根据预置切分算法，对文字字符段进行切片处理，生成N段有序字幕，其中，N为正整数；

在本实施例中，切分文字段时，先对整个文字段的标点符号进行拆分，例如“，”、“。”、“？”、“！”、“……”、“[space]”、“[\n]”、“,”则作为拆分最小单元，进行初步切片，然后将每个切分的文字字符段确定为第一个有序的字段，由于文本框有字体大小和行间距的限制，会导致不一定每个第一有序字段每个字段能不超出文本框的限制。而且在文本限制下，需要对第一有序字段中的字符数值进行识别处理，对超出文本每行限制的进行转换处理。例如文本框的一行只能显示8个字符，而一句有序字段有9个字符，可以对有序字段进行5个字符一行，4字符另一行进行拆分显示，还可以第一行显示8 个字符，第二行显示1个字符，生成一个有序字幕。需要说明的是，有可能出现一个第一有序字幕拆分出2-3个有序字幕。

优选的，102步骤可以执行以下步骤：

1021、根据文字字符段的标点符号，对文字字符段进行拆分，得到M个有序字段，M为正整数；

1022、读取预置文本框的字体大小设置和行间距设置，计算出文本框的容纳行数为X行，其中，X为正整数；

1023、基于有序字段，对文本框的前X-1行填充处理，生成新的文本框，以及根据文本框第X-1行的最后字符，对有序字段进行切分，将有序字段中未填充被切分的字段确定为分析字段；

1024、读取分析字段的总字数，根据总字数与字体大小设置，计算出总字数对应的总长度；

1025、判断总长度是否小于文本框的宽度；

1026、若小于文本框的宽度，则将分析字段填入文本框的第X行，得到有序字幕；

1027、若大于文本框的宽度，则根据预置逼近拆分算法，将分析字段进行拆分填入至文本框的第X行，得到有序字幕。

在1021-1027步骤中，例如“梵高的一生，充满世俗意义上的“失败”：名利皆空，情爱亦无，贫病交加。在阳光明媚的法国南部小城，他疯狂地作画。倾泄的颜料里调和着他的血，而画布，不过是他包扎伤口的绷带。他像夸父一样地追逐着太阳，最后在阳光中燃烧、倒下。”先对标点进行拆分“梵高的一生”、“充满世俗意义上的”、“失败”、“名利皆空”、“情爱亦无”、“贫病交加”、“在阳光明媚的法国南部小城”、“他疯狂地作画”、“倾泄的颜料里调和着他的血”、“而画布”、“不过是他包扎伤口的绷带”、“他像夸父一样地追逐着太阳”、“最后在阳光中燃烧”、“倒下”。文本框只能容纳一行4个字，容纳 2行。则每个有序字段都会对文本框进行第一行填充，留下拆分后的分析字段。 “梵高的一生”进行拆分，“梵高的一”为第一行，然后“生”的总长度小于四个字符的长度，就将“生”填充后，得到一个有序字幕。“在阳光明媚的法国南部小城”的第一行为“在阳光明”，分析字段为“媚的法国南部小城”大于四个字段则“媚的法国”为第二字段填入，“南部小城”填入新的文本框中。

进一步的，在1027步骤，还可以执行以下步骤：

10271、读取分析字段的前i行总字数，根据前i行总字数与字体大小设置，计算出前i行总字数对应的前i行总长度，其中，i为正整数；

10272、判断前i行总长度是否小于文本框的宽度；

10273、若小于，则对i的数值增加1，重新读取分析字段的前i段总字数；

10274、若不小于，则在分析字段中前i-1段进行拆分，得到前i-1段分析字段和非前i-1段分析字段；

10275、将前i-1段分析字段填入文本框的第X行，得到有序字幕；

10276、将非前i-1段分析字段确定为新的有序字段，进行新的文本框填充。

在10271-10276实施例中，可以存在分析字段“美语录摘抄经典语录长句 /事在人为是一种积极的人生态度”，而存在两行字，则先读取第一行字，“美语录摘抄经典语录长句”，第一行字超过了四个字的限制，则对0行字进行拆分，将零行填充到原先的文本框，即对原来的文本框不进行填充，对1、2行字“美语录摘抄经典语录长句事在人为是一种积极的人生态度”确定为新的有序字段，重新分析。而如果，设置的文本框为15个字的限制，则“美语录摘抄经典语录长句/事在人为是一种积极的人生态度”第一行的“美语录摘抄经典语录长句”小于15个字，则判断前两行“美语录摘抄经典语录长句/事在人为是一种积极的人生态度”是否超过15个字超过了，则将第一行“美语录摘抄经典语录长句”填充至文本框中，而将非第一行“事在人为是一种积极的人生态度”设置为新的有序字段。

103、根据预置识别算法，识别N段有序字幕中的关键词，得到N段有序字幕对应的关键词集；

在本实施例中，识别过程方式上，可以采用现有的神经网络模型 RNN-text、CNN、mobile-V3等模型，输入一些需要标记的关键词进行输入训练处理，生成对特定关键词的识别认定模式。将识别的关键词A、B、C组合成每个有序字幕对应的关键词集{A，B，C}。

104、将关键词集与预置图像库中的图像进行标签匹配，得到N段有序字幕对应的匹配图片。

在本实施例中，图像库中的图片是预先打上标签标记的，图像库的标签设置处理具体可以是如下操作：

1041、接收图像输入指令；

1042、根据预置图像识别算法，对图像输入指令对应的图像进行标签识别处理，生成图像对应的标签数据；

1043、将标签数据关联至图像输入指令对应的图像，生成带标签的图像，并将图像存储至预置图像库中。

在1041-1043步骤中，每次接收到图片的输入，则会对该图片进行图像识别，根据识别出的结果打上特定的标签，这里需要说明，标签不只有一个，一个图像可以有多个标签。将图像打上标签后，即可存入至图像库中等待匹配处理。

图像库的预先处理后，对存储的图像进行文字标签匹配，关键词进行图片匹配，每个图片都会有关键词匹配个数，如果一个图片匹配到关键词个数是5个，而其他匹配个数都是小于5，则该图片就是最合适的匹配图片。

优选的，104步骤实施例可以执行以下操作：

1044、将关键词集与预置图像库中的图像进行标签匹配，获取图像库中图像对应的标签匹配数；

1045、抓取最大的标签匹配数对应图像，将图像确定为关键词集对应的匹配图片，生成N段有序字幕对应的匹配图片。

在1044、1045步骤中，关键词集中有多个关键词，每个关键词都会与图像库中的图像进行匹配，匹配成功会对图像进行标记记录，匹配数量最多的图像为关键词集对应的匹配图像，同时也是N段有序字幕中某段有序字幕对应的匹配图片。

可选的，在1044之后，在1045之前，还可以有步骤：

1046、判断最大的标签匹配数是否为零；

1047、若为零，则连接互联网，抓取关键词集中任一关键词对应的图像，将图像确定为最大的标签匹配数对应图像。

在1043-1044步骤中，如果关键词集中在图像库中并没有匹配的图像，则可以从关键词集中抓取一个关键词，在互联网上搜寻到该关键词的网络匹配图像，从网络匹配图像中选择一个图像作为最大标签匹配数对应的图像，进行1045的步骤处理

优选的，在104步骤之后，还可以执行以下步骤：

1048、根据设置的字幕滚动速度，将N段有序字幕进行格式转换处理，得到空白背景的初步视频数据；

1049、根据初步视频数据中N段有序字幕的播放顺序，将N段有序字幕对应的匹配图片设置为背景图像，生成字幕视频数据。

在1048、1049步骤中，进行文字图片转换为视频，字幕滚动速度可以是每个文本框4秒一个字幕进行展示，先生成背景是空白的滚动字幕的视频。然后在基于图片对应的滚动字幕的字符匹配的状态下，将图像作为背景图像插入值每个视频中，生成带滚动字幕的视频。

上面对本发明实施例中文字与图片的匹配方法进行了描述，下面对本发明实施例中文字与图片的匹配装置进行描述，请参阅图2，本发明实施例中文字与图片的匹配装置一个实施例包括：

获取模块201，用于获取待处理的文字字符段；

字幕生成模块202，用于根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕，其中，N为正整数；

识别模块203，用于根据预置识别算法，识别所述N段有序字幕中的关键词，得到所述N段有序字幕对应的关键词集；

匹配模块204，用于将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片。

请参阅图3，本发明实施例中文字与图片的匹配装置的另一个实施例包括：

获取模块201，用于获取待处理的文字字符段；

其中，所述字幕生成模块202包括：

拆分单元2021，用于根据所述文字字符段的标点符号，对所述文字字符段进行拆分，得到M个有序字段，M为正整数；

文本框计算单元2022，用于读取预置文本框的字体大小设置和行间距设置，计算出所述文本框的容纳行数为X行，其中，X为正整数；

填充切分单元2023，用于基于所述有序字段，对所述文本框的前X-1行填充处理，生成新的文本框，以及根据所述文本框第X-1行的最后字符，对所述有序字段进行切分，将所述有序字段中未填充被切分的字段确定为分析字段；

计算单元2024，用于读取所述分析字段的总字数，根据所述总字数与所述字体大小设置，计算出所述总字数对应的总长度；

判断单元2025，用于判断所述总长度是否小于所述文本框的宽度；

填入单元2026，用于若小于所述文本框的宽度，则将所述分析字段填入所述文本框的第X行，得到有序字幕；

拆分填入单元2027，用于若大于所述文本框的宽度，则根据预置逼近拆分算法，将所述分析字段进行拆分填入至所述文本框的第X行，得到有序字幕。

其中，所述拆分填入单元2027具体用于：

判断所述前i行总长度是否小于所述文本框的宽度；

其中，所述识别模块203具体用于：

其中，所述文字与图片的匹配装置还包括匹配判断模块205，所述匹配判断模块205具体用于：

判断最大的标签匹配数是否为零；

其中，所述文字与图片的匹配装置还包括视频生成模块206，所述视频生成模块206具体用于：

其中，所述文字与图片的匹配装置还包括图像库生成模块207，所述图像库生成模块207具体用于：

接收图像输入指令；

上面图3和图4从模块化功能实体的角度对本发明实施例中的文字与图片的匹配装置进行详细描述，下面从硬件处理的角度对本发明实施例中文字与图片的匹配设备进行详细描述。

图4是本发明实施例提供的一种文字与图片的匹配设备的结构示意图，该文字与图片的匹配设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)410(例如，一个或一个以上处理器)和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器 420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文字与图片的匹配设备400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在文字与图片的匹配设备400上执行存储介质430 中的一系列指令操作。

基于文字与图片的匹配设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix， Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的文字与图片的匹配设备结构并不构成对基于文字与图片的匹配设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述文字与图片的匹配方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory， ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字与图片的匹配方法，其特征在于，包括步骤：

获取待处理的文字字符段；

2.根据权利要求1所述的文字与图片的匹配方法，其特征在于，所述根据预置切分算法，对所述文字字符段进行切片处理，生成N段有序字幕包括：

根据所述文字字符段的标点符号，对所述文字字符段进行拆分，得到M个有序字段，M为正整数；

判断所述总长度是否小于所述文本框的宽度；

3.根据权利要求2所述的文字与图片的匹配方法，其特征在于，所述根据预置逼近拆分算法，将所述分析字段进行拆分填入至所述文本框的第X行，得到有序字幕包括：

判断所述前i行总长度是否小于所述文本框的宽度；

4.根据权利要求1所述的文字与图片的匹配方法，其特征在于，所述将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片包括：

5.根据权利要求4所述的文字与图片的匹配方法，其特征在于，在所述将所述关键词集与预置图像库中的图像进行标签匹配，获取所述图像库中图像对应的标签匹配数之后，在所述抓取最大的标签匹配数对应图像，将所述图像确定为所述关键词集对应的匹配图片，生成所述N段有序字幕对应的匹配图片之前，还包括：

判断最大的标签匹配数是否为零；

6.根据权利要求1所述的文字与图片的匹配方法，其特征在于，在所述将所述关键词集与预置图像库中的图像进行标签匹配，得到所述N段有序字幕对应的匹配图片之后，还包括：

7.根据权利要求1所述的文字与图片的匹配方法，其特征在于，所述图像库的生成方式包括：

接收图像输入指令；

8.一种文字与图片的匹配装置，其特征在于，所述文字与图片的匹配装置包括：

获取模块，用于获取待处理的文字字符段；

9.一种文字与图片的匹配设备，其特征在于，所述文字与图片的匹配设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文字与图片的匹配设备执行如权利要求1-7中任一项所述的文字与图片的匹配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文字与图片的匹配方法。