CN117521602B

CN117521602B - 基于rpa+nlp的多模态文字转换方法、系统及介质

Info

Publication number: CN117521602B
Application number: CN202410008272.XA
Authority: CN
Inventors: 古福冀; 王兵; 吴晓雯
Original assignee: Shenzhen Dahe Chuangzhi Technology Co ltd; Shenzhen Dashu Xinke Technology Co ltd
Current assignee: Shenzhen Dahe Chuangzhi Technology Co ltd; Shenzhen Dashu Xinke Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-03-22
Anticipated expiration: 2044-01-04
Also published as: CN117521602A

Abstract

本发明公开了基于RPA+NLP的多模态文字转换方法、系统及介质，涉及文字转换技术领域，包括使用网络爬虫获取多个金融网站N；使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取；基于文字转换的结果得到样本金融网站的抽取模式；基于优化后得到的多个完善模式对多个样本金融网站进行文字转换；本发明用于解决现有技术中缺少在提取网站的数据中对文字转换方面的改进，这会导致当使用现有的文字转换方法提取网站中的数据时，会因提取时的数据较多导致对网站中的音频数据或图片数据造成遗漏或缺失等问题。

Description

基于RPA+NLP的多模态文字转换方法、系统及介质

技术领域

本发明涉及文字转换技术领域，具体为基于RPA+NLP的多模态文字转换方法、系统及介质。

背景技术

文字转换是指将一种语言或文字形式转换为另一种语言或文字形式的过程，也可以指将非文本形式的信息转换为文本形式的过程；文字转换通常是通过计算机软件或工具来实现的，可以应用于翻译、文本处理、语音识别等多个领域，它可以帮助人们更方便地理解和使用不同语言或格式的信息。

现有的用于文字转换的改进，通常是将音频数据接入文字转换设备进行转换，比如在申请公开号为CN101452705A的中国专利中，提出了语音文字转换、手语文字转换的方法和装置，该方案就是通过检测输入的音频数据，然后将该音频数据转换成相应的文字信息，最后使用编码器将该文字信息编码进入视频数据中，其他的用于文字转换方面的改进，通常是提高文字转换在语种多样性方面的改进，现有的改进方法中缺少在提取网站的数据中对文字转换方面的改进，这会导致当使用现有的文字转换方法提取网站中的音频数据、图片数据以及文字数据时，会因提取时的数据较多导致对网站中的音频数据或图片数据造成遗漏或缺失等问题，从而在文字转换的过程中无法对网站中的音频数据或图片数据进行完全转换，鉴于此，有必要对现有的文字转换方法进行改进。

发明内容

本发明旨在至少在一定程度上解决现有技术中的技术问题之一，通过提出基于RPA+NLP的多模态文字转换方法、系统及介质，用于解决现有技术中缺少在提取网站的数据中对文字转换方面的改进，这会导致当使用现有的文字转换方法提取网站中的音频数据、图片数据以及文字数据时，会因提取时的数据较多导致对网站中的音频数据或图片数据造成遗漏或缺失等问题。

为实现上述目的，第一方面，本发明提供一种基于RPA+NLP的多模态文字转换方法，包括：

使用网络爬虫获取多个金融网站，记为样本金融网站1至样本金融网站N；

使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取；

使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式；

基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换。

进一步地，使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取包括：

使用RPA机器人对样本金融网站1至样本金融网站N中的文本数据进行抓取，记为文本样本1至文本样本N；

使用RPA机器人对样本金融网站1至样本金融网站N中的视频数据以及图片数据进行抓取并记为样本金融网站的音图样本。

进一步地，使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式包括：

对于样本金融网站1至样本金融网站N中的任意一个样本金融网站X，每隔标准更新时间获取样本金融网站X的文本样本以及音图样本，得到样本金融网站X的多个文本样本以及多个音图样本；

使用文本转换法对每个样本金融网站的多个文本样本以及多个音图样本进行分析；

基于文本转换法的结果得到所有样本金融网站的抽取模式，依次记为抽取模式1至抽取模式N。

进一步地，文本转换法包括：

获取标准缩放级别下样本金融网站的高度以及宽度，记为标准高度以及标准宽度；

将音图样本中视频数据在样本金融网站中所占的区域分别记为视频区域1至视频区域J；

将音图样本中图片数据在样本金融网站中所占的区域分别记为图片区域1至图片区域K；

将与样本金融网站的宽平行的直线记为探测宽线；

将与样本金融网站的高平行的直线记为探测高线；

使用探测宽线从样本金融网站的顶端向下滑动，当探测宽线覆盖的区域与任意一个视频区域J1或任意一个图片区域K1重合时，获取此时探测宽线与样本金融网站的顶端的距离，记为视频区域J1的上距或图片区域K1的上距并使探测宽线继续向下移动，当探测宽线覆盖的区域恰好不与视频区域J1或图片区域K1重合时，获取此时探测宽线与样本金融网站的顶端的距离，记为视频区域J1的下距或图片区域K1的下距；

获取所有图片区域以及视频区域的上距和所有图片区域以及视频区域的下距。

进一步地，文本转换法还包括：

对于任意一个样本金融网站X，对于样本金融网站X的任意一个图片区域KX，获取图片区域KX在样本金融网站X的多个音图样本中的上距的平均值，记为图片区域KX的平均上距，获取图片区域KX在样本金融网站X的多个音图样本中的下距的平均值，记为图片区域JX的平均下距，依此类推获取样本金融网站X的所有图片区域以及所有视频区域的平均上距以及平均下距。

进一步地，文本转换法还包括：

对于任意一个样本金融网站X，获取样本金融网站X的文本样本并保留文本样本在样本金融网站X中的位置；

对于样本金融网站X中的任意一个图片样本K2，将图片样本K2的平均上距记为Q1，将图片样本的平均下距记为Q2；

获取从样本金融网站X的顶端向下Q1高度的区域所包含的文本字数，记为图片样本K2的开始转换字数，获取从样本金融网站X的顶端向下Q2高度的区域所包含的文本字数，记为图片样本K2的结束转换字数；

对于样本金融网站X中的任意一个视频样本J2，将视频样本J2的平均上距记为P1，将图片样本的平均下距记为P2；

获取从样本金融网站X的顶端向下P1高度的区域所包含的文本字数，记为视频样本J2的开始转换字数，获取从样本金融网站X的顶端向下P2高度的区域所包含的文本字数，记为视频样本J2的结束转换字数。

进一步地，文本转换法还包括：

对于任意一个样本金融网站X，样本金融网站X的抽取模式为：

当使用RPA机器人基于NLP技术在样本金融网站X中由上向下进行文字提取时，当文字提取的数量等于任意一个图片样本的开始转换字数时，获取此时文字下方最近的图片样本并对该图片中的文字进行文字提取，当文字提取的数量等于任意一个图片样本的结束转换字数时，将此时文字上方的图片样本记为已提取图片；

当使用RPA机器人基于NLP技术在样本金融网站X中由上向下进行文字提取时，当文字提取的数量等于任意一个视频样本的开始转换字数时，获取此时文字下方最近的视频样本并对该视频样本中的文字进行文字提取，当文字提取的数量等于任意一个视频样本的结束转换字数时，将此时文字上方的视频样本记为已提取视频。

进一步地，基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换包括：

基于每个样本金融网站中图片样本以及视频样本的位置数据，生成多个人工样本网站，其中，每个人工样本网站对应一个样本金融网站，且人工样本网站中的图片样本以及视频样本的位置均与样本金融网站一致，人工样本网站中的图片样本以及视频样本通过网络爬虫进行获取；

对于任意一个样本金融网站X，使用样本金融网站X的抽取模式对样本金融网站X对应的人工样本网站进行文字转换；

当人工样本网站中的所有图片样本均被记为已提取图片且所有视频样本均被记为已提取视频时，将样本金融网站X的抽取模式记为完善模式；

当人工样本网站中的任意一个图片样本未被记为已提取图片，将未被记为已提取图片的图片样本对应的开始转换字数以及结束转换字数新增入样本金融网站X的抽取模式中；

当人工样本网站中的任意一个视频样本未被记为已提取视频时，将未被记为已提取视频的视频样本对应的开始转换字数以及结束转换字数新增入样本金融网站X的抽取模式中；

对于任意一个样本金融网站X的抽取模式，当抽取模式被改变时，重新使用样本金融网站X的抽取模式对样本金融网站X对应的人工样本网站进行文字转换。

第二方面，本发明还提供一种基于RPA+NLP的多模态文字转换系统，包括网站获取模块、数据抓取模块、模式生成模块以及模式优化模块：

网站获取模块用于使用网络爬虫获取多个金融网站，记为样本金融网站1至样本金融网站N；

数据抓取模块用于使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取；

模式生成模块用于使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式；

模式优化模块用于基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换；

第三方面，本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行上述任一项所述方法中的步骤。

本发明的有益效果：首先本发明通过网络爬虫获取多个金融网站，记为样本金融网站1至样本金融网站N，然后使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取，这样的好处在于，通过网络爬虫能够快速获得现有的金融网站，使用RPA机器人能够提高对每个金融网站进行分析的效率，同时使用RPA机器人能够更加快速且全面地提取金融网站中的文字数据、图片数据以及视频数据，有利于后续对多种数据的分析；

本发明还使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式，最后基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换，这样的好处在于，通过基于样本金融网站的多种样本得到样本金融网站的抽取模式，能够基于抽取模式在对样本金融网站进行再次数据提取以及文字转换时更大限度地提高数据提取的速度以及精度，同时基于抽取模式能够防止在数据抽取过程中出现遗漏或缺失等情况，从而使针对每个样本金融网站的文字转换更加全面有效。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本发明的系统的原理框图；

图2为本发明的方法的步骤流程图；

图3为本发明的上距以及下距的示意图；

图4为本发明的抽取模式的获取示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1所示，第一方面，本申请提供一种基于RPA+NLP的多模态文字转换系统，包括：网站获取模块、数据抓取模块、模式生成模块以及模式优化模块：

数据抓取模块配置有样本抓取策略，样本抓取策略包括：

使用RPA机器人对样本金融网站1至样本金融网站N中的视频数据以及图片数据进行抓取并记为样本金融网站的音图样本；

在具体实施过程中，通过将文本样本以及音图样本进行区分，有利于在后续的分析过程中通过文本样本对音图样本进行定位，从而实现本实施例对音图数据的文本转换更加全面；

请参阅图4所示，模式生成模块配置有模式生成策略，模式生成策略包括：

在具体实施过程中，在本实施例中标准更新时间设置为1个月，可在具体情况中根据每个样本金融网站的网站更新时间不同进行调整，保证对于同一个样本金融网站对应的多个文本样本之间的更新时间均不同以及对于同一个样本金融网站对应的多个音图样本之间的更新时间均不同；

基于文本转换法的结果得到所有样本金融网站的抽取模式，依次记为抽取模式1至抽取模式N；

文本转换法包括：

在具体实施过程中，视频区域以及图片区域可以根据样本金融网站的代码获取具体位置，从而实现精准定位；

将与样本金融网站的宽平行的直线记为探测宽线；

将与样本金融网站的高平行的直线记为探测高线；

请参阅图3所示，其中，R1、R2以及R3为任意一个视频区域或任意一个图片区域，E1为R2的上距，E2为R2的下距，使用探测宽线从样本金融网站的顶端向下滑动，当探测宽线覆盖的区域与任意一个视频区域J1或任意一个图片区域K1重合时，获取此时探测宽线与样本金融网站的顶端的距离，记为视频区域J1的上距或图片区域K1的上距并使探测宽线继续向下移动，当探测宽线覆盖的区域恰好不与视频区域J1或图片区域K1重合时，获取此时探测宽线与样本金融网站的顶端的距离，记为视频区域J1的下距或图片区域K1的下距；

获取所有图片区域以及视频区域的上距和所有图片区域以及视频区域的下距；

在具体实施过程中，同一个网站中的视频区域以及图片区域在常规情况下的位置是固定的，因此通过多个图片样本以及多个视频样本能够对样本金融网站中的任意一个图片或视频的位置进行更精确的定位；

文本转换法还包括：

对于任意一个样本金融网站X，对于样本金融网站X的任意一个图片区域KX，获取图片区域KX在样本金融网站X的多个音图样本中的上距的平均值，记为图片区域KX的平均上距，获取图片区域KX在样本金融网站X的多个音图样本中的下距的平均值，记为图片区域JX的平均下距，依此类推获取样本金融网站X的所有图片区域以及所有视频区域的平均上距以及平均下距；

在具体实施过程中，通过得到所有图片区域以及所有视频区域的平均上距以及平均下距能够在样本金融网站中对所有图片区域以及所有视频区域进行精准定位，从而防止在对图片或视频进行文字转化的过程中出现遗漏或缺失；

文本转换法还包括：

获取从样本金融网站X的顶端向下P1高度的区域所包含的文本字数，记为视频样本J2的开始转换字数，获取从样本金融网站X的顶端向下P2高度的区域所包含的文本字数，记为视频样本J2的结束转换字数；

在具体实施过程中，比如在对一个样本金融网站进行分析时，得到的数据如表1所示：

样本名称	开始转换字数	结束转换字数
			视频样本1	500	600
图片样本1	1240	1300
			视频样本2	1550	1670
视频样本3	1556	1822
			图片样本2	2578	2785
视频样本4	4485	4867
			图片样本3	6652	7001
图片样本4	8847	9044
			图片样本5	8932	9576

表1

则通过表1可得，该样本金额网站的抽取模式为：当使用RPA机器人在样本金融网站中由上向下进行文字提取时提取到的字数为500、1550、1556以及4485时，对此时文字下方最近的视频样本进行文字提取，当文字提取的数量等于600、1670、1822以及4867时，将此时文字上方的视频样本记为已提取视频；当使用RPA机器人在样本金融网站中由上向下进行文字提取时提取到的字数为1240、2578、6652、8847以及8932时，对此时文字下方最近的图片样本进行文字提取，当文字提取的数量等于1300、2785、7001、9044以及9576时，将此时文字上方的视频样本记为已提取视频；

文本转换法还包括：

当使用RPA机器人基于NLP技术在样本金融网站X中由上向下进行文字提取时，当文字提取的数量等于任意一个视频样本的开始转换字数时，获取此时文字下方最近的视频样本并对该视频样本中的文字进行文字提取，当文字提取的数量等于任意一个视频样本的结束转换字数时，将此时文字上方的视频样本记为已提取视频；

模式优化模块配置有模式优化策略，模式优化策略包括：

在具体实施过程中，人工样本网站的构成可根据对应的样本金融网站中所有图片样本以及所有视频样本的平均上距以及平均下矩进行人工图片以及人工视频的放置；

在具体实施过程中，通过建立人工样本网站能够更加高效的对抽取模式进行优化，使整个优化过程更加可控，从而提高模式优化的效率；

对于任意一个样本金融网站X的抽取模式，当抽取模式被改变时，重新使用样本金融网站X的抽取模式对样本金融网站X对应的人工样本网站进行文字转换；

在具体实施过程中，获取完善模式后可以在样本金融网站的数据进行更新后基于完善模式再次进行文字转换和提取。

实施例2

请参阅图2所示，第二方面，本发明提供一种基于RPA+NLP的多模态文字转换方法，包括：

步骤S1，使用网络爬虫获取多个金融网站，记为样本金融网站1至样本金融网站N；

步骤S2，使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取；

步骤S2包括：

步骤S201，使用RPA机器人对样本金融网站1至样本金融网站N中的文本数据进行抓取，记为文本样本1至文本样本N；

步骤S202，使用RPA机器人对样本金融网站1至样本金融网站N中的视频数据以及图片数据进行抓取并记为样本金融网站的音图样本；

步骤S3，使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式；

步骤S3包括如下子步骤：

步骤S301，对于样本金融网站1至样本金融网站N中的任意一个样本金融网站X，每隔标准更新时间获取样本金融网站X的文本样本以及音图样本，得到样本金融网站X的多个文本样本以及多个音图样本；

步骤S302，使用文本转换法对每个样本金融网站的多个文本样本以及多个音图样本进行分析；

步骤S303，基于文本转换法的结果得到所有样本金融网站的抽取模式，依次记为抽取模式1至抽取模式N；

文本转换法包括：

将与样本金融网站的宽平行的直线记为探测宽线；

将与样本金融网站的高平行的直线记为探测高线；

文本转换法还包括：

步骤S4，基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换；

步骤S4包括：

步骤S401，基于每个样本金融网站中图片样本以及视频样本的位置数据，生成多个人工样本网站，其中，每个人工样本网站对应一个样本金融网站，且人工样本网站中的图片样本以及视频样本的位置均与样本金融网站一致，人工样本网站中的图片样本以及视频样本通过网络爬虫进行获取；

步骤S402，对于任意一个样本金融网站X，使用样本金融网站X的抽取模式对样本金融网站X对应的人工样本网站进行文字转换；

步骤S403，对于任意一个样本金融网站X的抽取模式，当抽取模式被改变时，重新使用样本金融网站X的抽取模式对样本金融网站X对应的人工样本网站进行文字转换。

实施例3

第三方面，本申请提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：首先使用网络爬虫获取多个金融网站，使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取，然后使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式，最后基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable ProgrammableRead Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

Claims

1.一种基于RPA+NLP的多模态文字转换方法，其特征在于，包括：

使用RPA机器人对样本金融网站1至样本金融网站N中的数据进行抓取包括：

使用文本转换法对每个样本金融网站对应的多个文本样本以及多个音图样本进行文字转换，基于文字转换的结果得到样本金融网站的抽取模式包括：对于样本金融网站1至样本金融网站N中的任意一个样本金融网站X，每隔标准更新时间获取样本金融网站X的文本样本以及音图样本，得到样本金融网站X的多个文本样本以及多个音图样本；

文本转换法包括：

基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换；

基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换包括：

2.根据权利要求1所述的一种基于RPA+NLP的多模态文字转换方法，其特征在于，文本转换法包括：

将与样本金融网站的宽平行的直线记为探测宽线；

将与样本金融网站的高平行的直线记为探测高线；

3.根据权利要求2所述的一种基于RPA+NLP的多模态文字转换方法，其特征在于，文本转换法还包括：

4.根据权利要求3所述的一种基于RPA+NLP的多模态文字转换方法，其特征在于，文本转换法还包括：

5.适用于权利要求1-4任意一项所述的一种基于RPA+NLP的多模态文字转换方法的系统，其特征在于，包括网站获取模块、数据抓取模块、模式生成模块以及模式优化模块：

模式优化模块用于基于每个样本金融网站的抽取模式对多个人工样本网站中的数据进行文字转换，基于文字转换的结果对文本转换法进行优化，基于优化后得到的多个完善模式对多个样本金融网站进行文字转换。

6.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，运行如权利要求1-4任一项所述方法中的步骤。