CN113569119A - 一种基于多模态机器学习的新闻网页正文抽取系统及方法 - Google Patents
一种基于多模态机器学习的新闻网页正文抽取系统及方法 Download PDFInfo
- Publication number
- CN113569119A CN113569119A CN202110753762.9A CN202110753762A CN113569119A CN 113569119 A CN113569119 A CN 113569119A CN 202110753762 A CN202110753762 A CN 202110753762A CN 113569119 A CN113569119 A CN 113569119A
- Authority
- CN
- China
- Prior art keywords
- webpage
- text
- features
- machine learning
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 62
- 238000010801 machine learning Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明属于新闻网页处理技术领域,公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法,基于多模态机器学习的新闻网页正文抽取方法包括:进行不同类型特征的提取;多模态融合,进行特征的联合表示;进行网页正文分类模型训练。本发明使用多模态机器学习技术,融合网页的视觉特征、内容特征、标签分布特征等,通过特征之间的互补,消除歧义和不确定性,进行新闻类正文抽取,得到更加准确的网页正文判断结果,除了提高文本抽取准确率外,还可以准确抽取图片、视频、pdf文档,并能够大幅降低人工编辑模板的成本,通过对国际主流的1000个新闻网站进行正文抽取测试,对比目前方法,正文抽取准确率提高5%‑10%。
Description
技术领域
本发明属于新闻网页处理技术领域,尤其涉及一种基于多模态机器学习的新闻网页正文抽取系统及方法。
背景技术
目前,对于一个单独的网页,往往最有价值的部分是网页的正文。然而就现在的大多数的网站的网页而言,不仅仅包含正文,网页标签等,其他的如广告,网页链接,插件等占据了网页相当一部分的内容。
现实的系统中,一般需要对网页进行检索、分类、观点抽取等挖掘处理。这需要对网页的内容进行分析,从而提取有价值的信息。而网页上诸如广告等信息,则是需要剔除的。一个网页的内容基本包含在正文中,对于新闻类网页更为突出。将网页正文之外其他的内容剔除从而降低分析的难度是一种基本的思路。同时正文内容提取的好坏直接影响到接下来分析工作的质量。如何使用最快捷的方法来获取网页的正文,同时又保证提取的内容的准确性,这就是本发明需要解决的问题。
现在的网站正文提取技术,最常用的算法仍然是基于网页标签分析的,这种算法需要对网站HTML建立DOM树,然后对之进行遍历递归,去除相应的噪音信息之后再从剩余的节点中进行选择。由于要建立DOM树,算法的时间/空间复杂度均较高。此外,由于互联网网页基本都采用了ajax等异步技术,各种框架也各式各样,所有这类算法的准确性和通用性都很难保证。
此外还有各类基于不同网页特征的机器学习算法,如基于内容的分析方法,典型的如基于行块分布函数的方法,基于视觉的方法,基于网页分块特征的分类方法等。
当前方法的主要问题,就是单一算法只对某一类的网页效果较好。再者,目前大部分算法都侧重于文本内容的提取,而且当前对网页内部的图片,视频等多多媒体信息提取的需求也越来越多,这些都是目前算法很难有效处理的。而且,由于机器学习算法的准确率难以保证,就需要大量的人工模板编辑工作,耗时耗力。因此,亟需一种新的新闻网页正文抽取系统。
通过上述分析,现有技术存在的问题及缺陷为:
(1)目前网页正文抽取的准确率低。
(2)由于要建立DOM树,算法的时间/空间复杂度均较高。此外,由于互联网网页基本都采用了ajax等异步技术,各种框架也各式各样,所有现有算法的准确性和通用性都很难保证。
目前大部分算法都侧重于文本内容的提取,而且当前对网页内部的图片,视频等多媒体信息提取的需求也越来越多,而目前算法很难有效处理。
(3)由于机器学习算法的准确率难以保证,就需要大量的人工模板编辑工作,耗时耗力。
解决以上问题及缺陷的难度为:
需要将完全不同类型的特征进行融合,而且要处理特征之间可能的关联关系。
解决以上问题及缺陷的意义为:
增加了利用机器抽取网页正文的准确率,降低人工的工作量。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多模态机器学习的新闻网页正文抽取系统及方法,旨在解决新闻类网页的正文提取准确率问题。
本发明是这样实现的,一种基于多模态机器学习的新闻网页正文抽取方法,包括以下步骤:
步骤一,进行新闻网页正文不同类型特征的提取;
步骤二,多模态融合,将步骤一提取的信息特征进行联合表示;
步骤三,将步骤二联合表示的信息进行网页正文分类模型训练。
进一步,步骤一中,所述不同类型特征的提取包括:
融合当前争取抽取的常用算法,并使用所述常用算法进行特征的抽取。抽取的方法是基于现有方法的改进和融合。目前的方法,一般只使用一种策略,而本发明的方法是融合了多种策略。
进一步,所述常用算法包括:
网页标签特征抽取算法,抽取网页标签的树形结构特征;
内容特征抽取算法,抽取以文字密度为主的特征;
视觉类特征抽取算法,抽取包括背景颜色,字体颜色和大小,边框,逻辑块和逻辑块之间的间距等视觉图像类特征。
进一步,步骤二中,所述多模态融合,将步骤一提取的信息特征进行联合表示,包括:利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合。
本发明主要以上述3为基础进行融合。特征融合可采用行业公开的方法。
并利用多个常用算法将步骤一提取的信息特征,一起映射到一个统一的多模态向量空间。
进一步,步骤三中,所述网页正文分类模型训练,包括:
使用一定数量的网页作为训练集,通过训练得到网页正文的多模特特征;将所述特征作为网页片段是否符合网页正文的判断依据,训练结果为网页正文分类器;对一个新的网页,使用该分类器,即可得到正文抽取结果。
本发明的另一目的在于提供一种应用所述的基于多模态机器学习的新闻网页正文抽取方法的基于多模态机器学习的新闻网页正文抽取系统,所述基于多模态机器学习的新闻网页正文抽取系统包括:
特征提取模块,用于进行新闻网页不同类型特征的提取;
特征表示模块,用于多模态融合,进行特征的联合表示;
模型训练模块,用于进行网页正文分类模型训练。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的基于多模态机器学习的新闻网页正文抽取系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于多模态机器学习的新闻网页正文抽取方法,基于多模态机器学习的方法,进行新闻类正文抽取,除了提高文本抽取准确率外,还可以准确抽取图片、视频、pdf文档,并能够大幅降低人工编辑模板的成本,显著提高网页正文抽取的准确率。
本发明使用多模态机器学习技术,融合网页的视觉特征、内容特征、标签分布特征等,通过特征之间的互补,消除歧义和不确定性,得到更加准确的网页正文判断结果。本发明旨在新闻类网页结构形式越来越复杂,多媒体内容比例越来越高的情况下,提高网页正文抽取的准确率,并支持图片、视频、文档的定向抽取。
相比于现有技术,本发明的优点进一步包括:
本发明提供了正文抽取的准确率(accuracy)。正文抽取准确率定义为行业公开定义。其定义是:对于给定的测试数据集,抽取正确分类的样本数与总样本数之比。一般以网页中的段落为基本统计单元。
本发明提供的网页正文抽取,是数据挖掘的基础技术,本发明提升后续数据挖掘、数据分析等应用的准确率。
本发明引入了多模态深度学习技术,将之前分离的方法,通过深度学习技术,进行了特征融合,更充分的利用了网页呈现的信息,这样能进一步提高网页正文抽取的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法流程图。
图2是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法原理图。
图3是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取系统结构框图;
图中:1、特征提取模块;2、特征表示模块;3、模型训练模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于多模态机器学习的新闻网页正文抽取系统及方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法包括以下步骤:
S101,进行新闻网页正文不同类型特征的提取;
S102,多模态融合,将步骤S101提取的信息特征进行联合表示;
S103,将步骤S102联合表示的信息进行网页正文分类模型训练。
本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法原理图如图2所示。
如图3所示,本发明实施例提供的基于多模态机器学习的新闻网页正文抽取系统包括:
特征提取模块1,用于进行新闻网页不同类型特征的提取;
特征表示模块2,用于通过多模态融合,进行特征的联合表示;
模型训练模块3,用于进行网页正文分类模型训练。
下面结合实施例对本发明的技术方案作进一步描述。
本发明使用多模态机器学习技术,融合网页的视觉特征、内容特征、标签分布特征等,通过特征之间的互补,消除歧义和不确定性,得到更加准确的网页正文判断结果。
本发明基于多模态机器学习的方法,进行新闻类正文抽取,除了提高文本抽取准确率外,还可以准确抽取图片、视频、pdf文档,大幅降低人工编辑模板的成本,显著提高网页正文抽取的准确率。
本发明旨在解决,新闻类网页结构形式越来越复杂,多媒体内容比例越来越高的情况下,提高网页正文抽取的准确率,并支持图片、视频、文档的定向抽取。处理步骤如下:
1.不同类型特征的提取。此步骤主要融合当前争取抽取的常用算法,使用其抽取的特征。主要使用的算法有a.网页标签特征抽取算法,抽取标签的树形结构特征。b.内容特征抽取算法,抽取以文字密度为主的特征。c.视觉类特征抽取算法,抽取包括背景颜色,字体颜色和大小,边框,逻辑块和逻辑块之间的间距等视觉图像类特征。
2.多模态融合,进行特征的联合表示。本发明中,主要使用特征级融合(featurelevel),就是利用多个算法提取的信息特征,一起映射到一个统一的多模态向量空间。
3.网页正文分类模型训练。使用一定数量的网页作为训练集,通过训练得到网页正文的多模特特征,然后将这些特征作为网页片段是否符合网页正文的判断依据,训练结果为网页正文分类器。对一个新的网页,使用该分类器,就可以得到正文抽取结果。
本发明可以有效的提高新闻类网页文本正文提取的准确率,降低人工编辑模板的需求量,可以根据需求,提取新闻类网页的图片、视频、文档信息;基于多模态机器学习技术提高网页正文抽取的准确率。
通过对国际主流的1000个新闻网站进行正文抽取测试,对比目前方法,正文抽取准确率提高5%-10%。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述基于多模态机器学习的新闻网页正文抽取方法包括以下步骤:
步骤一,进行新闻网页正文不同类型特征的提取;
步骤二,多模态融合,将步骤一提取的信息特征进行联合表示;
步骤三,将步骤二联合表示的信息进行网页正文分类模型训练。
2.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤一中,所述不同类型特征的提取包括:
融合当前争取抽取的常用算法,并使用所述常用算法进行特征的抽取。
3.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述常用算法包括:
网页标签特征抽取算法,抽取网页标签的树形结构特征;
内容特征抽取算法,抽取以文字密度为主的特征;
视觉类特征抽取算法,抽取包括背景颜色,字体颜色和大小,边框,逻辑块和逻辑块之间的间距。
4.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤二中,所述多模态融合,将步骤一提取的信息特征进行联合表示,包括:
利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合;
并利用多个常用算法将步骤一提取的信息特征,一起映射到一个统一的多模态向量空间。
5.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤三中,所述网页正文分类模型训练,包括:
使用一定数量的网页作为训练集,通过训练得到网页正文的多模特特征;将所述特征作为网页片段是否符合网页正文的判断依据,训练结果为网页正文分类器;对一个新的网页,使用该分类器,得到正文抽取结果。
6.一种应用如权利要求1~5任意一项所述的基于多模态机器学习的新闻网页正文抽取方法的基于多模态机器学习的新闻网页正文抽取系统,其特征在于,所述基于多模态机器学习的新闻网页正文抽取系统包括:
特征提取模块,用于进行新闻网页不同类型特征的提取;
特征表示模块,用于多模态融合,进行特征的联合表示;
模型训练模块,用于进行网页正文分类模型训练。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端搭载如权利要求6所述的基于多模态机器学习的新闻网页正文抽取系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753762.9A CN113569119A (zh) | 2021-07-02 | 2021-07-02 | 一种基于多模态机器学习的新闻网页正文抽取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753762.9A CN113569119A (zh) | 2021-07-02 | 2021-07-02 | 一种基于多模态机器学习的新闻网页正文抽取系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569119A true CN113569119A (zh) | 2021-10-29 |
Family
ID=78163548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110753762.9A Pending CN113569119A (zh) | 2021-07-02 | 2021-07-02 | 一种基于多模态机器学习的新闻网页正文抽取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569119A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049597A (zh) * | 2023-01-10 | 2023-05-02 | 北京百度网讯科技有限公司 | 网页的多任务模型的预训练方法、装置及电子设备 |
CN116661803A (zh) * | 2023-07-31 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 多模态网页模板的处理方法、装置和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN107894974A (zh) * | 2017-11-02 | 2018-04-10 | 华南农业大学 | 基于标签路径和文本标点比特征融合的网页正文提取方法 |
WO2018103540A1 (zh) * | 2016-12-09 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页内容提取方法、装置、存储介质 |
CN108804472A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页内容抽取方法、装置及服务器 |
CN108959372A (zh) * | 2018-05-23 | 2018-12-07 | 中译语通科技股份有限公司 | 面向新闻网页的正文抽取方法及系统、信息数据处理终端 |
CN109492177A (zh) * | 2018-11-02 | 2019-03-19 | 中国搜索信息科技股份有限公司 | 一种基于网页语义结构的网页分块方法 |
EP3506124A1 (en) * | 2017-12-29 | 2019-07-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing fusion data and information recommendation system |
US20200184210A1 (en) * | 2018-12-06 | 2020-06-11 | International Business Machines Corporation | Multi-modal document feature extraction |
-
2021
- 2021-07-02 CN CN202110753762.9A patent/CN113569119A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
WO2018103540A1 (zh) * | 2016-12-09 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页内容提取方法、装置、存储介质 |
CN108804472A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页内容抽取方法、装置及服务器 |
CN107894974A (zh) * | 2017-11-02 | 2018-04-10 | 华南农业大学 | 基于标签路径和文本标点比特征融合的网页正文提取方法 |
EP3506124A1 (en) * | 2017-12-29 | 2019-07-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing fusion data and information recommendation system |
CN108959372A (zh) * | 2018-05-23 | 2018-12-07 | 中译语通科技股份有限公司 | 面向新闻网页的正文抽取方法及系统、信息数据处理终端 |
CN109492177A (zh) * | 2018-11-02 | 2019-03-19 | 中国搜索信息科技股份有限公司 | 一种基于网页语义结构的网页分块方法 |
US20200184210A1 (en) * | 2018-12-06 | 2020-06-11 | International Business Machines Corporation | Multi-modal document feature extraction |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049597A (zh) * | 2023-01-10 | 2023-05-02 | 北京百度网讯科技有限公司 | 网页的多任务模型的预训练方法、装置及电子设备 |
CN116049597B (zh) * | 2023-01-10 | 2024-04-19 | 北京百度网讯科技有限公司 | 网页的多任务模型的预训练方法、装置及电子设备 |
CN116661803A (zh) * | 2023-07-31 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 多模态网页模板的处理方法、装置和计算机设备 |
CN116661803B (zh) * | 2023-07-31 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 多模态网页模板的处理方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112929744B (zh) | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 | |
WO2020133442A1 (zh) | 一种识别文本的方法及终端设备 | |
CN113159010B (zh) | 视频分类方法、装置、设备和存储介质 | |
CN109492177B (zh) | 一种基于网页语义结构的网页分块方法 | |
CN113569119A (zh) | 一种基于多模态机器学习的新闻网页正文抽取系统及方法 | |
CN114463586A (zh) | 图像识别模型的训练与图像识别方法、装置、设备和介质 | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
JP2022160662A (ja) | 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム | |
US20240070389A1 (en) | Language labeling method and computer device, and non-volatile storage medium | |
WO2013097072A1 (zh) | 识别视频的字符的方法和装置 | |
US10963690B2 (en) | Method for identifying main picture in web page | |
CN113408660A (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN112528610A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN105512335B (zh) | 一种摘要搜索方法和装置 | |
CN112199499A (zh) | 文本划分方法、文本分类方法、装置、设备及存储介质 | |
CN116259064A (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
CN113361462B (zh) | 视频处理和字幕检测模型的方法及装置 | |
CN116484215A (zh) | 基于扩散模型的文本生成模型训练、文字生成方法和装置 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
WO2022105120A1 (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
CN114880520A (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN114579796A (zh) | 机器阅读理解方法及装置 | |
CN114187448A (zh) | 文档图像识别方法和装置、电子设备、计算机可读介质 | |
CN111753836A (zh) | 文字识别方法、装置、计算机可读介质及电子设备 | |
CN111881778B (zh) | 文本检测的方法、装置、设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |