CN115617957A - 基于大数据的文档智能检索方法 - Google Patents

基于大数据的文档智能检索方法 Download PDF

Info

Publication number
CN115617957A
CN115617957A CN202211632842.XA CN202211632842A CN115617957A CN 115617957 A CN115617957 A CN 115617957A CN 202211632842 A CN202211632842 A CN 202211632842A CN 115617957 A CN115617957 A CN 115617957A
Authority
CN
China
Prior art keywords
image
document
retrieval
ppt
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211632842.XA
Other languages
English (en)
Other versions
CN115617957B (zh
Inventor
常智山
孟超越
程建文
周志扬
肖丽
王海霞
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mingtai Beijing Technology Co ltd
Original Assignee
Mingtai Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mingtai Beijing Technology Co ltd filed Critical Mingtai Beijing Technology Co ltd
Priority to CN202211632842.XA priority Critical patent/CN115617957B/zh
Publication of CN115617957A publication Critical patent/CN115617957A/zh
Application granted granted Critical
Publication of CN115617957B publication Critical patent/CN115617957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据的文档智能检索方法,涉及文档检索技术领域。本发明通过本发明的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。

Description

基于大数据的文档智能检索方法
技术领域
本发明涉及文档检索技术领域,具体涉及一种基于大数据的文档智能检索方法。
背景技术
文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。
但针对PPT文档这种文字占比相对较少,其很多内容与图片具有较强关联的文档,普通的关键字检索并不能起到很好的效果,针对上述问题,目前亟需一种能够适用于PPT文档的智能检索方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于大数据的文档智能检索方法,该方法包括:
在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;
利用大数据训练图像描述模型,得到训练好的图像描述模型;
将PPT文档中的图像对象划分为内容图像和装饰图像;
基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;
利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;
获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
进一步的,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。
进一步的,所述将PPT文档中的图像对象划分为内容图像和装饰图像,包括:
获取各个图像对象在对应PPT文档中出现的次数和分布的页数;
若满足该图像对象出现的次数超过第一阈值或该图像对象分布的页数数量超过第二阈值,则将其标记为装饰图像;否则,标记为内容图像。
进一步的,所述第一阈值为3次,第二阈值为该PPT文档总页数的50%。
进一步的,所述获取各页中各个内容图像的未遮挡面积,包括:
基于PPT文档的页面构建参考坐标系;
将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间;
获取该对象与位于其图层上方的所有对象的重合区域,将所有重合区域取并集后,得到内容图像的未遮挡区域;
计算未遮挡区域的面积。
进一步的,所述检索结果包括相似度排名前10的PPT文档以及检索语句在各个PPT文档中对应的页数。
进一步的,所述基于余弦相似度计算得到描述文本与检索语句的相似度。
(三)有益效果
本发明提供了一种基于大数据的文档智能检索方法。与现有技术相比,具备以下有益效果:
本发明通过本发明的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图;
图2为本发明实施例提取的尺寸信息、位置信息示意图;
图3为本发明实施例提取的图层信息示意图;
图4为计算未遮挡区域的面积的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
如图1所示,本发明提供了一种基于大数据的文档智能检索方法,该方法包括:
一种基于大数据的文档智能检索方法,该方法包括:
在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;
利用大数据训练图像描述模型,得到训练好的图像描述模型;
将PPT文档中的图像对象划分为内容图像和装饰图像;
基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;
利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;
获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
本实施例的有益效果为:
通过本发明的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。
下面对本发明实施例的实现过程进行详细说明:
S1、在PPT文档导入数据库时,获取该PPT文档中各页的对象信息。
在具体实施时,PPT文档的各页中的对象包括图像对象、文本框对象、形状对象这三种对象类型,其中,文本框对象为用户输入的文本数据,形状对象为用户构建的多边形(一般为纯色或是渐变色),图像对象为用户插入的图像数据。
具体的,对象信息包括每页包含的对象文件,以及对象属性,即在保存PPT文档的同时,在保存一份包含所有对象及对象属性的数据。
所述对象属性包括:尺寸信息、位置信息、图层信息等;且对象信息可以由用户与PPT文档同步导入,也可从PPT文档中进行提取,对于尺寸、位置等信息,如图2所示,可以直接从PPT中的对象属性中提取,而对于图层信息,在用户操作规范的前提下(即按从底层至顶层依次插入图像),如图3所示,可从选择窗格中获取该页中所有对象的列表(即图中的图片2~7),从上至下即对应图层的从顶层至底层(即图片7在顶层,图片2在底层)。
S2、利用大数据训练图像描述模型,得到训练好的图像描述模型;
在具体实施时,所述图像描述模型用于输入给模型一张图像,模型输出是一句能够描述图像场景的文本句子。图像描述模型可采用基于CNN和LSTM的网络模型,且为了获得更优的描述,采用目前已有的大型数据集作为大数据对该网络模型进行训练,例如数据集采用Flickr_30K和MSCOCO数据集进行训练。
S3、将PPT文档中的图像对象划分为内容图像和装饰图像。
在具体实施时,考虑到用户在检索时,主要是针对PPT中用户编辑的内容进行搜索,而如果对所有图像都进行图像描述,则会增加复杂度,由于一页PPT中的图像主要是是由起装饰作用的装饰图像以及表达用户思想的内容图像构成,装饰图像主要为PPT中的背景、符号、标签等构成,其特点为一般会在同一个PPT中多次出现,因此,可以首先将装饰图像剔除,以降低后续处理的数据量。
具体的,图像对象的划分方法包括如下步骤:
获取各个图像对象在一个PPT文档中出现的次数和分布的页数,若出现的次数超过第一阈值或分布的页数数量超过第二阈值,则将其标记为装饰图像,否则,标记为内容图像。例如可将第一阈值设定为3~5之间的数,而第二阈值可以设定为该PPT文档总页数的50%~80%。
S4、基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像。
在具体实施时,考虑到用户习惯,未遮挡面积最大的内容图像通常是该页PPT主要内容或主要记忆点,因此可以将未遮挡面积最大的内容图像作为目标图像,此外也可根据需要,将未遮挡面积前N大的内容图像作为多个目标图像。
而获取各页中各个内容图像的未遮挡面积包括如下步骤:
基于PPT文档的页面构建参考坐标系;
将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间XOY;
获取该对象与位于其图层上方的所有对象的重合区域(若形状对象为无颜色填充,则重合区域定义为0),将所有重合区域取并集后,得到内容图像的未遮挡区域;
计算未遮挡区域的面积。
具体的,以图3中的图片5为例,其图层上方只有图片6、7可能会对其造成遮挡,假设图片5、6、7的位置关系如图4所示,虚线表示被遮挡区域,则根据其大小和位置数据,可得到存在重合区域1、2,进而确定图片5的未遮挡区域的面积为:
图片5所在区域-(重合区域1+重合区域2)。
S5、利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与该页进行关联。
在具体实施时,描述文本对应一个PPT文档中的某一页的一个内容图片,根据此关系,可以构建三元组(描述文本,对应的PPT,对应的页,对应的图像对象),即可实现相互关联。
为了进一步降低存储压力,可在将描述文本与该页关联后删除获取的对象,仅存储描述文本及其关联信息,这样即可降低存储占用。
S6、获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
在具体实施时,检索语句为用户输入的对某一张图内容的描述,且可采用现有的相似度计算方法获取描述文本与检索语句的相似度,例如余弦相似度计算、TFIDF计算、Word2Vec计算等,可根据实际需要进行选择。且在生成检索结果时,可以仅将相似度超过第三阈值(例如第三阈值为相似度前10)的描述文本对应的PPT文档作为检索结果进行展示。进一步的,在检索结果中还可展示检索语句对应的页数。
通过上述步骤,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于大数据的文档智能检索方法,其特征在于,该方法包括:
在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;
利用大数据训练图像描述模型,得到训练好的图像描述模型;
将PPT文档中的图像对象划分为内容图像和装饰图像;
基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;
利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;
获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
2.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。
3.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述将PPT文档中的图像对象划分为内容图像和装饰图像,包括:
获取各个图像对象在对应PPT文档中出现的次数和分布的页数;
若满足该图像对象出现的次数超过第一阈值或该图像对象分布的页数数量超过第二阈值,则将其标记为装饰图像;否则,标记为内容图像。
4.如权利要求3所述的一种基于大数据的文档智能检索方法,其特征在于,所述第一阈值为3次,第二阈值为该PPT文档总页数的50%。
5.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述获取各页中各个内容图像的未遮挡面积,包括:
基于PPT文档的页面构建参考坐标系;
将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间;
获取该对象与位于其图层上方的所有对象的重合区域,将所有重合区域取并集后,得到内容图像的未遮挡区域;
计算未遮挡区域的面积。
6.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述检索结果包括相似度排名前10的PPT文档以及检索语句在各个PPT文档中对应的页数。
7.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述基于余弦相似度计算得到描述文本与检索语句的相似度。
CN202211632842.XA 2022-12-19 2022-12-19 基于大数据的文档智能检索方法 Active CN115617957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211632842.XA CN115617957B (zh) 2022-12-19 2022-12-19 基于大数据的文档智能检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211632842.XA CN115617957B (zh) 2022-12-19 2022-12-19 基于大数据的文档智能检索方法

Publications (2)

Publication Number Publication Date
CN115617957A true CN115617957A (zh) 2023-01-17
CN115617957B CN115617957B (zh) 2023-04-07

Family

ID=84880625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211632842.XA Active CN115617957B (zh) 2022-12-19 2022-12-19 基于大数据的文档智能检索方法

Country Status (1)

Country Link
CN (1) CN115617957B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091579A1 (en) * 2003-10-14 2005-04-28 International Business Machines Corporation Retrieving slide show content from presentation documents
JP2007279978A (ja) * 2006-04-05 2007-10-25 Hitachi Ltd 文書検索装置及び文書検索方法
CN101303694A (zh) * 2008-04-30 2008-11-12 浙江大学 融合不同模态信息实现媒体间交叉检索的方法
CN104850559A (zh) * 2014-02-18 2015-08-19 华东师范大学 基于演示文档的幻灯片独立存储、检索与重组方法及设备
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN115168534A (zh) * 2022-06-01 2022-10-11 苏州萝卜电子科技有限公司 智能检索方法及装置
CN115186053A (zh) * 2022-05-27 2022-10-14 上海鸿翼软件技术股份有限公司 一种搜索ppt,word文档快速引用的实现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091579A1 (en) * 2003-10-14 2005-04-28 International Business Machines Corporation Retrieving slide show content from presentation documents
JP2007279978A (ja) * 2006-04-05 2007-10-25 Hitachi Ltd 文書検索装置及び文書検索方法
CN101303694A (zh) * 2008-04-30 2008-11-12 浙江大学 融合不同模态信息实现媒体间交叉检索的方法
CN104850559A (zh) * 2014-02-18 2015-08-19 华东师范大学 基于演示文档的幻灯片独立存储、检索与重组方法及设备
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统
CN115186053A (zh) * 2022-05-27 2022-10-14 上海鸿翼软件技术股份有限公司 一种搜索ppt,word文档快速引用的实现方法
CN115168534A (zh) * 2022-06-01 2022-10-11 苏州萝卜电子科技有限公司 智能检索方法及装置

Also Published As

Publication number Publication date
CN115617957B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US9514216B2 (en) Automatic classification of segmented portions of web pages
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
US8577882B2 (en) Method and system for searching multilingual documents
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN110209862B (zh) 文本配图方法、电子装置及计算机可读存储介质
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN104462590B (zh) 信息搜索方法及装置
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
CN112035728B (zh) 一种跨模态检索方法、装置及可读存储介质
CN115129959A (zh) 一种档案智能鉴定方法、装置及系统
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
JP4904920B2 (ja) 雛形文書作成プログラム、雛形文書作成方法および雛形文書作成装置
CN113570687A (zh) 一种文件处理方法及装置
CN115617957B (zh) 基于大数据的文档智能检索方法
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法
CN114818639A (zh) 演示文稿生成方法、装置、设备及存储介质
CN111831885B (zh) 一种互联网信息检索系统与方法
CN113887244A (zh) 文本处理方法及装置
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN117194794B (zh) 一种信息推荐方法、装置、计算机设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant