CN110413814A - 图像数据库建立方法、搜索方法、电子设备和存储介质 - Google Patents

图像数据库建立方法、搜索方法、电子设备和存储介质 Download PDF

Info

Publication number
CN110413814A
CN110413814A CN201910627827.8A CN201910627827A CN110413814A CN 110413814 A CN110413814 A CN 110413814A CN 201910627827 A CN201910627827 A CN 201910627827A CN 110413814 A CN110413814 A CN 110413814A
Authority
CN
China
Prior art keywords
image
text information
file
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910627827.8A
Other languages
English (en)
Inventor
庞卡·库玛
H·T·阮
黑马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wisdom Bud Information Technology (suzhou) Co Ltd
Original Assignee
Wisdom Bud Information Technology (suzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wisdom Bud Information Technology (suzhou) Co Ltd filed Critical Wisdom Bud Information Technology (suzhou) Co Ltd
Priority to CN201910627827.8A priority Critical patent/CN110413814A/zh
Publication of CN110413814A publication Critical patent/CN110413814A/zh
Priority to PCT/CN2020/090141 priority patent/WO2021008213A1/zh
Priority to JP2022502183A priority patent/JP7402965B2/ja
Priority to EP20841371.6A priority patent/EP3998536A4/en
Priority to US17/626,705 priority patent/US20220335081A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种图像数据库建立方法、搜索方法、电子设备和存储介质。所述方法包括:获取目标文件;其中,所述目标文件具有目标文字信息;基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储所述目标图像形成图像数据库。通过上述方式解决了现有的需要通过人工对海量文本文件进行筛选、分析和总结建立数据库所存在的耗时、费力的问题,有效提高了建立图像数据库的的效率。

Description

图像数据库建立方法、搜索方法、电子设备和存储介质
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图像数据库建立方法、搜索方法、电子设备和存储介质。
背景技术
随着互联网技术的应用和发展,人们越来越习惯于在互联网上进行信息搜索。对于图像信息的搜索,用户往往会在提供搜索服务的网站的搜索引擎中输入自己感兴趣的图像,那么网站便从数据库中对该图像结构进行匹配,如果匹配成功,则可以展示与该图像相关的信息供用户浏览。
为此,现有技术中提供了许多关于图像信息的数据库,这些数据库一般是通过将图像文件建立的,即,原本已经有的图像文件作为建立数据库的基础。然而,在实际的文件系统中,不仅图像文件中会存在图像,在文本文件中也可能存在对图像的描述,因此将文本文件中的图像信息也加入数据库中,则需要人工对文本文件进行筛选、分析、总结并绘制图像。对于大量的文本文件,则会付出大量的人力、时间等。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例的目的是提供一种图像数据库建立方法、搜索方法、电子设备和存储介质,以提高建立图像数据库的效率。
为解决上述问题,本说明书实施例提供一种图像数据库建立方法、搜索方法、电子设备和存储介质。
一种图像数据库建立方法,包括:获取目标文件;其中,所述目标文件具有目标文字信息;基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储所述目标图像形成图像数据库。
在一个实施方式中,所述获取目标文件包括:从数据源中下载文件,形成文件集;根据预设条件,从所述文件集中获取目标文件。
在一个实施方式中,所述预设条件包括:确定文件集中文件的文件类型;根据所述文件类型的不同确定对应目标文件的筛选规则,其中,不同文件类型对应的筛选规则不相同;其中,所述筛选规则用于对相应的文件类型的文件进行筛选得出目标文件。
在一个实施方式中,所述确定文件集中文件的文件类型,包括:对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。
在一个实施方式中,所述文件集中文件的文件类型包括专利文件和非专利文件中的至少一种。
在一个实施方式中,所述非专利文件包括商标文件、合同文件、学术论文中的至少一种。
在一个实施方式中,上述方法还包括针对所述目标文件进行文字识别,得出所述目标文字信息。
在一个实施方式中,所述目标文字信息表达化学结构,相应的所述目标图像包括所述目标文字信息表达的内容对应的化学结构式。
在一个实施方式中,所述目标文字信息表达的内容对应的目标图像包括:主体结构和与所述主体结构关联的至少一个分支结构。
在一个实施方式中,所述主体结构包括马库什结构的主体部分,所述分支结构包括所述马库什结构的取代基部分。
在一个实施方式中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像,包括:所述目标文字信息表达的化学结构不包括马库什结构的情况下,生成所述目标文字信息表达的内容对应的目标图像,其中,所述目标图像包括所述化学结构的化学结构式。
在一个实施方式中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像,包括:在所述目标文件包括图像文件和对应的文本文件的情况下,确定所述文本文件的目标文字信息对应的所述图像文件中的图像;将与所述目标文字信息对应的图像作为所述目标图像。
在一个实施方式中,所述目标文字信息包括表达化学结构的主体结构的主体信息;基于所述目标文字信息,生成所述目标文字信息表达的目标图像,包括:基于所述目标文字信息中的主体信息,确定所述目标图像包括的主体结构。
在一个实施方式中,所述目标文字信息还包括:表达化学结构的分支结构的分支信息;基于所述目标文字信息,生成所述目标文字信息表达的目标图像,还包括:根据所述目标文字信息的分支信息在所述目标图像的主体结构上,增加分支结构。
在一个实施方式中,存储所述目标图像形成图像数据库,包括:将所述目标图像的主体结构和分支结构对应存储。
在一个实施方式中,所述目标文件为图片文件;基于所述目标文字信息,生成所述目标文字信息表达的目标图像,包括:对所述图片文件进行图像识别,以确定出所述图片文件中的所述目标文字信息;基于所述目标文字信息,生成包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式。
在一个实施方式中,所述目标文件包括图像信息和文字信息;所述方法还包括:在所述文字信息中确定目标文字信息;其中,所述目标文字信息表达化学结构;确定所述图像信息包括的图像中是否包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式;相应的,在所述图像信息包括的图像中没有与所述目标文字信息对应的目标图像的情况下,基于所述目标文字信息,生成所述目标文字信息表达的目标图像。
在一个实施方式中,存储所述目标图像形成图像数据库,还包括:将所述目标文件与所述目标图像关联存储。
本说明书实施方式还提供一种搜索方法,包括:获取待匹配图像;确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;在确定存在的情况下,显示匹配的图像。
在一个实施方式中,所述在确定存在的情况下,显示匹配的图像还包括:显示匹配的图像关联的文字信息。
在一个实施方式中,在显示匹配的图像及与所述匹配的图像关联的文字信息之后,还包括:接收用户的查看触发操作;响应于所述查看触发操作,按照预设显示方式显示与所述匹配的图像关联的文字信息。
在一个实施方式中,所述预设显示方式包括以下至少之一:高亮显示、加粗显示、圈定显示。
在一个实施方式中,所述待匹配图像包括:主体结构和与所述主体结构关联的至少一个分支结构。
在一个实施方式中,所述待匹配图像为化学结构式。
本说明书实施方式还提供一种电子设备,包括:输入设备,用于获取待匹配图像;
处理器,用于确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;显示设备,用于在确定存在的情况下,显示匹配的图像。
本说明书实施方式还提供一种电子设备,包括:网络通信单元,用于获取目标文件;其中,所述目标文件具有目标文字信息;处理器,用于基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储器,用于将所述目标图像存入图像数据库。
本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取目标文件;其中,所述目标文件具有目标文字信息;基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储所述目标图像形成图像数据库。
本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取待匹配图像;确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;在确定存在的情况下,显示匹配的图像。
由以上本说明书实施例提供的图像数据库建立方法,可以通过获取目标文件中的目标文字信息,并根据目标文字信息生成目标图像,进而将目标图像进行存储形成图像数据库;进一步地,如果目标文件中包含图像信息,还可以根据目标文字信息表达的内容与图像信息相关联来生成目标图像,再将目标图像进行存储形成图像数据库。本说明书实施例形成图像数据库的过程可以通过计算机来实现,不需要人工对文本文件进行筛选、分析和总结,有效提高了建立图像数据库的的效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施方式一个场景示例的方法流程图;
图2为本说明书实施例提供一种图像数据库建立方法的流程图;
图3为本说明书实施例中化学结构式的示意图;
图4为本说明书实施例中马库什结构的结构示意图;
图5为本说明书实施例还提供一种搜索方法的流程图;
图6为本说明书实施例的用户输入界面示意图;
图7为本说明书实施例显示搜索结果的一个示意图;
图8为本说明书实施例显示搜索结果的另一个示意图;
图9为本说明书实施例一种图像数据库建立装置的功能模块图;
图10为本说明书实施例提供的电子设备的架构示意图;
图11为本说明书实施例提供的电子设备的架构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在本实施方式中,执行所述图像数据库建立方法的主体可以是具有逻辑运算功能的电子设备,所述电子设备可以是服务器或客户端,所述客户端可以为台式电脑、平板电脑、笔记本电脑、工作站等。当然,客户端并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。还可以是一种通过程序开发形成的程序软件,该程序软件可以运行于上述电子设备中。
现有的图像数据库一般都是仅通过图像文件建立的,考虑到文字信息中也会存在对图像的描述,如果可以将文字信息转换为图像作为数据库的资源,那么可以有效提升数据库的搜索资源量,从而有效提升最终搜索结构的覆盖率,提升搜索效率。
本实施方式提供了一个场景示例,如图1所示,图1为本实施方式提供的一个场景示例的流程图。
在本场景示例中,将马库什结构作为目标图像来实现图像数据库的建立。马库什权利要求是化学发明专利申请中的单一性问题涉及到的一个特殊的问题,是一种在一个或多个部分的化合物中具有多种“功能等同”的化学成分的权利要求。专利文件中的化学结构通常通过马库什结构进行保护,根据专利文件中的对化学结构取代基的限定,单个马库什结构可以保护多个可能的化合物。
在本场景示例中,将专利文件作为目标文件,所述专利文件可以是同时包含有权利要求书、说明书等文本数据,以及说明书附图、摘要附图等附图数据的文件。其中,专利文件可以是中国专利文件,例如PDF格式的文件,也可以是外国专利文件,例如美国专利文件、欧洲专利文件,如果所述专利文件是美国专利文件,美国专利商标局还为XML专利文档提供了TIFF格式的附加图像文件,如果是化学图像,它们还提供MOL和CDX格式的相应化学结构文件。
首先,服务器可以获取专利文件,并判断专利文件中是否包含了补充文件,例如MOL和CDX格式的相应化学结构的补充文件。如果包含了补充文件,则对补充文件进行处理,并判断补充文件中的化学结构是否为马库什结构。例如对于CDX格式的文件,可以使用Jchem等软件进行处理,分析化学结构中的原子、超级原子和其他信息,可以确定文件中的化学结构是否是马库什结构。对于非马库什结构,将该结构的化学结构式存储至数据库中。对于马库什结构,进一步地,还可判断该马库什结构的取代基是否已经限定,如果有限定,则将已经限定取代基的马库什结构的化学结构式存储至数据库中。
对于不包含补充文件的专利文件,判断专利文件的文件类型,并根据文件类型的不同采用不同的处理方式来获取专利文件中权利要求的位置、描述化学结构及马库什结构的段落,提取专利文件中的化学结构式的图像。举例来说,如果专利文件为格式为pdf图片、jpg、png的图片文件,则可以通过OCR(Optical Character Recognition,光学字符识别)技术提取文件中的文字信息和图像信息;如果专利文件为格式为XML、HTML的文本文件,则将文本文件转换为服务器可识别的文件从而提取文字信息和图像信息。
在获取专利文件中权利要求的位置、描述化学结构及马库什结构的段落,提取专利文件中的化学结构式的图像后,对于化学结构式的图像,可以通过OSR(OpticalStructure Recognition,光学结构识别)技术提取包含图像文件中的图像并判断该化学结构是否为马库什结构,并进一步判断马库什结构的取代基是否已经限定,存储非马库什结构和已经限定取代基的马库什结构。
在本场景示例中,可以过自然语言处理(Natural Language Processing,NLP)技术对权利要求书和描述化学结构及马库什结构的段落进行语义分析,获取化学结构中,马库什结构和对应取代基之间的关系。上述判断马库什结构的取代基是否已经限定的步骤中,对于判定结果为未限定取代基的马库什结构,则可以根据自然语言处理后获得的马库什结构和对应取代基之间的关系对其进行处理,判断是否能够对未限定取代基的马库什结构的取代基进行限定,如果可以,则输出为NLP改进定义取代基的马库什结构,并将该马库什结构的化学结构式存储至数据库中;如果不可以,则输出为未定义取代基的马库什结构,并将该马库什结构的化学结构式存储至数据库中。
为此,本说明书实施例提供一种图像数据库建立方法,用于具有逻辑运算功能的电子设备中。如图2所示,所述方法可以包括以下步骤。
S210:获取目标文件;其中,所述目标文件具有目标文字信息。
上述目标文件具体可以理解为文本文件,也可以是包含了文本文件和对应的图像文件的文件,例如格式为XML、HTML的文本文件,格式为MOL、CDX的图像文件。其中,文本文件可以包括对图像结构文字描述的文字信息,也可以包括对图像结构文字描述的文字信息和图像结构的图像信息,图像文件可以包含图像结构的图像信息。
在一些实施例中,上述目标文件还可以是图片文件,例如格式为pdf图片、jpg、png的图片文件,其中所述图片文件可以包括对图像结构文字描述的文字信息,也可以包括对图像结构文字描述的文字信息和图像结构的图像信息。
在一些实施例中,上述目标文件还可以是专利文件。例如,同时包含有权利要求书、说明书等文字信息,以及说明书附图、摘要附图等图像信息的申请文件。上述目标文件也可以是商标文件,还可以是携带有附图的合同文件等等。
在一些实施例中,目标文件还可以是期刊、杂志或论文等。具体的,例如,中文期刊、杂志,如普通学报、省级期刊、核心期刊等收录的期刊、杂志或论文;国外期刊,如SCI(Science Citation Index)、Science收录的期刊、杂志或论文。上述期刊、杂志或论文可以同时包含摘要部分、论述部分或者试验部分、结论部分等文字信息,以及附图等图像信息。具体实施时,根据具体的应用场景,上述目标文件还可以是除上述所列举的文件类型之外其他类型的包含有文本文件和图像文件的文件。对于上述目标文件的具体类型和内容,本说明书不作限定。
上述目标文字信息可以是包含了预设关键词的文字信息,在一些实施例中,可以针对所述目标文件进行文字识别,得出所述目标文字信息。具体的,对于格式为XML、HTML的文本文件,可以通过识别文本文件中是否包含了预设关键词的文字信息得出目标文字信息;对于格式为pdf图片、jpg、png的图片文件,可以通过OCR(Optical CharacterRecognition,光学字符识别)技术,获取文本数据,进而识别文本数据中是否包含了预设关键词的文字信息得出目标文字信息。
在一些实施例中,可以通过以下步骤获取目标文件:
步骤1:从数据源中下载文件,形成文件集。
上述数据源是指能够进行文件下载的数据库,具体可以包括包含中文文件和外文文件的数据库,例如百度文库、万方数据、中国知网、国家知识产权局网站以及外文数据库、其他国家知识产权局网站等。从上述数据源中下载文件可以是下载指定名称或者指定关键词的文件,也可以是宽泛的从数据源中下载文件,进而将下载的文件形成文件集。
步骤2:根据预设条件,从所述文件集中获取目标文件。
在一些实施例中,上述预设条件包括:确定文件集中文件的文件类型;根据所述文件类型的不同确定对应目标文件的筛选规则,其中,不同文件类型对应的筛选规则不相同;其中,所述筛选规则用于对相应的文件类型的文件进行筛选得出目标文件。具体的,所述文件集中文件的文件类型可以包括专利文件和非专利文件,进一步地,所述非专利文件也可以是商标文件、合同文件或者是学术论文。
在一些实施例中,在从数据源中下载文件,形成文件集后,可以根据以下方式确定文件集中文件的类型:对文件集中的文件进行文字识别,得出所述文件中包含的文字信息,再根据所述文字信息中包含的预设关键词确定所述文件集中文件的类型。具体的,可以根据文字信息中的文字语言,确定文件集中的文件是中文文件或者是外文文件;还可以根据根据文字信息中包含的预设关键词确定文件集中的文件为专利文件或者是非专利文件。举例来说,如果文件中包含的文字信息包含权利要求书、说明书附图、背景技术、具体实施方式等预设关键词,则可以判断该文件的文件类型为专利文件;如果文件中包含商标申请说明、附图、商标说明、商品/服务项目等预设关键词,则可以判断该文件的文件类型为商标文件;如果文件中包含甲方、乙方、合同主要条款、合同订立时间、违约责任等预设关键词,则可以判断该文件的文件类型为合同文件;如果文件中包含摘要、概述、结论、参考文献等预设关键词,则可以判断该文件的文件类型为学术论文。对于其他类型的文件通过本实施例的方法也能够进行区分,在此不一一赘述。对于外文文件,可以按照中文文件的方法对文件类型进行区别。
在一些实施例中,确定文件的类型之后,可以根据文件类型的不同,确定对应目标文件的筛选规则,从而从所述文件集中获取目标文件。具体的,如果所述文件类型为专利文件,则可以根据专利分类号确定专利文件的所属领域,筛选得出指定领域的专利文件作为目标文件。其中,专利文件的所述领域可以包括化学、电学、机械、物理等领域的专利,进一步的,对于不同领域的专利,还可以进一步细化该专利的类别。例如,对于化学领域的专利,还可进一步细化为有机化学、无机化学、生物化学等类别的专利,对于电学领域的专利,也可进一步细化为基本电子电路、电通信技术等类别的专利。
在一些实施例中,对于不同国家的专利文件,可以采用不同种类的专利分类号确定专利文件的所属领域,例如可以利用国际专利分类号确定中国专利的所属领域,利用欧洲专利分类号确定欧洲专利的所属领域,利用美国专利分类号确定美国专利的所属领域等。本实施例在具体实施时,首先可以根据专利的申请公布号或者授权公告号来确定专利文件的来自哪个国家,对于不同国家的专利文件,可以采用不同种类的专利分类号来确定专利文件的所属领域。
在一些实施例中,如果所述文件类型为非专利文件,则对所述文件进行文字识别,得出所述文件包含的文字信息,筛选得出所述文件信息中包含预设关键词的文件作为目标文件。
S220:基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像。
在一些实施例中,上述目标文字信息表达的内容可以是对化学结构的文字描述,其中,所述化学结构是反映物质分子内部各元素原子的秩序,即原子的联结方式和顺序。例如目标文字信息为“化合物是甲苯取代物,其中,甲基中的一个氢原子被氨基取代,甲苯的邻位上的氢原子被羟基取代”,其表达的内容是对某一种化合物化学结构的文字描述。相应的,上述目标图像包括所述目标文字信息表达的内容对应的化学结构式,其中,化学结构式是表示用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的化学组成式,是一种简单描述分子结构的方法。例如,目标文字信息为“化合物是甲苯取代物,其中,甲基中的一个氢原子被氨基取代,甲苯的邻位上的氢原子被羟基取代”,则其对应的目标图像可以是如图3所示的化学结构式。
在一些实施例中,上述目标文字信息表达的内容对应的目标图像包括:主体结构和与所述主体结构关联的至少一个分支结构。进一步地,上述目标图像还可以是如图4所示的马库什结构,相应的,上述主体结构包括马库什结构的主体部分(图4的上部分),上述分支结构包括所述马库什结构的取代基部分(图4的下部分)。
在一些实施例中,所述目标图像的生成可以根据目标文字信息表达的内容的意思来实现。例如,对于目标文字信息中的每一个关键词对应了一个图像元件,根据文字信息中的关键词以及其他描述信息,将关键词对应的图像元件按照一定的排列方式进行组合,从而生成目标图像;又例如,还可以通过绘图程序,将目标文字信息中表达的内容通过绘图的方式生成目标图像,举例来说,目标文字信息中出现“甲苯”,则绘图程序将绘制一个甲苯的化学结构式,如果目标文字信息中还出现连接关系“甲苯上甲基的邻位和对位分别被一个羟基和一个羧基取代”,则绘图程序将在甲苯上甲基的邻位和对位绘制一个羧基和一个羟基的化学结构式。除此之外,还可以通过任意方式提取目标文字信息表达的内容的意思,从而生成目标图像。
在一些实施例中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像,可以包括:所述目标文字信息表达的化学结构包括马库什结构的情况下,根据目标文字信息表达内容生成相应的马库什结构对应的图像,进一步地,在目标文字信息表达内容包括马库什结构取代基部分的情况下,生成对应马库什结构的取代基对应的图像。在图像生成过程中,可以基于目标文字信息表达的内容,将马库什结构主体部分对应生成的图像与马库什结构取代基部分对应生成的图像进行组合作为目标图像。
在一些实施例中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像,可以包括:所述目标文字信息表达的化学结构不包括马库什结构的情况下,生成所述目标文字信息表达的内容对应的目标图像,其中,所述目标图像包括所述化学结构的化学结构式。具体的,可以根据目标文字信息,判断目标文字信息表达的化学结构是否包括马库什结构,如果包括,则生成对应的化学结构式。
在一些实施例中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像,可以包括:在所述目标文件包括图像文件和对应的文本文件的情况下,确定所述文本文件的目标文字信息对应的所述图像文件中的图像;将与所述目标文字信息对应的图像作为所述目标图像。具体的,如果目标文件包括图像文件和对应的文本文件,则先确定文本文件中的目标文件信息在图像文件中对应的图像,并将该对应的图像作为目标图像。
在一些实施例中,在上述化学结构包括主体结构和至少一个分支结构的情况下,上述目标文字信息可以包括表达化学结构的主体结构的主体信息,还可以包括表达化学结构的分支结构的分支信息。因此,在本实施例中,可以基于所述目标文字信息中的主体信息,确定所述目标图像包括的主体结构,并根据所述目标文字信息中的分支信息,在所述目标图像的主体结构上,增加分支结构。
在一些实施例中,如果上述目标文件为图片文件,则可以对图片文件进行图像识别,例如可以通过OCR技术,获取图片文件包含的文本数据,进而确定文本数据中是否包含了目标文字信息,并基于该目标文字信息,生成包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式。
在一些实施例中,如果上述目标文件为包括了图像信息和文字信息的文件,则可以从文字信息中确定是否包含了目标文字信息,进一步的,判断图像信息中的图像是否包含了所述目标文字信息对应的目标图像。其中,可以通过OSR(Optical StructureRecognition,光学结构识别)技术提取包含图像信息文件中的图像,对于特定格式的包含图像信息的文件,如格式为MOL或CDX的文件,可以通过计算机软件,如Jchem软件提取图像。如果所述图像信息包括的图像中没有与所述目标文字信息对应的目标图像,则基于所述目标文字信息,生成所述目标文字信息表达的目标图像。
在一些实施例中,基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像可以通过自然语言处理(Natural Language Processing,NLP)技术实现。具体的,可以训练一个自然语言模型,通过将目标文字信息输入自然语言模型中,对目标文字信息进行语义分析,从而将目标文字信息中表达的内容转换成对应的目标图像。其中,自然语言模型的训练可以通过如下方式进行:预先将大量目标文字信息作为训练样本,通过机器学习的方法,训练一个能够识别文字信息中不同短语所表征的含义以及能够识别多个短语之间的关联关系的自然语言模型。在进行自然语言模型的训练时,首先可以通过人工标注的方式,在训练样本中将目标文字信息进行标注。举例来说,针对以下的训练样本:
例1:权利要求1的组合物,其中(B)是在烯基中包含至少约30个脂肪族碳原子的烯基琥珀酰亚胺。
在该训练样本中,可以对不同的描述以及它们之间的关系进行标注。例如,“烯基”、“脂肪族碳原子”和“烯基琥珀酰亚胺”可以标注为马库什枚举;对于描述中的数字,例如上述的“30个”,是数量词,可以标注为Quantifier;对于基团的名称,例如“烯基”和“烯基琥珀酰亚胺”,对于烯基的名称是烯基琥珀酰亚胺名称的一部分,可以标注Part_Of;根据位置关系,例如从上述的“烯基中包含至少约30个脂肪族碳原子的烯基琥珀酰亚胺”,可以对脂肪族碳原子与烯基的位置联系标注,标注为Position,类似的,对于这种在……中、与……相结合,在……、属于……的描述均可按上述方式标注。
例2:R1选自氢和半胱氨酸残基上的巯基保护基。
在该训练样本中,对于R1,可以标注为马库什标记;根据位置关系,标注半胱氨酸残基与巯基保护基的位置联系;“氢”、“半胱氨酸残基”、“巯基保护基”和“保护基”均标注为马库什枚举;还可根据取代关系,对于R1可以被氢和保护基取代,保护基可以被巯基取代,可以标注为Value_Replacement,类似的,对于这种选自……、替代、代表、包括、其中等的描述可按上述方式进行标注。
例3:R4选自氢和杂环,其中杂环至少有一个碳原子,选自氧,氮和硫的1-4个杂原子,并且所述杂环可以被以下任意基团取代:杂芳基氨基,N-芳基-N-烷基氨基,N-杂芳基氨基-N-烷基氨基,卤代烷硫基,链烷酰氧基,烷氧基,杂芳烷氧基,环烷氧基,环烯基氧基,羟基,氨基,硫代,硝基,低级烷基氨基。
在该训练样本中,除了标注马库什标记、马库什枚举、位置信息、数量词、取代关系、名称的部分关系外,还可以标注属性关系,例如,上述描述中“其中杂环至少有一个碳原子,选自氧,氮和硫的1-4个杂原子”,其中,杂原子是杂环必不可少的一个特征,因此,可以标注为杂原子是杂环的一个属性,标注为Attribute。
例4:R1是取代或未取代的C1-C6烷基,卤素,OH,C1-C12烷氧基,任选取代的苯氧基,或任选取代的萘氧基,其中任选的取代基为C1-C6烷基,C1-C6烷氧基。
在该训练样本中,除了上述表述过的标注外,还可以对参考名称进行标注,例如对上述描述中的“任选取代的苯氧基”和“任选取代的萘氧基”标注为Reference,这是一种非特定的名称,它包含的是一个集合的名称,类似的对于残基、取代基、酸等的描述也可以标注为Reference。
例5:R1和R2能够结合形成5到7元杂环,所述杂环被选自氢、1到8个碳原子的烷基和3到7个碳原子的芳基的成员取代,其中所述杂环化合物包含1到2个氮原子和0到1个氧原子,所述氮原子不直接彼此相连或与氧原子相连。
在该训练样本中,除了上述表述过的标注外,还可以对组成关系进行标注,例如根据上述描述中的“R1和R2能够结合形成5到7元杂环”对R1和R2与杂环的的组成关系进行标注,标注为Constituent_Of。
例6:R“是C3-12亚烷基,该链可以被一个或多个杂原子中断,例如O,S,NRN2(其中RN2是氢或C1-4烷基),和/或芳环,例如苯或吡啶。
在该训练样本中,除了上述表述过的标注外,中断关系进行标注,例如,根据上述描述中的“该链可以被一个或多个杂原子中断”,对该链被一个或多个杂原子中断进行标注,标注为Interrupted。
例7:当R和R1都是氢或甲基且Y是氢时,X和Z都不是氯。
在该训练样本中,除了上述表述过的标注外,根据条件关系,例如上述描述可知,当R和R1取值时,X和Z才获得取值,此时可根据条件关系对R和R1、X和Z进行标注,标注为Condition,类似的,如果描述中出现当、如果等,则可按照上述方式进行标注;除此之外,还可以根据是否为排外值,例如上述描述中的“X和Z都不是氯”,可以对X和Z取值为不是氯进行标注,可以标注为Exclusive。
在对利用上述样本进行训练之前,在一些实施例中,可以创建实体类型与实体关系定义。自然语言处理任务的实体类型是:1、分支结构标记,2、分支结构枚举,3、分支结构名称,4、分支结构参考名称,5、分支结构类别,6、分支结构支架,7、分支结构位置骨架,8、分支结构位置骨架说明。如表1所示,表1展示了注释部分中的实体关系定义和示例引用。
表1注释部分中的实体关系定义和示例引用
在一些实施例中,通过上述自然语言模型,可以识别目标文字信息中不同短语所表征的含义以及能够识别多个短语之间的关联关系,根据不同短语所表征的含义确定其对应的图像元件,并根据多个短语之间的关联关系确定图像元件直接的组合或者是连接关系,从而生成对应的目标图像;或者根据目标文字信息中不同短语所表征的含义以及能够识别多个短语之间的关联关系,通过绘图程序将目标图像绘制出来。
S230:存储所述目标图像形成图像数据库。
在一些实施例中,对于包含了主体结构和分支结构的目标图像,可以将所述主体结构和分支结构对应存储。具体的,主体结构和分支结构通常是一对一或者一对多的关系,例如一个主体结构对应一个分支结构,或者对应多个分支结构。可以根据对应关系将主体结构和分支结构存储至不同的实体表中,例如实体表1记录有主体结构A对应的分支结构编号的信息,实体表2记录有分支结构的图像信息,用户如果需要获取主体结构对应的分支结构信息,则可以将主体结构作为查询字段。在一些实施例中,还可以根据主体结构和分支结构的对应关系形成关联数组并进行存储。
在一些实施例中,存储所述目标图像形成图像数据库,还可以包括:将所述目标文件与所述目标图像关联存储。具体的,目标图像和目标文件通常是一对一或者一对多的关系,即一个目标文件可以只包含一个目标图像,也可以包含多个目标图像。因此可以根据对应关系对目标文件和目标图像进行关联存储,例如可以将目标文件和目标图像存储至不同实体表中,也可以根据目标文件和目标图像的对应关系形成关联数组并进行存储。
进一步地,在一些实施例中,还可以将目标文件中的目标文字信息与对应的目标图像进行关联存储,其中所述关联存储的方式可以按照上述方式,也可以采用其他任意方式进行关联存储。
本说明书实施例可以通过获取目标文件中的目标文字信息,并根据目标文字信息生成目标图像,进而将目标图像进行存储形成图像数据库;进一步地,如果目标文件中包含图像信息,还可以根据目标文字信息表达的内容与图像信息相关联来生成目标图像,再将目标图像进行存储形成图像数据库。本说明书实施例形成图像数据库的过程可以通过计算机来实现,不需要人工对文本文件进行筛选、分析和总结,有效提高了建立图像数据库的的效率。
本说明书实施例还提供一种搜索方法,如图5所示,所述方法包括以下步骤。
S510:获取待匹配图像。
在一些实施例中,上述待匹配图像可以包括主体结构和与所述主体结构关联的至少一个分支结构,也可以仅包括主体结构或者任意特定结构。上述待匹配图像还可以是化学结构式。
获取待匹配图像的方式可以是用户手动输入待匹配图像,也可以通过其他任意方式获取。如图6所示,用户可以在图6空白部分绘制待匹配的图像,用户绘制结束后服务器可以获取该待匹配图像。
S520:确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的。
上述匹配方法可以通过计算相似度的方式进行匹配,也可以通过归一化互相关匹配的方式进行匹配,还可以是利用基于变换域的图像匹配方法进行匹配,在本实施方式中,其他任意图像匹配方式均可以实现图像的匹配。
S530:如果预先建立的图像数据库中包含能够匹配待匹配图像的图像,则显示匹配的图像。
在一些实施例中,如果预先建立的图像数据库中包含能够匹配待匹配图像的图像,可以根据用户查看触发操作,例如点击搜索按键或者查看按键,将按照预设显示方式显示匹配的图像,如图7所示。在一些实施例中,除了显示图像之外,还可以显示与图像关联的文字信息,或者仅显示与图像关联的文字信息,所述文字信息的显示方式可以包括高亮显示、加粗显示、圈定显示等,如图8所示。
本说明书实施例提供了一种搜索方法,通过将待匹配图像与预先建立的图像数据库中的图像进行匹配,如果匹配成功,则将匹配结果展示给用户,从而帮助用户快速地搜索到需要查找的图像。
本说明书实施例还提供了一种基于上述图像数据库建立方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标文件;其中,所述目标文件具有目标文字信息;基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储所述目标图像形成图像数据库。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。在本实施方式中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图9,在软件层面上,本说明书实施例还提供了一种图像数据库建立装置,该装置具体可以包括以下的结构模块。
获取模块910,用于获取目标文件;其中,所述目标文件具有目标文字信息;
目标图像生成模块920,用于基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;
图像数据库建立模块930,用于存储所述目标图像形成图像数据库。
在一些实施例中,上述目标图像生成模块920可以包括:
第一生成单元,用于在所述目标文字信息表达的化学结构不包括马库什结构的情况下,生成所述目标文字信息表达的内容对应的目标图像,其中,所述目标图像包括所述化学结构的化学结构式。
第二生成单元,用于在在所述目标文件包括图像文件和对应的文本文件的情况下,确定所述文本文件的目标文字信息对应的所述图像文件中的图像;将与所述目标文字信息对应的图像作为所述目标图像。
第三生成单元,用于在所述目标文字信息包括表达化学结构的主体结构的主体信息的情况下,基于所述目标文字信息中的主体信息,确定所述目标图像包括的主体结构;在在所述目标文字信息包括表达化学结构的分支结构的分支信息的情况下,根据所述目标文字信息的分支信息在所述目标图像的主体结构上,增加分支结构。
第四生成单元,用于在所述目标文件为图片文件的情况下,对所述图片文件进行图像识别,以确定出所述图片文件中的所述目标文字信息;基于所述目标文字信息,生成包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式。
第五生成单元,用于在所述目标文件包括图像信息和文字信息的情况下,在所述文字信息中确定目标文字信息;其中,所述目标文字信息表达化学结构;确定所述图像信息包括的图像中是否包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式;相应的,在所述图像信息包括的图像中没有与所述目标文字信息对应的目标图像的情况下,基于所述目标文字信息,生成所述目标文字信息表达的目标图像。
参阅图10,在硬件层面上,本申请实施例还提供了一种电子设备,该设备具体可以包括包括网络通信单元1010、处理器1020以及存储器1030;所述传输模块1010以及存储器1030均与所述处理器1020电性连接。
其中,所述网络通信单元1010,用于获取目标文件;其中,所述目标文件具有目标文字信息;
所述处理器1020,用于基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;
所述存储器1030,用于将所述目标图像存入图像数据库。
所述网络通信单元用于信息传输,可以将命令或者状态信息从一端经信道传送到另一端,信息传输方式可以包括有线传输和无线传输,有线传输方式可以通过电话线或专用电缆进行网络信息传输,无线传输方式可以通过电台、无线网络等进行网络信息传输。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现图像数据库建立的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据用户终端的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在一些实施例中,所述存储器可以存储有图像数据库,所述存储器可以将生成的目标图像存入该图像数据库中。
在一些实施例中,所述存储器本身并未存储有图像数据库,所述存储器可以将生成的目标图像进行存储并形成一个图像数据库。
本申请实施例还提供了一种电子设备,如图11所示,可以包括:输入设备1110,用于获取待匹配图像(如图6所示);处理器1120,用于确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;显示设备1130,用于在确定存在的情况下,显示匹配的图像。
所述输入设备是输入数据和信息的设备,是设备与用户或其他设备通信的桥梁。所述输入设备可以包括但不限于键盘,鼠标,摄像头,扫描仪,光笔,手写输入板,游戏杆,语音输入装置等设备。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述显示设备是一种可输出图像或感触信息(例如为盲人设计的盲文显示器)的设备。可以包括但不限于显示器、显示屏、荧幕、投影仪等设备。
上述显示设备在预先建立的图像数据库中包含能够匹配待匹配图像的图像的情况下,可以根据用户查看触发操作,例如点击搜索按键或者查看按键,将按照预设显示方式显示匹配的图像,如图7所示。在一些实施例中,除了显示图像之外,还可以显示与图像关联的文字信息,或者仅显示与图像关联的文字信息,所述文字信息的显示方式可以包括高亮显示、加粗显示、圈定显示等,如图8所示。
本说明书实施例还提供了一种基于上述图像数据库建立方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取待匹配图像;确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;在确定存在的情况下,显示匹配的图像。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。
在本实施方式中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。从上述描述可知,本说明书实施例提供的方法可以通过将待匹配图像与预先建立的图像数据库中的图像进行匹配,如果匹配成功,则将匹配结果展示给用户,从而帮助用户快速地搜索到需要查找的图像。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (10)

1.一种图像数据库建立方法,其特征在于,包括:
获取目标文件;其中,所述目标文件具有目标文字信息;
基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;
存储所述目标图像形成图像数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文件包括:
从数据源中下载文件,形成文件集;
根据预设条件,从所述文件集中获取目标文件;其中,所述预设条件包括:确定文件集中文件的文件类型;根据所述文件类型的不同确定对应目标文件的筛选规则,其中,不同文件类型对应的筛选规则不相同;其中,所述筛选规则用于对相应的文件类型的文件进行筛选得出目标文件。
3.根据权利要求2所述的方法,其特征在于,所述确定文件集中文件的文件类型,包括:
对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;
根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。
4.根据权利要求1所述的方法,其特征在于,所述目标文件为图片文件;基于所述目标文字信息,生成所述目标文字信息表达的目标图像,包括:
对所述图片文件进行图像识别,以确定出所述图片文件中的所述目标文字信息;
基于所述目标文字信息,生成包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式。
5.根据权利要求1所述的方法,其特征在于,所述目标文件包括图像信息和文字信息;所述方法还包括:
在所述文字信息中确定目标文字信息;其中,所述目标文字信息表达化学结构;
确定所述图像信息包括的图像中是否包括所述目标文字信息对应的目标图像;其中,所述目标图像包括所述目标文字信息表达的化学结构的化学结构式;
相应的,在所述图像信息包括的图像中没有与所述目标文字信息对应的目标图像的情况下,基于所述目标文字信息,生成所述目标文字信息表达的目标图像。
6.一种搜索方法,其特征在于,包括:
获取待匹配图像;
确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;
在确定存在的情况下,显示匹配的图像。
7.一种电子设备,其特征在于,包括:
输入设备,用于获取待匹配图像;
处理器,用于确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;
显示设备,用于在确定存在的情况下,显示匹配的图像。
8.一种电子设备,其特征在于,包括:
网络通信单元,用于获取目标文件;其中,所述目标文件具有目标文字信息;
处理器,用于基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;
存储器,用于将所述目标图像存入图像数据库。
9.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取目标文件;其中,所述目标文件具有目标文字信息;基于所述目标文字信息,生成所述目标文字信息表达的内容对应的目标图像;存储所述目标图像形成图像数据库。
10.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被执行时实现:获取待匹配图像;确定预先建立的图像数据库中是否存在所述待匹配图像匹配的图像;其中,所述预先建立的图像数据库是通过提取样本文件中的文字信息和图像信息,并根文字信息和图像信息生成的图像建立的;在确定存在的情况下,显示匹配的图像。
CN201910627827.8A 2019-07-12 2019-07-12 图像数据库建立方法、搜索方法、电子设备和存储介质 Pending CN110413814A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910627827.8A CN110413814A (zh) 2019-07-12 2019-07-12 图像数据库建立方法、搜索方法、电子设备和存储介质
PCT/CN2020/090141 WO2021008213A1 (zh) 2019-07-12 2020-05-14 图像数据库建立方法、搜索方法、电子设备和存储介质
JP2022502183A JP7402965B2 (ja) 2019-07-12 2020-05-14 画像データベース構築方法、検索方法、電子機器及び記憶媒体
EP20841371.6A EP3998536A4 (en) 2019-07-12 2020-05-14 IMAGE DATABASE ESTABLISHMENT METHOD, SEARCH METHOD, ELECTRONIC DEVICE AND STORAGE MEDIA
US17/626,705 US20220335081A1 (en) 2019-07-12 2020-05-14 Image database establishing method, searching method, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627827.8A CN110413814A (zh) 2019-07-12 2019-07-12 图像数据库建立方法、搜索方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN110413814A true CN110413814A (zh) 2019-11-05

Family

ID=68361242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627827.8A Pending CN110413814A (zh) 2019-07-12 2019-07-12 图像数据库建立方法、搜索方法、电子设备和存储介质

Country Status (5)

Country Link
US (1) US20220335081A1 (zh)
EP (1) EP3998536A4 (zh)
JP (1) JP7402965B2 (zh)
CN (1) CN110413814A (zh)
WO (1) WO2021008213A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021008213A1 (zh) * 2019-07-12 2021-01-21 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质
CN112766259A (zh) * 2021-01-08 2021-05-07 合肥工业大学 一种面向视障人士的物品智能搜索方法
CN114625835A (zh) * 2022-01-29 2022-06-14 珠海横琴濠麦科技有限公司 技术文献数据分析方法、计算机装置及计算机可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050478B (zh) * 2022-03-31 2023-07-25 数魔方(北京)医药科技有限公司 药品信息挖掘方法、预警方法、装置和存储介质
KR20240018131A (ko) * 2022-08-02 2024-02-13 (주)광개토연구소 이미지 기술맵 처리 방법 및 그 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040176915A1 (en) * 2003-03-06 2004-09-09 Antony Williams Apparatus and method for encoding chemical structure information
CN102541286A (zh) * 2010-12-24 2012-07-04 北大方正集团有限公司 用于构建有机化学结构式的方法和装置
US20140205188A1 (en) * 2010-12-03 2014-07-24 Massachusetts Institute Of Technology Sketch Recognition System
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置
CN109815355A (zh) * 2019-01-28 2019-05-28 网易(杭州)网络有限公司 图像搜索方法及装置、存储介质、电子设备
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US8078756B2 (en) 2003-06-03 2011-12-13 Cisco Technology, Inc. Computing a path for an open ended uni-directional path protected switched ring
JP2008146602A (ja) 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
TW200928844A (en) 2007-10-16 2009-07-01 Decript Inc Methods for processing generic chemical structure representations
CN101853297A (zh) * 2010-05-28 2010-10-06 英华达(南昌)科技有限公司 一种在电子设备中快速获得期望图像的方法
JP5641828B2 (ja) 2010-08-31 2014-12-17 株式会社東芝 画像処理装置および画像処理システム
JP5868262B2 (ja) 2012-05-24 2016-02-24 株式会社日立製作所 画像検索装置、画像検索方法
JP6020050B2 (ja) 2012-11-02 2016-11-02 富士通株式会社 情報提供方法、情報提供装置および情報提供プログラム
CN104376199A (zh) * 2014-11-05 2015-02-25 宁波市科技园区明天医网科技有限公司 乳腺报告病灶示意图智能生成方法
CN105183737A (zh) * 2014-11-17 2015-12-23 广东工业大学 外观设计专利即时检索系统及检索方法
EP3533004B1 (en) 2016-10-26 2020-07-29 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
US10706215B2 (en) 2017-04-05 2020-07-07 Parsegon Producing formula representations of mathematical text
CN108388551A (zh) 2018-02-07 2018-08-10 潘新怡 化学式及方程式的编辑方法、系统、存储介质、电子设备
CN109697239B (zh) * 2018-11-23 2022-05-31 南京尚网网络科技有限公司 用于生成图文信息的方法
CN109766468A (zh) * 2019-01-04 2019-05-17 广东技术师范学院 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置
CN110413814A (zh) * 2019-07-12 2019-11-05 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040176915A1 (en) * 2003-03-06 2004-09-09 Antony Williams Apparatus and method for encoding chemical structure information
US20140205188A1 (en) * 2010-12-03 2014-07-24 Massachusetts Institute Of Technology Sketch Recognition System
CN102541286A (zh) * 2010-12-24 2012-07-04 北大方正集团有限公司 用于构建有机化学结构式的方法和装置
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置
CN109815355A (zh) * 2019-01-28 2019-05-28 网易(杭州)网络有限公司 图像搜索方法及装置、存储介质、电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021008213A1 (zh) * 2019-07-12 2021-01-21 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质
CN112766259A (zh) * 2021-01-08 2021-05-07 合肥工业大学 一种面向视障人士的物品智能搜索方法
CN114625835A (zh) * 2022-01-29 2022-06-14 珠海横琴濠麦科技有限公司 技术文献数据分析方法、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP2022541890A (ja) 2022-09-28
WO2021008213A1 (zh) 2021-01-21
JP7402965B2 (ja) 2023-12-21
WO2021008213A8 (zh) 2021-02-18
EP3998536A4 (en) 2023-04-26
US20220335081A1 (en) 2022-10-20
EP3998536A1 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
CN110413814A (zh) 图像数据库建立方法、搜索方法、电子设备和存储介质
CN109479061B (zh) 遵从性违反检测
US11556697B2 (en) Intelligent text annotation
US8572202B2 (en) Persistent saving portal
CN101388011B (zh) 一种向用户词库中记录信息的方法和装置
CN101373468B (zh) 一种加载词库的方法、字符输入的方法和输入法系统
CN102349087B (zh) 自动提供与捕获的信息例如实时捕获的信息关联的内容
US20130066818A1 (en) Automatic Crowd Sourcing for Machine Learning in Information Extraction
US20050234851A1 (en) Automatic modification of web pages
US20160239504A1 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US8099430B2 (en) Computer method and apparatus of information management and navigation
CN104919522A (zh) 分布式nlu/nlp
CN112231494A (zh) 信息抽取方法、装置、电子设备及存储介质
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
US7444322B2 (en) Electronic mail device
KR20120058544A (ko) 이미지 구성요소의 검색
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
JP2022187507A (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム
US7730062B2 (en) Cap-sensitive text search for documents
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
JP2010224667A (ja) 文字入力支援装置及び文字入力支援方法
KR20120072153A (ko) 회의록 문서 생성 및 검색 시스템
CN111460258A (zh) 司法鉴定信息提取方法、系统、设备及存储介质
CN111507065A (zh) 阅读信息的处理方法、设备及存储介质
JP2010072805A (ja) 投稿・閲覧支援システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination