CN109992603A - 一种数据搜索方法、装置、电子设备和计算机可读介质 - Google Patents

一种数据搜索方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN109992603A
CN109992603A CN201910273967.XA CN201910273967A CN109992603A CN 109992603 A CN109992603 A CN 109992603A CN 201910273967 A CN201910273967 A CN 201910273967A CN 109992603 A CN109992603 A CN 109992603A
Authority
CN
China
Prior art keywords
keyword
target
vocabulary
company
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910273967.XA
Other languages
English (en)
Other versions
CN109992603B (zh
Inventor
陈超
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201910273967.XA priority Critical patent/CN109992603B/zh
Publication of CN109992603A publication Critical patent/CN109992603A/zh
Application granted granted Critical
Publication of CN109992603B publication Critical patent/CN109992603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据搜索方法、装置、电子设备和计算机可读介质,涉及数据处理的技术领域,包括:获取根据预设规则生成的目标关键词表;其中,目标关键词表用于表征查询关键词和公司的公司名称之间的对应关系;在目标关键词表中确定待查询关键词,并在数据提供系统中查询包含待查询关键词的目标公司;在数据提供系统中查询待查询关键词所对应的目标公司的属性数据,得到数据搜索结果,本申请缓解了现有的数据搜索方式搜索代价成本高,效率低的技术问题。

Description

一种数据搜索方法、装置、电子设备和计算机可读介质
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种数据搜索方法、装置、电子设备和计算机可读介质。
背景技术
随着互联网技术的迅猛发展,数据量也日益庞大,许多公开数据都为用户使用,用户可以在公开的数据查询系统中获取待查询数据。比如,工商公示系统就是一个公开的官方数据源,其中包含大量公司的数据,用户可以在工商公示系统中获取所有待查询公司的数据。
对于工商公示系统的数据,如果某个公司的数据发生了变更,比如说:名称变更、股东变更、注册资本变更、亦或者是从存续状态变更等,工商公示系统不会主动将该公司的变更数据发送给用户,只有当用户去搜索该公司时,才会发现该公司所发生的数据变化。那么,对于数据量庞大的工商公示系统,若要及时的发现哪些公司的数据发生了变化,就需要根据各个公司的名称不断的搜索工商公示系统所公示的最新数据,再与已有的数据进行对比,最终才能发现哪些公司发生了怎样的数据变动,但上述对所有公司的公司名称进行逐一搜索获取数据的方式非常耗时。
综上,现有技术在进行全量数据获取时,效率低下。
发明内容
有鉴于此,本发明的目的在于提供一种数据搜索方法、装置、电子设备和计算机可读介质,以缓解了现有的数据搜索方式搜索代价成本高,效率低的技术问题。
第一方面,本发明实施例提供了一种数据搜索方法,包括:获取根据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和公司名称之间的对应关系;在所述目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
进一步地,根据预设规则生成目标关键词表包括:获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果;在所述分词结果中确定每个公司名称所对应的关键词,并根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
进一步地,根据所述关键词和公司名称之间的对应关系生成所述目标关键词表包括:按照所述关键词和公司名称之间的对应关系,对所述关键词进行词频统计,统计得到每个关键词对应的公司名称的词频数量;基于所述词频数量在所述关键词中确定目标关键词,其中,所述目标关键词的词频数量大于预设阈值;对所述目标关键词进行向前和/或向后扩展,得到扩展关键词;根据所述扩展关键词和所述公司名称之间的对应关系,确定所述目标关键词表。
进一步地,对所述目标关键词进行向前和/或向后扩展,得到扩展关键词包括:确定所述目标关键词所对应的目标公司名称;对所述目标公司名称进行分词处理,得到多个分词;在所述多个分词中确定目标分词,其中,所述目标分词为所述目标公司称中位于所述目标关键词之前的词汇,和/或,所述目标分词为所述目标公司名称中位于所述目标关键词之后的词汇;基于所述目标分词对所述目标关键词进行向前和/或向后扩展,得到所述扩展关键词。
进一步地,所述分词结果中包括所属于多个字段类别的分词;在所述分词结果中确定每个公司名称所对应的关键词包括:确定所述分词结果中每个分词所属的字段类别;根据每个分词所属的字段类别确定每个公司名称所对应的关键词。
进一步地,所述方法还包括:若所述数据搜索结果中不包含第一目标公司,则为重新生成查询关键词,其中,所述第一目标公司为所述目标关键词表中待查询关键词所对应的公司;和/或,若所述数据搜索结果中包含第二目标公司,则在所述目标关键词表中创建所述第二目标公司和所述待查询关键词之间的对应关系,其中,所述第二目标公司不是所述目标关键词表中待查询关键词所对应的公司。
第二方面,本发明实施例提供了一种数据搜索装置,包括:第一获取单元,用于获取根据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和公司的公司名称之间的对应关系;第一确定单元,用于在所述目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;查询单元,用于在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
进一步地,所述装置还包括:第二获取单元,用于获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果;第二确定单元,用于在所述分词结果中确定每个公司名称所对应的关键词;生成单元,用于根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。
第四方面,本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面中任一所述方法。
通过上述描述可知,本实施例提供了一种数据搜索方法,在该方法中,首先获取根据预设规则生成的目标关键词表;其中,目标关键词表用于表征查询关键词和公司名称之间的对应关系;然后,在目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;最后,在数据提供系统中查询待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。通过背景技术的描述可知,在现有技术中,主要通过全量搜索的方式查询企业信息,该方式搜索代价成本高,效率低,基于此,在本申请中,通过公司名称的关键词进行搜索的方式,一次搜索能够获取多个公司的属性数据,大大的提高了更新效率,缩短了全量公司数据的更新周期,且能够探索到未知的新公司便于进行收录。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种电子设备的结构示意图;
图2是根据本发明实施例的一种数据搜索方法的流程图;
图3是根据本发明实施例的一种可选地数据搜索方法的流程;
图4是根据本发明实施例的一种数据搜索装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
首先,参照图1来描述用于实现本发明实施例的数据搜索方法和装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及数据采集器110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述数据采集器110可以获取根据预设规则生成的目标关键词表,并且将获取到的目标关键词表存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的数据搜索方法的示例电子设备可以被实现为诸如服务器等设备上。
实施例二:
根据本发明实施例,提供了一种数据搜索方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种数据搜索方法的流程图。需要说明的是,在本实施例中,下述步骤S202至步骤S206所描述的步骤可以应用在服务器中。如图2所示,该方法包括如下步骤:
步骤S202,获取据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和多个公司的公司名称之间的对应关系。
需要说明的是,在本实施例中,目标关键词表中的一个查询关键词能够对应查找多个公司的属性数据,且每个查询关键词所对应公司的数量小于或者等于数据提供系统(例如,工商公示系统)所允许的查询数量,所述查询关键词为预先在多个公司名称中提取到的至少一个搜索关键词。
在本实施例中,查询关键词用于用户在数据提供系统中查询对应公司的属性数据。该属性数据包括以下至少之一:法人信息、注册地址、公司股权结构、公司名称等信息。
在该目标关键词表中包括多个查询关键词,以及多个公司的公司名称,其中,在一个查询关键词对应多个公司名称。且每个查询关键词所对应的公司名称的数量小于或者等于数据提供系统所能允许的查询数量。
需要说明的是,本实施例中所提供的数据提供系统为用于公示各个公司的属性数据的系统,例如工商公示系统。但是,数据提供系统并不限定为工商公示系统,该数据提供系统可以为任意一种能够提供本申请所需属性数据的系统。
针对某些数据提供系统,所允许查询的公司的数量有对应的上限值(例如,100),此时,该目标关键词表中每个查询关键所对应的公司名称的数量小于或者等于100。进一步需要说明的是,不同的数据提供数据所允许的查询的数量可以不同,基于此,可以为不同的数据提供系统设置不同的目标关键词表。也就是说,在本实施例中,目标关键词表中查询关键词所对应的公司的数量不是固定不变的,可以根据数据提供系统所允许的查询数量进行调整,本实施例中对每个查询关键词所对应的公司的数量不做具体限定。
步骤S204,在所述目标关键词表中确定待查询关键词,并在所述数据提供系统中查询包含所述待查询关键词的目标公司。
在本实施例中,在数据提供系统中查询公司的属性数据时,可以首先在目标关键词表中确定待查询关键词,在确定出待查询关键词之后,就可以在数据提供系统查询包含待查询关键词的一个或多个目标公司。
例如,待查询关键词为:“百度”,那么就可以在数据提供系统中查询包含“百度”的一个或多个目标公司。
步骤S206,在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
通过上述描述可知,本实施例提供了一种数据搜索方法,在该方法中,首先获取根据预设规则生成的目标关键词表;其中,目标关键词表用于表征查询关键词和公司名称之间的对应关系;然后,在目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;最后,在数据提供系统中查询待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。通过背景技术的描述可知,在现有技术中,主要通过全量搜索的方式查询企业信息,该方式搜索代价成本高,效率低,基于此,在本申请中,通过公司名称的关键词进行搜索的方式,一次搜索能够获取多个公司的属性数据,大大的提高了更新效率,缩短了全量公司数据的更新周期,且能够探索到未知的新公司便于进行收录。
下面将结合具体实施例介绍上述数据搜索方法。通过上述描述可知,在本实施例中,首先获取根据预设规则生成的目标关键词表。
在本实施例中,在执行上述数据搜索方法之前,需要根据预设规则创建目标关键词表,具体创建过程将在下述实施例中进行介绍。在根据预设规则创建该目标关键词表之后,就可以根据创建该的目标关键词表在数据提供系统中搜索公司的属性数据,得到相应的数据搜索结果。在得到数据搜索结果之后,还可以根据该数据搜索结果对创建的该目标关键词表进行优化。之后,可以将该优化之后的目标关键词表作为下一次搜索操作的目标关键词表。
在一个可选的实施方式中,如图3所示,根据预设规则生成目标关键词表包括如下步骤:
步骤S301,获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果。
在本实施例中,多个公司名称可以为预先在数据提供系统中收集到的名称数据。其中,数据提供系统可以为多个,还可以为一个,本实施例对此不做具体限定。
在获取到多个公司名称之后,就可以利用分词器对每个公司名称进行分词处理,得到分词结果,其中,在该分词结果中包括多个分词。
由于公司名称的结构大多是以下结构:行政区划+字号+行业+组织形式。因此,在采用分词器对各个公司名称进行分词之后,就可以得到上述每个结构所对应的分词结果。例如,行政区域对应一个或多个分词、字号对应一个或多个分词、行业对应一个或多个分词、组织形式对应一个或多个分词。
步骤S302,在所述分词结果中确定每个公司名称所对应的关键词,并根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
在对各个公司名称进行分词,得到分词结果之后,就可以在分词结果中确定每个公司名称所对应的关键词。在得到每个公司名称所对应的关键词之后,可以建立一个对应关系,即该关键词和该公司名称的对应关系,进而,根据该对应关系生成目标关键词表。
例如,某个公司名称A,其所对应的关键词为关键词B,此时可以为该关键词B设置一个标签信息(例如设置01),同时还可以为该公司名称A设置一个标签信息(例如,设置01)。通过设置标签信息的方式就可以实现公司名称A和关键词B之间的对应关系。
下面具体介绍在分词结果中确定每个公司名称所对应的关键词的具体过程。在上述步骤中介绍到:公司名称的结构大多是以下结构:行政区划+字号+行业+组织形式。在本实施例中,可以基于上述结构中的各个字段来确定每个公司名称所对应的关键词。
在本实施例中,假设分词结果中包括所属于多个字段类别的分词;多个字段类别分别为:行政区划、字号、行业、组织形式。基于此,在分词结果中确定每个公司名称所对应的关键词包括如下步骤:
首先,确定分词结果中每个分词所属的字段类别;通过上述描述可知,在一个可选的实施方式中,字段类别包括:行政区划、字号、行业、组织形式。
基于此,在本实施例中,针对分词结果中的每个分词,首先确定每个分词所属的字段类别,例如,分词A1所属的字段类别为行政区域、分词A2所属的字段类别为字号、分词A3所属的字段类别为行业、分词A4所属的字段类别为组织形式等。
之后,在得到每个分词所属的字段类别之后,就可以根据每个分词所属的字段类别确定每个公司名称所对应的关键词。
具体地,根据每个分词所属的字段类别确定每个公司名称所对应的关键词的过程描述如下:
假定,字段类别“行政区划”为第一字段类别、字段类别“字号”、“行业”和“组织形式”为第二字段类别。在本实施例中,首先在分词结果中删除所属于第一字段类别的分词,得到剩余的分词。然后,在剩余的分词中提取一个或多个所属于第二字段类别的分词,并将提取得到的一个或多个所属于第二字段类别的分词作为公司名称的关键词。
例如,对某个公司名称A进行分词之后,得到的分词结果中包括以下分词:分词a1,分词a2,分词a3,分词a4,分词a5,分词a6,其中,分词a1为所属于第一字段类别的分词,分词a2、分词a3、分词a4和分词a5为所属于第二字段类别的分词,具体地,分词a2和分词a3所属字段为“字号”,分词a4所属字段为“行业”,分词a5所属字段为“组织形式”。按照上述所描述的确定方法,首先,删除所属于第一字段类别(即,字段“行政区域”)的分词(即,分词a1)。然后,在所属于字段“字号”的分词(即,分词a2和分词a3)中选择一个或多个分词作为公司名称A的关键词。如果在该分词结果中,不包含所属于字段“字号”的分词,则在所属于字段“行业”的分词中选择一个或多个分词作为公司名称A的关键词。
在本实施例中,采用上述所描述的根据每个分词所属的字段类别确定每个公司名称所对应的关键词的方式,去掉了分词中的无效分词(例如,行政区域),得到的剩余分词能够更加明确的表达公司名称,从而得到更加准确的对应关系。
下面举例说明确定各个公司名称所对应的关键词的过程。假设,获取到的公司名称为“北京百度网讯科技有限公司”。首先,利用分词器对“北京百度网讯科技有限公司”进行分词处理,得到分词结果。例如,分词结果中包含以下分词:北京/ns、百度/n、网讯/n、科技/n、有限公司/n。
在得到上述分词结果之后,就可以删除所属于第一字段类别的分词,例如,去除掉头部的行政区划部分:北京。在剩余的分词中提取出关键的部分,提取的过程如上述步骤S302所述,此处不再详细赘述。如果剩余的分词中有多个词,那么选取头一个或两个作为关键词,如果只有一个词,那么该词作为关键词,例如,可以为:百度网讯。
在本实施例中,在按照上述所描述的方法确定每个公司名称所对应的关键词之后,就可以根据关键词和公司名称之间的对应关系生成目标关键词表,具体过程描述如下:
步骤S3021,按照所述关键词和公司名称之间的对应关系,对所述关键词进行词频统计,统计得到每个关键词对应的公司名称的词频数量。
步骤S3022,基于所述词频数量在所述关键词中确定目标关键词,其中,所述目标关键词的词频数量大于预设阈值。
具体地,在本实施例中,首先根据关键词和各个公司名称之间的对应关系,对各个关键词进行词频统计,词频统计结果为每个关键词所对应的词频数量。
在本实施例中,可以基于该词频统计结果在多个关键词中确定目标关键词,其中,目标关键词所对应的词频数量大于数据提供系统所允许的查询数量,也即,目标关键词的词频数量大于预设阈值(例如,100)。例如,关键词“味之源”所对应的公司名称的数量大于数据提供系统所允许的查询数量;又例如,“百度网讯”所对应的公司名称的数量大于数据提供系统所允许的查询数量。
步骤S3023,对目标关键词进行向前和/或向后扩展,得到扩展关键词。
具体地,在本实施例中,将所述目标关键词作为待扩展关键词;然后,对所述待扩展关键词进行扩展,得到一个或多个扩展关键词。
在对待扩展关键词进行扩展时,首先,确定目标关键词所对应的多个目标公司名称;然后,对每个所述目标公司名称进行分词处理,得到多个分词;之后,在所述多个分词中确定目标分词,其中,目标分词为多个目标公司称中位于目标关键词之前的词汇,和/或,目标分词为所述目标公司名称中位于目标关键词之后的词汇;最后,基于目标分词对所述目标关键词进行扩展,得到扩展关键词。
下面举例说明上述扩展过程:假设“味之源”为目标关键词,此时,可以将该目标关键词确定为待扩展关键词,并对该待扩展关键词进行扩展。在对该待扩展关键词进行扩展时,可以在该关键词的基础上,向后扩展一个词(或者向前扩展一个词),本实施例中对此不作具体限定,用户可以根据实际需要确定向后扩展还是向前扩展。在对关键词“味之源”进行扩展之前,需要确定待扩展关键词“味之源”所对应的多个目标公司名称。然后,对每个目标公司名称进行分词处理,得到多个分词。之后,在多个分词中确定位于待扩展关键词“味之源”之后的分词(或者确定位于待扩展关键词“味之源”之前的分词),即确定上述所描述的目标分词,在确定出目标分词之后,就可以基于目标分词对该待扩展关键词“味之源”进行扩展,得到一个或多个扩展关键词。
需要说明的是,如果目标分词为一个,则将得到一个扩展关键词;如果目标分词为多个,则将得到多个扩展关键词。
需要说明的是,上述步骤S3023可以为多次扩展过程,即反复对目标关键词执行扩展过程,直至扩展关键词所对应的词频数量小于或者等于数据提供系统所允许的查询数量(或者,直至扩展关键词所对应的词频数量小于或者等于预设阈值)。
由于部分数据提供系统搜索有一个限制,就是一次搜索,最多返回100个公司的信息。那么通过提取的关键词进行搜索,对于某些“大众化”的关键词,比如:搜索“健康饮食”,公示系统只会返回100个公司的信息,但是以“健康饮食”为关键词的公司名称远远不止100个,这时需要对该关键词进行扩展优化。基于此,可以采用上述所描述的方式对关键词进行扩展优化,使得扩展优化之后的关键词所对应的公司名称的数量小于或者等于数据提供系统所允许的查询数量(例如,上述所描述的预设阈值)。
通过上述提取优化关键词的方法,使得在通过搜索这些关键词,即可将几乎全部的公司都能获取到最新的数据,搜索次数从全部公司名数量缩减为所有关键词数量。
在本实施例中,在按照上述所描述的方式得到扩展关键词之后,就可以根据所述扩展关键词和所述公司名称之间的对应关系,确定所述目标关键词表。
上述所描述的过程为根据预设规则创建目标关键词表的过程,在创建得到目标关键词表之后,就可以在目标关键词表中确定待查询关键词。在所述目标关键词表中确定待查询关键词之后,可以生成数据查询请求,其中,所述数据查询请求中携带所述待查询关键词。然后,向所述数据提供系统发送所述数据查询请求,以在所述数据提供系统中查询包含所述待查询关键词的多个目标公司,并在所述数据提供系统中查询所述待查询关键词所对应的各个目标公司的属性数据。
在数据提供系统中查询待查询关键词所对应的各个目标公司的属性数据,得到数据搜索结果之后,还可以对该目标关键词表进行优化。
对目标关键词表进行优化的优化原则包括以下两种原则。
原则一、
若数据搜索结果中不包含第一目标公司,则为重新生成查询关键词,其中,第一目标公司为目标关键词表中待查询关键词所对应的公司。
例如,在目标关键词表中,关键词xxx对应的公司数为80。然后,在数据提供系统中搜索该关键词xxx,搜索到的公司数为n,那么记录这n个公司的关键词为xxx。之后,将这80个公司中不在这n个公司的公司进行标记。并为该公司重新生成查询关键词,具体地,为该公司重新生成查询关键词的过程如上述步骤S3021至步骤S3023所述,此处不再详细赘述。
需要说明的是,在目标关键词表中,关键词xxx对应的公司即为目标关键词表中关键词xxx所对应的一个或多个公司,80个公司中不在这n个公司的公司即为第一目标公司。
原则二、
若所述数据搜索结果中包含第二目标公司,则在所述目标关键词表中创建所述第二目标公司和所述待查询关键词之间的对应关系,其中,所述第二目标公司不是所述目标关键词表中待查询关键词所对应的公司。
如果根据该数据搜索结果确定出搜索出的是新公司(即,第二目标公司),那么进行记录,并标记其关键词为xxx。
通过上述描述可知,本实施例所提供的方法,通过对现有的公司名称进行关键词提取,经过一系列的优化,然后以这些关键词为搜索基础词表进行搜索,使得原来需要进行全数量公司名称搜索减少为所有关键词数搜索,本申请具有以下优点:
优点一:大大减少了搜索的次数,提高了数据获取的效率;
优点二:并且以这些关键词进行搜索,大大增加了发现新公司(现有公司没有的)的几率,有助于扩展现有公司的数量;
优点三:通过对以关键词搜索的结果进行记录,并反馈调整现有关键词表,使得该装置更佳贴合实际,也更方便用户对数据更新的调度策略的调整。
实施例三:
本发明实施例还提供了一种数据搜索装置,该数据搜索装置主要用于执行本发明实施例上述内容所提供的数据搜索方法,以下对本发明实施例提供的数据搜索装置做具体介绍。
图4是根据本发明实施例的一种数据搜索装置的示意图,如图4所示,该数据搜索装置主要包括:第一获取单元10,第一确定单元20和查询单元30,其中:
第一获取单元10,用于获取根据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和公司的公司名称之间的对应关系;
第一确定单元20,用于在所述目标关键词表中确定待查询关键词,并在所述数据提供系统中查询包含所述待查询关键词的目标公司;
查询单元30,用于在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
通过背景技术的描述可知,在现有技术中,主要通过全量搜索的方式查询企业信息,该方式搜索代价成本高,效率低,基于此,在本申请中,通过公司名称的关键词进行搜索,一次搜索能够获取多个公司的属性数据,大大的提高了更新效率,同时缩短了全量公司数据的更新周期,且能够探索到未知的新公司便于进行收录。
可选地,所述装置还包括:第二获取单元,用于获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果;第二确定单元,用于在所述分词结果中确定每个公司名称所对应的关键词;生成单元,用于根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
可选地,生成单元用于:按照所述关键词和公司名称之间的对应关系,对所述关键词进行词频统计,统计得到每个关键词对应的公司名称的词频数量;基于所述词频数量在所述关键词中确定目标关键词,其中,所述目标关键词的词频数量大于预设阈值;对所述目标关键词进行向前和/或向后扩展,得到扩展关键词;根据所述扩展关键词和所述公司名称之间的对应关系,确定所述目标关键词表。
可选地,生成单元还用于:确定所述目标关键词所对应的目标公司名称;对所述目标公司名称进行分词处理,得到多个分词;在所述多个分词中确定目标分词,其中,所述目标分词为所述目标公司称中位于所述目标关键词之前的词汇,和/或,所述目标分词为所述目标公司名称中位于所述目标关键词之后的词汇;基于所述目标分词对所述目标关键词进行向前和/或向后扩展,得到所述扩展关键词。
可选地,第二确定单元用于在所述分词结果中包括所属于多个字段类别的分词的情况下,确定所述分词结果中每个分词所属的字段类别;根据每个分词所属的字段类别确定每个公司名称所对应的关键词。
可选地,所述装置还用于:若所述数据搜索结果中不包含第一目标公司,则为重新生成查询关键词,其中,所述第一目标公司为所述目标关键词表中待查询关键词所对应的公司;和/或,若所述数据搜索结果中包含第二目标公司,则在所述目标关键词表中创建所述第二目标公司和所述待查询关键词之间的对应关系,其中,所述第二目标公司不是所述目标关键词表中待查询关键词所对应的公司。
本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法实施例中任一所述方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据搜索方法,其特征在于,包括:
获取根据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和公司名称之间的对应关系;
在所述目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;
在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
2.根据权利要求1所述的方法,其特征在于,根据预设规则生成目标关键词表包括:
获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果;
在所述分词结果中确定每个公司名称所对应的关键词,并根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
3.根据权利要求2所述的方法,其特征在于,根据所述关键词和公司名称之间的对应关系生成所述目标关键词表包括:
按照所述关键词和公司名称之间的对应关系,对所述关键词进行词频统计,统计得到每个关键词对应的公司名称的词频数量;
基于所述词频数量在所述关键词中确定目标关键词,其中,所述目标关键词的词频数量大于预设阈值;
对所述目标关键词进行向前和/或向后扩展,得到扩展关键词;
根据所述扩展关键词和所述公司名称之间的对应关系,确定所述目标关键词表。
4.根据权利要求3所述的方法,其特征在于,对所述目标关键词进行向前和/或向后扩展,得到扩展关键词包括:
确定所述目标关键词所对应的目标公司名称;
对所述目标公司名称进行分词处理,得到多个分词;
在所述多个分词中确定目标分词,其中,所述目标分词为所述目标公司称中位于所述目标关键词之前的词汇,和/或,所述目标分词为所述目标公司名称中位于所述目标关键词之后的词汇;
基于所述目标分词对所述目标关键词进行向前和/或向后扩展,得到所述扩展关键词。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述分词结果中包括所属于多个字段类别的分词;
在所述分词结果中确定每个公司名称所对应的关键词包括:
确定所述分词结果中每个分词所属的字段类别;
根据每个分词所属的字段类别确定每个公司名称所对应的关键词。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
若所述数据搜索结果中不包含第一目标公司,则为重新生成查询关键词,其中,所述第一目标公司为所述目标关键词表中待查询关键词所对应的公司;和/或
若所述数据搜索结果中包含第二目标公司,则在所述目标关键词表中创建所述第二目标公司和所述待查询关键词之间的对应关系,其中,所述第二目标公司不是所述目标关键词表中待查询关键词所对应的公司。
7.一种数据搜索装置,其特征在于,包括:
第一获取单元,用于获取根据预设规则生成的目标关键词表;其中,所述目标关键词表用于表征查询关键词和公司的公司名称之间的对应关系;
第一确定单元,用于在所述目标关键词表中确定待查询关键词,并在数据提供系统中查询包含所述待查询关键词的目标公司;
查询单元,用于在所述数据提供系统中查询所述待查询关键词所对应的目标公司的属性数据,得到数据搜索结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取多个公司名称,并对所述多个公司名称进行分词处理,得到分词结果;
第二确定单元,用于在所述分词结果中确定每个公司名称所对应的关键词;
生成单元,用于根据所述关键词和公司名称之间的对应关系生成所述目标关键词表。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6中任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至6中任一所述方法。
CN201910273967.XA 2019-04-04 2019-04-04 一种数据搜索方法、装置、电子设备和计算机可读介质 Active CN109992603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910273967.XA CN109992603B (zh) 2019-04-04 2019-04-04 一种数据搜索方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910273967.XA CN109992603B (zh) 2019-04-04 2019-04-04 一种数据搜索方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN109992603A true CN109992603A (zh) 2019-07-09
CN109992603B CN109992603B (zh) 2020-10-09

Family

ID=67131049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910273967.XA Active CN109992603B (zh) 2019-04-04 2019-04-04 一种数据搜索方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN109992603B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599373A (zh) * 2019-08-30 2019-12-20 北京金堤科技有限公司 商标数据生成方法以及装置
CN111026796A (zh) * 2019-11-29 2020-04-17 华南农业大学 多源异构数据采集方法、装置、系统、介质和设备
CN112905878A (zh) * 2021-01-25 2021-06-04 长沙市到家悠享网络科技有限公司 对应关系配置方法、装置、设备和存储介质
CN114861787A (zh) * 2022-04-27 2022-08-05 北京金堤科技有限公司 获取存在重名情况的待查询人员名下公司的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110123A (zh) * 2009-12-29 2011-06-29 中国人民解放军国防科学技术大学 倒排索引建立方法
US20120151310A1 (en) * 2010-12-13 2012-06-14 El-Kalliny Ahmed M Method and system for identifying and delivering contextually-relevant information to end users of a data network
CN104881504A (zh) * 2015-06-23 2015-09-02 郑州悉知信息技术有限公司 一种信息搜索方法及装置
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置
CN107609921A (zh) * 2017-09-30 2018-01-19 金蝶软件(中国)有限公司 一种数据处理方法及服务器
CN108460116A (zh) * 2018-02-12 2018-08-28 苏州朗动网络科技有限公司 搜索方法、装置、计算机设备、存储介质及搜索系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110123A (zh) * 2009-12-29 2011-06-29 中国人民解放军国防科学技术大学 倒排索引建立方法
US20120151310A1 (en) * 2010-12-13 2012-06-14 El-Kalliny Ahmed M Method and system for identifying and delivering contextually-relevant information to end users of a data network
CN104881504A (zh) * 2015-06-23 2015-09-02 郑州悉知信息技术有限公司 一种信息搜索方法及装置
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置
CN107609921A (zh) * 2017-09-30 2018-01-19 金蝶软件(中国)有限公司 一种数据处理方法及服务器
CN108460116A (zh) * 2018-02-12 2018-08-28 苏州朗动网络科技有限公司 搜索方法、装置、计算机设备、存储介质及搜索系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599373A (zh) * 2019-08-30 2019-12-20 北京金堤科技有限公司 商标数据生成方法以及装置
CN110599373B (zh) * 2019-08-30 2022-12-23 北京金堤科技有限公司 商标数据生成方法以及装置
CN111026796A (zh) * 2019-11-29 2020-04-17 华南农业大学 多源异构数据采集方法、装置、系统、介质和设备
CN111026796B (zh) * 2019-11-29 2023-05-16 华南农业大学 多源异构数据采集方法、装置、系统、介质和设备
CN112905878A (zh) * 2021-01-25 2021-06-04 长沙市到家悠享网络科技有限公司 对应关系配置方法、装置、设备和存储介质
CN112905878B (zh) * 2021-01-25 2023-03-10 长沙市到家悠享网络科技有限公司 对应关系配置方法、装置、设备和存储介质
CN114861787A (zh) * 2022-04-27 2022-08-05 北京金堤科技有限公司 获取存在重名情况的待查询人员名下公司的方法和装置

Also Published As

Publication number Publication date
CN109992603B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN109992603A (zh) 一种数据搜索方法、装置、电子设备和计算机可读介质
US11354365B1 (en) Using aggregate compatibility indices to identify query results for queries having qualitative search terms
US10733055B1 (en) Methods and apparatus related to graph transformation and synchronization
KR101775883B1 (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
US11232154B2 (en) Neural related search query generation
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
US20140012851A1 (en) Apparatus and method for incremental physical data clustering
AU2015347304B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US20170255693A1 (en) Providing images for search queries
JP2010205265A (ja) オントロジを用いたコンテンツ検索システムおよび方法
CN107463591A (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
US9330135B2 (en) Method, apparatus and computer readable recording medium for a search using extension keywords
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN108717407A (zh) 实体向量确定方法及装置,信息检索方法及装置
CN107710201A (zh) 存储数据和从位向量搜索索引取回数据
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN107851108A (zh) 使用位向量搜索索引的匹配文档
US20170068732A1 (en) Multi-system segmented search processing
US9129041B1 (en) Technique for updating a context that facilitates evaluating qualitative search terms
CN113377289A (zh) 一种缓存管理方法、系统、计算设备及可读存储介质
US20120124060A1 (en) Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
CN111581479A (zh) 一站式数据处理的方法、装置、存储介质及电子设备
JP2015207026A (ja) 情報処理装置、レコード位置情報特定方法および情報処理プログラム
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
US9183264B2 (en) Distributed configuration information management device and distributed configuration information management method using duplicates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant