CN108255894B

CN108255894B - 建立数据库的方法和装置

Info

Publication number: CN108255894B
Application number: CN201611270837.3A
Authority: CN
Inventors: 孙德彬
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2021-02-26
Anticipated expiration: 2036-12-29
Also published as: CN108255894A

Abstract

本发明公开了一种建立数据库的方法和装置。其中，该方法包括：获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息；根据行业门户网站的信息建立信息之间的关联关系；对行业门户网站的信息进行处理，得到处理结果；根据信息之间的关联关系将处理结果存储至数据库中。本发明可以有效减少文本校验人员的任务量，为行业文本的校对提供技术支持。

Description

建立数据库的方法和装置

技术领域

本发明涉及数据库领域，具体而言，涉及一种建立数据库的方法和装置。

背景技术

随着网络传媒的快速发展，报纸、新闻等媒介越来越多，信息的传播速度越来越快，人们获得的信息量越来越大，信息量的增大对信息使得校验工作者面临着巨大的考验。尤其在政府行业中，文本校验显得尤其重要，如果文本校验出现了错误会产生严重的影响，例如，在某行政机关的网站上，出现了“市委书记张三”(张三为市长)这样的错误信息。

为了避免出现上述错误，需要校验工作者认真对政府行业文本进行校验，这无疑又增大了文本校验工作者的工作量。而且由于是由人工在进行校验，在工作量比较大的情况下，其准确率很难保证。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种建立数据库的方法和装置，可以有效减少文本校验人员的任务量，为行业文本的校对提供技术支持。

根据本发明实施例的一个方面，提供了一种建立数据库的方法，包括：获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息；根据行业门户网站的信息建立行业人员的信息之间的关联关系；对行业门户网站的信息进行处理，得到处理结果；根据行业人员的信息之间的关联关系将处理结果存储至数据库中。

根据本发明实施例的另一方面，还提供了一种建立数据库的装置，包括：获取模块，用于获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息；建立模块，用于根据行业门户网站的信息建立行业人员的信息之间的关联关系；处理模块，用于对行业门户网站的信息进行处理，得到处理结果；保存模块，用于根据行业人员的信息之间的关联关系将处理结果存储至数据库中。

在本发明实施例中，采用建立智能数据库的方式，通过获取行业门户网站的信息，然后根据行业门户网站的信息建立行业人员的信息之间的关联关系，并对行业门户网站的信息进行处理得到处理结果，最后根据行业人员的信息之间的关联关系将上述处理结果存储至数据库中，达到了可以有效减少文本校验人员的任务量，为行业文本的校对提供技术支持的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种建立数据库的方法流程图；

图2是根据本发明实施例的一种可选的建立数据库的方法流程图；

图3是根据本发明实施例的一种可选的建立数据库的方法流程图；

图4是根据本发明实施例的一种可选的建立数据库的方法流程图；以及

图5是根据本发明实施例的一种建立数据库的装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种建立数据库的方法实施例。

图1是根据本发明实施例的建立数据库的方法流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息。

在上述步骤S102中，上述行业门户网站可以为各个行业的门户网站，包括但不限于政府行业的门户网站，例如，官方职位网站、人民日报以及各省门户网站等权威媒体，通过网页爬取器可以爬取到上述行业门户网站上的行业文本，并得到行业门户网站的信息。其中，上述行业门户网站的信息至少包括该行业文本中行业人员的信息，该行业人员的信息包括如下至少之一：行业人员的姓名、行业人员的职位、行业人员的称谓、行业人员所处的地区名称以及行业人员的职位排序等。

需要说明的是，通过步骤S102可以得到行业门户网站的信息为基础，对各个行业门户网站的信息进行处理，并将处理结果存储到数据库中，可以为行业文本校对提供基础支持。

步骤S104，根据行业门户网站的信息建立行业人员的信息之间的关联关系。

在一种可选的实施例中，在数据库中创建表，该表中存储了行业人员的信息，根据该行业人员的某一个信息可以查询到其他的信息，例如通过政府行业人员张三的名字可以查询到张三的职位(例如，市长)、所处地区的名称(例如，廊坊)以及张三的职位的序号(例如，12)。

通过建立行业人员信息之间的关联关系，可以将行业人员的信息按照上述关联关系存储到数据库中，之后通过行业人员的某个信息便可以查询到其他与该人员有关的信息，从而为文本校验工作者的工作提供了便利。

步骤S106，对行业门户网站的信息进行处理，得到处理结果。

在一种可选的实施例中，由于不同的同一个人员可能有多个职位，而同一个职位可能有多个人员，因此，需要对行业文本中的行业人员信息进行处理。具体的，通过获取行业门户网站的信息，提取出行业门户网站中人员的职务级别，并将行业门户网站中的人员的职务级别进行整合，得到职务级别列表，并对职务级别列表中的职务级别按照由高到低的顺序进行排序，最后将整合后的职务级别列表与行业人员建立对应关系。

通过上述步骤S106对行业门户网站的信息进行处理并得到的处理结果，将处理结果存储到数据库中可以方便文本校验人员对行业文本进行校验，有效减少了文本校验人员的工作量。

步骤S108，根据行业人员的信息之间的关联关系将处理结果存储至数据库中。

在上述步骤S108中，在数据库中根据行业人员的信息之间的关联关系创建数据表，其中，数据表中的字段包含上述行业人员的信息，最后将对行业门户网站的信息进行处理后的处理结果存储到数据表中对应的字段中，便完成了行业数据库的创建。

需要说明的是，通过上述步骤S108可以完成数据库的创建，之后，需要对上述数据库实时进行维护，以避免行业人员与职位不相符的情况出现。

基于上述实施例中步骤S102至步骤S108所公开的方案中，可以获知通过获取行业门户网站的信息，然后根据行业门户网站的信息建立行业人员的信息之间的关联关系，并对行业门户网站的信息进行处理得到处理结果，最后根据行业人员的信息之间的关联关系将上述处理结果存储至数据库中，容易注意到的是，由于是在对行业人员的信息进行处理之后才存储到数据库中，因此文本校验人员可以快速查询到行业人员的相关信息并对待校验的文本进行校验，进而达到了可以有效减少文本校验人员的任务量，为行业文本的校对提供技术支持的技术效果。

可选的，图2示出了一种可选的建立数据库的方法流程图，如图2所示，该方法包括如下步骤：

步骤S202，根据行业门户网站的信息得到行业人员的职位级别表；

步骤S204，从职位级别表中提取出行业人员的姓名与行业人员的职位之间的对应关系；

步骤S206，根据对应关系提取数据库的数据项。

在一种可选的实施例中，在行业门户网站上可以获得行业人员的职位级别，根据行业人员的职位级别建立行业人员的职位级别表，其中，行业人员职位级别表中包含多个职位级别，不同的职位级别表中可能有相同的职位，对此需要将上述多个职位级别表进行整合，剔除掉其中相同的职位。

需要说明的是，上述职位级别表中的职位是可枚举的，上述职位级别表除包含行业人员的职位信息外，还包含行业人员的姓名等信息。通过建立职位级别表中的职位信息与行业人员的姓名等信息之间的对应关系，然后根据上述对应关系，提出取数据库的数据项。

可选的，图3示出了一种可选的建立数据库的方法流程图，如图3所示，该方法包括如下步骤：

步骤S302，提取至少一个行业文本中包含预定词语的句子，其中，预定词语至少包括：行业人员的姓名以及行业人员的机构；

步骤S304，对句子中的行业人员的姓名以及行业人员的机构进行词性分析，得到分析结果；

步骤S306，在分析结果与对应关系相匹配的情况下，提取行业人员的姓名以及行业人员的职位之间的关联关系，其中，关联关系为数据库的数据项。

在一种可选的实施例中，通过自然语言分析方法提取出在至少一个行业文本中包含机构名和行业人员姓名的句子，对该行业文本中的机构名以及行业人员的姓名进行词性分析，如果上述机构名或行业人员的姓名在句子中做主语或宾语，并且在该句子中的行业人员的职位属于该行业中的职位(例如，在政府行业中，“市长”为该行业中的职位，但“总经理”不属于政府行业中的职位)，并且该行业人员的姓名与该行业人员的职位满足行业人员的姓名与行业人员的职位之间的对应关系，则提取出该对应关系，其中，上述对应关系中的元素(例如，行业人员的姓名、行业人员的职位等信息)即为数据库的数据项。

在另一种可选的实施例中，在上述行业门户网站为政府行业门户网站的情况下，可以查找政府行业门户网站中的人事信息专栏，并提取人事信息专栏中的政府行业人员的姓名以及职位，进而确定政府行业人员的姓名及与其对应的职位之间的关联关系，最后根据上述关联关系确定数据库的数据项。

需要说明的是，上述通过自然语言分析方法得到数据项的方法与通过查询行业门户网站的人事信息专栏进而得到数据项的方法可以采用其中的一种，也可以同时使用。其中，在同时使用上述两种方法的情况下，不限制两种方法的使用顺序。

可选的，图4示出了一种可选的建立数据库的方法流程图，如图4所示，该方法还包括如下步骤：

步骤S402，根据数据项对行业人员的姓名以及行业人员所处的地区名称进行聚合处理，得到聚合结果；

步骤S404，根据聚合结果对行业人员的职位的数量进行排序，得到处理结果；

步骤S406，根据行业人员的信息之间的关联关系将处理结果存储至数据库中。

在一种可选的实施例中，根据数据库的数据项对每一个行业人员的姓名、该行业人员所处地区的名称、行业人员的职位以及该行业文本发布的时间进行聚合处理，例如，表1示出了对政府人员张三的信息进行聚合处理后的结果，如表1所示。

表1

由表1可知，张三在2012年4月至2016年11月期间，在A1、A2和A3三个地区任职，并且在不同的地区以及不同的时间段内所任的职位有所不同。

在对张三的相关信息进行聚合处理后，对张三在所任的不同职位进行统计，由表1可知，张三任B1职位3次，任B2职位2次，任B3职位1次，任B4职位1次，对上述任职次数进行由高到低的排序：B1、B2、B3、B4，并将排序之后的结果存储到数据库相应的字段中。至此，便完成了对政府人员数据库的建立。

需要说明的是，在建立完上述数据库之后，还需要对数据库中的相关数据进行再次整理，可以通过Wiki等网站对数据进行整理，并检测该数据库中是否存在同一个行业人员存在前后供职的问题(例如，张三之前在省里工作，之后到地方工作)，如果存在上述问题，在校验数据库中所存储的张三的信息是否正确，如果不正确，则修改数据库。

还需要说明的是，为了保证数据库数据的准确性，在完成上述对数据库数据的整理工作之后，还需要人工再次对数据库中的数据的准确性进行核对。

实施例2

根据本发明实施例，提供了一种建立数据库的装置实施例，其中，上述实施例1中的方法可以在本实施例中所提供的装置中运行。

图5是根据本发明实施例的建立数据库的装置结构示意图，如图5所示，该装置包括：获取模块501、建立模块503、处理模块505以及保存模块507。

获取模块501，用于获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息。

在上述获取模块501中，上述行业门户网站可以为各个行业的门户网站，包括但不限于政府行业的门户网站，例如，官方职位网站、人民日报以及各省门户网站等权威媒体，通过网页爬取器可以爬取到上述行业门户网站上的行业文本，并得到行业门户网站的信息。其中，上述行业门户网站的信息至少包括该行业文本中行业人员的信息，该行业人员的信息包括如下至少之一：行业人员的姓名、行业人员的职位、行业人员的称谓、行业人员所处的地区名称以及行业人员的职位排序等。

需要说明的是，通过获取模块501可以得到行业门户网站的信息为基础，对各个行业门户网站的信息进行处理，并将处理结果存储到数据库中，可以为行业文本校对提供基础支持。

建立模块503，用于根据行业门户网站的信息建立行业人员的信息之间的关联关系。

处理模块505，用于对行业门户网站的信息进行处理，得到处理结果。

通过上述处理模块505对行业门户网站的信息进行处理并得到的处理结果，将处理结果存储到数据库中可以方便文本校验人员对行业文本进行校验，有效减少了文本校验人员的工作量。

保存模块507，用于根据行业人员的信息之间的关联关系将处理结果存储至数据库中。

在上述保存模块507中，在数据库中根据行业人员的信息之间的关联关系创建数据表，其中，数据表中的字段包含上述行业人员的信息，最后将对行业门户网站的信息进行处理后的处理结果存储到数据表中对应的字段中，便完成了行业数据库的创建。

由上可知，通过获取行业门户网站的信息，然后根据行业门户网站的信息建立行业人员的信息之间的关联关系，并对行业门户网站的信息进行处理得到处理结果，最后根据行业人员的信息之间的关联关系将上述处理结果存储至数据库中，容易注意到的是，由于是在对行业人员的信息进行处理之后才存储到数据库中，因此文本校验人员可以快速查询到行业人员的相关信息并对待校验的文本进行校验，进而达到了可以有效减少文本校验人员的任务量，为行业文本的校对提供技术支持的技术效果。

需要说明的是，上述获取模块501、建立模块503、处理模块505以及保存模块507对应于实施例1中的步骤S102至步骤S108，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，处理模块包括：获取子模块、第一提取模块以及第二提取模块。其中，获取子模块用于根据行业门户网站的信息得到行业人员的职位级别表；第一提取模块用于从职位级别表中提取出行业人员的姓名与行业人员的职位之间的对应关系；第二提取模块用于根据对应关系提取数据库的数据项。

需要说明的是，上述获取子模块、第一提取模块以及第二提取模块对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第二提取模块包括：词语提取模块、分析模块以及关系提取模块。其中，词语提取模块用于提取至少一个行业文本中包含预定词语的句子，其中，预定词语至少包括：行业人员的姓名以及行业人员的机构；分析模块用于对句子中的行业人员的姓名以及行业人员的机构进行词性分析，得到分析结果；关系提取模块用于在分析结果与对应关系相匹配的情况下，提取行业人员的姓名以及行业人员的职位之间的关联关系，其中，关联关系为数据库的数据项。

需要说明的是，上述词语提取模块、分析模块以及关系提取模块对应于实施例1中的步骤S302至步骤S306，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，处理模块还包括：聚合模块、排序模块以及存储模块。其中，聚合模块用于根据数据项对行业人员的姓名以及行业人员所处的地区名称进行聚合处理，得到聚合结果；排序模块用于根据聚合结果对行业人员的职位的数量进行排序，得到处理结果；存储模块用于根据信息之间的关联关系将处理结果存储至数据库中。

需要说明的是，上述聚合模块、排序模块以及存储模块对应于实施例1中的步骤S402至步骤S406，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

上述建立数据库的装置包括处理器和存储器，上述获取模块、建立模块、处理模块、保存模块、获取子模块、第一提取模块、第二提取模块、词语提取模块、分析模块、关系提取模块、聚合模块、排序模块以及存储模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数解析文本内容。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取行业门户网站的信息，其中，行业门户网站包括至少一个行业文本，行业门户网站的信息至少包括至少一个行业文本中行业人员的信息；根据行业门户网站的信息建立信息之间的关联关系；对行业门户网站的信息进行处理，得到处理结果；根据信息之间的关联关系将处理结果存储至数据库中。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种建立数据库的方法，其特征在于，包括：

获取行业门户网站的信息，其中，所述行业门户网站包括至少一个行业文本，所述行业门户网站的信息至少包括所述至少一个行业文本中行业人员的信息；

根据所述行业门户网站的信息建立所述行业人员的信息之间的关联关系；

对所述行业门户网站的信息进行处理，得到处理结果；

根据所述行业人员的信息之间的关联关系将所述处理结果存储至数据库中；

对所述行业门户网站的信息进行处理包括：根据所述行业门户网站的信息得到所述行业人员的职位级别表；从所述职位级别表中提取出所述行业人员的姓名与所述行业人员的职位之间的对应关系；根据所述对应关系提取所述数据库的数据项；

根据所述对应关系提取所述数据库的数据项包括：提取所述至少一个行业文本中包含预定词语的句子，其中，所述预定词语至少包括：所述行业人员的姓名以及所述行业人员的机构；对所述句子中的行业人员的姓名以及所述行业人员的机构进行词性分析，得到分析结果；在所述分析结果与所述对应关系相匹配的情况下，提取所述行业人员的姓名以及所述行业人员的职位之间的关联关系，其中，所述关联关系为所述数据库的数据项。

2.根据权利要求1所述的方法，其特征在于，所述行业人员的信息包括如下至少之一：所述行业人员的姓名、所述行业人员的职位、所述行业人员的称谓、所述行业人员所处的地区名称以及所述行业人员的职位排序。

3.根据权利要求1所述的方法，其特征在于，在根据所述对应关系提取所述数据库的数据项之后，所述方法还包括：

根据所述数据项对所述行业人员的姓名以及所述行业人员所处的地区名称进行聚合处理，得到聚合结果；

根据所述聚合结果对所述行业人员的职位的数量进行排序，得到所述处理结果；

根据所述行业人员的信息之间的关联关系将所述处理结果存储至所述数据库中。

4.一种建立数据库的装置，其特征在于，包括：

获取模块，用于获取行业门户网站的信息，其中，所述行业门户网站包括至少一个行业文本，所述行业门户网站的信息至少包括所述至少一个行业文本中行业人员的信息；

建立模块，用于根据所述行业门户网站的信息建立所述行业人员的信息之间的关联关系；

处理模块，用于对所述行业门户网站的信息进行处理，得到处理结果；

保存模块，用于根据所述行业人员的信息之间的关联关系将所述处理结果存储至数据库中；

所述处理模块包括：获取子模块，用于根据所述行业门户网站的信息得到所述行业人员的职位级别表；第一提取模块，用于从所述职位级别表中提取出所述行业人员的姓名与所述行业人员的职位之间的对应关系；第二提取模块，用于根据所述对应关系提取所述数据库的数据项；

所述第二提取模块包括：词语提取模块，用于提取所述至少一个行业文本中包含预定词语的句子，其中，所述预定词语至少包括：所述行业人员的姓名以及所述行业人员的机构；分析模块，用于对所述句子中的行业人员的姓名以及所述行业人员的机构进行词性分析，得到分析结果；关系提取模块，用于在所述分析结果与所述对应关系相匹配的情况下，提取所述行业人员的姓名以及所述行业人员的职位之间的关联关系，其中，所述关联关系为所述数据库的数据项。

5.根据权利要求4所述的装置，其特征在于，所述行业人员的信息包括如下至少之一：所述行业人员的姓名、所述行业人员的职位、所述行业人员的称谓、所述行业人员所处的地区名称以及所述行业人员的职位排序。

6.根据权利要求4所述的装置，其特征在于，所述处理模块还包括：

聚合模块，用于根据所述数据项对所述行业人员的姓名以及所述行业人员所处的地区名称进行聚合处理，得到聚合结果；

排序模块，用于根据所述聚合结果对所述行业人员的职位的数量进行排序，得到所述处理结果；

存储模块，用于根据所述信息之间的关联关系将所述处理结果存储至所述数据库中。