CN113220863A

CN113220863A - 公司有效简称的提取方法、设备和存储介质

Info

Publication number: CN113220863A
Application number: CN202110764749.3A
Authority: CN
Inventors: 刘帅; 刘斌
Original assignee: Qichacha Technology Co ltd
Current assignee: Qichacha Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-06
Anticipated expiration: 2041-07-07
Also published as: CN113220863B

Abstract

本发明揭示了一种公司有效简称的提取方法、设备和存储介质，所述方法包括：使用预先训练好的实体识别模型，对待处理公司的公司全称进行实体识别，得到多个不同类型的有效实体；根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称；根据搜索引擎的搜索日志，剔除所述待处理公司的公司简称中不符合预设条件的公司简称，得到所述待处理公司的有效简称。与现有技术相比，本发明的公司有效简称的提取方法，通过事先训练好的实体识别模型和预设提取规则，可以高效的将各公司的候选简称提取出来，然后通过搜索引擎的搜索日志，剔除候选简称中的无效简称，准确地提取各公司的有效简称。

Description

公司有效简称的提取方法、设备和存储介质

技术领域

本发明涉及计算机领域，特别涉及一种公司有效简称的提取方法、设备和存储介质。

背景技术

在一个用于检索公司信息的垂直搜索引擎中，大部分用户通常会使用公司全称或者公司简称作为搜索词进行检索。若搜索词为公司全称或者连续简称（即所述简称为公司全称的连续部分），那么搜索引擎可以轻松的检索出相应的公司信息。例如使用搜索词为中国工商银行股份有限公司或者工商银行，可以轻松、准确的检索出相应的公司信息。

但是，若搜索词为非连续简称（例如中国工商银行的简称“工行”），那么搜索引擎可能无法检索出相应的公司信息。这是因为搜索引擎存储的公司信息中，并没有存储这类非连续简称。所以，虽然这类非连续简称是用户经常使用的有效简称，但是用户无法使用这些有效简称检索出相应的公司信息，这会极大降低用户体验的满意度。因此，需要对各公司的有效简称进行提取，并将这些有效简称存储到搜索引擎对应的公司的数据库中。

但是，由于公司的数量是百万级别的，而有效简称更加千变万化，因此，如何能够高效、准确地对公司的有效简称进行提取，是我们目前需要解决的问题。

发明内容

本发明的目的在于提供一种公司有效简称的提取方法、设备和存储介质。

为实现上述发明目的之一，本发明一实施方式提供一种公司有效简称的提取方法，所述方法包括：

使用预先训练好的实体识别模型，对待处理公司的公司全称进行实体识别，得到多个不同类型的有效实体，其中，所述有效实体的类型包括地区、商号和行业；

根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称；

根据搜索引擎的搜索日志，剔除所述待处理公司的公司简称中不符合预设条件的公司简称，得到所述待处理公司的有效简称。

作为本发明一实施方式的进一步改进，所述方法还包括：

根据搜索引擎的搜索日志，提取不同公司的有效简称，根据所述有效简称，反向推导出所述预设提取规则。

作为本发明一实施方式的进一步改进，所述“根据所述有效简称，反向推导出所述预设提取规则”包括：

根据所述有效简称对应公司的行业，反向推导出不同行业的有效简称的预设提取规则。

作为本发明一实施方式的进一步改进，所述“根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称”包括：

根据所述有效实体结合所述待处理公司的行业，使用对应行业的预设提取规则从所述有效实体中提取所述待处理公司的公司简称。

根据所述有效实体的实体名称和实体类型数量，提取不同类型的有效实体的名称、所述名称的首字或者尾字，按照实体类型顺序进行组合，得到所述待处理公司的公司简称，其中，所述实体类型顺序为将所述地区、商号、行业按照前后顺序进行排列。

作为本发明一实施方式的进一步改进，所述“不符合预设条件的公司简称”是指：

在预定时间段内，在所述搜索引擎的搜索日志出现的次数少于设定阈值的公司简称。

作为本发明一实施方式的进一步改进，所述方法还包括：

根据不同的实体类型，对多个公司的公司全称进行标注，得到公司名称语料库；

根据所述公司名称语料库，训练所述实体识别模型。

作为本发明一实施方式的进一步改进，所述方法还包括：

将所述待处理公司的有效简称作为所述待处理公司的别名，存入所述搜索引擎的对应公司的数据库中。

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述公司有效简称的提取方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任意一项所述公司有效简称的提取方法中的步骤。

与现有技术相比，本发明的公司有效简称的提取方法，通过事先训练好的实体识别模型和预设提取规则，可以高效的将各公司的候选简称提取出来，然后通过搜索引擎的搜索日志，剔除候选简称中的无效简称，准确地提取各公司的有效简称。然后将不同公司对应的有效简称加入到数据库的对应的公司信息中，让用户可以准确、高效的通过公司简称检索到相应的公司信息，提高用户在体验时的满意度。

附图说明

图1是本发明的公司有效简称的提取方法的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本发明提供一种公司有效简称的提取方法，通过所述方法能够高效、且准确的将各公司的有效简称提取出来。然后将不同公司对应的有效简称加入到数据库的对应的公司信息中，让用户可以准确、高效的通过公司简称检索到相应的公司信息，提高用户在体验时的满意度。

如图1所示，所述方法包括步骤S100~步骤S300。

步骤S100：使用预先训练好的实体识别模型，对待处理公司的公司全称进行实体识别，得到多个不同类型的有效实体，其中，所述有效实体类型包括地区、商号和行业。

实体是客观存在并可相互区别的事物，就数据库而言，实体往往指某种类型的事物，并把每一类型的数据对象的个体称为实体。一个公司的公司全称可以划分成不同类型的实体，所述实体类型包括但不限于：地区、地区级别、商号、行业、组织形式等。例如，东莞市宏庆电子科技有限公司可以划分这些实体：东莞（地区）、市（地区级别）、宏庆（商号）、电子科技（行业）和有限公司（组织形式）。在上述实体类型中，对公司简称具有贡献作用的实体类型称为有效实体类型，所述有效实体类型对应的实体称为有效实体。其中，所述有效实体类型包括地区、商号和行业。

本步骤使用预先训练好的实体识别模型，对待处理公司的公司全称进行实体识别，得到多个不同类型的有效实体。例如，使用实体识别模型对中国工商银行股份有限公司进行实体识别，可以得到这三个类型的有效实体：中国（地区）、工商（商号）和银行（行业）。

需要说明的是，所述实体识别模型是预先训练好的，训练的方法包括：

根据不同的实体类型，对多个公司的公司全称进行标注，得到公司名称语料库；根据所述公司名称语料库，训练所述实体识别模型。

可以通过人工标注的方法对部分公司全称进行标注，然后对已经标注好的公司全称进行机器学习得到标注模型，使用所述标注模型自动对其它公司全称进行标注，最终得到公司名称语料库。然后根据所述语料库，通过机器学习训练成可以用于命名实体识别的模型，即所述实体识别模型。

步骤S200：根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称。

所述预设提取规则包括多种，可以根据有效实体的数量，针对不同数量的有效实体制定对应的预设提取规则。也可以根据搜索日志中出现的有效简称，反推到所述预设提取规则。因此，在一具体的实施方式中，所述方法还包括：

由于搜索日志中记录了用户在实际的操作过程中输入的有效简称，因此，可以对这些有效简称进行搜集，并根据这些有效简称，反向推导出从公司全称中提取有效简称的提取规则，即所述预设提取规则。

在实际的反推过程中发现，对于一些行业的公司来说，相同行业的公司的提取规则大致相同，例如，对于银行来说，中国工商银行股份有限公司的有效简称包括“工行”，中国农业银行股份有限公司的有效简称包括“农行”，等等，所以反推行业为银行的公司的提取规则为：商号的首字+行业的尾字。因此，进一步的，根据所述有效简称，反向推导出所述预设提取规则，包括：

与上述反推过程相对应的，在一优选的实施方式中，所述“根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称”包括：

需要说明的是，对于另外一些行业的公司来说，公司有效简称的提取规则与行业并无必然的联系，因此，可以根据有效实体的数量，针对不同数量的有效实体制定对应的预设提取规则。在另一优选的实施方式中，所述“根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称”包括：

根据所述有效实体的实体名称和实体类型数量，提取不同类型的有效实体的名称、所述名称的首字或者尾字，按照实体类型顺序进行组合，得到所述待处理公司的公司简称，其中，所述实体类型顺序为将所述地区、商号、行业按照前后顺序进行排列。需要说明的是，不是每个公司的有效实体类型都包括有这三个实体类型，对于不存在的实体类型，可以直接省略。

假设从一公司的公司全称中提取的有效实体为AB（地区）和CD（行业），那么提取地区的首字A和行业的尾字D，然后根据地区->商号->行业的顺序进行组合，得到这个公司的公司简称为“AD”。

在一具体的实施方式中，若所述有效实体只有两种实体类型，则按照实体类型顺序提取第一个有效实体的首字母，分别与第二个有效实体的首字母和尾字母进行组合，得到两个所述待处理公司的公司简称。

例如，对于公司全称为EFGH股份有限公司（其中EF为地区，GH为商号）的公司，对其进行简称提取，得到“EG”和“EH”这两个公司简称。

在另一具体的实施方式中，若所述有效实体只有三种实体类型，则根据以下预设提取规则1~3分别从所述有效实体中提取所述待处理公司的公司简称：

所述预设提取规则1为提取所述有效实体的首字母，按照实体类型顺序进行组合；

所述预设提取规则2为将实体类型为地区和商号的有效实体的名称进行组合；

所述预设提取规则3为分别提取实体类型为商号和行业的有效实体的名称的首字和尾字，按照实体类型顺序进行组合。

例如，对于公司全称为AB市CDEF股份有限公司（其中AB为地区，CD为商号，EF为行业）的公司，按照预设提取规则1~3分别对其进行简称提取，得到“ACE”、“ABCD”、“CF”这三个公司简称。

步骤S300：根据搜索引擎的搜索日志，剔除所述待处理公司的公司简称中不符合预设条件的公司简称，得到所述待处理公司的有效简称。

步骤S200提取到的待处理公司的公司简称，只是待处理公司的候选简称，这些简称可能是有效的，也可能是无效的，因此，需要根据搜索引擎的搜索日志，剔除掉无效的候选简称，而剩下的候选简称即是待处理公司的有效简称。

在实际的操作中，可以根据候选简称出现在搜索日志的频率，对候选简称进行筛选，即候选简称在搜索日志中出现的频率小于预设频率，则判定所述候选简称为无效简称，需要将其剔除。或者，根据候选简称在预定时间段内出现在搜索日志中的次数对候选简称进行筛选，即候选简称在预定时间段内出现在搜索日志中的次数少于设定阈值，则判定所述候选简称为无效简称，需要将其剔除。

因此，在一优选的实施方式中，所述“不符合预设条件的公司简称”是指：

本发明的公司有效简称的提取方法，通过事先训练好的实体识别模型和预设提取规则，可以高效的将各公司的候选简称提取出来，然后通过搜索引擎的搜索日志，剔除候选简称中的无效简称，准确的获取各公司的有效简称。

在提取到待处理公司的有效简称后，可以将所述有效简称加入到搜索引擎的数据库的对应公司信息中，让用户可以准确、高效的通过公司简称检索到相应的公司信息，提高用户在体验时的满意度。在一具体实施方式中，所述方法还包括：

将所述待处理公司的有效简称作为别名，存入所述搜索引擎的对应公司的数据库中。

在一具体实施方式中，采用以BiLSTM模型为基础的实体识别技术（即已经训练好的标注模型）对各公司的公司全称进行实体标注，得到公司名称语料库；然后使用Jiagu深度学习自然语言处理工具，根据所述公司名称语料库，训练实体识别模型；根据所述实体识别模型，对各公司的公司全称的有效实体进行识别，并根据预设提取规则从所述有效实体中提取各公司的候选简称；基于搜索日志，剔除所述在搜索日志中出现的频率少于预设频率的候选简称，剩下的候选简称即对应公司的有效简称；最后，将各公司的有效简称作为别名，存入所述搜索引擎的对应公司的数据库中。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述公司有效简称的提取方法中的任意一个步骤，也就是说，实现上述公司有效简称的提取方法中任意一个技术方案中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述公司有效简称的提取方法中的任意一个步骤，也就是说，实现上述公司有效简称的提取方法中的任意一个技术方案中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种公司有效简称的提取方法，其特征在于，所述方法包括：

根据搜索引擎的搜索日志，剔除所述待处理公司的公司简称中不符合预设条件的公司简称，得到所述待处理公司的有效简称；

其中，所述实体识别模型的训练方法包括：

采用以BiLSTM模型为基础的标注模型对各公司的公司全称进行实体标注，得到公司名称语料库；

使用Jiagu深度学习自然语言处理工具，根据所述公司名称语料库，训练所述实体识别模型；

所述“根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称”包括：

2.根据权利要求1所述公司有效简称的提取方法，其特征在于，所述方法还包括：

3.根据权利要求2所述公司有效简称的提取方法，其特征在于，所述“根据所述有效简称，反向推导出所述预设提取规则”包括：

4.根据权利要求1所述公司有效简称的提取方法，其特征在于，所述“根据所述有效实体，使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称”包括：

5.根据权利要求1所述公司有效简称的提取方法，其特征在于，所述“不符合预设条件的公司简称”是指：

6.根据权利要求1所述公司有效简称的提取方法，其特征在于，所述方法还包括：

根据所述公司名称语料库，训练所述实体识别模型。

7.根据权利要求1所述公司有效简称的提取方法，其特征在于，所述方法还包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任意一项所述公司有效简称的提取方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述公司有效简称的提取方法中的步骤。