CN113761161A

CN113761161A - 文本关键词提取方法、装置、计算机设备和存储介质

Info

Publication number: CN113761161A
Application number: CN202110915565.2A
Authority: CN
Inventors: 王锦胤; 聂玉江
Original assignee: Zijincheng Credit Investigation Co ltd
Current assignee: Zijincheng Credit Investigation Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-07

Abstract

本申请公开了一种文本关键词提取方法、装置、计算机设备设备和存储介质。一种文本关键词提取方法，包括：获取待处理文本数据；根据分词库以及预设领域字典对所述待处理文本数据进行分词，得到第一分词；对所述第一分词进行词性过滤处理，得到包括名词和动词的第二分词；对所述第二分词进行去重处理，得到所述待处理文本数据对应的文本关键词；将所述文本关键词同步至搜索引擎中。本申请的方法能够在文本数据量较大且服务器资源有限时，准确提取文本关键词。

Description

文本关键词提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种文本关键词提取方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，使得现阶段的文本数据呈现爆炸式增长，关键词提取作为文本挖掘中一项重要的技术，是文本搜索、文本分类以及推荐系统等的基础性和必要性的工作。文本关键词浓缩了整个文本的主旨和要义，是对一篇文本的高度概括。通过从一篇文本中提取具有概括功能的词或短语，可以帮助用户快速检索到用户所需要的信息以及快速的判定文本的需要性，并有效的解决了信息过载的问题。传统的文本关键词提取方法，是基于elasticsearch的text数据类型，通过ik分词器进行分词，实现关键词提取。

然而当文本数据量较大且服务器资源有限时，通过ik分词器无法准确提取文本关键词。

发明内容

本申请的主要目的在于提供一种能够在文本数据量较大且服务器资源有限时，准确提取文本关键词的文本关键词提取方法、装置、计算机设备和存储介质，以解决上述问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本关键词提取方法，包括：

获取待处理文本数据；

根据分词库以及预设领域字典对所述待处理文本数据进行分词，得到第一分词；

对所述第一分词进行词性过滤处理，得到包括名词和动词的第二分词；

对所述第二分词进行去重处理，得到所述待处理文本数据对应的文本关键词；

将所述文本关键词同步至搜索引擎中。

在其中一个实施例中，所述获取待处理文本数据，包括：

确定目标数据表；

通过Spark SQL执行Hive语句，读取所述目标数据表，将所述目标数据表确定为所述待处理文本数据。

在其中一个实施例中，在所述获取待处理文本数据之前，所述方法还包括：

获取预设领域的文本数据；

计算所述预设领域的文本数据中各领域词语的频率；

选取频率大于阈值的领域词语，构建预设领域字典。

在其中一个实施例中，在所述对所述第二分词进行去重处理之前，所述方法还包括：

将所述第二分词存储至hive临时表中，对所述hive临时表中的分词进行汇总；

所述对所述第二分词进行去重处理包括：

将汇总后的分词进行去重处理。

在其中一个实施例中，所述待处理文本数据为企业信息表，所述企业信息表包括企业基本信息主表、软著信息、专利信息、商标信息、第三方采购中标公告、上市公司采购中标公告、央企采购招标公告、政府采购中标公告、行政许可主表、行政许可工商局主表、资质证书信息、企业简介。

在其中一个实施例中，所述方法还包括：

通过所述搜索引擎获取用户输入的查询词；

通过所述搜索引擎将所述查询词与所述文本关键词进行匹配，确定与所述查询词匹配的文本关键词；

根据与所述查询词匹配的文本关键词获取相应的目标文本数据。

为了实现上述目的，根据本申请的第二方面，提供了一种文本关键词提取装置；该装置包括：

通信模块，用于获取待处理文本数据；

分词模块，用于根据分词库以及预设领域字典对所述待处理文本数据进行分词，得到第一分词；

过滤模块，用于对所述第一分词进行词性过滤处理，得到包括名词和动词的第二分词；

去重模块，用于对所述第二分词进行去重处理，得到所述待处理文本数据对应的文本关键词；

同步模块，用于将所述文本关键词同步至搜索引擎中。

在其中一个实施例中，所述通信模块还用于确定目标数据表；通过Spark SQL执行Hive语句，读取所述目标数据表，将所述目标数据表确定为所述待处理文本数据。

为了实现上述目的，根据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

根据本申请的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本发明的上述的技术方案，通过中文分词库以及预设领域字典对待处理文本数据进行分词，得到第一分词，能够针对通用领域以及专业领域的文本进行分词，提高了关键词提取的准确性。通过对第一分词进行词性过滤处理以及去重处理，得到待处理文本数据对应的文本关键词，极大减少了关键词的数量。由此可实现在文本数据量较大且服务器资源有限时，提高关键词提取的准确性。将文本关键词同步至搜索引擎中，搜索引擎中包括所有提取到的文本关键词，便于用户在进行文本搜索时，在使用较少服务器资源的前提下，使数据查询更加全面，更加精准，查询响应速度更快。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是一个实施例中文本关键词提取方法的应用环境图；

图2为一个实施例中文本关键词提取方法的流程示意图；

图3为一个实施例中构建预设领域字典步骤的流程示意图；

图4为一个实施例中文本关键词提取装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请提供的文本关键词提取方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104接收终端102发送的文本关键词提取请求，对文本关键词提取请求进行解析，得到请求参数，根据请求参数获取待处理文本数据，根据中文分词库以及预设领域字典对待处理文本数据进行分词，得到第一分词，从而对第一分词进行词性过滤处理，得到包括名词和动词的第二分词，对第二分词进行去重处理，得到待处理文本数据对应的文本关键词，进而将文本关键词同步至搜索引擎中，便于后续进行文本查询。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提出了一种文本关键词提取方法，以该方法应用于图1中的服务器为例进行说明，包括如下步骤：

步骤202，获取待处理文本数据。

待处理文本数据是指需要进行关键词提取的文本数据。待处理文本数据可以包括专业领域的文本数据，也可以包括通用领域的文本数据。具体的，待处理文本数据可以是领域内企业的相关数据。文本数据的格式可以是数据表、文本文件等。

当需要进行文本关键词提取时，终端可以发送文本关键词提取请求至服务器，服务器在获取到文本关键词提取请求后，解析文本关键词请求，得到请求参数。请求参数可以是需要进行文本关键词提取的文本数据，如，请求提取某一专业领域的文本数据，及通用领域的文本数据的关键词。服务器可以根据该请求参数获取对应的待处理文本数据。进一步的，待处理文本数据可以是根据请求参数从数据表中读取的数据。

步骤204，根据分词库以及预设领域字典对待处理文本数据进行分词，得到第一分词。

分词库是指中文分词的第三方库，是一种分词工具，用于对文本数据进行分词。例如，分词库可以是jieba和hanlp。预设领域词典是指通用词典中没有的专业领域词语所构建的词典。例如，预设领域词典可以是自定义词典，用于对专业领域中的文本数据进行分词处理。

分词库中包括通用词典，可以分词库中的通用词典和预设领域词典对待处理文本数据进行分词处理，得到第一分词。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程，在本实施例中，分词是指将待处理文本数据中的各文本语句拆分为多个词语。例如，可以利用jieba和hanlp中的通用词典和预设领域词典对待处理文本数据进行分词处理。

分词库中的通用词典用于识别待处理文本数据中的通用词语，对通用词语进行分词。而预设领域词典则可用于对专业领域中的文本数据进行分词，可分别实现对通用领域和专业领域进行分词，解决了传统方式不支持对某些专业领域的文本数据进行分词，从而导致关键词提取不准确的问题，同时也解决了后续文本查询时的遗漏问题。

步骤206，对第一分词进行词性过滤处理，得到包括名词和动词的第二分词。

第一分词中可以包括多种词性的词语，例如，名词、动词、形容词、副词等。对第一分词进行词性过滤处理，是指将第一分词中的词语按照预设词性过滤策略进行词语过滤，从而将符合预设词性过滤策略的词性过滤掉。在本申请中，预设词性过滤策略可以包括形容词、副词、介词等，将符合该预设词性过滤策略的词语进行过滤，从而得到第一分词中的名词和动词，作为第二分词。

步骤208，对第二分词进行去重处理，得到待处理文本数据对应的文本关键词。

对第二分词进行去重处理是指将第二分词中有内容重叠的词语进行去除。具体的，需要进行去重处理的情况包括：词语完全相同的情况、词语中出现完全包含另一个词语的情况、词语中有两个或两个以上的单词相同的情况、词语之间的相似度超过预设阈值的情况。当存在完全相同的词语时，可以只保留一个词语，将其他的重复词语去除。当词语中出现完全包含另一个词语时，将被包含的词语去除。当词语中有两个或两个以上的单词相同时，可以选取一个词语进行去除。当词语之间的相似度超过预设阈值时，可以选取一个词语进行去除。通过去重处理，得到待处理文本数据对应的文本关键词。

步骤210，将文本关键词同步至搜索引擎中。

在对待处理文本数据进行分词、过滤以及去重操作后，得到待处理文本数据对应的文本关键词。文本关键词用于后续进行文本搜索，可以将文本关键词同步至搜索引擎中，便于用户通过搜索引擎在文本关键中进行匹配搜索，大大提高了文本查询效率和准确性。

在本实施例中，通过中文分词库以及预设领域字典对待处理文本数据进行分词，得到第一分词，能够针对通用领域以及专业领域的文本进行分词，提高了关键词提取的准确性。通过对第一分词进行词性过滤处理以及去重处理，得到待处理文本数据对应的文本关键词，极大减少了关键词的数量。由此可实现在文本数据量较大且服务器资源有限时，提高关键词提取的准确性。将文本关键词同步至搜索引擎中，搜索引擎中包括所有提取到的文本关键词，便于用户在进行文本搜索时，在使用较少服务器资源的前提下，使数据查询更加全面，更加精准，查询响应速度更快。

在一个实施例中，获取待处理文本数据，包括：确定目标数据表；通过Spark SQL执行Hive语句，读取目标数据表，将目标数据表确定为待处理文本数据。

目标数据表是指用户指定的需要进行关键词提取的数据表。目标数据表可以是Hive表。

服务器接收终端发送的文本关键词提取请求，对文本关键词提取请求进行解析，得到请求参数，根据请求参数确定目标数据表。目标数据表可以是Hive表。目标数据表的数量可以为多个。服务器可以通过Spark SQL执行Hive语句，读取目标数据表，实现将目标数据表中的数据读到Spark中，得到待处理文本数据。具体的，通过Spark SQL，加载Hive的配置文件，获取到Hive的元数据信息，根据Hive的元数据信息获取目标数据表中的数据，得到待处理文本数据。Spark是一个实现快速通用的集群计算平台，它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。Spark计算框架能够整合多台计算机的计算能力和内存。Spark计算框架能够将读取到的待处理文本数据加载至内存中进行后续的关键词提取处理。

通过Spark计算框架能够将待处理文本数据一次性加载至内存中进行后续的关键词提取处理，把对磁盘的读写转化为对内存的读写，大的提高了关键词提取速度。

在一个实施例中，如图3所示，在获取待处理文本数据之前，上述方法还包括：构建预设领域字典的步骤，该步骤可以包括：

步骤302，获取预设领域的文本数据。

步骤304，计算预设领域的文本数据中各领域词语的频率。

步骤306，选取频率大于阈值的领域词语，构建预设领域字典。

为了解决传统关键词提取方式中无法提取专业领域词语的问题，本申请预先构建了领域词典，用于识别专业领域的词语，进行专业领域的分词处理。例如，领域词典可以是法律领域词典、医药领域词典、自动化领域词典等。

预设领域的文本数据是指从预设专业领域的文献或相关数据中，搜集的正确的文本数据。预设领域的文本数据中包括多个文本语句，每个文本语句中包括多个领域词语。服务器计算每个文本语句中各领域词语的出现频率。将每个领域词语的出现频率与阈值进行比较，选取出现频率大于阈值的领域词语，构建预设领域词典。例如，阈值可以是15％。

在本实施中，通过将出现频率较高的领域词语用于构建预设领域词典，能够快速识别待处理文本数据中的专业领域词语。

在一种实施方式中，在对第二分词进行去重处理之前，上述方法还包括：将第二分词存储至hive临时表中，对hive临时表中的分词进行汇总，对第二分词进行去重处理包括：将汇总后的分词进行去重处理。

在对第二分词进行去重处理之前，服务器可以将过滤后得到的第二分词存储至hive临时表中，汇总hive临时表中的分词，将相同的分词统计在一起。从而对汇总后的分词进行去重处理。由于汇总后的分析中已经将相同的分词统计在一起，可以直接保留一个词语，去除其他重复的分词。对于其他需要去重的情况，可以参照上述步骤210的具体陈述，此处不再赘述。

通过将第二分词存储至hive临时表中，对hive临时表中的分词进行汇总，能够加快汇总速度，从而有利于提高关键词提取效率。hive临时表只对当前的操作有效，当前操作退出后，hive临时表会自动删除，节约了服务器的存储资源。

在一个实施例中，待处理文本数据为企业信息表，企业信息表包括企业基本信息主表、软著信息、专利信息、商标信息、第三方采购中标公告、上市公司采购中标公告、央企采购招标公告、政府采购中标公告、行政许可主表、行政许可工商局主表、资质证书信息、企业简介。

本申请中的待处理文本数据可以表现为企业信息表，企业基本信息表为某一专业领域企业的基本信息表。企业信息表具体可以包括企业基本信息主表、软著信息、专利信息、商标信息、第三方采购中标公告、上市公司采购中标公告、央企采购招标公告、政府采购中标公告、行政许可主表、行政许可工商局主表、资质证书信息、企业简介等。企业信息主表可以包括企业名称、法定代表人、企业地址、组织架构、主要产品或服务等。企业简介可以是从企业信息主表中提取出的企业关键信息。服务器通过对上述企业信息表进行分词、过滤及去重处理，能够的与企业相关的文本关键词。

在一个实施例中，上述方法还包括：通过搜索引擎获取用户输入的查询词；通过搜索引擎将查询词与文本关键词进行匹配，确定与查询词匹配的文本关键词；根据与查询词匹配的文本关键词获取相应的目标文本数据。

将文本关键词同步至搜索引擎后，搜索引擎可以利用文本关键词进行文本查询。具体的，用户可以通过终端在搜索引擎中输入查询词，搜索引擎从而将查询词与预先存储的文本关键词进行匹配，匹配成功后，将该文本关键词确定为与查询词匹配的文本关键词。由于文本关键词是与对应的文本数据相关联的，在确定与查询词匹配的文本关键词后，可以获取到该文本关键词对应的目标文本数据。

由于搜索引擎中的文本关键词是精简后的关键词，与传统文本关键词提取相比，大大减少了关键词的数量，节约了服务器资源。同时，文本关键词中包括通用领域的关键词以及专业领域的关键词，使得数据查询更加全面，更加精准，查询响应速度也更快。

本申请的第二方面，如图4所示，提供了一种文本关键词提取装置，该装置应用于大数据下的关键词提取、文本查询等，用于提高文本查询效率，该装置包括：通信模块402、分词模块404、过滤模块406、去重模块408和同步模块410，其中：

通信模块402，用于获取待处理文本数据。

分词模块404，用于根据分词库以及预设领域字典对待处理文本数据进行分词，得到第一分词。

过滤模块406，用于对第一分词进行词性过滤处理，得到包括名词和动词的第二分词。

去重模块408，用于对第二分词进行去重处理，得到待处理文本数据对应的文本关键词。

同步模块410，用于将文本关键词同步至搜索引擎中。

在一个实施例中，通信模块402还用于确定目标数据表；通过Spark SQL执行Hive语句，读取目标数据表，将目标数据表确定为待处理文本数据。

在一个实施例中，上述装置还包括：

字典构建模块，用于获取预设领域的文本数据；计算预设领域的文本数据中各领域词语的频率；选取频率大于阈值的领域词语，构建预设领域字典。

在一个实施例中，上述装置还包括：

汇总模块，将第二分词存储至hive临时表中，汇总对hive临时表中的分词进行汇总；

去重模块408还用于将汇总后的分词进行去重处理。

关于文本关键词提取装置的具体限定可以参见上文中对于文本关键词提取方法的限定，在此不再赘述。上述文本关键词提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种文本关键词提取方法的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本关键词提取方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本关键词提取方法，其特征在于，包括：

获取待处理文本数据；

将所述文本关键词同步至搜索引擎中。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理文本数据，包括：

确定目标数据表；

通过SparkSQL执行Hive语句，读取所述目标数据表，将所述目标数据表确定为所述待处理文本数据。

3.根据权利要求1所述的方法，其特征在于，在所述获取待处理文本数据之前，所述方法还包括：

获取预设领域的文本数据；

计算所述预设领域的文本数据中各领域词语的频率；

选取频率大于阈值的领域词语，构建预设领域字典。

4.根据权利要求1所述的方法，其特征在于，在所述对所述第二分词进行去重处理之前，所述方法还包括：

所述对所述第二分词进行去重处理包括：

将汇总后的分词进行去重处理。

5.根据权利要求1所述的方法，其特征在于，所述待处理文本数据为企业信息表，所述企业信息表包括企业基本信息主表、软著信息、专利信息、商标信息、第三方采购中标公告、上市公司采购中标公告、央企采购招标公告、政府采购中标公告、行政许可主表、行政许可工商局主表、资质证书信息、企业简介。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述方法还包括：

通过所述搜索引擎获取用户输入的查询词；

7.一种文本关键词提取装置，其特征在于，所述装置包括：

通信模块，用于获取待处理文本数据；

同步模块，用于将所述文本关键词同步至搜索引擎中。

8.根据权利要求7所述的装置，其特征在于，所述通信模块还用于确定目标数据表；通过SparkSQL执行Hive语句，读取所述目标数据表，将所述目标数据表确定为所述待处理文本数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。