CN117669550B

CN117669550B - 一种基于文本中心的主题挖掘方法、系统、设备及介质

Info

Publication number: CN117669550B
Application number: CN202311507713.2A
Authority: CN
Inventors: 文林; 付俊杰; 施冰; 胡鹏迪; 周迁荣; 梁明坚; 邓勇; 陈俊辉; 李振文; 张露
Original assignee: Dongfeng Nissan Data Services Co Ltd
Current assignee: Dongfeng Nissan Data Services Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-04-30
Anticipated expiration: 2043-11-13
Also published as: CN117669550A

Abstract

本发明公开了一种基于文本中心的主题挖掘方法、系统、设备及介质。该方法通过获取待识别的目标文本，以及预设的比对文本和通用文本；对目标文本和比对文本进行分词处理，得到第一分词结果和第二分词结果；根据第二分词结果，对第一分词结果进行关键词提取处理，得到第一关键信息表；根据第一关键信息表中的关键词字段，对通用文本进行词频统计处理，得到临时词频统计表；根据临时词频统计表，对第一关键信息表进行中心处理，得到中心词表；根据中心词表，对目标文本进行主题挖掘处理，得到目标文本的文本主题。该法可以有效提高文本主题挖掘的全面性和准确度，有效节约梳理输入数据的时间，减少工作量。本发明涉及自然语言处理技术领域。

Description

一种基于文本中心的主题挖掘方法、系统、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其是基于文本中心的主题挖掘方法、系统、设备及介质。

背景技术

近年来，随着社会的日益发展，文本数据的数据量愈发庞大，人们对文本数据的主题挖掘的关注度越来越高。

目前，传统的文本主题挖掘方式需要预先建立较为完备的主题和主题的相关词库，输出结果严重依赖前期输入数据的完整性和准确性，但该种方式并不能全面挖掘文本中的信息，主题挖掘的全面性和准确度偏低，同时，技术人员在梳理前期输入数据所需的时间较多，工作量较大。

因此，现有技术存在的问题还亟需解决和优化。

发明内容

本发明的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

为此，本发明实施例的第一个目的在于提供一种基于文本中心的主题挖掘方法，该方法可以有效提高文本主题挖掘的全面性和准确度，有效节约梳理输入数据的时间，减少工作量。

本申请实施例的第二个目的在于提供一种基于文本中心的主题挖掘系统。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

第一方面，本申请实施例提供了一种基于文本中心的主题挖掘方法，包括：

获取待识别的目标文本，以及预设的比对文本和通用文本，所述目标文本包括多个目标词语，所述比对文本包括多个比对词语；

对所述目标文本进行第一分词处理，得到第一分词结果，以及对所述比对文本进行第二分词处理，得到第二分词结果；

根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，所述临时词频统计表包括临时词字段和临时词词频字段，所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词，以及与所述目标临时词相邻的临近临时词，所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频；

根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表；

根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题。

另外，根据本申请上述实施例的基于文本中心的主题挖掘方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，包括：

根据预设的第一比例阈值，对所述第一分词结果进行第一统计筛选处理，得到第一词频序列；

对所述第二分词结果进行第二词频统计处理，得到第二词频序列；

根据所述第一词频序列和第二词频序列，得到所述目标比例，以及，根据所述目标文本的文本数和所述比对文本的文本数，得到所述文本比例；

根据所述目标比例和所述文本比例，对所述第一分词结果进行筛选处理，得到所述第一关键信息表。

进一步地，在本申请的一个实施例中，所述根据所述目标比例和所述文本比例，对所述第一分词结果进行筛选处理，得到所述第一关键信息表这一步骤之后，还包括：

获取预设的白名单，所述白名单用于记录数字类型的词语和字母类型的词语；

根据所述白名单，对所述第一关键信息表进行剔除处理，得到剔除后的第一关键信息表。

进一步地，在本申请的一个实施例中，所述根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，包括：

获取第一相邻阈值；

根据所述第一相邻阈值和所述第一关键信息表中的关键词字段，得到临时词字段；

对所述临时词字段进行筛选统计处理，得到所述临时词频统计表。

进一步地，在本申请的一个实施例中，所述第一关键信息表还包括关键词词频字段，所述关键词词频字段为所述目标词语出现在所述目标文本或者所述比对文本中的词频，所述根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表，包括：

根据所述关键词词频字段和所述关键词字段，确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频，以及，根据所述当前目标词语、所述临时词字段和所述临时词词频字段，确定与所述当前目标词语对应的第一临时词，以及所述第一临时词的第一临时词词频；

根据所述第一临时词词频比例和所述第一关键词词频之间的比值，对所述文本比例进行比较处理，得到比较结果；

若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值大于所述文本比例，则将所述第一临时词作为所述当前目标词语的中心词，以及将所述当前目标词语作为所述中心词的相关词，或者，若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值小于等于所述文本比例，则将所述当前目标词语作为中心词；

返回根据所述关键词词频字段和所述关键词字段，确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频，以及，根据所述当前目标词语、所述临时词字段和所述临时词词频字段，确定与所述当前目标词语对应的第一临时词，以及所述第一临时词的第一临时词词频这一步骤，直至确定出所有与所述关键词字段中的目标词语对应的中心词；

根据所述中心词和所述相关词，生成所述中心词表。

进一步地，在本申请的一个实施例中，所述根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题，包括：

根据所述中心词表的中心词和相关词，对所述目标文本进行清洗重排处理，得到清洗词组，所述清洗词组包括多个清洗短句，每个所述清洗短句中的清洗词语以所述中心词为中心，根据所述清洗词语在所述目标文本的词序排列；

对所述清洗词组中的各个清洗短句进行局部主题挖掘处理，得到各个所述清洗短句的短句主题；

对所有所述短句主题进行整体主题挖掘处理，得到所述目标文本的文本主题。

进一步地，在本申请的一个实施例中，所述基于文本中心的主题挖掘方法，还包括：

对所述中心词表中的相关词进行同义词合并处理，得到合并后的中心词表；

对所述合并后的中心词表进行正则化处理，得到与所述合并后的中心词表对应正则表达式；

根据所述正则表达式对所述目标文本进行正则匹配处理，得到所述目标文本的正则匹配结果。

第二方面，本申请实施例提供了一种基于文本中心的主题挖掘系统，包括：

获取模块，用于获取待识别的目标文本，以及预设的比对文本和通用文本，所述目标文本包括多个目标词语，所述比对文本包括多个比对词语；

分词模块，用于对所述目标文本进行第一分词处理，得到第一分词结果，以及对所述比对文本进行第二分词处理，得到第二分词结果；

提取模块，用于根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

统计模块，用于根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，所述临时词频统计表包括临时词字段和临时词词频字段，所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词，以及与所述目标临时词相邻的临近临时词，所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频；

中心模块，用于根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表；

挖掘模块，用于根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题。

第三方面，本申请实施例还提供了一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现上述方面所述的方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例所公开的一种基于文本中心的主题挖掘方法、系统、设备及介质，其中，该主题挖掘方法通过获取待识别的目标文本，以及预设的比对文本和通用文本，所述目标文本包括多个目标词语，所述比对文本包括多个比对词语；对所述目标文本进行第一分词处理，得到第一分词结果，以及对所述比对文本进行第二分词处理，得到第二分词结果；根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，所述临时词频统计表包括临时词字段和临时词词频字段，所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词，以及与所述目标临时词相邻的临近临时词，所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频；根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表；根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题。该主题挖掘方法可以有效提高文本主题挖掘的全面性和准确度，有效节约梳理输入数据的时间，减少工作量。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表达本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例提供的一种基于文本中心的主题挖掘方法的流程示意图；

图2为本申请实施例提供的一种基于文本中心的主题挖掘系统的结构示意图；

图3为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

有鉴于此，本发明实施例提供一种基于文本中心的主题挖掘方法，该主题挖掘方法可以有效提高文本主题挖掘的全面性和准确度，有效节约梳理输入数据的时间，减少工作量。

参照图1，本申请实施例中，一种基于文本中心的主题挖掘方法，包括：

步骤110、获取待识别的目标文本，以及预设的比对文本和通用文本，所述目标文本包括多个目标词语，所述比对文本包括多个比对词语；

步骤120、对所述目标文本进行第一分词处理，得到第一分词结果，以及对所述比对文本进行第二分词处理，得到第二分词结果；

在本申请实施例中，目标文本为要进行主题分析挖掘的文本，目标文本包括多个目标词语；比对文本也为与目标文本进行比对的文本，其包括多个比对词语，在比对文本的梳理整合中，其文本的比对词语数量可以较为简略，通过循环本申请实施例介绍的主题挖掘方法得到的中心词表，来对比对文本的丰富，可以减少数据梳理的工作量。通用文本可以包括多个临时词，通用文本的数据来源可以是来自业务数据库中的业务数据，示例性地，对于汽车业务的应用场景中，业务数据可以是汽车的销售数据、用户使用及评价数据、汽车型号及性能数据等，也可以是业务数据库在互联网论坛、手机app等获取的数据，本申请示例仅作说明，并非对本申请作出限制。

可以理解的是，第一分词处理可以是对目标文本进行词语拆分，以此将目标文本拆分成多个目标词语，并标记每个目标词语的词性，以及每个词语在目标文本中的文本。还可以理解的是，第二分词处理与前述的第一分词处理类似，可以简单类推得出，本申请在此就不再多余赘述。

步骤130、根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

所述步骤130、根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，包括：

步骤131、根据预设的第一比例阈值，对所述第一分词结果进行第一统计筛选处理，得到第一词频序列；

步骤132、对所述第二分词结果进行第二词频统计处理，得到第二词频序列；

步骤133、根据所述第一词频序列和第二词频序列，得到所述目标比例，以及，根据所述目标文本的文本数和所述比对文本的文本数，得到所述文本比例；

步骤134、根据所述目标比例和所述文本比例，对所述第一分词结果进行筛选处理，得到所述第一关键信息表。

在本申请实施例中，关键词提取处理可以首先对第一分词结果和第二分词结果进行词频统计，并根据词频条件将第一分词结果和/或第二分词结果进行排序，该排序可以是降序排序，也可以是升序排序；此时对第二分词结果进行的第二词频统计处理已完成，得到第二词频序列，而排序后的第一分词结果还需要根据第一比例阈值，筛选出词频比例大于等于第一比例阈值的目标词语及词频作为第一词频序列。示例性地，第一比例阈值可以是80％、85％、90％等中的任意一种，本申请实施例以第一比例阈值为90％为例，可以通过计算各个目标词语词频占总词频的比例，并根据大小顺序进行排序，通过选取大于等于90％这一比例对应的目标词频完成筛选，得到第一词频序列，也可以是根据第一比例阈值90％这一阈值，计算得到在各个目标词语词频中，第一比例阈值对应的词频数，以此筛选出词频大于等于该词频数的目标词语，并将筛选得到的目标词语及词频作为第一词频序列，本申请示例仅作说明，并非对本申请作出限制，满足实际需求即可。

可以理解的是，第一词频序列包括目标词语以及与目标词语对应的词频，该词频可以作为目标词语出现的数量；第二词频序列包括比对词语以及与比对词语对应的词频，该词频可以作为比对词语出现的数量，故可以选取特定的关联词来对目标词语及词频，以及比对词语及词频进行关联，以此实现目标词语与比对词语之间的对应，然后根据第一词频序列和第二词频序列，实现每个目标词语的目标比例的确定。还可以理解的是，目标文本的文本数可以是目标文本的总字数，比对文本的文本数可以是比对文本的总字数，通过目标文本的总字数与比对文本的文本书之间的比值确定出文本比例。

值得说明的是，在获取得到文本比例及目标比例后，将每个目标词语对应的目标比例与文本比例进行比较，如果该目标词语对应的目标比例大于等于文本比例，则保留该目标词语，如果该目标词语对应的目标比例小于文本比例，则筛除掉该目标词语，然后根据保留的目标词语构建第一关键信息表，该第一关键信息表可以包括关键词字段，以及文本比例。

步骤140、根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，所述临时词频统计表包括临时词字段和临时词词频字段，所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词，以及与所述目标临时词相邻的临近临时词，所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频；

所述步骤140、根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，包括：

步骤141、获取第一相邻阈值；

步骤142、根据所述第一相邻阈值和所述第一关键信息表中的关键词字段，得到临时词字段；

步骤143、对所述临时词字段进行筛选统计处理，得到所述临时词频统计表。

在本申请实施例中，可以通过第一关键信息表中的关键词字段，确定出通用文本中的临时词字段，具体地，对于关键词字段中的某一目标词语而言，可以通过该目标词语找到通用文本中与该目标词语对应的临时词，并将该临时词作为目标临时词；然后查询该目标临时词相邻位置小于等于第一相邻阈值的临时词，并将该临时词作为临近临时词；接着，目标临时词和临近临时词共同组成了临时词字段，并统计临时词字段各个临时词的词频，以此得到临时词频统计表。

示例性地，对于某一目标词语而言，其在通用文本中对应的临时词为A，则A为目标临时词，目标临时词的相邻词组可以表示为[b、c、d、e、A、f、g、h、i]，若第一相邻阈值为3，则可以选取目标临时词A的前3个临时词c、d、e，以及目标临时词A的后三个临时词f、g、h作为临近临时词，第一相邻阈值的具体数值可以根据实际情况设置，例如，第一相邻阈值还可以是5、8、10等中的任意一种，示例仅作说明。

值得说明的是，在本申请实施例中，可以将目标临时词和临近临时词整合记录，构建得出临时词字段，以及将目标临时词的词频和临近临时词的词频整合记录，构建得出临时词词频字段，最后根据临时词字段和临时词词频字段构建临时词频统计表。

步骤150、根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表；

在一些实施例中，所述第一关键信息表还包括关键词词频字段，所述关键词词频字段为所述目标词语出现在所述目标文本或者所述比对文本中的词频，所述步骤150、根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表，包括：

步骤151、根据所述关键词词频字段和所述关键词字段，确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频，以及，根据所述当前目标词语、所述临时词字段和所述临时词词频字段，确定与所述当前目标词语对应的第一临时词，以及所述第一临时词的第一临时词词频；

步骤152、根据所述第一临时词词频比例和所述第一关键词词频之间的比值，对所述文本比例进行比较处理，得到比较结果；

步骤153、若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值大于所述文本比例，则将所述第一临时词作为所述当前目标词语的中心词，以及将所述当前目标词语作为所述中心词的相关词，或者，若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值小于等于所述文本比例，则将所述当前目标词语作为中心词；

步骤154、返回根据所述关键词词频字段和所述关键词字段，确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频，以及，根据所述当前目标词语、所述临时词字段和所述临时词词频字段，确定与所述当前目标词语对应的第一临时词，以及所述第一临时词的第一临时词词频这一步骤，直至确定出所有与所述关键词字段中的目标词语对应的中心词；

步骤155、根据所述中心词和所述相关词，生成所述中心词表。

在本申请实施例中，可以根据临时词词频字段和关键词词频字段生成一个中间字段，该中间字段由各个第一临时词词频与对应的第一关键词词频的比值组成，每个比值均对应有一个关键词字段中的目标词语，随后，对于某一目标词语，可以根据该比值与文本比例的大小，确定出比较结果，以此得到该目标词语对应的中心词，以及该中心词的相关词，然后重复以上步骤，直至关键词字段中的每个目标词语都有确定出中心词，进而得到中心词表。

可以理解的是，关键词词频字段可以由所有所述目标词语在所述目标文本中的词频组成，也可以是由所有所述目标词语出现在所述比对文本中的词频组成，优选地，本申请实施例介绍的关键词词频字段可以是由所有所述目标词语出现在所述目标文本中的词频组成。

示例性地，可以将第一关键信息表和临时词频统计表进行关联，得到关联后的表，关联后的表可以表示为[关键词字段、关键词词频字段、文本比例、临时词字段和临时词词频字段]，关键词字段中的当前目标词语均有对应的第一关键词词频、文本比例、第一临时词和第一临时词词频，然后根据各个第一临时词词频和对应的第一关键词词频的比值，构建中间字段，并通过中间字段各个比值与文本比例的比较结果，筛选出各个目标词语对应的中心词或相关词，然后以目标词语的中心词和/或相关词作为基本单位，整合各个目标词语对应的中心词或相关词，以此得到中心词表。

步骤160、根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题。

所述步骤160、根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题，包括：

步骤161、根据所述中心词表的中心词和相关词，对所述目标文本进行清洗重排处理，得到清洗词组，所述清洗词组包括多个清洗短句，每个所述清洗短句中的清洗词语以所述中心词为中心，根据所述清洗词语在所述目标文本的词序排列；

步骤162、对所述清洗词组中的各个清洗短句进行局部主题挖掘处理，得到各个所述清洗短句的短句主题；

步骤163、对所有所述短句主题进行整体主题挖掘处理，得到所述目标文本的文本主题。

在本申请实施例中，清洗重排处理首先可以是围绕中心词表的中心词，通过使用代表断句的特殊符号来对目标文本进行断句，并以中心词为中心生成多条清洗短句；然后根据中心词表中的中心词及相关词，对清洗短句进行标识，该清洗短句包括标注为中心词的词语，标注为相关词的词语，以及标注为其他词的词语；接着，对标识过后的清洗短句进行清洗，以此将清洗短句中的标点符号、语气词、无意义助词等剔除，最后根据各词语在目标文本的原有词序，进行排列组合，得到清洗词组。

可以理解的是，在同一文本中，各个语句的主题相对趋同，故可以在得到清洗词组后，可以通过对清洗词组中的中心词及相关词组合进行语义分析确定该清洗短句的主题，然后通过各个清洗短句的主题进一步确定出目标文本的主题。

在一些实施例中，所述步骤134、根据所述目标比例和所述文本比例，对所述第一分词结果进行筛选处理，得到所述第一关键信息表这一步骤之后，还包括：

步骤135、获取预设的白名单，所述白名单用于记录数字类型的词语和字母类型的词语；

步骤136、根据所述白名单，对所述第一关键信息表进行剔除处理，得到剔除后的第一关键信息表。

在本申请实施例中，可以在获取到第一关键信息表后，对照白名单，以此将第一关键信息表中，不属于白名单记录的数字类型词语和字母类型词语进行剔除，得到剔除后的第一关键信息表，以此减少主题挖掘所需的数据量和所需的算力资源。

在一些实施例中，所述基于文本中心的主题挖掘方法，还包括：

步骤170、对所述中心词表中的相关词进行同义词合并处理，得到合并后的中心词表；

步骤180、对所述合并后的中心词表进行正则化处理，得到与所述合并后的中心词表对应正则表达式；

步骤190、根据所述正则表达式对所述目标文本进行正则匹配处理，得到所述目标文本的正则匹配结果。

在本申请实施例中，可以在清洗词组阶段或者中心词表阶段，查询相关词是否有同义词，有则将该相关词替换成同义词，在同义词替换后，若出现两个及以上相同的同义词，则可以保留相同同义词中的其中一个，以此缩小清洗词组或者中心词表的词语数量，从而得到合并后的中心词表，并根据该合并后的中心词表构建正则表达式，通过正则表达式对目标文本进行匹配，从而得到目标文本的正则匹配结果。值得说明的是，在得到该正则表达式后，将该表达式存入正则模型库，当后续出现新增文本时，可以通过该正则表达式对新增文本进行自动地语义焦点提炼。

参照图2，本申请实施例还提供了一种基于文本中心的主题挖掘系统，包括：

获取模块101，用于获取待识别的目标文本，以及预设的比对文本和通用文本，所述目标文本包括多个目标词语，所述比对文本包括多个比对词语；

分词模块102，用于对所述目标文本进行第一分词处理，得到第一分词结果，以及对所述比对文本进行第二分词处理，得到第二分词结果；

提取模块103，用于根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

统计模块104，用于根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，所述临时词频统计表包括临时词字段和临时词词频字段，所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词，以及与所述目标临时词相邻的临近临时词，所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频；

中心模块105，用于根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表；

挖掘模块106，用于根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题。

可以理解的是，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图3，本申请实施例还提供了一种计算机设备，包括：

至少一个处理器201；

至少一个存储器202，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器201执行，使得所述至少一个处理器201实现上述的方法实施例。

同理，可以理解的是，上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器201可执行的程序，处理器201可执行的程序在由所述处理器201执行时用于实现上述的方法实施例。

同理，上述方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于文本中心的主题挖掘方法，其特征在于，包括：

根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本总字数与所述比对文本的文本总字数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

2.根据权利要求1所述的基于文本中心的主题挖掘方法，其特征在于，所述根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，包括：

根据所述第一词频序列和第二词频序列，得到所述目标比例，以及，根据所述目标文本的文本总字数和所述比对文本的文本总字数，得到所述文本比例；

3.根据权利要求2所述的基于文本中心的主题挖掘方法，其特征在于，所述根据所述目标比例和所述文本比例，对所述第一分词结果进行筛选处理，得到所述第一关键信息表这一步骤之后，还包括：

4.根据权利要求1所述的基于文本中心的主题挖掘方法，其特征在于，所述根据所述第一关键信息表中的关键词字段，对所述通用文本进行词频统计处理，得到临时词频统计表，包括：

获取第一相邻阈值；

5.根据权利要求1所述的基于文本中心的主题挖掘方法，其特征在于，所述第一关键信息表还包括关键词词频字段，所述关键词词频字段为所述目标词语出现在所述目标文本或者所述比对文本中的词频，所述根据所述临时词频统计表，对所述第一关键信息表进行中心处理，得到中心词表，包括：

根据所述中心词和所述相关词，生成所述中心词表。

6.根据权利要求5所述的基于文本中心的主题挖掘方法，其特征在于，所述根据所述中心词表，对所述目标文本进行主题挖掘处理，得到所述目标文本的文本主题，包括：

7.根据权利要求6所述的基于文本中心的主题挖掘方法，其特征在于，所述基于文本中心的主题挖掘方法，还包括：

8.一种基于文本中心的主题挖掘系统，其特征在于，包括：

提取模块，用于根据所述第二分词结果，对所述第一分词结果进行关键词提取处理，得到第一关键信息表，所述第一关键信息表包括关键词字段，所述关键词字段为目标比例大于等于文本比例的目标词语，所述文本比例用于表征所述目标文本的文本总字数与所述比对文本的文本总字数之间的比值，所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值；

9.一种计算机设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7中任一项所述的方法。