CN116304016B

CN116304016B - 一种文献的共性分析方法及装置

Info

Publication number: CN116304016B
Application number: CN202211707913.8A
Authority: CN
Inventors: 吴迪; 董云; 张青川; 黄惠; 刘月恒; 李晨壹
Original assignee: Taihe Kangmei Beijing Research Institute of Traditional Chinese Medicine Co Ltd
Current assignee: Taihe Kangmei Beijing Research Institute of Traditional Chinese Medicine Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-10-10
Anticipated expiration: 2042-12-29
Also published as: CN116304016A

Abstract

本发明提供了一种文献的共性分析方法及装置，方法包括：依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；针对每一文献，基于关键词种子、停用词词表，利用预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到主题；基于主题包含的单词，依据预设的类别压缩算法进行排序，获取该主题对应的主题关键词组；针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。可以提升文献分析效率。

Description

一种文献的共性分析方法及装置

技术领域

本发明涉及文献分析技术领域，具体而言，涉及一种文献的共性分析方法及装置。

背景技术

随着科学技术和经济建设的快速发展,技术文献，尤其是专利文献作为最系统、最全面、最迅速的技术信息源,越来越受到重视，是了解相关领域内应用研究前沿发展的重要文献载体。

目前，文献一般是基于基础应用研究的产品，实现基础应用研究的产业化，能够带动产业或多个产业及其企业的发展，具有大的经济和社会效益。以化妆品领域为例，利用特色植物资源的国内化妆品相关的专利文献申请量呈现快速增长态势，专利申请量远高于国外，但专利质量有待提升，技术集中度较低，比较分散地掌握在各创新主体中。因而，若通过全部浏览专利文献的方式，对分散的专利文献进行逐一分析，了解该化妆品领域内应用研究的前沿发展，为基础研究产业化提供技术参考，文献分析效率较低。

发明内容

有鉴于此，本发明的目的在于提供文献的共性分析方法及装置，以提升文献分析效率。

第一方面，本发明实施例提供了文献的共性分析方法，包括：

依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；

针对每一文献，基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到聚类结果，每一聚类结果对应一主题；

基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组；

针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；

选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组，包括：

针对聚类得到的每一主题，获取该主题包含的主题候选单词，去除主题候选单词中包含的停用词词表中的停用词，得到主题单词；

基于主题包含的主题单词以及所有主题包含的主题单词，获取该主题的主题单词的基于类的文档-逆文档频率，基于主题单词的基于类的文档-逆文档频率，获取该主题的主题关键词组。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述基于主题包含的主题单词以及所有主题包含的主题单词，获取该主题的主题单词的基于类的文档-逆文档频率，包括：

针对主题包含的每一主题单词，获取该主题单词在该主题包括的文献中出现的频率；

统计各主题包括的文献中的主题单词总数，基于主题单词总数以及主题数，计算主题平均单词数；

基于主题单词在主题包括的文献中出现的频率以及主题平均单词数，获取该主题单词的基于类的文档-逆文档频率。

结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分，包括：

获取第一主题的第一主题关键词组以及第二主题的第二主题关键词组；

利用基于变换的双向编码器预训练语言模型，分别获得第一主题关键词组中各主题关键词对应的第一词向量编码，以及，第二主题关键词组中各主题关键词对应的第二词向量编码；

利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值；

针对每一主题，基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值，包括：

获取第一主题关键词组以及第二主题关键词组分别与领域关键词词表的第一词集和第二词集；

针对第一词集的每一主题关键词，获取该主题关键词在对应主题中的第一词频，以及，针对第二词集的每一主题关键词，获取该主题关键词在对应主题中的第二词频；

获取第一词集中各主题关键词在对应主题中的词频的第一词频总数，以及，第二词集中各主题关键词在对应主题中的词频的第二词频总数；

计算主题关键词在对应主题中的词频与对应该主题的词频总数的商值，得到该主题关键词的权重，所述词频包括第一词频以及第二词频；

针对每一主题关键词，计算该主题关键词的权重与该主题关键词对应的词向量编码的乘积，得到该主题关键词的权重分值；

计算第一词集中各主题关键词的权重分值的第一权重分值和值和权重的第一权重和值，以及第二词集中各主题关键词的权重分值的第二权重分值和值和权重的第二权重和值；

计算第一权重分值和值与第二权重分值和值的乘积，得到分值乘积，以及，第一权重和值与第二权重和值的乘积，得到权重乘积；

计算分值乘积与权重乘积的商值，得到第一词向量编码与第二词向量编码的语义加权相似度值。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分，包括：

计算该主题分别与其他主题的语义加权相似度值的语义加权平均相似度值，以及，该主题分别与其他主题的语义加权相似度值的方差；

基于语义加权平均相似度值以及方差，获取该主题在所述目标领域的综合得分。

结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述利用预先设置的预训练模型，得到该文献的文本向量表示，包括：

从文献对应的语料中，剔除停用词词表对应的语料后，利用预先构建的句子转换器预训练模型，对剔除停用词词表对应的语料后的文献进行编码，获得该文献的文本向量表示。

第二方面，本发明实施例提供了文献的共性分析装置，包括：

语料构建模块，用于依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；

主题聚类模块，用于针对每一文献，基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到聚类结果，每一聚类结果对应一主题；

词组获取模块，用于基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组；

综合评价模块，用于针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；

文献分析模块，用于选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。

第三方面，本发明实施例提供了计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述的文献的共性分析方法的步骤。

第四方面，本发明实施例提供了计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的识别文献的共性分析方法的步骤。

本发明实施例提供的文献的共性分析方法及装置，包括：依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；针对每一文献，基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到聚类结果，每一聚类结果对应一主题；基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组；针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。这样，通过对文献进行聚类，依据聚类得到的各主题以及主题对应的主题关键词，获取主题在目标领域的综合得分，基于综合得分选取表征目标领域共性的主题对应的文献进行分析，可以有效提升文献分析效率；同时，基于关键词种子及领域关键词词表进行聚类，并利用类别压缩算法优化聚类的主题及主题关键词，以获取领域内最具有共性的文献，从而提高了主题共性提取的准确率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的文献的共性分析方法流程示意图；

图2示出了本发明实施例所提供的文献的共性分析装置结构示意图；

图3为本申请实施例提供的一种计算机设备300的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，提出结合变换器（Transformer）与基于类的（Class Base）词频-逆文档频率（TF-IDF，Term Frequency-Inverse Document Frequency），以化妆品专利文献为例，对利用特色植物资源相关的化妆品专利文献，进行共性技术分析（TransC-GT）,从而自动对化妆品专利文献进行主题聚类，并基于聚类的主题，获取该主题对应的主题关键词集，基于各类主题对应的主题关键词集，利用主题相似度算法，实现各专利文献主题间的共性分析，基于共性分析结果，选取一类主题或多类主题对应的专利文献进行分析，无需针对每一专利文献进行分析，从而能够有效提升文献分析效率。

本发明实施例提供了一种文献的共性分析方法及装置，下面通过实施例进行描述。

图1示出了本发明实施例所提供的文献的共性分析方法流程示意图。

如图1所示，该方法包括：

步骤101，依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；

本发明实施例中，作为一可选实施例，目标领域为化妆品领域。从各来源获取化妆品领域的文献，其中，文献包括但不限于：专利文献、学术期刊文献，基于获取的化妆品领域的文献，构建化妆品专利文献语料库。关于对文献进行语料提取，具体可参见相关技术文献，在此不再赘述。

本发明实施例中，作为一可选实施例，依据获取的目标领域的文献，构建文献语料库，包括：

利用光学字符识别(OCR，Optical Character Recognition)技术，对文献中的标题、摘要、关键字、结论、作者信息进行识别抽取，通过数据预处理技术对识别抽取得到的文档数据进行拆分、清洗后，置于文献语料库中。

本发明实施例中，作为一可选实施例，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表，包括：

A11，基于文献语料库中的标题语料，提取关键词，获取满足预设关联规则的关键词，得到关键词种子；

本发明实施例中，作为一可选实施例，还可以在目标领域中，基于预先设置的类别对文献进行类别分类，则预设关联规则可以是关键词之间具有强关联、且属于同一预设的类别。以文献为专利文献为例，类别可以是国际专利分类(IPC，International PatentClassification)，每一IPC对应一类别，目标领域包含有多个类别。实际应用中，也可以通过化妆品领域专家，利用人工方式将具有强关联的、所属同一类别的关键词提取出来，作为关键词种子。

A12，基于文献语料库中的标题和摘要，提取关键词，得到领域关键词词表；

A13，基于预先获取的中文通用停用词词表以及文献语料库，获取与目标领域相关的停用词，生成目标领域的停用词词表。

本发明实施例中，从文献语料库中，获取满足预设关联规则的关键词，得到关键词种子。

本发明实施例中，作为一可选实施例，对于化妆品领域，对文献语料库中的语料进行统计，选取统计量前N位的表征化妆品核心词汇的关键词，进行汇总，得到领域关键词词表。在预先获取的中文通用停用词词表的基础上，从文献语料库中，提取与中文通用停用词词表中的词相匹配的词，得到停用词词表。

本发明实施例中，作为另一可选实施例，也采用人工标注的方式构建关键词种子、停用词词表与领域关键词词表。

步骤102，针对每一文献，基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到聚类结果，每一聚类结果对应一主题；

本发明实施例中，作为一可选实施例，基于关键词种子、停用词词表与领域关键词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，包括：

从文献对应的语料中，剔除停用词词表对应的语料后，利用预先设置的预训练模型，得到该文献的文本向量表示。

本发明实施例中，作为一可选实施例，利用预先设置的预训练模型，得到该文献的文本向量表示，包括：

利用预先构建的句子转换器(Sentence Transformer)预训练模型，对剔除停用词词表对应的语料后的文献进行编码，获得该文献的文本向量表示。

本发明实施例中，为了有效降低编码的运算量，作为一可选实施例，对文献的摘要进行编码，通过Sentence Transformer预训练模型，对输入的文本(摘要)进行编码，获得句子级的文本向量表示。各文献对应的文本向量表示的维度相同。

本发明实施例中，作为一可选实施例，该方法还包括：

利用统一流形逼近和投影(UMAP，Uniform Manifold Approximation andProjection)算法，对文本向量表示进行降维处理，得到降维向量表示。

本发明实施例中，由于基于Transformer网络结构的句子转换器预训练模型，对文本(文献)进行编码，所获得的文本向量表示的维度较大，作为一可选实施例，利用UMAP算法进行降维。

本发明实施例中，利用文献语义聚类算法，对降维向量表示、关键词种子与领域关键词词表进行聚类，或，对文本向量表示、关键词种子与领域关键词词表进行聚类。

本发明实施例中，每一聚类对应有一语义相似文档集群。作为一可选实施例，文献语义聚类算法包括但不限于：具有噪声的基于密度的聚类算法(DBSCAN，Density-BasedSpatial Clustering of Applications with Noise)、具有噪声的基于密度的分级聚类算法(HDBSCAN，Hierarchical Density-Based Spatial Clustering of Applications withNoise)。作为一可选实施例，基于DBSCAN算法得到语义相似文档集群。

本发明实施例中，DBSCAN算法通过定义构成聚类(minpts)的最小观察数和邻域的大小(通常表示为eps)，创建语义相似文档集群。这样，基于“sentence-transformer+UMAP+HDBSCAN”，能够实现对文献语料库中所有文献的聚类操作，并依据关键词种子、停用词词表与领域关键词词表，输出文本聚类得到的主题以及每个主题的主题关键词。

本发明实施例中，为了进一步提升聚类结果的准确性和精度，该方法还包括：

若得到的聚类结果不满足预先先设置的聚类需求，对文献语义聚类算法的核心参数进行调节，以使得到的聚类结果满足所述聚类需求。

本发明实施例中，利用HDBSCAN聚类算法进行聚类得到的主题数量，可能无法满足实际需求(预先先设置的聚类需求)。因此，通过人机交互方式设定和调节HDBSCAN聚类算法的核心参数，从而调控输出的聚类结果，其中，作为一可选实施例，核心参数包括但不限于：最小聚类簇团(主题)数量、主题关键词数。

步骤103，基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组；

本发明实施例中，作为一可选实施例，类别压缩算法包括但不限于：文档-逆文档频率算法、基于类的TF-IDF(c-TF-IDF，Class-Base TF-IDF)算法，其中，c-TF-IDF算法通过优化TF-IDF，为每个主题生成关键词组，即通过将单个主题中的所有文献，应用TF-IDF进行统计，从而获得各个主题的主题关键词组。其中，在计算C-TF-IDF的过程中，利用停用词词表，将文献中包含的停用词去除。

本发明实施例中，作为一可选实施例，基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组，包括：

本发明实施例中，作为一可选实施例，利用下式计算基于类的文档-逆文档频率(C-TF-IDF)：

其中，

C-TF-IDF_i表示主题为w_i的单词t_i的基于类的文档-逆文档频率；

表示单词t_i在主题为w_i的文献中出现的频率；

n表示主题总数量，m表示每个主题中单词的平均数量，即各主题中单词总数的平均值。

本发明实施例中，作为一可选实施例，基于主题包含的主题单词以及所有主题包含的主题单词，获取该主题的主题单词的基于类的文档-逆文档频率，包括：

本发明实施例中，针对每一主题，对该主题包含的所有文献的主题单词进行TF-IDF统计，以及，基于主题平均单词数，获取主题单词的基于类的文档-逆文档频率，并进行排序，获取排序前N位的单词，得到该主题对应的主题关键词组。

本发明实施例中，作为另一可选实施例，也可以依据主题包含的单词，统计该单词在该主题包含的文献中的文档-逆文档频率，并进行排序后，获取排序前N位的单词，得到该主题对应的主题关键词组。

本发明实施例中，作为另一可选实施例，该方法还包括：

利用最大边际相关性(MMR，Maximal Marginal Relevance)算法，对主题对应的主题关键词组中的主题单词进行去重叠处理。

本发明实施例中，利用最大边际相关性算法，可以提高单词的连贯性，并且使单词间没有过多重叠。

本发明实施例中，作为一可选实施例，利用下式计算MMR：

其中，

R表示初始排名，S表示不同排名选择的文献；

R\S表示被搜索的文献集合，Sim(*)表示相似度矩阵；

q表示查询的目标文献，D_i，D_j表示目标文献中的主题单词；

λSim(q,D_i)表示主题单词与整篇文献的相似度；

表示主题单词和另一主题单词的相似度。

本发明实施例中，通过核心参数调控以及类别压缩算法，可以调控化妆品文本主题聚类算法输出的聚类结果(主题)，进一步提高化妆品文本主题聚类算法的性能，为后续主题共性提取提供精确的聚类结果。

步骤104，针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；

本发明实施例中，作为一可选实施例，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分，包括：

D11，获取第一主题的第一主题关键词组以及第二主题的第二主题关键词组；

本发明实施例中，第一主题X_i对应的第一主题关键词组为X_i,m，第二主题X_j对应的第二主题关键词组为X_j,n(m，n表示相应的主题关键词数量)。

D12，利用基于变换的双向编码器(BERT，Bidirectional EncoderRepresentations from Transformers)预训练语言模型，分别获得第一主题关键词组中各主题关键词对应的第一词向量编码，以及，第二主题关键词组中各主题关键词对应的第二词向量编码；

本发明实施例中，将关键词组转换为词向量编码。

D13，利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值；

本发明实施例中，计算X_i[m和X_j,n之间两两主题关键词的语义相似度值，基于主题关键词的语义相似度值获取主题之间的语义加权相似度值。

本发明实施例中，作为一可选实施例，利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值，包括：

本发明实施例中，第一词向量编码与第二词向量编码的语义相似度值即为第一主题与第二主题之间的语义加权相似度值。

本发明实施例中，将两个主题的两两主题关键词的语义相似度，依据领域关键词加权求和取平均值，得到主题X_i和X_j之间的语义相似度(i≠j)，其中，主题关键词的权重，依据领域关键词词表中该关键词所对应的词频，若领域关键词词表中存在该主题关键词，则该主题关键词的词频为1。

本发明实施例中，作为一可选实施例，利用下式计算语义加权相似度值：

其中，W_M为主题关键词组与领域关键词词表的并集；

M为并集包含的主题关键词总数量；

Num()为主题关键词在对应主题包含的各文献中的词频统计；

Att_M为主题关键词的权重，Sim_i,j为两个主题之间的语义加权相似度值。

本发明实施例中，通过遍历文本聚类结果中的每个主题，计算主题X_i和主题X_j之间的语义加权相似度值(i≠j)，若计算的语义加权相似度值大于预先设置的共性主题阈值，表明主题X_j为主题X_i的共性主题。

D14，针对每一主题，基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分。

本发明实施例中，作为一可选实施例，基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分，包括：

本发明实施例中，作为一可选实施例，利用下式计算主题的综合得分：

其中Mean为语义加权平均相似度值；

Std为方差，C-score则表示综合得分。

本发明实施例中，i为常数，表示一主题，j为除该主题之外的其它主题。

本发明实施例中，还可以依据获取到的主题以及对应的主题关键词组，生成主题共性关系表。

步骤105，选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。

本发明实施例中，作为一可选实施例，通过筛选全球特色植物资源化妆品专利文献中，主分类属于A61K8大组的专利，对A61K8大组的专利申请进行聚类，形成380个类团（主题），根据类团中专利文献数量从多到少排序后，筛选前10%的类团进行综合得分的计算，计算结果如表1所示。

表1

/>

本发明实施例中，通过选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析，这样，可以大大减少进行共性分析的文献数量，可以提升文献分析效率。

本发明实施例中，通过构建文献语料库，获取领域关键词词表以及停用词词表，可以提高后期主题聚类的性能；结合Transformer与C-TF-IDF，对语料库中的文献进行语义聚类，利用Sentence-Transformer预训练模型进行编码，获取句子级的文本向量表示，相对词级与文档级的编码，句子级的文本向量表示能够获得更优的性能；利用UMAP算法以及HDBSCAN算法进行主题聚类，并利用C-TF-IDF算法，关注主题内的词频特征，并结合主题词种子，从而获得更优的主题关键词，并利用MRR算法优化主题关键词的连贯性与重叠性，再利用基于主题关键词与领域关键词的加权相似度算法，通过不同主题的主题关键词，计算主题关键词之间的相似度，并结合领域核心词词表赋予权重，对所有主题进行主题共性识别与分析，进一步提升共性分析的性能，获取主题聚类结果，以及，抽取高质量的主题关键词，基于主题以及主题对应的主题关键词组，获取领域内最具有共性的文献，提高了主题共性提取的准确率，以及，提升文献浏览效率。

本发明实施例中，作为一可选实施例，以表1为例，说明本发明实施例的主题共性分析：

(1)涉及清洁或表面活性剂的植物资源化妆品

类团29包含270项专利文献，申请时间从2007年到2021年，部分重要专利详细情况如下。

专利“CN101406429A一种水包油型乳状液及其制备方法”，利用皮克林(Pickering)乳化技术制得了一种性能稳定，温和无刺激的乳状液。乳状液组成为油相组分、水相组分、固体颗粒、表面活性剂、防腐剂、香精。其中油相组分中的油脂可为杏仁油、霍霍巴油、茶籽油、鳄梨油、杏核油、山茶油、胡桃油、石栗子油、水蒜芥子油、亚麻荠油、月见草油、葡萄籽油、橄榄油等。在乳状液的制备过程中，用到很少量的表面活性剂乳化剂(≤0.5％)，主要以粒径在30～200nm的固体颗粒作为乳化剂，因表面活性剂含量极低，对皮肤温和无刺激[9]。

(2)植物资源祛痘化妆品

类团26中包含267项专利申请，申请时间从2007年3月13日到2021年6月15日，部分重要专利详细情况如下。

专利“CN104306279A一种含有岩兰草精油的护肤霜”涉及一种化妆品，尤其是一种含有岩兰草精油的护肤霜。其主要由凡士林、橄榄油、十八醇、甘油、醋酸地塞米松、珍珠粉、丙二醇、尿囊素、岩兰草精油、乙二胺四乙酸二钠、龙艾精油、阿米香树精油、丝素肽、必需氨基酸、玻尿酸和去离子水组成。它可净化皮肤，收敛，抗感染，含有醋酸地塞米松，可大大减轻过敏体质的人对护肤霜及外界环境的过敏反应，可调节皮肤油脂分泌，修护皮肤细胞组织，减轻发炎症状，改善出油、粉刺、痤疮等肌肤问题[10]。

专利“CN106726689A一种防治痤疮的面霜及其制备方法”，涉及一种防治痤疮的面霜及其制备方法，面霜主要成分为茯苓多糖、甘草酸、黄芩苷、甘油、卵磷脂、海藻酸、棕榈酸异丙酯、防腐剂等，对青春痘或是湿热导致的痤疮有防治效果，而且具有良好的抑菌消炎功效，发明中所涉及的成分温和安全，有良好的亲肤效果[11]。

通过对类团中专利的阅读，发现共性技术中通常会利用植物原料尤其是植物原料的组合来解决现有产品问题，包括现有产品功效性不显著，或解决问题的途径过于单一的问题，尤其是在祛痘、抗皱、抗衰等方面，同时对于上述植物原料化妆品通常会以霜的形式呈现在广大消费者面前。

(3)植物资源美白化妆品

类团2中包含900项专利申请，申请时间从2007年到2021年，部分重要专利详细情况如下。

专利“CN103845235A美白化妆品”公开了一种能够有效抑制酪氨酸酶活性，降低皮肤黑色素含量的美白化妆品，其中皮肤美白剂为甘草查耳酮A和/或毛蕊花糖苷[12]。

专利“CN105411931A一种美白化妆品组合物”，公开了一种包含光果甘草提取物、美白复合物和柑橘皮提取物的美白化妆品组合物，其中美白复合物的成分为水、丁二醇、熊果苷、柠檬酸、亚硫酸钠、乙酰酪氨酸、草莓虎耳草提取物、牡丹根提取物、氨基丙醇抗坏血酸磷酸酯、黄芩根提取物、谷胱甘肽、水解樱桃李。本发明将光果甘草提取物、美白复合物和柑橘皮提取物三种组分复合使用，能够安全地实现缓解色素沉着和美白的效果[13]。

专利“CN104971029A美白面膜及其制备方法”，该美白面膜包含小分子玻尿酸，大分子玻尿酸，合成蛋清粉，芦荟提取物，人参提取液，光果甘草定，α-熊果苷，根皮素，苹果干细胞，树莓苷，四氢胡椒碱，维生素c乙基醚，传明酸，水解珍珠等。该产品具有促进各种有效成分的皮肤吸收、修复受损细胞、激活休眠细胞、促进细胞再生、保湿，快速高效美白祛斑的功效，并且对皮肤无刺激、过敏和伤害[14]。

通过对该类团中专利申请的阅读，发现主要是针对现有美白产品为了单纯追求快速见效，添加了化学物质，产生皮肤刺激和过敏，对皮肤造成伤害等问题。因此选择特色植物资源代替部分美白功效物质（化学物质），发挥植物原料天然来源的优势，切实解决消费者的需求。

图2示出了本发明实施例所提供的文献的共性分析装置结构示意图。

如图2所示，该装置包括：

语料构建模块201，用于依据获取的目标领域的文献，构建文献语料库，基于文献语料库，构建关键词种子、停用词词表与领域关键词词表；

本发明实施例中，作为一可选实施例，利用OCR技术，对文献中的标题、摘要、关键字、结论、作者信息进行识别抽取，通过数据预处理技术对识别抽取得到的文档数据进行拆分、清洗后，置于文献语料库中。

主题聚类模块202，用于针对每一文献，基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，对文本向量表示、关键词种子及领域关键词词表进行聚类，得到聚类结果，每一聚类结果对应一主题；

本发明实施例中，作为一可选实施例，主题聚类模块202还用于：

利用UMAP算法，对文本向量表示进行降维处理，得到降维向量表示。

本发明实施例中，作为另一可选实施例，主题聚类模块202还用于：

词组获取模块203，用于基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组；

本发明实施例中，作为一可选实施例，词组获取模块203包括：

主题单词获取单元(图中未示出)，用于针对聚类得到的每一主题，获取该主题包含的主题候选单词，去除主题候选单词中包含的停用词词表中的停用词，得到主题单词；

主题关键词获取单元，用于基于主题包含的主题单词以及所有主题包含的主题单词，获取该主题的主题单词的基于类的文档-逆文档频率，基于主题单词的基于类的文档-逆文档频率，获取该主题的主题关键词组。

本发明实施例中，作为一可选实施例，主题关键词获取单元具体用于：

综合评价模块204，用于针对每一主题，基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分；

本发明实施例中，作为一可选实施例，综合评价模块204包括：

关键词组提取单元(图中未示出)，用于获取第一主题的第一主题关键词组以及第二主题的第二主题关键词组；

编码单元，用于利用基于变换的双向编码器预训练语言模型，分别获得第一主题关键词组中各主题关键词对应的第一词向量编码，以及，第二主题关键词组中各主题关键词对应的第二词向量编码；

相似度计算单元，用于利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值；

本发明实施例中，作为一可选实施例，相似度计算单元具体用于：

加权单元，用于针对每一主题，基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分。

本发明实施例中，作为一可选实施例，加权单元具体用于：

文献分析模块205，用于选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。

如图3所示，本申请一实施例提供了一种计算机设备300，用于执行图1中的文献的共性分析方法，该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序，其中，上述处理器302执行上述计算机程序时实现上述文献的共性分析方法的步骤。

具体地，上述存储器301和处理器302能够为通用的存储器和处理器，这里不做具体限定，当处理器302运行存储器301存储的计算机程序时，能够执行上述文献的共性分析方法。

对应于图1中的文献的共性分析方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述文献的共性分析方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述文献的共性分析方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文献的共性分析方法，其特征在于，包括：

选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析；

所述基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法，包括：

从该文献对应的语料中，剔除停用词词表对应的语料后，利用预先设置的预训练模型，得到该文献的文本向量表示；

所述基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于主题包含的单词，依据预先设置的类别压缩算法进行排序，获取该主题对应的主题关键词组，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于主题包含的主题单词以及所有主题包含的主题单词，获取该主题的主题单词的基于类的文档-逆文档频率，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预先设置的语义相似度算法，计算第一词向量编码与第二词向量编码的语义加权相似度值，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于该主题分别与其他主题的语义加权相似度值，计算该主题在所述目标领域的综合得分，包括：

6.根据权利要求1至3任一项所述的方法，其特征在于，所述利用预先设置的预训练模型，得到该文献的文本向量表示，包括：

7.一种文献的共性分析装置，其特征在于，包括：

文献分析模块，用于选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析；

所述主题聚类模块在用于基于关键词种子、停用词词表，利用预先设置的预训练模型，得到该文献的文本向量表示，利用文献语义聚类算法时，具体用于：

所述综合评价模块在用于基于该主题对应的主题关键词组与其它主题对应的主题关键词组，计算该主题在所述目标领域的综合得分时，具体用于：

8.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的文献的共性分析方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一项所述的文献的共性分析方法的步骤。