CN114201962B

CN114201962B - 一种论文新颖性分析方法、装置、介质和设备

Info

Publication number: CN114201962B
Application number: CN202111467467.3A
Authority: CN
Inventors: 高曼; 李海燕; 童元元; 刘扬; 李彦文; 姚克宇; 张雨琪; 徐俊
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-07-25
Anticipated expiration: 2041-12-03
Also published as: CN114201962A

Abstract

本发明公开了一种论文新颖性分析方法，包括构建论文集的语料库，利用LDA主题模型将词语集合中的词语分为多个主题，得到第二主题集合；根据第二主题集合和语料库，得到论文集中每一篇论文属于第二主题集合中的每一个主题的概率和第二主题集合中每一个主题的新颖度，并根据论文集中每一篇论文属于第二主题集合中的每一个主题的概率和第二主题集合中每一个主题的新颖度，得到论文集中每一篇论文的新颖度。本发明梳理了论文新颖性评价的工作流程，并结合特殊算法，实现计算机自动化处理不仅辅助人工评价新颖性，减低主观因素带来的误差，而且大大提高了工作效率。本发明还公开了一种论文新颖性分析装置、介质和设备。

Description

一种论文新颖性分析方法、装置、介质和设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种论文新颖性分析方法、装置、介质和设备。

背景技术

新颖性是辅助评价论文创新性的重要指标，也是科技查新工作的重要内容，但是新颖性评价要在时间维度上对同一领域论文内容进行比较，因此对论文新颖性进行评价是一个非常复杂的过程。目前科技查新等工作中的论文新颖性评价主要依靠科技查新人员理解主题技术要点后，运用综合分析与对比方法评定内容的新颖性和先进性，因此受工作人员专业素质和业务水平影响较大，且若文献量较大则会大大增加工作量进而影响结果的准确性。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种论文新颖性分析方法、装置、介质和设备。

本发明解决上述技术问题的技术方案如下：

一种论文新颖性分析方法，包括：

构建论文集的语料库，并对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合；

利用LDA主题模型将所述词语集合中的词语分为多个主题，并根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合；

根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，并将所述相似度值大于预设相似度值的主题进行合并，得到第二主题集合；

根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，所述对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合，具体包括：

对所述语料库中的论文文本进行切词处理后，并对切词处理后得到的结果进行非法词过滤和停用词过滤，得到所述词语集合。

进一步地，所述根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合，具体包括：

所述论文集中同一篇论文中出现所述主题中的第一词语vi和第二词语vj的第一论文数量D(vi,vj)和包含所述第二词语vj的第二论文数量D(vj)输入至概率衡量相似度公式中，得到所述第一词语和所述第二词语的文档共现概率衡量相似度值，其中ε为平滑系数；

将所述主题中所有词语的文档共现概率衡量相似度值输入至所述预设打分函数中，得到所述主题的主题一致性得分值；

剔除低于预设得分值的所述主题，得到所述第一主题集合。

进一步地，所述根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，具体包括：

针对每个主题，计算该主题对应的词语中的各词语的词频向量；

将所述词频向量输入至所述夹角余弦相似度法公式

中，得到所述第一主题集合中的各主题间的相似度值，其中，x_i是第一词频向量，y_i分别为第二词频向量。

进一步地，根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，具体包括：

计算论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)；

将所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)输入至公式中，得所述论文集中论文Di属于所述第二主题集合中的主题T的概率P(Di|T)，其中k为第k个包含在所述论文Di中切分出的词语，n为所述论文Di切分出的所有词语的数量；

当所述概率P(Di|T)大于预设概率时，则所述论文Di属于主题T，得到所述论文集中属于所述主题T的所有所述论文；

将属于所述主题T的所有所述论文按照发表年度排序，得到发布最早的年份JF，根据公式得到所述主题T在年份N的新颖度N_T。

进一步地，所述根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度，具体包括：

将所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率P(Di|T)和所述第二主题集合中每一个主题的新颖度N_T输入至公式中，得到所述论文集中每一篇论文的新颖度N_Di，其中T_k是所述论文属于的第k个主题，m是所述论文所属于的主题数量。

进一步地，所述计算所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)，具体包括：

所述论文Di中切分出的词语v在语料库中出现的次数为ni，所述词语v在所述论文Di中出现的次数记为npi，那么所述词语v在所述论文Di中分布的概率记为p(word|paper)＝npi/ni；

所述论文Di中切分出的词语v在语料库中出现的次数为ni，使用Gibbs Sampling公式对其采样，得到所述词语所属主题，重复采样，直到Gibbs Sampling收敛，得到所述语料库的主题-词语共现频率矩阵，根据所述主题-词语共现频率矩阵，得到所述计算所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)。

本方法发明的有益效果是：提出了一种论文新颖性分析方法，包括构建论文集的语料库，并对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合；利用LDA主题模型将所述词语集合中的词语分为多个主题，并根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合；根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，并将所述相似度值大于预设相似度值的主题进行合并，得到第二主题集合；根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度。本发明梳理了论文新颖性评价的工作流程，并结合特殊算法，实现计算机自动化处理，得到主题和论文的新颖度分值，不仅辅助人工评价新颖性，减低主观因素带来的误差，而且大大提高了工作效率。

本发明解决上述技术问题的另一技术方案如下：

一种论文新颖性分析装置，包括：

切词模块，用于构建论文集的语料库，并对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合；

主题模块，用于利用LDA主题模型将所述词语集合中的词语分为多个主题，并根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合；

第一计算模块，用于根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，并将所述相似度值大于预设相似度值的主题进行合并，得到第二主题集合；

第二计算模块，用于根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度。

本发明还提供一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述技术方案中所述的论文新颖性分析方法。

本发明还提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述技术方案中任一项所述的论文新颖性分析方法。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种论文新颖性分析方法的流程示意图；

图2为根据本发明实施例的一种论文新颖性分析装置的模块示意图；

图3为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图4为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图5为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图6为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图7为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图8为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图9为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图10为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图11为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图；

图12为根据本发明实施例的一种论文新颖性分析方法实现的示例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所述，本发明实施例的一种论文新颖性分析方法，包括以下步骤：

110、构建论文集的语料库，并对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合。

120、利用LDA(Latent Dirichlet Allocation)主题模型将所述词语集合中的词语分为多个主题，并根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合。

130、根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，并将所述相似度值大于预设相似度值的主题进行合并，得到第二主题集合。

140、根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度。

应理解，本文中的新颖性分析方法不仅仅应用于论文，同样也可以应用于学术文章、专利文档以及其他具有主题以及年度的文本。进一步地，步骤110中具体包括：

进一步地，步骤120中具体包括：

所述论文集中同一篇论文中出现所述主题中的第一词语vi和第二词语vj的第一论文数量D(vi,vj)和包含所述第二词语vj的第二论文数量D(vj)输入至概率衡量相似度公式中，得到所述第一词语和所述第二词语的文档共现概率衡量相似度值，其中ε为平滑系数。

将所述主题中所有词语的文档共现概率衡量相似度值输入至所述预设打分函数中，得到所述主题的主题一致性得分值。

剔除低于预设得分值的所述主题，得到所述第一主题集合。

进一步地，步骤130中具体包括：

针对每个主题，计算该主题对应的词语中的各词语的词频向量。

将所述词频向量输入至所述夹角余弦相似度法公式

进一步地，步骤140中根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，具体包括：

计算所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)。

将所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)输入至公式中，得所述论文集中论文Di属于所述第二主题集合中的主题T的概率P(Di|T)，其中k为第k个包含在所述论文Di中切分出的词语，n为所述论文Di切分出的所有词语的数量。

当所述概率P(Di|T)大于预设概率时，则所述论文Di属于主题T，得到所述论文集中属于所述主题T的所有所述论文。

进一步地，步骤140中根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度，具体包括：

进一步地，所述论文Di中切分出的词语v在语料库中出现的次数为ni，所述词语v在所述论文Di中出现的次数记为npi，那么所述词语v在所述论文Di中分布的概率记为p(word|paper)＝npi/ni；

应理解，语料库用于存储论文全文等需要分析的文本信息，以及论文题录信息，包括论文作者、发表时间以及期刊等字段。词语处理可以根据词表将文本信息切词、词形还原以及去除停用词，作为主题抽取的基础语料。

如图3-图12所示，采用本申请提出的论文新颖性分析方法实现的实例所示，图3展示了语料集及切词模块，语料集可以通过本地上传文本并填入文本标题、出版日期等特征信息，图4展示了设置停用词词典和切词词典用于文本切词时去除停用词、同义词规范化处理，图5展示了主题分析及新颖度计算模块，其中主题数目确定：用户可设置一个范围的主题数目，系统计算各主题数下主题平均一致性，帮助用户选择一致性较高的主题数目方法。图6展示了第一主题集合获取：用户选择合适文本设置如选择停用词典、分词词典、设置主题数目，进行分析获得第一主题集合。图6中左边环形图长度由各主题一致性大小决定；图中右侧黑体字代表主体名称，用户可以改动主题名称。图7-8展示了第二主题集合获取，计算各主题之间的相似性，可将相似性较高的主题进行合并获得第二主题集合，合并之后获得第二主题集合，图9展示了用户设置概率阈值，将属于主题高于概率阈值的文章与主题进行对应，获得主题—文章对应表。图10展示了获取主题分布年度，根据属于该主题的文章发表时间获得各主题在时间轴上的分布情况。图11展示了获取到主题不同年度新颖性值，图12展示了获取文章的新颖度值。

基于上述实施例所提出的一种论文新颖性分析方法，包括构建论文集的语料库，并对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合；利用LDA主题模型将所述词语集合中的词语分为多个主题，并根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合；根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，并将所述相似度值大于预设相似度值的主题进行合并，得到第二主题集合；根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度。本发明梳理了论文新颖性评价的工作流程，并结合特殊算法，实现计算机自动化处理不仅辅助人工评价新颖性，减低主观因素带来的误差，而且大大提高了工作效率。

如图2所示，一种论文新颖性分析装置，包括：

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种论文新颖性分析方法，其特征在于，包括：

根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度；

所述根据所述主题中的词语和预设打分函数，得到所述论文集所涉及的第一主题集合，具体包括：

剔除低于预设得分值的所述主题，得到所述第一主题集合；

所述根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，具体包括：

将属于所述主题T的所有所述论文按照发表年度排序，得到发布最早的年份JF，根据公式得到所述主题T在年份N的新颖度N_T；

所述根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度，具体包括：

2.根据权利要求1所述的论文新颖性分析方法，其特征在于，所述对所述语料库中的论文文本进行切词处理，得到与所述语料库对应的词语集合，具体包括：

3.根据权利要求1所述的论文新颖性分析方法，其特征在于，所述根据所述第一主题集合中的每一个所述主题中的词语和夹角余弦相似度法，得到所述第一主题集合中各主题间的相似度值，具体包括：

将所述词频向量输入至所述夹角余弦相似度法公式

4.根据权利要求1所述的论文新颖性分析方法，其特征在于，所述计算所述论文Di中切分出的词语在所述第二主题集合中每一个主题中的分布概率p(word|topic)以及所述词语在所述论文Di中的分布概率p(word|paper)，具体包括：

5.一种论文新颖性分析装置，其特征在于，包括：

第二计算模块，用于根据所述第二主题集合和所述语料库，得到所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，并根据所述论文集中每一篇论文属于所述第二主题集合中的每一个主题的概率和所述第二主题集合中每一个主题的新颖度，得到所述论文集中每一篇论文的新颖度；

剔除低于预设得分值的所述主题，得到所述第一主题集合；

6.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至4中任一项所述的论文新颖性分析方法。

7.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至4中任一项所述的论文新颖性分析方法。