CN115186665B - 一种基于语义的无监督学术关键词提取方法及设备 - Google Patents

一种基于语义的无监督学术关键词提取方法及设备 Download PDF

Info

Publication number
CN115186665B
CN115186665B CN202211118339.2A CN202211118339A CN115186665B CN 115186665 B CN115186665 B CN 115186665B CN 202211118339 A CN202211118339 A CN 202211118339A CN 115186665 B CN115186665 B CN 115186665B
Authority
CN
China
Prior art keywords
word
academic
thesis
semantic
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211118339.2A
Other languages
English (en)
Other versions
CN115186665A (zh
Inventor
姜鹏
仇瑜
高云鹏
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202211118339.2A priority Critical patent/CN115186665B/zh
Publication of CN115186665A publication Critical patent/CN115186665A/zh
Application granted granted Critical
Publication of CN115186665B publication Critical patent/CN115186665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于语义的无监督学术关键词提取方法及设备,属于自然语言处理技术领域;包括以下步骤:获取待识别论文,利用所述论文的标题和摘要作为待识别文本;基于预先构建的学术词表对所述论文的待识别文本进行分词;根据分词后得到的每个词的词长、词位置和词的TF‑IDF得分,计算每个词的综合得分;基于所述综合得分,得到候选关键词;将所述候选关键词与所述待识别文本输入预先训练的深度语义模型,得到所述关键词与论文标题和摘要的语义相似度;选择所述语义相似度大于阈值的关键词,得到所述待识别论文的学术关键词。本发明解决了现有的关键词提取方法存在噪音词且效率低的问题。

Description

一种基于语义的无监督学术关键词提取方法及设备
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于语义的无监督学术关键词提取方法及设备。
背景技术
关键词提取旨在从文本中提取出一组与文本主题相关的词语以表达文本的核心内容,是一项基本的自然语言处理任务。常见的关键词提取算法包括TF-IDF、TextRank[1]、Yake[2]、AutoPhrase[3]、KeyBert等。
TF-IDF是通过统计语料库中词的逆文档频率(IDF)和词在句子中的频率(TF)来对关键词进行排序。TextRank通过构建词图,然后利用PageRank算法对关键词进行排序、Yake是一种综合多种统计指标的关键词提取算法,AutoPhrase利用知识库进行远程监督学习。TF-IDF、TextRank、Yake等算法从一定程度上能够快速提取出相对可靠的关键词,但是这些算法往往存在大量的噪音词(非关键词错误识别为了关键词),问题在于它们都忽略了文本的语义特征。KeyBert等基于语义的关键词提取算法通过计算N-Gram的方式生成候选词,但是这种做法的计算效率非常低,并且由于BERT各向异性的特点导致语义计算效果较差。
而对于数量巨大的论文文献等学术领域,急需一种效率高、准确性强的关键词提取方法。
发明内容
鉴于上述的分析,本发明旨在提供一种基于语义的无监督学术关键词提取方法及设备;解决了现有的关键词提取方法存在噪音词且效率低的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明公开了一种基于语义的无监督学术关键词提取方法及设备,包括以下步骤:
获取待识别文本,待识别文本包括论文的标题和摘要;
基于预先构建的学术词表对待识别文本进行分词;
根据分词后得到的每个词的词长、词位置和词的TF-IDF得分,计算每个词的综合得分;基于综合得分,得到候选关键词;
将候选关键词与待识别文本输入预先训练的深度语义模型,得到关键词与待识别文本的语义相似度;选择语义相似度大于阈值的关键词,得到论文的学术关键词。
进一步的,深度语义模型的训练包括:
构建论文语料库,论文语料库中包括多个论文的标题及对应的摘要;
将论文语料库中论文的标题、标题对应的摘要和论文语料库中随机抽取的n个摘要输入DSSM的双塔结构模型,计算论文的标题与摘要的相似度,经过损失函数迭代更新,最大化标题与标题对应的摘要的语义相似度,得到训练好的深度语义模型;n为大于1的整数。
进一步的,采用DSSM的双塔结构模型训练的深度语义模型包括输入层、表示层和匹配层;
输入层采用N-Gram模型对输入的标题和摘要分别进行降维,得到降维压缩后的低维语义向量;
表示层包括三层全连接层,每层使用非线性激活函数进行激活,对低维语义向量进行特征整合得到固定维度的表示层隐向量;
匹配层基于表示层隐向量计算得到标题和摘要的语义相似度。
进一步的,学术词表通过无监督方法构建,包括:
对论文语料库中的标题和摘要进行词频统计;基于N-Gram词频、点互信息、左右熵及时间影响因子计算分词后得到的每个词的成词概率,选择成词概率大于概率阈值的词构建得到学术词表。
进一步的,时间影响因子基于包含分词后得到的词的论文发表时间与词首次出现时间的平均时间跨度计算得到,计算公式为:
Figure 332516DEST_PATH_IMAGE001
其中,n表示包含词
Figure 577552DEST_PATH_IMAGE002
的论文数量,
Figure 622869DEST_PATH_IMAGE003
表示包含词
Figure 486920DEST_PATH_IMAGE002
的第
Figure 629188DEST_PATH_IMAGE004
篇论文的发表年份,
Figure 717230DEST_PATH_IMAGE005
表示词
Figure 453105DEST_PATH_IMAGE006
在论文语料库中首次出现的论文发表的时间。
进一步的,通过下述公式计算成词概率:
Figure 245480DEST_PATH_IMAGE007
其中,
Figure 117621DEST_PATH_IMAGE008
表示论文总数,
Figure 704460DEST_PATH_IMAGE009
表示论文语料库中包含词
Figure 724369DEST_PATH_IMAGE002
的论文数,
Figure 930222DEST_PATH_IMAGE010
表示逆文档频率;
Figure 47083DEST_PATH_IMAGE011
表示词
Figure 945769DEST_PATH_IMAGE002
的N-Gram词频,即词
Figure 780870DEST_PATH_IMAGE002
在论文语料库中出现的频率,
Figure 259255DEST_PATH_IMAGE012
表示词
Figure 496202DEST_PATH_IMAGE002
的点互信息,
Figure 96947DEST_PATH_IMAGE013
表示左邻字信息熵,
Figure 294710DEST_PATH_IMAGE014
表示右邻字信息熵,
Figure 967000DEST_PATH_IMAGE015
表示词
Figure 668240DEST_PATH_IMAGE002
的所有左邻字集合,
Figure 33362DEST_PATH_IMAGE016
表示词
Figure 249580DEST_PATH_IMAGE002
的所有右邻字集合。
进一步的,利用词长、词位置、词的TF-IDF权重统计得分进行加权,计算每个词的综合得分;
其中,TF-IDF权重统计得分通过下述公式计算得到:
Figure 335348DEST_PATH_IMAGE017
其中,t为经过N-Gram处理得到的词,d为词t所在的待处理的论文,
Figure 281307DEST_PATH_IMAGE018
为论文d中包含的任一个词,
Figure 489434DEST_PATH_IMAGE019
为词t出现在论文d中的频次,
Figure 396210DEST_PATH_IMAGE020
为论文d中包含的任一个词在论文d中出现的频次,D为论文语料库,
Figure 246240DEST_PATH_IMAGE021
表示包含词t的文档数,
Figure 187652DEST_PATH_IMAGE022
表示词频,
Figure 894576DEST_PATH_IMAGE023
表示逆文档频率,
Figure 23069DEST_PATH_IMAGE024
表示TF-IDF得分。
进一步的,根据词位于标题和摘要中的位置计算得到位置得分,位置得分的计算公式为:
Figure 840853DEST_PATH_IMAGE025
其中,
Figure 371191DEST_PATH_IMAGE004
表示词的索引值。
进一步的,通过下述公式,计算每个词的综合得分:
Figure 249017DEST_PATH_IMAGE026
其中,
Figure 927123DEST_PATH_IMAGE004
表示词的索引值,
Figure 158385DEST_PATH_IMAGE027
表示词
Figure 933443DEST_PATH_IMAGE028
的长度,
Figure 388695DEST_PATH_IMAGE029
表示
Figure 491780DEST_PATH_IMAGE028
的位置得分,
Figure 323470DEST_PATH_IMAGE030
表示TF-IDF得分。
另一方面,还公开了一种计算机设备,包括至少一个处理器,以及至少一个与处理器通信连接的存储器;
存储器存储有可被处理器执行的指令,指令用于被处理器执行以实现前述的基于语义的无监督学术关键词提取方法。
本技术方案的有益效果:
1、本发明通过结合统计和语义计算的关键词提取方法,首先利用TF-IDF等统计特征对候选关键词进行排序,然后利用DSSM的双塔结构训练的无监督语义模型对候选关键词再次进行排序,过滤掉基于统计特征进行排序得到的语义不相关的候选关键词,输出最终的关键词,极大的提高了关键词提取的准确性。
2、本发明利用自主构建的学术词表进行分词,在构建学术词表时,同时考虑到N-Gram词频、点互信息(PMI)、时间影响因子及左右熵(Entropy)的影响,在文本预处理阶段提高了分词的准确性。
3、本发明在关键词粗排阶段,考虑关键词的词长、词所处位置和TF-IDF分数,对候选关键词进行综合排序,并返回高于阈值的词作为候选关键词。在关键词粗排阶段过滤了大量非关键词,提高了关键词提取的效率和精度。
4、本发明在构建论文语料库时,选用的论文涉及尽量多的领域,通过论文语料库中的论文构建学术词表,使得学术词表中包含了各个领域的学术词;且利用各个领域的论文标题和摘要进行深度语义模型训练,极大程度上提高了本发明学术关键词提取方法的泛化能力,能够适用于各个领域应用。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例的学术关键词提取方法流程图;
图2为本发明实施例的语义模型结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种基于语义的无监督学术关键词提取方法,如图1所示,包括以下步骤:
步骤S1:获取待识别文本,所述待识别文本包括论文的标题和摘要;
具体的,本实施例采用论文的标题和摘要作为待识别文本,进行论文的关键词提取。其中,论文可以为任意领域的具有标题和摘要的论文,将标题作为一个句子拼接在摘要开头,构成待识别文本。
步骤S2:基于预先构建的学术词表对所述待识别文本进行分词;
本实施例采用Jieba工具对待识别文本进行分词,由于本发明的目的是进行学术关键词提取,若采用分词工具的默认词表进行分词,分词后得到的词粒度比较粗,会影响后续学术关键词的提取效果。本实施例中加载预先构建学术词表,将学术词表中的学术词添加到Jieba分词工具的默认词表中;基于加载了学术词表的分词工具对待识别文本进行分词,能够最大限度的提取出待识别文本中的学术词,通过后续进行关键词排序,过滤掉非学术词,得到准确的学术关键词。
具体的,所述学术词表通过无监督方法构建,包括:
对论文语料库中的标题和摘要利用N-Gram算法进行N-Gram词频统计;基于N-Gram词频、点互信息、左右熵及时间影响因子计算经过N-Gram算法切分后得到的每个词的成词概率,选择成词概率大于概率阈值的词构建得到学术词表。
优选的,在构建学术词表时,本实施例采用的论文语料库包括50万篇论文的标题和摘要,其中的论文涉及尽量多的领域,以提高泛化能力。首先利用N-Gram算法对论文语料库中的论文标题和摘要进行词频统计,经N-Gram算法切分后得到的词中会包括不准确的词或停用词,停用词指的是在文本中出现频率很高但与文本内容不相关的词,所以需要基于N-Gram词频、点互信息、左右熵及时间影响因子计算每个词的成词概率,以排除不准确的词和停用词的影响,提高在实际应用中基于学术词表对待识别文本进行分词的质量。另外,进行词频统计时会得到少量英文单词,还可以对得到的英文单词进行归一化,包括删除重复空格和标点符号、统一大小写、缩写/同义词替换、拼写纠正、词形还原等。
其中,点互信息是两个词相互依赖性的量度。词
Figure 218613DEST_PATH_IMAGE002
和词
Figure 782450DEST_PATH_IMAGE031
的点互信息的值
Figure 763044DEST_PATH_IMAGE032
通过下述公式计算:
Figure 398425DEST_PATH_IMAGE033
其中,
Figure 492283DEST_PATH_IMAGE034
Figure 882813DEST_PATH_IMAGE035
分别为经过N-Gram算法得到的词或字,
Figure 757228DEST_PATH_IMAGE036
Figure 133983DEST_PATH_IMAGE037
Figure 738139DEST_PATH_IMAGE038
组合后的词组在论文语料库中出现的概率,
Figure 971675DEST_PATH_IMAGE039
Figure 271069DEST_PATH_IMAGE002
在论文语料库中出现的概率,
Figure 576148DEST_PATH_IMAGE040
Figure 706915DEST_PATH_IMAGE035
在论文语料库中出现的概率。
例如“机器”和“学习”两个词在论文语料库中出现的概率分别为0.000125和0.0001871,理论上如果“机器”和“学习”毫不相关,则它们恰好拼在一起的概率应该是0.000125×0.0001871,约为
Figure 49035DEST_PATH_IMAGE041
。而实际上,“机器学习”在这个论文语料库中出现的概率是
Figure 225938DEST_PATH_IMAGE042
。远高于预测的概率,因此把词真实出现的概率与预测的概率比值的对数称为点互信息,这个值越高则该词组单独成为词的概率也就越高。
信息熵是描述信息的混乱程度,也称为不确定程度。计算公式如下:
Figure 741233DEST_PATH_IMAGE043
其中,
Figure 929769DEST_PATH_IMAGE044
表示词
Figure 833003DEST_PATH_IMAGE002
的邻字信息熵,
Figure 169307DEST_PATH_IMAGE045
表示词
Figure 425976DEST_PATH_IMAGE002
的邻字
Figure 859231DEST_PATH_IMAGE046
出现的概率,
Figure 605470DEST_PATH_IMAGE047
表示词
Figure 101173DEST_PATH_IMAGE002
所有邻字的集合。
左右熵表示词的左邻字信息熵和右邻字信息熵,在计算成词概率时,引入信息熵计算公式分别计算得到左邻字信息熵和右邻字信息熵;在计算左邻字信息熵时,
Figure 551746DEST_PATH_IMAGE047
表示词
Figure 511612DEST_PATH_IMAGE002
的所有左邻字集合;在计算右邻字信息熵时,
Figure 632015DEST_PATH_IMAGE047
表示词
Figure 270807DEST_PATH_IMAGE002
的所有右邻字集合。其中,左邻字信息熵和右邻字信息熵越大的词,成词概率越大。
例如句子“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”的左邻字包括{吃,吐, 吃, 吐},右邻字包括{不, 皮, 倒, 皮}。
由信息熵的公式计算可以得到,“葡萄”的左熵为:
Figure 869278DEST_PATH_IMAGE048
它的右熵为:
Figure 683650DEST_PATH_IMAGE049
左右熵值表明词左右邻字信息的丰富程度,成词概率高的字符串应该拥有丰富的左右邻字信息。
通常一个词除了能够与其他词自由组合且频繁出现之外,还需要在一段时间内广泛被大量的论文提及,因此时间是衡量一个字符串是否成词的重要指标。通过计算包含词的论文发表时间与词首次出现时间的平均时间跨度作为时间影响因子,时间影响因子的计算公式如下所示:
Figure 99588DEST_PATH_IMAGE001
其中,n表示包含词
Figure 835463DEST_PATH_IMAGE002
的论文数量,
Figure 299942DEST_PATH_IMAGE003
表示包含词
Figure 296717DEST_PATH_IMAGE002
的第
Figure 758923DEST_PATH_IMAGE004
篇论文的发表年份,
Figure 778831DEST_PATH_IMAGE005
表示词
Figure 843739DEST_PATH_IMAGE006
在论文语料库中首次出现的论文发表的时间。
为了降低停用词的影响,本发明利用逆文档频率对成词概率进行加权计算,包含词的文档数越多,这个词的重要性越低,经过逆文档频率加权计算,排除这类词的影响。
成词概率计算公式如下所示:
Figure 835966DEST_PATH_IMAGE007
其中,
Figure 531390DEST_PATH_IMAGE008
表示论文总数,
Figure 835332DEST_PATH_IMAGE009
表示论文语料库中包含词
Figure 844876DEST_PATH_IMAGE002
的论文数,
Figure 753926DEST_PATH_IMAGE010
表示逆文档频率;
Figure 416989DEST_PATH_IMAGE011
表示词
Figure 614752DEST_PATH_IMAGE002
的N-Gram词频,即词
Figure 959146DEST_PATH_IMAGE002
在论文语料库中出现的频率,
Figure 785019DEST_PATH_IMAGE012
表示词
Figure 759929DEST_PATH_IMAGE002
的点互信息,
Figure 241726DEST_PATH_IMAGE013
表示左邻字信息熵,
Figure 452127DEST_PATH_IMAGE014
表示右邻字信息熵,
Figure 273452DEST_PATH_IMAGE015
表示词
Figure 481580DEST_PATH_IMAGE002
的所有左邻字集合,
Figure 247411DEST_PATH_IMAGE016
表示词
Figure 136869DEST_PATH_IMAGE002
的所有右邻字集合。
根据论文语料库中论文的标题和摘要通过N-Gram算法进行词频统计后得到的所有词的成词概率,选择成词概率大于阈值的词构建学术词表。优选的,本实施例中成词概率阈值设为0.5。
利用构建好的学术词表,通过分词工具,例如Jieba分词工具对待识别文本进行分词。例如输入句子“基于深度学习的复杂场景下人体行为识别研究”,经过分词模块的处理之后结果为:“基于”、“深度学习”、“的”、“复杂场景”、“下”、“人体”、“行为识别”、“研究”。步骤S3:根据分词后得到的每个词的词长、词位置和词的TF-IDF得分,计算每个词的综合得分;基于所述综合得分,得到候选关键词;
具体的,本实施例利用词长、词位置、词的TF-IDF权重等统计特征进行加权,根据加权后的综合得分对分此后得到的词进行关键词粗排,根据关键词粗排结果,得到候选关键词。其中TF-IDF权重需要对整个论文语料库数据进行IDF权重统计,然后对于每个待识别文本,统计每个词的在待识别文本中的词频并乘以该词的IDF权重得到最终的TF-IDF得分。TF-IDF计算公式如下:
Figure 875018DEST_PATH_IMAGE017
其中,t为经过N-Gram处理得到的词,d为词t所在的待处理的论文,
Figure 50784DEST_PATH_IMAGE018
为论文d中包含的任一个词,
Figure 241594DEST_PATH_IMAGE019
为词t出现在论文d中的频次,
Figure 934744DEST_PATH_IMAGE020
为论文d中包含的任一个词在论文d中出现的频次,D为论文语料库,
Figure 589716DEST_PATH_IMAGE021
表示包含词t的文档数,
Figure 342909DEST_PATH_IMAGE022
表示词频,
Figure 21015DEST_PATH_IMAGE023
表示逆文档频率,
Figure 376909DEST_PATH_IMAGE024
表示TF-IDF得分。
根据词位于标题和摘要中的位置计算得到位置得分,所述位置得分的计算公式为:
Figure 761754DEST_PATH_IMAGE025
其中,
Figure 482586DEST_PATH_IMAGE004
表示词的索引值;
通过下述公式,计算每个词的综合得分:
Figure 975884DEST_PATH_IMAGE026
其中,
Figure 745257DEST_PATH_IMAGE004
表示词的索引值,
Figure 374821DEST_PATH_IMAGE027
表示词
Figure 266554DEST_PATH_IMAGE028
的长度,
Figure 856935DEST_PATH_IMAGE029
表示
Figure 226737DEST_PATH_IMAGE028
的位置得分,
Figure 976387DEST_PATH_IMAGE030
表示TF-IDF得分。如果候选词位于标题,则位置权重为常数2,如果候选词位于摘要中,则词的位置越靠前得分相对越高。
例如对于输入论文标题“基于深度学习的复杂场景下人体行为识别研究”,经过分词之后,根据词长、词所处位置、TF-IDF分数计算得到综合得分如表1所示:
Figure 976704DEST_PATH_IMAGE050
关键词综合得分示例
Figure 851119DEST_PATH_IMAGE051
根据综合得分进行排序,并返回高于阈值的词作为候选关键词。
本实施例设定阈值为1.2,则候选词“基于”、“的”、“下”在关键词粗排阶段被过滤掉,剩余的候选关键词包括“深度学习”、“复杂场景”、“人体”、“行为识别”、“研究”。
步骤S4:将所述候选关键词与所述待识别文本输入预先训练的深度语义模型,得到所述关键词与所述待识别文本的语义相似度;选择所述语义相似度大于阈值的关键词,得到所述论文的学术关键词。
具体的,所述深度语义模型的训练包括:
构建论文语料库,所述论文语料库中包括多个论文的标题及对应的摘要;
将所述论文语料库中论文的标题、标题对应的摘要和论文语料库中随机抽取的n个摘要输入DSSM的双塔结构模型,计算论文的标题与摘要的相似度,经过损失函数迭代更新,最大化所述标题与标题对应的摘要的语义相似度,得到训练好的深度语义模型,其中,n为大于1的整数。
采用DSSM的双塔结构模型训练的所述深度语义模型包括输入层、表示层和匹配层;
所述输入层采用N-Gram模型对输入的标题和摘要分别进行降维,得到降维压缩后的低维语义向量;
所述表示层包括三层全连接层,每层使用非线性激活函数进行激活,对所述低维语义向量进行特征整合得到固定维度的表示层隐向量;
所述匹配层基于所述表示层隐向量计算得到所述标题和摘要的语义相似度。
更具体的,本实施例利用深度语言模型计算候选关键词和论文标题摘要的语义相似度。关键词粗排虽然能够从统计角度过滤掉部分不重要的词,但是还是会错误的把语义不相关的词错误判断成关键词,因此在此步骤利用无监督深度语义模型对候选关键词进行精排,计算标题摘要和候选关键词语义,使得不相关的候选关键词和标题摘要的语义距离足够大,并且能够通过设定阈值的方式进行过滤。
首先利用深度语义模型对标题摘要以及候选关键词进行编码得到对应的向量表示,随后利用余弦相似度计算候选关键词和标题摘要向量的距离,余弦相似度计算公式如下:
Figure 618087DEST_PATH_IMAGE052
其中A, B分别表示候选关键词和标题摘要的向量。
传统的语义表示学习方法通常需要相似句子对进行有监督学习,但是相似句子对需要高昂的人工标注成本,考虑到论文的结构特点,本发明提出了利用标题和摘要作为相似句子对进行语义模型训练的方法。标题和摘要的语义应该是近似相等的,论文摘要是对标题的进一步表述,因此它们在语义空间上的距离应该的很小的。为了更好的建模深度语义模型,本实施例采用DSSM的双塔结构模型进行训练,如图2所示,通过DSSM模型进行语义相似度计算。模型使用论文中的标题和摘要作为输入,用深度神经网络模型把标题和摘要表达为低维语义向量,并通过余弦距离来计算两个语义向量的距离,最后输出标题和摘要的语义相似度。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达,从而实现关键词和论文标题/摘要的语义相似度计算。
具体的,DSSM的双塔结构模型训练的深度语义模型包括输入层、表示层、匹配层三层结构。
其中,输入层采用N-Gram模型对输入词进行降维,从而实现对向量的压缩。在处理英文论文时,采用tri-gram模型进行压缩,即按照每3个字符进行切分,例如输入单词“algorithm”会被切分为“#al”、“alg”、“lgo”、“gor”、“ori”、“rit”、“ith”、“thm”、“hm#”,这样做的优点首先在于可以压缩词向量占用空间,50 万个词的 one-hot 向量空间可以通过tri-gram压缩为一个3万维的向量空间;其次是增强泛化能力。中文论文采用uni-gram模型,即将每个字符作为最小单位,例如输入词“机器学习”,会被切分为“机”、“器”、“学”、“习”。采用字向量作为输入,向量空间约为1.5万维,其中,维度由汉语常用单字数量决定。
表示层包含三层全连接层,每层使用非线性激活函数进行激活。
匹配层使用余弦距离计算正负样本相似度,并使用负对数似然损失函数优化神经网络。模型使用论文的标题和摘要作为输入数据进行训练;其中,正样本为标题对应的摘要,负样本为随机从论文语料库中采样的摘要,随机采样的摘要不包括标题对应的摘要。
中间网络层以及输出层均采用全连接神经网络。用
Figure 832030DEST_PATH_IMAGE053
表示第
Figure 65566DEST_PATH_IMAGE004
层的权值矩阵,
Figure 755173DEST_PATH_IMAGE054
表示第
Figure 404460DEST_PATH_IMAGE004
层的偏置项。第
Figure 800806DEST_PATH_IMAGE004
个中间网络层编码得到隐层向量
Figure 533139DEST_PATH_IMAGE055
,输出层编码得到输出向量
Figure 319830DEST_PATH_IMAGE056
可以分别表示为:
Figure 835124DEST_PATH_IMAGE057
其中f表示双曲正切激活函数,双曲正切函数定义如下所示:
Figure 413873DEST_PATH_IMAGE058
经过中间网络层和输出层编码得到128维度的语义向量。标题和摘要的语义相似性可以用这两个语义向量的余弦相似度来表示:
Figure 926894DEST_PATH_IMAGE059
其中
Figure 263198DEST_PATH_IMAGE060
Figure 910080DEST_PATH_IMAGE061
分别表示论文Q和论文D的的向量表示。
通过softmax函数可以把标题与正样本摘要的语义相似性转化为后验概率:
Figure 953122DEST_PATH_IMAGE062
其中γ为softmax函数的平滑因子,
Figure 699361DEST_PATH_IMAGE063
为和标题Q对应的摘要,
Figure 585278DEST_PATH_IMAGE064
包括标题Q对应的摘要和随机采样的摘要,R函数表示余弦距离函数,D为标题下的整个样本空间。
在训练阶段,通过极大似然估计,我们最小化损失函数,使得经过softmax函数归一化计算之后,标题和正样本摘要的相似度最大:
Figure 645638DEST_PATH_IMAGE065
利用标题和摘要作为相似对训练得到深度语义模型,然后可以使用这个模型对候选关键词进行语义编码,并通过余弦距离计算候选关键词与论文标题摘要的语义相似度。
例如对于输入论文标题“基于深度学习的复杂场景下人体行为识别研究”,以及候选关键词“深度学习”、“复杂场景”、“人体”、“行为识别”、“研究”,分别利用DSSM结构训练的语义模型对它们进行编码,然后利用余弦距离分别计算候选关键词与标题的语义相似度并进行排序。得到关键词精排结果如表2所示:
表 2关键词精排示例
Figure 605503DEST_PATH_IMAGE066
假设语义相似度阈值为0.6,则最终输出“行为识别”、“深度学习”、“复杂场景”作为最终的关键词。
本实施例的实验结果:
(1)效率
在40万的论文数据上,对论文的标题和摘要进行关键词提取,验证本发明的学术关键词提取方法的效率。实验结果表明,该方法在效率上远高于基于语义的关键词提取算法。虽然相比TF-IDF等简单的统计方法多了语义计算的步骤,但是在速度上本发明提出的关键词提取方法并没有明显的下降,其中批量提取关键词速度大约是KeyBert的100倍。对于单篇文档,本专利的处理速度大约是0.01秒/篇。
(2)精度
在公开的论文数据上随机抽取500篇中文论文进行关键词提取结果的对比评测,本发明提出的方法准确率0.83,高于TF-IDF的0.65,以及KeyBert的0.78。因此本专利提出的方法在保证了效率的同时,同时具有较高的精度。
本发明的另一个实施例,还公开了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于语义的无监督学术关键词提取方法。
综上所述,本发明公开了一种基于语义的无监督学术关键词提取方法及设备,该方法综合了统计方法和基于深度学习的语义匹配算法,通过预先构建的学术词表进行分词,然后利用TF-IDF等统计特征对候选关键词进行排序,最后利用DSSM的双塔结构训练的无监督语义模型对候选关键词再次进行排序,输出最终的关键词及其权重。本发明在构建论文语料库时,选用的论文涉及尽量多的领域,通过论文语料库中的论文构建学术词表,使得学术词表中包含了各个领域的学术词;且利用各个领域的论文标题和摘要进行深度语义模型训练,极大程度上提高了本发明学术关键词提取方法的泛化能力,能够适用于各个领域应用。实验表明,该方法相比其他算法在精度和效率上均具有明显的优势。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于语义的无监督学术关键词提取方法,其特征在于,包括以下步骤:
获取待识别文本,所述待识别文本包括论文的标题和摘要;
基于预先构建的学术词表对所述待识别文本进行分词;所述学术词表通过无监督方法构建,包括:对论文语料库中的标题和摘要进行词频统计;基于N-Gram词频、点互信息、左右熵及时间影响因子计算分词后得到的每个词的成词概率,选择成词概率大于概率阈值的词构建得到学术词表;
所述时间影响因子基于包含分词后得到的词的论文发表时间与词首次出现时间的平均时间跨度计算得到,时间影响因子
Figure DEST_PATH_IMAGE001
的计算公式为:
Figure DEST_PATH_IMAGE002
其中,n表示包含词
Figure DEST_PATH_IMAGE003
的论文数量,
Figure DEST_PATH_IMAGE004
表示包含词
Figure 250465DEST_PATH_IMAGE003
的第
Figure DEST_PATH_IMAGE005
篇论文的发表年份,
Figure DEST_PATH_IMAGE006
表示词
Figure DEST_PATH_IMAGE007
在论文语料库中首次出现的论文发表的时间;
通过下述公式计算成词概率:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
表示论文总数,
Figure DEST_PATH_IMAGE010
表示论文语料库中包含词
Figure 125142DEST_PATH_IMAGE003
的论文数,
Figure DEST_PATH_IMAGE011
表示逆文档频率;
Figure DEST_PATH_IMAGE012
表示词
Figure DEST_PATH_IMAGE013
的N-Gram词频,即词
Figure 458035DEST_PATH_IMAGE003
在论文语料库中出现的频率,
Figure DEST_PATH_IMAGE014
表示词
Figure 256095DEST_PATH_IMAGE003
的点互信息,
Figure DEST_PATH_IMAGE015
表示左邻字信息熵,
Figure DEST_PATH_IMAGE016
表示右邻字信息熵,
Figure DEST_PATH_IMAGE017
表示词
Figure 16241DEST_PATH_IMAGE003
的所有左邻字集合,
Figure DEST_PATH_IMAGE018
表示词
Figure 706111DEST_PATH_IMAGE003
的所有右邻字集合;d为词
Figure 170590DEST_PATH_IMAGE003
所在的待处理的论文,D为论文语料库;
根据分词后得到的每个词的词长、词位置和词的TF-IDF得分,计算每个词的综合得分;基于所述综合得分,得到候选关键词;
将所述候选关键词与所述待识别文本输入预先训练的深度语义模型,得到所述关键词与所述待识别文本的语义相似度;选择所述语义相似度大于阈值的关键词,得到所述论文的学术关键词。
2.根据权利要求1所述的学术关键词提取方法,其特征在于,所述深度语义模型的训练包括:
构建论文语料库,所述论文语料库中包括多个论文的标题及对应的摘要;
将所述论文语料库中论文的标题、标题对应的摘要和论文语料库中随机抽取的m个摘要输入DSSM的双塔结构模型,计算论文的标题与摘要的相似度,经过损失函数迭代更新,最大化所述标题与标题对应的摘要的语义相似度,得到训练好的深度语义模型;m为大于1的整数。
3.根据权利要求2所述的学术关键词提取方法,其特征在于,采用DSSM的双塔结构模型训练的所述深度语义模型包括输入层、表示层和匹配层;
所述输入层采用N-Gram模型对输入的标题和摘要分别进行降维,得到降维压缩后的低维语义向量;
所述表示层包括三层全连接层,每层使用非线性激活函数进行激活,对所述低维语义向量进行特征整合得到固定维度的表示层隐向量;
所述匹配层基于所述表示层隐向量计算得到所述标题和摘要的语义相似度。
4.根据权利要求1所述的学术关键词提取方法,其特征在于,利用词长、词位置、词的TF-IDF权重统计得分进行加权,计算每个词的综合得分;
其中,TF-IDF权重统计得分通过下述公式计算得到:
Figure DEST_PATH_IMAGE020
其中,t为经过N-Gram处理得到的词,d为词t所在的待处理的论文,
Figure DEST_PATH_IMAGE021
为论文d中包含的任一个词,
Figure DEST_PATH_IMAGE022
为词t出现在论文d中的频次,
Figure DEST_PATH_IMAGE023
为论文d中包含的任一个词在论文d中出现的频次,D为论文语料库,
Figure DEST_PATH_IMAGE024
表示论文语料库中包含词t的论文数,
Figure DEST_PATH_IMAGE025
表示词频,
Figure DEST_PATH_IMAGE026
表示逆文档频率,
Figure DEST_PATH_IMAGE027
表示TF-IDF得分。
5.根据权利要求1或4所述的学术关键词提取方法,其特征在于,根据词位于标题和摘要中的位置计算得到位置得分,所述位置得分的计算公式为:
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
表示词的索引值。
6.根据权利要求1所述的学术关键词提取方法,其特征在于,通过下述公式,计算每个词的综合得分:
Figure DEST_PATH_IMAGE030
其中,
Figure 262305DEST_PATH_IMAGE029
表示词的索引值,
Figure DEST_PATH_IMAGE031
表示词
Figure DEST_PATH_IMAGE032
的长度,
Figure DEST_PATH_IMAGE033
表示
Figure 442619DEST_PATH_IMAGE032
的位置得分,
Figure DEST_PATH_IMAGE034
表示TF-IDF得分。
7.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的基于语义的无监督学术关键词提取方法。
CN202211118339.2A 2022-09-15 2022-09-15 一种基于语义的无监督学术关键词提取方法及设备 Active CN115186665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118339.2A CN115186665B (zh) 2022-09-15 2022-09-15 一种基于语义的无监督学术关键词提取方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118339.2A CN115186665B (zh) 2022-09-15 2022-09-15 一种基于语义的无监督学术关键词提取方法及设备

Publications (2)

Publication Number Publication Date
CN115186665A CN115186665A (zh) 2022-10-14
CN115186665B true CN115186665B (zh) 2023-02-21

Family

ID=83524650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118339.2A Active CN115186665B (zh) 2022-09-15 2022-09-15 一种基于语义的无监督学术关键词提取方法及设备

Country Status (1)

Country Link
CN (1) CN115186665B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050391B (zh) * 2022-11-17 2024-05-14 西安电子科技大学广州研究院 基于细分行业纠错词表的语音识别纠错方法及装置
CN115859964B (zh) * 2022-11-24 2023-04-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统
CN116308635B (zh) * 2023-02-23 2023-09-29 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN111177365B (zh) * 2019-12-20 2022-08-02 山东科技大学 一种基于图模型的无监督自动文摘提取方法
KR102546895B1 (ko) * 2020-11-05 2023-06-23 한국과학기술정보연구원 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치
CN113434636B (zh) * 2021-06-30 2024-06-18 平安科技(深圳)有限公司 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN113268995B (zh) * 2021-07-19 2021-11-19 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法

Also Published As

Publication number Publication date
CN115186665A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN110222250A (zh) 一种面向微博的突发事件触发词识别方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN115392244A (zh) 一种学术关键词批量识别系统
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN115062602B (zh) 对比学习的样本构造方法、装置及计算机设备
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant