CN112580352A - 关键词提取方法、装置和设备及计算机存储介质 - Google Patents

关键词提取方法、装置和设备及计算机存储介质 Download PDF

Info

Publication number
CN112580352A
CN112580352A CN202110223057.8A CN202110223057A CN112580352A CN 112580352 A CN112580352 A CN 112580352A CN 202110223057 A CN202110223057 A CN 202110223057A CN 112580352 A CN112580352 A CN 112580352A
Authority
CN
China
Prior art keywords
vector
feature
title
participle
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110223057.8A
Other languages
English (en)
Other versions
CN112580352B (zh
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110223057.8A priority Critical patent/CN112580352B/zh
Publication of CN112580352A publication Critical patent/CN112580352A/zh
Application granted granted Critical
Publication of CN112580352B publication Critical patent/CN112580352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关键词提取方法、装置和设备及计算机存储介质,涉及计算机技术领域,在该方法中,通过对目标标题以及各个分词进行特征编码,获得标题特征矩阵和各个词向量,再将标题特征矩阵与各个词向量进行拼接处理,并对各个拼接特征矩阵进行特征提取,获得各个分词各自对应的融合特征向量,进而基于获得的各个融合特征向量,分别确定相应分词在目标标题中的权重值,基于获得的各个权重值,从各个分词中提取出关键词。其中,通过对拼接之后的拼接特征矩阵进行特征提取,以对特征矩阵中的冗余特征进行筛除,得到对于分词的权重判定有用的特征,从而使得标题特征与分词特征有效的进行融合,进而提升标题词权重任务的准确率。

Description

关键词提取方法、装置和设备及计算机存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能(Artificial Intelligence,AI)技术领域,提供一种关键词提取方法、装置和设备及计算机存储介质。
背景技术
标题词权重任务(term-weights)是提取句子核心语义成分,消除冗余成分的影响的主要方式,该任务主要目的是通过理解句子语义给予每个分词权重值,即给予句子中的核心成分高权重而给予其他的词语低权重,从而在业务应用中减少句子中非主成分词语对句子整体语义的影响,区别出句子成分主次。
目前,词权重任务大多采用统计方式完成,其中统计是一种无监督方式,代表方式为词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)、互信息(mutual information,MI)等。
但是,基于统计的方式仅仅是基于全局语料进行词频统计,无法将词语和句子具体的语义建立联系,因而并未考虑到句子语义对分词权重值的影响,因而核心成分提取的准确率不高。
因此,如何提升标题词权重任务的准确率是目前亟待解决的问题。
发明内容
本申请实施例提供一种关键词提取方法、装置和设备及计算机存储介质,用于提升标题词权重任务的准确率。
一方面,提供一种关键词提取方法,所述方法包括:
对目标标题进行特征编码,获得所述目标标题对应的标题特征矩阵;以及,对所述目标标题包含的各个分词进行特征编码,获得所述各个分词各自对应的词向量;
分别对所述标题特征矩阵与所述各个词向量进行拼接处理,获得所述各个分词各自对应的拼接特征矩阵,以及分别对获得的各个所述拼接特征矩阵进行特征提取,获得所述各个分词各自对应的融合特征向量;
基于获得的各个所述融合特征向量,分别确定相应分词在所述目标标题中的权重值,每个分词的权重值表征相应分词对于所述目标标题的语义理解的影响程度;
基于获得的各个权重值,从所述各个分词中提取出关键词。
一方面,提供一种关键词提取装置,所述装置包括:
特征编码单元,用于对目标标题进行特征编码,获得所述目标标题对应的标题特征矩阵;以及,对所述目标标题包含的各个分词进行特征编码,获得所述各个分词各自对应的词向量;
拼接单元,用于分别对所述标题特征矩阵与所述各个词向量进行拼接处理,获得所述各个分词各自对应的拼接特征矩阵;
特征提取单元,用于分别对获得的各个所述拼接特征矩阵进行特征提取,获得所述各个分词各自对应的融合特征向量;
权重值确定单元,用于基于获得的各个所述融合特征向量,分别确定相应分词在所述目标标题中的权重值,每个分词的权重值表征相应分词对于所述目标标题的语义理解的影响程度;
关键词提取单元,用于基于获得的各个权重值,从所述各个分词中提取出关键词。
可选的,所述特征编码单元,具体用于:
分别获取所述目标标题中各个分词各自对应的内容向量、位置向量以及标题类型向量;其中,一个分词对应一个内容向量、一个位置向量以及一个标题类型向量,所述内容向量用于表征所述一个分词的内容,所述位置向量用于表征所述一个分词与所述目标标题中其他分词之间的相对位置关系,所述标题类型向量用于表征所述目标标题的句子类型;
基于各个分词各自对应的内容向量、位置向量以及标题类型向量,获得相应分词的组合向量;
对获得的各个组合向量进行特征提取,获得所述标题特征矩阵。
可选的,所述特征编码单元,具体用于:
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行拼接处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行叠加处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行池化处理,获得相应分词的组合向量。
可选的,所述特征编码单元,具体用于:
根据所述各个组合向量与相应的注意力权重矩阵,获得所述各个分词对应的注意力权重向量;其中,一个分词对应的注意力权重向量中各个值分别表征所述各个分词对于所述一个分词的注意力权重;
根据所述各个分词对应的注意力权重向量,以及所述各个组合向量,获得所述标题特征矩阵;其中,所述标题特征矩阵中一个特征向量是根据所述一个注意力权重向量中各个注意力权重,与相应组合向量进行加权求和获得的。
可选的,所述拼接单元,具体用于:
分别将各个词向量添加至所述标题特征矩阵的末尾,获得各个分词各自对应的拼接特征矩阵;或者,
分别将各个词向量添加至所述标题特征矩阵中各个特征向量的末尾,获得各个分词各自对应的拼接特征矩阵。
可选的,所述特征提取单元,具体用于:
分别针对所述各个分词执行以下操作:
分别基于预设的各个特征窗口,对所述各个分词中的一个分词对应的拼接特征矩阵进行特征提取,获得相应的多个第一中间特征向量;其中,不同特征窗口的大小不相同,以及在基于一个特征窗口对所述拼接特征矩阵进行特征提取时,从所述拼接特征矩阵的首行开始,按照所述一个特征窗口滑动进行特征提取,获得所述一个特征窗口对应的第一中间特征向量;
对获得的各个第一中间特征向量进行拼接处理,获得所述一个分词对应的融合特征向量。
可选的,所述特征提取单元,具体用于:
根据与所述一个特征窗口大小适配的卷积核,对所述拼接特征矩阵进行至少一次卷积运算,获得第二中间特征向量;其中,所述第二中间特征向量中的一个值对应一次卷积运算结果;
对所述第二中间特征向量进行池化处理,获得所述第一中间特征向量。
可选的,所述一个特征窗口对应至少两个卷积核;则所述特征提取单元,具体用于:
根据所述至少两个卷积核中每一个卷积核,分别对所述拼接特征矩阵进行至少一次卷积运算,获得至少两个第二中间特征向量;
对所述至少两个第二中间特征向量中每一个第二中间特征向量进行池化处理,获得至少两个第三中间特征向量;
对所述至少两个第三中间特征向量进行拼接处理,获得所述第一中间特征向量。
可选的,所述装置还包括匹配单元,用于:
获取待匹配的关键词;将所述关键词与标题库中各个标题进行关键词匹配,获得至少一个候选标题;根据所述至少一个候选标题中各个关键词的权重,对所述至少一个候选标题进行排序;根据排序结果确定所述关键词的匹配标题。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。
本申请实施例中,通过对目标标题以及各个分词进行特征编码,获得标题特征矩阵和各个词向量,再将标题特征矩阵与各个词向量进行拼接处理,并对各个拼接特征矩阵进行特征提取,获得各个分词各自对应的融合特征向量,进而基于获得的各个融合特征向量,分别确定相应分词在目标标题中的权重值,基于获得的各个权重值,从各个分词中提取出关键词。本申请实施例中,通过分别对标题与分词进行编码并进行拼接,并对拼接特征矩阵进行特征提取,以对特征矩阵中的冗余特征进行筛除,得到对于分词的权重判定有用的特征,从而使得标题特征与分词特征有效的进行融合,进而提升标题词权重任务的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的场景示意图;
图2为本申请实施例提供的权重确定模型的网络结构示意图;
图3为本申请实施例提供的权重确定模型的训练流程示意图;
图4为本申请实施例提供的关键词提取方法的流程示意图;
图5为本申请实施例提供的对目标标题进行特征编码过程的流程示意图;
图6为本申请实施例提供的各个分词的组合向量获取示意图;
图7为本申请实施例提供的叠加获得组合向量的示意图;
图8为本申请实施例提供的池化获得组合向量的示意图;
图9为本申请实施例提供的一种拼接特征矩阵的示意图;
图10为本申请实施例提供的另一种拼接特征矩阵的示意图;
图11为本申请实施例提供的利用CNN进行特征提取的一种过程示意图;
图12为本申请实施例提供的利用CNN进行特征提取的另一种过程示意图;
图13为本申请实施例提供的一种权重值获取结果示意图;
图14为本申请实施例提供的另一种权重值获取结果示意图;
图15为本申请实施例提供的关键词提取装置的一种结构示意图;
图16为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
标题:从狭义上讲,标题是指表明文章或者视频等作品的简短语句,从广义上来讲,标题可以是指包含多个词语的句子,本申请实施例的标题可以是指作品标题,也可以是指任意的句子,例如文章或者新闻中的句子。
下面,将先对本申请实施例涉及的技术进行简单介绍。
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的NLP以及ML等技术。在NLP中,标题词权重任务是提取句子核心语义成分,消除冗余成分的影响的主要方式,但是目前,词权重任务大多采用统计方式完成,而基于统计的方式仅仅是基于全局语料进行词频统计,无法将词语和句子具体的语义建立联系,因而并未考虑到句子语义对分词权重值的影响,因而核心成分提取的准确率不高。
鉴于此,本申请实施例提供一种关键词提取方法,在该方法中,通过对目标标题以及各个分词进行特征编码,获得标题特征矩阵和各个词向量,再将标题特征矩阵与各个词向量进行拼接处理,并对各个拼接特征矩阵进行特征提取,获得各个分词各自对应的融合特征向量,进而基于获得的各个融合特征向量,分别确定相应分词在目标标题中的权重值,基于获得的各个权重值,从各个分词中提取出关键词。本申请实施例中,通过分别对标题与分词进行编码并进行拼接,并对拼接特征矩阵进行特征提取,以对特征矩阵中的冗余特征进行筛除,得到对于分词的权重判定有用的特征,从而使得标题特征与分词特征有效的进行融合,进而提升标题词权重任务的准确率。
此外,本申请实施例中在进行特征提取时,采用卷积操作进行特征提取,以对标题与分词进行更好的融合,提升融合效果,进而提升标题词权重任务的准确率。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的方案可以适用于语义理解、文本检索以及推荐场景中,如图1所示,为本申请实施例提供的一种场景示意图,在该场景中,可以包括关键词提取设备10和终端20。
其中,关键词提取设备10是具有一定处理能力的计算机设备,例如可以为个人计算机(personal computer,PC)、笔记本电脑或者服务器等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
关键词提取设备10包括一个或多个处理器101、存储器102以及与其他设备交互的I/O接口103等。此外,关键词提取设备10还可以配置数据库104,数据库104可以用于存储本申请实施例提供的方案中涉及到的模型数据、接收到的视频流等数据。其中,关键词提取设备10的存储器102中可以存储本申请实施例提供的关键词提取方法的程序指令,这些程序指令被处理器101执行时能够用以实现本申请实施例提供的关键词提取方法的步骤,以从标题中进行关键词的提取。
终端20为任意能够提供输入和搜索功能界面的终端设备,例如可以为手机、平板电脑(PAD)、个人计算机(personal computer,PC)、笔记本电脑或者可穿戴智能设备等。
在实际应用时,关键词提取设备10可以为搜索服务器,用户可以在终端20的搜索界面中输入需要搜索的内容,进而向关键词提取设备10发起搜索请求,相应的,关键词提取设备10可以接收到用户输入的内容,并根据该内容进行内容匹配,以获取相关的候选内容,同时,那么关键词提取设备10可以对用户输入的内容进行关键词提取,进而基于提取的关键字对输入的内容进行语义理解,以辅助进行内容筛选,以确定最终返回给用户的内容。
或者,关键词提取设备10可以对句子库中的各个句子进行关键词提取,进而在接收到用户输入的待匹配的关键词时,将关键词与标题库中各个标题进行关键词匹配,获得候选标题,并可以根据候选标题中各个关键词的权重,对至少一个候选标题进行排序,从而根据排序结果确定关键词的匹配标题。例如,在视频搜索场景中,可以对视频标题进行关键词的提取,进而在用户在视频应用中输入关键字进行视频搜索时,可以根据关键字匹配相关的视频标题,并可根据视频标题中关键字的权重进行排序,从而输出最终的匹配视频。
关键词提取设备10和终端20之间可以通过一个或者多个网络30进行直接或间接的通信连接。该网络30可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本申请实施例对此不做限制。
在一种可能的实施方式中,本申请实施例的技术方案可以结合区块链(Blockchain)技术来实现。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在本申请实施例中,区块链可以用于存储关键词提取结果,以及用户的搜索记录以及基于搜索内容反馈给用户的数据等内容。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其他可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
本申请实施例提供的关键词提取方法可以通过图1中的关键词提取设备10来执行,该方法的具体流程介绍如下。
本申请实施例中,关键词提取的过程可以包括标题词权重任务和提取任务两个过程,其中,标题词权重任务是指获取目标标题中各个分词的权重值,进而提取任务可以根据获得权重值进行关键词的提取,其中,权重值可用于表征各个分词对于目标标题的语义理解的影响程度。
本申请实施例中,为了提升标题词权重任务所获得的权重值的准确性,可以采用基于深度学习的神经网络模型来获取目标标题中各个分词的权重值。下面,以一种可能的神经网络模型为例对本申请实施例的技术方案进行介绍。
参见图2所示,为本申请实施例提供的权重确定模型的网络结构示意图,其中,该权重确定模型可以包括编码层、拼接层、特征提取层以及分类层,编码层包括编码器(encoder)1和编码器2,分别用于标题与分词的特征编码,拼接层用于实现编码层输出的特征向量的拼接,特征提取层则用于对拼接层输出的结果进行特征提取,以用于分类层进行分类,从而获得标题中各个分词的权重。由于各个层所执行的过程将在后续详细进行介绍,因而在此先不过多进行介绍。
在权重确定模型投入使用之前,首先需要对该模型进行训练,因此,下面先对权重确定模型的训练过程进行介绍。请参见图3,为权重确定模型的训练流程示意图。
步骤301:获取多个训练样本。
本申请实施例中,每个训练样本可以包括一个标题和该标题中的一个分词,并且每个训练样本标注了该训练样本中分词是否为关键词的标签(label),其中,标签可以通过两种不同的值来表征是否为关键词,例如可以用0和1进行表示,当分词为关键词时,则该训练样本的标签为1,否则,当分词不是关键词时,则该训练样本的标签为0,或者,也可以当分词为关键词时,则该训练样本的标签为0,否则,当分词不是关键词时,则该训练样本的标签为1,当然,也可以采用其他可能的值来进行表示,本申请实施例对此并不进行限制。
如表1所示,为训练样本的数据格式的示意。其中,以标题为“跳一跳,教你上600分的攻略”为例,其可以构成多个训练样本,且对于该标题的理解,其重点在于跳一跳的攻略,因为将其中“跳一跳”作为训练样本的分词时,由于“跳一跳”对于该标题的语义理解的作用是很大的,即“跳一跳”为核心词,因此其对应的训练样本的标签为1,同理,“攻略”对应的训练样本的标签也为1,那么{“跳一跳,教你上600分的攻略”,“跳一跳”}和{“跳一跳,教你上600分的攻略”,“攻略”}即可以构成一个经标注的正样本。而对于标题中的分词“教你”或者“的”相对而言,其对于该标题的语义理解的作用较小,即“教你”或者“的”为非核心词,因而其对应的训练样本的标签为0,那么{“跳一跳,教你上600分的攻略”,“教你”}和{“跳一跳,教你上600分的攻略”,“的”}即可以构成一个经标注的负样本。
Figure DEST_PATH_IMAGE002
表1
通过上述的过程,可以获得多个正样本和负样本,从而通过构造的训练样本对权重确定模型进行训练。训练样本的格式可以如下:
正样本:{“标题”:“跳一跳,教你上600分的攻略”,“当前词”:“跳一跳”,“label”:1}
负样本:{“标题”:“跳一跳,教你上600分的攻略”,“当前词”:“教你”,“label”:0}
当然,也可以采用其他可能的样本格式,本申请实施例对此不做限制。
步骤302:利用权重确定模型确定各个训练样本中分词的权重值。
本申请实施例中,每个训练样本均包括一个标题和该标题中的一个分词,那么通过权重确定模型则可以确定每个训练样本中分词的权重值。其中,权重确定模型确定权重值的过程将在后续具体进行介绍,因此这里先不过多赘述。
步骤303:根据获得的各个权重值确定权重确定模型的损失值。
本申请实施例中,在获取了各个训练样本中分词的权重值之后,则可以将获得的权重值与训练样本中的标签指示的权重值进行比较,从而基于获得权重值与标签指示的权重值之间的差异程度,来确定权重确定模型的损失值,从而确定权重确定模型的准确程度。一般而言,当获得的权重值与标签指示的权重值之间的差异程度越小,例如标签为1时,而权重确定模型获得的权重值为0.95,或者,标签为0时,而权重确定模型获得的权重值为0.02,那么表明权重确定模型确定的权重值更为接近真实值,因此其准确程度是更高的。
步骤304:根据损失值确定权重确定模型是否收敛。
步骤305:当确定权重确定模型未收敛时,根据损失值对权重确定模型进行模型参数的调整。
步骤306:当确定权重确定模型收敛时,结束训练。
本申请实施例中,当损失值小于设定的损失阈值时,则表明权重确定模型的准确度能够达到要求,因而可以确定权重确定模型收敛,相反的,当损失值不小于设定的损失阈值时,则表明权重确定模型的准确度未能达到要求,那么还需要进一步的对权重确定模型进行参数调整,并通过参数调整后的权重确定模型进行后续的训练流程,即重复进行步骤302~304的过程。
本申请实施例中,在权重确定模型收敛之后,则可以利用权重确定模型进行实际的权重确定过程了。请参见图4,为以图2所示的权重确定模型为例的关键词提取方法的流程示意图。
步骤401:对目标标题进行分词操作,获得目标标题中的各个分词。
本申请实施例中,分词(Word Segmentation)操作的过程是指将一个句子切分成一个个单独的词,可以通过任意可能的分词方法进行分词操作,例如字符匹配方法、理解法或者统计法,也可以采用相应的分词工具进行分词操作,例如结巴(jieba)分词等。
步骤402:对目标标题进行特征编码,获得目标标题对应的标题特征矩阵。
本申请实施例中,可以通过权重确定模型所包括的编码层实现特征编码的过程。其中,对于目标标题的特征编码可以通过如图2所示的编码器1来实现。
具体的,编码器1可以采用任意可能的语义编码方式进行特征编码,以获得目标标题的标题特征矩阵,例如可以采用BERT(Bidirectional Encoder Representation fromTransformers)、卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆人工神经网络(Long-Short Term Memory,LSTM)或者LSTM结合注意力(Attention)机制等多种方式完成。
具体的,在采用上述方式进行特征编码时,编码器可以是预训练完成的,也可以在权重确定模型的训练过程中一同进行训练。
下面具体以其中一种方式为例,对特征编码的过程进行介绍。参见图5所示,为对目标标题进行特征编码过程的流程示意图。
S4021:分别获取目标标题中各个分词各自对应的内容向量、位置向量以及标题类型向量。
本申请实施例中,针对每个分词获取其对应的内容向量、位置向量以及标题类型向量,一个分词对应一个内容向量、一个位置向量以及一个标题类型向量。其中,内容向量用于表征一个分词所包含的内容,可以基于每个分词表征的含义来获取,也可以通过查询已有的词库来获取,该词库是一个词与向量之间的映射词库;位置向量用于表征一个分词与目标标题中其他分词之间的相对位置关系,其可以通过分词在目标标题中的序号进行表示,也可以通过其前后存在的词向量进行表示;标题类型向量用于表征目标标题的句子类型。
S4022:基于各个分词各自对应的内容向量、位置向量以及标题类型向量,获得相应分词的组合向量。
参见图6所示,为各个分词的组合向量获取示意图。其中,在获取各个分词的内容向量、位置向量以及标题类型向量之后,则可以基于内容向量、位置向量以及标题类型向量,获取相应分词的组合向量,则组合向量为能够同时体现出内容向量、位置向量以及标题类型向量所包含的信息的向量。
具体的,可以对内容向量、位置向量以及标题类型向量进行叠加,从而获得相应分词的组合向量,如图6和7所示,以分词1为例,将分词1的位置向量Ec1、标题类型向量Eb1和内容向量Eb1在相同位置上的值进行叠加后,获得分词1的组合向量E1。
具体的,还可以对内容向量、位置向量以及标题类型向量进行拼接处理,从而获得相应分词的组合向量,例如,可以将分词1的标题类型向量Eb1拼接至位置向量Ec1的后面,再将内容向量Eb1拼接至标题类型向量Eb1的后面,从而获得分词1的组合向量E1。
具体的,还可以对各个分词的内容向量、位置向量以及标题类型向量进行池化处理,从而获得相应分词的组合向量。如图8所示,同样以分词1为例,在进行最大池化处理时,将分词1的位置向量Ec1、标题类型向量Eb1和内容向量Eb1在相同位置上的值取最大值,从而获得分词1的组合向量E1。
S4023:对获得的各个组合向量进行特征提取,获得标题特征矩阵。
本申请实施例中,可以将目标标题的各个分词的组合向量进行组合,从而获得目标标题的标题特征矩阵。
或者,仅进行组合可能无法体现出各个分词之间的语义关系,因此,还可以对各个组合向量进行特征提取,从而将提取后的向量进行组合,从而得到目标标题的标题特征矩阵。
具体的,可以采用自注意力机制对各个组合向量进行特征提取,以获取各个分子之间的相对语义关系。那么,编码器1还可以包括至少一个注意力向量矩阵,从而根据各个组合向量与相应的注意力向量矩阵,获得各个分词对应的至少一个注意力向量。例如,至少一个注意力向量矩阵可以包括请求(query)向量矩阵、键(key)向量矩阵和值(value)向量矩阵,相应的,至少一个注意力向量包括query向量、key向量和value向量。
进而,可以基于各个分词的至少一个注意力向量获取各个分词的注意力权重向量,其中,一个分词对应的注意力权重向量中各个值分别表征各个分词对于一个分词的注意力权重,例如目标标题包含4个分词,那么对于其中的分词1而言,分词1的注意力权重向量包含4个值,每个值表示目标标题包含的一个分词对于分词1的注意力权重。
具体的,分词2对分词1的注意力权重可以通过分词2的key向量与分词1的query向量之间的相似度来获得,同理,其他分词也是如此,而分词1对分词1的注意力权重可以通过分词1的key向量与分词1的query向量之间的相似度来获得。
最后,根据各个分词对应的注意力权重向量以及至少一个注意力向量,获得标题特征矩阵。其中,标题特征矩阵中一个特征向量是根据一个注意力权重向量中各个注意力权重,与相应注意力向量进行加权求和获得的,例如,分词1对应的特征向量,则是由分词1的注意力权重向量中各个值与相应value向量加权求和得到的。
步骤403:对目标标题包含的各个分词进行特征编码,获得各个分词各自对应的词向量。
本申请实施例中,各个分词的特征编码过程可以通过如图2所示的编码器2来实现。
具体的,编码器2可以采用任意可能的词编码方式进行特征编码,例如可以采用深度神经网络(Deep Neural Networks,DNN)等方式完成特征空间的映射变换。具体的,在采用上述方式进行特征编码时,编码器2可以是预训练完成的,也可以在权重确定模型的训练过程中一同进行训练。
本申请实施例中,步骤402的过程与步骤403的过程可以是同时进行的,也可以是先后顺序进行的,本申请实施例对此并不进行限制。
步骤404:分别对标题特征矩阵与各个词向量进行拼接处理,获得各个分词各自对应的拼接特征矩阵。
本申请实施例中,为了获取各个分词的权重值,可以对目标标题与分词进行融合,进而基于融合结果对分词进行权重预测。
针对每个分词而言,例如分词1,可以将目标标题对应的标题特征矩阵与分词1的词向量进行拼接,获得分词1对应的拼接特征矩阵。其中,拼接的过程可以通过权重确定模型的拼接层来实现。
具体的,如图9所示,在进行拼接时,可以将分词1的词向量拼接在标题特征矩阵的末尾,即最终获得的拼接特征矩阵对于原本的标题特征矩阵而言,其行或者列增加了。
在实际操作时,可能存在词向量与标题特征矩阵中各个特征向量的维度不同的情况,针对这种情况,对于缺少的维度可以采取补零的措施,例如分词的词向量的维度为5,而标题特征矩阵中各个特征向量的维度为6,则可以在词向量的末尾补零。
具体的,如图10所示,在进行拼接时,可以将分词1的词向量拼接在各个分词对应的特征向量的末尾,即最终获得的拼接特征矩阵对于原本的标题特征矩阵而言,可以认为是每一个分词的特征维度增加了。
步骤405:分别对获得的各个拼接特征矩阵进行特征提取,获得各个分词各自对应的融合特征向量。
本申请实施例中,为了对特征矩阵中的冗余特征进行筛除,得到对于分词的权重判定有用的特征,从而提升标题词权重任务的准确率,可以在获得拼接特征矩阵之后,对各个拼接特征矩阵进行特征提取。其中,特征提取的过程可以通过权重确定模型的特征提取层来实现。由于每个分词对应的拼接特征矩阵的特征提取过程类似,因此下面以一个分词为例进行介绍。
具体的,特征提取的过程可以多种方式来实现,例如可以采用N元模型(N-gram)进行特征提取,也可以采用CNN进行特征提取,当然,也可以采用其他可能的方式进行特征提取,本申请实施例对此不做限制。
参见图11所示,为利用CNN进行特征提取的过程示意图。
首先,基于预设的各个特征窗口,对拼接特征矩阵进行特征提取,获得相应的多个第一中间特征向量。
其中,不同的特征窗口的大小不相同,且一个特征窗口对应一个第一中间特征向量。
具体的,针对其中一个特征窗口,在基于该特征窗口对拼接特征矩阵进行特征提取时,从拼接特征矩阵的首行开始,按照一个特征窗口滑动进行特征提取,获得该特征窗口对应的第一中间特征向量。
本申请实施例中,针对一个特征窗口内容的特征提取,可以利用多种方式进行,包括但不限于如下的方式:
(1)求均值,即对特征窗口内的值求取均值作为特征值。
(2)池化的方式进行特征提取,即对特征窗口内的值进行池化处理。其中,池化处理可以采用最大池化(max pooling)或者均值池化等方式。
(3)卷积运算的方式。如图11所示,为采用CNN方式进行特征提取的示例。
在采用CNN进行特征提取时,每个特征窗口可以对应一个或者多个卷积核,下面针对不同的情况分别进行说明。
首先,针对一种特征窗口对应一个卷积核的情况进行说明,其中,图11则是以此进行示出。
其中,预设的各个特征窗口对应x-gram(x=1,2,3,4…)的卷积核,一个特征窗口对应一个与特征窗口大小适配的卷积核。进而,根据与一个特征窗口大小适配的卷积核,对拼接特征矩阵进行至少一次卷积运算,获得第二中间特征向量;其中,第二中间特征向量中的一个值对应一次卷积运算结果。
具体的,针对其中一个卷积核,在进行特征提取时,通过该卷积核滑动进行卷积运算,从而针对每一卷积核都会得到一个相应的第二中间特征向量。
进而,对第二中间特征向量进行池化处理,获得第一中间特征向量。其中,池化处理可以采用最大池化或者均值池化等方式。
下面,针对一种特征窗口对应多个卷积核的情况进行说明。参见图12,为以一种特征窗口对应两个卷积核为例,特征提取过程示意图。
本申请实施例中,一个特征窗口还可以对应至少两个卷积核,则在进行特征提取时,根据至少两个卷积核中每一个卷积核,分别对拼接特征矩阵进行至少一次卷积运算,获得至少两个第二中间特征向量。如图12所示,当每个特征窗口对应两个卷积核时,进行卷积运算之后,可以相应得到两个第二中间特征向量。
本申请实施例中,针对大小相同的两个卷积核,其卷积核内的参数值可以是不同的,并且,在进行训练阶段,两个卷积核可以随着模型训练进程不断的进行更新,也可以在训练阶段,保持其中一个卷积核不更新,而仅更新另一个卷积核中的参数。
进而,对至少两个第二中间特征向量中每一个第二中间特征向量进行池化处理,获得至少两个第三中间特征向量,对至少两个第三中间特征向量进行拼接处理,获得第一中间特征向量。
本申请实施例中,也可以采用其他可能的方式进行特征提取,本申请实施例对此不做限制。
进而,在获得各个分词对应的多个第一中间特征向量之后,对获得的各个第一中间特征向量分别进行拼接处理,以获得各个分词对应的融合特征向量。
步骤406:基于获得的各个融合特征向量,分别确定相应分词在目标标题中的权重值。
其中,基于融合特征向量获取权重值的过程可以通过权重确定模型的分类层来实现。其中,每个分词的权重值表征相应分词对于目标标题的语义理解的影响程度。
本申请实施例中,分类层可以通过任何可能的分类算法来实现,例如可以通过softmax算法、逻辑回归(Logistic)或者全连接层等来进行分类,以获得各个分词所对应的分类结果,分类结果即为各个分词的权重值。
步骤407:基于获得的各个权重值,从各个分词中提取出关键词。
本申请实施例中,在获取各个分词对应的权重值之后,则可以获知哪些词更为重要,进而基于权重值获取目标标题中的关键词。其中,权重值更高,其为关键词的可能性更大。
具体的,可以将权重值大于设定权重阈值的分词确定为关键词,也可以按照权重值的大小对分词进行排序,进而将排名靠前的几个分词作为关键词。
如图13所示,在游戏场景中,将用户输入的聊天文本“这鲁班没救了,经济被压制,完全起不来,手机给你来玩!”作为目标标题,且将该目标标题输入至权重确定模型之后,可以得到各个分词的权重值,其中,“鲁班”的权重值为0.91,“经济”的权重值为0.81,“被压制”的权重值为0.7,“手机”的权重值为0.3,“没救”的权重值为0.2,“起不来”的权重值为0.2,“这”的权重值为0.1,因而基于权重值排序可知,“鲁班”、“经济”“被压制”为目标标题的关键词,提取的关键词可以辅助进行聊天文本的语义理解,以用于下游的应用中,例如判断用户游戏中是否存在辱骂其他用户行为等不文明游戏行为。
或者,如图14所示,将视频标题“暖心宝宝安慰刚领养回家的狗狗获高赞”作为目标标题输入至权重确定模型之后,可以得到各个分词的权重值,其中,“回家”的权重值为0.85,“狗狗”的权重值为0.83,“安慰”的权重值为0.82,“获高赞”的权重值为0.51,“暖心”的权重值为0.3,“领养”的权重值为0.1,“回家”的权重值为0.01,因而基于权重值排序可知,“宝宝”、“狗狗”“安慰”为目标标题的关键词,提取的关键词可以应用与视频搜索过程。
本申请实施例中,通过上述的过程,可以对多个目标标题进行权重值和关键词的提取,进而可以将权重值和提取结果应用于其他场景中,例如,关键字匹配场景。
具体的,在需要进行关键字匹配时,获取待匹配的关键词,并将关键词与标题库中各个标题进行关键词匹配,获得至少一个候选标题,候选标题可以是包含关键词的标题,进而可以根据至少一个候选标题中各个关键词的权重,对至少一个候选标题进行排序,以根据排序结果确定关键词的匹配标题。
当然,本申请的方法还可以应用于任何的语义理解场景中,例如视频或者新闻搜索以及游戏中文本理解等场景中。
本申请实施例中,提出了一种基于特征融合方式的词权重建模方式,可以有效的提升两侧语义向量的融合效果,从而有效的提升了词权重建模效果,实验证明可以有效的提升模型的表现。其中,将CNN应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好地捕捉局部相关性。词权重建模是提取句子核心成分,理解句子的核心内容的关键技术,该方法可以适用于所有需要理解文本核心词、词权重场景,例如标题理解、篇章句式理解等通用场景。
请参见图15,基于同一发明构思,本申请实施例还提供了一种关键词提取装置150,该装置包括:
特征编码单元1501,用于对目标标题进行特征编码,获得目标标题对应的标题特征矩阵;以及,对目标标题包含的各个分词进行特征编码,获得各个分词各自对应的词向量;
拼接单元1502,用于分别对标题特征矩阵与各个词向量进行拼接处理,获得各个分词各自对应的拼接特征矩阵;
特征提取单元1503,用于分别对获得的各个拼接特征矩阵进行特征提取,获得各个分词各自对应的融合特征向量;
权重值确定单元1504,用于基于获得的各个融合特征向量,分别确定相应分词在目标标题中的权重值,每个分词的权重值表征相应分词对于目标标题的语义理解的影响程度;
关键词提取单元1505,用于基于获得的各个权重值,从各个分词中提取出关键词。
可选的,特征编码单元1501,具体用于:
分别获取目标标题中各个分词各自对应的内容向量、位置向量以及标题类型向量;其中,一个分词对应一个内容向量、一个位置向量以及一个标题类型向量,内容向量用于表征一个分词的内容,位置向量用于表征一个分词与目标标题中其他分词之间的相对位置关系,标题类型向量用于表征目标标题的句子类型;
基于各个分词各自对应的内容向量、位置向量以及标题类型向量,获得相应分词的组合向量;
对获得的各个组合向量进行特征提取,获得标题特征矩阵。
可选的,特征编码单元1501,具体用于:
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行拼接处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行叠加处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行池化处理,获得相应分词的组合向量。
可选的,特征编码单元1501,具体用于:
根据各个组合向量与相应的注意力权重矩阵,获得各个分词对应的注意力权重向量;其中,一个分词对应的注意力权重向量中各个值分别表征各个分词对于一个分词的注意力权重;
根据各个分词对应的注意力权重向量,以及各个组合向量,获得标题特征矩阵;其中,标题特征矩阵中一个特征向量是根据一个注意力权重向量中各个注意力权重,与相应组合向量进行加权求和获得的。
可选的,拼接单元1502,具体用于:
分别将各个词向量添加至标题特征矩阵的末尾,获得各个分词各自对应的拼接特征矩阵;或者,
分别将各个词向量添加至标题特征矩阵中各个特征向量的末尾,获得各个分词各自对应的拼接特征矩阵。
可选的,特征提取单元1503,具体用于:
分别针对各个分词执行以下操作:
分别基于预设的各个特征窗口,对各个分词中的一个分词对应的拼接特征矩阵进行特征提取,获得相应的多个第一中间特征向量;其中,不同特征窗口的大小不相同,以及在基于一个特征窗口对拼接特征矩阵进行特征提取时,从拼接特征矩阵的首行开始,按照一个特征窗口滑动进行特征提取,获得一个特征窗口对应的第一中间特征向量;
对获得的各个第一中间特征向量进行拼接处理,获得一个分词对应的融合特征向量。
可选的,特征提取单元1503,具体用于:
根据与一个特征窗口大小适配的卷积核,对拼接特征矩阵进行至少一次卷积运算,获得第二中间特征向量;其中,第二中间特征向量中的一个值对应一次卷积运算结果;
对第二中间特征向量进行池化处理,获得第一中间特征向量。
可选的,一个特征窗口对应至少两个卷积核;则特征提取单元1503,具体用于:
根据至少两个卷积核中每一个卷积核,分别对拼接特征矩阵进行至少一次卷积运算,获得至少两个第二中间特征向量;
对至少两个第二中间特征向量中每一个第二中间特征向量进行池化处理,获得至少两个第三中间特征向量;
对至少两个第三中间特征向量进行拼接处理,获得第一中间特征向量。
可选的,该装置还包括匹配单元1506,用于:
获取待匹配的关键词;将关键词与标题库中各个标题进行关键词匹配,获得至少一个候选标题;根据至少一个候选标题中各个关键词的权重,对至少一个候选标题进行排序;根据排序结果确定关键词的匹配标题。
该装置可以用于执行图2~图13所示的实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考图2~图13所示的实施例的描述,不多赘述。其中,匹配单元1506并不是必选的功能单元,因此在图15中以虚线进行示出。
请参见图16,基于同一技术构思,本申请实施例还提供了一种计算机设备160,可以包括存储器1601和处理器1602。
所述存储器1601,用于存储处理器1602执行的计算机程序。存储器1601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1602,可以是一个中央处理单元(central processing unit, CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器1601和处理器1602之间的具体连接介质。本申请实施例在图16中以存储器1601和处理器1602之间通过总线1603连接,总线1603在图16中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线1603可以分为地址总线、数据总线、控制总线等。为便于表示,图16中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1601可以是上述存储器的组合。
处理器1602,用于调用所述存储器1601中存储的计算机程序时执行如图2~图13所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图2~图13所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种关键词提取方法,其特征在于,所述方法包括:
对目标标题进行特征编码,获得所述目标标题对应的标题特征矩阵;以及,对所述目标标题包含的各个分词进行特征编码,获得所述各个分词各自对应的词向量;
分别对所述标题特征矩阵与所述各个词向量进行拼接处理,获得所述各个分词各自对应的拼接特征矩阵,以及分别对获得的各个所述拼接特征矩阵进行特征提取,获得所述各个分词各自对应的融合特征向量;
基于获得的各个所述融合特征向量,分别确定相应分词在所述目标标题中的权重值,每个分词的权重值表征相应分词对于所述目标标题的语义理解的影响程度;
基于获得的各个权重值,从所述各个分词中提取出关键词。
2.如权利要求1所述的方法,其特征在于,对所述目标标题进行特征编码,获得所述目标标题对应的标题特征矩阵,包括:
分别获取所述目标标题中各个分词各自对应的内容向量、位置向量以及标题类型向量;其中,一个分词对应一个内容向量、一个位置向量以及一个标题类型向量,所述内容向量用于表征所述一个分词的内容,所述位置向量用于表征所述一个分词与所述目标标题中其他分词之间的相对位置关系,所述标题类型向量用于表征所述目标标题的句子类型;
基于各个分词各自对应的内容向量、位置向量以及标题类型向量,获得相应分词的组合向量;
对获得的各个组合向量进行特征提取,获得所述标题特征矩阵。
3.如权利要求2所述的方法,其特征在于,所述基于各个分词各自对应的内容向量、位置向量以及标题类型向量,获得相应分词的组合向量,包括:
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行拼接处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行叠加处理,获得相应分词的组合向量;或者,
分别对各个分词各自对应的内容向量、位置向量以及标题类型向量进行池化处理,获得相应分词的组合向量。
4.如权利要求2所述的方法,其特征在于,所述对获得的各个组合向量进行特征提取,获得所述标题特征矩阵,包括:
根据所述各个组合向量与相应的注意力权重矩阵,获得所述各个分词对应的注意力权重向量;其中,一个分词对应的注意力权重向量中各个值分别表征所述各个分词对于所述一个分词的注意力权重;
根据所述各个分词对应的注意力权重向量,以及所述各个组合向量,获得所述标题特征矩阵;其中,所述标题特征矩阵中一个特征向量是根据所述一个注意力权重向量中各个注意力权重,与相应组合向量进行加权求和获得的。
5.如权利要求1所述的方法,其特征在于,分别对所述标题特征矩阵与所述各个词向量进行拼接处理,获得所述各个分词各自对应的拼接特征矩阵,包括:
分别将各个词向量添加至所述标题特征矩阵的末尾,获得各个分词各自对应的拼接特征矩阵;或者,
分别将各个词向量添加至所述标题特征矩阵中各个特征向量的末尾,获得各个分词各自对应的拼接特征矩阵。
6.如权利要求1所述的方法,其特征在于,分别对获得的各个所述拼接特征矩阵进行特征提取,获得所述各个分词各自对应的融合特征向量,包括:
分别针对所述各个分词执行以下操作:
分别基于预设的各个特征窗口,对所述各个分词中的一个分词对应的拼接特征矩阵进行特征提取,获得相应的多个第一中间特征向量;其中,不同特征窗口的大小不相同,以及在基于一个特征窗口对所述拼接特征矩阵进行特征提取时,从所述拼接特征矩阵的首行开始,按照所述一个特征窗口滑动进行特征提取,获得所述一个特征窗口对应的第一中间特征向量;
对获得的各个第一中间特征向量进行拼接处理,获得所述一个分词对应的融合特征向量。
7.如权利要求6所述的方法,其特征在于,从所述拼接特征矩阵的首行开始,按照所述一个特征窗口滑动进行特征提取,获得所述一个特征窗口对应的第一中间特征向量,包括:
根据与所述一个特征窗口大小适配的卷积核,对所述拼接特征矩阵进行至少一次卷积运算,获得第二中间特征向量;其中,所述第二中间特征向量中的一个值对应一次卷积运算结果;
对所述第二中间特征向量进行池化处理,获得所述第一中间特征向量。
8.如权利要求7所述的方法,其特征在于,所述一个特征窗口对应至少两个卷积核;则根据与所述一个特征窗口的大小适配的卷积核,对所述拼接特征矩阵进行至少一次卷积运算,获得第二中间特征向量,包括:
根据所述至少两个卷积核中每一个卷积核,分别对所述拼接特征矩阵进行至少一次卷积运算,获得至少两个第二中间特征向量;
则对所述第二中间特征向量进行池化处理,获得所述第一中间特征向量,包括:
对所述至少两个第二中间特征向量中每一个第二中间特征向量进行池化处理,获得至少两个第三中间特征向量;
对所述至少两个第三中间特征向量进行拼接处理,获得所述第一中间特征向量。
9.如权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
获取待匹配的关键词;
将所述关键词与标题库中各个标题进行关键词匹配,获得至少一个候选标题;
根据所述至少一个候选标题中各个关键词的权重,对所述至少一个候选标题进行排序;
根据排序结果确定所述关键词的匹配标题。
10.一种关键词提取装置,其特征在于,所述装置包括:
特征编码单元,用于对目标标题进行特征编码,获得所述目标标题对应的标题特征矩阵;以及,对所述目标标题包含的各个分词进行特征编码,获得所述各个分词各自对应的词向量;
拼接单元,用于分别对所述标题特征矩阵与所述各个词向量进行拼接处理,获得所述各个分词各自对应的拼接特征矩阵;
特征提取单元,用于分别对获得的各个所述拼接特征矩阵进行特征提取,获得所述各个分词各自对应的融合特征向量;
权重值确定单元,用于基于获得的各个所述融合特征向量,分别确定相应分词在所述目标标题中的权重值,每个分词的权重值表征相应分词对于所述目标标题的语义理解的影响程度;
关键词提取单元,用于基于获得的各个权重值,从所述各个分词中提取出关键词。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,
该计算机程序指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。
CN202110223057.8A 2021-03-01 2021-03-01 关键词提取方法、装置和设备及计算机存储介质 Active CN112580352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110223057.8A CN112580352B (zh) 2021-03-01 2021-03-01 关键词提取方法、装置和设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110223057.8A CN112580352B (zh) 2021-03-01 2021-03-01 关键词提取方法、装置和设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112580352A true CN112580352A (zh) 2021-03-30
CN112580352B CN112580352B (zh) 2021-06-04

Family

ID=75114078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110223057.8A Active CN112580352B (zh) 2021-03-01 2021-03-01 关键词提取方法、装置和设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112580352B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377997A (zh) * 2021-06-30 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲检索方法、电子设备及计算机可读存储介质
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置
CN114282528A (zh) * 2021-08-20 2022-04-05 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN114817526A (zh) * 2022-02-21 2022-07-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN106610951A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 改进的基于语义分析的文本相似度求解算法
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
US10373268B1 (en) * 2014-10-05 2019-08-06 Henry A. Orphys Determining correct answers to tax and accounting issues arising from business transactions and generating accounting entries to record those transactions using a computerized predicate logic implementation
CN110263122A (zh) * 2019-05-08 2019-09-20 北京奇艺世纪科技有限公司 一种关键词获取方法、装置及计算机可读存储介质
CN110263174A (zh) * 2019-06-27 2019-09-20 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110287278A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 评论生成方法、装置、服务器及存储介质
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110728139A (zh) * 2018-06-27 2020-01-24 鼎复数据科技(北京)有限公司 关键信息提取模型及其构建方法
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统
CN111401069A (zh) * 2018-12-27 2020-07-10 深圳市优必选科技有限公司 会话文本的意图识别方法、意图识别装置及终端
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111859940A (zh) * 2019-04-23 2020-10-30 北京嘀嘀无限科技发展有限公司 一种关键词提取方法、装置、电子设备及存储介质
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN112052319A (zh) * 2020-09-01 2020-12-08 杭州师范大学 一种基于多特征融合的智能客服方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
US10373268B1 (en) * 2014-10-05 2019-08-06 Henry A. Orphys Determining correct answers to tax and accounting issues arising from business transactions and generating accounting entries to record those transactions using a computerized predicate logic implementation
CN106610951A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 改进的基于语义分析的文本相似度求解算法
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN110728139A (zh) * 2018-06-27 2020-01-24 鼎复数据科技(北京)有限公司 关键信息提取模型及其构建方法
CN111401069A (zh) * 2018-12-27 2020-07-10 深圳市优必选科技有限公司 会话文本的意图识别方法、意图识别装置及终端
CN111859940A (zh) * 2019-04-23 2020-10-30 北京嘀嘀无限科技发展有限公司 一种关键词提取方法、装置、电子设备及存储介质
CN110263122A (zh) * 2019-05-08 2019-09-20 北京奇艺世纪科技有限公司 一种关键词获取方法、装置及计算机可读存储介质
CN110287278A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 评论生成方法、装置、服务器及存储介质
CN110263174A (zh) * 2019-06-27 2019-09-20 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN112052319A (zh) * 2020-09-01 2020-12-08 杭州师范大学 一种基于多特征融合的智能客服方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377997A (zh) * 2021-06-30 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲检索方法、电子设备及计算机可读存储介质
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN114330357B (zh) * 2021-08-04 2024-05-10 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN114282528A (zh) * 2021-08-20 2022-04-05 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置
CN114817526A (zh) * 2022-02-21 2022-07-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端
CN114817526B (zh) * 2022-02-21 2024-03-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN112580352B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
Sohangir et al. Big Data: Deep Learning for financial sentiment analysis
CN112580352B (zh) 关键词提取方法、装置和设备及计算机存储介质
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
Moens Argumentation mining: How can a machine acquire common sense and world knowledge?
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
US20230032728A1 (en) Method and apparatus for recognizing multimedia content
Uppada et al. An image and text-based multimodal model for detecting fake news in OSN’s
CN112101042B (zh) 文本情绪识别方法、装置、终端设备和存储介质
Asghar et al. A deep neural network model for the detection and classification of emotions from textual content
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Ghorbanpour et al. FNR: a similarity and transformer-based approach to detect multi-modal fake news in social media
CN117218482A (zh) 模型训练方法、视频处理方法、装置及电子设备
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN113408282A (zh) 主题模型训练和主题预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041369

Country of ref document: HK