CN113792131B - 一种关键词的提取方法、装置、电子设备及存储介质 - Google Patents

一种关键词的提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113792131B
CN113792131B CN202111115352.8A CN202111115352A CN113792131B CN 113792131 B CN113792131 B CN 113792131B CN 202111115352 A CN202111115352 A CN 202111115352A CN 113792131 B CN113792131 B CN 113792131B
Authority
CN
China
Prior art keywords
keyword
candidate
association
keywords
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111115352.8A
Other languages
English (en)
Other versions
CN113792131A (zh
Inventor
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Smart Healthcare Technology Co ltd filed Critical Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority to CN202111115352.8A priority Critical patent/CN113792131B/zh
Publication of CN113792131A publication Critical patent/CN113792131A/zh
Application granted granted Critical
Publication of CN113792131B publication Critical patent/CN113792131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种关键词的提取方法、装置、电子设备及存储介质,方法包括:对目标文本进行关键词识别,生成所述目标文本对应的关键词图;分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。采用上述方法,能够在通过人工智能对大量文本进行自动分类以及配置文本标签时,能够提高提取的关键词对于文本内容的概括准确性,从而提高智能分类的准确率。

Description

一种关键词的提取方法、装置、电子设备及存储介质
技术领域
本申请属于人工智能技术领域,尤其涉及一种关键词的提取方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的不断发展,网络上的资讯越来越多,文本的数量以及内容以几何级的速度增加,因此在对文本进行解析时,在通过人工智能对大量文本进行分类以及添加文本标签时,为了快速确定文本的内容偏向,往往需要提取文本的关键词,因此,如何能够提高表征文本内容的关键词的准确性,直接影响了人工智能对于文本整理以及分类的准确性。
现有的关键词提取技术,一般是采用词频特性,选取出现频率处于前N高的关键词,作为该文本的关键词,然而上述方式选取得到的关键词,只是单独地考虑各个关键词的特性,并没有考虑不同关键词之间关联性,从而选取的关键词无法较好地概括文本的内容,大大降低了人工智能对于文本整理以及分类的准确性。
发明内容
本申请实施例提供了一种关键词的提取方法、装置、电子设备及存储介质,可以解决现有的关键词提取算法,采用词频特性选取文本关键词,没有考虑不同关键词之间关联性,从而选取的关键词无法较好地概括文本的内容,大大降低了人工智能对于文本整理以及分类的准确性的问题。
第一方面,本申请实施例提供了一种关键词的提取方法,包括:
对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;
分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;
根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。
在第一方面的一种可能的实现方式中,所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:
根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
所述第一加权因子具体为:
其中,为所述第一加权因子;Out(Keywordi)为所述第一关联个数;In(Keywordj)为所述第二关联个数;
基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;
基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
其中,Weightγ(Keywordi,Keywordj)为所述第三加权因子;TF(Keywordi)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;
根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。
在第一方面的一种可能的实现方式中,所述基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子,包括:
根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:
其中,Location(Keywordi)为所述第一位置加权参量;λ为预设系数;
根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;
根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:
其中,Weihgtβ(Keywordi,Keywordj)为所述第二加权因子。
在第一方面的一种可能的实现方式中,在所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重之前,还包括:
基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;
对应地,所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重具体为:
根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。
在第一方面的一种可能的实现方式中,所述基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子,包括:
获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵;
根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量;
根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数;
基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:
其中,为所述第四加权因子;Self-Att(Keywordi)为所述第i个候选关键词的所述自相关系数。
在第一方面的一种可能的实现方式中,所述根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数,包括:
根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:
其中,Weightij为第i个所述候选关键词与第j个所述候选关键词之间的关联关系的加权权重;M为所述影响力矩阵;n为所述候选关键词的总数;
生成所述目标文本对应的初始权重矩阵;
基于所述影响力矩阵以及所述初始权重矩阵,计算各个所述关联关系对应的影响力系数;
基于所述影响力系数,计算所述候选关键词的所述推荐系数;所述推荐系数具体为:
其中,Weightki为所述第i个候选关键词与第k个候选关键词之间的关联关系的影响力系数;Recommand(Keywordk)为第k个候选关键词的影响力系数;In(Keywordi)为存在指向第i个所述候选关键词的关联关系的候选关键词集合。
在第一方面的一种可能的实现方式中,所述对目标文本进行关键词识别,生成所述目标文本对应的关键词图,包括:
对所述目标文本进行语句划分,得到多个文本语句;
分别对各个所述文本语句进行关键词提取,确定每个所述文本语句对应的关键词序列;所述关键词序列中包含至少一个所述候选关键词;
通过预设的关联窗口在各个所述关键词序列中进行滑动框取,将被所述关联窗口框取的所述候选关键词识别为存在关联关系的关键词,并基于所述关联关系生成所述关键词图。
第二方面,本申请实施例提供了一种关键词的提取装置,包括:
关键词图生成单元,用于对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;
加权权重确定单元,用于分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;
推荐系数确定单元,用于根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
目标关键词选取单元,用于基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
本申请实施例与现有技术相比存在的有益效果是:通过识别目标文本中包含的候选关键词,并基于各个候选关键词之间的关联关系生成该目标文本的关键词图,由于不同的候选关键词对于其他候选关键词的辐射影响力不同,因此上述关联关系具有不同的加权权重,根据各个候选关键词包含的关联关系的加权权重,可以计算得到各个候选关键词对应的推荐系数,并基于所有候选关键词的推荐系数选取出该目标文本对应的目标关键词,实现了自动识别目标关键词的目的。与现有的关键词词提取技术相比,本申请实施例并非单独统计文本中的各个关键词的特性,而是建立能够体现各个候选关键词之间关联性的关键词图,并分别确定各个关联关系对应的加权权重,考虑各个候选关键词之间的相互影响力,从而能够选取出影响力较大的候选关键词,从而选取得到的目标关键词能够更好地体现目标文本的文本内容,继而提高后续人工智能对于目标文本的分类以及添加文本标准的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种关键词的提取方法的实现流程图;
图2是本申请一实施例提供的关键词图的结构示意图;
图3是本申请一实施例提供的一种关键词的提取方法的S102的一种实现方式示意图;
图4是本申请另一实施例提供的关键词图的结构示意图;
图5是本申请一实施例提供的一种关键词的提取方法的S103的一种实现方式示意图;
图6是本申请一实施例提供的一种关键词的提取方法的S101一种实现方式示意图;
图7是本申请实施例提供的关键词的提取方法装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供的关键词的提取方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等电子设备上。本申请实施例对电子设备的具体类型不作任何限制。特别地,该电子设备还可以为一个基于人工智能的文本分类服务器,可以对接收到文本进行关键词提取,并基于提取得到的目标关键词对文本进行分类以及添加文本标签,从而生成对应的文本字典,方便用户基于文本字典快速查找对应的文本。
请参阅图1,图1示出了本申请实施例提供的一种关键词的提取方法的实现流程图,该方法包括如下步骤:
在S101中,对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系。
在本实施例中,电子设备可以接收需要进行关键词识别的目标文本。可选地,该目标文本可以是电子设备主动获取的,例如,该电子设备为一基于人工智能的文本分类服务器,该文本分类服务器可以从互联网上搜索已发布的文章、博客、专栏等已有文本,并将上述搜索得到的已有文本作为目标文本,并进行关键词提取,并基于识别得到的目标关键词,对上述目标文本进行整理。可选地,上述电子设备可以接收由用户终端发送的目标文本,若用户需要提取某一文本的目标关键词时,可以通过用户终端安装与电子设备对应的客户端程序,通过上述客户端程序将目标文本发送给电子设备。
在一种可能的实现方式中,电子设备在接收到目标文本后,可以对目标文本与已经识别得到的所有历史文本进行文本查重。若检测到该目标文本与任一历史文本之间的重合率大于预设的重合阈值,则识别上述两个文本为相似文本,将历史文本已经识别的目标关键词作为该目标文本的目标关键词;反之,若两者之间的重合率小于或等于重合阈值,则通过S101~S104的方式确定该目标文本的目标关键词。
在本实施例中,电子设备可以对目标文本进行关键词识别,确定该电子设备中包含的候选关键词。其中,电子设备可以配置有至少一个提取候选关键词的提取算法,该提取算法用于从目标文本中检测是否存在满足预设条件的关键词,例如,通过识别目标文本中各个词语的词性,选取词性满足预设条件的词语作为候选关键词,例如将名称、动词等词语作为候选关键词。
在本实施例中,电子设备在提取得到目标文本中包含的候选关键词后,还可以识别各个候选关键词之间的关联关系;该关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的,并且关联关系用于确定具有词义传递关系的任意两个所述候选关键词。由于文本中的各个词语在进行语句的语义理解上,是会相互影响的,即上述词语间的相互影响即为词义传递关系,因此,将具有词义传递关系的两个候选关键词识别为具有关联关系的候选关键词。可选地,识别上述候选关键词是否存在关联关系的方式可以为:判断候选关键词在目标文本中是否处于同一语句内,若任意两个候选关键词处于同一语句内,则识别上述两个候选关键词存在关联关系;若任一两个候选关键词处于不同的语句内,则判断所处的两个不同语句是否相邻且两个语句间存在预设的连接词,若是,则识别上述两个候选关键词存在关联关系,反之,则识别上述两个候选关键词不存在关联关系。
在本实施例中,电子设备可以在预设的模板中为每个候选关键词创建一个节点,并基于已经识别得到各个候选关键词之间的关联关系,连接均有关联关系的候选关键词对应的节点,从而生成关于目标文本的关键词图。示例性地,图2示出了本申请一实施例提供的关键词图的示意图。
在S102中,分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度。
在本实施例中,不同的词语在语句中的影响力不同,在对于文本内容的表征上,一个词语的语义可以对其他词语的语义造成影响,若词语之间的词义传递的效果越强,则对应的关联关系的加权权重的数值越大。举例性地,目标文本中的某一语句为“他是学生”,通过提取关键词可以得到“他”以及“学生”两个候选关键词,而“学生”一词,除了具有自身的语义外,还定义了“他”这一词语的语义,即“学生”这一候选关键词的影响力会辐射到“他”这一候选关键词上,由此可见,一个词语的语义除了决定该词语外,还可以对范围内的其他词语造成影响。基于此,电子设备在确定了存在关联关系的候选关键词后,可以确定每个关联关系对应的加权权重,该加权权重用于确定候选关键词对于其他候选关键的语义影响力,即辐射能力。
在一种可能的实现方式中,确定上述加权权重的方式具体可以为:电子设备查询预设的语义加权转换算法,将该关联关系对应的两个候选关键词导入到上述语义加权转换算法中,计算得到基于上述两个语义关键词的确定的加权权重,将该加权权重作为上述关联关系的加权权重。其中,上述语义加权转换算法是基于多个已有文本作为训练样本对神经网络进行训练学习后生成的,其中,上述已有文本可以标记出各个存在关联关系的关键词,并为每个关联关系标记对应的权重,将上述作为训练样本,对已有的神经网络进行训练,以使训练结果收敛时,生成上述语义加权转换算法。
在一种可能的实现方式中,根据不同文本类型可以配置不同的加权权重转换算法,例如对于提取文章的文本的关键词时,可以采用第一加权权重转换算法,而对于邮件的文本类型的关键词时,可以采用第二加权权重转换算法。基于此,计算目标文本中各个关联关系的加权权重时,可以识别该目标文本中的文本类型,并选取与文本类型关联的加权权重转换算法,以计算得到各个关联关系的加权权重。由于不同文本类型的文本结构不同,因此为了提高后续识别的准确性,可以采用对应的转换算法以计算得到上述加权权重。
在S103中,根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数。
在本实施例中,由于上述关联关系可以确定任一候选关键词对其他候选关键词的影响力传递,电子设备可以根据任一候选关键词对于所有存在关联关系的其他候选关键词的关联关系的加权权重,确定该候选关键词对于目标文本的整体影响力,若对于目标文本的整体影响力越高,因此更能够概括该目标文本的内容。基于此,电子设备可以根据上述关联关系的加权权重,确定候选关键词的推荐系数,推荐系数越高,则对应的概括能力越强;反之,该推荐系数越低,对应的概括能力越弱。
在一种可能的实现方式中,计算上述推荐系数的方式可以为:电子设备可以识别与候选关键词包含的所有关联关系,并基于上述识别得到的所有关联关系的加权权重进行叠加,将叠加得到的值作为该关联关系对应的推荐系数。
在S104中,基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。
在本实施例中,电子设备可以根据各个候选关键词的推荐系数,从大到小对各个候选关键词进行排序,并选取前N个的候选关键词作为该目标文本的目标关键词。其中,上述N可以为任一正整数。该N值的大小可以根据用户需求进行设置,也可以根据电子设备进行自动配置。
在一种可能的实现方式中,电子设备可以设置一个系数阈值,将上述推荐系数大于上述系数阈值的所有候选关键词,均作为该目标文本的目标关键词。
在一种可能的实现方式中,电子设备可以根据目标文本的文本量,确定上述N的数值,若该文本量越大,则对应的N的数值越大;反之,若该文本量越小,则对应的N的数值越小。当然,电子设备可以根据文本量确定最大目标关键词数,并基于系数阈值,选取数量不大于上述最大目标关键词数的多个目标关键词。
进一步地,作为本申请的另一实施例,在S104之后,还包括:电子设备在计算得到该目标文本的目标关键词后,可以将目标关键词作为该目标文本的文本标签,并基于上述目标关键词对目标文本进行分类,确定该目标文本所属的内容类别。
可选地,电子设备还可以根据各个目标文本的目标关键词,生成对应的文本字典,以便快速根据关键词查询到对应的文本。
以上可以看出,本申请实施例提供的一种关键词的提取方法通过识别目标文本中包含的候选关键词,并基于各个候选关键词之间的关联关系生成该目标文本的关键词图,由于不同的候选关键词对于其他候选关键词的辐射影响力不同,因此上述关联关系具有不同的加权权重,根据各个候选关键词包含的关联关系的加权权重,可以计算得到各个候选关键词对应的推荐系数,并基于所有候选关键词的推荐系数选取出该目标文本对应的目标关键词,实现了自动识别目标关键词的目的。与现有的关键词词提取技术相比,本申请实施例并非单独统计文本中的各个关键词的特性,而是建立能够体现各个候选关键词之间关联性的关键词图,并分别确定各个关联关系对应的加权权重,考虑各个候选关键词之间的相互影响力,从而能够选取出影响力较大的候选关键词,从而选取得到的目标关键词能够更好地体现目标文本的文本内容,继而提高后续人工智能对于目标文本的分类以及添加文本标准的准确性。
图3示出了本发明第二实施例提供的一种关键词的提取方法S102的具体实现流程图。参见图3,相对于图1所述实施例,本实施例提供的一种关键词的提取方法中S102包括:S1021~S1025,具体详述如下:
进一步地,所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:
在S1021中,根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
所述第一加权因子具体为:
其中,为所述第一加权因子;Out(Keywordi)为所述第一关联个数;In(Keywordj)为所述第二关联个数。
在本实施例中,电子设备创建的关键词图中的关联关系是具有指向性的,用于确定从关联关系的起始关键词到指向关键词的影响力传递。示例性地,图4示出了本申请另一实施例提供的关键词图的示意图。该关键词图中的关联关系1是从候选关键词1指向候选关键词2的,即用于确定候选关键词1对于候选关键词2的影响力传递。当然,若候选关键词2对于候选关键词1也同样存在影响力传递,则关键词图中同样有由候选关键词2指向候选关键词1的关联关系。
在本实施例中,将关键词中任意两个具有关联关系的候选关键词作为上述第i个候选关键词以及第j个候选关键词,上述加权权重具体用于确定第i个候选关键词对于第j个候选关键词的影响力传递,即上述第i个候选关键词对于第j个候选关键词的关联关系的加权权重。
在本实施例中,第一加权权重用于确定候选关键词的影响力传递的辐射范围,因此,可以统计第i个候选关键词指向其他候选关键词的关联关系的第一关联个数,该第一关联个数Out(Keywordi)的数值越大,即表示第i个候选关键词的辐射范围越大;对应地,电子设备还可以统计其他候选关键词指向第j个候选关键词的关联关系的第二关联个数,该第二关联个数In(Keywordj)的数值越大,即表示第i个候选关键词对于第j个候选关键词的影响力会被瓜分,即影响力越低,基于此,电子设备可以根据上述两个关联个数,确定第i个候选关键词的辐射范围对于第j个候选关键词的辐射影响,即第一加权权重。
在S1022中,基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子。
在本实施例中,根据候选关键词在目标文本中的不同位置,对于目标文本内容的概括程度是不同的,例如在标题位置的候选关键词对于目标内容的概括程度会大大高于位于正文位置的候选关键词。基于此,电子设备可以为不同的位置区域配置对应的关联权重,电子设备可以根据该第i个候选关键词在目标文本中对应的位置,查询预设的关联权重,将该关联权重作为上述第一关联关系的第二加权因子。
进一步地,作为本申请的另一实施例,S1022具体包括:
在S1022.1中,根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:
其中,Location(Keywordi)为所述第一位置加权参量;λ为预设系数。
在本实施例中,电子设备配置有位置权重转换函数,电子设备可以识别第i个候选关键词的出现位置所落入的区域范围,确定该区域范围对应的第一位置加权权重。例如该候选关键词的出现位置在标题位置,则对应的第一位置权重为λ。
在S1022.2中,根据上述位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量。
在本实施例中,同样地,对于与第i个候选关键词存在关联关系的关联关键词的第二位置加权参量也可以通过上述方式实现,其中,上述关联关键词可以表示为:Keywordk∈Out(Keywordi)。
在S1022.3中,根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:
其中,Weihgtβ(Keywordi,Keywordj)为所述第二加权因子。
在本实施例中,电子设备在计算得到第一位置加权参量以及第二位置加权参量后,可以通过上述两者之间的比值,计算得到第一关联关系的第二加权因子,用于确定根据文本位置确定第i个候选关键词的辐射影响力。
在本申请实施例中,通过预设的位置权重转换函数,计算第i个候选关键词以及关联关键词的位置加权权重,从而能够确定基于位置确定关键词的影响力传递效果,以提高加权因子的准确性。
在S1023中,基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
其中,Weightγ(Keywordi,Keywordj)为所述第三加权因子;TF(Keywordi)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值。
在本实施例中,电子设备可以获取第i个候选关键词在目标文本中的第一出现频次,以及在预设的语料库中已经存储有的已有文本中的第二出现频次(第二出现频次为包含该第i个候选关键词的已有文本数量),通过获取第一出现频次以及第二出现频次,能够确定该第i个候选关键词对于目标文本是否具有差异性,即属于目标文本的特征词,亦或是属于所有文本的通用词。电子设备可以根据上述两个出现频次,计算该第i个候选关键词的频次特征值,其中,上述词频特征值具体可以为词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)。具体地,上述TF-IDF具体可以通过以下方式计算:
1.计算第i个候选关键词的词频参量,词频参量=第一出现频次/目标文本中词的总数;
2.计算逆文本概率,逆文本概率=log(已有文本的总数/第二出现频次+1);
3.计算TF-IDF=词频参量*逆文本概率。
对应地,对于关联关键词也可以通过上述方式计算词频特征值,从而计算出关于第一关联关系的第三加权因子。
进一步地,作为本申请的另一实施例,在S1023之后,还可以包括S1024:
在S1024中,基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子。
在本实施例中,除了上述三种类型的加权因子外,电子设备在计算加权权重时,还可以引入两个候选关键词之间的自相关系数,从而确定影响力传递的程度。若第i个候选关键词与第j个候选关键词之间的自相关程度越高,则影响力传递的效果越高;反之,若两者自相关程度越低,则影响力传递的效果则越弱。举例性地,在语句“我是学生”中,“我”与“学生”之间的自相关程度较高,则因此,“学生”一词的影响力传递到“我”一词时,对应的效果则越强。因此,电子设备可以存储有预设的矩阵模型,上述矩阵模型包括查询(query,Q)矩阵模型、关键(key,K)矩阵矩阵以及价值(value,V)矩阵模型,上述矩阵模型可以通过对语料库中的多个已有文本进行训练学习后生成得到。电子设备通过矩阵模型确定第i个候选关键词的自相关系数,从而可以通过自相关系数来确定第四加权因子。
在本申请实施例中,通过引入自相关系数来确定第四加权因子,在后续计算加权权重时,可以考虑自相关程度来确定关联关系的影响力传递效果,可以提高加权权重的准确性。
进一步地,作为本申请的另一实施例,上述S1024具体可以通过以下方式实现,包括S1024.1~S1024.4步骤,详述如下:
在S1024.1中,获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵。
在本实施例中,电子设备可以通过预设的嵌入转换算法,该嵌入转换算法可以是基于词向量(Word2vec)技术生成的,将候选关键词转换为一个嵌入向量,并且通过训练学习的方式生成用于计算自相关时使用的矩阵模型,确定第i个候选关键词的查询(query,Q)矩阵、关键(key,K)矩阵以及价值(value,V)矩阵。对应地,对于与第i个候选关键词存在关联关系的关联关键词,也可以通过上述方式分别计算得到对应的Q矩阵、K矩阵以及V矩阵。
在S1024.2中,根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量。
在本实施例中,电子设备可以计算第i个候选关键词在各个位置上对应的分数,具体的计算方式是用这个候选关键词的Q矩阵去和各个位置上的关联关键词的K矩阵进行内积运算,这个分数反应了这个候选关键词和其他位置关联关键词的相关程度,同样就反应了对其他位置的“关注程度”,即关注特征参量。
在S1024.3中,根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数。
在本实施例中,电子设备可以对关注特征参量进行预处理,得到该第i个候选关键词的相关得分。其中,预处理包括但不限于:归一化处理以及逻辑回归(softmax)处理。然后,电子设备可以根据预处理后的相关得分,对各个关联关键词的价值矩阵(即V矩阵)做加权求和,求和后的向量就是第i个候选关键词对应的自相关系数。
在S1024.4中,基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:
其中,为所述第四加权因子;Self-Att(Keywordi)为所述第i个候选关键词的所述自相关系数。
在本实施例中,电子设备可以根据第i个候选关键词的自相关系数,以及各个与第i个候选关键词存在关联关系的关联关键词的自相关系数,计算得到上述第i个候选关键词对于第j个候选关键词的第一关联关系的第四加权因子。其中,关联关键词的自相关系数同样可以通过上述方式计算得到。
在本申请实施例中,通过确定不同关键词之间的自相关系数,能够确定第i个候选关键词对于第j个候选关键词的影响力传递程度,提高了第四加权因子计算的准确性。
在S1025中,根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。
对应地,若本实施例包含S1024步骤,则S1025具体可以为:根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。
在本实施例中,电子设备可以对各个加权因子进行加权叠加,从而计算得到第一关联关系的加权权重。
其中,β、γ以及η为预设的加权权重。
在本申请实施例中,通过从多个维度确定目标文本中各个候选关键词的影响力传递的因素,并为确定各个维度对应的加权因子,从而计算出对应的加权权重,可以提高加权权重的准确性,从而提高后续关键词提取的准确性。
图5示出了本发明第三实施例提供的一种关键词的提取方法S103的具体实现流程图。参见图5,相对于图1-4任一个所述实施例,本实施例提供的一种关键词的提取方法中S103包括:S1031~S1034,具体详述如下:
在S1031中,根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:
其中,Weightij为第i个所述候选关键词与第j个所述候选关键词之间的关联关系的加权权重;M为所述影响力矩阵;n为所述候选关键词的总数。
在本实施例中,电子设备在计算得到各个候选关键词之间的关联关系对应的加权权重后,可以生成一个影响力矩阵,该影响力矩阵中记录有各个候选关键词之间的关联关系的加权权重。需要说明的是,上述影响力矩阵为一个n*n的矩阵,若任意两个候选关键词之间不存在关联关系,则影响力矩阵中对应的加权权重为0。
在S1032中,生成所述目标文本对应的初始权重矩阵。
在本实施例中,电子设备可以生成一个与候选关键词的总数n相匹配的初始权重矩阵。其中,该初始权重矩阵具体可以为一个1*n的矩阵,即一维向量,该一维向量中各个元素的权重值可以相同,也可以根据实际需求进行配置。举例性地,上述初始权重矩阵B0可以表示为:
在S1033中,基于所述影响力矩阵以及所述初始权重矩阵,计算各个所述关联关系对应的影响力系数。
在本实施例中,电子设备可以通过初始权重矩阵对影响力矩阵内的各个元素进行加权大家,从而能够确定该影响力矩阵中各个关联关系的影响力系数。其中,该影响力系数具体为关联关系的加权权重与初始权重矩阵的中对应的数值相乘后得到的。
在S1034中,基于所述影响力系数,计算所述候选关键词的所述推荐系数;所述推荐系数具体为:
其中,Weightki为所述第i个候选关键词与第k个候选关键词之间的关联关系的影响力系数;Recommand(Keywordk)为第k个候选关键词的影响力系数;In(Keywordi)为存在指向第i个所述候选关键词的关联关系的候选关键词集合。
在本实施例中,电子设备可以通过上述推荐系数的计算方式进行迭代,从而计算出各个候选关键词对应的推荐系数。其中,当相邻的两个候选关键词的推荐系数之间的差异小于预设的差异阈值时,即Recommand(Keywordk)与Recommand(Keywordk-1)之间的差异小于预设的差异阈值,则停止迭代运算,从而计算得到该候选关键词对应的推荐系数。
在本申请实施例中,通过预设的初始权重矩阵对各个加权权重进行调整,并通过迭代方式计算出对应的推荐系数,能够提高推荐系数计算的准确性。
图6示出了本发明第四实施例提供的一种关键词的提取方法S101的具体实现流程图。参见图6,相对于图1-4任一项所述实施例,本实施例提供的一种关键词的提取方法中S101包括:S1011~S1013,具体详述如下:
在S1011中,对所述目标文本进行语句划分,得到多个文本语句。
在S1012中,分别对各个所述文本语句进行关键词提取,确定每个所述文本语句对应的关键词序列;所述关键词序列中包含至少一个所述候选关键词。
在S1013中,通过预设的关联窗口在各个所述关键词序列中进行滑动框取,将被所述关联窗口框取的所述候选关键词识别为存在关联关系的关键词,并基于所述关联关系生成所述关键词图。
在本实施例中,电子设备可以通过预设的关键符号,如“。”“;”以及回车键等,将目标文本划分为多个文本语句,划分后的目标文本具体可以表示为Text=[S1,S2,…,Sn]。然后电子设备可以首先进行中文分词和词性标注处理,保留重要的词语,如如名词、动词、形容词,从而确定了各个语句中包含的候选关键词。上述文本语句具体可以表示为:即Si=[ti,1,ti,2,……,ti,n]。电子设备可以预设有一个关联窗口,该关联窗口的大小可以根据所需关键的关键词图间关键词的紧密程度确定,若紧密程度越高,对应的关联窗口的大小越小,反之,若紧密程度越低,则对应的关联窗口的大小越大。电子设备可以通过上述关联窗口,在语句中进行滑动框取,将能够被同一关联窗口框取的关键词,识别为存在关联关系的关键词,从而能够确定不同关键词图中各个节点之间的边。
在本申请实施例中,逐步划分目标文本,得到文本语句以及候选关键词,并确定各个候选关键词之间的关联关系,继而生成关键词图,提高了关键词图生成的准确性。
图7示出了本发明一实施例提供的一种关键词的提取方法装置的结构框图,该电子设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图7,所述关键词的提取方法装置包括:
关键词图生成单元71,用于对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;
加权权重确定单元72,用于分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;
推荐系数确定单元73,用于根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
目标关键词选取单元74,用于基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。
可选地,所述加权权重确定单元72,包括:
第一加权因子确定单元,用于根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
所述第一加权因子具体为:
其中,为所述第一加权因子;Out(Keywordi)为所述第一关联个数;In(Keywordj)为所述第二关联个数;
第二加权因子确定单元,用于基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;
第三加权因子确定单元,用于基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
其中,Weightγ(Keywordi,Keywordj)为所述第三加权因子;TF(Keywordi)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;
加权因子叠加单元,用于根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。
可选地,所述第二加权因子确定单元包括:
第一位置加权参量确定单元,用于根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:
其中,Location(Keywordi)为所述第一位置加权参量;λ为预设系数;
第二位置加权参量确定单元,用于根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;
第二加权因子生成单元,用于根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:
其中,Weihgtβ(Keywordi,Keywordj)为所述第二加权因子。
可选地,关键词的提取装置还包括:
第四加权因子确定单元,用于基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;
对应地,所述加权因子叠加单元用于为:根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。
可选地,所述第四加权因子确定单元,包括:
查询矩阵确定单元,用于获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵;
关注特征参量确定单元,用于根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量;
关注特征参量确定单元,用于根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数;
第四加权因子计算单元,用于基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:
其中,为所述第四加权因子;Self-Att(Keywordi)为所述第i个候选关键词的所述自相关系数。
可选地,所述推荐系数确定单元73包括:
影响力矩阵生成单元,用于根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:
/>
其中,Weightij为第i个所述候选关键词与第j个所述候选关键词之间的关联关系的加权权重;M为所述影响力矩阵;n为所述候选关键词的总数;
初始权重矩阵生成单元,用于生成所述目标文本对应的初始权重矩阵;
影响力系数确定单元,用于基于所述影响力矩阵以及所述初始权重矩阵,计算各个所述关联关系对应的影响力系数;
影响力系数导入单元,用于基于所述影响力系数,计算所述候选关键词的所述推荐系数;所述推荐系数具体为:
其中,Weightki为所述第i个候选关键词与第k个候选关键词之间的关联关系的影响力系数;Recommand(Keywordk)为第k个候选关键词的影响力系数;In(Keywordi)为存在指向第i个所述候选关键词的关联关系的候选关键词集合。
可选地,关键词图生成单元71包括:
文本语句划分单元,用于对所述目标文本进行语句划分,得到多个文本语句;
关键词划分单元,用于分别对各个所述文本语句进行关键词提取,确定每个所述文本语句对应的关键词序列;所述关键词序列中包含至少一个所述候选关键词;
关联关系识别单元,用于通过预设的关联窗口在各个所述关键词序列中进行滑动框取,将被所述关联窗口框取的所述候选关键词识别为存在关联关系的关键词,并基于所述关联关系生成所述关键词图。
因此,本发明实施例提供的关键词的提取方法装置同样可以考虑各个候选关键词之间的相互影响力,从而能够选取出影响力较大的候选关键词,从而选取得到的目标关键词能够更好地体现目标文本的文本内容,继而提高后续人工智能对于目标文本的分类以及添加文本标准的准确性。
应当理解的是,图7示出的关键词的提取方法装置的结构框图中,各模块用于执行图1至图6对应的实施例中的各步骤,而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述,此处不再赘述。
图8是本申请另一实施例提供的一种电子设备的结构框图。如图8所示,该实施例的电子设备800包括:处理器810、存储器820以及存储在存储器820中并可在处理器810运行的计算机程序830,例如关键词的提取方法的程序。处理器810执行计算机程序830时实现上述各个关键词的提取方法各实施例中的步骤,例如图1所示的S101至S105。或者,处理器810执行计算机程序830时实现上述图8对应的实施例中各模块的功能,例如,图7所示的单元71至74的功能,具体请参阅图7对应的实施例中的相关描述。
示例性的,计算机程序830可以被分割成一个或多个模块,一个或者多个模块被存储在存储器820中,并由处理器810执行,以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序830在电子设备800中的执行过程。例如,计算机程序830可以被分割成关键词图生成单元、加权权重确定单元、推荐系数确定单元和目标关键词选取单元,各模块具体功能如上。
电子设备800可包括,但不仅限于,处理器810、存储器820。本领域技术人员可以理解,图8仅仅是电子设备800的示例,并不构成对电子设备800的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器810可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器820可以是电子设备800的内部存储单元,例如电子设备800的硬盘或内存。存储器820也可以是电子设备800的外部存储设备,例如电子设备800上配备的插接式硬盘,智能存储卡,闪存卡等。进一步地,存储器820还可以既包括电子设备800的内部存储单元也包括外部存储设备。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种关键词的提取方法,其特征在于,包括:
对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;
分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;
根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词;
所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:
根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
所述第一加权因子具体为:
其中,为所述第一加权因子;Out(Keywordi)为所述第一关联个数;In(Keywordj)为所述第二关联个数;
基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;
基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
其中,Weightγ(Keywordi,Keywordj)为所述第三加权因子;TF(Keywordi)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;Keywordk为第k个候选关键词;Keywordk∈Out(Keywordi)为与第i个候选关键词存在关联关系的关联关键词;
根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重;
所述基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子,包括:
根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:
其中,Location(Keywordi)为所述第一位置加权参量;λ为预设系数;
根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;
根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:
其中,Weihgtβ(Keywordi,Keywordj)为所述第二加权因子。
2.根据权利要求1所述的提取方法,其特征在于,在所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重之前,还包括:
基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;
对应地,所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重具体为:
根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。
3.根据权利要求2所述的提取方法,其特征在于,所述基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子,包括:
获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵;
根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量;
根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数;
基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:
其中,Weightη(Keywordi,Keywordj)为所述第四加权因子;Self-Att(Keywordi)为所述第i个候选关键词的所述自相关系数;Keywordk为第k个候选关键词;Keywordk∈Out(Keywordi)为与第i个候选关键词存在关联关系的关联关键词。
4.根据权利要求1-3任一项所述的提取方法,其特征在于,所述根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数,包括:
根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:
其中,Weightij为第i个所述候选关键词与第j个所述候选关键词之间的关联关系的加权权重;M为所述影响力矩阵;n为所述候选关键词的总数;
生成所述目标文本对应的初始权重矩阵;
基于所述影响力矩阵以及所述初始权重矩阵,计算各个所述关联关系对应的影响力系数;
基于所述影响力系数,计算所述候选关键词的所述推荐系数;所述推荐系数具体为:
其中,Weightki为所述第i个候选关键词与第k个候选关键词之间的关联关系的影响力系数;Recommand(Keywordk)为第k个候选关键词的影响力系数;In(Keywordi)为存在指向第i个所述候选关键词的关联关系的候选关键词集合。
5.根据权利要求1-3任一项所述的提取方法,其特征在于,所述对目标文本进行关键词识别,生成所述目标文本对应的关键词图,包括:
对所述目标文本进行语句划分,得到多个文本语句;
分别对各个所述文本语句进行关键词提取,确定每个所述文本语句对应的关键词序列;所述关键词序列中包含至少一个所述候选关键词;
通过预设的关联窗口在各个所述关键词序列中进行滑动框取,将被所述关联窗口框取的所述候选关键词识别为存在关联关系的关键词,并基于所述关联关系生成所述关键词图。
6.一种关键词的提取装置,其特征在于,包括:
关键词图生成单元,用于对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;
加权权重确定单元,用于分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;
推荐系数确定单元,用于根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;
目标关键词选取单元,用于基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词;
所述加权权重确定单元72,包括:
第一加权因子确定单元,用于根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;
其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;
所述第一加权因子具体为:
其中,为所述第一加权因子;Out(Keywordi)为所述第一关联个数;In(Keywordj)为所述第二关联个数;
第二加权因子确定单元,用于基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;
第三加权因子确定单元,用于基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:
其中,Weightγ(Keywordi,Keywordj)为所述第三加权因子;TF(Keywordi)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;Keywordk为第k个候选关键词;Keywordk∈Out(Keywordi)为对于与第i个候选关键词存在关联关系的关联关键词;
加权因子叠加单元,用于根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
CN202111115352.8A 2021-09-23 2021-09-23 一种关键词的提取方法、装置、电子设备及存储介质 Active CN113792131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111115352.8A CN113792131B (zh) 2021-09-23 2021-09-23 一种关键词的提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111115352.8A CN113792131B (zh) 2021-09-23 2021-09-23 一种关键词的提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113792131A CN113792131A (zh) 2021-12-14
CN113792131B true CN113792131B (zh) 2024-02-09

Family

ID=78879159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111115352.8A Active CN113792131B (zh) 2021-09-23 2021-09-23 一种关键词的提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113792131B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269989B (zh) * 2022-08-03 2023-05-05 百度在线网络技术(北京)有限公司 对象推荐方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN113792131A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
US20160378847A1 (en) Distributional alignment of sets
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
US10970488B2 (en) Finding of asymmetric relation between words
Alsaidi et al. English poems categorization using text mining and rough set theory
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN113792131B (zh) 一种关键词的提取方法、装置、电子设备及存储介质
Arbaatun et al. Hate Speech Detection on Twitter through Natural Language Processing using LSTM Model
CN114970467B (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN112270189B (zh) 一种提问式的分析节点生成方法、系统及存储介质
Suzuki et al. On a new model for automatic text categorization based on vector space model
CN113673237A (zh) 模型训练、意图识别方法、装置、电子设备及存储介质
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Haque et al. Sentiment analysis in low-resource bangla text using active learning
Nagrale et al. Document theme extraction using named-entity recognition
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN115688771B (zh) 一种文书内容比对性能提升方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221008

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant