CN108334533A - 关键词提取方法和装置、存储介质及电子装置 - Google Patents

关键词提取方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN108334533A
CN108334533A CN201710991231.7A CN201710991231A CN108334533A CN 108334533 A CN108334533 A CN 108334533A CN 201710991231 A CN201710991231 A CN 201710991231A CN 108334533 A CN108334533 A CN 108334533A
Authority
CN
China
Prior art keywords
candidate keywords
text
extraction
speech
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710991231.7A
Other languages
English (en)
Other versions
CN108334533B (zh
Inventor
杨正伟
汤煌
张小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710991231.7A priority Critical patent/CN108334533B/zh
Publication of CN108334533A publication Critical patent/CN108334533A/zh
Priority to PCT/CN2018/108726 priority patent/WO2019076191A1/zh
Priority to US16/682,552 priority patent/US11194965B2/en
Application granted granted Critical
Publication of CN108334533B publication Critical patent/CN108334533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词提取方法和装置、存储介质及电子装置。其中,该方法包括:获取目标文本中的候选关键词集;至少根据主题相似度候选关键词集中候选关键词的文本转换频率,确定出候选关键词的提取度,其中,主题相似度为候选关键词与目标文本的相似度,从而实现通过提取度来从候选关键词集中提取出关键词,以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度,来确定出目标文本中待提取的关键词,实现提高关键词提取的准确性的效果。

Description

关键词提取方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种关键词提取方法和装置、 存储介质及电子装置。
背景技术
关键词是当前文档内关键内容的索引词,通常用于在搜索过程中对上 述关键内容进行检索定位,以便于对文档的全文内容进行快速地了解和把 握,从而实现根据上述关键词进行文本文档分类、数据分析及智能匹配推 荐等过程。
然而,目前相关技术常用的关键词提取方法往往都是基于统计数据, 对概括性的词语进行较宽泛的提取,即,相关技术提供的关键词提取方法 存在提取准确性较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种关键词提取方法和装置、存储介质及电子装 置,以至少解决由于对概括性词语直接进行较宽泛地关键词提取而导致的 提取准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种关键词提取方法,包括: 获取目标文本中的候选关键词集;至少根据主题相似度以及上述候选关键 词集中候选关键词的文本转换频率,确定出上述候选关键词的提取度,其 中,上述主题相似度为上述候选关键词与上述目标文本的相似度,其中, 上述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词 被提取出的概率;根据上述提取度从上述候选关键词集中提取出上述关键词。
根据本发明实施例的另一方面,还提供了一种关键词提取装置,包括: 获取单元,用于获取目标文本中的候选关键词集;确定单元,用于至少根 据主题相似度以及上述候选关键词集中候选关键词的文本转换频率,确定 出上述候选关键词的提取度,其中,上述主题相似度为上述候选关键词与 上述目标文本的相似度,其中,上述提取度用于指示上述候选关键词作为 与上述目标文本匹配的关键词被提取出的概率;提取单元,用于根据上述提取度从上述候选关键词集中提取出上述关键词。
根据本发明实施例的又一方面,还提供了一种存储介质,上述存储介 质包括存储的程序,其中,上述程序运行时执行上述的方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、 处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上 述处理器通过上述计算机程序执行上述的方法。
在本发明实施例中,采用获取目标文本中的候选关键词集,然后根据 主题相似度以及候选关键词集中候选关键词的文本转换频率,确定关键词 集中关键词的提取度,其中,主题相似度为候选关键词与目标文本的相似 度,从而实现通过上述提取度来从候选关键词集中提取出关键词,以结合 候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度,来 确定出目标文本中待提取的关键词,而不再仅仅基于统计数据进行较宽泛 的关键词提取,进而实现提高关键词提取的准确性的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的电子终端中文本数据显示示意 图;
图2是根据本发明实施例的一种关键词提取方法的流程示意图;
图3是根据本发明实施例提出的一种改进文本转换频率的示意图;
图4是根据本发明实施例的一种关键词的文本标签分类的示意图;
图5是根据本发明实施例的一种关键词的账号标签分类的示意图;
图6是根据本发明实施例的一种关键词提取装置的结构示意图;
图7是根据本发明实施例提出的一种电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或 先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描 述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实 施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或 设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出 的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种关键词的提取方法,在介绍本发明实施例的 技术方案之前,首先对本发明实施例的应用场景进行说明,本发明的实施 例的技术方案应用于文本数据中的关键词的提取。
如图1所示,为本发明实施例中的一种关键词的提取方法的应用环境 示意图,其中,终端102通过网络104与服务器106连接,在终端102中 具有终端应用,用于在终端102的显示屏中显示目标文本,在终端102中 获取目标文本中的候选关键词集;至少根据主题相似度以及候选关键词集 中候选关键词的文本转换频率,确定关键词集中关键词的提取度,其中, 主题相似度为候选关键词与目标文本的相似度,提取度用于指示候选关键 词作为与目标文本匹配的关键词被提取出的概率;根据提取度从候选关键 词集中提取出关键词。
在本发明实施例中,采用获取目标文本中的候选关键词集,然后根据 主题相似度以及候选关键词集中候选关键词的文本转换频率,确定关键词 集中关键词的提取度,其中,主题相似度为候选关键词与目标文本的相似 度,从而实现通过上述提取度来从候选关键词集中提取出关键词,以结合 候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度,来 确定出目标文本中待提取的关键词,而不再仅仅基于统计数据进行较宽泛 的关键词提取,进而实现提高关键词提取的准确性的效果。
需要说明的是,上述电子终端包括但不限于移动终端、PC机等,具 备存储器以及显示屏,以进行自身文本数据的存储以及文本数据的显示等, 其中,为了方便说明,以下将文本数据描述成为目标文本,二者意义相同。
根据本发明实施例,提供了一种关键词的提取方法,如图2所示,该 方法包括:
S202,获取目标文本中的候选关键词集;
S204,至少根据主题相似度以及候选关键词集中候选关键词的文本转 换频率,确定出候选关键词的提取度,其中,主题相似度为候选关键词与 目标文本的相似度,其中,提取度用于指示候选关键词作为与目标文本匹 配的关键词被提取出的概率;
S206,根据提取度从候选关键词集中提取出关键词。
本发明实施例的技术方案的应用场景包括但不限于电子终端,服务器 等,用于对目标文本中关键词的获取,或者目标关键词的检索等,具体可 以用于例如广告推送、新闻推送以及用户订阅的其他消息通知推送等应用 场景中,以上所述应用场景仅是一种示例,本实施例不对此做任何限定。
可选地,在关键词的获取过程中,首先获取目标文本中的所有可能是 关键词的候选关键词,获取目标文本中的候选关键词集,然后对候选关键 词集作进一步地筛选,具体过程如下:
获取到目标文本中的候选关键词集,然后至少根据主题相似度以及候 选关键词集中候选关键词的文本转换频率,确定关键词集中关键词的提取 度,其中,主题相似度为候选关键词与目标文本的相似度,提取度用于指 示获选关键词作为与目标文本匹配的关键词被提出的概率,根据提取度从 候选关键词集中提取出关键词,其中根据候选关键词与目标文本的主题相 似度以及候选关键词的文本转换频率两点中至少一点来确定出候选关键 词的提取度,任意一点也可以确定,但是为了提高关键词的准确性,采用 主题相似度以及文本转换频率一起确定出候选词的提取度,以解决关键词 提取条件过于宽泛的问题。
可选地,在根据提取度从候选关键词集中提取出关键词之后,还包括 以下至少之一:
1)根据提取出的关键词为目标文本匹配文本标签,其中,文本标签 用于标识目标文本的分类信息;根据文本标签将目标文本推送给相匹配的 用户账号;
2)根据提取出的关键词为获取到目标文本的目标账号匹配账号标签, 其中,账号标签用于标识目标账号的分类信息;根据账号标签为目标账号 推送相匹配的文本。
在上述第一种方案中,将提取出的目标文本的关键词用于给目标文本 匹配文本标签,用于区分该目标文本的类别信息,然后根据文本标签将目 标文本推送给相匹配的用户账号,另外,还可以根据文本标签将目标文本 进行分类保存等。
而在上述第二种方案中,则是将提取出的目标文本的关键词用于给目 标文本的目标账号匹配账号标签,该账号标签用于标识目标账号的分类信 息,根据账号标签为目标账号推送相匹配的文本,或根据账号标签将目标 账号进行分类标注等,以便后续根据账号标签对目标账号进行相关的服务。
可选地,至少根据主题相似度以及候选关键词集中候选关键词的文本 转换频率,确定关键词集中关键词的提取度包括但不限于:获取候选关键 词的主题相似度,以及候选关键词的文本转换频率的加权结果;获取候选 关键词的属性信息,其中,属性信息包括:候选关键词的词性,及候选关 键词在目标文本中的词频;根据加权结果及属性信息确定提取度。例如, 在获取到一份目标文本时,首先确定该目标文本中的主题,然后筛选出目 标文本的候选关键词集,根据候选关键词主题相似度以及文本转换频率获 取候选关键词的加权结果,用于获取候选关键词是关键词的概率。另外, 获取候选关键词的属性信息中,词性包括但不限于动词、名词或形容词等, 而候选关键词在目标文本中的词频则是候选关键词在目标文本中出现的 次数,在获取到以上信息后,根据加权结果以及属性信息确定候选关键词 的提取度。
可选地,根据加权结果及属性信息确定提取度包括但不限于:根据候 选关键词的词性及候选关键词在目标文本中的位置,确定候选关键词的提 取系数;获取提取系数、词频及加权结果的乘积作为提取度,其中,在加 权结果中,与主题相似度匹配的第一权重,及与文本转换频率匹配的第二 权重,二者的权重之和为1。在实际的应用场景中,一个目标文本数据中 通常基于候选关键词的主题相似度以及候选关键词的转换频率两个评价 参数来判断候选关键词的提取度,如此则候选关键词的主题相似度的第一 权重的数值与文本转换频率匹配的第二权重的数值的和为1。
需要说明的是,在本实施例中,将主题相似度以及文本转换频率看作 是候选关键词作为关键词的评价参数,当存在除上述评价参数(主题相似 度以及候选关键词)之外的其他评价参数时,这里多个评价参数的权重的 数值之和为1。本实施例中对此不做任何限定。
可选地,根据候选关键词的词性及候选关键词在目标文本中的位置, 确定候选关键词的提取系数包括但不限于:
1)在候选关键词出现在与目标文本对应的标题中的情况下,确定出 的提取系数大于与词性匹配的词性系数;
2)在候选关键词并未出现在与目标文本对应的标题中的情况下,确 定出的提取系数等于与词性匹配的词性系数;
其中,词性系数根据候选关键词的词性确定数值,具体包括以下几种 情况:
a)在词性为名词的情况下,词性系数为第一数值;
b)在词性为动词的情况下,词性系数为第二数值;
c)在词性为其他词性的词的情况下,词性系数为第三数值。
可选地,在至少根据主题相似度以及候选关键词集中候选关键词的文 本转换频率,确定关键词集中关键词的提取度之前,还包括但不限于:获 取目标文本所在语料库中的全部文本数量,与在语料库中包含候选关键词 的文本数量二者之间的第一比值;获取在预设搜索平台中的总搜索条目数 量,以及在预设搜索平台中包含候选关键词的搜索条目数量;根据搜索条 目数量与总搜索条目数量确定二者之间的第二比值;对第一比值与第二比 值二者的乘积进行取对数运算,得到候选关键词的文本转换频率。
在具体的应用场景中,在对目标文本的关键词获取过程中,通常结合 已有的语料库以及引用搜索数据来协助提取关键词,其中,通过本地存储 的或者存储于云端的语料库中全部文本的数量,以及包括候选关键词的文 本数量之间的第一比值,即确定在语料库中候选关键词的历史占比。另一 方面,通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的 数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算,得到候选关键词 的文本转换频率,对文本转换频率进行改进,使得文本转换频率更为精确, 需要说明的是,在此也可以单独引用已有的语料库或单独引用搜索数据, 上述仅是一种示例。
可选地,至少根据主题相似度以及候选关键词集中候选关键词的文本 转换频率,确定关键词集中关键词的提取度之前,还包括但不限于:获取 与候选关键词匹配的第一主题分布数据,其中,第一主题分布数据用于指 示在K个主题中,候选关键词为第k个主题的概率;获取与目标文本匹配 的第二主题分布数据,其中,第二主题分布数据用于指示在K个主题中, 目标文本为第k个主题的概率;根据第一主题分布数据及第二主题分布数 据,确定候选关键词与目标文本的主题相似度,其中,主题相似度用于指 示在K个主题中,候选关键词为第k个主题,且目标文本也为第k个主题 的概率,k大于等于1,且小于等于K。
通过本发明提供的实施例,采用获取目标文本中的候选关键词集,然 后根据主题相似度以及候选关键词集中候选关键词的文本转换频率,确定 关键词集中关键词的提取度,其中,主题相似度为候选关键词与目标文本 的相似度,从而实现通过上述提取度来从候选关键词集中提取出关键词, 以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个 维度,来确定出目标文本中待提取的关键词,而不再仅仅基于统计数据进行较宽泛的关键词提取,进而实现提高关键词提取的准确性的效果。
作为一种可选的方案,根据主题相似度以及候选关键词集中候选关键 词的文本转换频率,确定关键词集中关键词的提取度包括:
S1,获取候选关键词的主题相似度,以及候选关键词的文本转换频率 的加权结果;
S2,获取候选关键词的属性信息,其中,属性信息包括:候选关键词 的词性,及候选关键词在目标文本中的词频;
S3,根据加权结果及属性信息确定提取度。
在具体的应用场景中,在获取到一份目标文本时,首先获取目标文本 的候选关键词集,根据候选关键词主题相似度以及文本转换频率IDF获取 候选关键词的加权结果,用于获取候选关键词是关键词的概率。另外,获 取候选关键词的属性信息中,词性包括候选关键词是否为动词、名词或形 容词以及关键词的语种(例如中文、英文、日文)等,而候选关键词在目 标文本中的词频则是候选关键词在目标文本中出现的次数或频率,在获取 到以上信息后,根据加权结果以及属性信息确定候选关键词的提取度。
通过本实施例,获取候选关键词的主题相似度以及候选关键词的文本 转换频率的加权结果,根据加权结果以及候选关键词的属性信息来确定候 选关键词的提取度,解决了关键词的提取条件过于宽泛的问题。
作为一种可选的方案,根据加权结果及属性信息确定提取度包括:
S1,根据候选关键词的词性及候选关键词在目标文本中的位置,确定 候选关键词的提取系数;
S2,获取提取系数、词频及加权结果的乘积作为提取度,其中,在加 权结果中,与主题相似度匹配的第一权重,及与文本转换频率匹配的第二 权重,二者的权重之和为1。
在具体的应用场景中,一个目标文本数据中通常基于候选关键词的主 题相似度以及候选关键词的文本转换频率两个评价参数来判断候选关键 词的提取度,如此则候选关键词的主题相似度的第一权重的数值与文本转 换频率匹配的第二权重的数值的和为1,当存在多个候选关键词的评价参 数时,例如其他多个评价参数时,候选关键词的多个评价参数的权重的数 值之和为1。
另外根据加权结果及属性信息确定候选关键词的提取度,可以根据候 选关键词的词性及候选关键词在目标文本中的位置来确定候选关键词的 提取系数,其中,候选关键词在目标文本中的位置包括但不限于候选关键 词是否处于目标文本的标题中,然后获取提取系数、词频及加权结果的乘 积作为候选关键词的提取度。
例如,假设w为候选关键词,w的提取度可以按照如下方式计算获取:
weightw=S1*tf*{S2*IDFw+(1-S2)*T}
其中,S1为提取系数,tf为w的词频,{S2*IDFw+(1-S2)*T}为加权结 果;其中,IDFw为候选关键词w文本转换频率,T为主题相似度,S2为 调节IDFw与主题相似度的参数。
通过本实施例,根据候选关键词的词性及候选关键词在目标文本中的 位置,确定候选关键词的提取系数,获取提取系数、词频及加权结果的乘 积作为候选关键词的提取度,提高了目标文本中关键词的提取准确度。
作为一种可选的方案,根据候选关键词的词性及候选关键词在目标文 本中的位置,确定候选关键词的提取系数包括:
S1,在候选关键词出现在与目标文本对应的标题中的情况下,确定出 的提取系数大于与词性匹配的词性系数;
S2,在候选关键词并未出现在与目标文本对应的标题中的情况下,确 定出的提取系数等于与词性匹配的词性系数;
在具体的应用场景中,若候选关键词出现在与目标文本对应的标题中, 则确定候选关键词的提取系数大于与词性匹配的词性系数,若候选关键词 并未出现在与目标文本对应的标题中,则确定候选关键词的提取系数等于 与词性匹配的词性系数。
其中,词性系数根据候选关键词的词性确定数值,包括:
A)在词性为名词的情况下,词性系数为第一数值;
B)在词性为动词的情况下,词性系数为第二数值;
C)在词性为其他词性的词的情况下,词性系数为第三数值。
在具体的应用场景中,候选关键词的词性不同对其词性系数产生影响, 不同词性对应着不同的词性系统,具体的词性系数值根据用户的实际经验 进行设置,在此不做限定。
例如,假设在一组目标文本的数据中,w为候选关键词,w的候选关 键词的提取度计算方式如上所述的公式: weightw=S1*tf*{S2*IDFw+(1-S2)*T}其中,S2为调节候选关键词文本转 换频率IDF与主题相似度的参数。提取系数S1与w的词性以及是否出现 在标题中有关。其中,如果w出现在标题中,则S1=2S0,S0为w的词性 系数,否则S1=S0
通过本实施例,根据候选关键词在目标文本中的位置以及候选关键词 的词性来确定对应的提取系数以及词性系数,以实现对目标文本中关键词 的精确提取。
作为一种可选的方案,在至少根据主题相似度以及候选关键词集中候 选关键词的文本转换频率,确定关键词集中关键词的提取度之前,还包括:
S1,获取目标文本所在语料库中的全部文本数量,与在语料库中包含 候选关键词的文本数量二者之间的第一比值;
S2,获取在预设搜索平台中的总搜索条目数量,以及在预设搜索平台 中包含候选关键词的搜索条目数量;
S3,根据搜索条目数量与总搜索条目数量确定二者之间的第二比值;
S4,对第一比值与第二比值二者的乘积进行取对数运算,得到候选关 键词的文本转换频率。
在具体的应用场景中,在对目标文本的关键词获取过程中,通常结合 已有的语料库以及引用搜索数据来协助提取关键词,其中,通过本地存储 的或者存储于云端的语料库中全部文本的数量,以及包括候选关键词的文 本数量之间的第一比值,即确定在语料库中候选关键词的历史占比。另一 方面,通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的 数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算,得到候选关键词 的文本转换频率;
或者,仅通过本地存储的或者存储于云端的语料库中全部文本的数量, 以及包括候选关键词的文本数量之间的第一比值,对第一比值进行取对数 运算,得到候选关键词的文本转换频率;
或者,仅通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索 条目的数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的 历史占比,对第二比值进行取对数运算,得到候选关键词的文本转换频率。
需要说明的是,以上三种方式都是为了对候选关键词的文本转换频率 的一种改进,不同的是改进后的文本转换频率的精度略有不同。
以下对上述第一中方式进行说明例如,在一篇文章里面出现了人物Y 的名字“YM”,如图3所示,从语料库302以及搜索数据库304中分别获 取数据,以对文本转换频率进行改进,改进后的候选关键词“YM”文本 转换频率IDF如下:
其中,N表示文件总数目,n表示该词语w的文件数目。M表示搜索 数据中的总搜索条目数,m表示包含候选关键词“YM”的搜索条目数, 加1是为了防止m为0。
通过本实施例,引入历史数据以及搜索数据,对文本转换频率进行改 进,使得文本转换频率更为精确。
作为一种可选的方案,至少根据主题相似度以及候选关键词集中候选 关键词的文本转换频率,确定关键词集中关键词的提取度之前,还包括:
S1,获取与候选关键词匹配的第一主题分布数据,其中,第一主题分 布数据用于指示在K个主题中,候选关键词为第k个主题的概率;
S2,获取与目标文本匹配的第二主题分布数据,其中,第二主题分布 数据用于指示在K个主题中,目标文本为第k个主题的概率;
S3,根据第一主题分布数据及第二主题分布数据,确定候选关键词与 目标文本的主题相似度,其中,主题相似度用于指示在K个主题中,候选 关键词为第k个主题,且目标文本也为第k个主题的概率,k大于等于1, 且小于等于K。
作为一种优选的实施方式,根据第一主题分布数据及第二主题分布数 据,确定候选关键词与目标文本的主题相似度包括但不限于:通过以下公 式确定候选关键词与目标文本的主题相似度:
其中,w用于表示候选关键词,d用于表示目标文本,cos(w;d)用于 表示候选关键词与目标文本的主题相似度,其中“cos(w;d)”与于上述公 式“weightw=S1*tf*{S2*IDFw+(1-S2)*T}”中“T”含义相同k用于表示 在K个主题中的第k个主题,P(k|d)用于表示目标文本为第k个主题的概 率,p(k|w)用于表示候选关键词为第k个主题的概率。
通过本实施例,利用现有学习到的候选关键词的主题分布数据,计算 出候选关键词和文档的主题分布,从而获取到关键词与目标文本的主题相 似度,解决了关键词提取条件过于广泛的问题。
作为一种可选的方案,在根据提取度从候选关键词集中提取出关键词 之后,还包括以下至少之一:
S1,根据提取出的关键词为目标文本匹配文本标签,其中,文本标签 用于标识目标文本的分类信息;根据文本标签将目标文本推送给相匹配的 用户账号;
在具体的应用场景中,如图4所示,以目标文本为新闻文本为例进行 说明,假设终端401通过网络与应用服务器402连接,应用服务器402根 据终端401发送新闻文本中获取的候选关键字,根据语料库403最终提取 出的关键词为“航母”、“军事”,则为该新闻文本匹配文本标签“军事”, 则表示该新闻为军事类新闻,然后根据该新闻文本的标签将新闻推送给相 匹配终端401的用户账户。
S2,根据提取出的关键词为获取到目标文本的目标账号匹配账号标签, 其中,账号标签用于标识目标账号的分类信息;根据账号标签为目标账号 推送相匹配的文本。
仍以上述目标文本为新闻文本为例进行说明,如图5所示,假设终端 501通过网络与应用服务器502连接,应用服务器502根据终端501发送 新闻文本中获取的候选关键字,根据语料库503最终提取出的关键词为“航 母”、“军事”,若之前用户A关注了该类新闻,且该用户A所在终端为终 端504,则为该目标文本匹配账户标签“用户A”,根据该“用户A”账号标签为用户A的目标账号推送相匹配的新闻文本,将新闻文本发送至终端 504。
通过本实施例,将提取出的目标文本关键词用于文本标签分类以及账 号标签分类,以提高目标文本推送的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根 据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可 以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的 方法。
根据本发明实施例,还提供了一种用于实施上述关键词提取方法的关 键词提取装置,如图6所示,该装置包括:
1)获取单元602,用于获取目标文本中的候选关键词集;
2)确定单元604,用于至少根据主题相似度以及候选关键词集中候选 关键词的文本转换频率,确定出候选关键词的提取度,其中,主题相似度 为候选关键词与目标文本的相似度,其中,提取度用于指示候选关键词作 为与目标文本匹配的关键词被提取出的概率;
3)提取单元606,用于根据提取度从候选关键词集中提取出关键词。
本发明实施例的技术方案的应用场景包括但不限于电子终端,服务器 等,用于对目标文本中关键词的获取,或者目标关键词的检索等,具体可 以用于例如广告推送、新闻推送以及用户订阅的其他消息通知推送等应用 场景中,以上所述应用场景仅是一种示例,本实施例不对此做任何限定。
可选地,在关键词的获取过程中,首先获取目标文本中的所有可能是 关键词的候选关键词,获取目标文本中的候选关键词集,然后对候选关键 词集作进一步地筛选,具体过程如下:
获取到目标文本中的候选关键词集,然后至少根据主题相似度以及候 选关键词集中候选关键词的文本转换频率,确定出候选关键词的提取度, 其中,主题相似度为候选关键词与目标文本的相似度,其中,提取度用于 指示获选关键词作为与目标文本匹配的关键词被提出的概率,根据提取度 从候选关键词集中提取出关键词,其中根据候选关键词与目标文本的主题 相似度以及候选关键词的文本转换频率两点中至少一点来确定出候选关键词的提取度,任意一点也可以确定,但是为了提高关键词的准确性,采 用主题相似度以及文本转换频率一起确定出候选词的提取度,以解决关键 词提取条件过于宽泛的问题。
可选地,在根据提取度从候选关键词集中提取出关键词之后,还包括 以下至少之一:
1)根据提取出的关键词为目标文本匹配文本标签,其中,文本标签 用于标识目标文本的分类信息;根据文本标签将目标文本推送给相匹配的 用户账号;
2)根据提取出的关键词为获取到目标文本的目标账号匹配账号标签, 其中,账号标签用于标识目标账号的分类信息;根据账号标签为目标账号 推送相匹配的文本。
在上述第一种方案中,将提取出的目标文本的关键词用于给目标文本 匹配文本标签,用于区分该目标文本的类别信息,然后根据文本标签将目 标文本推送给相匹配的用户账号,另外,还可以根据文本标签将目标文本 进行分类保存等。
而在上述第二种方案中,则是将提取出的目标文本的关键词用于给目 标文本的目标账号匹配账号标签,该账号标签用于标识目标账号的分类信 息,根据账号标签为目标账号推送相匹配的文本,或根据账号标签将目标 账号进行分类标注等,以便后续根据账号标签对目标账号进行相关的服务。
可选地,至少根据主题相似度以及候选关键词集中候选关键词的文本 转换频率,确定关键词集中关键词的提取度包括但不限于:获取候选关键 词的主题相似度,以及候选关键词的文本转换频率的加权结果;获取候选 关键词的属性信息,其中,属性信息包括:候选关键词的词性,及候选关 键词在目标文本中的词频;根据加权结果及属性信息确定提取度。例如, 在获取到一份目标文本时,首先确定该目标文本中的主题,然后筛选出目 标文本的候选关键词集,根据候选关键词主题相似度以及文本转换频率获 取候选关键词的加权结果,用于获取候选关键词是关键词的概率。另外, 获取候选关键词的属性信息中,词性包括但不限于动词、名词或形容词等, 而候选关键词在目标文本中的词频则是候选关键词在目标文本中出现的 次数,在获取到以上信息后,根据加权结果以及属性信息确定候选关键词 的提取度。
可选地,根据加权结果及属性信息确定提取度包括但不限于:根据候 选关键词的词性及候选关键词在目标文本中的位置,确定候选关键词的提 取系数;获取提取系数、词频及加权结果的乘积作为提取度,其中,在加 权结果中,与主题相似度匹配的第一权重,及与文本转换频率匹配的第二 权重,二者的权重之和为1。在实际的应用场景中,一个目标文本数据中 通常基于候选关键词的主题相似度以及候选关键词的转换频率两个评价 参数来判断候选关键词的提取度,如此则候选关键词的主题相似度的第一 权重的数值与文本转换频率匹配的第二权重的数值的和为1。
需要说明的是,在本实施例中,将主题相似度以及文本转换频率看作 是候选关键词作为关键词的评价参数,当存在除上述评价参数(主题相似 度以及候选关键词)之外的其他评价参数时,这里多个评价参数的权重的 数值之和为1。本实施例中对此不做任何限定。
可选地,根据候选关键词的词性及候选关键词在目标文本中的位置, 确定候选关键词的提取系数包括但不限于:
1)在候选关键词出现在与目标文本对应的标题中的情况下,确定出 的提取系数大于与词性匹配的词性系数;
2)在候选关键词并未出现在与目标文本对应的标题中的情况下,确 定出的提取系数等于与词性匹配的词性系数;
其中,词性系数根据候选关键词的词性确定数值,具体包括以下几种 情况:
a)在词性为名词的情况下,词性系数为第一数值;
b)在词性为动词的情况下,词性系数为第二数值;
c)在词性为其他词性的词的情况下,词性系数为第三数值。
可选地,在至少根据主题相似度以及候选关键词集中候选关键词的文 本转换频率,确定关键词集中关键词的提取度之前,还包括但不限于:获 取目标文本所在语料库中的全部文本数量,与在语料库中包含候选关键词 的文本数量二者之间的第一比值;获取在预设搜索平台中的总搜索条目数 量,以及在预设搜索平台中包含候选关键词的搜索条目数量;根据搜索条 目数量与总搜索条目数量确定二者之间的第二比值;对第一比值与第二比 值二者的乘积进行取对数运算,得到候选关键词的文本转换频率。
在具体的应用场景中,在对目标文本的关键词获取过程中,通常结合 已有的语料库以及引用搜索数据来协助提取关键词,其中,通过本地存储 的或者存储于云端的语料库中全部文本的数量,以及包括候选关键词的文 本数量之间的第一比值,即确定在语料库中候选关键词的历史占比。另一 方面,通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的 数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算,得到候选关键词 的文本转换频率,对文本转换频率进行改进,使得文本转换频率更为精确, 需要说明的是,在此也可以单独引用已有的语料库或单独引用搜索数据, 上述仅是一种示例。
可选地,至少根据主题相似度以及候选关键词集中候选关键词的文本 转换频率,确定关键词集中关键词的提取度之前,还包括但不限于:获取 与候选关键词匹配的第一主题分布数据,其中,第一主题分布数据用于指 示在K个主题中,候选关键词为第k个主题的概率;获取与目标文本匹配 的第二主题分布数据,其中,第二主题分布数据用于指示在K个主题中, 目标文本为第k个主题的概率;根据第一主题分布数据及第二主题分布数 据,确定候选关键词与目标文本的主题相似度,其中,主题相似度用于指 示在K个主题中,候选关键词为第k个主题,且目标文本也为第k个主题 的概率,k大于等于1,且小于等于K。
通过本发明提供的实施例,采用获取目标文本中的候选关键词集,然 后根据主题相似度以及候选关键词集中候选关键词的文本转换频率,确定 关键词集中关键词的提取度,其中,主题相似度为候选关键词与目标文本 的相似度,从而实现通过上述提取度来从候选关键词集中提取出关键词, 以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个 维度,来确定出目标文本中待提取的关键词,而不再仅仅基于统计数据进行较宽泛的关键词提取,进而实现提高关键词提取的准确性的效果。
作为一种可选的技术方案,确定单元604包括:
1)第一获取模块,用于获取候选关键词的主题相似度,以及候选关 键词的文本转换频率的加权结果;
2)第二获取模块,用于获取候选关键词的属性信息,其中,属性信 息包括:候选关键词的词性,及候选关键词在目标文本中的词频;
3)第一确定模块,用于根据加权结果及属性信息确定提取度。
在具体的应用场景中,在获取到一份目标文本时,首先获取目标文本 的候选关键词集,根据候选关键词主题相似度以及文本转换频率IDF获取 候选关键词的加权结果,用于获取候选关键词是关键词的概率。另外,获 取候选关键词的属性信息中,词性包括候选关键词是否为动词、名词或形 容词以及关键词的语种(例如中文、英文、日文)等,而候选关键词在目 标文本中的词频则是候选关键词在目标文本中出现的次数或频率,在获取 到以上信息后,根据加权结果以及属性信息确定候选关键词的提取度。
通过本实施例,获取候选关键词的主题相似度以及候选关键词的文本 转换频率的加权结果,根据加权结果以及候选关键词的属性信息来确定候 选关键词的提取度,解决了关键词的提取条件过于宽泛的问题。
作为一种可选的技术方案,第一确定模块包括:
1)第一确定子模块,用于根据候选关键词的词性及候选关键词在目 标文本中的位置,确定候选关键词的提取系数;
2)第一获取子模块,用于获取提取系数、词频及加权结果的乘积作 为提取度,其中,在加权结果中,与主题相似度匹配的第一权重,及与文 本转换频率匹配的第二权重,二者的权重之和为1。
在具体的应用场景中,一个目标文本数据中通常基于候选关键词的主 题相似度以及候选关键词的文本转换频率两个评价参数来判断候选关键 词的提取度,如此则候选关键词的主题相似度的第一权重的数值与文本转 换频率匹配的第二权重的数值的和为1,当存在多个候选关键词的评价参 数时,例如其他多个评价参数时,候选关键词的多个评价参数的权重的数 值之和为1。
另外根据加权结果及属性信息确定候选关键词的提取度,可以根据候 选关键词的词性及候选关键词在目标文本中的位置来确定候选关键词的 提取系数,其中,候选关键词在目标文本中的位置包括但不限于候选关键 词是否处于目标文本的标题中,然后获取提取系数、词频及加权结果的乘 积作为候选关键词的提取度。例如,假设w为候选关键词,w的提取度可 以按照如下方式计算获取:
weightw=S1*tf*{S2*IDFw+(1-S2)*T}
其中,S1为提取系数,tf为w的词频,{S2*IDFw+(1-S2)*T}为加权结 果;其中,IDFw为候选关键词w文本转换频率,T为主题相似度,S2为 调节IDFw与主题相似度的参数。
通过本实施例,根据候选关键词的词性及候选关键词在目标文本中的 位置,确定候选关键词的提取系数,获取提取系数、词频及加权结果的乘 积作为候选关键词的提取度,提高了目标文本中关键词的提取准确度。
作为一种可选的技术方案,第一确定子模块包括:
1)第二确定子模块,用于在候选关键词出现在与目标文本对应的标 题中的情况下,确定出的提取系数大于与词性匹配的词性系数;
2)第三确定子模块,用于在候选关键词并未出现在与目标文本对应 的标题中的情况下,确定出的提取系数等于与词性匹配的词性系数;
在具体的应用场景中,若候选关键词出现在与目标文本对应的标题中, 则确定候选关键词的提取系数大于与词性匹配的词性系数,若候选关键词 并未出现在与目标文本对应的标题中,则确定候选关键词的提取系数等于 与词性匹配的词性系数。
其中,词性系数根据候选关键词的词性确定数值,包括:
A)在词性为名词的情况下,词性系数为第一数值;
B)在词性为动词的情况下,词性系数为第二数值;
C)在词性为其他词性的词的情况下,词性系数为第三数值。
在具体的应用场景中,候选关键词的词性不同对其词性系数产生影响, 不同词性对应着不同的词性系统,具体的词性系数值根据用户的实际经验 进行设置,在此不做限定。
例如,假设在一组目标文本的数据中,w为候选关键词,w的候选关 键词的提取度计算方式如上所述的公式: weightw=S1*tf*{S2*IDFw+(1-S2)*T}其中,S2为调节候选关键词文本转 换频率IDF与主题相似度的参数。提取系数S1与w的词性以及是否出现 在标题中有关。其中,如果w出现在标题中,则S1=2S0,S0为w的词性 系数,否则S1=S0
通过本实施例,根据候选关键词在目标文本中的位置以及候选关键词 的词性来确定对应的提取系数以及词性系数,以实现对目标文本中关键词 的精确提取。
作为一种可选的技术方案,在确定单元604还包括:
1)第三获取模块,用于在至少根据主题相似度以及候选关键词集中 候选关键词的文本转换频率,确定关键词集中关键词的提取度之前,获取 目标文本所在语料库中的全部文本数量,与在语料库中包含候选关键词的 文本数量二者之间的第一比值;
2)第四获取模块,用于获取在预设搜索平台中的总搜索条目数量, 以及在预设搜索平台中包含候选关键词的搜索条目数量;
3)第二确定模块,用于根据搜索条目数量与总搜索条目数量确定二 者之间的第二比值;
4)第三确定模块,用于对第一比值与第二比值二者的乘积进行取对 数运算,得到候选关键词的文本转换频率。
在具体的应用场景中,在对目标文本的关键词获取过程中,通常结合 已有的语料库以及引用搜索数据来协助提取关键词,其中,通过本地存储 的或者存储于云端的语料库中全部文本的数量,以及包括候选关键词的文 本数量之间的第一比值,即确定在语料库中候选关键词的历史占比。另一 方面,通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的 数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算,得到候选关键词 的文本转换频率;
或者,仅通过本地存储的或者存储于云端的语料库中全部文本的数量, 以及包括候选关键词的文本数量之间的第一比值,对第一比值进行取对数 运算,得到候选关键词的文本转换频率;
或者,仅通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索 条目的数量之间的第二比值,即确定在搜索条目数量中候选搜索关键词的 历史占比,对第二比值进行取对数运算,得到候选关键词的文本转换频率。
需要说明的是,以上三种方式都是为了对候选关键词的文本转换频率 的一种改进,不同的是改进后的文本转换频率的精度略有不同。
以下对上述第一中方式进行说明例如,在一篇文章里面出现了人物Y 的名字“YM”,如图3所示,从语料库302以及搜索数据库304中分别获 取数据,以对文本转换频率进行改进,改进后的候选关键词“YM”文本 转换频率IDF如下:
其中,N表示文件总数目,n表示该词语w的文件数目。M表示搜索 数据中的总搜索条目数,m表示包含候选关键词“YM”的搜索条目数, 加1是为了防止m为0。
通过本实施例,引入历史数据以及搜索数据,对文本转换频率进行改 进,使得文本转换频率更为精确。
作为一种可选的技术方案,确定单元604还包括:
第五获取模块,用于在至少根据主题相似度以及候选关键词集中候选 关键词的文本转换频率,确定关键词集中关键词的提取度之前,获取与候 选关键词匹配的第一主题分布数据,其中,第一主题分布数据用于指示在 K个主题中,候选关键词为第k个主题的概率;
第六获取模块,用于获取与目标文本匹配的第二主题分布数据,其中, 第二主题分布数据用于指示在K个主题中,目标文本为第k个主题的概率;
第四确定模块,用于根据第一主题分布数据及第二主题分布数据,确 定候选关键词与目标文本的主题相似度,其中,主题相似度用于指示在K 个主题中,候选关键词为第k个主题,且目标文本也为第k个主题的概率, k大于等于1,且小于等于K。
作为一种优选的实施方式,根据第一主题分布数据及第二主题分布数 据,确定候选关键词与目标文本的主题相似度包括但不限于:通过以下公 式确定候选关键词与目标文本的主题相似度:
其中,w用于表示候选关键词,d用于表示目标文本,cos(w;d)用于 表示候选关键词与目标文本的主题相似度,其中“cos(w;d)”与于上述公 式“weightw=S1*tf*{S2*IDFw+(1-S2)*T}”中“T”含义相同。k用于表 示在K个主题中的第k个主题,P(k|d)用于表示目标文本为第k个主题的 概率,p(k|w)用于表示候选关键词为第k个主题的概率。
通过本实施例,利用现有学习到的候选关键词的主题分布数据,计算 出候选关键词和文档的主题分布,从而获取到关键词与目标文本的主题相 似度,解决了关键词提取条件过于广泛的问题。
作为一种可选的技术方案,在提取单元606根据提取度从候选关键词 集中提取出关键词之后,还包括以下至少之一:
第一推送模块,用于根据提取出的关键词为目标文本匹配文本标签, 其中,文本标签用于标识目标文本的分类信息;根据文本标签将目标文本 推送给相匹配的用户账号;
在具体的应用场景中,如图4所示,以目标文本为新闻文本为例进行 说明,假设终端401通过网络与应用服务器402连接,应用服务器402根 据终端401发送新闻文本中获取的候选关键字,根据语料库403最终提取 出的关键词为“航母”、“军事”,则为该新闻文本匹配文本标签“军事”, 则表示该新闻为军事类新闻,然后根据该新闻文本的标签将新闻推送给相 匹配终端401的用户账户。
第二推送模块,用于根据提取出的关键词为获取到目标文本的目标账 号匹配账号标签,其中,账号标签用于标识目标账号的分类信息;根据账 号标签为目标账号推送相匹配的文本。
仍以上述目标文本为新闻文本为例进行说明,如图5所示,假设终端 501通过网络与应用服务器502连接,应用服务器502根据终端501发送 新闻文本中获取的候选关键字,根据语料库503最终提取出的关键词为“航 母”、“军事”,若之前用户A关注了该类新闻,且该用户A所在终端为终 端504,则为该目标文本匹配账户标签“用户A”,根据该“用户A”账号标签为用户A的目标账号推送相匹配的新闻文本,将新闻文本发送至终端 504。
通过本实施例,将提取出的目标文本关键词用于文本标签分类以及账 号标签分类,以提高目标文本推送的准确性。
根据本发明实施例,还提供了一种用于实施上述神经网络训练方法的 电子装置,如图7所示,该电子装置包括:一个或多个(图中仅示出一个) 处理器702、存储器704、显示器706、用户接口708、传输装置710。其 中,存储器704可用于存储软件程序以及模块,如本发明实施例中的安全 关键词提取方法和装置对应的程序指令/模块,处理器702通过运行存储在 存储器704内的软件程序以及模块,从而执行各种功能应用以及数据处理, 即实现上述的系统漏洞攻击的检测方法。存储器704可包括高速随机存储 器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、 或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括 相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接 至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、 移动通信网及其组合。
上述的传输装置710用于经由一个网络接收或者发送数据。上述的网 络具体实例可包括有线网络及无线网络。在一个实例中,传输装置710包 括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与 其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实 例中,传输装置710为射频(Radio Frequency,RF)模块,其用于通过无 线方式与互联网进行通讯。
其中,具体地,存储器704用于存储预设动作条件和预设权限用户的 信息、以及应用程序。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中 所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图7所示的结构仅为示意,电子装置 也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑 以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。 图7其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比 图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有 与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步 骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于 一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器 (Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、 磁盘或光盘等。
另一方面,本发明实施例还提供了一种存储介质,可选地,在本实施 例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,获取目标文本中的候选关键词集;
S2,至少根据主题相似度以及候选关键词集中候选关键词的文本转换 频率,确定出候选关键词的提取度,其中,主题相似度为候选关键词与目 标文本的相似度,其中,提取度用于指示候选关键词作为与目标文本匹配 的关键词被提取出的概率;
S3,根据提取度从候选关键词集中提取出关键词。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中 所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只 读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介 质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为 独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。 基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的 部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计 算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算 机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可 通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或 通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种关键词提取方法,其特征在于,包括:
获取目标文本中的候选关键词集;
至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度,其中,所述主题相似度为所述候选关键词与所述目标文本的相似度,其中,所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率;
根据所述提取度从所述候选关键词集中提取出所述关键词。
2.根据权利要求1所述的方法,其特征在于,所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度包括:
获取所述候选关键词的所述主题相似度,以及所述候选关键词的所述文本转换频率的加权结果;
获取所述候选关键词的属性信息,其中,所述属性信息包括:所述候选关键词的词性,及所述候选关键词在所述目标文本中的词频;
根据所述加权结果及所述属性信息确定所述提取度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述加权结果及所述属性信息确定所述提取度包括:
根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数;
获取所述提取系数、所述词频及所述加权结果的乘积作为所述提取度,其中,在所述加权结果中,与所述主题相似度匹配的第一权重,及与所述文本转换频率匹配的第二权重,二者的权重之和为1。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数包括:
在所述候选关键词出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数大于与所述词性匹配的词性系数;
在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数等于与所述词性匹配的所述词性系数;
其中,所述词性系数根据所述候选关键词的词性确定数值,在所述词性为名词的情况下,所述词性系数为第一数值;在所述词性为动词的情况下,所述词性系数为第二数值;在所述词性为其他词性的词的情况下,所述词性系数为第三数值。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,还包括:
获取所述目标文本所在语料库中的全部文本数量,与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值;
获取在预设搜索平台中的总搜索条目数量,以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量;
根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值;
对所述第一比值与所述第二比值二者的乘积进行取对数运算,得到所述候选关键词的所述文本转换频率。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,还包括:
获取与所述候选关键词匹配的第一主题分布数据,其中,所述第一主题分布数据用于指示在K个主题中,所述候选关键词为第k个主题的概率;
获取与所述目标文本匹配的第二主题分布数据,其中,所述第二主题分布数据用于指示在所述K个主题中,所述目标文本为所述第k个主题的概率;
根据所述第一主题分布数据及所述第二主题分布数据,确定所述候选关键词与所述目标文本的所述主题相似度,其中,所述主题相似度用于指示在K个主题中,所述候选关键词为第k个主题,且所述目标文本也为所述第k个主题的概率,k大于等于1,且小于等于K。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述提取度从所述候选关键词集中提取出所述关键词之后,还包括以下至少之一:
根据提取出的所述关键词为所述目标文本匹配文本标签,其中,所述文本标签用于标识所述目标文本的分类信息;根据所述文本标签将所述目标文本推送给相匹配的用户账号;
根据提取出的所述关键词为获取到所述目标文本的目标账号匹配账号标签,其中,所述账号标签用于标识所述目标账号的分类信息;根据所述账号标签为所述目标账号推送相匹配的文本。
8.一种关键词提取装置,其特征在于,包括:
获取单元,用于获取目标文本中的候选关键词集;
确定单元,用于至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度,其中,所述主题相似度为所述候选关键词与所述目标文本的相似度,其中,所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率;
提取单元,用于根据所述提取度从所述候选关键词集中提取出所述关键词。
9.根据权利要求8所述的装置,其特征在于,所述确定单元包括:
第一获取模块,用于获取所述候选关键词的所述主题相似度,以及所述候选关键词的所述文本转换频率的加权结果;
第二获取模块,用于获取所述候选关键词的属性信息,其中,所述属性信息包括:所述候选关键词的词性,及所述候选关键词在所述目标文本中的词频;
第一确定模块,用于根据所述加权结果及所述属性信息确定所述提取度。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块包括:
第一确定子模块,用于根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数;
第一获取子模块,用于获取所述提取系数、所述词频及所述加权结果的乘积作为所述提取度,其中,在所述加权结果中,与所述主题相似度匹配的第一权重,及与所述文本转换频率匹配的第二权重,二者的权重之和为1。
11.根据权利要求10所述的装置,其特征在于,所述第一确定子模块包括:
第二确定子模块,用于在所述候选关键词出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数大于与所述词性匹配的词性系数;
第三确定子模块,用于在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数等于与所述词性匹配的所述词性系数;
其中,所述词性系数根据所述候选关键词的词性确定数值,在所述词性为名词的情况下,所述词性系数为第一数值;在所述词性为动词的情况下,所述词性系数为第二数值;在所述词性为其他词性的词的情况下,所述词性系数为第三数值。
12.根据权利要求8至11中任一项所述的装置,其特征在于,在所述确定单元还包括:
第三获取模块,用于在至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,获取所述目标文本所在语料库中的全部文本数量,与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值;
第四获取模块,用于获取在预设搜索平台中的总搜索条目数量,以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量;
第二确定模块,用于根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值;
第二确定模块,用于对所述第一比值与所述第二比值二者的乘积进行取对数运算,得到所述候选关键词的所述文本转换频率。
13.根据权利要求8至11中任一项所述的装置,其特征在于,所述确定单元还包括:
第五获取模块,用于在至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,获取与所述候选关键词匹配的第一主题分布数据,其中,所述第一主题分布数据用于指示在K个主题中,所述候选关键词为第k个主题的概率;
第六获取模块,用于获取与所述目标文本匹配的第二主题分布数据,其中,所述第二主题分布数据用于指示在所述K个主题中,所述目标文本为所述第k个主题的概率;
第四确定模块,用于根据所述第一主题分布数据及所述第二主题分布数据,确定所述候选关键词与所述目标文本的所述主题相似度,其中,所述主题相似度用于指示在K个主题中,所述候选关键词为第k个主题,且所述目标文本也为所述第k个主题的概率,k大于等于1,且小于等于K。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至7任一项中所述的方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN201710991231.7A 2017-10-20 2017-10-20 关键词提取方法和装置、存储介质及电子装置 Active CN108334533B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710991231.7A CN108334533B (zh) 2017-10-20 2017-10-20 关键词提取方法和装置、存储介质及电子装置
PCT/CN2018/108726 WO2019076191A1 (zh) 2017-10-20 2018-09-29 关键词提取方法和装置、存储介质及电子装置
US16/682,552 US11194965B2 (en) 2017-10-20 2019-11-13 Keyword extraction method and apparatus, storage medium, and electronic apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710991231.7A CN108334533B (zh) 2017-10-20 2017-10-20 关键词提取方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN108334533A true CN108334533A (zh) 2018-07-27
CN108334533B CN108334533B (zh) 2021-12-24

Family

ID=62922476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710991231.7A Active CN108334533B (zh) 2017-10-20 2017-10-20 关键词提取方法和装置、存储介质及电子装置

Country Status (3)

Country Link
US (1) US11194965B2 (zh)
CN (1) CN108334533B (zh)
WO (1) WO2019076191A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN110321561A (zh) * 2019-06-27 2019-10-11 腾讯科技(深圳)有限公司 一种关键词提取方法和装置
CN110781667A (zh) * 2019-10-25 2020-02-11 北京中献电子技术开发有限公司 面向神经网络机器翻译的日语动词识别、词性标注方法
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111177321A (zh) * 2019-12-27 2020-05-19 东软集团股份有限公司 一种确定语料的方法、装置、设备及存储介质
CN111708900A (zh) * 2020-06-17 2020-09-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN112104642A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 一种异常账号确定方法和相关装置
CN112417845A (zh) * 2020-11-18 2021-02-26 武汉大学 一种文本评价方法、装置、电子设备及存储介质
CN112732893A (zh) * 2021-01-13 2021-04-30 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112908488A (zh) * 2021-02-09 2021-06-04 北京药明津石医药科技有限公司 事件识别方法、装置、计算机设备和存储介质
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN114995933A (zh) * 2022-05-18 2022-09-02 深圳传音控股股份有限公司 信息显示方法、智能终端及存储介质

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291286B (zh) * 2019-07-23 2022-09-13 腾讯科技(深圳)有限公司 事件的推送方法和装置、存储介质及电子装置
CN110457707B (zh) * 2019-08-16 2023-01-17 秒针信息技术有限公司 实词关键词的提取方法、装置、电子设备及可读存储介质
CN110457708B (zh) * 2019-08-16 2023-05-16 腾讯科技(深圳)有限公司 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
JP7415433B2 (ja) * 2019-10-24 2024-01-17 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111160033B (zh) * 2019-12-18 2024-02-27 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111126060B (zh) * 2019-12-24 2023-04-25 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
US11244009B2 (en) 2020-02-03 2022-02-08 Intuit Inc. Automatic keyphrase labeling using search queries
CN111325037B (zh) * 2020-03-05 2022-03-29 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN111444704B (zh) * 2020-03-27 2023-09-19 中南大学 基于深度神经网络的网络安全关键词抽取方法
CN111324722B (zh) * 2020-05-15 2020-08-14 支付宝(杭州)信息技术有限公司 一种训练词语权重模型的方法和系统
CN111914564B (zh) * 2020-07-13 2023-03-14 北京邮电大学 一种文本关键词确定方法及装置
CN112084095B (zh) * 2020-09-18 2021-12-21 广域铭岛数字科技有限公司 基于区块链的能源网联监控方法、系统及存储介质
CN112256832B (zh) * 2020-10-23 2024-01-26 上海恒生聚源数据服务有限公司 一种标签的提取方法、装置、设备及可读存储介质
CN112434158B (zh) * 2020-11-13 2024-05-28 海创汇科技创业发展股份有限公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN114580386A (zh) * 2020-12-01 2022-06-03 腾讯科技(深圳)有限公司 一种提取主题词的方法及装置
CN112364169B (zh) * 2021-01-13 2022-03-04 北京云真信科技有限公司 基于nlp的wifi识别方法、电子设备和介质
CN113239273B (zh) * 2021-05-14 2023-07-28 北京百度网讯科技有限公司 用于生成文本的方法、装置、设备以及存储介质
CN113238804B (zh) * 2021-05-17 2022-06-28 深圳掌酷软件有限公司 一种基于智能终端息屏状态下指定应用唤醒系统及方法
CN113343104A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 信息推荐方法、装置、设备及计算机存储介质
CN113704398A (zh) * 2021-08-05 2021-11-26 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113934848B (zh) * 2021-10-22 2023-04-07 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备
CN114722162B (zh) * 2022-06-10 2022-08-26 南京英诺森软件科技有限公司 特征类别确定方法、装置、电子设备及存储介质
CN114786184B (zh) * 2022-06-21 2022-09-16 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN115208946B (zh) * 2022-07-18 2024-03-01 中国银行股份有限公司 一种消息推送方法、消息推送服务器及存储介质
CN115774548B (zh) * 2023-02-10 2023-04-11 北京一平方科技有限公司 基于人工智能的代码自动生成方法
CN117151082B (zh) * 2023-10-30 2024-01-02 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117272353B (zh) * 2023-11-22 2024-01-30 陕西昕晟链云信息科技有限公司 一种数据加密存储保护系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389979A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 在输入法中推荐分类词库的系统、装置及方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN105426535A (zh) * 2015-12-18 2016-03-23 北京奇虎科技有限公司 基于搜索提示的搜索方法及装置
CN105574091A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息推送方法及装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
CA2540034A1 (en) * 2003-09-30 2005-05-06 British Telecommunications Public Limited Company Information retrieval
CN1922605A (zh) * 2003-12-26 2007-02-28 松下电器产业株式会社 辞典制作装置以及辞典制作方法
US20080195595A1 (en) * 2004-11-05 2008-08-14 Intellectual Property Bank Corp. Keyword Extracting Device
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5126068B2 (ja) * 2006-12-22 2013-01-23 日本電気株式会社 文言い換え方法、プログラムおよびシステム
CN101542531B (zh) * 2007-06-14 2012-12-19 松下电器产业株式会社 图像识别装置及图像识别方法
EP2172884A1 (en) * 2008-09-25 2010-04-07 Motorola, Inc. Content item review management
US8122043B2 (en) * 2009-06-30 2012-02-21 Ebsco Industries, Inc System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus
US8849649B2 (en) * 2009-12-24 2014-09-30 Metavana, Inc. System and method for determining sentiment expressed in documents
EP2354971A1 (en) * 2010-01-29 2011-08-10 E-Therapeutics plc Document analysis system
JP5196199B2 (ja) * 2010-04-22 2013-05-15 日本電気株式会社 キーワード表示システム、キーワード表示方法及びプログラム
JP5691289B2 (ja) * 2010-08-11 2015-04-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP5466119B2 (ja) * 2010-09-21 2014-04-09 Kddi株式会社 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
US20140101162A1 (en) * 2012-10-09 2014-04-10 Industrial Technology Research Institute Method and system for recommending semantic annotations
US9201864B2 (en) * 2013-03-15 2015-12-01 Luminoso Technologies, Inc. Method and system for converting document sets to term-association vector spaces on demand
EP2801906B1 (en) * 2013-05-08 2017-01-11 Accenture Global Services Limited Source code flow analysis using information retrieval
JP6147629B2 (ja) * 2013-09-24 2017-06-14 Kddi株式会社 ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
US9852379B2 (en) * 2014-03-07 2017-12-26 Educational Testing Service Systems and methods for constructed response scoring using metaphor detection
US20170132311A1 (en) * 2014-06-27 2017-05-11 Hewlett-Packard Development Company, L.P. Keywords to generate policy conditions
US10572491B2 (en) * 2014-11-19 2020-02-25 Google Llc Methods, systems, and media for presenting related media content items
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
KR101671740B1 (ko) * 2015-07-07 2016-11-16 숭실대학교산학협력단 토픽 추출 장치 및 방법
US10404806B2 (en) * 2015-09-01 2019-09-03 Yen4Ken, Inc. Methods and systems for segmenting multimedia content
US10331768B2 (en) * 2015-09-21 2019-06-25 Tata Consultancy Services Limited Tagging text snippets
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
KR102204888B1 (ko) * 2016-04-20 2021-01-19 구글 엘엘씨 키보드에 의한 자동 번역
US10380459B2 (en) * 2016-08-30 2019-08-13 Imagry (Israel) Ltd. System and method for image classification
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
US10056083B2 (en) * 2016-10-18 2018-08-21 Yen4Ken, Inc. Method and system for processing multimedia content to dynamically generate text transcript
US20180276294A1 (en) * 2017-03-24 2018-09-27 Nec Personal Computers, Ltd. Information processing apparatus, information processing system, and information processing method
US20180276302A1 (en) * 2017-03-24 2018-09-27 Sap Portals Israel Ltd. Search provider selection using statistical characterizations
US10540444B2 (en) * 2017-06-20 2020-01-21 The Boeing Company Text mining a dataset of electronic documents to discover terms of interest
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389979A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 在输入法中推荐分类词库的系统、装置及方法
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN105574091A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息推送方法及装置
CN105426535A (zh) * 2015-12-18 2016-03-23 北京奇虎科技有限公司 基于搜索提示的搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡吉明: "《社会网络环境下基于用户关系的信息推荐服务研究》", 31 March 2015, 武汉大学出版社 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11194965B2 (en) 2017-10-20 2021-12-07 Tencent Technology (Shenzhen) Company Limited Keyword extraction method and apparatus, storage medium, and electronic apparatus
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109190111B (zh) * 2018-08-07 2023-09-08 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN110321561A (zh) * 2019-06-27 2019-10-11 腾讯科技(深圳)有限公司 一种关键词提取方法和装置
CN110781667A (zh) * 2019-10-25 2020-02-11 北京中献电子技术开发有限公司 面向神经网络机器翻译的日语动词识别、词性标注方法
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111177321A (zh) * 2019-12-27 2020-05-19 东软集团股份有限公司 一种确定语料的方法、装置、设备及存储介质
CN111177321B (zh) * 2019-12-27 2023-10-20 东软集团股份有限公司 一种确定语料的方法、装置、设备及存储介质
CN111767713B (zh) * 2020-05-09 2023-07-21 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111708900B (zh) * 2020-06-17 2023-08-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN111708900A (zh) * 2020-06-17 2020-09-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN112104642B (zh) * 2020-09-11 2021-12-28 腾讯科技(深圳)有限公司 一种异常账号确定方法和相关装置
CN112104642A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 一种异常账号确定方法和相关装置
CN112417845A (zh) * 2020-11-18 2021-02-26 武汉大学 一种文本评价方法、装置、电子设备及存储介质
CN112732893A (zh) * 2021-01-13 2021-04-30 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112732893B (zh) * 2021-01-13 2024-01-19 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN112908488A (zh) * 2021-02-09 2021-06-04 北京药明津石医药科技有限公司 事件识别方法、装置、计算机设备和存储介质
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN113392637B (zh) * 2021-06-24 2023-02-07 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN114995933A (zh) * 2022-05-18 2022-09-02 深圳传音控股股份有限公司 信息显示方法、智能终端及存储介质

Also Published As

Publication number Publication date
US20200081977A1 (en) 2020-03-12
US11194965B2 (en) 2021-12-07
CN108334533B (zh) 2021-12-24
WO2019076191A1 (zh) 2019-04-25

Similar Documents

Publication Publication Date Title
CN108334533A (zh) 关键词提取方法和装置、存储介质及电子装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN111259215A (zh) 基于多模态的主题分类方法、装置、设备、以及存储介质
CN109815314A (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN109299399B (zh) 一种学习内容的推荐方法及终端设备
CN106407420B (zh) 一种多媒体资源的推荐方法及系统
CN107832338B (zh) 一种识别核心产品词的方法和系统
CN107704453A (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN111125491A (zh) 商品信息的搜索方法和装置、存储介质及电子装置
CN109447273A (zh) 模型训练方法、广告推荐方法、相关装置、设备及介质
CN106294786A (zh) 一种代码搜索方法和系统
Kiran et al. User specific product recommendation and rating system by performing sentiment analysis on product reviews
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN109190095B (zh) 一种文章的生成方法及装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN104462151B (zh) 评估网页发布时间的方法和相关装置
CN110489740A (zh) 语义解析方法及相关产品
CN104036036A (zh) 网页搜索的提示方法和装置
CN104484414B (zh) 一种收藏夹信息的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant