CN110874396B - 一种关键词抽取方法、装置以及计算机存储介质 - Google Patents

一种关键词抽取方法、装置以及计算机存储介质 Download PDF

Info

Publication number
CN110874396B
CN110874396B CN201911082856.7A CN201911082856A CN110874396B CN 110874396 B CN110874396 B CN 110874396B CN 201911082856 A CN201911082856 A CN 201911082856A CN 110874396 B CN110874396 B CN 110874396B
Authority
CN
China
Prior art keywords
word
node
topological graph
text
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911082856.7A
Other languages
English (en)
Other versions
CN110874396A (zh
Inventor
陈健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911082856.7A priority Critical patent/CN110874396B/zh
Publication of CN110874396A publication Critical patent/CN110874396A/zh
Application granted granted Critical
Publication of CN110874396B publication Critical patent/CN110874396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种关键词抽取方法、装置以及计算机存储介质,方法包括:获取文本,对文本进行划分,得到多个分词;获取多个分词之间的依存关系,根据依存关系确定多个分词中每两个分词之间的关联状态;根据关联状态,构建文本对应的第一拓扑图,第一拓扑图中的节点属于多个分词;根据第一拓扑图从多个分词中抽取文本对应的关键词。采用本申请,可以提高关键词抽取的准确性。

Description

一种关键词抽取方法、装置以及计算机存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种关键词抽取方法、装置以及计算机存储介质。
背景技术
随着互联网技术的快速发展,市场产品无论在售前或售后均开始应用智能客服,逐步替代了传统的人工客服;在智能客服产品应用中,提取用户输入的业务问题中的“业务词”是自动问答用户问题的首要,即抽取文本(业务问题)的关键词。
目前,文本无监督关键词抽取算法主要是基于统计特征的关键词抽取,例如词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF),此类方法的思想是利用文本中词汇的出现频次抽取文本中的关键词,词汇出现的位置与频次是影响词汇作为关键词的主要因素,然而在实际文本中,对于较短的文本,其中每个词汇的出现频次可能都比较少,导致词汇的出现频次都比较相近,进而在选取关键词的时候难以区分词汇之间的差异,由此采用此类方法难以准确抽取出较短文本中的关键词。
发明内容
本申请实施例提供一种关键词抽取方法、装置以及计算机存储介质,可以提高关键词抽取的准确性。
本申请实施例一方面提供了一种关键词抽取方法,包括:
获取文本,对所述文本进行划分,得到多个分词;
获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,所述关联状态包括有效关联状态和无效关联状态;
所述根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词,包括:
将所述关联状态为有效关联状态的两个分词确定为有效分词组;
基于所述有效分词组,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中的节点属于所述有效分词组中的分词。
其中,所述基于所述有效分词组,构建所述文本对应的所述第一拓扑图,包括:
获取所述有效分词组对应的至少一种有效依存连接路径;
根据所述至少一种有效依存连接路径的连接路径数量,确定所述有效分词组的权重;
基于所述有效分词组的权重,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中边的权重为所述有效分词组的权重。
其中,所述根据所述依存关系确定所述多个分词中每两个分词之间的关联状态,包括:
根据所述依存关系,建立所述文本对应的依存文法图;所述依存文法图包含所述多个分词,所述多个分词包括第一分词和第二分词;
删除所述依存文法图中的依存关系方向,得到无向依存文法图;
遍历所述无向依存文法图,获取所述第一分词和所述第二分词之间的至少一种依存连接路径,获取每条依存连接路径中的路由跳转次数;
若存在所述路由跳转次数小于跳转次数阈值的依存连接路径,则确定所述第一分词和所述第二分词之间的关联状态为所述有效关联状态;
若所述至少一种依存连接路径分别对应的路由跳转次数均大于或等于所述跳转次数阈值,则确定所述第一分词和所述第二分词之间的关联状态为所述无效关联状态。
其中,所述获取所述有效分词组对应的至少一种有效依存连接路径,包括:
获取所述有效分词组对应的至少一种依存连接路径,将所述路由跳转次数小于所述跳转次数阈值的依存连接路径确定为所述有效依存连接路径。
其中,所述将所述关联状态为有效关联状态的两个分词确定为有效分词组,包括:
将所述关联状态为有效关联状态的两个分词确定为过渡分词组;
获取所述过渡分词组中每个分词的词性,对包含停用词词性的分词的过渡分词组进行过滤,得到所述有效分词组。
其中,所述根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词,包括:
根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,所述根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图,包括:
基于所述多个分词中每个分词的词性,从所述多个分词中选择目标分词;
基于所述目标分词在所述文本中的分布位置,生成包含所述目标分词的分词序列;
基于遍历窗口的步长,在所述分词序列中进行遍历,得到多个遍历分词组;每个遍历分词组中的目标分词数量等于所述遍历窗口的步长;
根据所述多个遍历分词组中每两个目标分词的出现频次,确定所述多个遍历分词组中每两个目标分词的权重;
基于所述多个遍历分词组中每两个目标分词的权重,构建以所述目标分词为节点的所述第二拓扑图。
其中,所述根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图,包括:
根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点;
在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图。
其中,所述在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图,包括:
获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同;
若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重;
在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
其中,所述根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词,包括:
基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度;
根据所述关键度对所述第一拓扑图中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本的所述关键词。
其中,所述基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度,包括:
获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;
在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;
基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
本申请实施例一方面提供了一种关键词抽取装置,包括:
划分模块,用于获取文本,对所述文本进行划分,得到多个分词;确定模块,用于获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
构建模块,用于根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
抽取模块,用于根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,所述关联状态包括有效关联状态和无效关联状态;
所述构建模块,包括:
确定词组单元,用于将所述关联状态为有效关联状态的两个分词确定为有效分词组;
第一构建单元,用于基于所述有效分词组,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中的节点属于所述有效分词组中的分词。
其中,所述第一构建单元,包括:
获取连接子单元,用于获取所述有效分词组对应的至少一种有效依存连接路径;
第一确定子单元,用于根据所述至少一种有效依存连接路径的连接路径数量,确定所述有效分词组的权重;
第一构建子单元,用于基于所述有效分词组的权重,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中边的权重为所述有效分词组的权重。
其中,所述确定模块,包括:
建立单元,用于根据所述依存关系,建立所述文本对应的依存文法图;所述依存文法图包含所述多个分词,所述多个分词包括第一分词和第二分词;
删除关系方向单元,用于删除所述依存文法图中的依存关系方向,得到无向依存文法图;
获取跳转单元,用于遍历所述无向依存文法图,获取所述第一分词和所述第二分词之间的至少一种依存连接路径,获取每条依存连接路径中的路由跳转次数;
确定状态单元,用于若存在所述路由跳转次数小于跳转次数阈值的依存连接路径,则确定所述第一分词和所述第二分词之间的关联状态为所述有效关联状态;
所述确定状态单元,还用于若所述至少一种依存连接路径分别对应的路由跳转次数均大于或等于所述跳转次数阈值,则确定所述第一分词和所述第二分词之间的关联状态为所述无效关联状态。
其中,所述获取连接子单元具体用于获取所述有效分词组对应的至少一种依存连接路径,将所述路由跳转次数小于所述跳转次数阈值的依存连接路径确定为所述有效依存连接路径。
其中,所述确定词组单元,包括:
确定过渡子单元,用于将所述关联状态为有效关联状态的两个分词确定为过渡分词组;
过滤子单元,用于获取所述过渡分词组中每个分词的词性,对包含停用词词性的分词的过渡分词组进行过滤,得到所述有效分词组。
其中,所述抽取模块,包括:
第二构建单元,用于根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
生成单元,用于根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
抽取单元,用于根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,所述第二构建单元,包括:
选择分词子单元,用于基于所述多个分词中每个分词的词性,从所述多个分词中选择目标分词;
生成序列子单元,用于基于所述目标分词在所述文本中的分布位置,生成包含所述目标分词的分词序列;
遍历子单元,用于基于遍历窗口的步长,在所述分词序列中进行遍历,得到多个遍历分词组;每个遍历分词组中的目标分词数量等于所述遍历窗口的步长;
第二确定子单元,用于根据所述多个遍历分词组中每两个目标分词的出现频次,确定所述多个遍历分词组中每两个目标分词的权重;
第二构建子单元,用于基于所述多个遍历分词组中每两个目标分词的权重,构建以所述目标分词为节点的所述第二拓扑图。
其中,所述生成单元,包括:
确定节点子单元,用于根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点;
添加子单元,用于在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图。
其中,所述添加子单元,包括:
获取差异子单元,用于获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同;
替换子单元,用于若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重;
添加节点子单元,用于在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
其中,所述抽取模块,包括:
确定关键度单元,用于基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度;
确定关键词单元,用于根据所述关键度对所述第一拓扑图中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本的所述关键词。
其中,所述确定关键度单元,包括:
获取节点子单元,用于获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;
第一确定关键度子单元,用于在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;
第二确定关键度子单元基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,以执行如本申请实施例中的方法。
本申请实施例通过获取文本,对所述文本进行划分,得到多个分词;获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。上述可知,通过考虑多个分词在文本中的语义定位,即多个分词之间的依存关系,构建语义拓扑图,可以充分的考虑多个分词中每两个分词之间的关联关系,进而提高文本中关键词抽取的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2a是本申请实施例提供的一种关键词抽取的场景示意图;
图2b是本申请实施例提供的另一种关键词抽取的场景示意图;
图3是本申请实施例提供的一种关键词抽取方法的流程示意图;
图4是本申请实施例提供的另一种关键词抽取的场景示意图;
图5是本申请实施例提供的另一种关键词抽取方法的流程示意图;
图6是本申请实施例提供的一种生成第二拓扑图的场景示意图;
图7是本申请实施例提供的一种目标拓扑图生成方法的流程示意图;
图8是本申请实施例提供的一种增量节点以及增量节点关系生成的场景示意图;
图9是本申请实施例提供的一种目标拓扑图生成的场景示意图;
图10是本申请实施例提供的一种计算机设备装置的结构示意图;
图11是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本申请实施例提供的一种系统架构示意图。服务器10a为用户终端集群提供服务,用户终端集群可以包括:用户终端10b、用户终端10c、…、用户终端10d。当用户终端10d(还可以是用户终端10b或用户终端10c)获取到用户输入的文本,并需要抽取该文本中的关键词时,可以将该文本发送至服务器10a,请一并参见图2a,是本申请实施例提供的一种关键词抽取的场景示意图,继续以服务器10a、用户终端10d为例。在图2a中,用户终端10d接收到用户的业务问题后,将业务问题转变成文本,并将上述文本发送至服务器10a,其中,业务问题可以以语音、输入文字或选择用户终端10d界面提供的业务问题等方式输入;服务器10a获取文本后,将文本划分为A、B、C、D、E5个分词,获取上述5个分词中每两个分词之间的依存关系(比如:分词A与分词B存在“主谓”关系,分词B与分词D存在“动宾关系”),如图2a所示,基于上述每两个分词之间的依存关系建立上述文本对应的无向依存文法图20a;预设两个分词之间的跳转次数阈值为3,遍历上述无向依存文法图20a,获取上述无向依存文法图20a中每两个分词的关联状态,例如分词A和分词E之间的依存连接路径为:A-B-E,且该依存连接路径的路由跳转次数为2(即从分词A跳转到分词B,再从分词B跳转到分词E,因此路由跳转次数为2),由于路由跳转次数小于跳转次数阈值3,所以可以确定分词A和分词E之间的关联状态为有效关联状态,同理,若其他两个分词之间存在路由跳转次数小于3的依存连接路径,则可以认为两个分词之间为有效关联状态,如图2a所示,上述无向依存文法图20a中有如下分词组(由两个分词组成)的关联状态为有效关联状态:(AB)、(AE)、(BD)、(BE)、(CD)、(CE)、(DE);同理,若其他两个分词之间的依存连接路径所包含的路由跳转次数大于或等于3,则可以认为两个分词之间为无效关联状态,如分词A与分词D之间的依存连接路径为:A-B-E-D,即从分词A跳转到分词B,从分词B跳转到分词E,再从分词E跳转到分词D,因此路由跳转次数为3,由于路由跳转次数等于跳转次数阈值3,所以可以确定分词A和分词D之间的关联状态为无效关联状态,如图2a所示,上述无向依存文法图20a中有如下分词组的关联状态为无效关联状态:(AC)、(AD)、(BC);进一步地,可以基于上述5个分词中具有有效关联状态的两个分词构建第一拓扑图,上述第一拓扑图中的节点属于上述多个分词中的分词,且第一拓扑图中的边可以表示边所连接的2个节点之间具有有效关联状态;利用图遍历算法计算上述第一拓扑图,获取每个节点的关键度,根据上述关键度对上述第一拓扑图中的每个节点进行排序,从排序后的节点中选择关键节点,将上述关键节点对应的分词确定为上述文本的关键词。后续,服务器10a可以根据关键词确定文本回复,并将回复发送至用户终端10d,或者,请一并参见图2b,是本申请实施例提供的另一种关键词抽取的场景示意图,服务器10a获取文本20b后,基于文本20b中每两个分词之间的关联状态,构建文本20b对应的第一拓扑图,详细过程请参见图2a的描述,从第一拓扑图中抽取文本20b中的关键词,如图2b所示,关键词为“中国”和“科技”,将文本20b和关键词“中国”、关键词“科技”发送至用户终端10d;用户终端10d接收到服务器10a发送的回复或者关键词后,可以在界面上以文字或语音的形式显示回复或关键词。
其中,用户终端可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
其中,建立无向依存文法图、构建第一拓扑图以及确定文本中的关键词的具体过程可以参见以下图3至图9所对应的实施例。
进一步地,请参见图3,是本申请实施例提供的一种关键词抽取方法的流程示意图。如图3所示,所述方法可以包括:
步骤S101,获取文本,对所述文本进行划分,得到多个分词。
具体的,服务器获取文本后,利用分词算法将文本划分为多个分词单元,例如:将文本“营销企业如何解决企业与用户的沟通”划分为“营销”、“企业”、“如何”、“解决”、“与”、“用户”、“的”、“沟通”8个分词,其中,上述文本中有两个“企业”分词,故有8个不同的分词;分词算法可以包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
步骤S102,获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态。
具体的,依存关系是指文本中分词之间的从属关系,用于表示文本中分词的语义联系,在上述文本“营销企业如何解决企业与用户的沟通”中,分词“解决”是谓语,是文本的中心词,与“根”节点组成核心关系,“根”是要处理文本的语句,即“营销企业如何解决企业与用户的沟通”;第一个分词“企业”是主语,与分词“解决”的依存关系是主谓关系;分词“沟通”是宾语,与分词“解决”的依存关系是动宾关系;分词“如何”是状语,与分词“解决”构成状中结构;分词“营销”是定语,与第一个分词“企业”构成定中关系;第二个分词“企业”和分词“的”是分词“沟通”的定语,故第二个分词“企业”与分词“沟通”构成定中关系,第二个分词“企业”和分词“的”构成右附加关系;第二个分词“企业”和分词“用户”通过分词“与”构成并列关系,且分词“与”和分词“用户”构成左附加关系。综上所述,上述文本“营销企业如何解决企业与用户的沟通”的8个分词之间的依存关系如表1所示。
表1
根据上述依存关系,建立文本“营销企业如何解决企业与用户的沟通”对应的依存文法图,删除所述依存文法图中的依存关系方向,得到无向依存文法图,遍历上述无向依存文法图,确定上述8个分词中每两个分词之间的关联状态,具体实现方式为设定两个分词之间的跳转次数阈值为N,获取两个分词之间的所有依存连接路径以及每种依存连接路径所对应的路由跳转次数,若两个分词之间的路由跳转次数中存在至少一个路由跳转次数小于跳转次数N,则确定两个分词之间的关联状态为有效关联状态,若两个分词之间的所有路由跳转次数均不小于上述跳转次数阈值N,则确定两个分词之间的关联状态为无效关联状态。
请一并参见图4,是本申请实施例提供的另一种关键词抽取的场景示意图。如图4所示,根据上述表1中所述依存关系,建立文本“营销企业如何解决企业与用户的沟通”对应的依存文法图40a,为了便于叙述,在依存文法图40a中用字母替代文本中的各个分词,删除上述依存文法图40a中的依存关系方向,得到无向依存文法图400a,在上述文本“营销企业如何解决企业与用户的沟通”中,设置跳转次数阈值为4;根据上述无向依存文法图400a,可知,分词a与分词b直接连接,是有效关联状态;分词a与分词c通过依存连接路径a-b-d-c连接,即通过分词a与分词b的直接连接、分词b与分词d的直接连接以及分词d与分词c的直接连接形成分词a与分词c的间接连接,且路由跳转次数为3,小于跳转次数阈值4,故分词a与分词c之间的关联状态为有效关联状态;分词b与分词c通过依存连接路径b-d-c以及依存连接路径b-h-d-c两条路径连接,即通过分词b与分词d的直接连接以及分词d与分词c的直接连接形成分词b与分词c的间接连接,以及通过分词b与分词h的直接连接、分词h与分词d的直接连接以及分词d与分词c的直接连接形成分词b与分词c的间接连接,且上述两条依存连接路径对应的路由跳转次数均小于跳转次数阈值4,所以分词b与分词c之间的关联状态为有效关联状态;分词c与分词f通过依存连接路径c-d-h-b-f连接,但路由跳转次数为4,不小于跳转次数阈值4,故分词c与分词f之间的关联状态为无效关联状态;以此类推,获得文本“营销企业如何解决企业与用户的沟通”中每两个分词之间的关联状态,共有28组不同分词组的关联状态,具体关联状态如表2所示。
表2
其中,“1”表示分词组的关联状态为有效关联状态,“0”表示分词组的关联状态为无效关联状态。
步骤S103,根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词。
具体的,步骤S102确定上述文本“营销企业如何解决企业与用户的沟通”中每两个分词之间的关联状态,将上述关联状态为有效关联状态的两个分词确定为过渡分词组,根据上述表2,可知过渡分词组包括:ab、ac、ad、ah、bc、bd、be、bf、bg、bh、cd、ch、df、dg、dh、ef、eg、eh、fg、fh、gh;获取上述过渡分词组中每个分词的词性(上述8个分词的词性),可知分词a为动词或名词,分词b为名词,分词c为代词,分词d为动词,分词e为介词或连词,分词f为名词,分词g为助词,分词h为动词或名词,将上述8个分词分别对应的词性组成表格形式,如表3所示。
表3
对包含停用词词性的分词的过渡分词组进行过滤,得到有效分词组,在本申请中,将介词或连词“与”以及助词“的”设为停用词,故过滤掉所有带分词e以及分词g的过渡分词组,得到有效分词组,上述文本“营销企业如何解决企业与用户的沟通”中各分词组成的有效分词组有ab、ac、ad、ah、bc、bd、bf、bh、cd、ch、df、dh、fh。
获取上述有效分词组分别对应的所有依存连接路径以及依存连接路径分别对应的路由跳转次数,将路由跳转次数小于跳转次数阈值的依存连接路径确定为有效依存连接路径,统计上述有效分词组的有效依存连接路径的连接路径数量,将其确定为上述有效分词组的权重,请参见图4,设置无向依存文法图400a中两个分词的跳转次数阈值为4,可得,有效分词组ab的有效依存连接路径只有一条,为a-b,权重为1;有效分词组ac的有效依存连接路径为a-b-d-c,权重为1;有效分词组bh的有效依存连接路径有两条,一条有效依存连接路径为分词b与分词h的直接连接,一条有效依存连接路径为b-d-h(即通过分词b与分词d以及分词d与分词h的直接连接形成分词b与分词h的间接连接),因此,权重为2;遍历上述无向依存文法图400a,得到上述所有有效分词组的有效依存连接路径以及权重,如图4中40b所示,其中,“(ab,1):a-b”中的“ab”代表有效分词组,“1”代表有效分词组的权重,“a-b”代表有效分词组的有效依存连接路径。
再请参见图4,基于上述有效分词组的权重,构建所述文本“营销企业如何解决企业与用户的沟通”对应的第一拓扑图40c,上述第一拓扑图40c中的节点属于上述有效分词组中的分词,上述第一拓扑图40c中每条边的权重为上述有效分词组的权重,例如由节点a与节点h组成的边的权重为有效分词组ah的权重。
步骤S104,根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。
具体的,获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
这一步骤进行图遍历计算,请一并参见图4中的第一拓扑图40c,第一拓扑图40c为无向图,确定第一拓扑图40c中每个节点的关键度;具体实现方式如公式(1)所示,其中,V为图中所有节点的集合,在第一拓扑图40c中,共有6个节点;In(Vi)是与Vi所有连接的节点,例如与节点a连接的节点有节点b、节点c、节点d、节点h;Out(Vj)是与Vj所有连接的节点,Wij为节点i和节点j之间的权重,WS(Vi)为节点Vi的关键度;初始化每个节点的关键度,为1/|edges|,|edges|为边的个数,例如节点a的初始关键度为1/4,按照公式(1),从某节点i开始遍历,迭代计算所有节点的关键度,直至所有节点的关键度在预设的关键度范围内,其中d为阻尼系数,值为0-1之间。
基于所有节点的关键度,对第一拓扑图40c中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本“营销企业如何解决企业与用户的沟通”的关键词。有如下参考方法选择目标节点:
1)通过关键度阈值选择目标节点。具体为:确定关键度阈值WS,若WS(Vi)>WS,则确定节点Vi为目标节点;
2)基于关键词个数选择目标节点。具体为:假设从文本“营销企业如何解决企业与用户的沟通”中抽取3个关键词,则基于排序后的节点中选择关键度最大的3个节点作为目标节点;
3)将排序后的节点均作为目标节点,按照关键度从大至小的顺序输出目标节点对应的分词。
本申请实施例通过获取文本,对所述文本进行划分,得到多个分词;获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。上述可知,通过考虑多个分词在文本中的语义定位,即多个分词之间的依存关系,构建语义拓扑图,可以充分的考虑多个分词中每两个分词之间的关联关系,进而提高文本中关键词抽取的准确性。
进一步地,请参见图5,图5是本申请实施例提供的另一种关键词抽取方法的流程示意图。如图5所示,所述方法可以包括以下步骤:
步骤S201,获取文本,对所述文本进行划分,得到多个分词。
步骤S202,获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态。
步骤S203,根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词。
其中,步骤S201-步骤S203的具体实现过程可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述,这里不再进行赘述。
步骤S204,根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图。
具体的,请一并参见图6,图6是本申请实施例提供的一种生成第二拓扑图的场景示意图。如图6所示,服务器10a接收到文本“营销企业如何解决企业与用户的沟通”后,先对文本进行划分,得到9个分词,基于所述9个分词(8个不同的分词)中每个分词的词性,请一并参见图3所对应的实施例中步骤S103中的表3,从上述9个分词中选择目标分词,即分词“营销”、分词“企业”、分词“如何”、分词“解决”、分词“用户”以及分词“沟通”;为了便于叙述,使用字母替代上述6个目标分词,基于上述6个目标分词在所述文本中的分布位置,生成包含所述6个目标分词的分词序列60a,即abcdbfh;在本申请中,将遍历窗口的步长设置为3,基于遍历窗口的步长,在所述分词序列60a中进行遍历,得到遍历分词组abc、遍历分词组bcd、遍历分词组cdb、遍历分词组dbf以及遍历分词组bfh,如图6中60b所示,每个遍历分词组中的目标分词数量为3;统计上述遍历分词组60b中每两个目标分词的出现频次,将出现频次确定为所述遍历分词组60b中每两个目标分词组成的分词组的权重,例如在遍历分词组abc中,分词a和分词b出现,分词a和分词c出现,分词c和分词b出现,且分词b与分词c在遍历分词组bcd以及遍历分词组cdb中出现,故确定由分词a和分词b组成的分词组ab的权重为1,由分词a和分词c组成的分词组ac的权重为1,由分词c和分词b组成的分词组bc的权重为3;以此类推,得到遍历分词组60b中每两个目标分词所组成的分词组的权重,如图6中分词组权重60c所示,其中,分词组bd在遍历分词组bcd、遍历分词组cdb以及遍历分词组dbf中出现,故权重为3;分词组cd在遍历分词组bcd以及遍历分词组cdb中出现,故权重为2;分词组bf在遍历分词组dbf以及遍历分词组bfh中出现,故权重为2;基于分词组权重60c,构建以所述目标分词为节点的第二拓扑图,如图6中第二拓扑图60d所示,第二拓扑图中每条边的权重为边所对应的两个目标节点的权重。
步骤S205,根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图。
具体的,上述第一拓扑图40c是基于文本“营销企业如何解决企业与用户的沟通”中每两个分词的依存关系所构建的,充分考虑分词在文本中的语义定位;上述第二拓扑图60d是通过遍历窗口确定上述文本中多个分词之间的关系所构建的,主要考虑分词出现的位置以及频次,所以两个拓扑图所包含的节点以及节点关系有区别;添加存在于第二拓扑图60d中且不存在第一拓扑图40c中的节点以及节点关系,并融合既存在第一拓扑图40c中又存在第二拓扑图60d中的节点以及节点关系,生成的目标拓扑图既考虑到文本中多个分词之间的依存关系又考虑到分词在文本中出现的位置及频次。
步骤S206,根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
具体的,采用图遍历方法计算目标拓扑图中每个节点的关键度,具体方法可以参见上述图3所对应的实施例中步骤S104的描述。
进一步地,请参见图7,是本申请实施例提供的一种目标拓扑图生成方法的流程示意图。如图7所示,所述方法可以包括以下步骤:
步骤S2051,根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点。
具体的,综合考虑第一拓扑图和第二拓扑图,确定存在于第二拓扑图中且不存在于第一拓扑图中的增量节点关系(边以及边的权重)和增量节点,请一并参见图8,是本申请实施例提供的一种增量节点以及增量节点关系生成的场景示意图。如图8所示,第一拓扑图80a包含节点r、节点s、节点t、节点m、节点y以及节点z,由节点r与节点s组成的边rs的权重为1,由节点r与节点t组成的边rt的权重为1,由节点s与节点y组成的边sy的权重为2,由节点s与节点z组成的边sz的权重为1,由节点s与节点t组成的边st的权重为2,由节点t与节点m组成的边tm的权重为1,由节点m与节点y组成的边my的权重为2,由节点m与节点z组成的边mz的权重为1,由节点z与节点y组成的边zy之间的权重为2;第二拓扑图80b包含节点r、节点s、节点t、节点x、节点y以及节点z,由节点r与节点s组成的边rs的权重为1,由节点r与节点t组成的边rt的权重为1,由节点r与节点x组成的边rx的权重为1,由节点r与节点z组成的边rz的权重为1,由节点s与节点y组成的边sy的权重为2,由节点s与节点z组成的边sz的权重为2,由节点s与节点t组成的边st的权重为3,由节点s与节点x组成的边sx的权重为3,由节点t与节点x组成的边tx的权重为2,由节点t与节点z组成的边tz的权重为1,由节点x与节点y组成的边xy的权重为1,由节点x与节点z组成的边xz的权重为1,由节点z与节点y组成的边zy的权重为1;上述可知,存在于第二拓扑图80b中且不存在于第一拓扑图80a中的增量节点关系和增量节点如图8中80c所示,增量节点为节点x,增量节点关系为:(rz,1)、(rx,1)、(sx,3)、(tz,1)、(tx,2)、(xy,1)、(xz,1),其中“(rz,1)”中的“rz”代表由节点r和节点z组成的边rz,“1”代表边rz的权重。
步骤S2052,获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同。
具体的,请一并参见图9,是本申请实施例提供的一种目标拓扑图生成的场景示意图。第一拓扑图80a和第二拓扑图80b中的节点以及节点关系请参见上述步骤S2051,如图9所示,第一拓扑图80a和第二拓扑图80b中的差异节点对包括由节点s和节点z组成的边sz、由节点y和节点z组成的边yz以及由节点s和节点t组成的边st,第一拓扑图80a中的差异节点对的权重如图9中80d所示,即(sz,1)、(zy,2)、(st,2),第二拓扑图80b中的差异节点对的权重如图9中80e所示,即(sz,2)、(zy,1)、(st,3)。
步骤S2053,若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重。
具体的,请一并参见图9,上述第一拓扑图80a和上述第二拓扑图80b共有3对差异节点对,分别为差异节点对sz、差异节点对zy、差异节点对st,它们在两个拓扑图中的权重分别为(1,2)、(2,1)、(2,3),其中,“(1,2)”中的“1”代表的是差异节点对sz在上述第一拓扑图80a中的权重,“2”是差异节点对sz在上述第二拓扑图80b中的权重;若上述差异节点对在上述第二拓扑图80b中的权重大于上述差异节点对在上述第一拓扑图80a中的权重,则将上述第一拓扑图80a中的上述差异节点对的权重更新为上述第二拓扑图80b中的上述差异节点对的权重,并将其作为为目标权重,如图9中目标权重80f所示,例如差异节点对sz,在上述第二拓扑图80b中的权重为2,在上述第一拓扑图80a中的权重为1,故在第一拓扑图80a中将差异节点对sz的权重1更新为2。
步骤S2054,在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
具体的,请一并参见图9,更新第一拓扑图80a中的差异节点对80f后,添加步骤S2051所述的增量节点关系和增量节点80c,得到目标拓扑图80g。
本申请实施例通过获取文本,对所述文本进行划分,得到多个分词;获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。上述可知,通过考虑多个分词在文本中的语义定位,即多个分词之间的依存关系,构建语义拓扑图,可以充分的考虑多个分词中每两个分词之间的关联关系,进而能够准确地计算多个分词在文本中的关键度,从而提高文本中关键词抽取的准确性。
请参见图10,是本申请实施例提供的一种计算机设备装置的结构示意图。如图10所示,计算机设备装置1可以包括:划分模块11、确定模块12、构建模块13、抽取模块14。
划分模块11,用于获取文本,对所述文本进行划分,得到多个分词;确定模块12,用于获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
构建模块13,用于根据关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
抽取模块14,用于根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,划分模块11、确定模块12、构建模块13、抽取模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再请参见图10,构建模块13可以包括:确定词组单元131、第一构建单元132。
确定词组单元131,用于将所述关联状态为有效关联状态的两个分词确定为有效分词组;
第一构建单元132,用于基于所述有效分词组,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中的节点属于所述有效分词组中的分词。
其中,确定词组单元131、第一构建单元132的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图10,第一构建单元132可以包括:获取连接子单元1321、第一确定子单元1322、第一构建子单元1323。
获取连接子单元1321,用于获取所述有效分词组对应的至少一种有效依存连接路径;
第一确定子单元1322,用于根据所述至少一种有效依存连接路径的连接路径数量,确定所述有效分词组的权重;
第一构建子单元1323,用于基于所述有效分词组的权重,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中边的权重为所述有效分词组的权重。
其中,获取连接子单元1321、第一确定子单元1322、第一构建子单元1323的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图10,确定模块12可以包括:建立单元121、删除关系方向单元122、获取跳转单元123、确定状态单元124。
建立单元121,用于根据所述依存关系,建立所述文本对应的依存文法图;所述依存文法图包含所述多个分词,所述多个分词包括第一分词和第二分词;
删除关系方向单元122,用于删除所述依存文法图中的依存关系方向,得到无向依存文法图;
获取跳转单元123,用于遍历所述无向依存文法图,获取所述第一分词和所述第二分词之间的至少一种依存连接路径,获取每条依存连接路径中的路由跳转次数;
确定状态单元124,用于若存在所述路由跳转次数小于跳转次数阈值的依存连接路径,则确定所述第一分词和所述第二分词之间的关联状态为所述有效关联状态;
所述确定状态单元124,还用于若所述至少一种依存连接路径分别对应的路由跳转次数均大于或等于所述跳转次数阈值,则确定所述第一分词和所述第二分词之间的关联状态为所述无效关联状态。
其中,建立单元121、删除关系方向单元122、获取跳转单元123、确定状态单元124的具体功能实现方式可以参见上述图3对应实施例中的步骤S102,这里不再进行赘述。
其中,所述获取连接子单元1321具体用于获取所述有效分词组对应的至少一种依存连接路径,将所述路由跳转次数小于所述跳转次数阈值的依存连接路径确定为所述有效依存连接路径。
再请参见图10,确定词组单元131可以包括:确定过渡子单元1311、过滤子单元1312。
确定过渡子单元1311,用于将所述关联状态为有效关联状态的两个分词确定为过渡分词组;
过滤子单元1312,用于获取所述过渡分词组中每个分词的词性,对包含停用词词性的分词的过渡分词组进行过滤,得到所述有效分词组。
其中,确定过渡子单元1311、过滤子单元1312的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再请参见图10,抽取模块14可以包括:第二构建单元141、生成单元142、抽取单元143。
第二构建单元141,用于根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
生成单元142,用于根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
抽取单元143,用于根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
其中,第二构建单元141、生成单元142、抽取单元143的具体功能实现方式可以参见上述图5对应实施例中的步骤S204-步骤S206,这里不再进行赘述。
再请参见图10,第二构建单元141可以包括:选择分词子单元1411、生成序列子单元1412、遍历子单元1413、第二确定子单元1414、第二构建子单元1415。
选择分词子单元1411,用于基于所述多个分词中每个分词的词性,从所述多个分词中选择目标分词;
生成序列子单元1412,用于基于所述目标分词在所述文本中的分布位置,生成包含所述目标分词的分词序列;
遍历子单元1413,用于基于遍历窗口的步长,在所述分词序列中进行遍历,得到多个遍历分词组;每个遍历分词组中的目标分词数量等于所述遍历窗口的步长;
第二确定子单元1414,用于根据所述多个遍历分词组中每两个目标分词的出现频次,确定所述多个遍历分词组中每两个目标分词的权重;
第二构建子单元1415,用于基于所述多个遍历分词组中每两个目标分词的权重,构建以所述目标分词为节点的所述第二拓扑图。
其中,选择分词子单元1411、生成序列子单元1412、遍历子单元1413、第二确定子单元1414、第二构建子单元1415的具体功能实现方式可以参见上述图5对应实施例中的步骤S204,这里不再进行赘述。
再请参见图10,生成单元142可以包括:确定节点子单元1421、添加子单元1422。
确定节点子单元1421,用于根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点;
添加子单元1422,用于在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图。
其中,确定节点子单元1421、添加子单元1422的具体功能实现方式可以参见上述图5对应实施例中的步骤S205,这里不再进行赘述。
再请参见图10,添加子单元1422可以包括:获取差异子单元14221、替换子单元14222、添加节点子单元14223。
获取差异子单元14221,用于获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同;
替换子单元14222,用于若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重;
添加节点子单元14223,用于在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
其中,获取差异子单元14221、替换子单元14222、添加节点子单元14223的具体功能实现方式可以参见上述图7对应实施例中的步骤S2052-步骤S2054,这里不再进行赘述。
再请参见图10,所述抽取模块14可以包括:确定关键度单元144、确定关键词单元145。
确定关键度单元144,用于基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度;
确定关键词单元145,用于根据所述关键度对所述第一拓扑图中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本的所述关键词。
其中,确定关键度单元144、确定关键词单元145的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
再请参见图10,确定关键度单元144可以包括:获取节点子单元1441、第一确定关键度子单元1442、第二确定关键度子单元1443。
获取节点子单元1441,用于获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;
第一确定关键度子单元1442,用于在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;
第二确定关键度子单元1443,用于基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
其中,获取节点子单元1441、第一确定关键度子单元1442、第二确定关键度子单元1443的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例通过获取文本,对所述文本进行划分,得到多个分词;获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。上述可知,通过考虑多个分词在文本中的语义定位,即多个分词之间的依存关系,构建语义拓扑图,可以充分的考虑多个分词中每两个分词之间的关联关系,进而能够准确地计算多个分词在文本中的关键度,从而提高文本中关键词抽取的准确性。
请参见图11,是本申请实施例提供的一种电子设备的结构示意图。如图11所示,所述电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取文本,对所述文本进行划分,得到多个分词;
获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。
在一个实施例中,所述关联状态包括有效关联状态和无效关联状态;
所述处理器1001在执行根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词时,具体执行以下步骤:
将所述关联状态为有效关联状态的两个分词确定为有效分词组;
基于所述有效分词组,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中的节点属于所述有效分词组中的分词。
在一个实施例中,所述处理器1001在执行基于所述有效分词组,构建所述文本对应的所述第一拓扑图时,具体执行以下步骤:
获取所述有效分词组对应的至少一种有效依存连接路径;
根据所述至少一种有效依存连接路径的连接路径数量,确定所述有效分词组的权重;
基于所述有效分词组的权重,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中边的权重为所述有效分词组的权重。
在一个实施例中,所述处理器1001在执行根据所述依存关系确定所述多个分词中每两个分词之间的关联状态时,具体执行以下步骤:
根据所述依存关系,建立所述文本对应的依存文法图;所述依存文法图包含所述多个分词,所述多个分词包括第一分词和第二分词;
删除所述依存文法图中的依存关系方向,得到无向依存文法图;
遍历所述无向依存文法图,获取所述第一分词和所述第二分词之间的至少一种依存连接路径,获取每条依存连接路径中的路由跳转次数;
若存在所述路由跳转次数小于跳转次数阈值的依存连接路径,则确定所述第一分词和所述第二分词之间的关联状态为所述有效关联状态;
若所述至少一种依存连接路径分别对应的路由跳转次数均大于或等于所述跳转次数阈值,则确定所述第一分词和所述第二分词之间的关联状态为所述无效关联状态。
在一个实施例中,所述处理器1001在执行获取所述有效分词组对应的至少一种有效依存连接路径时,具体执行以下步骤:
获取所述有效分词组对应的至少一种依存连接路径,将所述路由跳转次数小于所述跳转次数阈值的依存连接路径确定为所述有效依存连接路径。
在一个实施例中,所述处理器1001在执行将所述关联状态为有效关联状态的两个分词确定为有效分词组时,具体执行以下步骤:
将所述关联状态为有效关联状态的两个分词确定为过渡分词组;
获取所述过渡分词组中每个分词的词性,对包含停用词词性的分词的过渡分词组进行过滤,得到所述有效分词组。
在一个实施例中,所述处理器1001在执行根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词时,具体执行以下步骤:
根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
在一个实施例中,所述处理器1001在执行根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图时,具体执行以下步骤:
基于所述多个分词中每个分词的词性,从所述多个分词中选择目标分词;
基于所述目标分词在所述文本中的分布位置,生成包含所述目标分词的分词序列;
基于遍历窗口的步长,在所述分词序列中进行遍历,得到多个遍历分词组;每个遍历分词组中的目标分词数量等于所述遍历窗口的步长;
根据所述多个遍历分词组中每两个目标分词的出现频次,确定所述多个遍历分词组中每两个目标分词的权重;
基于所述多个遍历分词组中每两个目标分词的权重,构建以所述目标分词为节点的所述第二拓扑图。
在一个实施例中,所述处理器1001在执行根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图时,具体执行以下步骤:
根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点;
在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图。
在一个实施例中,所述处理器1001在执行在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图时,具体执行以下步骤:
获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同;
若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重;
在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
在一个实施例中,所述处理器1001在执行根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词时,具体执行以下步骤:
基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度;
根据所述关键度对所述第一拓扑图中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本的所述关键词。
在一个实施例中,所述处理器1001在执行基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度时,具体执行以下步骤:
获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;
在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;
基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
本申请实施例通过获取文本,对所述文本进行划分,得到多个分词;获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词。上述可知,通过考虑多个分词在文本中的语义定位,即多个分词之间的依存关系,构建语义拓扑图,可以充分的考虑多个分词中每两个分词之间的关联关系,进而能够准确地计算多个分词在文本中的关键度,从而提高文本中关键词抽取的准确性。
应当理解,本申请实施例中所描述的电子设备1000可执行前文图3到图7所对应实施例中对所述关键词抽取方法的描述,也可执行前文图10所对应实施例中对所述计算机设备装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的计算机设备装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3到图7对应实施例中对所述关键词抽取方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种关键词抽取方法,其特征在于,包括:
获取文本,对所述文本进行划分,得到多个分词;
获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
2.根据权利要求1所述的方法,其特征在于,所述关联状态包括有效关联状态和无效关联状态;
所述根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词,包括:
将所述关联状态为有效关联状态的两个分词确定为有效分词组;
基于所述有效分词组,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中的节点属于所述有效分词组中的分词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述有效分词组,构建所述文本对应的所述第一拓扑图,包括:
获取所述有效分词组对应的至少一种有效依存连接路径;
根据所述至少一种有效依存连接路径的连接路径数量,确定所述有效分词组的权重;
基于所述有效分词组的权重,构建所述文本对应的所述第一拓扑图;所述第一拓扑图中边的权重为所述有效分词组的权重。
4.根据权利要求3所述的方法,其特征在于,所述根据所述依存关系确定所述多个分词中每两个分词之间的关联状态,包括:
根据所述依存关系,建立所述文本对应的依存文法图;所述依存文法图包含所述多个分词,所述多个分词包括第一分词和第二分词;
删除所述依存文法图中的依存关系方向,得到无向依存文法图;
遍历所述无向依存文法图,获取所述第一分词和所述第二分词之间的至少一种依存连接路径,获取每条依存连接路径中的路由跳转次数;
若存在所述路由跳转次数小于跳转次数阈值的依存连接路径,则确定所述第一分词和所述第二分词之间的关联状态为所述有效关联状态;
若所述至少一种依存连接路径分别对应的路由跳转次数均大于或等于所述跳转次数阈值,则确定所述第一分词和所述第二分词之间的关联状态为所述无效关联状态。
5.根据权利要求4所述的方法,其特征在于,所述获取所述有效分词组对应的至少一种有效依存连接路径,包括:
获取所述有效分词组对应的至少一种依存连接路径,将所述路由跳转次数小于所述跳转次数阈值的依存连接路径确定为所述有效依存连接路径。
6.根据权利要求2所述的方法,其特征在于,所述将所述关联状态为有效关联状态的两个分词确定为有效分词组,包括:
将所述关联状态为有效关联状态的两个分词确定为过渡分词组;
获取所述过渡分词组中每个分词的词性,对包含停用词词性的分词的过渡分词组进行过滤,得到所述有效分词组。
7.根据权利要求1所述的方法,其特征在于,所述根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图,包括:
基于所述多个分词中每个分词的词性,从所述多个分词中选择目标分词;
基于所述目标分词在所述文本中的分布位置,生成包含所述目标分词的分词序列;
基于遍历窗口的步长,在所述分词序列中进行遍历,得到多个遍历分词组;每个遍历分词组中的目标分词数量等于所述遍历窗口的步长;
根据所述多个遍历分词组中每两个目标分词的出现频次,确定所述多个遍历分词组中每两个目标分词的权重;
基于所述多个遍历分词组中每两个目标分词的权重,构建以所述目标分词为节点的所述第二拓扑图。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图,包括:
根据所述第一拓扑图和所述第二拓扑图,确定增量节点关系和增量节点;所述增量节点关系是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点连接关系;所述增量节点是指存在于所述第二拓扑图且不存在于所述第一拓扑图的节点;
在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图。
9.根据权利要求8所述的方法,其特征在于,所述在所述第一拓扑图中添加所述增量节点关系和所述增量节点,得到目标拓扑图,包括:
获取所述第一拓扑图和所述第二拓扑图之间的差异节点对;所述差异节点对是指均存在于所述第一拓扑图和所述第二拓扑图中的两个具有连接关系的节点,且该两个节点在所述第一拓扑图和所述第二拓扑图中的权重不相同;
若所述差异节点对在所述第二拓扑图中的权重大于所述差异节点对在所述第一拓扑图中的权重,则将所述第一拓扑图中的所述差异节点对的权重替换为目标权重;所述目标权重是指所述差异节点对在所述第二拓扑图中的权重;
在权重更新后的第一拓扑图中添加所述增量节点关系和所述增量节点,得到所述目标拓扑图。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一拓扑图从所述多个分词中抽取所述文本对应的关键词,包括:
基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度;
根据所述关键度对所述第一拓扑图中的每个节点进行排序,从排序后的节点中选择目标节点,将所述目标节点对应的分词确定为所述文本的所述关键词。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第一拓扑图,确定所述第一拓扑图中每个节点的关键度,包括:
获取所述第一拓扑图中的节点vi、节点vj以及节点vk;所述节点vi与所述节点vj具有连接关系,所述节点vj与所述节点vk具有连接关系;i、j以及k均为小于或等于N的正整数,所述N为所述第一拓扑图的节点总数量;
在所述第一拓扑图中获取所述节点vj对应的边数,根据所述边数确定所述节点vj的初始关键度;
基于所述节点vj的初始关键度、所述节点vi与所述节点vj之间的权重以及所述节点vj与所述节点vk之间的权重,确定所述节点vi的关键度。
12.一种关键词抽取装置,其特征在于,包括:
划分模块,用于获取文本,对所述文本进行划分,得到多个分词;
确定模块,用于获取所述多个分词之间的依存关系,根据所述依存关系确定所述多个分词中每两个分词之间的关联状态;
构建模块,用于根据所述关联状态,构建所述文本对应的第一拓扑图,所述第一拓扑图中的节点属于所述多个分词;
抽取模块,用于根据所述多个分词在所述文本中的分布位置,构建所述文本对应的第二拓扑图;
所述抽取模块,还用于根据所述第一拓扑图和所述第二拓扑图,生成目标拓扑图;
所述抽取模块,还用于根据所述目标拓扑图从所述多个分词中抽取所述文本对应的关键词。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至11中任一项所述方法的步骤。
CN201911082856.7A 2019-11-07 2019-11-07 一种关键词抽取方法、装置以及计算机存储介质 Active CN110874396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082856.7A CN110874396B (zh) 2019-11-07 2019-11-07 一种关键词抽取方法、装置以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082856.7A CN110874396B (zh) 2019-11-07 2019-11-07 一种关键词抽取方法、装置以及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110874396A CN110874396A (zh) 2020-03-10
CN110874396B true CN110874396B (zh) 2024-02-09

Family

ID=69718118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082856.7A Active CN110874396B (zh) 2019-11-07 2019-11-07 一种关键词抽取方法、装置以及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110874396B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639189B (zh) * 2020-04-29 2023-03-21 西北工业大学 一种基于文本内容特征的文本图构建方法
CN112685175B (zh) * 2020-12-24 2024-07-02 北京浪潮数据技术有限公司 一种服务拓扑图的构建方法、装置和计算机可读存储介质
CN113011178B (zh) * 2021-03-29 2023-05-16 广州博冠信息科技有限公司 文本生成方法、文本生成装置、电子设备及存储介质
CN113407689A (zh) * 2021-06-15 2021-09-17 北京三快在线科技有限公司 一种模型训练和业务执行的方法及装置
CN114996434B (zh) * 2022-08-08 2022-11-08 深圳前海环融联易信息科技服务有限公司 一种信息抽取方法及装置、存储介质、计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202042A (zh) * 2016-07-06 2016-12-07 中央民族大学 一种基于图的关键词抽取方法
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN108228657A (zh) * 2016-12-22 2018-06-29 沈阳美行科技有限公司 一种关键字检索的实现方法及装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817790B2 (en) * 2016-05-11 2020-10-27 International Business Machines Corporation Automated distractor generation by identifying relationships between reference keywords and concepts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202042A (zh) * 2016-07-06 2016-12-07 中央民族大学 一种基于图的关键词抽取方法
CN108228657A (zh) * 2016-12-22 2018-06-29 沈阳美行科技有限公司 一种关键字检索的实现方法及装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进TextRank的关键词抽取算法;张莉婧;李业丽;曾庆涛;雷嘉丽;杨鹏;;北京印刷学院学报(04);全文 *

Also Published As

Publication number Publication date
CN110874396A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874396B (zh) 一种关键词抽取方法、装置以及计算机存储介质
CN112487173B (zh) 人机对话方法、设备和存储介质
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN111400504A (zh) 企业关键人的识别方法和装置
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
CN111339437B (zh) 一种团伙成员角色的确定方法、装置及电子设备
CN111353303A (zh) 词向量构建方法、装置、电子设备及存储介质
CN113326420A (zh) 问题检索方法、装置、电子设备和介质
CN112632285A (zh) 一种文本聚类方法、装置、电子设备及存储介质
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
KR101931624B1 (ko) 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체
CN114444462B (zh) 模型训练方法及人机交互方法、装置
US20230032208A1 (en) Augmenting data sets for machine learning models
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN112989170A (zh) 应用于信息搜索的关键词匹配方法、信息搜索方法及装置
CN113033194A (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
CN113742332A (zh) 数据存储方法、装置、设备及存储介质
CN113780827A (zh) 一种物品筛选方法、装置、电子设备及计算机可读介质
CN111626044A (zh) 文本生成方法、装置、电子设备及计算机可读存储介质
CN111078727A (zh) 一种简要描述生成方法、装置及计算机可读存储介质
CN111858917A (zh) 文本分类方法和装置
CN115034211B (zh) 未登录词发现方法、装置、电子设备及存储介质
KR102449831B1 (ko) 신규 텍스트에 대한 정보를 제공하는 전자 장치, 신규 텍스트를 확인하는 서버 및 그 동작 방법
CN113407815B (zh) 生成场景主题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022139

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant