CN114020876A - 文本的关键词提取方法、装置、设备及存储介质 - Google Patents

文本的关键词提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114020876A
CN114020876A CN202111357847.1A CN202111357847A CN114020876A CN 114020876 A CN114020876 A CN 114020876A CN 202111357847 A CN202111357847 A CN 202111357847A CN 114020876 A CN114020876 A CN 114020876A
Authority
CN
China
Prior art keywords
keyword
text
keywords
candidate
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111357847.1A
Other languages
English (en)
Inventor
王康旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202111357847.1A priority Critical patent/CN114020876A/zh
Publication of CN114020876A publication Critical patent/CN114020876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本的关键词提取方法、装置、设备及存储介质,涉及游戏技术领域。该方法包括:根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率,该歧义先验概率用于指示关键词出现歧义的可能性,该关键词库中的关键词包括游戏领域相关实体的标准名以及别名,该游戏包括:与关键词关联的关联游戏以及不与关键词关联的非关联游戏;对待分析文本进行分词处理,得到词序列,该词序列中包括多个初始关键词;根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词。应用本申请实施例,可以使获取到的待分析文本中的目标关键词精确度得到提高。

Description

文本的关键词提取方法、装置、设备及存储介质
技术领域
本申请涉及游戏技术领域,具体而言,涉及一种文本的关键词提取方法、装置、设备及存储介质。
背景技术
游戏社区主要由玩家组成,在游戏社区内,玩家可通过分享游戏体验、攻略等文本内容进行互动,文本关键词提取技术能够系统性的获取游戏社区文本中讨论的主要对象,通常可包括关键词抽取和关键词分配这两种关键词提取方式,其中,由于关键词分配技术在提取关键词时具有更高的可控性,使其在新闻、搜索、信息流推荐等领域中有着广泛的应用。
目前,利用关键词分配技术对待分析文本中的关键词进行提取时,可将待分析文本与预先构建的关键词库进行匹配,将匹配得到的关键词直接作为候选关键词,然后再根据无监督算法或者有监督算法从候选关键词中确定待分析文本中的目标关键词。
然而,待分析文本中通常会有一些口语化表达的词,即使该关键词库中存储有口语化的关键词,这样也会导致获取到的待分析文本中的目标关键词精确度降低。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文本的关键词提取方法、装置、设备及存储介质,可以使获取到的待分析文本中的目标关键词精确度得到提高。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种文本的关键词提取方法,所述方法包括:
根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,所述歧义先验概率用于指示关键词出现歧义的可能性,所述关键词库中的关键词包括游戏领域相关实体的标准名以及别名,所述游戏包括:与所述关键词关联的关联游戏以及不与所述关键词关联的非关联游戏;
对待分析文本进行分词处理,得到词序列,所述词序列中包括多个初始关键词;
根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
可选地,所述根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,包括:
对各所述游戏所关联的样本文本进行分词处理,得到样本词序列,所述样本词序列中包括多个关键词,所述样本文本包括:所述关联游戏涉及的文本,以及,所述非关联游戏涉及的文本;
从所述样本词序列中筛选出属于所述关键词库的关键词;
根据各所述关键词在各所述游戏所关联的样本文本中出现的频次以及各所述游戏所关联的样本文本数量,得到各所述关键词在各所述游戏下出现的第一概率集合,所述第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率;
从各所述关键词对应的所述第一概率集合中筛选所述关联游戏对应的概率,得到各所述关键词在各所述关联游戏下出现的第二概率集合,所述第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个所述关联游戏下出现的概率;
根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率。
可选地,所述根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率,包括:
确定所述第一概率集合中的第一最大概率以及第一最小概率;
确定所述第二概率集合中的第一最大概率;
根据所述第一概率集合中的第一最大概率和第一最小概率以及所述第二概率集合中的第一最大概率,确定各所述关键词的歧义先验概率。
可选地,所述关键词库中的各所述关键词关联有游戏标识,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:
根据所述待分析文本所属的游戏标识以及所述关键词库中各所述关键词对应的游戏标识,从各所述初始关键词中筛选出中间关键词,所述中间关键词对应的游戏标识与所述待分析文本所属的游戏标识的标识一致;
根据所述中间关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
可选地,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:
从所述关键词库中筛选出歧义先验概率大于第一预设歧义先验概率的关键词,并生成筛选出的各所述关键词对应的映射向量;
将所述词序列输入预先训练得到的向量生成模型中,得到各所述初始关键词对应的语义向量;
根据所述筛选出的各所述关键词对应的映射向量以及各候选关键词对应的语义向量,确定与所述筛选出的各所述关键词匹配的各所述候选关键词对应的平均向量,所述候选关键词用于指示歧义先验概率大于所述预设歧义先验概率的初始关键词;
将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度;
将各所述候选关键词与所述游戏领域的关联度和预设关联度进行对比,得到参考关键词集合,所述参考关键词集合包括至少一个候选关键词;
根据所述参考关键词集合中的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词。
可选地所述将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度,包括:
将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量;
根据各所述候选关键词对应的语义向量与所述目标语义向量之间的相似度,得到各所述候选关键词与所述游戏领域的关联度。
可选地,所述根据所述参考关键词集合的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词,包括:
分别对与所述待分析文本关联的各评论文本进行分词处理,得到各所述评论文本对应的评论词序列,所述评论词序列中包括多个评论关键词;
将根据所述关键词库以及所述评论词序列筛选出的各所述评论文本的目标评论关键词分别输入所述向量生成模型中,得到各所述评论文本的所述目标评论关键词对应的词向量;
根据所述参考关键词集合中的各所述候选关键词对应的语义向量,得到各所述候选关键词与所述待分析文本的相似度;
将各所述候选关键词对应的语义向量以及各所述评论文本的所述目标评论关键词对应的词向量进行相似度分析,确定各所述候选关键词对应的相似度集合,所述相似度集合中包括多个相似度,每个相似度用于标识一个候选关键词与一个评论文本的所述目标评论关键词之间的相似性;
根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词。
可选地,所述根据所述参考关键词集合中的各所述候选关键词对应的语义向量,得到各所述候选关键词与所述待分析文本的相似度,包括:
对各所述候选关键词对应的语义向量进行平均,得到所述待分析文本对应的文本向量;
将各所述候选关键词对应的语义向量与所述待分析文本对应的文本向量进行相似度分析,得到各所述候选关键词与所述待分析文本的相似度。
可选地,所述根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词,包括:
确定各所述候选关键词对应的相似度集合中的最大相似度、最小相似度和/或平均相似度;
根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定所述待分析文本中的目标关键词。
可选地,所述根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定所述待分析文本中的目标关键词,包括:
将各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度、各所述候选关键词分别在所述待分析文本中的位置信息以及频次信息、各所述候选关键词对应的歧义先验概率、各所述候选关键词在各所述评论文本中出现的总频次以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度进行向量进行拼接,将拼接后的结果作为各所述候选关键词对应的目标向量;
将各候选关键词对应的各特征向量拼接后的结果作为各所述候选关键词对应的目标向量;
将各所述候选关键词对应的目标向量分别输入预先训练得到的二分类模型中,确定所述待分析文本中的目标关键词。
第二方面,本申请实施例还提供了一种文本的关键词提取装置,所述装置包括:
第一确定模块,用于根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,所述歧义先验概率用于指示关键词出现歧义的可能性,所述关键词库中的关键词包括游戏领域相关实体的标准名以及别名,所述游戏包括:与所述关键词关联的关联游戏以及不与所述关键词关联的非关联游戏;
分词模块,用于对待分析文本进行分词处理,得到词序列,所述词序列中包括多个初始关键词;
第二确定模块,用于根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
可选地,第一确定模块,具体用于对各所述游戏所关联的样本文本进行分词处理,得到样本词序列,所述样本词序列中包括多个关键词,所述样本文本包括:所述关联游戏涉及的文本,以及,所述非关联游戏涉及的文本;从所述样本词序列中筛选出属于所述关键词库的关键词;根据各所述关键词在各所述游戏所关联的样本文本中出现的频次以及各所述游戏所关联的样本文本数量,得到各所述关键词在各所述游戏下出现的第一概率集合,所述第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率;从各所述关键词对应的所述第一概率集合中筛选所述关联游戏对应的概率,得到各所述关键词在各所述关联游戏下出现的第二概率集合,所述第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个所述关联游戏下出现的概率;根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率。
可选地,第一确定模块,还具体用于确定所述第一概率集合中的第一最大概率以及第一最小概率;确定所述第二概率集合中的第一最大概率;根据所述第一概率集合中的第一最大概率和第一最小概率以及所述第二概率集合中的第一最大概率,确定各所述关键词的歧义先验概率。
可选地,所述关键词库中的各所述关键词关联有游戏标识;
相应地,所述第二确定模块,还用于根据所述待分析文本所属的游戏标识以及所述关键词库中各所述关键词对应的游戏标识,从各所述初始关键词中筛选出中间关键词,所述中间关键词对应的游戏标识与所述待分析文本所属的游戏标识的标识一致;根据所述中间关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
可选地,第二确定模块,具体用于从所述关键词库中筛选出歧义先验概率小于第一预设歧义先验概率的关键词,并生成筛选出的各所述关键词对应的映射向量;将所述词序列输入预先训练得到的向量生成模型中,得到各所述初始关键词对应的语义向量;根据所述筛选出的各所述关键词对应的映射向量以及各候选关键词对应的语义向量,确定与所述筛选出的各所述关键词匹配的各所述候选关键词对应的平均向量,所述候选关键词用于指示歧义先验概率大于所述预设歧义先验概率的初始关键词;将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度;将各所述候选关键词与所述游戏领域的关联度和预设关联度进行对比,得到参考关键词集合,所述参考关键词集合包括至少一个候选关键词;根据所述参考关键词集合中的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词。
可选地,第二确定模块,还具体用于将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量;根据各所述候选关键词对应的语义向量与所述目标语义向量之间的相似度,得到各所述候选关键词与所述游戏领域的关联度。
可选地,第二确定模块,还具体用于分别对与所述待分析文本关联的各评论文本进行分词处理,得到各所述评论文本对应的评论词序列,所述评论词序列中包括多个评论关键词;将根据所述关键词库以及所述评论词序列筛选出的各所述评论文本的目标评论关键词分别输入所述向量生成模型中,得到各所述评论文本的所述目标评论关键词对应的词向量;根据所述参考关键词集合中的各所述候选关键词对应的语义向量,得到各所述候选关键词与所述待分析文本的相似度;将各所述候选关键词对应的语义向量以及各所述评论文本的所述目标评论关键词对应的词向量进行相似度分析,确定各所述候选关键词对应的相似度集合,所述相似度集合中包括多个相似度,每个相似度用于标识一个候选关键词与一个评论文本的所述目标评论关键词之间的相似性;根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词。
可选地,第二确定模块,还具体用于对各所述候选关键词对应的语义向量进行平均,得到所述待分析文本对应的文本向量;将各所述候选关键词对应的语义向量与所述待分析文本对应的文本向量进行相似度分析,得到各所述候选关键词与所述待分析文本的相似度。
可选地,第二确定模块,还具体用于确定各所述候选关键词对应的相似度集合中的最大相似度、最小相似度和/或平均相似度;根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定所述待分析文本中的目标关键词。
可选地,第二确定模块,还具体用于将各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度、各所述候选关键词分别在所述待分析文本中的位置信息以及频次信息、各所述候选关键词对应的歧义先验概率、各所述候选关键词在各所述评论文本中出现的总频次以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度进行向量进行拼接,将拼接后的结果作为各所述候选关键词对应的目标向量;将各所述候选关键词对应的目标向量分别输入预先训练得到的二分类模型中,确定所述待分析文本中的目标关键词。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述第一方面的所述文本的关键词提取方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面的所述文本的关键词提取方法的步骤。
本申请的有益效果是:
本申请实施例提供一种文本的关键词提取方法、装置、设备及存储介质,该方法包括:根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率,该歧义先验概率用于指示关键词出现歧义的可能性,该关键词库中的关键词包括游戏领域相关实体的标准名以及别名,该游戏包括:与关键词关联的关联游戏以及不与关键词关联的非关联游戏;对待分析文本进行分词处理,得到词序列,该词序列中包括多个初始关键词;根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词。
采用本申请实施例提供的文本的关键词提取方法,可通过各关键词在各游戏所关联的样本文本中出现的频次以及在关联游戏中出现的频次,确定出关键词库中各关键词对应的歧义先验概率,该歧义先验概率用于表征关键词在游戏社区中出现歧义的可能性,基于各关键词对应的歧义先验概率,可将该待分析文本中的各处初始关键词与该关键词库中的关键词进行匹配,得到位于该关键词库中各初始关键词的歧义先验概率,最后可将歧义先验概率小于或等于预设歧义先验概率的初始关键词作为待分析文本中的目标关键词,这样可以使获取到的待分析文本中的目标关键词精确度得到提高。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文本的关键词提取方法的流程示意图;
图2为本申请实施例提供的一种关键词库;
图3为本申请实施例提供的另一种文本的关键词提取方法的流程示意图;
图4为本申请实施例提供的又一种文本的关键词提取方法的流程示意图;
图5为本申请实施例提供的再一种文本的关键词提取方法的流程示意图;
图6为本申请实施例提供的另一种文本的关键词提取方法的流程示意图;
图7为本申请实施例提供的又一种文本的关键词提取方法的流程示意图;
图8为本申请实施例提供的再一种文本的关键词提取方法的流程示意图;
图9为本申请实施例提供的一种文本的关键词提取装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在对本申请实施例进行详细解释之前,首先对本申请的应用场景予以介绍。该应用场景具体可以为对游戏社区中玩家发布的文本中的关键词进行提取的场景。游戏社区中包括多种游戏类别对应的子社区,用户可在感兴趣的子社区下以文本的形式分享游戏体验、攻略等信息以进行互动,同时,玩家也可以通过阅读文本获取游戏相关攻略等资讯。其中,游戏类别可包括角色扮演类游戏(RPG,Role Playing Game)、策略游戏(SLG,StrategyGame)、射击游戏(STG,Shoting Game)等,本申请不对其进行限定。本申请采用关键词分配的方式提取文本中的关键词,具体的,将待分析文本与预先构建的关键词库进行匹配,可采用本申请下述实施例的方式提取出该待分析文本中的目标关键词。后期可根据提取出的目标关键词对该待分析文本中的话题进行确定,可获取该待分析文本中所关联的玩家关注点,进而进行信息流推荐任务。
如下结合附图对本申请提到的文本的关键词提取方法进行示例说明。图1为本申请实施例提供的一种文本的关键词提取方法的流程示意图。如图1所示,该方法可包括:
S101、根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率。
其中,该歧义先验概率用于指示关键词出现歧义的可能性,该关键词库中的关键词包括游戏领域相关实体的标准名以及别名,该游戏包括:与关键词关联的关联游戏以及不与关键词关联的非关联游戏。
经研究发现,游戏社区具有较强的娱乐性,玩家发表的文本中的词语表达通常比较口语化,口语化的表达可以使玩家在交互的过程中更具备趣味性。具体的,玩家在文本中通常采用别名去表示游戏领域的相关实体(如虚拟角色、副本、任务等),如利用“大狗”、“马妹”这类别名对游戏中虚拟角色的名称进行描述,标准名为游戏领域的相关实体(虚拟角色、副本、任务等)在关联游戏中显示的官方名称,如利用“大天狗”、“马云禄”这类官网名称对游戏中虚拟角色的名称进行描述。举例来说,在游戏A对应的子社区中,玩家所发表的文本中,通常采用“大狗”对游戏A中虚拟角色“大天狗”进行描述。
可选地,在构建关键词库时,可通过预设算法在语料库中进行初步提取,然后再对初步提取的结果进行人工筛选得到关键词库中的关键词,当然,还可以直接通过人工构建得到关键词库中的关键词,本申请不对构建关键词库的具体方式进行限定。
在关键词库构建完成后,可得到如图2所示的关键词库,如图2所示,该关键词库中包括关键词以及关键词对应的标准名,可以理解的是,若关键词本身就为标准名,那么其所对应的标准名与该关键词一致。需要说明的是,图2只是一种关键词库的示例,不作为关键词库的限定。可根据在游戏社区中预先选取的各游戏所关联的样本文本得到关键词库中各关键词的歧义先验概率,将各关键词的歧义先验概率关联进该关键词库中,如图2中的歧义先验概率一栏,从图2中可以看出,关键词“烬天玉藻前”、“马妹”、“大狗”分别对应的歧义先验概率为0.08、0.23、0.67,根据各关键词对应的歧义先验概率,可知关键词“大狗”在游戏社区中出现歧义的可能性较大,关键词“烬天玉藻前”在游戏社区中出现歧义的可能性较小。关键词“烬天玉藻前”本身就是原创的游戏角色对应的标准名,在游戏社区中出现歧义的可能性本来就很低,而“大狗”不仅为游戏角色“大天狗”的习用称呼,也可指宠物,在游戏社区中出现歧义的可能性就较高,这也验证了歧义先验概率可表示关键词出现歧义的可能性。
需要说明的是,每个关键词均对应有关联游戏、非关联游戏,如图2所示,关键词“马妹”对应的关联游戏为游戏B,可选取游戏B对应的子社区下的文本作为样本文本,非关联游戏用于指示与关键词不相关的游戏,可将非关联游戏对应的子社区下的文本作为样本文本,需要说明的是,本申请不对关键词对应的关联游戏以及非关联游戏的个数进行限定。
可选的,可在各游戏对应的子社区中选取预设数量的样本文本,此处以一个关键词来说,可分别对各游戏下的各样本文本进行分词处理,得到各游戏对应的分词数量以及可统计出该关键词在各游戏下的各样本文本中出现的频次。
在一种可实现的实施例中,可根据该关键词在各游戏下的各样本文本中出现的频次与各游戏对应的分词数量的比值,得到该关键词在各游戏下出现的概率,概率越大,证明该关键词与该游戏的关联性越强。可以理解的是,正常情况下,该关键词应该在所关联游戏下越容易出现,即该关键词在关联游戏对应的子社区下出现的概率越大,在非关联游戏对应的子社区下出现的概率越小。基于此,可根据该关键词在各游戏下出现的概率,进而得到该关键词的歧义先验概率,同理,可得到该关键词库中其他各关键词的歧义先验概率,将各关键词的歧义先验概率与关键词库中的关键词相关联,即可得到如图2所示的关键词库。
可以理解的是,该关键词库中关键词对应的歧义先验概率越大,代表着该关键词在游戏社区中出现歧义的可能性就越大;关键词对应的歧义先验概率越小,代表着该关键词在该游戏社区中出现歧义的可能性就越小。
S102、对待分析文本进行分词处理,得到词序列,该词序列中包括多个初始关键词。
其中,将该待分析文本输入预先构建的分词模块中,该分词模块对该待分析文本进行分词处理后,得到该待分析文本对应的词序列。举例来说,假设该待分析文本为“我最喜欢大狗”,经过该分词模块对该待分析文本进行分词处理后,得到的词序列中包括的初始关键词有“我、最、喜欢、大狗”这四个关键词。
S103、根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定该待分析文本中的目标关键词。
在一种可实现的实施例中,可将该待分析文本对应的各初始关键词与关键词库中的各关键词进行匹配,得到属于该关键词库中的初始关键词,将与各初始关键词匹配的关键词对应的歧义先验概率作为各初始关键词的歧义先验概率。可将歧义先验概率小于该预设歧义先验概率的初始关键词作为该待分析文本的目标关键词,将大于该预设歧义先验概率的初始关键词排除,或者进行更深入的消歧处理,本申请不对其进行限定。
其中,该预设歧义先验概率可根据实际需要进行设置,本申请不对其进行限定,可以理解的是,该预设歧义先验概率越小,最终得到的目标关键词与该待分析文本的话题更匹配。
综上所述,本申请提供的文本的关键词提取方法中,可通过各关键词在各游戏所关联的样本文本中出现的频次以及在关联游戏中出现的频次,确定出关键词库中各关键词对应的歧义先验概率,该歧义先验概率用于表征关键词在游戏社区中出现歧义的可能性,基于各关键词对应的歧义先验概率,可将该待分析文本中的各处初始关键词与该关键词库中的关键词进行匹配,得到位于该关键词库中各初始关键词的歧义先验概率,最后可将歧义先验概率小于或等于预设歧义先验概率的初始关键词作为待分析文本中的目标关键词,这样可以使获取到的待分析文本中的目标关键词精确度得到提高。
图3为本申请实施例提供的另一种文本的关键词提取方法的流程示意图,如图3所示,可选地,所述根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率,包括:
S301、对各游戏所关联的样本文本进行分词处理,得到样本词序列。
其中,该样本词序列中包括多个关键词,该样本文本包括:该关联游戏涉及的文本,以及,该非关联游戏涉及的文本。
游戏社区包括多个子社区,每个子社区对应一个游戏(游戏类别/游戏标识)。根据实际需求,可选取游戏社区中各子社区Qk下玩家已经发表的预设数量的文本,将所选取的文本作为样本文本,当然,也可只选取游戏社区下预设数量个子社区Qk下玩家已经发表的预设数量的文本,其中,Qk可对应如图2所示关键词库中存储的游戏标识(游戏名称或者游戏对应的编号),需要说明的是,本申请不对子社区的个数以及样本文本的数量进行限定。将所选取的各子社区Qk所关联的各样本文本ti输入预先构建的分词模块中,该分词模块可对各子社区Qk所关联的各样本文本ti进行分词处理,得到各样本文本对应的样本词序列
Figure BDA0003357981650000181
其中,xn表示样本词序列中所包括的关键词,各子社区对应一个样本词序列集合。
需要说明的是,所选取的各子社区Qk中包括与游戏库中关键词关联的游戏标识对应的子社区,还包括与游戏库中关键词的游戏标识不对应的不子社区,从对应的子社区中所选取的样本文本即为关联游戏涉及的文本,从不对应的子社区中所选取的样本文本即为非关联游戏涉及的文本。
S302、从该样本词序列中筛选出属于该关键词库的关键词。
其中,可将样本词序列中的各关键词与关键词库中的各关键词进行匹配,筛选出样本词序列中属于关键词库中的关键词wi(wi=xi),后期主要计算这些关键词对应的歧义先验概率。
S303、根据各关键词在各游戏所关联的样本文本中出现的频次以及各游戏所关联的样本文本数量,得到各关键词在各游戏下出现的第一概率集合。
其中,该第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率。
在一种可实现的实施例中,可预先将各子社区对应的样本词序列集合中的各样本词序列中各关键词进行去重处理,该去重处理可以理解为一个关键词在一个样本文本中只能出现一次,在去重处理后,对各关键词在各子社区下出现的频次进行统计,得到各关键词在各游戏下出现的频次freq(xi,Qk),并且还可以统计出各子社区下对应的样本文本数量
Figure BDA0003357981650000191
将各关键词在各游戏下出现的频次freq(xi,Qk)与各子社区下对应的样本文本数量
Figure BDA0003357981650000192
的比值,作为各关键词在各子社区下可能出现的概率P(wi|Qk):
Figure BDA0003357981650000193
以关键词为维度进行说明,每个关键词对应有一个第一概率集合
Figure BDA0003357981650000194
Figure BDA0003357981650000195
其中,Qall={Qk:k=1,…,n}表示子社区集合,所选取的子社区的个数为n,第一概率集合
Figure BDA0003357981650000196
中对应有预设多个概率。
S304、从各关键词对应的第一概率集合中筛选关联游戏对应的概率,得到各关键词在各关联游戏下出现的第二概率集合。
S305、根据第一概率集合以及第二概率集合,确定各关键词的歧义先验概率。
其中,该第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个所关联游戏下出现的概率。
此处以一个关键词对应的第一概率集合为例进行说明,该关键词对应的第一概率集合中的概率包括该关键词在非关联游戏出现的概率以及关联游戏下出现的概率,将第一概率集合中属于关联游戏下出现的概率筛选出来,组合形成第二概率集合,也就是说,该第一概率集合包括该第二概率集合。类似的,最终可得到每个关键词在各关联游戏下出现的第二概率集合
Figure BDA0003357981650000201
Figure BDA0003357981650000202
表示关联社区(游戏)集合。
在第一概率集合以及第二概率集合确定后,可根据歧义先验概率与第一概率集合以及第二概率集合之间的关系,得到各关键词对应的歧义先验概率。
图4为本申请实施例提供的又一种文本的关键词提取方法的流程示意图,如图4所示,可选地,上述根据第一概率集合以及第二概率集合,确定各关键词的歧义先验概率,包括:
S401、确定第一概率集合中的第一最大概率以及第一最小概率。
S402、确定第二概率集合中的第一最大概率。
S403、根据第一概率集合中的第一最大概率和第一最小概率以及第二概率集合中的第一最大概率,确定各关键词的歧义先验概率。
其中,此处以一个关键词为例进行说明,可将该关键词的第一概率集合
Figure BDA0003357981650000203
中的各子社区对应的概率进行对比,确定出第一概率集合
Figure BDA0003357981650000204
中最大的概率
Figure BDA0003357981650000205
最小概率
Figure BDA0003357981650000206
将该最大概率作为该第一概率集合的第一最大概率,该最小概率作为该第一概率集合的第一最小概率。可将该关键词对应的第二集合
Figure BDA0003357981650000207
中的各关联子社区对应的概率进行对比,确定出第二概率集合
Figure BDA0003357981650000208
中最小的概率
Figure BDA0003357981650000209
将该最小概率作为该第二概率集合的最小概率,具体可按照下式得到该关键词对应的歧义先验概率
Figure BDA00033579816500002010
Figure BDA00033579816500002011
参考上述描述,最终可得到关键词库中每个关键词对应的歧义先验概率,可以理解的是,关键词的歧义先验概率越小,代表着关键词在游戏社区中出现歧义的可能性越小,关键词的歧义先验概率越大,代表着关键词在游戏社区中出现歧义的可能性越大。
可选地,该关键词库中的各关键词关联有游戏标识,上述根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词,包括:根据待分析文本所属的游戏标识以及该关键词库中各关键词对应的游戏标识,从各初始关键词中筛选出中间关键词,中间关键词对应的游戏标识与该待分析文本所属的游戏标识的标识一致;根据中间关键词的歧义先验概率以及预设歧义先验概率,确定该待分析文本中的目标关键词。
继续参考图2,该关键词库中包括各关键词关联的游戏标识,该游戏标识用于指示关键词所属的游戏类别。如图2所示,游戏标识可包括游戏A、游戏B、游戏C,以关键词“马妹”为例来说,关键词“马妹”所属的游戏标识为游戏B,也就是说,游戏B的角色名称“马妹”通常只出现在游戏B对应的子社区的文本中。
待分析文本属于游戏社区中某一特定子社区下的文本,即具有所属的游戏标识,如待分析文本所属的游戏标识为游戏B。在该待分析文本所属的游戏标识确定后,可从该关键词库中确定出与该待分析文本所属的游戏标识匹配的游戏标识关联的关键词,进而将各初始关键词与该匹配的游戏标识关联的关键词进行对比,从各初始关键词中筛选出属于该关键词库中的关键词,将该关键词称为中间关键词,可知该中间关键词属于该匹配的游戏标识关联的关键词。需要说明的是,本申请不对中间关键词的个数进行限定。
在中间关键词确定后,可将中间关键词的歧义先验概率与预设歧义先验概率进行比较,将歧义先验概率小于或定于预设歧义先验概率的中间关键词作为该待分析文本中的目标关键词。
可以理解的是,对于特定游戏相关的话题,玩家会在游戏社区中的特定子社区内进行讨论。通过将关键词库各关键词与游戏标识关联,这样可在获取特定子社区下文本中的目标关键词时,只需要与关键词库中特定子社区关联的关键词进行匹配,这样可以避免不同子社区关联的关键词在确定目标关键词时造成的干扰,最后仅将关联特定子社区的中间关键词的歧义先验概率与预设歧义先验概率进行对比,确定待分析文本中的目标关键词,这样也可以提高确定目标关键词的效率。
图5为本申请实施例提供的再一种文本的关键词提取方法的流程示意图,如图5所示,可选地,上述根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词,包括:
S501、从关键词库中筛选出歧义先验概率小于第一预设歧义先验概率的关键词,并生成筛选出的各关键词对应的映射向量。
其中,关键词库中的每个关键词对应有歧义先验概率,将各关键词对应的歧义先验概率分别与第一预设歧义先验概率进行比较,筛选出歧义先验概率小于或等于该第一预设歧义先验概率的关键词,最后仅将歧义先验概率小于或等于该第一预设歧义先验概率的关键词转换成向量表示形式。具体的,可将歧义先验概率小于或等于该第一预设歧义先验概率的各关键词输入预先训练得到的向量生成模型中,该向量生成模型可生成各关键词对应的映射向量。
可以看出的是,仅将歧义先验概率小于该第一预设歧义先验概率的关键词转换成向量表示形式。也就是说,仅将几乎不可能出现歧义的关键词的映射向量引入确定该待分析文本中的目标关键词的任务中,这样可以从整体上提高确定待分析文本中目标关键词的效率及精确度。
S502、将词序列输入预先训练得到的向量生成模型中,得到各初始关键词对应的语义向量。
其中,该向量生成模型具体可为ELMo(Embeddings from Language Models,语言模型的嵌入)模型,ELMo模型可根据每个词在句子中的上下文产生不同的向量,即关键词对应的语义向量用于表征该关键词在待分析文本中的上下文信息,当然,该向量生成模型也可为其他能够生成语义向量的模型,本申请不对其进行限定。将该待分析文本对应的词序列输入该向量生成模型中,该向量生成模型对该词序列进行语义分析,得到各关键词对应的语义向量。
通过将待分析文本对应的词序列输入向量生成模型中,这样可以使得到的语义向量可以更精确的表示关键词在待分析文本中的上下文信息。
S503、根据筛选出的各关键词对应的映射向量以及各候选关键词对应的语义向量,确定与筛选出的各关键词匹配的各候选关键词对应的平均向量。
其中,候选关键词用于指示歧义先验概率大于预设歧义先验概率的初始关键词。
可将各初始关键词对应的歧义先验概率与该预设歧义先验概率进行对比,将歧义先验概率小于或等于该预设歧义先验概率的初始关键词直接作为该待分析文本的目标关键词,将歧义先验概率大于该预设歧义先验概率的初始关键词作为候选关键词,将各候选关键词与筛选出的各关键词进行匹配,确定出与筛选出的各关键词匹配的候选关键,将匹配的候选关键词语义向量与对应的关键词的映射向量进行平均操作,将得到的平均向量作为匹配的候选关键词的向量。
举例来说,假设候选关键词1对应的语义向量为[0.1,0.2],筛选出的关键词为候选关键词1对应的映射向量为[0.3,0.4],则最后候选关键词1对应的平均向量为[0.2,0.3]。
S504、将各候选关键词对应的语义向量以及各候选关键词对应的平均向量进行相似度分析,得到各候选关键词与游戏领域的关联度。
S505、将各候选关键词与游戏领域的关联度和预设关联度进行对比,得到参考关键词集合。
其中,该参考关键词集合包括至少一个候选关键词,需要说明的是,本申请不对其进行限定。此处以一个候选关键词为例进行说明,该候选关键词可为上述提到的匹配的候选关键词,将该候选关键词对应的语义向量分别与各候选关键词对应的平均向量进行余弦相似度计算,得到多个相似度,举例来说,若有10个候选关键词对应的平均向量,那么该候选关键词对应有10个相似度,可根据实际需求选取预设多个相似度,根据选取的相似度可确定出该候选关键词与游戏领域的相似度,即该候选关键词与游戏领域的关联度。可根据上述描述,最终可得到各候选关键词与游戏领域的关联度,可以理解的是,候选关键词对应的关联度越高,表示候选关键词与游戏领域关联度越强,候选关键词对应的关联度越低,表示候选关键词与游戏领域关联度越弱。
将各候选关键词对应的关联度与预设关联度进行比较,将关联度小于该预设关联度的候选关键词剔除,将关联度大于该预设关联度的候选关键词组成该参考关键词集合。
可以看出,首先利用关键词的歧义先验概率对待分析文本中的关键词进行判断,得到候选关键词,然后再利用预先训练得到的向量生成模型生成的各候选关键词的语义向量对候选关键词进行消歧,确定出与游戏领域相关的候选关键词,一方面,这样可以提升确定待分析文本中目标关键词的效率,另一方面,可以使经过消歧后存在于参考关键词集合中的候选关键词在待分析文本中的语义与游戏领域相关,这样的候选关键词可以更精确的表征待分析文本想要表达的主题,从整体上提高确定待分析文本中目标关键词的效率和精确度。
在一种可实现的实施例中,可直接将该参考关键词集合中的各候选关键词作为该待分析文本中的目标关键词。
S506、根据参考关键词集合中的各候选关键词以及与待分析文本关联的各评论文本,确定该待分析文本中的目标关键词。
在游戏社区中,玩家所发表的待分析文本具有较强的互动性,具体可表现为,其他玩家可对该待分析文本进行评论、转发等行为,可根据该待分析文本关联的评论文本进一步对该待分析文本中的目标关键词进行确定。
具体的,可根据各候选关键词与各评论文本中的评论关键词,对各候选关键词对应的语义向量进行优化,进而根据各候选关键词优化后的语义向量确定出该待分析文本中的目标关键词。
上述参考关键词集合中的各候选关键词主要是基于该待分析文本自身所具备的特性确定的,再根据其他玩家对该待分析文本的评论中涉及的关键点,进一步从参考关键词集合中的各候选关键词确定出目标关键词,这样可以使得到的目标关键词与该待分析文本中的主题更匹配。
图6为本申请实施例提供的另一种文本的关键词提取方法的流程示意图,如图6所示,可选地,上述将各候选关键词对应的语义向量以及各候选关键词对应的平均向量进行相似度分析,得到各候选关键词与该游戏领域的关联度,包括:
S601、将各候选关键词对应的语义向量以及各候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量。
S602、根据各候选关键词对应的语义向量与目标语义向量之间的相似度,得到各候选关键词与该游戏领域的关联度。
其中,将每个候选关键词对应的语义向量分别与各候选关键词对应的平均向量进行余弦相似度分析。此处以一个候选关键词进行说明,可得到该候选关键词与每个平均向量对应的相似度,可根据预设条件(如选取最优的前8个相似度),那么可根据该候选关键词与每个平均向量对应的相似度,提取出前8个最大相似度对应的平均向量,将这些平均向量称为目标平均向量。
可将这8个相似度进行平均,将平均相似度作为该候选关键词与游戏领域的关联度,类似的,最后可得到各候选关键词分别与游戏领域的关联度。
图7为本申请实施例提供的又一种文本的关键词提取方法的流程示意图,如图7所示,可选地,上述根据参考关键词库集合的各候选关键词以及与待分析文本关联的各评论文本,确定待分析文本中的目标关键词,包括:
S701、分别对与待分析文本关联的各评论文本进行分词处理,得到各评论文本对应的评论词序列。
其中,评论词序列中包括多个评论关键词。在一种可实现的实施例中,可将收集到的该待分析文本下的评论文本集中的各评论文本进行筛选处理,筛除掉无意义的评论文本,如广告类的评论文本等,将该评论文本集中剩下的评论文本进行分词处理,具体的,可根据fastText(快速文本)分类模型,对各评论文本进行分类,剔除掉属于噪音评论的评论文本,这样在评论文本精确度提高的前提下,从整体上提升确定待分析文本中的目标关键词的效率以及精确度。
此处以一个评论文本为例进行说明,将该评论文本输入预先构建的分词模块中,该分析模块对该评论文本进行分词处理,得到该评论文本对应的评论词序列,该评论词序列中可包括多个评论关键词。类似的,可根据该分词模型,得到各评论文本对应的评论词序列。
S702、将根据关键词库以及评论词序列筛选出的各评论文本的目标评论关键词分别输入向量生成模型中,得到各评论文本的目标评论关键词对应的词向量。
在一种可实现的实施例中,以一个评论词序列来说,将该评论词序列中的各评论关键词与该关键词库中的关键词进行匹配,将位于该关键词库中的评论关键词作为目标评论关键词,将目标评论关键词输入该向量生成模型中,该向量生成模型将目标评论关键词转换为向量形式,即该向量生成模型输出各目标评论关键词对应的词向量,最终可得到各评论文本的目标评论关键词对应的词向量。
S703、根据参考关键词集合中的各候选关键词对应的语义向量,得到各候选关键词与所述待分析文本的相似度。
其中,该参考关键词集合中各候选关键词对应有语义向量,可将各该候选关键词对应的语义向量进行平均,得到平均向量,将该平均向量分别与各候选关键词对应的语义向量进行余弦相似度分析,进而可得到各候选关键词与该待分析文本的相似度。
S704、将各候选关键词对应的语义向量以及各评论文本的目标评论关键词对应的词向量进行相似度分析,确定各候选关键词对应的相似度集合。
其中,该相似度集合中包括多个相似度,每个相似度用于标识一个候选关键词与一个评论文本的目标评论关键词之间的相似性。
此处以一个候选关键词为例进行说明,将该候选关键词对应的语义向量分别与各评论文本的各目标评论关键词对应的词向量进行余弦相似度分析。举例来说,若评论文本为2个,每个评论文本对应的目标评论关键词为2个,那么该候选关键词对应的相似度集合中具有4个相似度。类似的,可根据上述描述方式,得到其他候选关键词对应的相似度集合。
可以理解的是,相似度越高,代表着该候选关键词与目标评论关键词的相似性越高,相反的,相似度越低,代表着该候选关键词与目标评论关键词的相似性越低。
S705、根据各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词。
将各候选关键词对应的相似度集合中的相似度进行比较和/或平均操作,得到相似度集合中的最小相似度、最大相似度和/或平均相似度。在一种可实现的实施例中,将各候选关键词对应的相似度集合中的最小相似度、最大相似度和/或平均相似度均作为第一向量,将各候选关键词与待分析文本的相似度作为第二向量,最后将各候选关键词对应的语义向量以及第一向量、第二向量进行拼接,将得到的拼接向量作为各候选关键词对应的向量,进而可根据二分类模型确定出该待分析文本中的目标关键词。
图8为本申请实施例提供的再一种文本的关键词提取方法的流程示意图,如图8所示,可选地,上述根据参考关键词集合中的各候选关键词对应的语义向量,得到各候选关键词与该待分析文本的相似度,包括:
S801、对各候选关键词对应的语义向量进行平均,得到待分析文本对应的文本向量。
S802、将各候选关键词对应的语义向量与该待分析文本对应的文本向量进行相似度分析,得到各候选关键词与该待分析文本的相似度。
其中,可将各候选关键词对应的语义向量中对应位置上的元素相加,将各位置上的相加结果与语义向量的个数之比作为待分析文本对应的文本向量中的元素。在该待分析文本对应的文本向量确定后,可将各候选关键词对应的语义向量与该待分析文本对应的文本向量进行余弦相似度计算,得到每个候选关键词与该待分析文本的相似度。
可选地,上述根据各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度以及各候选关键词对应的相似度集合,确定该待分析文本中的目标关键词,包括:确定各候选关键词对应的相似度集合中的最大相似度、最小相似度和/或平均相似度;根据各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度以及各候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定该待分析文本中的目标关键词。
其中,可对每个候选关键词与各评论文本的目标评论关键词进行相似度分析,得到各候选关键词对应的相似度集合。以一个候选关键词来说,该候选关键词对应的相似度集合中包括该候选关键词分别与各评论文本的目标评论关键词之间的相似度,可对相似度集合中的各相似度进行平均,得到该候选关键词对应平均相似度,进一步的,还可对相似度集合中的各相似度进行排序,得到该候选关键词对应的最大相似度、最小相似度。
将该候选关键词对应的语义向量、该候选关键词与该待分析文本的相似度、该候选关键词对应的最大相似度、最小相似度和/或平均相似度进行拼接,将得到的拼接向量作为该候选关键词的目标特征向量,根据该目标特征向量以及预先训练得到的二分类模型,确定该候选关键词是否为目标关键词。
可选地,上述根据各候选关键词对应的语义向量、各候选关键词与该待分析文本的相似度以及各候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定该待分析文本中的目标关键词,包括:
将各候选关键词对应的语义向量、各候选关键词与该待分析文本的相似度、各候选关键词分别在该待分析文本中的位置信息以及频次信息、各候选关键词对应的歧义先验概率、各候选关键词在各评论文本中出现的总频次以及各候选关键词对应的最大相似度、最小相似度以和/或平均相似度进行向量进行拼接,将拼接后的结果作为各候选关键词对应的目标向量;将各候选关键词对应的目标向量分别输入预先训练得到的二分类模型中,确定待分析文本中的目标关键词。
此处以一个候选关键词为例进行说明,可根据该候选关键词与该待分析文本的位置关系,得到该候选关键词在该待分析文本中的位置
Figure BDA0003357981650000311
还可统计出该候选关键词在该待分析文本中的频次
Figure BDA0003357981650000312
将该候选关键词对应的语义向量Vi、该候选关键词与该待分析文本的相似度
Figure BDA0003357981650000313
该候选关键词在该待分析文本中的位置
Figure BDA0003357981650000314
该候选关键词在该待分析文本中的频次
Figure BDA0003357981650000315
该候选关键词对应的歧义先验概率
Figure BDA0003357981650000316
该候选关键词在各评论文本集合中出现的总频次
Figure BDA0003357981650000317
该候选关键词对应的最大相似度
Figure BDA0003357981650000318
最小相似度
Figure BDA0003357981650000319
以和/或平均相似度
Figure BDA00033579816500003110
可按照下述顺序进行拼接,进而得到该候选关键词对应的目标向量:
Figure BDA00033579816500003111
需要说明的是,本申请不对拼接顺序进行限定,对同一个待分析文本来说,利用相同的拼接顺序。
将该目标向量输入该二分类模型中,该二分类模型可输出该目标向量对应的概率,将该目标向量对应的概率与预设概率进行比较,若该目标向量对应的概率大于该预设概率,则该目标向量对应的候选关键词作为目标关键词,若该目标向量对应的概率不大于该预设概率,则该目标向量对应的候选关键词从参考关键词集合中剔除。
可以理解的是,该目标向量对应的概率越大,该目标向量对应的候选关键词越有机会作为该待分析文本的目标关键词。可参考上述描述,可利用该二分类模型得到各候选关键词对应的概率,进而可得到该分析文本中的目标关键词。
此处将待分析文本的自身特征与其他玩家对该分析文本的评论特征(交互特征)相结合,得到各候选关键词对应的目标向量,可以理解的是,评论文本中的关键词往往能够体现待分析文本的主题,所以基于各候选关键词对应目标向量确定待分析文本中的目标关键词,这样可以提高确定目标关键词的精确度。
可选地,关键词库中各关键词关联有标准名,可参考图2,如关键词“马妹”对应的标准名为“马云禄”,若目标关键词为别名,那么可根据目标关键词关联的标准名对目标关键词进行标准化,这样可便于进行下游任务,如信息推荐。
可以看出,通过本申请上述实施例的方式,关键词库中各关键词与所属的游戏标识以及标准名相关联,这样在获取特定子社区下的待分析文本中的目标关键词时,只在特定子社区(游戏标识)关联的关键词中进行匹配,避免了不同子社区的关键词在生成目标关键词时互相干扰。另外,在最终将目标关键词输出时,通过关键词与标准名的关联将输出的目标关键词标准化,方便于下游任务的应用,如信息推荐人物。
通过将关键词的歧义先验概率和向量生成模型相结合,对候选关键词进行消歧,使最终得到的目标关键词在待分析文本中的语义是与游戏领域相关的。具体的,先首先用关键词歧义先验概率进行判断,对歧义先验概率大于预设歧义先验概率的,再进行消歧,这样节省了确定目标关键词的计算量,提升了确定目标关键词的效率。
将通过评论文本获取其他玩家针对该待分析文本的关注点特征与该待分析文本自身的特征进行融合,确定各候选关键词的目标向量,这样可以提高确定待分析文本中目标关键词的精确度。
图9为本申请实施例提供的一种文本的关键词提取装置的结构示意图。如图9所示,该装置包括:
第一确定模块901,用于根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各关键词的歧义先验概率;
分词模块902,用于对待分析文本进行分词处理,得到词序列,该词序列中包括多个初始关键词;
第二确定模块903,用于根据各初始关键词的歧义先验概率以及预设歧义先验概率,确定该待分析文本中的目标关键词。
可选地,第一确定模块901,具体用于对各游戏所关联的样本文本进行分词处理,得到样本词序列,样本词序列中包括多个关键词,样本文本包括:关联游戏涉及的文本,以及,非关联游戏涉及的文本;从样本词序列中筛选出属于关键词库的关键词;根据各关键词在各游戏所关联的样本文本中出现的频次以及各游戏所关联的样本文本数量,得到各关键词在各游戏下出现的第一概率集合,第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率;从各关键词对应的第一概率集合中筛选关联游戏对应的概率,得到各关键词在各关联游戏下出现的第二概率集合,第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个关联游戏下出现的概率;根据第一概率集合以及第二概率集合,确定各关键词的歧义先验概率。
可选地,第一确定模块901,还具体用于确定第一概率集合中的第一最大概率以及第一最小概率;确定第二概率集合中的第一最大概率;根据第一概率集合中的第一最大概率和第一最小概率以及第二概率集合中的第一最大概率,确定各关键词的歧义先验概率。
可选地,该关键词库中的各关键词关联有游戏标识;相应地,第二确定模块,还用于根据待分析文本所属的游戏标识以及关键词库中各关键词对应的游戏标识,从各初始关键词中筛选出中间关键词,中间关键词对应的游戏标识与待分析文本所属的游戏标识的标识一致;根据中间关键词的歧义先验概率以及预设歧义先验概率,确定待分析文本中的目标关键词。
可选地,第二确定模块902,具体用于从关键词库中筛选出歧义先验概率小于第一预设歧义先验概率的关键词,并生成筛选出的各关键词对应的映射向量;将词序列输入预先训练得到的向量生成模型中,得到各初始关键词对应的语义向量;根据筛选出的各关键词对应的映射向量以及各候选关键词对应的语义向量,确定与筛选出的各关键词匹配的各候选关键词对应的平均向量,候选关键词用于指示歧义先验概率大于预设歧义先验概率的初始关键词;将各候选关键词对应的语义向量以及各候选关键词对应的平均向量进行相似度分析,得到各候选关键词与游戏领域的关联度;将各候选关键词与游戏领域的关联度和预设关联度进行对比,得到参考关键词集合,参考关键词集合包括至少一个候选关键词;根据参考关键词集合中的各候选关键词以及与待分析文本关联的各评论文本,确定待分析文本中的目标关键词。
可选地,第二确定模块902,还具体用于将各候选关键词对应的语义向量以及各候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量;根据各候选关键词对应的语义向量与目标语义向量之间的相似度,得到各候选关键词与游戏领域的关联度。
可选地,第二确定模块902,还具体用于分别对与待分析文本关联的各评论文本进行分词处理,得到各评论文本对应的评论词序列,评论词序列中包括多个评论关键词;将根据关键词库以及评论词序列筛选出的各评论文本的目标评论关键词分别输入向量生成模型中,得到各评论文本的目标评论关键词对应的词向量;根据参考关键词集合中的各候选关键词对应的语义向量,得到各候选关键词与待分析文本的相似度;将各候选关键词对应的语义向量以及各评论文本的目标评论关键词对应的词向量进行相似度分析,确定各候选关键词对应的相似度集合,相似度集合中包括多个相似度,每个相似度用于标识一个候选关键词与一个评论文本的目标评论关键词之间的相似性;根据各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度以及各候选关键词对应的相似度集合,确定待分析文本中的目标关键词。
可选地,第二确定模块902,还具体用于对各候选关键词对应的语义向量进行平均,得到待分析文本对应的文本向量;将各候选关键词对应的语义向量与待分析文本对应的文本向量进行相似度分析,得到各候选关键词与待分析文本的相似度。
可选地,第二确定模块902,还具体用于确定各候选关键词对应的相似度集合中的最大相似度、最小相似度和/或平均相似度;根据各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度以及各候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定待分析文本中的目标关键词。
可选地,第二确定模块902,还具体用于将各候选关键词对应的语义向量、各候选关键词与待分析文本的相似度、各候选关键词分别在待分析文本中的位置信息以及频次信息、各候选关键词对应的歧义先验概率、各候选关键词在各评论文本中出现的总频次以及各候选关键词对应的最大相似度、最小相似度以和/或平均相似度进行向量进行拼接,将拼接后的结果作为各候选关键词对应的目标向量;将各候选关键词对应的目标向量分别输入预先训练得到的二分类模型中,确定待分析文本中的目标关键词。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图10为本申请实施例提供的一种电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器1001、存储介质1002和总线1003,存储介质1002存储有处理器1001可执行的机器可读指令,当该电子设备运行时,处理器1001与存储介质1002之间通过总线1003通信,处理器1001执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种文本的关键词提取方法,其特征在于,所述方法包括:
根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,所述歧义先验概率用于指示关键词出现歧义的可能性,所述关键词库中的关键词包括游戏领域相关实体的标准名以及别名,所述游戏包括:与所述关键词关联的关联游戏以及不与所述关键词关联的非关联游戏;
对待分析文本进行分词处理,得到词序列,所述词序列中包括多个初始关键词;
根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,包括:
对各所述游戏所关联的样本文本进行分词处理,得到样本词序列,所述样本词序列中包括多个关键词,所述样本文本包括:所述关联游戏涉及的文本,以及,所述非关联游戏涉及的文本;
从所述样本词序列中筛选出属于所述关键词库的关键词;
根据各所述关键词在各所述游戏所关联的样本文本中出现的频次以及各所述游戏所关联的样本文本数量,得到各所述关键词在各所述游戏下出现的第一概率集合,所述第一概率集合中包括多个概率,每个概率用于标识一个关键词在一个游戏下出现的概率;
从各所述关键词对应的所述第一概率集合中筛选所述关联游戏对应的概率,得到各所述关键词在各所述关联游戏下出现的第二概率集合,所述第二概率集合中包括多个概率,每个概率用于标识一个关键词在一个所述关联游戏下出现的概率;
根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一概率集合以及所述第二概率集合,确定各所述关键词的歧义先验概率,包括:
确定所述第一概率集合中的第一最大概率以及第一最小概率;
确定所述第二概率集合中的第一最大概率;
根据所述第一概率集合中的第一最大概率和第一最小概率以及所述第二概率集合中的第一最大概率,确定各所述关键词的歧义先验概率。
4.根据权利要求1所述的方法,其特征在于,所述关键词库中的各所述关键词关联有游戏标识,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:
根据所述待分析文本所属的游戏标识以及所述关键词库中各所述关键词对应的游戏标识,从各所述初始关键词中筛选出中间关键词,所述中间关键词对应的游戏标识与所述待分析文本所属的游戏标识的标识一致;
根据所述中间关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词,包括:
从所述关键词库中筛选出歧义先验概率小于第一预设歧义先验概率的关键词,并生成筛选出的各所述关键词对应的映射向量;
将所述词序列输入预先训练得到的向量生成模型中,得到各所述初始关键词对应的语义向量;
根据所述筛选出的各所述关键词对应的映射向量以及各候选关键词对应的语义向量,确定与所述筛选出的各所述关键词匹配的各所述候选关键词对应的平均向量,所述候选关键词用于指示歧义先验概率大于所述预设歧义先验概率的初始关键词;
将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度;
将各所述候选关键词与所述游戏领域的关联度和预设关联度进行对比,得到参考关键词集合,所述参考关键词集合包括至少一个候选关键词;
根据所述参考关键词集合中的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词。
6.根据权利要求5所述的方法,其特征在于,所述将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到各所述候选关键词与所述游戏领域的关联度,包括:
将各所述候选关键词对应的语义向量以及各所述候选关键词对应的平均向量进行相似度分析,得到相似度满足预设条件的目标平均向量;
根据各所述候选关键词对应的语义向量与所述目标语义向量之间的相似度,得到各所述候选关键词与所述游戏领域的关联度。
7.根据权利要求5所述的方法,其特征在于,所述根据所述参考关键词集合的各所述候选关键词以及与所述待分析文本关联的各评论文本,确定所述待分析文本中的目标关键词,包括:
分别对与所述待分析文本关联的各评论文本进行分词处理,得到各所述评论文本对应的评论词序列,所述评论词序列中包括多个评论关键词;
将根据所述关键词库以及所述评论词序列筛选出的各所述评论文本的目标评论关键词分别输入所述向量生成模型中,得到各所述评论文本的所述目标评论关键词对应的词向量;
根据所述参考关键词集合中的各所述候选关键词对应的语义向量,得到各所述候选关键词与所述待分析文本的相似度;
将各所述候选关键词对应的语义向量以及各所述评论文本的所述目标评论关键词对应的词向量进行相似度分析,确定各所述候选关键词对应的相似度集合,所述相似度集合中包括多个相似度,每个相似度用于标识一个候选关键词与一个评论文本的所述目标评论关键词之间的相似性;
根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词。
8.根据权利要求7所述的方法,其特征在于,所述根据所述参考关键词集合中的各所述候选关键词对应的语义向量,得到各所述候选关键词与所述待分析文本的相似度,包括:
对各所述候选关键词对应的语义向量进行平均,得到所述待分析文本对应的文本向量;
将各所述候选关键词对应的语义向量与所述待分析文本对应的文本向量进行相似度分析,得到各所述候选关键词与所述待分析文本的相似度。
9.根据权利要求7所述的方法,其特征在于,所述根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的相似度集合,确定所述待分析文本中的目标关键词,包括:
确定各所述候选关键词对应的相似度集合中的最大相似度、最小相似度和/或平均相似度;
根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定所述待分析文本中的目标关键词。
10.根据权利要求9所述的方法,其特征在于,所述根据各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度,确定所述待分析文本中的目标关键词,包括:
将各所述候选关键词对应的语义向量、各所述候选关键词与所述待分析文本的相似度、各所述候选关键词分别在所述待分析文本中的位置信息以及频次信息、各所述候选关键词对应的歧义先验概率、各所述候选关键词在各所述评论文本中出现的总频次以及各所述候选关键词对应的最大相似度、最小相似度以和/或平均相似度进行向量进行拼接,将拼接后的结果作为各所述候选关键词对应的目标向量;
将各所述候选关键词对应的目标向量分别输入预先训练得到的二分类模型中,确定所述待分析文本中的目标关键词。
11.一种文本的关键词提取装置,其特征至于,所述装置包括:
第一确定模块,用于根据预先构建的关键词库中各关键词在各游戏所关联的样本文本中出现的频次,确定各所述关键词的歧义先验概率,所述歧义先验概率用于指示关键词出现歧义的可能性,所述关键词库中的关键词包括游戏领域相关实体的标准名以及别名,所述游戏包括:与所述关键词关联的关联游戏以及不与所述关键词关联的非关联游戏;
分词模块,用于对待分析文本进行分词处理,得到词序列,所述词序列中包括多个初始关键词;
第二确定模块,用于根据各所述初始关键词的歧义先验概率以及预设歧义先验概率,确定所述待分析文本中的目标关键词。
12.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-10任一项所述文本的关键词提取方法的步骤。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-10任一项所述文本的关键词提取方法的步骤。
CN202111357847.1A 2021-11-16 2021-11-16 文本的关键词提取方法、装置、设备及存储介质 Pending CN114020876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111357847.1A CN114020876A (zh) 2021-11-16 2021-11-16 文本的关键词提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111357847.1A CN114020876A (zh) 2021-11-16 2021-11-16 文本的关键词提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114020876A true CN114020876A (zh) 2022-02-08

Family

ID=80064876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111357847.1A Pending CN114020876A (zh) 2021-11-16 2021-11-16 文本的关键词提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114020876A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662474A (zh) * 2022-04-13 2022-06-24 马上消费金融股份有限公司 关键词的确定方法、装置、电子设备及存储介质
CN114741468A (zh) * 2022-03-22 2022-07-12 平安科技(深圳)有限公司 文本去重方法、装置、设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN116756267A (zh) * 2022-03-03 2023-09-15 中国科学院空天信息创新研究院 事件时序关系识别方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756267A (zh) * 2022-03-03 2023-09-15 中国科学院空天信息创新研究院 事件时序关系识别方法、装置、设备及介质
CN114741468A (zh) * 2022-03-22 2022-07-12 平安科技(深圳)有限公司 文本去重方法、装置、设备及存储介质
CN114741468B (zh) * 2022-03-22 2024-03-29 平安科技(深圳)有限公司 文本去重方法、装置、设备及存储介质
CN114662474A (zh) * 2022-04-13 2022-06-24 马上消费金融股份有限公司 关键词的确定方法、装置、电子设备及存储介质
CN114662474B (zh) * 2022-04-13 2024-06-11 马上消费金融股份有限公司 关键词的确定方法、装置、电子设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN114020876A (zh) 文本的关键词提取方法、装置、设备及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN101477544B (zh) 一种识别垃圾文本的方法和系统
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
US20130018650A1 (en) Selection of Language Model Training Data
CN111079412A (zh) 文本纠错方法及装置
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN108228845B (zh) 一种手机游戏分类方法
Molino et al. Cota: Improving the speed and accuracy of customer support through ranking and deep networks
CN113849598B (zh) 基于深度学习的社交媒体虚假信息检测方法及检测系统
Cecillon et al. Abusive language detection in online conversations by combining content-and graph-based features
CN103425686B (zh) 一种信息发布方法和装置
CN111737464B (zh) 文本分类方法、装置和电子设备
CN111125360A (zh) 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN111914554B (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN109446393A (zh) 一种网络社区话题分类方法及装置
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN116503127A (zh) 模型训练方法、检索方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination