CN108133045B - 关键词提取方法与系统、关键词提取模型生成方法与系统 - Google Patents

关键词提取方法与系统、关键词提取模型生成方法与系统 Download PDF

Info

Publication number
CN108133045B
CN108133045B CN201810033585.5A CN201810033585A CN108133045B CN 108133045 B CN108133045 B CN 108133045B CN 201810033585 A CN201810033585 A CN 201810033585A CN 108133045 B CN108133045 B CN 108133045B
Authority
CN
China
Prior art keywords
word
text
cluster
standard
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810033585.5A
Other languages
English (en)
Other versions
CN108133045A (zh
Inventor
英高海
朱德明
李坤
李冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201810033585.5A priority Critical patent/CN108133045B/zh
Publication of CN108133045A publication Critical patent/CN108133045A/zh
Application granted granted Critical
Publication of CN108133045B publication Critical patent/CN108133045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种关键词提取方法,包括:对待提取文本进行分词预处理,将若干分词结果中的词语转化为词向量;根据聚类算法将所有词向量划分为预设数量的类簇;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,并输入预设的关键词提取模型,以得到类簇的标准关键词的词向量;将与类簇的标准关键词的词向量相似度最高的词向量所对应的词语,确定为类簇的关键词,以提取待提取文本的关键词;关键词提取模型为通过第一文本语料库中的每一类簇的类簇向量作为输入,以及标准关键词的词向量作为输出训练深度神经网络模型所生成。同时本发明还提供一种关键词提取系统、关键词提取模型生成方法与系统。采用本发明实施例,能够提高关键词提取的效率。

Description

关键词提取方法与系统、关键词提取模型生成方法与系统
技术领域
本发明涉及人工智能领域,尤其涉及关键词提取方法与系统、关键词提取模型生成方法与系统。
背景技术
关键词提取,又称主题词提取,其是自然语言处理中一个技术难度较大的领域,目前,现有的关键词提取方法主要有TF-IDF(term frequency-inverse documentfrequency,词频与逆文档法)、textrank算法等。
本发明人在实施本发明的过程中发现,现有技术至少存在以下缺点:
现有技术提供的关键词提取方法主要从语法和词频层面考察关键词的分布状况,而忽略了关键词对文本中心思想在语义层面的概括意义,因此,其提取的关键词客观性不高,难有说服力。
发明内容
本发明实施例提出关键词提取方法与系统、关键词提取模型生成方法与系统,能够提高关键词提取的客观性和准确性。
本发明一方面提供一种关键词提取方法,所述方法包括:
对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
分别将所述若干分词结果中的词语转化为词向量;
根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成;
分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。
在一种可选的实施方式中,所述将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量最相似的词向量所对应的词语,确定为所述任一类簇的关键词,包括:
分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离;其中,所述距离为余弦距离或欧式距离;
将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语,确定为所述任一类簇的关键词。
在一种可选的实施方式中,所述对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果,包括:
根据预设的词典对所述待提取文本进行分词,以得到若干初步分词结果;
根据预设的停用词表对所述若干初步分词结果进行去停用词,以得到所述待提取文本的若干分词结果。
在一种可选的实施方式中,所述方法还包括:
响应于所述关键词提取模型的生成指令,对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
分别将所述标准文本的若干分词结果中的词语转化为词向量;
根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述标准文本中任一类簇的类簇向量;
通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成所述关键词提取模型。
在一种可选的实施方式中,所述分别将所述若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
在一种可选的实施方式中,所述分别将所述若干分词结果中的词语转化为词向量,包括:
将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量;
所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。
本发明另一方面还提供一种关键词提取模型生成方法,所述生成方法包括:
对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
分别将所述标准文本的若干分词结果中的词语转化为词向量;
根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型,以生成关键词提取模型。
在一种可选的实施方式中,所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
本发明另一方面还提供一种关键词提取系统,所述系统包括:
第一预处理模块,用于对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
第一转换模块,用于分别将所述若干分词结果中的词语转化为词向量;
第一聚类模块,用于根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
第一相加模块,用于将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
第一输入模块,用于将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成;
关键词确定模块,用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
提取模块,用于根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。
本发明另一方面还提供一种关键词提取模型生成系统,所述生成系统包括:
第二预处理模块,用于对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
第二转换模块,用于分别将所述标准文本的若干分词结果中的词语转化为词向量;
第二划分模块,用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
第一匹配模块,用于对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
第二相加模块,用于将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
训练模块,用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型,以生成关键词提取模型。
相对于现有技术,本发明具有如下突出的有益效果:本发明提供了一种关键词提取方法与系统、关键词提取模型生成方法与系统,其中,所述方法通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷,使得该方法提取的关键词是从语义层面获取的,而不是单纯从语法层面获取;通过聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇,即认为每个类簇包含一个关键词;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,使得类簇向量包含了所有词向量之间的空间关系;将类簇的类簇向量输入预设的关键词提取模型,以得到类簇的标准关键词的词向量,即通过预先搭建的深度神经网络模型对每个类簇进行建模所生成的关键词提取模型获取类簇的标准关键词,通过所有词向量中与类簇的标准关键词的词向量最相似的词向量所对应的词语作为类簇的关键词,从而实现对类簇的关键词的词向量的提取,充分考虑了文本词语之间的语义依赖关系,使得关键词的提取不受限于待提取文本所属领域,具有较强的通用性,克服了传统方法往往只针对特定领域文本的问题,从而通过聚类算法与深度神经网络算法的结合,克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性,提高关键词提取的准确性和客观性。
附图说明
图1是本发明提供的关键词提取方法的第一实施例的流程示意图;
图2是本发明提供的关键词提取系统的第一实施例的结构示意图;
图3是本发明提供的关键词提取模型生成方法的第一实施例的流程示意图;
图4是本发明提供的关键词提取模型生成系统的第一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其是本发明提供的关键词提取方法的第一实施例的流程示意图,如图1所示,所述方法包括:
步骤S101、对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
步骤S102、分别将所述若干分词结果中的词语转化为词向量;
步骤S103、根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
步骤S104、将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
步骤S105、将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成;
步骤S106、分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
步骤S107、根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。
需要说明的是,所述标准关键词为所述标准文本中根据人工制定的标准所确定的关键词。所述第一文本语料库包括大量文本数据。
例如,假设所述预设数量为3;根据聚类算法将所述待提取文本的所有词向量划分为3个类簇,则每个类簇包括多个词向量;假设第一个类簇包括词向量1(a1,a2,a3)和词向量2(b1,b2,b3),则类簇的类簇向量为(a1+b1,a2+b2,a3+b3);需要说明的是,所述预设数量、类簇包括的词向量个数和词向量的维度仅为示例,本发明不限于该种实施方式。
即通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷,使得该方法提取的关键词是从语义层面获取的,而不是单纯从语法层面获取;通过聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇,即认为每个类簇包含一个关键词;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,使得类簇向量包含了所有词向量之间的空间关系;将类簇的类簇向量输入预设的关键词提取模型,以得到类簇的标准关键词的词向量,即通过预先搭建的深度神经网络模型对每个类簇进行建模所生成的关键词提取模型获取类簇的标准关键词,通过所有词向量中与类簇的标准关键词的词向量最相似的词向量所对应的词语作为类簇的关键词,从而实现对类簇的关键词的词向量的提取,充分考虑了文本词语之间的语义依赖关系,使得关键词的提取不受限于待提取文本所属领域,具有较强的通用性,克服了传统方法往往只针对特定领域文本的问题,从而通过聚类算法与深度神经网络算法的结合,克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性,提高关键词提取的准确性和客观性。
在一种可选的实施方式中,所述第一文本语料库包括目标领域的大量文本数据;其中,所述目标领域为所述待提取文本所属领域。
在一种可选的实施方式中,所述第一文本语料库的文本数据为目标领域的文本数据。
在一种可选的实施方式中,所述聚类算法为k-means聚类算法。
本发明还提供了一种关键词提取方法的第二实施例,所述方法包括上述关键词提取方法的第一实施例中的步骤S101~S107,还进一步限定了:所述将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量最相似的词向量所对应的词语,确定为所述任一类簇的关键词,包括:
分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离;其中,所述距离为余弦距离或欧式距离;
将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语,确定为所述任一类簇的关键词。
需要说明的是,余弦距离,又称为余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。欧氏距离(欧几里得度量,euclidean metric)是一个常用的距离定义,是指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
即通过向量空间中不同点之间的距离大小来衡量待提取文本的词语与标准关键词之间的相似度,距离越小,词语与标准关键词越相似,简化相似度的计算方法,提高处理效率。
本发明还提供了一种关键词提取方法的第三实施例,所述方法包括上述关键词提取方法的第一实施例中的步骤S101~S107,还进一步限定了,所述对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果,包括:
根据预设的词典对所述待提取文本进行分词,以得到若干初步分词结果;
根据预设的停用词表对所述若干初步分词结果进行去停用词,以得到所述待提取文本的若干分词结果。
需要说明的是,所述停用词表包括若干不具有实质性语义的词语,比如“的”、“了”等);如果所述若干初步分词结果中包括与停用词表相同的词,则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
在一种可选的实施方式中,所述词典包括现有词典中的词汇和用户自定义词汇。
本发明还提供了一种关键词提取方法的第四实施例,所述方法包括上述关键词提取方法的第一实施例中的步骤S101~S107,还进一步限定了:所述方法还包括:
响应于所述关键词提取模型的生成指令,对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
分别将所述标准文本的若干分词结果中的词语转化为词向量;
根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述标准文本中任一类簇的类簇向量;
通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成所述关键词提取模型。
即通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷,使得该方法提取的关键词是从语义层面获取的,而不是单纯从语法层面获取;通过聚类算法将每一标准文本的所有词向量划分为标准数量的类簇,即认为每个类簇包含一个标准关键词;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,使得类簇向量包含了所有词向量之间的语义依赖关系;通过第一文本语料库的每一标准文本的类簇的类簇向量与对应的类簇的标准关键词来训练深度神经网络,从而生成关键词提取模型,使得关键词的提取不受限于文本所属领域,具有较强的通用性,克服了传统方法往往只针对特定领域文本的问题,从而通过聚类算法与深度神经网络算法的结合,克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性,从而提高关键词提取的准确性和客观性。
在一种可选的实施方式中,所述响应于所述关键词提取模型的生成指令,对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果,包括:
根据预设的词典对所述标准文本进行分词,以得到所述标准文本的若干初步分词结果;
根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词,以得到所述标准文本的若干分词结果。
在一种可选的实施方式中,对所述标准文本进行分词所采用的词典与对所述待提取文本进行分词所采用的词典相同;对所述标准文本进行去停用词所采用的停用词表与对所述待提取文本进行去停用词所采用的停用词表相同。
本发明还提供了一种关键词提取方法的第五实施例,所述方法包括上述关键词提取方法的任一实施例中的步骤S101~S107,还进一步限定了:所述分别将所述若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
需要说明的是,所述第二文本语料库包括大量文本数据;所述第二文本语料库的文本数据具有多种文本类型。
在一种可选的实施方式中,所述第二文本语料库包括目标领域的大量文本数据。其中,所述目标领域为所述待提取文本所属领域。
在一种可选的实施方式中,所述第二文本语料库的文本数据为目标领域的文本数据。
本发明还提供了一种关键词提取方法的第六实施例,所述方法包括上述关键词提取方法的第四实施例中的步骤S101~S107,还进一步限定了:所述分别将所述若干分词结果中的词语转化为词向量,包括:
将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量;
所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。
即通过保证待提取文本的词向量与标准文本的词向量维度相同,避免对维度不同的词向量进行处理,从而提高处理效率。
参见图2,其是本发明提供的关键词提取系统的第一实施例的结构示意图,如图2所示,所述系统包括:
第一预处理模块201,用于对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
第一转换模块202,用于分别将所述若干分词结果中的词语转化为词向量;
第一聚类模块203,用于根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
第一相加模块204,用于将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
第一输入模块205,用于将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;
关键词确定模块206,用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
提取模块207,用于根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词;
其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成。
在一种可选的实施方式中,所述关键词确定模块包括:
计算单元,用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离;其中,所述距离为余弦距离或欧式距离;
确定单元,用于将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语,确定为所述任一类簇的关键词。
在一种可选的实施方式中,所述第一预处理模块包括:
第一分词单元,用于根据预设的词典对所述待提取文本进行分词,以得到若干初步分词结果;
第一去停用词单元,用于根据预设的停用词表对所述若干初步分词结果进行去停用词,以得到所述待提取文本的若干分词结果。
在一种可选的实施方式中,所述系统还包括:
第三预处理模块,用于响应于所述关键词提取模型的生成指令,对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
第三转化模块,用于分别将所述标准文本的若干分词结果中的词语转化为词向量;
第三聚类模块,用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
第二匹配模块,用于对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
第三相加模块,用于将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述标准文本中任一类簇的类簇向量;
第二训练模块,用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成所述关键词提取模型。
在一种可选的实施方式中,所述第三预处理模块包括:
第二分词单元,用于根据预设的词典对所述标准文本进行分词,以得到所述标准文本的若干初步分词结果;
第二去停用词单元,用于根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词,以得到所述标准文本的若干分词结果。
在一种可选的实施方式中,对所述标准文本进行分词所采用的词典与对所述待提取文本进行分词所采用的词典相同;对所述标准文本进行去停用词所采用的停用词表与对所述待提取文本进行去停用词所采用的停用词表相同。
在一种可选的实施方式中,所述第三转化模块包括:
第一转化单元,用于通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述系统还包括:
第一获取模块,用于响应于所述词向量模型的获取指令,获取第二文本语料库;
第四预处理模块,用于对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
第一训练模块,用于通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
在一种可选的实施方式中,所述第一转化模块包括:
第二转化单元,用于将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量;
所述第三转化模块包括:
第三转化单元,用于将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。
参见图3,其是本发明提供的关键词提取模型生成方法的第一实施例的流程示意图,如图3所示,所述生成方法包括:
步骤S301、对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
步骤S302、分别将所述标准文本的若干分词结果中的词语转化为词向量;
步骤S303、根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
步骤S304、对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
步骤S305、将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
步骤S306、通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成关键词提取模型。
需要说明的是,所述标准关键词为所述标准文本中根据人工制定的标准所确定的关键词。
即通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷,使得该方法提取的关键词是从语义层面获取的,而不是单纯从语法层面获取;通过聚类算法将每一标准文本的所有词向量划分为标准数量的类簇,即认为每个类簇包含一个标准关键词;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,使得类簇向量包含了所有词向量的空间关系;通过第一文本语料库的每一标准文本的类簇的类簇向量与对应的类簇的标准关键词来训练深度神经网络,从而生成关键词提取模型,充分考虑了文本词语之间的语义依赖关系,使得关键词的提取不受限于文本所属领域,具有较强的通用性,克服了传统方法往往只针对特定领域文本的问题,从而通过聚类算法与深度神经网络算法的结合,克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性,利于提高关键词提取的准确性和客观性。
本发明还提供了一种关键词提取模型生成方法的第二实施例,所述方法包括上述关键词提取模型生成方法的第一实施例中的步骤S301~S306,还进一步限定了:所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
需要说明的是,所述第二文本语料库包括大量文本数据;所述第二文本语料库的文本数据具有多种文本类型。
在一种可选的实施方式中,所述对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果,包括:
根据预设的词典对所述标准文本进行分词,以得到所述标准文本的若干初步分词结果;
根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词,以得到所述标准文本的若干分词结果。
参见图4,其是本发明提供的关键词提取模型生成系统的第一实施例的结构示意图,如图4所示,所述生成系统包括:
第二预处理模块401,用于对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
第二转换模块402,用于分别将所述标准文本的若干分词结果中的词语转化为词向量;
第二划分模块403,用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
第一匹配模块404,用于对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
第二相加模块405,用于将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
训练模块406,用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成关键词提取模型。
在一种可选的实施方式中,所述第二转换模块包括:
第四转化单元,用于通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述系统还包括:
第二获取模块,用于响应于所述词向量模型的获取指令,获取第二文本语料库;
第五预处理模块,用于对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
第三训练模块,用于通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
在一种可选的实施方式中,所述第二预处理模块包括:
第三分词单元,用于根据预设的词典对所述标准文本进行分词,以得到所述标准文本的若干初步分词结果;
第三去停用词单元,用于根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词,以得到所述标准文本的若干分词结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
需说明的是,以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
分别将所述若干分词结果中的词语转化为词向量;
根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成;
分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。
2.如权利要求1所述的关键词提取方法,其特征在于,所述分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词,包括:
分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离;其中,所述距离为余弦距离或欧式距离;
将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语,确定为所述任一类簇的关键词。
3.如权利要求1所述的关键词提取方法,其特征在于,所述对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果,包括:
根据预设的词典对所述待提取文本进行分词,以得到若干初步分词结果;
根据预设的停用词表对所述若干初步分词结果进行去停用词,以得到所述待提取文本的若干分词结果。
4.如权利要求1所述的关键词提取方法,其特征在于,所述方法还包括:
响应于所述关键词提取模型的生成指令,对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
分别将所述标准文本的若干分词结果中的词语转化为词向量;
根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述标准文本中任一类簇的类簇向量;
通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型,以生成所述关键词提取模型。
5.如权利要求1-4任一项所述的关键词提取方法,其特征在于,所述分别将所述若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
6.如权利要求4所述的关键词提取方法,其特征在于,所述分别将所述若干分词结果中的词语转化为词向量,包括:
将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量;
所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。
7.一种关键词提取模型生成方法,其特征在于,包括:
对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
分别将所述标准文本的若干分词结果中的词语转化为词向量;
根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型,以生成关键词提取模型。
8.如权利要求7所述的关键词提取模型生成方法,其特征在于,所述分别将所述标准文本的若干分词结果中的词语转化为词向量,包括:
通过预先获取的词向量模型将所述分词结果中的词语转化为词向量;
所述方法还包括:
响应于所述词向量模型的获取指令,获取第二文本语料库;
对所述第二文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练,以得到所述词向量模型。
9.一种关键词提取系统,其特征在于,包括:
第一预处理模块,用于对待提取文本进行分词预处理,以得到所述待提取文本的若干分词结果;
第一转换模块,用于分别将所述若干分词结果中的词语转化为词向量;
第一聚类模块,用于根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇;
第一相加模块,用于将所述待提取文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
第一输入模块,用于将所述任一类簇的类簇向量输入预设的关键词提取模型,以得到所述任一类簇的标准关键词的词向量;其中,所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入,以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成;
关键词确定模块,用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度,并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词;
提取模块,用于根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。
10.一种关键词提取模型生成系统,其特征在于,包括:
第二预处理模块,用于对第一文本语料库中的每一标准文本的进行分词预处理,以得到每一标准文本的若干分词结果;
第二转换模块,用于分别将所述标准文本的若干分词结果中的词语转化为词向量;
第二划分模块,用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇;其中,所述标准数量为所述标准文本中的标准关键词的数量;
第一匹配模块,用于对于所述标准文本的每一标准关键词,确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇,作为所述对应的标准关键词的词向量所属类簇;
第二相加模块,用于将所述标准文本中任一类簇包含的所有词向量进行相加,作为所述任一类簇的类簇向量;
训练模块,用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型,以生成关键词提取模型。
CN201810033585.5A 2018-01-12 2018-01-12 关键词提取方法与系统、关键词提取模型生成方法与系统 Active CN108133045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810033585.5A CN108133045B (zh) 2018-01-12 2018-01-12 关键词提取方法与系统、关键词提取模型生成方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810033585.5A CN108133045B (zh) 2018-01-12 2018-01-12 关键词提取方法与系统、关键词提取模型生成方法与系统

Publications (2)

Publication Number Publication Date
CN108133045A CN108133045A (zh) 2018-06-08
CN108133045B true CN108133045B (zh) 2020-07-24

Family

ID=62399691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810033585.5A Active CN108133045B (zh) 2018-01-12 2018-01-12 关键词提取方法与系统、关键词提取模型生成方法与系统

Country Status (1)

Country Link
CN (1) CN108133045B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和系统
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质
CN109344154B (zh) * 2018-08-22 2023-05-30 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质
CN109543175B (zh) * 2018-10-11 2020-06-02 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109885831B (zh) * 2019-01-30 2023-06-02 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109977203B (zh) * 2019-03-07 2021-06-08 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN111738009B (zh) * 2019-03-19 2023-10-20 百度在线网络技术(北京)有限公司 实体词标签生成方法、装置、计算机设备和可读存储介质
CN110442855B (zh) * 2019-04-10 2023-11-07 北京捷通华声科技股份有限公司 一种语音分析方法和系统
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法
CN111061877A (zh) * 2019-12-10 2020-04-24 厦门市美亚柏科信息股份有限公司 文本主题提取方法和装置
CN111159337A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 化学表达式提取方法、装置及设备
CN111079448A (zh) * 2019-12-31 2020-04-28 出门问问信息科技有限公司 一种意图识别方法及装置
CN111708880A (zh) * 2020-05-12 2020-09-25 北京明略软件系统有限公司 类簇的识别系统及方法
CN111611807B (zh) * 2020-05-18 2022-12-09 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111539853B (zh) * 2020-06-19 2020-11-06 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN111949767A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本关键词的查找方法、装置、设备和存储介质
CN111984777A (zh) * 2020-09-01 2020-11-24 中国平安财产保险股份有限公司 基于自然语言处理的生产系统上报问题处理方法及装置
CN112364136B (zh) * 2021-01-12 2021-04-23 平安国际智慧城市科技股份有限公司 关键词生成方法、装置、设备及存储介质
CN112818688B (zh) * 2021-04-16 2021-06-25 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN113569009B (zh) * 2021-07-23 2024-01-30 北京智慧星光信息技术有限公司 基于文本相关性的文本匹配方法、系统和电子设备
CN114443850B (zh) * 2022-04-06 2022-07-22 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258910A (ja) * 2004-03-12 2005-09-22 Yamatake Corp 階層キーワード抽出装置、方法、およびプログラム
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107330049A (zh) * 2017-06-28 2017-11-07 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258910A (ja) * 2004-03-12 2005-09-22 Yamatake Corp 階層キーワード抽出装置、方法、およびプログラム
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107330049A (zh) * 2017-06-28 2017-11-07 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Keyword Extraction and Clustering for Document Recommendation in Conversations;Maryam Habibi,Andrei Popescu-Belis;《IEEE/ACM Transactions on Audio, Speech and Language Processing(2015)》;20150430;第23卷(第04期);全文 *
基于word2vec的关键词提取算法;李跃鹏,金翠,及俊川;《科研信息化技术与应用(2015年)》;20150430(第04期);全文 *

Also Published As

Publication number Publication date
CN108133045A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN108133045B (zh) 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN106446148A (zh) 一种基于聚类的文本查重方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN111858843B (zh) 一种文本分类方法及装置
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN104199965A (zh) 一种语义信息检索方法
KR20180092733A (ko) 관계 추출 학습 데이터 생성 방법
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN111190873A (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN112528653B (zh) 短文本实体识别方法和系统
CN113934848A (zh) 一种数据分类方法、装置和电子设备
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN114417828A (zh) 一种服务器告警日志描述文本的实体关系抽取方法及系统
CN111310452B (zh) 一种分词方法和装置
CN113886520A (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant