CN106156204A - 文本标签的提取方法和装置 - Google Patents

文本标签的提取方法和装置 Download PDF

Info

Publication number
CN106156204A
CN106156204A CN201510197328.1A CN201510197328A CN106156204A CN 106156204 A CN106156204 A CN 106156204A CN 201510197328 A CN201510197328 A CN 201510197328A CN 106156204 A CN106156204 A CN 106156204A
Authority
CN
China
Prior art keywords
text
classification
target
word
screened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510197328.1A
Other languages
English (en)
Other versions
CN106156204B (zh
Inventor
胡燊
刘安安
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510197328.1A priority Critical patent/CN106156204B/zh
Publication of CN106156204A publication Critical patent/CN106156204A/zh
Application granted granted Critical
Publication of CN106156204B publication Critical patent/CN106156204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本标签的提取方法,包括:对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别,对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题,对所述待提取文本进行关键词提取,得到所述文本的目标关键词,将所述目标类别、目标主题和目标关键词作为所述文本的标签。文本的标签具有不同的层次,满足不同粒度的检索需求,也可以根据不同的标签,提供不同粒度的推荐文章。此外,还提供了一种文本标签的提取装置。

Description

文本标签的提取方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种文本标签的提取方法和装置。
背景技术
随着互联网技术的发展,人们可以通过网络阅读各种类型的文本。标签(tag)是与文本相关性很强的关键字,它能够对文本内容进行简单描述和分类,以便于检索和分享。
传统的标签提取方法基于关键词,从文章中出现过的词语中提取关键词,将提取出的关键词作为文章的标签。通过这种方法提取的文本标签没有层次,不能满足不同粒度的检索需求,也不能提供不同粒度的新闻标签订阅。
发明内容
基于此,有必要针对上述问题,提供一种文本标签的提取方法和装置,能满足不同粒度的检索需求,提供不同粒度的标签订阅。
一种文本标签的提取方法,所述方法包括:
对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别;
对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题;
对所述待提取文本进行关键词提取,得到所述文本的目标关键词;
将所述目标类别、目标主题和目标关键词作为所述文本的标签。
一种文本标签的提取装置,所述装置包括:
类别预测模块,用于对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别;
主题预测模块,用于对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题;
关键词提取模块,用于对所述待提取文本进行关键词提取,得到所述文本的目标关键词;
标签生成模块,用于将所述目标类别、目标主题和目标关键词作为所述文本的标签。
上述文本标签的提取方法和装置,对待提取文本分别通过文本分类模型进行类别预测,得到目标类别,通过主题聚类模型进行主题预测,得到预测主题,如果预测主题在预设主题集合中,则获取预测主题对应的目标主题,目标类别和目标主题都不限于文本中出现的词语,通过关键词提取,得到目标关键词,并将目标类别、目标主题和目标关键词作为文本的标签,使得文本的标签具有不同的层次,满足不同粒度的检索需求,也可以根据不同的标签,提供不同粒度的推荐文章。
附图说明
图1为一个实施例中文本标签的提取方法的流程图;
图2为一个实施例中得到文本分类模型的流程图;
图3为一个实施例中得到待提取文本的目标类别的流程图;
图4为一个实施例中确定目标主题的流程图;
图5为一个实施例中得到待提取文本的目标关键词的流程图;
图6为一个实施例中根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词的流程图;
图7为一个实施例中文本标签的提取装置的结构框图;
图8为另一个实施例中文本标签的提取装置的结构框图;
图9为类别预测模块的结构框图;
图10为再一个实施例中文本标签的提取装置的结构框图;
图11为关键词提取模块的结构框图。
具体实施方式
在一个实施例中,如图1所示,提供了一种文本标签的提取方法,包括以下步骤:
步骤S110,对待提取文本通过文本分类模型进行类别预测,得到文本的目标类别。
具体的,文本分类模型是一种数学模型,用于对文本进行分类,可以采用不同的方法训练分类模型得到不同的文本分类模型。根据需要选择文本分类模型,如最大熵模型、决策树模型等。通过离线训练的方法得到文本分类模型后,对文本进行在线类别预测时使用训练好的文本分类模型进行类别预测,计算文本属于各个类别的概率,将概率最大的类别作为文本的目标类别。其中各个类别的种类可根据需要设定,不限于文本中出现的词语。
步骤S120,对待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果预测主题在预设主题集合中,则获取预测主题对应的目标主题。
具体的,主题聚类模型是一种数学模型,用于对文本进行主题聚类。根据需要选择主题聚类模型,如LDA(Latent Dirichlet Allocation,文档主题生成模型)主题聚类模型。将待提取文本输入主题聚类模型输出待提取文本属于各个主题的概率,其中每个主题用对应的数值表示,将概率小于预设阈值的主题过滤掉,剩下的主题组成预测主题。预设主题集合是通过对训练语料进行离线主题聚类得到的候选主题中筛选出的部分主题组成的主题集合,由多个数值组成,每个数值代表一个主题。如果预测主题对应的数值在预设主题集合中,则根据预存的主题与目标主题的对应关系,找到预测主题对应的目标主题。其中目标主题是在离线训练时对预设主题集合中的各个主题对应的词语进行分析从而设定得到的。
步骤S130,对待提取文本进行关键词提取,得到文本的目标关键词。
具体的,关键词指的是文本中的重要词语,先将待提取文本进行分词得到词语和词组作为候选关键词,然后从候选关键词中根据关键词的各个特征提取关键词。特征包括:语法特征,如词语和词组的词性,文章结构特征,如候选关键词是否是标题、摘要中的词语,统计特征,如tf*idf(term frequency–inversedocument frequency)代表词语重要度,词语在训练语料中作为关键词的频次,词语长度等。外部特征,如词语在维基百科中以链接形式出现的比率、在网页搜索日志中出现的频率等。采用一种或多种特征进行加权的方式计算各个候选关键词的适合值,选预设阈值范围内的适合值作为目标关键词。可根据适合值的数值大小对目标关键词进行排序。
步骤S140,将目标类别、目标主题和目标关键词作为文本的标签。
具体的,文本的标签不限于文本中出现的词语,将目标类别、目标主题和目标关键词同时作为文本的标签,使得文本的标签具有不同的层次,代表了不同的精细粒度,可以更好地满足用户的语义检索需求,满足不同粒度的检索需求,比如检索的时候可以检索出不同语义粒度上相关的文章。可以更好地满足用户的标签订阅,根据不同的标签,提供不同粒度的推荐文章。如“途牛暴涨35.61%股价创新高”这一文本,通过传统的方法只能将文章中出现的词语作为关键词,如提取出关键词为“途牛”,使用本方法可以提取出三个层次的关键词,分别为目标类别“科技”、目标主题“科技股”和目标关键词“途牛”。
本实施例中,对待提取文本分别通过文本分类模型进行类别预测,得到目标类别,通过主题聚类模型进行主题预测,得到预测主题,如果预测主题在预设主题集合中,则获取预测主题对应的目标主题,目标类别和目标主题都不限于文本中出现的词语,通过关键词提取,得到目标关键词,并将目标类别、目标主题和目标关键词作为文本的标签,使得文本的标签具有不同的层次,满足不同粒度的检索需求,也可以根据不同的标签,提供不同粒度的推荐文章。
在一个实施例中,如图2所示,在步骤S110之前,还包括:
步骤S210,获取训练语料,训练语料包括多个文本,所述多个文本属于多个类别,计算文本中的词语与各个类别的相关度,根据相关度得到各个类别对应的特征词。
具体的,训练语料可根据需要设定,如使用1年(2013年5月至2014年5月)的网站新闻作为训练语料,训练语料中包括了多个文本,多个文本属于多个不同的类别,其中类别的种类是根据需要设定的。如设定为“科技”、“星座”、“体育”等,训练语料中每个文本所属的类别也是已知的。先计算文本中的词语与各个类别的相关度,在一个实施例中,词语与类别的相关度rel(c,t)计算公式如下:
rel ( c , t ) = n ( c , t ) n ( t ) × log ( f ( c , t ) )
其中c表示文章类别,t表示文本分词后的词语,n(c,t)表示类别c中包含t的文本数,n(t)表示包含t的文本数,f(c,t)表示词语t在类别c中的出现频次。计算得到rel(c,t)后,将低于预设阈值的词语过滤,对于每个类别选取相关度rel(c,t)计算数值最高的预设数目的词语作为各个类别对应的特征词。
步骤S220,将各个类别对应的特征词合并得到特征词集合。
具体的,将每个类别对应的特征词的并集作为特征词集合。
步骤S230,根据特征词集合训练分类模型得到文本分类模型。
具体的,可根据需要选择分类模型。在一个实施例中选择最大熵模型,最大熵模型的数学公式为
p * ( y | x ) = 1 Z λ ( x ) e Σ i λ i f i ( x , y ) , 其中Zλ(x)为归一化项,形式为
其中λ为特征词的权重,fi(x,y)为特征函数。xi表示特征词,i表示特征词索引值,如有100个特征值,则0<i<100,y表示类别。将特征词集合中的特征词输入分类模型进行训练得到文本分类模型。
本实施例中,通过训练语料中的词语与类别的相关度先进行过滤得到特征词集合,再根据特征词集合中的词语训练分类模型,可加快训练的时间,快速得到文本分类模型。
在一个实施例中,如图3所示,步骤S110包括:
步骤S111,获取待提取文本中在特征词集合中存在的词语,组成待预测文本。
具体的,将待提取文本分词后得到的词语与特征词集合中的词语进行对比,筛选出在特征词集合中出现的词语,将没有在特征词集合中出现的词语过滤掉,组成待预测文本。
步骤S112,根据待预测文本,通过文本分类模型计算得到待预测文本属于各个类别的概率。
步骤S113,将概率最高的类别作为待提取文本的目标类别。
具体的,将待预测文本中的词语输入文本分类模型,分别计算待预测文本属于各个类别的概率,将计算得到的最大概率值对应的类别作为待提取文本的目标类别。
在一个实施例中,如图4所示,在步骤S120之前,还包括:
步骤S310,对训练语料进行主题聚类,得到候选主题。
具体的,将训练语料中的词语输入主题聚类模型,如输入LDA主题聚类模型,得到候选主题,候选主题的数目可以根据需要设定,如设定为10个候选主题。候选主题以数值的形式表示,如1-10共10个数值表示10个候选主题。每个候选主题下包括有对应的聚集在这个主题下的词语和各个词语与主题的相关度。
步骤S320,对候选主题进行筛选得到预设主题集合。
具体的,根据各个主题下的词语,过滤掉聚类不成功的候选主题。可根据词语的语义分析聚类是否成功,也可根据各个词语与主题的相关度确定聚类是否成功。如一个主题下的对应词语与此主题的相关度值都比较低,则认为此候选主题聚类不成功。筛选出聚类成功的主题组成预设主题集合。
步骤S330,为预设主题集合中的主题设定对应的目标主题。
具体的,得到预设主题集合后,自定义预设主题集合中的主题对应的目标主题。不同的预设主题集合中的主题可对应相同的目标主题。为预设主题集合中的主题设定对应的目标主题,可将主题下的文本映射到对应的同一个目标主题上。
本实施例中,通过对候选主题进行筛选去掉了聚类不成功的主题,得到更明确的预设主题集合,提高了目标主题准确度。
在一个实施例中,如图5所示,步骤S130包括:
步骤S131,将待提取文本进行分词和匹配得到候选关键词,所述匹配包括词条匹配和文法匹配中的至少一种。
具体的,将待提取文本进行分词后就得到了词语和词组,由于词组识别技术的限制,很多实体和术语并不能被识别成词组,例如,电影名、歌曲名。并且随着互联网的普及,互联网上新产生的词语也越来越多,例如“光棍节”、“舌尖体”,这些词语也都不能被正确的识别。需要将待提取文本进行词条匹配和/或文法匹配进行候选关键词的补充。词条匹配是指将待提取文本中词语和词组与百科词条进行匹配,将匹配成功的词语和词组作为候选关键词。其中百科词条包括互联网上存在的多种百科数据,如维基百科、互动百科、百度百科、搜狗百科等。在匹配之前,到达预设时间间隔则抓取百科数据,补充新产生的词条。文法匹配是指将特定标点符号内的字符串作为候选关键词,如书名号和引号内的字符串。
步骤S132,对候选关键词进行过滤得到待筛选关键词。
具体的,可根据候选关键词的特征对候选关键词进行过滤。在一个实施例中,采用词性模板过滤,将符合预设词性序列的候选关键词过滤。如表1所示,为词性序列表包括各个词性序列对应的示例词,符合此表中词性的候选关键词都过滤掉。
表1
词性/词性序列 示例
动词 举行
形容词 美丽
副词 迅速
时间词 今天
代词 我们
数量词
副词+动词 同期/增长
状态词+名词 最佳/状态
区别词+名词 双重/标准
时间词+形容词 上年/同期
副词+形容词 不/佳
形容词+形容词 穷/风流
动词+动词 命中/率
动词+助词 毕业/了
在一个实施例中,采用独立检索过滤,使用独立检索量和独立检索比例对候选关键词进行过滤。独立检索量是指候选关键词作为查询关键词在搜索引擎中独立检索的次数。独立检索比例其中n(queryt)是指独立检索量,n(querycontain_t)指的是候选关键词的查询数量。独立检索量代表候选关键词的关注热度,独立检索量大代表候选关键词的关注度高,关注度高的候选关键词更适合作为关键词。独立检索比例代表候选关键词的语义完整程度,独立检索比例高代表候选关键词的语义更完整,也更适合作为关键词。将独立检索量和/或独立检索比例低于阈值的候选关键词过滤掉。在一个实施例中采用类别相关度对候选关键词进行过滤,类别相关度是指候选关键词与目标类别的相关程度。在一个实施例中,采用语义相关度对候选关键词进行过滤,语义相关度是指候选关键词与文本的语义的相关程度,可通过文本余弦相似度来计算。过滤时将上述多种过滤方法结合进行层层过滤。
步骤S133,根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词,所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。
具体的,通过过滤得到待筛选关键词后,可根据待筛选关键词对应的特征计算待筛选关键词的适合值,根据适合值的大小将待筛选关键词进行排序,将排序靠前的预设数目关键词作为目标关键词,或选择预设阈值范围内的适合值对应的待筛选关键词作为目标关键词。位置特征是指待筛选关键词在文本中出现的位置,如在文章标题、摘要、文章正文首句出现的词语往往更适合作为目标关键词。长度特征是指待筛选关键词包含的字符数,重要度特征是指通过词语重要度衡量方法,如TF*IDF计算得到的重要度值。类别相关度是指待筛选关键词与目标类别的相关程度,语义相关度是指待筛选关键词与文本的语义相关程度。在根据特征计算待筛选关键词的适合值时,可根据需要选取上述特征中的至少一种自定义计算公式。
在一个实施例中,如图6所示,步骤S133包括:
步骤S133a,获取待筛选关键词对应的特征的特征值以及特征值对应的比重。
具体的,根据待筛选关键词的特征的具体情况赋予不同的特征值。对于位置特征,判断待筛选关键词出现的位置是否在标题、是否在摘要、是否在正文句首,如果是,则取值1,如果不是,则取值0。比如,待筛选关键词在标题中出现,则标题位置特征取值为1,否则为0。分别得到标题位置特征值、摘要位置特征值、正文句首位置特征值后,自定义算法如对标题位置特征值、摘要位置特征值和正文句首位置特征值取平均值得到位置特征值。对于长度特征,将待筛选关键词包含的字符数直接作为长度特征值,或判断待筛选关键词包含的字符数是否超过预设数目,如果超过则长度特征值取值为1,否则为0。对于重要度特征,将通过词语重要度衡量方法计算出的重要度作为重要度特征值,或判断重要度是否超过预设数值,超过则重要度特征值为1,否则为0。对于类别相关度,可根据公式
rel ( c , t ) = n ( c , t ) n ( t ) &times; log ( f ( c , t ) )
计算得到类别相关度值,其中c表示目标类别,t表示待筛选关键词,n(c,t)表示训练语料的目标类别c中包含t的文本数,n(t)表示训练语料的各个文本中包含t的文本数,f(c,t)表示词语t在训练语料的目标类别c中的出现频次。对于语义相关度特征,可根据公式计算得到语义相关度特征值sim(t,d),其中t表示待筛选关键词,d表示待提取目标关键词的文本,d表示文本的向量空间模型,tbaike表示用待筛选关键词对应的百科词条内容表示的向量空间模型,tabs表示用待筛选关键词作为查询在网页中进行搜索获得的搜索结果摘要表示的空间向量模型。特征值对应的比重可根据需要自定义。
步骤S133b,根据特征值和特征值对应的比重计算待筛选关键词的适合值。
具体的,根据公式计算待筛选关键词的适合值score(t)=Σwi×fi,其中fi是各个特征对应的特征值,wi是特征对应的权重,i是特征索引值。
步骤S133c,选取预设阈值范围内的适合值所对应的待筛选关键词作为文本的目标关键词。
具体的,预设阈值可根据需要自定义,选取预设阈值范围内的适合值所对应的关键词,可以将适合值低的待筛选关键词过滤,使得筛选出的目标关键词更准确。
在一个实施例中,步骤S132中采用类别相关度过滤的方式进行过滤,具体包括:如果候选关键词是训练语料文本中的词语,则判断候选关键词与目标类别的相关度是否小于预设阈值,如果是,则将候选关键词过滤,否则候选关键词成为待筛选关键词之一。
具体的,判断候选关键词是否是训练语料文本中的词语,如果是则根据步骤S210中计算出的训练语料文本中的词语与各个类别相关度,查找得到候选关键词与目标类别的相关度,判断候选关键词与目标类别的相关度是否小于预设阈值,如果是,则将候选关键词过滤,否则候选关键词成为待筛选关键词之一。通过类别相关度过滤可以过滤掉不符合目标类别的候选关键词。
在一个实施例中,步骤S132中采用语义相关度过滤的方式进行过滤,具体包括:采用文本相似度算法计算候选关键词与文本的语义相关度,判断语义相关度是否小于预设阈值,如果是,则将候选关键词过滤,否则候选关键词成为待筛选关键词之一。
具体的,候选关键词与文本的语义相关度为文本和候选关键词的余弦相似度根据计算得到,其中表示候选关键词的空间向量,表示文本的空间向量。
先构造文本的空间向量,步骤如下:首先过滤掉文本中的停用词,然后,使用tf*idf给文本中出现的词语赋予权重,最后选取权重最高的k个词语作为文本的空间向量。
进一步的,构造候选关键词的空间向量,步骤如下:扩展候选关键词的上下文,结合搜索引擎扩展和百科扩展两种方法扩展候选关键词的上下文。搜索引擎扩展是指将候选关键词作为查询串在搜索引擎中进行查询,将查询结果作为上下文。百科扩展是指如果候选关键词是百科词条,则将百科词条的内容作为上下文。扩展候选关键词的上下文时,判断候选关键词是否是百科词条,如果是,就用百科扩展来扩展候选关键词的上下文,否则使用搜索引擎扩展来扩展候选关键词的上下文。扩展候选关键词上下文后,使用与构造文本空间向量相同的方法构造候选关键词的空间向量。
在一个实施例中,如图7所示,提供了一种文本标签的提取装置,包括:
类别预测模块410,用于对待提取文本通过文本分类模型进行类别预测,得到文本的目标类别。
主题预测模块420,用于对待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果预测主题在预设主题集合中,则获取预测主题对应的目标主题。
关键词提取模块430,用于对待提取文本进行关键词提取,得到文本的目标关键词。
标签生成模块440,用于将目标类别、目标主题和目标关键词作为文本的标签。
在一个实施例中,如图8所示,所述装置还包括:
文本分类模型生成模块450,用于获取训练语料,训练语料包括多个文本,所述多个文本属于多个类别,计算文本中的词语与各个类别的相关度,根据相关度得到各个类别对应的特征词,将各个类别对应的特征词合并得到特征词集合,根据特征词集合训练分类模型得到文本分类模型。
在一个实施例中,如图9所示,类别预测模块410包括:
待预测文本生成单元411,用于获取待提取文本中在特征词集合中存在的词语,组成待预测文本。
目标类别确定单元412,用于根据待预测文本,通过文本分类模型计算得到待预测文本属于各个类别的概率,将概率最高的类别作为待提取文本的目标类别。
在一个实施例中,如图10所示,所述装置还包括:
目标主题生成模块460,用于对训练语料进行主题聚类,得到候选主题,对所述候选主题进行筛选得到所述预设主题集合,为所述预设主题集合中的主题设定对应的目标主题。
在一个实施例中,如图11所示,关键词提取模块430包括:
候选关键词提取单元431,用于将待提取文本进行分词和匹配得到候选关键词,匹配包括词条匹配和文法匹配中的至少一种。
过滤单元432,用于对候选关键词进行过滤得到待筛选关键词。
目标关键词确定单元433,用于根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词,所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。
在一个实施例中,目标关键词确定单元433还用于获取待筛选关键词对应的特征的特征值以及特征值对应的比重,根据特征值和特征值对应的比重计算待筛选关键词的适合值,选取预设阈值范围内的适合值所对应的待筛选关键词作为文本的目标关键词。
在一个实施例中,过滤单元432采用类别相关度过滤的方式进行过滤,过滤单元432还用于如果候选关键词是训练语料文本中的词语,则判断候选关键词与目标类别的相关度是否小于预设阈值,如果是,则将候选关键词过滤,否则候选关键词成为待筛选关键词之一。
在一个实施例中,过滤单元432采用语义相关度过滤的方式进行过滤,过滤单元432还用于采用文本相似度算法计算候选关键词与文本的语义相关度,判断语义相关度是否小于预设阈值,如果是,则将候选关键词过滤,否则候选关键词成为待筛选关键词之一。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种文本标签的提取方法,所述方法包括:
对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别;
对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题;
对所述待提取文本进行关键词提取,得到所述文本的目标关键词;
将所述目标类别、目标主题和目标关键词作为所述文本的标签。
2.根据权利要求1所述的方法,其特征在于,在所述对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别的步骤之前,还包括:
获取训练语料,所述训练语料包括多个文本,所述多个文本属于多个类别,计算所述文本中的词语与各个类别的相关度,根据所述相关度得到各个类别对应的特征词;
将各个类别对应的特征词合并得到特征词集合;
根据所述特征词集合训练分类模型得到所述文本分类模型。
3.根据权利要求2所述的方法,其特征在于,所述对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别的步骤包括:
获取待提取文本中在所述特征词集合中存在的词语,组成待预测文本;
根据所述待预测文本,通过所述文本分类模型计算得到所述待预测文本属于各个类别的概率;
将概率最高的类别作为所述待提取文本的目标类别。
4.根据权利要求2所述的方法,其特征在于,在所述对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题的步骤之前,还包括:
对所述训练语料进行主题聚类,得到候选主题;
对所述候选主题进行筛选得到所述预设主题集合;
为所述预设主题集合中的主题设定对应的目标主题。
5.根据权利要求1或2所述的方法,其特征在于,所述对所述待提取文本进行关键词提取,得到所述文本的目标关键词的步骤包括;
将待提取文本进行分词和匹配得到候选关键词,所述匹配包括词条匹配和文法匹配中的至少一种;
对所述候选关键词进行过滤得到待筛选关键词;
根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词,所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词的步骤包括:
获取所述待筛选关键词对应的特征的特征值以及所述特征值对应的比重;
根据所述特征值和特征值对应的比重计算所述待筛选关键词的适合值;
选取预设阈值范围内的适合值所对应的待筛选关键词作为所述文本的目标关键词。
7.根据权利要求5所述的方法,其特征在于,所述对所述候选关键词进行过滤得到待筛选关键词的步骤中采用类别相关度过滤的方式进行过滤,具体包括:
如果所述候选关键词是所述训练语料文本中的词语,则判断所述候选关键词与所述目标类别的相关度是否小于预设阈值,如果是,则将所述候选关键词过滤,否则所述候选关键词成为所述待筛选关键词之一。
8.根据权利要求5所述的方法,其特征在于,所述对所述候选关键词进行过滤得到待筛选关键词的步骤中采用语义相关度过滤的方式进行过滤,具体包括:
采用文本相似度算法计算所述候选关键词与所述文本的语义相关度;
判断所述语义相关度是否小于预设阈值,如果是,则将所述候选关键词过滤,否则所述候选关键词成为所述待筛选关键词之一。
9.一种文本标签的提取装置,其特征在于,所述装置包括:
类别预测模块,用于对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别;
主题预测模块,用于对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题;
关键词提取模块,用于对所述待提取文本进行关键词提取,得到所述文本的目标关键词;
标签生成模块,用于将所述目标类别、目标主题和目标关键词作为所述文本的标签。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
文本分类模型生成模块,用于获取训练语料,所述训练语料包括多个文本,所述多个文本属于多个类别,计算所述文本中的词语与各个类别的相关度,根据所述相关度得到各个类别对应的特征词,将各个类别对应的特征词合并得到特征词集合,根据所述特征词集合训练分类模型得到所述文本分类模型。
11.根据权利要求10所述的装置,其特征在于,所述类别预测模块包括:
待预测文本生成单元,用于获取待提取文本中在所述特征词集合中存在的词语,组成待预测文本;
目标类别确定单元,用于根据所述待预测文本,通过所述文本分类模型计算得到所述待预测文本属于各个类别的概率,将概率最高的类别作为所述待提取文本的目标类别。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
目标主题生成模块,用于对所述训练语料进行主题聚类,得到候选主题,对所述候选主题进行筛选得到所述预设主题集合,为所述预设主题集合中的主题设定对应的目标主题。
13.根据权利要求9或10所述的装置,其特征在于,所述关键词提取模块包括:
候选关键词提取单元,用于将待提取文本进行分词和匹配得到候选关键词,所述匹配包括词条匹配和文法匹配中的至少一种;
过滤单元,用于对所述候选关键词进行过滤得到待筛选关键词;
目标关键词确定单元,用于根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词,所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。
14.根据权利要求13所述的装置,其特征在于,所述目标关键词确定单元还用于获取所述待筛选关键词对应的特征的特征值以及所述特征值对应的比重,根据所述特征值和特征值对应的比重计算所述待筛选关键词的适合值,选取预设阈值范围内的适合值所对应的待筛选关键词作为所述文本的目标关键词。
15.根据权利要求13所述的装置,其特征在于,所述过滤单元采用类别相关度过滤的方式进行过滤,所述过滤单元还用于如果所述候选关键词是所述训练语料文本中的词语,则判断所述候选关键词与所述目标类别的相关度是否小于预设阈值,如果是,则将所述候选关键词过滤,否则所述候选关键词成为所述待筛选关键词之一。
16.根据权利要求13所述的装置,其特征在于,所述过滤单元采用语义相关度过滤的方式进行过滤,所述过滤单元还用于采用文本相似度算法计算所述候选关键词与所述文本的语义相关度,判断所述语义相关度是否小于预设阈值,如果是,则将所述候选关键词过滤,否则所述候选关键词成为所述待筛选关键词之一。
CN201510197328.1A 2015-04-23 2015-04-23 文本标签的提取方法和装置 Active CN106156204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510197328.1A CN106156204B (zh) 2015-04-23 2015-04-23 文本标签的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510197328.1A CN106156204B (zh) 2015-04-23 2015-04-23 文本标签的提取方法和装置

Publications (2)

Publication Number Publication Date
CN106156204A true CN106156204A (zh) 2016-11-23
CN106156204B CN106156204B (zh) 2020-05-29

Family

ID=57346881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510197328.1A Active CN106156204B (zh) 2015-04-23 2015-04-23 文本标签的提取方法和装置

Country Status (1)

Country Link
CN (1) CN106156204B (zh)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN106844344A (zh) * 2017-02-06 2017-06-13 厦门快商通科技股份有限公司 用于对话的贡献度计算方法及主题抽取方法和系统
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107368923A (zh) * 2017-07-21 2017-11-21 成都澳海川科技有限公司 景点热度预测方法及装置
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN107844553A (zh) * 2017-10-31 2018-03-27 山东浪潮通软信息科技有限公司 一种文本分类方法及装置
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备
CN108268619A (zh) * 2018-01-08 2018-07-10 阿里巴巴集团控股有限公司 内容推荐方法及装置
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN108932247A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种优化文本搜索的方法及装置
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109635180A (zh) * 2018-12-13 2019-04-16 武汉虹旭信息技术有限责任公司 基于互联网海量信息的关键词分类处理系统及其方法
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109766442A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种对用户笔记进行分类的方法及系统
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN109902154A (zh) * 2018-11-30 2019-06-18 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN109948160A (zh) * 2019-03-15 2019-06-28 智者四海(北京)技术有限公司 短文本分类方法及装置
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
CN109960790A (zh) * 2017-12-25 2019-07-02 北京国双科技有限公司 摘要生成方法及装置
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN110019663A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 一种案件信息的推送方法、系统、存储介质和处理器
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110096708A (zh) * 2019-04-30 2019-08-06 科大讯飞股份有限公司 一种定标集确定方法及装置
CN110188203A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
WO2019218514A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
WO2020029966A1 (zh) * 2018-08-07 2020-02-13 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111125355A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111611801A (zh) * 2020-06-02 2020-09-01 腾讯科技(深圳)有限公司 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111708900A (zh) * 2020-06-17 2020-09-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN112182396A (zh) * 2020-10-12 2021-01-05 浙江新蓝网络传媒有限公司 基于用户行为的信息推送方法
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质
CN113282752A (zh) * 2021-06-09 2021-08-20 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统
CN113449195A (zh) * 2021-07-15 2021-09-28 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113486184A (zh) * 2021-09-07 2021-10-08 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质
US11748399B2 (en) 2018-08-31 2023-09-05 Advanced New Technologies Co., Ltd. System and method for training a damage identification model

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033964B (zh) * 2011-01-13 2012-05-09 北京邮电大学 基于块划分及位置权重的文本分类方法
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation
US9471883B2 (en) * 2013-05-09 2016-10-18 Moodwire, Inc. Hybrid human machine learning system and method

Cited By (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN108345605B (zh) * 2017-01-24 2022-04-05 苏宁易购集团股份有限公司 一种文本搜索方法及装置
CN106844344A (zh) * 2017-02-06 2017-06-13 厦门快商通科技股份有限公司 用于对话的贡献度计算方法及主题抽取方法和系统
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN106951494B (zh) * 2017-03-14 2022-01-04 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN108932247A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种优化文本搜索的方法及装置
CN107368923A (zh) * 2017-07-21 2017-11-21 成都澳海川科技有限公司 景点热度预测方法及装置
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN107704512B (zh) * 2017-08-31 2021-08-24 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN110019663A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 一种案件信息的推送方法、系统、存储介质和处理器
CN107844553A (zh) * 2017-10-31 2018-03-27 山东浪潮通软信息科技有限公司 一种文本分类方法及装置
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110069623B (zh) * 2017-12-06 2022-09-23 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN107977363B (zh) * 2017-12-20 2021-12-17 北京百度网讯科技有限公司 标题生成方法、装置和电子设备
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
CN109960790A (zh) * 2017-12-25 2019-07-02 北京国双科技有限公司 摘要生成方法及装置
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
TWI687823B (zh) * 2018-01-08 2020-03-11 香港商阿里巴巴集團服務有限公司 內容推薦方法及裝置
CN108268619A (zh) * 2018-01-08 2018-07-10 阿里巴巴集团控股有限公司 内容推荐方法及装置
US11720572B2 (en) 2018-01-08 2023-08-08 Advanced New Technologies Co., Ltd. Method and system for content recommendation
WO2019134554A1 (zh) * 2018-01-08 2019-07-11 阿里巴巴集团控股有限公司 内容推荐方法及装置
CN108268619B (zh) * 2018-01-08 2020-06-30 阿里巴巴集团控股有限公司 内容推荐方法及装置
WO2019218514A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN108804641B (zh) * 2018-06-05 2021-11-09 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN108897871B (zh) * 2018-06-29 2020-10-30 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
WO2020029966A1 (zh) * 2018-08-07 2020-02-13 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
US11120078B2 (en) 2018-08-07 2021-09-14 Beijing Sensetime Technology Development Co., Ltd. Method and device for video processing, electronic device, and storage medium
US11748399B2 (en) 2018-08-31 2023-09-05 Advanced New Technologies Co., Ltd. System and method for training a damage identification model
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109144954B (zh) * 2018-09-18 2021-03-16 北京字节跳动网络技术有限公司 编辑文档的资源推荐方法、装置及电子设备
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
CN111125355A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN109902154A (zh) * 2018-11-30 2019-06-18 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN109635180A (zh) * 2018-12-13 2019-04-16 武汉虹旭信息技术有限责任公司 基于互联网海量信息的关键词分类处理系统及其方法
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN109766442A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种对用户笔记进行分类的方法及系统
CN109948160A (zh) * 2019-03-15 2019-06-28 智者四海(北京)技术有限公司 短文本分类方法及装置
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN109992646A (zh) * 2019-03-29 2019-07-09 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN109992646B (zh) * 2019-03-29 2021-03-26 腾讯科技(深圳)有限公司 文本标签的提取方法和装置
CN110096708A (zh) * 2019-04-30 2019-08-06 科大讯飞股份有限公司 一种定标集确定方法及装置
CN110096708B (zh) * 2019-04-30 2023-12-01 科大讯飞股份有限公司 一种定标集确定方法及装置
CN110188203A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111444712B (zh) * 2020-03-25 2022-08-30 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111191011B (zh) * 2020-04-17 2024-02-23 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111611801B (zh) * 2020-06-02 2021-09-14 腾讯科技(深圳)有限公司 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111611801A (zh) * 2020-06-02 2020-09-01 腾讯科技(深圳)有限公司 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111708900B (zh) * 2020-06-17 2023-08-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN111708900A (zh) * 2020-06-17 2020-09-25 北京明略软件系统有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备
CN112182396A (zh) * 2020-10-12 2021-01-05 浙江新蓝网络传媒有限公司 基于用户行为的信息推送方法
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN112989040B (zh) * 2021-03-10 2024-02-27 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质
CN113282752A (zh) * 2021-06-09 2021-08-20 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统
CN113449195B (zh) * 2021-07-15 2023-09-19 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113449195A (zh) * 2021-07-15 2021-09-28 安徽商信政通信息技术股份有限公司 一种智能知识推送方法及系统
CN113486184B (zh) * 2021-09-07 2022-01-21 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质
CN113486184A (zh) * 2021-09-07 2021-10-08 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106156204B (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN106156204A (zh) 文本标签的提取方法和装置
CN107257970B (zh) 从结构化和非结构化数据源进行的问题回答
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
US8549016B2 (en) System and method for providing robust topic identification in social indexes
CN109960756B (zh) 新闻事件信息归纳方法
CN110019658B (zh) 检索项的生成方法及相关装置
US9734192B2 (en) Producing sentiment-aware results from a search query
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20100318526A1 (en) Information analysis device, search system, information analysis method, and information analysis program
CN105302793A (zh) 一种利用计算机自动评价科技文献新颖性的方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Moghaddam et al. Opinion polarity identification through adjectives
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN102081601A (zh) 一种领域词识别方法和装置
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN110852096B (zh) 一种中文文献综述自动生成的方法
Dutta et al. PNRank: Unsupervised ranking of person name entities from noisy OCR text
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
JP7106999B2 (ja) 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
CN112860781A (zh) 一种词汇搭配提取和语义分类相结合的挖掘和展示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant