CN105260359A - 语义关键词提取方法及装置 - Google Patents

语义关键词提取方法及装置 Download PDF

Info

Publication number
CN105260359A
CN105260359A CN201510673358.5A CN201510673358A CN105260359A CN 105260359 A CN105260359 A CN 105260359A CN 201510673358 A CN201510673358 A CN 201510673358A CN 105260359 A CN105260359 A CN 105260359A
Authority
CN
China
Prior art keywords
word
basis
key words
predicate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510673358.5A
Other languages
English (en)
Other versions
CN105260359B (zh
Inventor
汤奇峰
刘作涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Original Assignee
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd filed Critical ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority to CN201510673358.5A priority Critical patent/CN105260359B/zh
Publication of CN105260359A publication Critical patent/CN105260359A/zh
Application granted granted Critical
Publication of CN105260359B publication Critical patent/CN105260359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种语义关键词提取方法及装置,用于互联网网页的文本,语义关键词提取方法包括:基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;根据所述调整后的基础分将所述词排序,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出。所述语义关键词提取方法及装置提高了语义关键词提取的精准性和有效性。

Description

语义关键词提取方法及装置
技术领域
本发明涉及数据挖掘领域,尤其涉及一种语义关键词提取方法及装置。
背景技术
随着互联网的发展,尤其是社交网络的爆发式增长,每天都有大量的文本内容被制造出来。无论是搜索引擎,还是互联网广告装置,都需要对大量的文档进行分析并建立索引,而分析最重要的就是语义关键词提取。语义关键词提取是指,计算机从内容各异、包罗万象的互联网网页或文档中,提取出与网页或文档主旨最贴切、表述能力最精准的词或短语的组合。通过提取语义关键词,可以大幅减少被索引的文档中词语的数量,并且提高搜索或广告装置中文档查询的相关性。
在现有技术中,语义关键词的提取是一项非常具有挑战性的工作。目前常用的方法有以下3种:1、人工指定关键词。这种方法常见于新闻门户,一篇文章完成后,会人为地为文章指定几个具有语义代表性的关键词。点击这些关键词,就会看到与关键词相关的文章。2、基于文档中各个词的词频和重要度提取关键词。一个词的词频即是这个词在文档中出现的次数,出现的次数越高,表明词与文档的相关性越高。词的重要度可以用逆向文档频率(InverseDocumentFrequency,IDF)值表示,IDF值表示同一词在多少个不同的文档中出现,出现的文档越多,则词越常见,重要性越低;出现的文档越少,则词越稀有,重要性越高。词频高和重要度高的词,应该被判断为语义关键词。3、基于文档的类别提取关键词。对文档进行文本分类,用文档的类别作为文档的语义关键词。
但是,现有技术的语义关键词的提取方法有以下弊端:1、人工指定关键词费时费力,无法处理超大规模任务,而且受限于人的知识领域,提取的关键词不精准;2、基于词频和重要度提取关键词的方法,由于是孤立的看待每个词,无法确定词是否与文章的主旨相关联,即无法确定是不是文章的中心词,提取的关键词不精准;3、基于文档的类别提取关键词,范围宽泛,表述能力不够,提取的关键词不精准。
发明内容
本发明解决的技术问题是如何提高语义关键词提取的精准性和有效性。
为解决上述技术问题,本发明实施例提供一种语义关键词提取方法,所述语义关键词提取方法包括:
基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
根据所述调整后的基础分将所述词排序,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;
其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
可选的,语义关键词提取方法还包括:所述根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分后,根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
可选的,语义关键词提取方法还包括:所述根据所述调整后的基础分将所述词排序,排序中序号达到第一设定阈值后,
所述调整后的基础分达到第三设定阈值时,将所述调整后的基础分对应的所述词作为所述待提取文本的语义关键词进行输出;其中,所述第三设定阈值依据所述调整后的基础分设置。
可选的,采用根据百科词典构建的分词器对所述待提取文本进行分词。
可选的,所述属性信息包括:所述每个词的词频、词性、词的长度和词的位置。
可选的,所述词频、词性、词的长度和词的位置对应相应的分值;所述基础分的计算公式为:S1=K1×K2×K3×K4;
其中,S1为所述基础分;K1为所述词频对应的分值;K2为所述词的位置对应的分值;K3为所述词性对应的分值;K4为所述词的长度对应的分值。
可选的,所述关联关系对应相关性得分;所述相关性得分根据所述词的共现概率或词典分类装置得到。
可选的,所述根据所述关联关系和所述IDF值对所述基础分进行调整包括:所述基础分与所述IDF值做积,并加上所述相关性得分。
为解决上述技术问题,本发明实施例还公开了一种语义关键词提取装置,用于互联网网页的文本,语义关键词提取装置包括:
分词模块,用于基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
打分模块,用于根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
分值调整模块,用于计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
关键词选取模块,用于根据所述调整后的基础分将所述词排序,选取排序中序号达到第一设定阈值的词;
输出模块,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;
其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
可选的,所述语义关键词提取装置还包括:第一筛选模块,耦接所述打分模块,用于根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
可选的,所述语义关键词提取装置还包括:第二筛选模块,耦接所述关键词选取模块,所述排序中序号达到第一设定阈值后,所述调整后的基础分达到第三设定阈值时,选取所述调整后的基础分对应的所述词;其中,所述第三设定阈值依据所述调整后的基础分设置。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例通过获取待提取文本分词后的每个词的属性信息,根据词的属性信息和IDF值对每个词进行打分和调整,并根据调整后的基础分将所述词排序筛选出待提取文本的语义关键词。通过将词的属性信息和IDF值结合,提高了语义关键词提取的精准性和有效性;同时,由于分词后的每个词都是分散独立的,通过计算每个词之间的关联关系并对基础分进行调整,使得具备关联关系的词可以互相加权而成为语义关键词,提高了语义关键词提取的鲁棒性。
进一步,本发明实施例通过考虑词频、词性、词的长度和词的位置对提取文本的每个词打分,提高了提取的关键词与文档主旨的相关性。
附图说明
图1是本发明实施例一种语义关键词提取方法流程图;
图2是本发明实施例另一种语义关键词提取方法流程图;
图3是本发明实施例一种语义关键词提取装置结构示意图。
具体实施方式
如背景技术中所述,现有技术的语义关键词的提取方法有以下弊端:1、人工指定关键词费时费力,无法处理超大规模任务,而且受限于人的知识领域,提取的关键词不精准;2、基于词频和重要度提取关键词的方法,由于是孤立的看待每个词,无法确定词是否与文章的主旨相关联,即无法确定是不是文章的中心词,提取的关键词不精准;3、基于文档的类别提取关键词,范围宽泛,表述能力不够,提取的关键词不精准。
本发明实施例通过获取待提取文本分词后的每个词的属性信息,根据词的属性信息和IDF值对每个词进行打分和调整,并根据调整后的基础分将所述词排序筛选出待提取文本的语义关键词,通过将词的属性信息和IDF值结合,提高了语义关键词提取的精准性和有效性;同时,由于分词后的每个词都是分散独立的,通过计算每个词之间的关联关系并对基础分进行调整,使得具备关联关系的词可以互相加权而成为语义关键词,提高了语义关键词提取的鲁棒性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种语义关键词提取方法流程图。
请参照图1,语义关键词提取方法包括:步骤S101,基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息。
本实施例中,语义关键词提取方法用于互联网网页的文本,所述文本可以是通过抓取网页形成的网络文档,也可以是任意可实施的基于网络生成的文档。
本实施例中,语义关键词提取方法采用根据百科词典构建的分词器对所述待提取文本进行分词。
具体实施中,语义关键词提取方法首先获得百科词典中所有词的列表,然后对待提取文本进行后向最大匹配,匹配后的结果即得到待提取文档的所有词。其中,最大匹配是指以百科词典为依据,提取百科词典中最长单词为第一个取字数量的扫描串,在百科词典中进行扫描,然后逐字递减,在对应的百科词典中进行查找。后向最大匹配是指取词的顺序为从后往前。
本实施例中,所述每个词的属性信息包括:所述每个词的词频、词性、词的长度和词的位置。
具体实施中,词频为每个词在待提取文本中出现的次数;词性指每个词的属性,包括专有名称、普通名词、成语、动词、形容词和副词;词的长度是指每个词中字的数目;词的位置表示词在待提取文档中的位置,包括标题、副标题、摘要和正文。
本实施例中,在所述词有多个词性的情况下,选取所述词的常用词性,常用词性可以通过百科词典获得;当所述词为英文时,计算所述词英文字母的数目,且将英文字母的数目与3的比值作为所述英文词的长度。
步骤S102,根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分。
本实施例中,所述每个词的属性信息对应相应的分值;所述每个词的词频、词性、词的长度和词的位置对应相应的分值。
具体实施中,所述基础分的计算公式为:S1=K1×K2×K3×K4;其中,S1为所述基础分;K1为所述词频对应的分值;K2为所述词的位置对应的分值;K3为所述词性对应的分值;K4为所述词的长度对应的分值。
本实施例中,高词频对应的分值大于低词频对应的分值;每个词的词性对应的分值从高到低依次为:专有名词对应的分值、普通名词对应的分值、形容词对应的分值、动词对应的分值、成语对应的分值、副词对应的分值以及其他词对应的分值;词的位置对应的分值从高到低依次为标题正文都出现对应的分值、只在标题出现对应的分值、在正文前半部分对应的分值、在正文后半部分对应的分值;词的长度长的词对应的分值大于长度短的词对应的分值。
需要说明的是,每个词的属性信息对应相应的分值可以根据实际情况做适应性的调整。
步骤S103,计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整。
本实施例中,词的IDF值用来判定词的重要度。可以通过将总文本数目与包含所述词的文本的数目的比值取对数得到。词的IDF值越高,词的重要性越高。
本实施例中,所述每个词之间的关联关系包括共现和根据词典分类装置得到的相关性。所述关联关系对应相关性得分。其中,共现是指至少两个词在同一篇文本中出现。共现关系用两个词的共现概率来表示,共现概率的大小为所述两个词共同出现的文本数目与总文本数目的比值。共现概率越大则对应相关性得分越高。
本实施例中,相关性得分采用共现概率来表示。
本实施例中,根据词典分类系统得到的相关性是指在词典分类系统中的类别的关联程度;属于同一个类别的至少两个词相关性得分高,且属于细分的子类别,相关性得分更高。
具体实施中,以互动百科作为词典分类系统,姚明和易建联都属于类目:人物->体育人物->运动员->球类运动员->篮球运动员,姚明和易建联相关性高;而姚明与奥巴马则只是共同属于类目:人物。所以姚明和易建联相关性得分大于姚明与奥巴马的相关性得分。
可以理解的是,所述相关性得分可以根据具体应用环境做适应性调整。
本实施例中,所述两个词存在共现概率或者在词典分类系统的相关性得分高,则需要根据所述关联关系以及所述IDF值对所述基础分进行调整,所述调整包括:所述基础分与所述IDF值做积,并加上所述相关性得分。
具体实施中,所述调整基础分的计算公式为:S2=S1×K5+∑(S×N);其中,S2为调整后的基础分;K5为词的IDF值;S为与词具备关联关系的词的基础分;N为词的相关性得分。
本实施例中,利用相关关系将相关词的基础分提高,使得具备关联关系的词可以互相加权而成为语义关键词,提高了语义关键词提取的鲁棒性。
步骤S104,根据所述调整后的基础分将所述词排序,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出。
本实施例中,所述第一设定阈值依据所述待提取文本中词的数目设置,第一设定阈值为5。
具体实施中,对待提取文本中的所有词根据调整后的基础分S2进行从小到大的排序,将得分最高的前5个词作为所述待提取文本的语义关键词进行输出。
需要说明的是,所述第一设定阈值为5仅为示例性,不应看作对本发明实施例的限制,在实际应用环境中,可以根据用户需求将第一设定阈值设定为任意可实施的数目。
图2是本发明实施例另一种语义关键词提取方法流程图。
请参照图2,一并参照图1,语义关键词提取方法包括:步骤S101,基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息。
步骤S102,根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分。
步骤S201,根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词。
本实施例中,所述第二设定阈值为50%。由于待提取文本分词后词的数目庞大,在计算得到所述词的基础分后,将所述词根据所述基础分从小到大进行排序,并将排序位于后50%的词过滤掉,即将基础分低与文本关联性不高的词过滤。
可以理解的是,所述第二设定阈值为50%仅为示例,也可以设置为任意可实施的数目。
步骤S103,计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整。
步骤S202,根据调整后的基础分将词排序,将排序中序号达到第一设定阈值调整后的基础分达到第三设定阈值时,将调整后的基础分对应的词作为待提取文本的语义关键词进行输出。
本实施例中,所述第三设定阈值依据所述调整后的基础分设置。
具体实施中,在获取得分最高的前5个词之后,判断所述5个词的基础分是否达到第三设定阈值,并将达到第三设定阈值的词作为待提取文本的语义关键词进行输出。为了保证输出关键词的准确性,如果基础分没有达到第三设定阈值,即使所述词在排序中排到了前5,也要过滤掉。
具体实施方式可参考前述相关实施例,此处不再赘述。
图3是本发明实施例一种语义关键词提取装置结构示意图。
请参照图3,语义关键词提取装置包括:
分词模块301,用于基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息。
打分模块302,用于根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分。
第一筛选模块303,耦接所述打分模块302,用于根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
分值调整模块304,用于计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整。
关键词选取模块305,用于根据所述调整后的基础分将所述词排序,选取排序中序号达到第一设定阈值的词。
第二筛选模块306,耦接所述关键词选取模块,所述排序中序号达到第一设定阈值后,所述调整后的基础分达到第三设定阈值时,选取所述调整后的基础分对应的所述词;其中,所述第三设定阈值依据所述调整后的基础分设置。
具体实施中,对待提取文本中的所有词根据调整后的基础分进行从小到大的排序,提取得分最高的前5个词。在获取得分最高的前5个词之后,判断所述5个词的基础分是否达到第三设定阈值,并选取达到第三设定阈值的词作为待提取文本的语义关键词。
输出模块307,将所述待提取文本的语义关键词进行输出。
本发明实施例的具体实施方式可参考前述相应实施例,此处不再赘述。
本发明实施例通过获取待提取文本分词后的每个词的属性信息,根据词的属性信息和IDF值对每个词进行打分和调整,并根据调整后的基础分将所述词排序筛选出待提取文本的语义关键词。通过将词的属性信息和IDF值结合,提高了语义关键词提取的精准性和有效性;同时,由于分词后的每个词都是分散独立的,通过计算每个词之间的关联关系并对基础分进行调整,使得具备关联关系的词可以互相加权而成为语义关键词,提高了语义关键词提取的鲁棒性。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (11)

1.一种语义关键词提取方法,用于互联网网页的文本,其特征在于,包括:
基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
根据所述调整后的基础分将所述词排序,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;
其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
2.根据权利要求1所述的语义关键词提取方法,其特征在于,还包括:
所述根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分后,
根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
3.根据权利要求1所述的语义关键词提取方法,其特征在于,还包括:
所述根据所述调整后的基础分将所述词排序,排序中序号达到第一设定阈值后,
所述调整后的基础分达到第三设定阈值时,将所述调整后的基础分对应的所述词作为所述待提取文本的语义关键词进行输出;其中,所述第三设定阈值依据所述调整后的基础分设置。
4.根据权利要求1所述的语义关键词提取方法,其特征在于,采用根据百科词典构建的分词器对所述待提取文本进行分词。
5.根据权利要求1所述的语义关键词提取方法,其特征在于,所述属性信息包括:所述每个词的词频、词性、词的长度和词的位置。
6.根据权利要求5所述的语义关键词提取方法,其特征在于,所述词频、词性、词的长度和词的位置对应相应的分值;所述基础分的计算公式为:
S1=K1×K2×K3×K4;
其中,S1为所述基础分;K1为所述词频对应的分值;K2为所述词的位置对应的分值;K3为所述词性对应的分值;K4为所述词的长度对应的分值。
7.根据权利要求1所述的语义关键词提取方法,其特征在于,所述关联关系对应相关性得分;所述相关性得分根据所述词的共现概率或词典分类装置得到。
8.根据权利要求7所述的语义关键词提取方法,其特征在于,所述根据所述关联关系和所述IDF值对所述基础分进行调整包括:所述基础分与所述IDF值做积,并加上所述相关性得分。
9.一种语义关键词提取装置,用于互联网网页的文本,其特征在于,包括:
分词模块,用于基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
打分模块,用于根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
分值调整模块,用于计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
关键词选取模块,用于根据所述调整后的基础分将所述词排序,选取排序中序号达到第一设定阈值的词;
输出模块,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;
其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
10.根据权利要求9所述的语义关键词提取装置,其特征在于,还包括:
第一筛选模块,耦接所述打分模块,用于根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
11.根据权利要求9所述的语义关键词提取装置,其特征在于,还包括:
第二筛选模块,耦接所述关键词选取模块,所述排序中序号达到第一设定阈值后,所述调整后的基础分达到第三设定阈值时,选取所述调整后的基础分对应的所述词;其中,所述第三设定阈值依据所述调整后的基础分设置。
CN201510673358.5A 2015-10-16 2015-10-16 语义关键词提取方法及装置 Active CN105260359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510673358.5A CN105260359B (zh) 2015-10-16 2015-10-16 语义关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510673358.5A CN105260359B (zh) 2015-10-16 2015-10-16 语义关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN105260359A true CN105260359A (zh) 2016-01-20
CN105260359B CN105260359B (zh) 2018-10-02

Family

ID=55100055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510673358.5A Active CN105260359B (zh) 2015-10-16 2015-10-16 语义关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN105260359B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN106503194A (zh) * 2016-11-02 2017-03-15 大唐软件技术股份有限公司 信息获取方法及装置
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN107679067A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 信息推荐方法及移动终端
CN107679121A (zh) * 2017-09-20 2018-02-09 晶赞广告(上海)有限公司 分类体系的映射方法及装置、存储介质、计算设备
CN108153781A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 提取业务领域的关键词的方法和装置
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN109145195A (zh) * 2017-06-28 2019-01-04 南宁富桂精密工业有限公司 信息推荐方法、电子装置及计算机可读存储介质
CN110705279A (zh) * 2018-07-10 2020-01-17 株式会社理光 一种词汇表的选择方法、装置及计算机可读存储介质
CN111325562A (zh) * 2020-02-17 2020-06-23 武汉轻工大学 粮食安全追溯系统及方法
CN112434170A (zh) * 2020-11-25 2021-03-02 深圳前海微众银行股份有限公司 一种字典更新方法及装置
CN113051890A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 领域特征关键词的处理方法及相关装置
WO2021159812A1 (zh) * 2020-10-20 2021-08-19 平安科技(深圳)有限公司 癌症分期信息处理方法、装置及存储介质
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
CN116579317A (zh) * 2023-07-13 2023-08-11 中信联合云科技有限责任公司 一种基于ai内容自动生成出版物的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN102262625A (zh) * 2009-12-24 2011-11-30 华为技术有限公司 网页关键词提取方法及装置
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN102262625A (zh) * 2009-12-24 2011-11-30 华为技术有限公司 网页关键词提取方法及装置
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787078B (zh) * 2016-03-02 2020-02-14 合一网络技术(北京)有限公司 多媒体标题显示方法及装置
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN106503194A (zh) * 2016-11-02 2017-03-15 大唐软件技术股份有限公司 信息获取方法及装置
CN108153781A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 提取业务领域的关键词的方法和装置
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN109145195A (zh) * 2017-06-28 2019-01-04 南宁富桂精密工业有限公司 信息推荐方法、电子装置及计算机可读存储介质
CN107679067A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 信息推荐方法及移动终端
CN107679121A (zh) * 2017-09-20 2018-02-09 晶赞广告(上海)有限公司 分类体系的映射方法及装置、存储介质、计算设备
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN110705279A (zh) * 2018-07-10 2020-01-17 株式会社理光 一种词汇表的选择方法、装置及计算机可读存储介质
CN113051890A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 领域特征关键词的处理方法及相关装置
CN111325562A (zh) * 2020-02-17 2020-06-23 武汉轻工大学 粮食安全追溯系统及方法
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
WO2021159812A1 (zh) * 2020-10-20 2021-08-19 平安科技(深圳)有限公司 癌症分期信息处理方法、装置及存储介质
CN112434170A (zh) * 2020-11-25 2021-03-02 深圳前海微众银行股份有限公司 一种字典更新方法及装置
CN112434170B (zh) * 2020-11-25 2024-09-17 深圳前海微众银行股份有限公司 一种字典更新方法及装置
CN116579317A (zh) * 2023-07-13 2023-08-11 中信联合云科技有限责任公司 一种基于ai内容自动生成出版物的方法及系统
CN116579317B (zh) * 2023-07-13 2023-10-13 中信联合云科技有限责任公司 一种基于ai内容自动生成出版物的方法及系统

Also Published As

Publication number Publication date
CN105260359B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN105260359A (zh) 语义关键词提取方法及装置
CN108829658B (zh) 新词发现的方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104063497B (zh) 观点处理方法和装置以及搜索方法和装置
CN105573979B (zh) 一种基于汉字混淆集的错字词知识生成方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
WO2019218527A1 (zh) 多系统相结合的自然语言处理方法及装置
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN101706807A (zh) 一种中文网页新词自动获取方法
CN102262625A (zh) 网页关键词提取方法及装置
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN108170666A (zh) 一种基于tf-idf关键词提取的改进方法
CN104376115B (zh) 一种基于全局搜索的模糊词确定方法及装置
CN107895000A (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN103577587A (zh) 一种新闻主题分类方法
CN105930416A (zh) 一种用户反馈信息的可视化处理方法及系统
CN103136219B (zh) 一种基于时效性的需求挖掘方法和装置
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN1641634A (zh) 一种中文新词语的检测方法及其检测系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant