CN103870575A - 一种提取领域关键词的方法及装置 - Google Patents

一种提取领域关键词的方法及装置 Download PDF

Info

Publication number
CN103870575A
CN103870575A CN201410101751.2A CN201410101751A CN103870575A CN 103870575 A CN103870575 A CN 103870575A CN 201410101751 A CN201410101751 A CN 201410101751A CN 103870575 A CN103870575 A CN 103870575A
Authority
CN
China
Prior art keywords
field
frequency matrix
keyword
matrix
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410101751.2A
Other languages
English (en)
Other versions
CN103870575B (zh
Inventor
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410101751.2A priority Critical patent/CN103870575B/zh
Publication of CN103870575A publication Critical patent/CN103870575A/zh
Application granted granted Critical
Publication of CN103870575B publication Critical patent/CN103870575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取领域关键词的方法及装置,该方法包括:生成由各领域描述文本分词的词频组成的领域词频矩阵;按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。本发明提出的技术方案能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。

Description

一种提取领域关键词的方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种提取领域关键词的方法及装置。
背景技术
目前,在一些应用场景下,当用户通过终端设备上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器会先根据预先设定好的领域关键词,识别出该检索词所属的领域,然后将该领域内的海量的文本描述内容发送至终端设备,以便为用户提供资讯服务。所谓领域关键词,指的是一个领域的多个文本中所共现的、最能够代表该领域的、且与其它领域的区分度很高的关键词。领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,因此如何能够从大量的领域文本中合理的提取领域关键词,对后续的领域识别和检索至关重要。
在现有的技术中,基于TF-IDF(Term Frequency–Inverse Document Frequency,词频–逆向文件频率)的领域关键词提取算法,采用TF-IDF评估领域文本中每个分词对该领域的重要程度,再通过一定的阈值过滤分词,从而筛选出领域关键词;基于主题模型的领域关键词提取算法,则是认为每个领域文本拥有一个在多个潜在主题上的分布,进而每个主题拥有一个在所有分词上的分布,根据所述分布来提取领域关键词。
然而,由于TF-IDF本身是一种试图抑制噪音的简单加权,并不能有效地反映关键词的重要程度和关键词的分布情况,所以在很多场景中TF-IDF的精度并不是很高,而且很多场景下要给出效果较好的IDF本身就是一件较困难的事情;基于主题模型的领域关键词提取算法只能抽取出主题层面的关键词,却无法有效提取出每个领域文本中有代表性、有区分度的关键词。
发明内容
本发明实施例提供一种提取领域关键词的方法及装置,以能够准确有效的提取各领域内有代表性、区分度的关键词。
第一方面,本发明实施例提供了一种提取领域关键词的方法,该方法包括:
生成由各领域描述文本分词的词频组成的领域词频矩阵;
按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
第二方面,本发明实施例还提供了一种提取领域关键词的装置,该装置包括:
领域词频矩阵生成模块,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
领域词频矩阵解耦模块,用于按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
领域关键词提取模块,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
本发明实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
附图说明
图1是本发明实施例一提供的一种提取领域关键词的方法的流程示意图;
图2是本发明实施例二提供的一种提取领域关键词的方法的流程示意图;
图3是本发明实施例三提供的一种提取领域关键词的装置的结构示意图;
图4是本发明实施例四提供的一种提取领域关键词的装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种提取领域关键词的方法的流程示意图,本实施例可适用于当用户通过终端上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器提取领域文本中的领域关键词以识别该检索词所属的领域时的情况,该方法可以由资讯网站服务器等具有领域关键词提取功能的计算机设备来执行。参见图1,所述方法具体包括如下步骤101-103:
步骤101、生成由各领域描述文本分词的词频组成的领域词频矩阵。
资讯网站服务器可首先获取本地存储的各领域描述文本或者通过网页爬取方式获取得到的各领域描述文本。在本实施例中,各领域描述文本可为相应网页中所包含的文本,例如各领域描述文本为该网站内所有注册用户的求职简历文本,各领域可以是基于用户求职行业进行划分的,可包括计算机、生物、建筑、金融、销售等领域。
然后,资讯网站服务器将所获取的各领域描述文本进行分词,统计各分词在各领域描述文本中的词频,进而生成领域词频矩阵在本实施例中,假设所得到的领域词频矩阵为M行N列的矩阵,则第i行j列的矩阵元素可表示为第i分词在第j领域描述文本中的词频,其中M和N均为大于等于1的整数、11iiM、11jjN。第j列元素组成的向量表示第j领域的词频向量。所谓第i分词在第j领域描述文本中的词频,指的是在第j领域描述文本中第i分词的个数或者是第i分词的个数与该领域描述文本中所有分词的总个数的比值。当然,本领域的普通技术人员应理解,领域词频矩阵的形式还可以是其它形式,例如第i行j列的矩阵元素可表示为第j个分词在第i个领域描述文本中的词频。
为了提高领域关键词的精确度,在本实施例的一个优选的实施方式中,资讯网站服务器在将所获取的各领域描述文本进行分词后,还可对所得到的各分词进行实词过滤处理,滤掉如语气助词、副词等没有代表性和区分度的分词,而后统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
步骤102、按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和。
由于现有技术只考虑各分词在各领域描述文本中的词频,并不联合考虑各分词在所有领域描述文本中词频的分布,进而提取的领域关键词并不精确。例如,资讯网站服务器将各用户的求职简历文本分类为计算机、生物、建筑、金融、销售四个领域,由于分词“高度的责任心”在“计算机”领域、“生物”领域、“建筑”领域、“金融”领域、“销售”领域文本中均有较高的词频,现有技术提出的技术方案会将该分词作为领域关键词,其区分度显然很差。
基于上述考虑,本实施例针对所生成的领域词频矩阵进行建模,假设该矩阵由一个背景词词频矩阵和一个关键词词频矩阵相加产生。其中,背景词词频矩阵是用于描述分词在所有领域文本中出现词频分布相似的部分,考虑到每一领域的关键词应是本领域内最具代表性和区分度的分词,而非具有相似性的分词,因此需让该背景词词频矩阵中各领域的词频向量尽量相关,即使该矩阵低秩;关键词词频矩阵是用于描述分词在所有领域文本中出现词频分布相异的部分,考虑到每一领域的关键词的数量应是少量的,即使该矩阵稀疏。
资讯网站服务器在生成领域词频矩阵后,按着预先设定好的算法将所生成的领域词频矩阵解耦为背景词词频矩阵和关键词词频矩阵,其中背景词词频矩阵为低秩的矩阵,关键词词频矩阵为稀疏的矩阵。其中,预先设定好的算法可以是通过构造领域词频矩阵与上述建模过程中所述的背景词词频矩阵和关键词词频矩阵之和相差最小的目标函数,以形成限制性优化问题,并对该问题进行求解得到的。
步骤103、根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
在本实施例中,资讯网站服务器在将所生成的领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和后,查询关键词词频矩阵中满足设定条件的词频,并将这些词频对应的分词作为相应领域的关键词。其中,设定条件的词频可以是解耦得到的关键词词频矩阵中大于等于设定阈值的词频,也可以是解耦得到的关键词词频矩阵中每一领域的词频向量中其值排在前设数量K的词频,其中K为大于等于1的整数。
例如,资讯网站服务器从解耦得到的关键词词频矩阵中查询到大于等于0的词频h,根据该词频在关键词词频矩阵中的行列数可得知其所对应的领域A和分词B,最终将该分词B作为领域A的领域关键词。对于查询到的其它词频亦是如此,这里不再赘述。
本实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
实施例二
图2为本发明实施例二提供的一种提取领域关键词的方法的流程示意图。本实施例在上述各实施例的基础上,对按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和的步骤作进一步说明。参见图2,所述方法包括步骤201-206:
步骤201、生成由各领域描述文本分词的词频组成的领域词频矩阵。
步骤202、将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型。
步骤203、构造所述领域词频矩阵与所述加和相差最小的目标函数,其中该目标函数的限制条件为:第一词频矩阵为低秩矩阵和第二词频矩阵为稀疏矩阵,以形成限制性优化问题。
步骤204、将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题。
步骤205、采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵。
步骤206、根据解耦得到的关键词词频矩阵,从各领域描述文本分词中提取相应领域的关键词。
在本实施例的一个优选的实施方式中,所构造的目标函数为:
Figure BDA0000478790330000071
Figure BDA0000478790330000072
限制条件为:L低秩和S稀疏;所转换成的拉格朗日松弛形式下的非限制性优化问题为: min L , S | | D - L - S | | F 2 + μ ( | | L | | * + λ | S | 1 ) . 其中,D为领域词频矩阵,L为第一词频矩阵,S为第二词频矩阵,μ和λ为拉格朗日乘子。
Figure BDA0000478790330000074
表示矩阵D-L-S的Frobenius范数,用于控制第一词频矩阵L和第二词频矩阵S对领域词频矩阵D的拟合相似度;||L||*表示第一词频矩阵L的nuclear范数,用于控制第一词频矩阵L的低秩性;|S|1示第二词频矩阵S的L1范数,用于控制第二词频矩阵S的稀疏性。
为了保护算法的稳定性和加快收敛速度,预设的优化算法可优选为近端梯度法。例如,对上述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵,包括:
(1)初始化:t=0、Lnew=Lold=0、Snew=Sold=0、εtt-1=1.0、
δ=1e-6、μt=0.49*||D||2、μ=δ*μt、η=0.9;
其中,t为迭代次数,εt、εt-1、δ、μt、μ、η为迭代参数,||D||2为领域词频矩阵D的2范数;
(2)根据如下公式进行迭代计算,更新Lnew和Snew
YL=Lnew+(Lnew-Lold)*(εt-1-1)/εt
YS=Snew+(Snew-Sold)*(εt-1-1)/εt
Lold=Lnew,Sold=Snew
Figure BDA0000478790330000081
Figure BDA0000478790330000082
ϵ τ + 1 = ( 1 + 4 ϵ τ 2 + 1 ) 2 / 2
μt+1=max(η*μt,μ)
t=t+1
在本实例中,thresholding函数
Figure BDA0000478790330000084
Figure BDA0000478790330000085
的具体表达形式如下:
Figure BDA0000478790330000087
其中,公式中
Figure BDA0000478790330000091
表示Hadamard乘(即对应元素乘),diag[.]表示对角化操作符,矩阵U和V为正交阵,Udiag[d]VT=X,UTU=I,VTV=VVT=I,即U和V为对矩阵X进行奇异值分解得到的酉矩阵,d为半正定对角矩阵。
(3)当t等于预设阈值或者本次迭代计算得到的Lnew和Snew与上次迭代计算得到的Lnew和Snew的变化量满足设定条件时,将本次迭代计算得到的Lnwe作为背景词词频矩阵,Snew作为关键词词频矩阵。
本实施例提出的技术方案通过将构造领域词频矩阵与低秩的第一词频矩阵和稀疏的第二词频矩阵之和相差最小的目标函数所形成的限制性优化问题,转换为拉格朗日松弛形式下的非限制性优化问题,并采用近端梯度法进行迭代优化,进而将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,在能够准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词的基础上,进一步增强了解耦的稳定性及其计算速度。
实施例三
图3是本发明实施例三提供的一种提取领域关键词的装置的结构示意图。本实施例可适用于当用户通过终端上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器提取领域文本中的领域关键词以识别该检索词所属的领域时的情况,该装置的具体结构如下:
领域词频矩阵生成模块301,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
领域词频矩阵解耦模块302,用于按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
领域关键词提取模块303,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
在本实施例中,领域词频矩阵生成模块301可首先获取本地存储的各领域描述文本或者通过网页爬取方式获取得到的各领域描述文本。其中,各领域描述文本可为相应网页中所包含的文本,例如各领域描述文本为该网站内所有注册用户的求职简历文本,各领域可以是基于用户求职行业进行划分的,可包括计算机、生物、建筑、金融、销售等领域。
然后,领域词频矩阵生成模块301将所获取的各领域描述文本进行分词,统计各分词在各领域描述文本中的词频,进而生成领域词频矩阵。在本实施例中,假设所得到的领域词频矩阵为M行N列的矩阵,则第i行j列的矩阵元素可表示为第i分词在第j领域描述文本中的词频,其中M和N均为大于等于1的整数、11iiM、11jjN。第j列元素组成的向量表示第j领域的词频向量。所谓第i分词在第j领域描述文本中的词频,指的是在第j领域描述文本中第i分词的个数或者是第i分词的个数与该领域描述文本中所有分词的总个数的比值。当然,本领域的普通技术人员应理解,领域词频矩阵的形式还可以是其它形式,例如第i行j列的矩阵元素可表示为第j个分词在第i个领域描述文本中的词频。
为了提高领域关键词的精确度,在本实施例的一个优选的实施方式中,领域词频矩阵生成模块301,包括:分词单元3011,用于将各领域描述文本进行分词;过滤单元3012,用于对所得到的各分词进行实词过滤处理,滤掉如语气助词、副词等没有代表性和区分度的分词;矩阵生成单元3013,用于统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
在领域词频矩阵生成模块301生成领域词频矩阵后,领域词频矩阵解耦模块302按着预先设定好的算法将所生成的领域词频矩阵解耦为背景词词频矩阵和关键词词频矩阵,其中背景词词频矩阵为低秩的矩阵,关键词词频矩阵为稀疏的矩阵。其中,预先设定好的算法可以是通过构造领域词频矩阵与上述建模过程中所述的背景词词频矩阵和关键词词频矩阵之和相差最小的目标函数,以形成限制性优化问题,并对该问题进行求解得到的。
在本实施例中,领域词频矩阵解耦模块302在将所生成的领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和后,领域关键词提取模块303查询关键词词频矩阵中满足设定条件的词频,并将这些词频对应的分词作为相应领域的关键词。其中,设定条件的词频可以是解耦得到的关键词词频矩阵中大于等于设定阈值的词频,也可以是解耦得到的关键词词频矩阵中每一领域的词频向量中其值排在前设数量K的词频,其中K为大于等于1的整数。
本实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
实施例四
图4是本发明实施例四提供的一种提取领域关键词的装置的结构示意图。本实施例在上述各实施例的基础上,对领域词频矩阵解耦模块302按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和作进一步说明。参见图4,该装置的具体结构如下:
领域词频矩阵生成模块401,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
领域词频矩阵解耦模块402,包括:
模型构建单元4021,用于将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
限制性优化问题形成单元4022,用于构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
非限制性优化问题形成单元4023,用于将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
迭代优化单元4024,用于采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵;
领域关键词提取模块403,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
在本实施例的一个优选的实施方式中,所构造的目标函数为:
Figure BDA0000478790330000121
限制条件为:L低秩和S稀疏;所转换成的拉格朗日松弛形式下的非限制性优化问题为: min L , S | | D - L - S | | F 2 + μ ( | | L | | * + λ | S | 1 ) . 其中,D为领域词频矩阵,L为第一词频矩阵,S为第二词频矩阵,μ和λ为拉格朗日乘子。表示矩阵D-L-S的Frobenius范数,用于控制第一词频矩阵L和第二词频矩阵S对领域词频矩阵D的拟合相似度;||L||*表示第一词频矩阵L的nuclear范数,用于控制第一词频矩阵L的低秩性;|S|1表示第二词频矩阵S的L1范数,用于控制第二词频矩阵S的稀疏性。
为了保护算法的稳定性和加快收敛速度,预设的优化算法可优选为近端梯度法。
本实施例提出的技术方案通过将构造领域词频矩阵与低秩的第一词频矩阵和稀疏的第二词频矩阵之和相差最小的目标函数所形成的限制性优化问题,转换为拉格朗日松弛形式下的非限制性优化问题,并采用近端梯度法进行迭代优化,进而将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,在能够准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词的基础上,进一步增强了解耦的稳定性及其计算速度。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种提取领域关键词的方法,其特征在于,包括:
生成由各领域描述文本分词的词频组成的领域词频矩阵;
按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
2.根据权利要求1所述的提取领域关键词的方法,其特征在于,所述生成由各领域描述文本分词的词频组成的领域词频矩阵,包括:
将各领域描述文本进行分词;
对所得到的各分词进行实词过滤处理;
统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
3.根据权利要求1所述的提取领域关键词的方法,其特征在于,所述按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和,包括:
将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵。
4.根据权利要求3所述的提取领域关键词的方法,其特征在于,所述目标函数为: min L , S | | D - L - S | | F 2 ;
所述拉格朗日松弛形式下的非限制性优化问题为: μ ( | | L | | * + λ | S | 1 ) ;
其中,D为所述领域词频矩阵,L为所述第一词频矩阵,S为所述第二词频矩阵,μ和λ为拉格朗日乘子,
Figure FDA0000478790320000024
表示矩阵DDLLS的Frobenius范数,||L||*表示所述第一词频矩阵L的nuclear范数,|S|1表示所述第二词频矩阵S的L1范数。
5.根据权利要求4所述的提取领域关键词的方法,其特征在于,所述优化算法为近端梯度法。
6.根据权利要求1所述的提取领域关键词的方法,其特征在于,所述根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词,包括:将所述各领域描述文本分词中,在解耦得到的关键词词频矩阵中满足设定条件的词频对应的分词作为相应领域的关键词。
7.根据权利要求6所述的提取领域关键词的方法,其特征在于,所述满足设定条件的词频为解耦得到的关键词词频矩阵中大于等于设定阈值的词频。
8.一种提取领域关键词的装置,其特征在于,包括:
领域词频矩阵生成模块,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
领域词频矩阵解耦模块,用于按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
领域关键词提取模块,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
9.根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域词频矩阵生成模块,包括:
分词单元,用于将各领域描述文本进行分词;
过滤单元,用于对所得到的各分词进行实词过滤处理;
矩阵生成单元,用于统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
10.根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域词频矩阵解耦模块,包括:
模型构建单元,用于将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
限制性优化问题形成单元,用于构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
非限制性优化问题形成单元,用于将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
迭代优化单元,用于采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵。
11.根据权利要求10所述的提取领域关键词的装置,其特征在于,所述目标函数为: min L , S | | D - L - S | | F 2 ;
所述拉格朗日松弛形式下的非限制性优化问题为:
Figure FDA0000478790320000041
μ ( | | L | | * + λ | S | 1 ) ;
其中,D为所述领域词频矩阵,L为所述第一词频矩阵,S为所述第二词频矩阵,μ和λ为拉格朗日乘子,
Figure FDA0000478790320000043
表示矩阵D-L-S的Frobenius范数,||L||*表示所述第一词频矩阵L的nuclear范数,|S|1表示所述第二词频矩阵S的L1范数。
12.根据权利要求10所述的提取领域关键词的装置,其特征在于,所述优化算法为近端梯度法。
13.根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域关键词提取模块具体用于:将所述各领域描述文本分词中,在解耦得到的关键词词频矩阵中满足设定条件的词频对应的分词作为相应领域的关键词。
14.根据权利要求13所述的提取领域关键词的装置,其特征在于,所述满足设定条件的词频为解耦得到的关键词词频矩阵中大于等于设定阈值的词频。
CN201410101751.2A 2014-03-19 2014-03-19 一种提取领域关键词的方法及装置 Active CN103870575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410101751.2A CN103870575B (zh) 2014-03-19 2014-03-19 一种提取领域关键词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410101751.2A CN103870575B (zh) 2014-03-19 2014-03-19 一种提取领域关键词的方法及装置

Publications (2)

Publication Number Publication Date
CN103870575A true CN103870575A (zh) 2014-06-18
CN103870575B CN103870575B (zh) 2017-10-27

Family

ID=50909105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410101751.2A Active CN103870575B (zh) 2014-03-19 2014-03-19 一种提取领域关键词的方法及装置

Country Status (1)

Country Link
CN (1) CN103870575B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239402A (zh) * 2014-07-23 2014-12-24 中国科学院自动化研究所 文档查询方法及装置
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN107193973A (zh) * 2017-05-25 2017-09-22 百度在线网络技术(北京)有限公司 语义解析信息的领域识别方法及装置、设备及可读介质
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN110502628A (zh) * 2019-08-26 2019-11-26 北京百度网讯科技有限公司 意图词的生成方法、装置、电子设备及存储介质
CN110516261A (zh) * 2019-09-03 2019-11-29 北京字节跳动网络技术有限公司 简历评估方法、装置、电子设备及计算机存储介质
CN111274537A (zh) * 2020-01-20 2020-06-12 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置
CN114970523A (zh) * 2022-05-20 2022-08-30 浙江省科技信息研究院 一种基于文本语义增强的主题提示式关键词提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840420A (zh) * 2010-04-02 2010-09-22 清华大学 搜索辅助系统、搜索辅助方法及程序
JP5331723B2 (ja) * 2010-02-05 2013-10-30 株式会社エヌ・ティ・ティ・データ 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5331723B2 (ja) * 2010-02-05 2013-10-30 株式会社エヌ・ティ・ティ・データ 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
CN101840420A (zh) * 2010-04-02 2010-09-22 清华大学 搜索辅助系统、搜索辅助方法及程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHN WRIGHT ETC: "Robust Principal Component Analysis:Exact Recovery of Corrupted Low-Rank Matrices by Convex Optimization", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
KERUI MIN ETC: "Decomposing Background Topics from Keywords by Principal Component Pursuit", 《PROCEEDINGS OF THE 19TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239402B (zh) * 2014-07-23 2017-12-22 中国科学院自动化研究所 文档查询方法及装置
CN104239402A (zh) * 2014-07-23 2014-12-24 中国科学院自动化研究所 文档查询方法及装置
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN105159962B (zh) * 2015-08-21 2018-08-17 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN107368489B (zh) * 2016-05-12 2020-07-03 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
CN107193973A (zh) * 2017-05-25 2017-09-22 百度在线网络技术(北京)有限公司 语义解析信息的领域识别方法及装置、设备及可读介质
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN108564086B (zh) * 2018-03-17 2024-05-10 上海柯渡医学科技股份有限公司 一种字符串的识别校验方法及装置
CN110502628A (zh) * 2019-08-26 2019-11-26 北京百度网讯科技有限公司 意图词的生成方法、装置、电子设备及存储介质
CN110516261A (zh) * 2019-09-03 2019-11-29 北京字节跳动网络技术有限公司 简历评估方法、装置、电子设备及计算机存储介质
CN111274537B (zh) * 2020-01-20 2021-12-31 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN111274537A (zh) * 2020-01-20 2020-06-12 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置
CN114970523A (zh) * 2022-05-20 2022-08-30 浙江省科技信息研究院 一种基于文本语义增强的主题提示式关键词提取方法
CN114970523B (zh) * 2022-05-20 2022-11-29 浙江省科技信息研究院 一种基于文本语义增强的主题提示式关键词提取方法

Also Published As

Publication number Publication date
CN103870575B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN103870575A (zh) 一种提取领域关键词的方法及装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
Moreno et al. Talmud: transfer learning for multiple domains
Patil et al. Automatic text categorization: Marathi documents
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN103942712A (zh) 基于产品相似度的电子商务推荐系统及其方法
CN103810198A (zh) 一种商品信息的搜索方法及装置
CN102637170A (zh) 一种问题推送方法及系统
CN103838756A (zh) 一种确定推送信息的方法及装置
CN103164521A (zh) 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN103530339A (zh) 移动应用信息推送方法和装置
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
Çakir et al. Text mining analysis in Turkish language using big data tools
Bellaachia et al. Hg-rank: A hypergraph-based keyphrase extraction for short documents in dynamic genre
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN104615723B (zh) 查询词权重值的确定方法和装置
CN104035978A (zh) 社团发现方法及系统
Chen et al. Web services clustering using SOM based on kernel cosine similarity measure
CN108932247A (zh) 一种优化文本搜索的方法及装置
Szabó et al. Collaborative filtering via group-structured dictionary learning
Kasiviswanathan et al. Novel document detection for massive data streams using distributed dictionary learning
CN113836395A (zh) 一种基于异构信息网络的服务开发者按需推荐方法及系统
Teufl et al. Knowledge extraction from RDF data with activation patterns.
CN115114425A (zh) 文本推送方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant