CN101609472A - 一种基于问答平台的关键词评价方法和装置 - Google Patents

一种基于问答平台的关键词评价方法和装置 Download PDF

Info

Publication number
CN101609472A
CN101609472A CNA2009101626026A CN200910162602A CN101609472A CN 101609472 A CN101609472 A CN 101609472A CN A2009101626026 A CNA2009101626026 A CN A2009101626026A CN 200910162602 A CN200910162602 A CN 200910162602A CN 101609472 A CN101609472 A CN 101609472A
Authority
CN
China
Prior art keywords
keyword
question
weights
entropy
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009101626026A
Other languages
English (en)
Other versions
CN101609472B (zh
Inventor
姜中博
刘怀军
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2009101626026A priority Critical patent/CN101609472B/zh
Publication of CN101609472A publication Critical patent/CN101609472A/zh
Application granted granted Critical
Publication of CN101609472B publication Critical patent/CN101609472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于问答平台的关键词评价方法和装置,该方法包括以下步骤:使用特征选择算法获取关键词在问答平台的问答对中的特征信息;根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。本发明通过使用特征选择算法和权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的差别,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。

Description

一种基于问答平台的关键词评价方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于问答平台的关键词评价方法和装置。
背景技术
随着第二代互联网的逐渐成熟,用于互动交流的问答平台,越来越受到用户的欢迎。问答平台给用户提供了一个交流平台,用户可以通过问答平台接受专家和其他网民的帮助,同时也会尽力给其他网民提供有效的帮助,可广泛应用于行业知识库建设、垂直领域专家系统、行业交流网站问答板块、医学领域的医患交流、教育领域的师生交流等。专业的问答平台小到一个企业的客服,大到一个行业的专家知识库都逐渐体现了互动问答平台的价值。
问答平台集成了自动切分词、智能搜索和自动分类等一整套的自然语言处理和信息检索技术。有些特殊的问答平台还提供了如增加敏感词过滤(将涉及色情、政治等敏感词自动过滤)和舆情监控等功能模块。
具体地,问答平台可分为以下四个部分:(1)网页预处理部分,对所有网页进行正文提取,获取网页的标题文本以及其他网页指向该网页的链接文本信息;(2)索引部分,对全部文本信息分词和建立索引。(3)查询处理部分,实现对主题集的查询输入构造。(4)检索部分,实现对检索结果取出、排序和后处理。
在问答平台的应用过程中,需要对问答对中出现的关键词与各个类别之间的相关性进行评价,以便于用户更好地使用问答平台。现有技术中,一般使用TFIDF(Term Frequency Inverse Document Frequency,词频逆文档频率)方法或者按照词性重要度向关键词分配权值,关键词的具有区别度的权值越大,则关键词的类别相关性越高。
其中,TFIDF是一种自然语言处理中最基本的关键词权值计算方法,用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TFIDF的主要思想为,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级,TFIDF通常应用以下公式:
TFIDF ( t ) = TF ( t ) × IDF ( t ) = TF ( t ) × log ( N DF ( t ) )
其中,TF(t)为关键词在文本或者语料中出现的频率,该值越高,说明重要度越高;DF(t)为包含关键词的文档的频率,其值比较高,说明重要度越低;N为语料中的文档总数。
按照词性重要度分配权值的方法具体为,在自然语言处理中,一般认为名词、形容词和动词为比较重要的词性,并向具有上述词性的关键词分配较高的权值,而向具有其他词性的关键词分配较低的权值。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺陷:
现有技术中,当使用TFIDF向关键词分配权值时,由于问答平台的问答对内的文字长度较短而大部分的关键词在问答对间的出现频率高,即问答对的文字长度明显短于网页,新闻等语料中的文字长度,而且除去停用词之后,大部分的关键词在问答对中的出现频度差异较小,此外,由于问答平台中的问答对来自于真实世界,导致问答平台中的噪声比例较高。对于具有上述文本特征的问答平台而言,TF和DF的作用都不够突出,甚至经常出现TF等于或者略大于DF的情况,无法对问答平台中的关键词与各个类别之间的相关性进行准确评价。
按照词性重要度分配权值时,由于不同词性仅能够在一定的程度上区分关键词之间的重要性,而对于关键词数量庞大、噪声比例较高的问答平台而言,少数的几个比较重要的词性难以准确地区分关键词之间的重要性差异。
发明内容
本发明提供了一种基于问答平台的关键词评价方法和装置,用于降低问答平台的噪声对关键词的相关性的影响。
本发明提供了一种基于问答平台的关键词评价方法,包括以下步骤:
使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。
优选地,所述特征选择算法包括卡方统计和信息熵。
优选地,所述权值计算公式为
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为所述关键词的具有区别度的权值,X2 avg(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
优选地,所述卡方统计的计算公式为:
X 2 = Σ ( O ij - E ij ) 2 E ij
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
优选地,所述信息熵的计算公式为:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
优选地,所述特征选择算法还包括平均互信息和信息增益。
本发明还提供了一种基于问答平台的关键词评价装置,包括:
特征获取模块,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
权值获取模块,与所述特征获取模块连接,用于根据所述特征获取模块获取的关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。
优选地,所述特征选择算法包括卡方统计和信息熵,
所述特征获取模块,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。
优选地,所述权值获取模块,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值:
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为所述关键词的具有区别度的权值,Xavg 2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
优选地,所述特征选择算法还包括平均互信息和信息增益,
所述特征获取模块,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。
与现有技术相比,本发明具有以下优点:本发明通过特征选择算法和权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的差别,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对本发明或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中的一种基于问答平台的关键词评价方法流程图;
图2为本发明中的基于问答平台的关键词评价的具体应用场景流程图;
图3为本发明中的一种基于问答平台的关键词评价装置结构示意图。
具体实施方式
本发明提供的技术方案中,其核心思想为针对问答平台的文本长度短、噪声高的特点,提出了一种利用特征选择算法和权值计算公式评价问答平台中的关键词的类别相关性的方法,避免了现有技术中的TFIDF和词性评价方法的缺点。通过对真实世界的问答平台的实验,本发明的方法可以简单、有效而健壮地评价关键词的类别相关性。
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明中的一种基于问答平台的关键词评价方法流程图,包括以下步骤:
步骤101,使用特征选择算法获取关键词在问答平台的问答对中的特征信息。
其中,特征选择算法可以包括卡方统计和信息熵,也可以包括平均互信息和信息增益,以及上述特征选择算法的各种组合,其中,平均互信息为互信息量I(X,Y)在联合概率空间P(XY)中的统计平均值,即事件Y对事件X的平均互信息量,而互信息(Mutual Information)是指两个事件集合之间的相关性,可以定义为:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,H(X)为事件X的熵值,H(Y)为事件Y的熵值,H(X,Y)为事件X和事件Y的联合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),用于确定在什么样的层次上选择什么样的变量来分类。
步骤102,根据关键词的特征信息,通过权重计算公式获取该关键词的具有区别度的权值,按照该权值在类别间对关键词进行评价。
具体地,当步骤101中使用的特征选择算法为卡方统计和信息熵时,相应的权值计算公式为:
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为关键词的具有区别度的权值,Xavg 2(t)为关键词在类别中的卡方均值,IDF(t)为关键词的逆文档频率,Entropy(t)为关键词与类别的熵值。
当上述特征选择算法为平均互信息和信息增益,以及上述特征选择算法的各种组合时,相应地,权值计算公式也可以进行适应性的调整,适当调整特征选择算法得到的值的比重,例如通过使用log、次方和常数因子等方式。
使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
在根据所述权值确定所述关键词的类别相关性之后,还可以根据所述关键词的类别相关性对所述关键词进行分类。
本发明通过特征选择算法和权值计算公式获取问答平台中的关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
以下结合具体的应用场景对本发明中的基于问答平台的关键词评价方法进行详细的描述。
如图2所示,为本发明中的基于问答平台的关键词评价的具体应用场景流程图,具体包括以下步骤:
步骤201,使用卡方统计和信息熵获取关键词在问答平台的问答对中的特征信息。
其中,卡方统计用于验证对比表中的观测频度和期望频度是否独立,当观测频度和期望频度之间差别很大时,可以否定独立的零假设。卡方值越大,两者的独立性越小,相关性越大。
卡方值可以通过以下公式计算得到:
X 2 = Σ ( O ij - E ij ) 2 E ij
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
具体地,在文本处理中经常使用卡方统计的2×2表,如表1所示。
表1卡方统计的2×2表
  Class   ~Class
  term   A   B
  ~term   C   D
其中,term为一个关键词,Class为一个类别,A表示类别Class中包含关键词term的文档数,B表示不属于类别Class但包含关键词term的文档数,C表示属于类别Class但不包含关键词term的文档数,D表示不属于类别Class也不包含关键词term的文档数。
对于卡方统计的2×2表,卡方值的计算公式可以简化为:
X 2 = N ( AD - BC ) 2 ( A + B ) ( A + C ) ( D + B ) ( D + C )
其中,X2为卡方值,N为文档总数。
以下通过举例,对上述公式进行详细说明:
假设在一个语料中,类别=娱乐,关键词=周杰伦,卡方统计的2×2表,如表2所示。
表2卡方统计的2×2表举例
  娱乐   ~娱乐
  周杰伦   3421   1017
  ~周杰伦   75703   585068
则关键词的卡方值为:
Figure G2009101626026D00081
此外,对于多类别问题,还可以进一步通过以下公式计算卡方均值:
X 2 avg ( t ) = Σ i = 1 m P ( C i ) X 2 ( t , C i )
其中,X2 avg(t)为卡方均值,P(Ci)为类别Ci的概率分布,X2(t,Ci)为关键词在类别Ci的卡方值。
另外,信息熵用于表示单个随机变量的不确定性的均值,随机变量的熵值越大,则不确定性越大,能正确估计该随机变量的概率越小。
关键词与类别的熵值的计算公式如下:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
步骤202,根据关键词的卡方值和熵值,通过权值计算公式获取该关键词的具有区别度的权值。
具体地,使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
通过步骤201获取关键词的卡方均值和熵值后,可知关键词的卡方均值越大,则该关键词的类别相关性越高,应该具有较大的权值;关键词的熵值越大,则该关键词在类别间分布越均匀,即类别相关性越低,应该具有较小的权值。通过反复实验和分析问答平台的数据,可以确定权值计算公式为:
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为关键词的具有区别度的权值,Xavg 2(t)为关键词在类别中的卡方均值,IDF(t)为关键词的逆文档频率,Entropy(t)为关键词与类别的熵值。
另外, IDF ( t ) = log ( N DF ( t ) + 1 ) , N为总的文档数,N(t)为包含关键词t的文档数。
需要说明的是,本发明方法可以根据实际需要对各个步骤顺序进行调整,本发明中的关键词可以为各种统计量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本发明通过卡方统计和信息熵,以及对应的权值计算公式获取问答平台中的关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
本发明在上述实施方式中提供了基于问答平台的关键词评价方法和应用场景,相应地,本发明还提供了应用上述基于问答平台的关键词评价方法的装置。
如图3所示,为本发明中的一种基于问答平台的关键词评价装置结构示意图,包括:
特征获取模块310,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息。
权值获取模块320,与特征获取模块320连接,用于根据特征获取模块320获取的关键词的特征信息,通过权值计算公式获取关键词的具有区别度的权值,按照该权值在类别间对关键词进行评价。
上述特征选择算法包括卡方统计和信息熵,上述特征获取模块310,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。
其中,卡方统计用于验证对比表中的观测频度和期望频度是否独立,当观测频度和期望频度之间差别很大时,可以否定独立的零假设。卡方值越大,两者的独立性越小,相关性越大。
卡方值可以通过以下公式计算得到:
X 2 = Σ ( O ij - E ij ) 2 E ij
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
对于卡方统计的2×2表,卡方值的计算公式可以简化为:
X 2 = N ( AD - BC ) 2 ( A + B ) ( A + C ) ( D + B ) ( D + C )
其中,X2为卡方值,N为文档总数。
此外,对于多类别问题,还可以进一步通过以下公式计算卡方均值:
X 2 avg ( t ) = Σ i = 1 m P ( C i ) X 2 ( t , C i )
其中,X2 avg(t)为卡方均值,P(Ci)为类别Ci的概率分布,X2(t,Ci)为关键词在类别Ci的卡方值。
另外,信息熵用于表示单个随机变量的不确定性的均值,随机变量的熵值越大,则不确定性越大,能正确估计该随机变量的概率越小。
关键词与类别的熵值的计算公式如下:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
上述权值获取模块320,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值:
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为所述关键词的具有区别度的权值,Xavg 2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
上述特征选择算法还包括平均互信息和信息增益,以及上述特征选择算法的各种组合,其中,平均互信息为互信息量I(X,Y)在联合概率空间P(XY)中的统计平均值,即事件Y对事件X的平均互信息量,而互信息是指两个事件集合之间的相关性,可以定义为:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,H(X)为事件X的熵值,H(Y)为事件Y的熵值,H(X,Y)为事件X和事件Y的联合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),用于确定在什么样的层次上选择什么样的变量来分类。
上述特征获取模块310,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。
相应地,权值计算公式也可以进行适应性的调整,适当调整特征选择算法得到的值的比重,例如通过使用log、次方和常数因子等方式。
使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
需要说明的是,本发明中的关键词可以为各种统计量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本发明通过卡方统计和信息熵,以及对应的权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1、一种基于问答平台的关键词评价方法,其特征在于,包括以下步骤:
使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。
2、如权利要求1所述的方法,其特征在于,所述特征选择算法包括卡方统计和信息熵。
3、如权利要求2所述的方法,其特征在于,所述权值计算公式为
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为所述关键词的具有区别度的权值,Xavg 2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
4、如权利要求2所述的方法,其特征在于,所述卡方统计的计算公式为:
X 2 = Σ ( O ij - E ij ) 2 E ij
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
5、如权利要求2所述的方法,其特征在于,所述信息熵的计算公式为:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
6、如权利要求1所述的方法,其特征在于,所述特征选择算法还包括平均互信息和信息增益。
7、一种基于问答平台的关键词评价装置,其特征在于,包括:
特征获取模块,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
权值获取模块,与所述特征获取模块连接,用于根据所述特征获取模块获取的关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。
8、如权利要求7所述的装置,其特征在于,所述特征选择算法包括卡方统计和信息熵,
所述特征获取模块,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。
9、如权利要求8所述的装置,其特征在于,
所述权值获取模块,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值:
Wght ( t ) = log ( X avg 2 ( t ) ) × IDF ( t ) / Entropy ( t )
其中,Wght(t)为所述关键词的具有区别度的权值,Xavg 2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
10、如权利要求7所述的装置,其特征在于,所述特征选择算法还包括平均互信息和信息增益,
所述特征获取模块,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。
CN2009101626026A 2009-08-13 2009-08-13 一种基于问答平台的关键词评价方法和装置 Active CN101609472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101626026A CN101609472B (zh) 2009-08-13 2009-08-13 一种基于问答平台的关键词评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101626026A CN101609472B (zh) 2009-08-13 2009-08-13 一种基于问答平台的关键词评价方法和装置

Publications (2)

Publication Number Publication Date
CN101609472A true CN101609472A (zh) 2009-12-23
CN101609472B CN101609472B (zh) 2011-08-17

Family

ID=41483226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101626026A Active CN101609472B (zh) 2009-08-13 2009-08-13 一种基于问答平台的关键词评价方法和装置

Country Status (1)

Country Link
CN (1) CN101609472B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN103902733A (zh) * 2014-04-18 2014-07-02 北京大学 基于疑问词扩展的信息检索方法
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
WO2018032789A1 (zh) * 2016-08-16 2018-02-22 武汉斗鱼网络科技有限公司 一种计算互联网关键词的检索精度的方法及系统
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置
CN108600337A (zh) * 2018-03-30 2018-09-28 上海乂学教育科技有限公司 一种最佳学习内容自动推送方法
CN110764662A (zh) * 2019-08-30 2020-02-07 北京字节跳动网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112597835A (zh) * 2020-12-11 2021-04-02 国汽(北京)智能网联汽车研究院有限公司 驾驶行为的评估方法、装置、电子设备及可读存储介质
CN114827745A (zh) * 2022-04-08 2022-07-29 海信集团控股股份有限公司 视频字幕的生成方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200981B (zh) * 2010-03-25 2013-07-17 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN102622405B (zh) * 2012-01-16 2013-08-21 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103049433B (zh) * 2012-12-11 2015-10-28 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104142940B (zh) * 2013-05-08 2017-11-17 华为技术有限公司 信息推荐处理方法及装置
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN103902733B (zh) * 2014-04-18 2017-02-01 北京大学 基于疑问词扩展的信息检索方法
CN103902733A (zh) * 2014-04-18 2014-07-02 北京大学 基于疑问词扩展的信息检索方法
CN104504037B (zh) * 2014-12-15 2018-07-06 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
CN106055547B (zh) * 2015-04-02 2021-06-18 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
WO2018032789A1 (zh) * 2016-08-16 2018-02-22 武汉斗鱼网络科技有限公司 一种计算互联网关键词的检索精度的方法及系统
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置
CN108600337A (zh) * 2018-03-30 2018-09-28 上海乂学教育科技有限公司 一种最佳学习内容自动推送方法
CN110764662A (zh) * 2019-08-30 2020-02-07 北京字节跳动网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112597835A (zh) * 2020-12-11 2021-04-02 国汽(北京)智能网联汽车研究院有限公司 驾驶行为的评估方法、装置、电子设备及可读存储介质
CN114827745A (zh) * 2022-04-08 2022-07-29 海信集团控股股份有限公司 视频字幕的生成方法及电子设备
CN114827745B (zh) * 2022-04-08 2023-11-14 海信集团控股股份有限公司 视频字幕的生成方法及电子设备

Also Published As

Publication number Publication date
CN101609472B (zh) 2011-08-17

Similar Documents

Publication Publication Date Title
CN101609472B (zh) 一种基于问答平台的关键词评价方法和装置
Glance et al. Blogpulse: Automated trend discovery for weblogs
CN105808526B (zh) 商品短文本核心词提取方法和装置
Liu et al. Unsupervised approaches for automatic keyword extraction using meeting transcripts
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
Nunes et al. Use of temporal expressions in web search
US8856145B2 (en) System and method for determining concepts in a content item using context
CN103106275B (zh) 基于特征分布信息的文本分类特征筛选方法
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN101477563B (zh) 一种短文本聚类的方法、系统及其数据处理装置
WO2005083593A1 (en) A method for providing search results list based on importance information and system thereof
CN101667194A (zh) 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102456060A (zh) 信息处理装置及信息处理方法
CN103186612A (zh) 一种词汇分类的方法、系统和实现方法
CN102999538B (zh) 人物搜索方法和设备
Hamborg et al. Extraction of main event descriptors from news articles by answering the journalistic five W and one H questions
US8548999B1 (en) Query expansion
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN110532478A (zh) 一种基于大数据处理的新闻传播方法
Malhotra et al. An effective approach for news article summarization
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置
CN112989791A (zh) 一种基于文本信息抽取结果的去重方法、系统以及介质
CN104484330A (zh) 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
Teng et al. Single document summarization based on local topic identification and word frequency

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131016

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131016

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.