CN104462347A - 关键词的分类方法及装置 - Google Patents

关键词的分类方法及装置 Download PDF

Info

Publication number
CN104462347A
CN104462347A CN201410736469.1A CN201410736469A CN104462347A CN 104462347 A CN104462347 A CN 104462347A CN 201410736469 A CN201410736469 A CN 201410736469A CN 104462347 A CN104462347 A CN 104462347A
Authority
CN
China
Prior art keywords
word
probability
keyword
important document
building important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410736469.1A
Other languages
English (en)
Other versions
CN104462347B (zh
Inventor
侯明午
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410736469.1A priority Critical patent/CN104462347B/zh
Publication of CN104462347A publication Critical patent/CN104462347A/zh
Application granted granted Critical
Publication of CN104462347B publication Critical patent/CN104462347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开了一种关键词的分类方法及装置。其中,关键词的分类方法包括:对关键词进行划分,得到关键词的构词成分;提取构词成分中的多个构词要件;查询每个构词要件所归属的预设类别,得到多个归属类别;计算每个归属类别的概率,得到多个归属概率;确定多个归属概率中的最大概率所表示的类别为关键词的类别。通过本发明,解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。

Description

关键词的分类方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种关键词的分类方法及装置。
背景技术
搜索引擎关键词是用户在使用搜索引擎时输入的关键词。每个关键词都代表了用户的一个需求。对海量用户关键词的分类有助于剖析群体的需求分布。现有的搜索关键词分类方法有两种,一种是基于访问路径的分类方法,另一种是基于形式的分类方法。
基于访问路径的分类方法基于一种假设,即在搜索引擎中多次发起的查询(Query)关键词具有相似性。具体方式是记录一个会话(Session)中用户的所有查询关键词,记录每个关键词的相关词以及共同出现在一个会话中的频次,为所有会话重复统计相关关键词,最终实现聚类。
基于访问路径的会话的假设存在一定问题,一次会话的所有查询关键词不一定均是相似的,有可能是相关的,因此该方法聚类得到的关键词大多为相关的,不一定是相似的;关键词类别多为事件性的,不易于分析用户需求。
基于字符串形式的分类以字符串的字符重合度为分类指标,分别计算字符串的交集和并集,再以交集和并集的比值确定是否归为一类,如果归为一类,则以两个字符串的并集作为该类的字符串继续比较,否则单独建立一类,以完成分类。
基于字符串的分类没有考虑查询关键词的词语关系,简单的字符切分会导致大量错误的产生,分类效果较差。
针对相关技术中确定关键词类型的精度比较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种关键词的分类方法及装置,以解决现有技术中确定关键词类型的精度比较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种关键词的分类方法。
根据本发明的关键词的分类方法包括:对所述关键词进行划分,得到所述关键词的构词成分;提取所述构词成分中的多个构词要件;查询每个所述构词要件所归属的预设类别,得到多个归属类别;计算每个所述归属类别的概率,得到多个归属概率;以及确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。
进一步地,在计算每个所述归属类别的概率,得到多个归属概率之前,所述分类方法还包括:接收每个所述构词要件的权重赋值,其中,计算每个所述归属类别的概率,得到多个归属概率包括:按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率。
进一步地,按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率包括:按照公式计算每个所述归属类别的概率,得到所述多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为所述归属类别Bj的概率,j依次取1至m,n为所述构词要件的数量,m为所述归属类别的数量。
进一步地,Qk+1>Qk,其中,k依次取1至n-1。
进一步地,在对所述关键词进行划分,得到所述关键词的构词成分之前,所述分类方法还包括:设定所述预设类别;以及设定归属于所述预设类别的构词要件。
为了实现上述目的,根据本发明的另一方面,提供了一种关键词的分类装置。
根据本发明的关键词的分类装置包括:划分单元,用于对所述关键词进行划分,得到所述关键词的构词成分;提取单元,用于提取所述构词成分中的多个构词要件;查询单元,用于查询每个所述构词要件所归属的预设类别,得到多个归属类别;计算单元,用于计算每个所述归属类别的概率,得到多个归属概率;以及确定单元,用于确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。
进一步地,所述分类方法还包括:接收单元,用于在计算每个所述归属类别的概率,得到多个归属概率之前,接收每个所述构词要件的权重赋值,其中,所述计算单元包括:计算子单元,用于按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率。
进一步地,所述计算子单元包括:计算模块,用于按照公式计算每个所述归属类别的概率,得到所述多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为所述归属类别Bj的概率,j依次取1至m,n为所述构词要件的数量,m为所述归属类别的数量。
进一步地,Qk+1>Qk,其中,k依次取1至n-1。
进一步地,所述分类装置还包括:第一设定单元,用于在对所述关键词进行划分,得到所述关键词的构词成分之前,设定所述预设类别;以及第二设定单元,用于设定归属于所述预设类别的构词要件。
通过本发明,采用对所述关键词进行划分,得到所述关键词的构词成分;提取所述构词成分中的多个构词要件;查询每个所述构词要件所归属的预设类别,得到多个归属类别;计算每个所述归属类别的概率,得到多个归属概率;以及确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。通过对关键词进行划分,并从构词成分中提取构词要件,进而基于构词要件所归属的类别的概率高低来确定关键词的类别,实现了以构词要件分类作为基础,充分结合关键词的语义特征和构词特征进行关键词类别的确定,解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的关键词的分类方法的流程图;以及
图2是根据本发明实施例的关键词的分类装置的示意图。
实施例1
根据本发明实施例,提供了一种可以用于实施本申请装置实施例的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种关键词的分类方法,图1是根据本发明实施例的关键词的分类方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S110:
S102:对关键词进行划分,得到关键词的构词成分,具体地,对关键词进行划分为对关键词进行细粒度切分,得到关键词的构词成分。
S104:提取构词成分中的多个构词要件,具体地,构词要件可以是短语、词或者语素,比如:关键词为“办理驾驶证北京”,对该关键词进行划分后,可以得到构词成分“办理”、“北京”和“驾驶证”,其中,构词要件是构词成分的一部分,具体地,由各个构词成分归属类别的概率高低来确定,比如“北京”归属每个类别的概率均较低,识别度较低,则确定“北京”是非构词要件,“办理”和“驾驶证”的归属对应类别的概率较高,则确定“办理”和“驾驶证”是构词要件。
S106:查询每个构词要件所归属的预设类别,得到多个归属类别。例如:步骤S104中提取了10个构词要件,在查询这10个构词要件所归属的预设类别后,有2个构词要件单一归属于同一个预设类别,另外8个构词要件分别单一归属于其它8个预设类别,那么最终得到归属类别的个数为9个;也有一种情况是,一个构词要件同时归属于多个预设类别,仍然以步骤S104中提取了10个构词要件为例说明,假如在查询这10个构词要件所归属的预设类别后,有1个构词要件归属于两个不同的预设类别,有1个构词要件归属于另外三个不同的预设类别,另外8个构词要件分别单一归属于其它8个与前面查询出的预设类别不同的预设类别,那么最终得到归属类别的个数为13个。
S108:计算每个归属类别的概率,得到多个归属概率。
S110:确定多个归属概率中的最大概率所表示的类别为关键词的类别。
在本发明实施例中,通过对关键词进行划分,并从构词成分中提取构词要件,进而基于构词要件所归属的类别的概率高低来确定关键词的类别,实现了以构词要件分类作为基础,充分结合关键词的语义特征和构词特征进行关键词类别的确定,解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。
优选地,在计算每个归属类别的概率,得到多个归属概率之前,本发明实施例所提供的关键词的分类方法还包括:接收每个构词要件的权重赋值,具体地,预先对多个构词要件从前向后依次赋予由低到高的权重赋值。此时,计算每个归属类别的概率,得到多个归属概率包括:按照每个构词要件的权重赋值和每个构词要件的归属类别计算每个归属类别的概率,得到多个归属概率。
在本发明实施例中,通过根据接收的每个构词要件的权重赋值和每个构词要件的归属类别共同计算出多个归属概率,提高了计算的归属概率的结果的准确性,进一步达到了提高关键词类型确定准确度的效果。
具体地,在本发明实施例中,根据每个构词要件的权重赋值和每个构词要件的归属类,按照公式计算每个归属类别的概率,得到多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为归属类别Bj的概率,j依次取1至m,n为构词要件的数量,m为归属类别的数量。
优选地,在本发明实施例中,相邻的两个构词要件之间的权重赋值的关系为Qk+1>Qk,具体地,可以为Qk+1=Qk+0.2,即,后一个构词要件的权重赋值比前一个构词要件的权重赋值高0.2,其中,k依次取1至n-1。
对于关键词而言,排在前面的构词要件相对排在后面的构词要件而言,后者对关键词的影响程度更大,通过预先对多个构词要件从前向后依次赋予由低到高的权重赋值,并结合权重值计算归属概率,能够进一步提高关键词分类的精确度。
具体地,在查询每个构词要件所归属的预设类别,得到多个归属类别之前,本发明实施例所提供的关键词的分类方法还包括:设定预设类别,并设定归属于预设类别的构词要件,其中,设定的预设类别的个数至少为一个。需要说明的是,在一个预设类别中,可以只设定一个归属其的构词要件,也可以设定多个归属其的构词要件。
在本发明实施例中,通过设定预设类别以及设定归属类别的构词要件,为查询构词要件所归属的预设类别提供了基础。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述关键词的分类方法的关键词的分类装置,该分类装置主要用于执行本发明实施例上述内容所提供的分类方法,以下对本发明实施例所提供的关键词的分类装置做具体介绍:
根据本发明实施例,提供了一种关键词的分类装置,图2是根据本发明实施例的关键词的分类装置的示意图,如图2所示,该装置主要包括划分单元10、提取单元20、查询单元30、计算单元40和确定单元50,其中:
划分单元10用于对关键词进行划分,得到关键词的构词成分,具体地,对关键词进行划分为对关键词进行细粒度切分,得到关键词的构词成分。
提取单元20用于提取构词成分中的多个构词要件,具体地,构词要件可以是短语、词或者语素,比如:关键词为“办理驾驶证北京”,对该关键词进行划分后,可以得到构词成分“办理”、“北京”和“驾驶证”,其中,构词要件是构词成分的一部分,具体地,由各个构词成分归属类别的概率高低来确定,比如“北京”归属每个类别的概率均较低,识别度较低,则确定“北京”是非构词要件,“办理”和“驾驶证”的归属对应类别的概率较高,则确定“办理”和“驾驶证”是构词要件。
查询单元30用于查询每个构词要件所归属的预设类别,得到多个归属类别。例如:提取单元20中提取了10个构词要件,在查询这10个构词要件所归属的预设类别后,有2个构词要件单一归属于同一个预设类别,另外8个构词要件分别单一归属于其它8个预设类别,那么最终得到归属类别的个数为9个;也有一种情况是,一个构词要件同时归属于多个预设类别,仍然以提取单元20中提取了10个构词要件为例说明,假如在查询这10个构词要件所归属的预设类别后,有1个构词要件归属于两个不同的预设类别,有1个构词要件归属于另外三个不同的预设类别,另外8个构词要件分别单一归属于其它8个与前面查询出的预设类别不同的预设类别,那么最终得到归属类别的个数为13个。
计算单元40用于计算每个归属类别的概率,得到多个归属概率。
确定单元50用于确定多个归属概率中的最大概率所表示的类别为关键词的类别。
在本发明实施例中,通过对关键词进行划分,并从构词成分中提取构词要件,进而基于构词要件所归属的类别的概率高低来确定关键词的类别,实现了以构词要件分类作为基础,充分结合关键词的语义特征和构词特征进行关键词类别的确定,解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。
优选地,本发明实施例所提供的关键词的分类装置还包括接收单元,接收单元用于在计算每个归属类别的概率,得到多个归属概率之前,接收每个构词要件的权重赋值,具体地,预先对多个构词要件从前向后依次赋予由低到高的权重赋值。此时,计算单元40包括计算子单元,计算子单元用于按照每个构词要件的权重赋值和每个构词要件的归属类别计算每个归属类别的概率,得到多个归属概率。
在本发明实施例中,通过根据接收的每个构词要件的权重赋值和每个构词要件的归属类别共同计算出多个归属概率,提高了计算的归属概率的结果的准确性,进一步达到了提高关键词类型确定准确度的效果。
具体地,在本发明实施例中,计算子单元包括计算模块,计算模块用于按照公式计算每个归属类别的概率,得到多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为归属类别Bj的概率,j依次取1至m,n为构词要件的数量,m为归属类别的数量。
优选地,在本发明实施例中,相邻的两个构词要件之间的权重赋值的关系为Qk+1>Qk,具体地,可以为Qk+1=Qk+0.2,即,后一个构词要件的权重赋值比前一个构词要件的权重赋值高0.2,其中,k依次取1至n-1。
对于关键词而言,排在前面的构词要件相对排在后面的构词要件而言,后者对关键词的影响程度更大,通过预先对多个构词要件从前向后依次赋予由低到高的权重赋值,并结合权重值计算归属概率,能够进一步提高关键词分类的精确度。
优选地,在本发明实施例中,分类装置还包括第一设定单元和第二设定单元,其中,第一设定单元用于在对关键词进行划分,得到关键词的构词成分之前,设定预设类别,其中,设定的预设类别的个数至少为一个;第二设定单元用于设定归属于预设类别的构词要件。需要说明的是,对于一个预设类别,可以只设定一个归属其的构词要件,也可以设定多个归属其的构词要件,具体根据需求设定。
在本发明实施例中,通过设定预设类别以及设定归属类别的构词要件,为查询构词要件所归属的预设类别提供了基础。
从以上的描述中,可以看出,本发明解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种关键词的分类方法,其特征在于,包括:
对所述关键词进行划分,得到所述关键词的构词成分;
提取所述构词成分中的多个构词要件;
查询每个所述构词要件所归属的预设类别,得到多个归属类别;
计算每个所述归属类别的概率,得到多个归属概率;以及
确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。
2.根据权利要求1所述的分类方法,其特征在于,在计算每个所述归属类别的概率,得到多个归属概率之前,所述分类方法还包括:
接收每个所述构词要件的权重赋值,
其中,计算每个所述归属类别的概率,得到多个归属概率包括:按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率。
3.根据权利要求2所述的分类方法,其特征在于,按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率包括:
按照公式计算每个所述归属类别的概率,得到所述多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为所述归属类别Bj的概率,j依次取1至m,n为所述构词要件的数量,m为所述归属类别的数量。
4.根据权利要求3所述的分类方法,其特征在于:Qk+1>Qk,其中,k依次取1至n-1。
5.根据权利要求1所述的分类方法,其特征在于,在对所述关键词进行划分,得到所述关键词的构词成分之前,所述分类方法还包括:
设定所述预设类别;以及
设定归属于所述预设类别的构词要件。
6.一种关键词的分类装置,其特征在于,
划分单元,用于对所述关键词进行划分,得到所述关键词的构词成分;
提取单元,用于提取所述构词成分中的多个构词要件;
查询单元,用于查询每个所述构词要件所归属的预设类别,得到多个归属类别;
计算单元,用于计算每个所述归属类别的概率,得到多个归属概率;以及
确定单元,用于确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。
7.根据权利要求6所述的分类装置,其特征在于,所述分类装置还包括:
接收单元,用于在计算每个所述归属类别的概率,得到多个归属概率之前,接收每个所述构词要件的权重赋值,
其中,所述计算单元包括:计算子单元,用于按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率。
8.根据权利要求7所述的分类装置,其特征在于,所述计算子单元包括:
计算模块,用于按照公式计算每个所述归属类别的概率,得到所述多个归属概率,其中,P(Bj|Ai)为构词要件Ai归属于归属类别Bj的预设概率,Qi为构词要件Ai的权重赋值,V(Bj)为所述归属类别Bj的概率,j依次取1至m,n为所述构词要件的数量,m为所述归属类别的数量。
9.根据权利要求8所述的分类装置,其特征在于:Qk+1>Qk,其中,k依次取1至n-1。
10.根据权利要求6所述的分类装置,其特征在于,所述分类装置还包括:
第一设定单元,用于在对所述关键词进行划分,得到所述关键词的构词成分之前,设定所述预设类别;以及
第二设定单元,用于设定归属于所述预设类别的构词要件。
CN201410736469.1A 2014-12-04 2014-12-04 关键词的分类方法及装置 Active CN104462347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410736469.1A CN104462347B (zh) 2014-12-04 2014-12-04 关键词的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410736469.1A CN104462347B (zh) 2014-12-04 2014-12-04 关键词的分类方法及装置

Publications (2)

Publication Number Publication Date
CN104462347A true CN104462347A (zh) 2015-03-25
CN104462347B CN104462347B (zh) 2018-05-18

Family

ID=52908382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410736469.1A Active CN104462347B (zh) 2014-12-04 2014-12-04 关键词的分类方法及装置

Country Status (1)

Country Link
CN (1) CN104462347B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202049A (zh) * 2016-07-18 2016-12-07 合网络技术(北京)有限公司 一种热词确定方法及装置
CN109740152A (zh) * 2018-12-25 2019-05-10 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN110414591A (zh) * 2019-07-24 2019-11-05 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN110728981A (zh) * 2019-10-09 2020-01-24 北京达佳互联信息技术有限公司 一种交互功能的执行方法、装置、电子设备及存储介质
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094854A1 (en) * 2008-10-14 2010-04-15 Omid Rouhani-Kalleh System for automatically categorizing queries
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103377186A (zh) * 2012-04-26 2013-10-30 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094854A1 (en) * 2008-10-14 2010-04-15 Omid Rouhani-Kalleh System for automatically categorizing queries
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103377186A (zh) * 2012-04-26 2013-10-30 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯莉: "面向英文电影评论的文本情感倾向性分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202049A (zh) * 2016-07-18 2016-12-07 合网络技术(北京)有限公司 一种热词确定方法及装置
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109740152A (zh) * 2018-12-25 2019-05-10 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN109740152B (zh) * 2018-12-25 2023-02-17 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN110414591A (zh) * 2019-07-24 2019-11-05 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN110414591B (zh) * 2019-07-24 2022-07-12 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN110728981A (zh) * 2019-10-09 2020-01-24 北京达佳互联信息技术有限公司 一种交互功能的执行方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104462347B (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
CN107729336B (zh) 数据处理方法、设备及系统
US9563665B2 (en) Product search method and system
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN112257419B (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN103064838A (zh) 数据搜索方法和装置
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN103049568A (zh) 对海量文档库的文档分类的方法
CN103577416A (zh) 扩展查询方法及系统
CN104462347A (zh) 关键词的分类方法及装置
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN104142999A (zh) 搜索结果展示方法及装置
CN102906736A (zh) 用于匹配实体的系统和方法及其中使用的同义词群组织器
CN104408033A (zh) 一种文本信息提取的方法及系统
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN106919588A (zh) 一种应用程序搜索系统及方法
CN107085568A (zh) 一种文本相似度判别方法及装置
CN102890690A (zh) 目标信息搜索方法和装置
CN106919703A (zh) 电影信息搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Keyword classifying method and device

Effective date of registration: 20190531

Granted publication date: 20180518

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder