CN108628875A - 一种文本标签的提取方法、装置及服务器 - Google Patents

一种文本标签的提取方法、装置及服务器 Download PDF

Info

Publication number
CN108628875A
CN108628875A CN201710159896.1A CN201710159896A CN108628875A CN 108628875 A CN108628875 A CN 108628875A CN 201710159896 A CN201710159896 A CN 201710159896A CN 108628875 A CN108628875 A CN 108628875A
Authority
CN
China
Prior art keywords
text
word
label
proportion
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710159896.1A
Other languages
English (en)
Other versions
CN108628875B (zh
Inventor
温旭
赵铭
曹凯
闫清岭
张智敏
颜景善
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710159896.1A priority Critical patent/CN108628875B/zh
Publication of CN108628875A publication Critical patent/CN108628875A/zh
Application granted granted Critical
Publication of CN108628875B publication Critical patent/CN108628875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本标签的提取方法,包括:获取M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。本发明实施例同时还提供一种文本标签的提取装置及服务器。

Description

一种文本标签的提取方法、装置及服务器
技术领域
本发明涉及互联网技术,尤其涉及一种文本标签的提取方法、装置及服务器。
背景技术
文章的标签(tag)对文章的内容进行一定程度的描述,类似于文章的关键词,通常反映了用户对该篇文章可能关注的兴趣点。同一篇文章的标签可以有多个,但通常只能属于一个文本类别。文章的标签和分类有一定的联系,每个文本类别包含了多个标签,而每个标签通常也会出现在多个文章的分类中。文章的标签提取,通常会有一个候选的标签列表,在提取过程中,会考虑每一个标签在文章中出现的位置、次数,还有每个标签和文章所属分类的相关性等。
目前,标签和文章所属分类的相关性,通常是通过人工标注的方式进行的,但是,随着标签和文章数据规模的增大,人工标注势必会影响文本标签提取的准确性。
发明内容
有鉴于此,本发明实施例期望提供一种文本标签的提取方法、装置及服务器,以保证文本标签提取的准确性。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种文本标签的提取方法,包括:获取M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
第二方面,本发明实施例提供一种文本标签的提取装置,包括:获取单元,用于获取M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;计算单元,用于分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;提取单元,用于至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
第三方面,本发明实施例提供一种服务器,包括:存储器,用于存储M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;处理器,用于获取所述M个文本和所述N个标签词;分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
本发明实施例提供了一种文本标签的提取方法、装置及服务器,首先,获取M个文本和N个标签词,然后,分别计算N个标签词中的第i个标签词在S个文本类别中的第k个文本类别下的文本比重和在第k个文本类别下的词比重,再将文本比重与词比重二者的平均数确定为第i个标签词与第k个文本类别的相关性参数,最后,至少根据相关性参数,提取第k个文本类别下的文本所对应的标签词,可见,在本发明实施例中,在提取文本的标签词时,由于根据文本比重与词比重二者的平均数确定第i个标签词与第k个文本类别的相关性参数,这样,既能够保证标签词具有一定的区分度,又能够保证该标签词可以覆盖某一类文本,进而在面对海量文本时能够保证文本标签提取的准确性。
附图说明
图1为本发明实施例中文本标签的提取方法的实现流程示意图;
图2为本发明实施例中服务器的一种结构示意图;
图3-1为本发明实施例中第i个标签词与第k个文本类别下的文本之间的关系示意图;
图3-2为本发明实施例中多个标签词与第k个文本类别下的文本之间的关系示意图;
图4为本发明实施例中计算文本比重和词比重的实现流程示意图;
图5为本发明实施例中统计标签与文章类别相关性方法的实现流程示意;
图6为本发明实施例中文本标签的提取装置的结构示意图;
图7为本发明实施例中服务器的另一个结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供一种文本标签的提取方法,该方法可以应用于一服务器,该方法所实现的功能可以通过服务器中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该服务器至少包括处理器和存储介质。
在实际应用中,上述服务器可以为新闻门户网站的服务器、文档分享平台的服务器、在线论坛的后台服务器、电子书阅读平台的服务器等,该服务器在具体实施例的过程中可以为各种类型的具有信息处理能力的计算设备,例如平板电脑、台式机、集群服务器等,本发明实施例不作具体限定。
图1为本发明实施例中文本标签的提取方法的实现流程示意图,参见图1所示,该方法包括:
S101:获取M个文本和N个标签词;
其中,M个文本包括S个文本类别,M、N、S均为正整数;
这里,图2为本发明实施例中服务器的一种结构示意图,参见图2所示,该服务器20可以包括:语料库21、标签词库22和标签提取器23。
那么,S101可以为,服务器中的标签提取器从语料库中获取M个文本,从标签词(tag)库中获取N个标签词。
在本发明实施例中,上述M个文本就是待提取标签的文本,N个标签词则为候选标签词,也就是待与M个文本匹配的标签词。上述M个文本可以为语料库中的全部文本,也可以为语料库中的部分文本,上述N个标签词可以为标签词库中的全部标签词,也可以为标签词库中的部分标签词,M和N均可以根据实际应用中对标签提取粒度的需求不同来设置,本发明实施例不作具体限定。
这里,上述文本可以为新闻、帖子、文章、产品说明(例如应用程序的简介)等,在实现的过程中只要需要用到标签词标明的都可以作为本实施例中的文本。
在本发明实施例中,上述文本均已被划分成S个文本类别,例如,将M个新闻划分成娱乐新闻、社会新闻、时政新闻等类别;将M个帖子被分成求助帖、资料分享帖、业务交流贴等类别;当然,针对不同的文本还可以分成其它类别,本发明实施例不作具体限定。
这些标签词库可以为预先针对该服务器配置的,也可以为通用标签词库,当然,还可以有存在其它形式的标签词库,本发明实施例不作具体限定。
假设,若服务器为新闻门户网站的服务器,那么,标签词库可以为针对各类新闻的标签词库,该标签词库中存储有各类新闻常用的标签词,,时事要闻、快讯等;若该服务器为法律在线论坛的后台服务器,那么,标签词库可以为针对该法律在线论坛的标签词库,该标签词库中存储有各类法律法规常用的标签词,如民法、刑法、司法解释、案例等。
S102:分别计算N个标签词中的第i个标签词在S个文本类别中的第k个文本类别下的文本比重和在第k个文本类别下的词比重;
其中,i为小于或者等于N的正整数,k为小于或者等于S的正整数;
这里,服务器在获取待处理的文本和候选标签词后,针对第i个标签词,计算其在第k个文本类别下的文本比重,即第k个文本类别下的文本中出现第i个标签词的文本数占M个文本中出现第i个标签词的文本数的比重。需要说明的是,第i个标签词在一个文本中出现多次仅算一次。
例如,在第k个分类下出现第i个标签词的文本数为DC(ti,ck),M个文本中出现第i个标签词的文本数那么,第i个标签词在第k个文本类别下的文本比重这里,ti为第i个标签词,ck为第k个文本类别,上述i的取值范围为[1,N]的整数,上述k的取值范围为[1,S]的整数。
服务器除了计算第i个标签词在第k个文本类别下的文本比重外,还可以计算第i个标签词在第k个文本类别下的词比重,即第i个标签词在第k个文本类别下的文本中出现的次数占第i个标签词在M个文本中出现的次数的比重。需要说明的是,第i个标签词在一个文本中出现多次计多次。
例如,第i个标签词在第k个分类下的文本中出现的次数为TC(ti,ck),第i个标签词在M个文本中出现的次数为那么,第i个标签词在第k个文本类别下的词比重
S103:将第i个标签词在第k个文本类别下的文本比重与第i个标签词在第k个文本类别下的词比重二者的平均数确定为第i个标签词与第k个文本类别的相关性参数;
这里,服务器在计算出第i个标签词在第k个文本类别下的文本比重与词比重后,为了兼顾标签词的区别度和覆盖率,计算文本比重与词比重二者的平均值,并将该平均值确定为第i个标签词与第k个文本类别的相关性参数。
需要说明的是,上述相关性参数可以用于表征标签词与文本类别的相关性,考虑了标签词本身和文本分类之间的关系,独立于标签词与某个具体的文本之间的关系,为文本提取标签词提供另一个维度。
在本发明其它实施例中,服务器计算第i个标签词在第k个文本类别下的文本比重与词比重二者的平均数,可以为算数平均数、几何平均数、加权平均数等,本发明实施例不作具体限定。
S104:至少根据第i个标签词与第k个文本类别的相关性参数,提取第k个文本类别下的文本所对应的标签词。
这里,服务器在计算出第i标签词与第k个文本类别的相关性参数之后,可以根据该相关性参数对第k个文本类别下的文本进行标签提取,获得这些文本所对应的一个标签词,也就是将第i个标签词与第k个文本类别下的文本对应起来。
当然,由于一个标签词可以出现在多个文本类别下的文本中,一个文本类别中可以出现多个标签词,那么,为了进一步地提高标签提取的准确性,服务器可以计算多个标签词在第k个文本类别下的文本比重与词比重,进而获得标签库中多个标签词与第k个文本类别的相关性参数,并以此来对第k个文本类别下的文本进行标签提取,获得这些文本所对应的多个标签词。进一步地,服务器还可以计算第i个标签词在多个文本类别下的文本比重与词比重,进而获得该标签词与多个文本类别的相关性参数,并以此来对多个文本类别下的文本进行标签提取,这些文本均与第i个标签词对应。在实际应用中,还存在其它情况,本发明实施例不作具体限定。
例如,图3-1为本发明实施例中第i个标签词与第k个文本类别下的文本之间的关系示意图,参见图3-1所示,在第k个文本类别下共有h个文本,w为小于或者等于M的正整数。服务器在执行上述S101至S104之后,第i个标签词(tagi)可以与这h个文本对应,也就是这w个文本提取出的标签词均为tagi
又如,图3-2为本发明实施例中多个标签词与第k个文本类别下的文本之间的关系示意图,参见图3-2所示,服务器根据多个标签词,如tagi、tagj、tagl这三个标签词对上述h个文本进行标签提取的话,服务器在执行上述S101至S104之后,tagi、tagj、tagl这三个标签词中的一个或者多个可以分别与这h个文本中的文本对应。
在本发明其它实施例中,服务器除了能够根据标签词与文本类别的相关性参数进行标签提取之外,还可以根据标签词与某一个具体文本的相关性参数,如标签词在该文本中出现的位置、次数等,当然,还可以服务器还可以根据其它参数进行标签提取,本发明实施例不作具体限定。
如此,服务器便完成了根据第i个标签词与第k个文本类别的相关性,对该文本类别下的文本进行标签提取的过程。
在本发明实施例中,服务器在分别计算N个标签词中的第i个标签词在S个文本类别中的第k个文本类别下的文本比重和在第k个文本类别下的词比重之后,将文本比重与词比重二者的平均数确定为第i个标签词与第k个文本类别的相关性参数,再至少根据相关性参数,提取第k个文本类别下的文本所对应的标签词,如此,在提取文本的标签词时,既能够保证标签词具有一定的区分度,又能够保证该标签词可以覆盖某一类文本,进而在面对海量文本时能够保证文本标签提取的准确性。
进一步,由于服务器能够自动批量计算标签词与文本类别的相关性参数,那么,与人工标注的方式相比更适合于大数据背景下的标签词自动处理,结合大数据技术,能够在小时级别的时间内完成对百万级别标签与千万级别文章的处理,大大提升了标签提取的效率,保证了文本标签提取的时效性。另外,由于服务器最终输出的标签词与文本类别的相关性参数可以为正整数,也可以为小数,那么,便能够对不同的标签词与不同的文本类别进行更细粒度的区别。
基于前述实施例,在实际应用中,为了更准确地获得第i个标签词与第k个文本类别之间的相关性,可以采用加权平均算法计算第i个标签词与第k个文本类别的相关性参数。
那么,上述S103,还可以包括:获取文本比重对应的第一加权系数和词比重对应的第二加权系数;根据第一加权系数和第二加权系数,计算文本比重和词比重二者的加权平均数;将加权平均数确定为相关性参数。
举例来说,服务器可以获取预先为文本比重配置的第一加权系数α,和为词比重配置的第二加权系数β,然后,采用下述公式(1),计算第i个标签词在第k个文本类别下的文本比重p(ti,ck)与第i个标签词在第k个文本类别下的词比重q(ti,ck)二者的加权平均数w(ti,ck),最终,将w(ti,ck)确定为第i个标签词与第k个文本类别的相关性参数。
w(ti,ck)=α·p(ti,ck)+β·q(ti,ck) (1)
其中,ti为第i个标签词,ck为第k个文本类别,上述i的取值范围为[1,N]的整数,上述k的取值范围为[1,S]的整数;α和β是可调节的加权系数,通常0≤α≤1,0≤β≤1,在缺省情况下α=0.5,β=0.5,如此,最终标签ti与文本类别ck的相关性w(ti,ck)的取值范围在0到1之间。
在本发明其它实施例中,β=1-α。那么,w(ti,ck)可以采用下述公式(2)继计算。
w(ti,ck)=α·p(ti,ck)+(1-α)·q(ti,ck) (2)
在本发明实施例中,由于采用加权平均数作为标签词与文本类别的相关性参数,如此,能够较准确的量化标签和文本类别的相关性,对于与文本类别相关度低的标签词和出现频率低的标签词都进行了降权,进一步地,上述相关性参数叠加原有标签词的量化数据,如在不同文本类别的某个具体文本中出现的位置、次数,能够更好的反应在某个类别文本中的标签的重要程度,从而优化标签提取效果。
另外,在本发明实施例中加权系数能够灵活地调整,以满足不同的应用场景的需求。越高的α值能够保证在同一个类别下,偏生僻的词的相关性分值偏高。
基于前述实施例,在实际应用中,为了提升标签提取的准确性,在计算第i个标签词在第k个文本类别下的文本比重和词比重时,首先需要根据N个标签词对M个文本进行分词。
图4为本发明实施例中计算文本比重和词比重的实现流程示意图,参见图4所示,上述S102可以包括:
S401:将N个标签词输入分词模型;
S402:通过分词模型,对M个文本进行分词;
S403:根据分词结果,分别计算文本比重和词比重。
这里,服务器在分词开始之前,将N个标签词全部导入分词词典,也就是分词模型中,然后,采用该分词模型对M个文本进行分词,最终,根据分词结果,分别计算文本比重和词比重。这样,因为N个标签词在分词前就全部导入分词模型,就能够保证不会把出现在文本中的标签词切割不同的词中,进一步地提升了后续标签提取的准确性。
相应地,上述S403可以包括:根据分词结果,获取第i个标签词在第k个文本类别下的第一文本频率和在第k个文本类别下的第一词频率;根据分词结果,获取第i个标签词在M个文本中的第二文本频率和在M个文本中的第二词频率,文本频率为包含第i个标签词的文本数,词频率为第i个标签词在文本中的出现次数;计算第一文本频率与第二文本频率的比值,获得文本比重;计算第一词频率与第二词频率的比值,获得词比重。
这里,服务器获取第k个文本类别下的文本,然后,根据分词结果,统计第k个文本类别下的文本中包含第i个标签词的文本数,获得第一文本频率,也就是说,在分词后的文本中查找第i个标签词,并统计出现第i个标签词的文本的数量,即第一文本频率。以及根据分词结果,统计M个文本中包含第i个标签词的文本数,获得第二文本频率。在实际应用中,第i个标签词在一个文本中出现多次仅算一次。
这里,服务器在获取第k个文本类别下的文本之后,还可以根据分词结果,统计第k个文本类别下的文本中第i个标签词的出现次数,获得第一词频率;以及根据分词结果,统计M个文本中第i个标签词的出现次数,获得第二词频率。在实际应用中,第i个标签词在一个文本中出现多次计多次。
接下来,服务器执行上述实施例中的S103至S104,以对第k个文本类别下的文本进行标签提取。
基于前述实施例,以具体实例来对上述把文本标签的提取方法进行说明。
图5为本发明实施例中统计标签与文章类别相关性方法的实现流程示意,参见图5所示,针对文本标签提取的需求,假设已经提取了一个基于已经标好文本类别的语料库,统计标签与文章类别相关性的方法,包括:
S501:服务器对语料库中的每个文本进行分词;
S502:服务器对语料库中每个文本类别ck下的所有文本,统计每个标签词ti出现的文本数DC(ti,ck);计算每个标签词ti在全量文本中出现的总文档数对每个标签词,计算该标签词在各个类中出现的比重
S503:服务器对语料库中每个文本类别ck下的所有文本,统计每个标签词ti出现的次数TC(ti,ck);计算每个标签词ti在全量文本中出现的总次数对每个标签词,计算该标签词在各个类中出现的比重
S504:对每个标签词,对于标签与类别的相关性参数定义为w(ti,ck)=α·p(ti,ck)+(1-α)·q(ti,ck)。
需要说明的是,上述S502为图5中所述的标签文本类别相关项,上述S503为图5中所述的标签频度类别相关项。
基于同一发明构思,本发明实施例提供一种文本标签的提取装置,可以应用于上述一个或者多个实施例中所述的服务器,可以与上述实施例中所述的标签提取器一致。
图6为本发明实施例中文本标签的提取装置的结构示意图,参见图6所示,该提取装置600,包括:获取单元601,用于获取M个文本和N个标签词,M个文本包括S个文本类别,M、N、S均为正整数;计算单元602,用于分别计算N个标签词中的第i个标签词在S个文本类别中的第k个文本类别下的文本比重和在第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将文本比重与词比重二者的平均数确定为第i个标签词与第k个文本类别的相关性参数;提取单元603,用于至少根据相关性参数,提取第k个文本类别下的文本所对应的标签词。
在本发明其它实施例中,计算单元,具体用于获取文本比重对应的第一加权系数和词比重对应的第二加权系数;根据第一加权系数和第二加权系数,计算文本比重和词比重二者的加权平均数;将加权平均数确定为相关性参数。
在本发明其它实施例中,提取装置,还包括:分词单元,用于将N个标签词输入分词模型;通过分词模型,对M个文本进行分词;计算单元,还用于根据分词结果,分别计算文本比重和词比重。
在本发明其它实施例中,计算单元,具体用于根据分词结果,获取第i个标签词在第k个文本类别下的第一文本频率和在第k个文本类别下的第一词频率;根据分词结果,获取第i个标签词在M个文本中的第二文本频率和在M个文本中的第二词频率,文本频率为包含第i个标签词的文本数,词频率为第i个标签词在文本中的出现次数;计算第一文本频率与第二文本频率的比值,获得文本比重;计算第一词频率与第二词频率的比值,获得词比重。
在本发明其它实施例中,计算单元,具体用于获取第k个文本类别下的文本;根据分词结果,统计第k个文本类别下的文本中包含第i个标签词的文本数,获得第一文本频率;还用于根据分词结果,统计M个文本中包含第i个标签词的文本数,获得第二文本频率。
在本发明其它实施例中,计算单元,具体用于获取第k个文本类别下的文本;根据分词结果,统计第k个文本类别下的文本中第i个标签词的出现次数,获得第一词频率;还用于根据分词结果,统计M个文本中第i个标签词的出现次数,获得第二词频率。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
基于同一发明构思,本发明实施例提供一种服务器,与上述一个或者多个实施例中所述的服务器一致。
图7为本发明实施例中服务器的另一种结构示意图,参见图7所示,该服务器700可以包括:处理器701、至少一个通信总线702、用户接口703、至少一个外部通信接口704和存储器705。其中,通信总线702用于实现这些组件之间的连接通信。其中,用户接口703可以包括显示屏和键盘。外部通信接口704可选的可以包括标准的有线接口和无线接口。
在本发明实施例中,上述存储器,用于存储M个文本和N个标签词,M个文本包括S个文本类别,M、N、S均为正整数;上述处理器,用于获取M个文本和N个标签词;分别计算N个标签词中的第i个标签词在S个文本类别中的第k个文本类别下的文本比重和在第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将文本比重与词比重二者的平均数确定为第i个标签词与第k个文本类别的相关性参数;至少根据相关性参数,提取第k个文本类别下的文本所对应的标签词。
在本发明其它实施例中,上述处理器,具体用于获取文本比重对应的第一加权系数和词比重对应的第二加权系数;根据第一加权系数和第二加权系数,计算文本比重和词比重二者的加权平均数;将加权平均数确定为相关性参数。
在本发明其它实施例中,上述处理器,还用于将N个标签词输入分词模型;通过分词模型,对M个文本进行分词;根据分词结果,分别计算文本比重和词比重。
在本发明其它实施例中,上述处理器,具体用于根据分词结果,获取第i个标签词在第k个文本类别下的第一文本频率和在第k个文本类别下的第一词频率;根据分词结果,获取第i个标签词在M个文本中的第二文本频率和在M个文本中的第二词频率,文本频率为包含第i个标签词的文本数,词频率为第i个标签词在文本中的出现次数;计算第一文本频率与第二文本频率的比值,获得文本比重;计算第一词频率与第二词频率的比值,获得词比重。
在本发明其它实施例中,上述处理器,具体用于获取第k个文本类别下的文本;根据分词结果,统计第k个文本类别下的文本中包含第i个标签词的文本数,获得第一文本频率;还用于根据分词结果,统计M个文本中包含第i个标签词的文本数,获得第二文本频率。
在本发明其它实施例中,上述处理器,具体用于获取第k个文本类别下的文本;根据分词结果,统计第k个文本类别下的文本中第i个标签词的出现次数,获得第一词频率;还用于根据分词结果,统计M个文本中第i个标签词的出现次数,获得第二词频率。
在本发明其它实施例中,处理器,用于将样本参数按照时间戳进行存储。在实际应用中,上述处理器可以为特定用途集成电路(ASIC,Application Specific IntegratedCircuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑装置(PLD,Programmable LogicDevice)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、中央处理器(CPU,Central Processing Unit)、控制器、微控制器、微处理器中的至少一种。存储器可以为移动存储设备、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等。可以理解地,实现上述处理器和存储器功能的电子器件还可以为其它,本发明实施例不作具体限定。
这里需要指出的是:以上服务器实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明服务器实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种文本标签的提取方法,其特征在于,包括:
获取M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;
分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;
将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;
至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数,包括:
获取所述文本比重对应的第一加权系数和所述词比重对应的第二加权系数;
根据所述第一加权系数和所述第二加权系数,计算所述文本比重和所述词比重二者的加权平均数;
将所述加权平均数确定为所述相关性参数。
3.根据权利要求2所述的方法,其特征在于,所述第一加权系数与第二加权系数之和等于1。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,包括:
将所述N个标签词输入分词模型;
通过所述分词模型,对所述M个文本进行分词;
根据分词结果,分别计算所述文本比重和所述词比重。
5.根据权利要求4所述的方法,其特征在于,所述根据分词结果,分别计算所述文本比重和所述词比重,包括:
根据所述分词结果,获取所述第i个标签词在所述第k个文本类别下的第一文本频率和在所述第k个文本类别下的第一词频率;
根据所述分词结果,获取所述第i个标签词在所述M个文本中的第二文本频率和在所述M个文本中的第二词频率,所述文本频率为包含第i个标签词的文本数,所述词频率为所述第i个标签词在文本中的出现次数;
计算所述第一文本频率与所述第二文本频率的比值,获得所述文本比重;
计算所述第一词频率与所述第二词频率的比值,获得所述词比重。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分词结果,获取所述第i个标签词在所述第k个文本类别下的第一文本频率,包括:
获取所述第k个文本类别下的文本;
根据所述分词结果,统计所述第k个文本类别下的文本中包含所述第i个标签词的文本数,获得所述第一文本频率;
相应地,所述根据所述分词结果,获取所述第i个标签词在所述M个文本中的第二文本频率,包括:
根据所述分词结果,统计所述M个文本中包含所述第i个标签词的文本数,获得所述第二文本频率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述分词结果,获取所述第i个标签词在所述第k个文本类别下的第一词频率,包括:
获取所述第k个文本类别下的文本;
根据所述分词结果,统计所述第k个文本类别下的文本中所述第i个标签词的出现次数,获得所述第一词频率;
相应地,所述根据所述分词结果,获取所述第i个标签词在所述M个文本中的第二词频率,包括:
根据所述分词结果,统计所述M个文本中所述第i个标签词的出现次数,获得所述第二词频率。
8.一种文本标签的提取装置,其特征在于,包括:
获取单元,用于获取M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;
计算单元,用于分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;
提取单元,用于至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
9.根据权利要求8所述的装置,其特征在于,所述计算单元,具体用于获取所述文本比重对应的第一加权系数和所述词比重对应的第二加权系数;根据所述第一加权系数和所述第二加权系数,计算所述文本比重和所述词比重二者的加权平均数;将所述加权平均数确定为所述相关性参数。
10.根据权利要求8或9所述的装置,其特征在于,所述装置,还包括:分词单元,用于将所述N个标签词输入分词模型;通过所述分词模型,对所述M个文本进行分词;所述计算单元,还用于根据分词结果,分别计算所述文本比重和所述词比重。
11.根据权利要求8所述的装置,其特征在于,所述计算单元,具体用于根据所述分词结果,获取所述第i个标签词在所述第k个文本类别下的第一文本频率和在所述第k个文本类别下的第一词频率;根据所述分词结果,获取所述第i个标签词在所述M个文本中的第二文本频率和在所述M个文本中的第二词频率,所述文本频率为包含第i个标签词的文本数,所述词频率为所述第i个标签词在文本中的出现次数;计算所述第一文本频率与所述第二文本频率的比值,获得所述文本比重;计算所述第一词频率与所述第二词频率的比值,获得所述词比重。
12.根据权利要求11所述的装置,其特征在于,所述计算单元,具体用于获取所述第k个文本类别下的文本;根据所述分词结果,统计所述第k个文本类别下的文本中包含所述第i个标签词的文本数,获得所述第一文本频率;还用于根据所述分词结果,统计所述M个文本中包含所述第i个标签词的文本数,获得所述第二文本频率。
13.根据权利要求11所述的装置,其特征在于,所述计算单元,具体用于获取所述第k个文本类别下的文本;根据所述分词结果,统计所述第k个文本类别下的文本中所述第i个标签词的出现次数,获得所述第一词频率;还用于根据所述分词结果,统计所述M个文本中所述第i个标签词的出现次数,获得所述第二词频率。
14.一种服务器,其特征在于,包括:
存储器,用于存储M个文本和N个标签词,所述M个文本包括S个文本类别,M、N、S均为正整数;
处理器,用于获取所述M个文本和所述N个标签词;分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重,i为小于或者等于N的正整数,k为小于或者等于S的正整数;将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数;至少根据所述相关性参数,提取所述第k个文本类别下的文本所对应的标签词。
CN201710159896.1A 2017-03-17 2017-03-17 一种文本标签的提取方法、装置及服务器 Active CN108628875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710159896.1A CN108628875B (zh) 2017-03-17 2017-03-17 一种文本标签的提取方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710159896.1A CN108628875B (zh) 2017-03-17 2017-03-17 一种文本标签的提取方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108628875A true CN108628875A (zh) 2018-10-09
CN108628875B CN108628875B (zh) 2022-08-30

Family

ID=63686890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710159896.1A Active CN108628875B (zh) 2017-03-17 2017-03-17 一种文本标签的提取方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108628875B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388714A (zh) * 2018-10-23 2019-02-26 东软集团股份有限公司 文本标注方法、装置、设备和计算机可读存储介质
CN109976622A (zh) * 2019-04-04 2019-07-05 掌阅科技股份有限公司 书籍标签确定方法、电子设备及计算机存储介质
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619410A (en) * 1993-03-29 1997-04-08 Nec Corporation Keyword extraction apparatus for Japanese texts
US20070050708A1 (en) * 2005-03-30 2007-03-01 Suhit Gupta Systems and methods for content extraction
CN101000628A (zh) * 2006-01-13 2007-07-18 国际商业机器公司 错误超链接检测设备及其方法
US20090254543A1 (en) * 2008-04-03 2009-10-08 Ofer Ber System and method for matching search requests and relevant data
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN102654861A (zh) * 2011-03-01 2012-09-05 腾讯科技(深圳)有限公司 网页抽取准确性计算方法及系统
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN103377185A (zh) * 2012-04-24 2013-10-30 腾讯科技(深圳)有限公司 一种为短文本自动添加标签的方法及装置
CN103761226A (zh) * 2013-12-30 2014-04-30 武汉传神信息技术有限公司 按文档的字符属性碎片化的方法
US9002848B1 (en) * 2011-12-27 2015-04-07 Google Inc. Automatic incremental labeling of document clusters
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619410A (en) * 1993-03-29 1997-04-08 Nec Corporation Keyword extraction apparatus for Japanese texts
US20070050708A1 (en) * 2005-03-30 2007-03-01 Suhit Gupta Systems and methods for content extraction
CN101000628A (zh) * 2006-01-13 2007-07-18 国际商业机器公司 错误超链接检测设备及其方法
US20090254543A1 (en) * 2008-04-03 2009-10-08 Ofer Ber System and method for matching search requests and relevant data
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN102654861A (zh) * 2011-03-01 2012-09-05 腾讯科技(深圳)有限公司 网页抽取准确性计算方法及系统
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
US9002848B1 (en) * 2011-12-27 2015-04-07 Google Inc. Automatic incremental labeling of document clusters
CN103377185A (zh) * 2012-04-24 2013-10-30 腾讯科技(深圳)有限公司 一种为短文本自动添加标签的方法及装置
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
CN103761226A (zh) * 2013-12-30 2014-04-30 武汉传神信息技术有限公司 按文档的字符属性碎片化的方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗燕等: "基于词频统计的文本关键词提取方法", 《计算机应用》 *
郭庆琳等: "基于文本聚类的自动文摘系统的研究与实现", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388714A (zh) * 2018-10-23 2019-02-26 东软集团股份有限公司 文本标注方法、装置、设备和计算机可读存储介质
CN109388714B (zh) * 2018-10-23 2020-11-24 东软集团股份有限公司 文本标注方法、装置、设备和计算机可读存储介质
CN109976622A (zh) * 2019-04-04 2019-07-05 掌阅科技股份有限公司 书籍标签确定方法、电子设备及计算机存储介质
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置
CN113919361B (zh) * 2021-09-13 2024-07-16 聚好看科技股份有限公司 一种文本分类方法和装置

Also Published As

Publication number Publication date
CN108628875B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN110472027B (zh) 意图识别方法、设备及计算机可读存储介质
CN108491388B (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN104572735B (zh) 一种图片标注词推荐方法及装置
CN105893533A (zh) 一种文本匹配方法及装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
WO2014127673A1 (en) Method and apparatus for acquiring hot topics
CN108509499A (zh) 一种搜索方法及装置,电子设备
CN107451148A (zh) 一种视频分类方法、装置及电子设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
CN107665221A (zh) 关键词的分类方法和装置
CN107679213A (zh) 一种习题搜索方法、系统及终端设备
CN110046251A (zh) 社区内容风险评估方法及装置
CN107798622A (zh) 一种识别用户意图的方法和装置
CN107832338A (zh) 一种识别核心产品词的方法和系统
US20170011480A1 (en) Data analysis system, data analysis method, and data analysis program
CN108628875A (zh) 一种文本标签的提取方法、装置及服务器
CN114357184B (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN110347934A (zh) 一种文本数据过滤方法、装置及介质
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant