CN112560448A - 一种新词提取方法及装置 - Google Patents

一种新词提取方法及装置 Download PDF

Info

Publication number
CN112560448A
CN112560448A CN202110190709.2A CN202110190709A CN112560448A CN 112560448 A CN112560448 A CN 112560448A CN 202110190709 A CN202110190709 A CN 202110190709A CN 112560448 A CN112560448 A CN 112560448A
Authority
CN
China
Prior art keywords
phrase
frequency
article
word
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110190709.2A
Other languages
English (en)
Other versions
CN112560448B (zh
Inventor
蓝建敏
池沐霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202110190709.2A priority Critical patent/CN112560448B/zh
Publication of CN112560448A publication Critical patent/CN112560448A/zh
Application granted granted Critical
Publication of CN112560448B publication Critical patent/CN112560448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种新词提取方法,包括:获取给定语料,并对给定语料进行分词处理,获得若干第一词组;其中,给定语料包括若干篇文章;计算每一第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;计算每一第二词组在给定语料中各文章的篇频;其中,篇频为词组在一篇文章中出现的次数;根据各文章的文章影响力对每一第二词组的各篇频进行加权计算,获得各第二词组的加权篇频;根据每一第二词组的加权篇频进行排序,并根据排序结果提取出新词。通过实施本发明实施例能够避免总词频较低的词被遗漏,提高新词提取的准确性。

Description

一种新词提取方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种新词提取方法及装置。
背景技术
在信息爆炸的时代各种新词层出不穷,新词的提取对于诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域有重要意义。现有技术中对新词的提取主要通过对给定语料如以多篇文章作为给定语料,然后进行分词,并计算词在所给定的语料中的总词频,最终根据总体词频进行排序并提取,但采用上述方式进行新词提取,会导致一些总词频较小的新词,但是运用广泛,流行程度高的词组被忽略无法提取出来。例如假设给定语料有10篇文章,词A仅在其中两篇文章出现过,出现的总次数为50次,而词B在10篇文章均有出现,出现的总次数为40次,这时词B在10篇文章中均有出现说明词B的运用广泛,流行程度高应该被提取出来,但若采用现有技术的方案由于词A的总词频高于词B,所以在最终排序时A会排在词B前面,所以最终在提取新词的时候词A更容易被提取出来,而词B会容易被遗漏,进而导致新词提取不准确。这种情况在以法律法规、专项政策、领导演讲稿等公文作为语料的时候尤其突出,例如现如今各个政府领导在演讲中经常会提及的“绿水青山,就是金山银山”这句话,这句话经常出现在不同领导的演讲稿中,运用广泛,但是这句话起一个纲领的作用在每个领导的演讲稿中可能只会出现一两次,不会在同一篇演讲稿中被频繁提及。若以各不同领导的演讲稿为给定语料,采用现有的新词提取方法,会导致“绿水青山,就是金山银山”内的词组很容易被遗漏不会被提取出来。
发明内容
本发明实施例提供一种新词提取方法及装置,能够避免总词频较低的词被遗漏,提高新词提取的准确性。
本发明一实施例提供一种新词提取方法,包括:
获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章;
计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;
计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数;
根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频;
根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
进一步的,通过以下公式计算一所述文章的文章影响力:
Figure 561556DEST_PATH_IMAGE001
其中,
Figure 323187DEST_PATH_IMAGE002
为待评估文章、
Figure DEST_PATH_IMAGE003
为待评估文章的文章影响力、
Figure 669855DEST_PATH_IMAGE004
为引用了待评估文章
Figure 144698DEST_PATH_IMAGE002
的文章集合、
Figure DEST_PATH_IMAGE005
Figure 736479DEST_PATH_IMAGE004
集合中的一篇文章、
Figure 980379DEST_PATH_IMAGE003
为文章
Figure 232368DEST_PATH_IMAGE006
的影响力,
Figure DEST_PATH_IMAGE007
为文章
Figure 194508DEST_PATH_IMAGE005
所引用的文章数量。
进一步的,在获得若干第二词组之后,在计算每一所述第二词组在所述给定语料中各文章的篇频之前,还包括:剔除开头或结尾为停用词的第二词组。
进一步的,在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
在上述方法项实施例的基础上,本发明对应提供了装置项实施例:
本发明另一实施例提供了一种新词提取装置,包括分词处理模块、第二词组提取模块、篇频计算模块、加权篇频计算模块以及新词提取模块;
所述分词处理模块,用于获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章;
所述第二词组提取模块,用于计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;
所述篇频计算模块,用于计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数;
所述加权篇频计算模块,用于根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频;
所述新词提取模块,用于根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
进一步的,还包括停用词剔除模块;所述停用词剔除模块,用于剔除开头或结尾为停用词的第二词组。
进一步的,还包括:新词分类模块;所述新词分类模块,用于在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
通过实施本发明实施例具有如下有益效果:
本发明实施例提供了一种新词提取方法及装置,所述方法将若干篇文章组成给定语料,然后对给定语料进行分词,获得各个第一词组,紧接着计算各第一词组的自由度和凝固度,根据自由度和凝固度提取出若干第二词组,然后计算每一第二词组的在每一篇文章中的篇频,并根据每一篇文章的影响力计算出每一第二词组的加权篇频,最终根据加权篇频进行排序,提取出新词。与现有技术相比,本发明在排序时不再根据词组的在给定语料中总体词频进行排序,而是考虑到了各词组在语料中的分布情况,分别计算出词组在给定语料中各篇文章中的篇频,然后依据各篇文章的影响力对各篇频进行加权计算,得出一个加权篇频,根据加权篇频进行排序,这样在提取新词时,综合考虑了词组在给定语料中各文章的分布情况以及各文章的影响力,从而提高了新词提取的准确性,避免了应用广泛,流行度高但是总体词频小的新词被遗漏。
附图说明
图1是本发明一实施例提供的一种新词提取方法的流程示意图。
图2是本发明一实施例提供的一种新词提取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种新词提取方法,包括:
S101:获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章。
S102:计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组。
S103:计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数。
S104:根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频。
S105:根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
对于步骤S101、在本发明中选取各类文章组合成上述给定语料;优选的上述文章可以为法律法规文件、专项政策文件以及政府官员演讲稿件等。
对于步骤S102、首先是凝固度的计算;进行分词后所获得的每个第一词组是由各个不成词的“单字”组成,或由“单字”和“子级词语”共同组成;例如假设一个第一词组为“电影院”那么这个第一词组的组成方式可以由:单字“电”和子级词语“影院”组成,也可以有单字“院”和子级词语“电影”组成;而如果一个第一词组为“电影”那么其由两个单字“电”和“影”组成;
将“单字”和“子级词语”定义为第一词组的各个组成元素;
对于只由“单字”组成的第一词组,在计算凝固度时,由于只有一种组成方式,所以直接将各个“组成元素”在语料中的词频(即在语料中出现的次数)相乘之后除以第一词组在语料中的词频,既可得到对应的凝固度。
例如假设第一词组为“电影”那么其凝固度为:
C(电影)=(P(电)*P(影))÷P(电影);
C(电影)为第一词组“电影”的凝固度,P(电)为“电”字在整个给定语料中出现的次数(即“电”在给定语料中的词频);P(影)为“影”字在整个给定语料中出现的次数;P(电影)为“电影”这个词组在整个给定语料中出现的次数。
对于由“单字”和“子级词语”共同组成的第一词组,在计算凝固度时,先分别计算各中组合方式对应的凝固度,选取凝固度最小的作为第一词组的凝固度。同样在计算每种组合方式的凝固度,也是将各个“组成元素”在语料中的词频(即在语料中出现的次数)相乘之后除以第一词组在语料中的词频。
例如第一词组为“电影院”,那么其有两种组成方式:第一种由组成元素 “电”和组成元素“影院”组成,第二种由组成元素“院”和组成元素“电影”组成;
则第一种组成方式的凝固度C1=(P(电)*P(影院))÷p(电影院);
则第一种组成方式的凝固度C2=(P(电影)*P(院))÷p(电影院);
若C1≥C2,则C(电影院)=C2;若C1<C2则C(电影院)=C1;
C(电影院)为第一词组“电影院”的凝固度,P(电)为“电”字在整个给定语料中出现的次数;P(院)为“院”字在整个给定语料中出现的次数;P(影院)为“影院”这个词在整个给定语料中出现的次数;P(电影)为“电影”这个词在整个给定语料中出现的次数;P(电影院)为“电影院”这个词组在整个给定语料中出现的次数。
紧接着是计算自由度:
通过以下公式计算第一词组U的左信息熵;
Figure 324400DEST_PATH_IMAGE008
;
式中
Figure DEST_PATH_IMAGE009
为第一词组U的左信息熵、i为在第一词组U左边的词、
Figure 688386DEST_PATH_IMAGE010
是词i紧靠第一词组U左边出现的次数,与紧靠第一词组U左边出现的所有词的总次数之间比值;例如第一词组为“电影院”,有个语料仅为“我们去电影院看电影”“我们在电影院里”;在这句语料中“去”和“在”即为上述词i,第一词组“电影院”的左信息熵为:
Figure DEST_PATH_IMAGE011
Figure 173594DEST_PATH_IMAGE012
;
Figure 560713DEST_PATH_IMAGE013
;
Figure 494296DEST_PATH_IMAGE014
为“去”字紧靠第一词组“电影院”左边出现的次数,
Figure 447208DEST_PATH_IMAGE015
为“在”字紧靠第一词组“电影院”左边出现的次数。
通过以下公式计算第一词组U的右信息熵;
Figure 306580DEST_PATH_IMAGE016
;
式中
Figure 977733DEST_PATH_IMAGE017
为第一词组U的右信息熵、
Figure 151225DEST_PATH_IMAGE018
为在第一词组U右边的词、
Figure 725688DEST_PATH_IMAGE019
为词
Figure 755961DEST_PATH_IMAGE020
紧靠第一词组U右边出现的次数,与紧靠第一词组U右边出现的所有词的总次数之间比值;例如第一词组为“电影院”,有个语料仅为“我们去电影院看电影”“我们在电影院里”;在这句语料中“看”和“里”即为上述词
Figure 852093DEST_PATH_IMAGE020
,第一词组“电影院”的右信息熵为:
Figure 626014DEST_PATH_IMAGE021
Figure 553519DEST_PATH_IMAGE022
为“看”字紧靠第一词组“电影院”右边出现的次数,
Figure 692376DEST_PATH_IMAGE023
为“里”字紧靠第一词组“电影院”右边出现的次数。
比较左信息熵和右信息熵的大小取较小的作为第一词组的自由度。
通过上述方式计算出每一第一词组的自由度和凝固度,然后将满足预先设定的阈值条件(例如为,凝固度大于2.5,自由度大于40)的第一词组选取出来,获得上述若干第二词组;
对于步骤S103,在一个优选的实施例中,在获得若干第二词组之后,在计算每一所述第二词组在所述给定语料中各文章的篇频之前,还包括:剔除开头或结尾为停用词的第二词组。通过剔除停用词提高新词提取的准确性。
紧接计算剩余的每一第二词组在给定语料中各文章的篇频。假设给定语料有5篇文章,第二词组“电影院”在每篇文章均有出现,出现的次数分别为,5次、6次、3次、2次和10次,那么第二词组“电影院”对应的各篇频为:5、6、3、2以及10。
对于步骤S104、在一个优选的实施例中,通过以下公式计算一所述文章的文章影响力:
Figure 839586DEST_PATH_IMAGE024
其中,
Figure 151618DEST_PATH_IMAGE002
为待评估文章、
Figure 136892DEST_PATH_IMAGE003
为待评估文章的文章影响力、
Figure 508968DEST_PATH_IMAGE004
为引用了待评估文章
Figure 642009DEST_PATH_IMAGE002
的文章集合、
Figure 259197DEST_PATH_IMAGE006
Figure 98977DEST_PATH_IMAGE004
集合中的一篇文章、
Figure 641954DEST_PATH_IMAGE025
为文章
Figure 996712DEST_PATH_IMAGE006
的影响力,
Figure 853809DEST_PATH_IMAGE007
为文章
Figure 610413DEST_PATH_IMAGE005
所引用的文章数量。通过上述式子进行迭代多次计算(优选的为10次)然后将得到的
Figure 825756DEST_PATH_IMAGE003
根据正态分布缩放至0-3的区间,获得待评估文章u的文章影响力。上述公式为一迭代公式,对于初始的各文章的影响力可设置为1。
在得出每个文章的影响力后然后与对应篇频相乘得到第二词组的加权篇频。
例如:第二词组“电影院”对应的各篇频为:5、6、3、2以及10。对应的各文章的影响力为:1、1.5、2、2.5、3,那么第二词组“电影院”的加权篇频为:5*1+6*1.5+3*2+2*2.5+3*10=55。
对于步骤S105、具体的,在一个优选的实施例中,按各第二词组的加权篇频按从大到小进行排序,然后提取前95%的词,作为所提取的新词。
在一个优选的实施例中,在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
具体的,每篇文章都提前设置有一个领域类型标识,统计一新词所在的各个文章的领域类型,将文章最多的领域类型作为所提取的新词的标签
例如:有个词出在5篇文章中出现过,3次出现在生物领域相关的文章中,对该词则打上生物领域的标签分类。
在实际情况中,不同文章的影响力不同。有的文章被广泛引用影响力强,那么在这些文章内所出现的新词同样会被广泛运用,流行程度高。那么在这些影响力强的文章内出现的新词就是比较重要的新词,在新词提取的时候应该优先被提取出来。而有的文章几乎没有被引用,影响力低,那么在这些文章内所出现的新词应当视为小众领域的新词,流行程度较低,在新词提取时优先级应低于在影响力强的文章内出现的新词。因此本发明根据词组在每篇文章出现的次数(篇频)以及对应文章的影响力,计算每一第二词组的加权篇频,从而综合衡量每个词组的影响力,将最终的加权篇频作为排序的依据进行新词提取,相比与现有的仅靠词频进行新词提取的方案来说,本申请所提取出来的新词运用更广泛,流行程度更高,更加合理从而提高了新词的准确性,避免了一些被广泛运用的新词,但是在给定语料中总体词频较小的新词被遗漏。另外对于法律法规、专项政策和政府领导演讲稿件这些稿件的新词提取,相比与现有技术能够跟准确的提取出新词。
如图2所示,在上述方法项实施例的基础上,本发明对应提供了装置项实施例。
本发明另一实施例提供了一种新词提取装置,包括分词处理模块、第二词组提取模块、篇频计算模块、加权篇频计算模块以及新词提取模块;
所述分词处理模块,用于获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章;
所述第二词组提取模块,用于计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;
所述篇频计算模块,用于计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数;
所述加权篇频计算模块,用于根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频;
所述新词提取模块,用于根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
在一个优选的实施例中,还包括停用词剔除模块;所述停用词剔除模块,用于剔除开头或结尾为停用词的第二词组。
在一个优选的实施例中,还包括:新词分类模块;所述新词分类模块,用于在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
需说明的是,上述装置项实施例是与本发明实施例相对应的,其能够实现本发明任意一项方法项实施例所述的新词提取方法。另,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种新词提取方法,其特征在于,包括:
获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章;
计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;
计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数;
根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频;
根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
2.如权利要求1所述的新词提取方法,其特征在于,通过以下公式计算一所述文章的文章影响力:
Figure 667035DEST_PATH_IMAGE001
其中,
Figure 500998DEST_PATH_IMAGE002
为待评估文章、
Figure 15419DEST_PATH_IMAGE003
为待评估文章的文章影响力、
Figure 897924DEST_PATH_IMAGE004
为引用了待评估文章
Figure 312725DEST_PATH_IMAGE005
的文章集合、
Figure 317590DEST_PATH_IMAGE006
Figure 755524DEST_PATH_IMAGE007
集合中的一篇文章、
Figure 238458DEST_PATH_IMAGE008
为文章
Figure 274810DEST_PATH_IMAGE009
的影响力,
Figure 388259DEST_PATH_IMAGE010
为文章
Figure 438124DEST_PATH_IMAGE011
所引用的文章数量。
3.如权利要求1所述的新词提取方法,其特征在于,在获得若干第二词组之后,在计算每一所述第二词组在所述给定语料中各文章的篇频之前,还包括:
剔除开头或结尾为停用词的第二词组。
4.如权利要求1所述的新词提取方法,其特征在于,还包括:在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
5.一种新词提取装置,其特征在于,包括分词处理模块、第二词组提取模块、篇频计算模块、加权篇频计算模块以及新词提取模块;
所述分词处理模块,用于获取给定语料,并对所述给定语料进行分词处理,获得若干第一词组;其中,所述给定语料包括若干篇文章;
所述第二词组提取模块,用于计算每一所述第一词组的凝固度和自由度,继而提取凝固度和自由度符合预设阈值条件的若干第一词组,作为第二词组;
所述篇频计算模块,用于计算每一所述第二词组在所述给定语料中各文章的篇频;其中,所述篇频为词组在一篇文章中出现的次数;
所述加权篇频计算模块,用于根据各所述文章的文章影响力对每一所述第二词组的各篇频进行加权计算,获得各所述第二词组的加权篇频;
所述新词提取模块,用于根据每一所述第二词组的加权篇频进行排序,并根据排序结果提取出新词。
6.如权利要求5所述的新词提取装置,其特征在于,还包括停用词剔除模块;所述停用词剔除模块,用于剔除开头或结尾为停用词的第二词组。
7.如权利要求5所述的新词提取装置,其特征在于,还包括:新词分类模块;
所述新词分类模块,用于在提取出所述新词后,根据各所述新词所属文章的领域类型,设置所述新词的类别标签,对所述新词进行分类。
CN202110190709.2A 2021-02-20 2021-02-20 一种新词提取方法及装置 Active CN112560448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110190709.2A CN112560448B (zh) 2021-02-20 2021-02-20 一种新词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110190709.2A CN112560448B (zh) 2021-02-20 2021-02-20 一种新词提取方法及装置

Publications (2)

Publication Number Publication Date
CN112560448A true CN112560448A (zh) 2021-03-26
CN112560448B CN112560448B (zh) 2021-06-22

Family

ID=75036017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110190709.2A Active CN112560448B (zh) 2021-02-20 2021-02-20 一种新词提取方法及装置

Country Status (1)

Country Link
CN (1) CN112560448B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186557A (zh) * 2022-02-17 2022-03-15 阿里巴巴达摩院(杭州)科技有限公司 主题词确定方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN105955950A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 新词发现方法及装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN110110322A (zh) * 2019-03-29 2019-08-09 泰康保险集团股份有限公司 网络新词发现方法、装置、电子设备及存储介质
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN105955950A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 新词发现方法及装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN110110322A (zh) * 2019-03-29 2019-08-09 泰康保险集团股份有限公司 网络新词发现方法、装置、电子设备及存储介质
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石景: "基于社交媒体文本的网络新词识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186557A (zh) * 2022-02-17 2022-03-15 阿里巴巴达摩院(杭州)科技有限公司 主题词确定方法、设备及存储介质

Also Published As

Publication number Publication date
CN112560448B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN111078943B (zh) 一种视频文本摘要生成方法及装置
WO2019076191A1 (zh) 关键词提取方法和装置、存储介质及电子装置
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN108595679B (zh) 一种标签确定方法、装置、终端和存储介质
CN103473380B (zh) 一种计算机文本情感分类方法
CN105045900A (zh) 数据提取的方法及装置
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN108536667A (zh) 中文文本识别方法及装置
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN112560448B (zh) 一种新词提取方法及装置
CN106202200A (zh) 一种基于固定主题的文本情感倾向性分类方法
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
CN104572736A (zh) 基于社交网络的关键词提取方法及装置
CN109446520B (zh) 用于构建知识库的数据聚类方法及装置
CN113992944A (zh) 视频编目方法、装置、设备、系统及介质
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant