CN108829658B - 新词发现的方法及装置 - Google Patents

新词发现的方法及装置 Download PDF

Info

Publication number
CN108829658B
CN108829658B CN201810409083.8A CN201810409083A CN108829658B CN 108829658 B CN108829658 B CN 108829658B CN 201810409083 A CN201810409083 A CN 201810409083A CN 108829658 B CN108829658 B CN 108829658B
Authority
CN
China
Prior art keywords
candidate
word
words
entropy
candidate words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810409083.8A
Other languages
English (en)
Other versions
CN108829658A (zh
Inventor
江跃华
周二亮
武树超
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tianliang Education Technology Co ltd
Original Assignee
Shijiazhuang Tianliang Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tianliang Education Technology Co ltd filed Critical Shijiazhuang Tianliang Education Technology Co ltd
Priority to CN201810409083.8A priority Critical patent/CN108829658B/zh
Publication of CN108829658A publication Critical patent/CN108829658A/zh
Application granted granted Critical
Publication of CN108829658B publication Critical patent/CN108829658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理领域,尤其涉及一种新词发现方法及装置,提供了一种在舆情处理和挖掘中,对于时间序列的舆情文本进行新词发现的方法。该方法包括:对当前日期的舆情文本进行CRF分词和预处理。统计候选词的左右熵和互信息,计算成词概率。将当前日期的候选词与以前的候选词比较,选出左右熵和互信息变化较大的候选词,做为新词输出。本发明有效的利用信息熵和互信息,在时间维度上进行分析和挖掘新词,可有效提高新词发现的准确度。

Description

新词发现的方法及装置
技术领域
本发明属于自然语言处理的舆情挖掘领域,尤其涉及一种新词发现方法及装置。
背景技术
随着社会的飞速发展,尤其是互联网的广泛使用,新词语不断地在日常生活中涌现出来。每时每刻都会有大量的社交媒体平台产生的海量话题文本,人们通过媒体获得信息,发布信息,进而汇聚了大量的舆情信息。这些舆情信息通常会产生一些新的词汇,往往背后代表着某个热点事件。尤其是在网络舆情的挖掘工作中,发现新的词汇往往会使舆情分析更加精准,搜集和整理这些新词语,是中文信息处理中的一个重要研究课题,并且在中文词语的切分中有着重要的作用。而且在中文新闻和社交媒体中存在的海量的、有丰富内容含义的文本资源,对其进行文本的新词发现与舆情挖掘研究是非常有必要的。
在舆情挖掘中,词汇作为最小语义单元,其准确性,及时性将会直接影响后续的文本处理与分析。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词等其它中文信息处理任务的性能。然而新词发现研究仍然存在一些问题:一是新词发现的效果不够理想,实际应用的时候常常需要人工干预;二是在微博等互联网语料上进行新词发现的研究比较少。在对中文文本新词发现的方面还需进有一步的研究。三是现有的新词发现往往都需要大量的舆情文本,处理费时费力,计算成本较高。
发明内容
本发明所要解决的技术问题主要是提升新词发现的准确度,降低计算成本。
为解决上述技术问题,本发明系统实施提供了一种新词发现的方法,所述的新词发现方法包括以下步骤:
S1、对每日舆情进行读取文本,使用CRF算法进行分词处理,剔除掉非中文字符,并替换成“<end>”自定义特殊字符;
S2、计算候选词的左右信息熵和互信息,以及候选词的内部熵,按照设定条件过滤不能成词候选词,并将计算结果排序输出;
S3、遍历从每日舆情中提取出来的候选词,与总候选词集比较左右熵和互信息,选出变化较大的候选词,增加该候选词的分数,最后将计算结果进行排序输出。
进一步优化本技术方案,所述S1还包括在进行文本的分词、替换非中文字符之后,按照分词顺序两两组合,并使用双数组trie树进行存储;其中树中每个节点存储的是从根节点到该节点组成的候选词,在文本中出现的次数。
进一步优化本技术方案,所述S2还包括计算各个候选词的互信息,去除所述互信息在设定的阈值之外的候选词串;
计算候选词的信息熵,以及候选词左字串的右熵和候选词右字串的左熵,即候选词内部熵,剔除在所设定的阈值之外的候选词串;对候选词的左右字串进行停用词过滤,只要候选词其中任意左右字串包含已有的停用词,则剔除该候选词。
进一步优化本技术方案,所述S3还包括对当前日期选出的候选词与总候选词集比较,通过对当前日期的舆情文本所计算的候选词分数进行排序,只取一定数量的排名靠前的候选词,然后遍历当前日期的候选词与总候选词集比较互信息和左右熵,计算综合变化得分,若得分超过所设定阈值,则对这个候选词进行加分;最后对所有计算后的候选词集进行排序,取一定数量的排名靠前的候选词作为新词进行输出。
进一步优化本技术方案,所述一种用于新词发现的装置包括:
预处理模块:对每日舆情进行读取文本,使用CRF算法进行分词处理,剔除掉非中文字符,并替换成“<end>”自定义特殊字符;
计算模块:计算候选词的左右信息熵和互信息,以及候选词的内部熵,按照设定条件过滤不能成词候选词,并将计算结果排序输出;
选取比较模块:遍历从每日舆情中提取出来的候选词,与总候选词集比较左右熵和互信息,选出变化较大的候选词,增加该候选词的分数,最后将计算结果进行排序输出。
进一步优化本技术方案,所述预处理还包括在进行文本的分词、替换非中文字符之后,按照分词顺序两两组合,并使用双数组trie树进行存储,树中每个节点存储从根节点到该节点组成的候选词,在文本中出现的次数。
进一步优化本技术方案,所述计算模块还包括计算各个候选词的互信息,去除所述互信息在设定的阈值之外的候选词串;
计算候选词的信息熵,以及候选词左字串的右熵和候选词右字串的左熵,即候选词内部熵,去除在所设定的阈值之外的候选词串;对候选词的左右字串进行停用词过滤,只要候选词其中任意左右字串包含已有的停用词,则剔除该候选词。
进一步优化本技术方案,所述选取比较模块还包括当前日期与以前的候选词比较包括:通过前期计算的候选词权重,进行排序,只取一定数量的排名靠前的候选词,并遍历当前日期的候选词与以前的候选词比较互信息和熵,计算综合变化得分,如果得分超过所设定阈值,则对这个候选词进行加分;
输出新词包括:对所有计算后的候选词进行排序,取一定数量的排名靠前的候选词作为新词进行输出。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
使用分词先将文本切分,然后两两组合成候选词,可以减少候选词的数量,去除较多的无意义的垃圾串。避免因为单个字两两组合的候选词较多,造成计算量过大,发现新词效果不显著的问题。
同时在计算成本上,每天产生的舆情文本从数量上说,比一次性大规模的计算要小的多,因此可以分多批使用较为耗时的CRF分词方法,可以更准确有效的发现新词。
相比于现有的其他技术,在新词发现时,需要大规模语料库,在计算时候,需要很大的成本,首先计算一次占用内存会很高。语料库越大,内存占用越多,同时统计词频,搜索候选词的前后缀的计算量会增加。当计算语料库很大的时候,就会忽略掉某一段时间内出现的新词,比如说“旅行青蛙”,在某一段时间内会比较火热,但是可能最后计算出来的分数,在大量候选词的分数中排名靠后。无法准确有效的发现这个新词。
从时间维度挖掘新词,根据新词出现时的波动,可以有效的把握新词,而且也可以从一定程度上体现某一段时间的热词。
附图说明
图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图。
图2是根据本发明实施例的文本中新词发现的方法的具体流程示意图。
图3是根据本发明实施例的文本中新词发现的装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以主语理解,应当将它们认为仅仅是示范性。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图。
如图1所示,本发明实施例的文本中新词发现的方法主要包括如下步骤:
步骤S1:将每天的舆情文本使用CRF算法进行分词,若不分词将会存在较多的“垃圾串”,如“的是”、“个一”、“了一”等等。而且,西方文字通常在词与词之间存在空格分隔,计算机对西方文字的词识别较为方便,但是中文没有任何有标志性的符号分割词组,且计算机本身也不能区分中文的词组。最后,对分好词的词组进行新词发现,可以减少左右熵和互信息的计算量,提升整体性能。因此,在本发明实施例中,对文本进行新词发现之前,首先要将每日的舆情文本使用CRF算法分词。
对舆情文本进行处理之前,需要将舆情文本按照日期放在不同的文件夹下。方便后期程序对舆情文本按照日期方式进行读取和处理。
在进行CRF分词后,便可利用互信息和左右熵计算新词。但是由于舆情文本中往往含有多个句子,其中也包含大量的标点符号,而标点符号对于新词的是无用的。因此,需要在计算前先将标点符号、数字等非中文数字,替换为“<end>”结束符。可以减少计算的复杂程度,从而提高处理效率。
进行预处理之后,需要使用双数组trie树进行存储,可以兼顾查询效率和空间存储。存储分为两个部分,第一部分存储两个连续的字串的结构,如“媒体→采访”、“媒体←采访”。第二部分存储这两个连续词前后的字串,如“媒体→采访→<end>”、“媒体→采访←接受”。
在进行分词和预处理之后,即可进行下一步的计算可能是新词的互信息和左右熵,最后计算成词的概率。从步骤S2开始处理。
步骤S2:计算候选词中,左字串的右熵和右字串的左熵,即候选词内部熵。然后计算候选词的互信息和左右熵。其中,候选词的内部熵和互信息是衡量候选词左右两部分字串结合紧密程度的指标。内部熵越小,互信息越高,代表候选词的左右字串同时出现在文中的次数越多,更可能成为一个词。左右熵是衡量候选词有丰富上下文的指标。左右熵越大,代表候选词越有可能出现在不同的上下文语境中,越有可能作为一个新词。
对候选词的互信息计算公式如下:
Figure GDA0003602863070000061
其中,X和Y为候选词的左右字串。P为出现的概率,P(X,Y)是XY共同出现的概率。互信息越高,则表示X和Y相关性越高,则X和Y越有可能组成新词。
对候选词的左右熵计算公式如下:
Figure GDA0003602863070000071
其中,EL是候选词左侧的信息熵,X为出现在W左边所有词语数据集合,P(x|W)表示候选词W左边出现x的概率。候选词的右信息熵与左侧信息熵公式相似,如下:
Figure GDA0003602863070000072
其中,ER是候选词右侧的信息熵,Y为出现在W右边所有词语数据集合,P(y|W)表示候选词W右边出现y的概率。
候选词的内部熵公式与左右熵公式相似,这里只列举候选词右侧字串部分的左熵。如下:
Figure GDA0003602863070000073
其中,El_r(L)表示候选词右侧字串部分的左侧信息熵,而L表示出现在候选词右侧字串左边的所有词语数据集合。
在运行如上所述的计算时,需要剔除一部分不能构成新词的候选词,以减少不必要的计算。如:候选词词中包含停用词,或者包含“<end>”的字符串。
最后需要对各个计算量进行加和,算出总分数,计算公式如下:
score=exp(min(El,Er)+MI-(El_r+Er_l))
其中,score是候选词的得分,El和Er为候选词的左右熵,MI为候选词的互信息,El_r和Er_l为候选词右字串的左熵,左字串的右熵。
完成以上步骤的计算过程后,即可对所有候选词进行排序输出,按照分数由大到小的顺序,取前100个候选词作为计算当前日期的新候选词。
步骤S3:通过选出S2计算的当前日期的候选词,与之前的候选词进行比较。计算当前日期与之前候选词的增量,包括候选词的左右熵和互信息,对于增量变化越明显,持续时间越长的候选词,总分数增加的越多,最后排序输出结果。
在完成步骤S2的计算,并输出排序后的候选词,便已经得到一些较好的候选词集。但是,对于新出现的词,仍然不能很有效的捕获。例如:对于“旅行青蛙”等,带有很明显时效的词,未能有效的输出。因此,需要对比之前的候选词集,选出在某段时间内持续出现的候选词作为新词。
在计算步骤S3时,需要对当前日期的候选词集进行遍历,若在总的候选词集中,则与总候选词集中的词进行比较。若不存在,则加入到总候选词集中。
与总候选词集比较时,需计算其各个增量,包括候选词的左右熵和互信息,以及该候选词在当前日期的排名。其计算公式如下:
dre=newre-oldre
dle=newle-oldle
dmi=newmi-oldmi
increment=(min(dre,dle)+dmi)*proportion
其中,下标为re候选词的右熵,下标为le候选词的左熵,下标mi候选词的互信息。
字母d表示增量,new表示当天的候选词集,old表示之前的候选词集,increment为该候选词依据增量所得分数。proportion表示按该候选词的排名情况加分,具体计算方式为:候选词在当天的分数排名/当天的候选词数量。
按照如上方法计算increment分数后,会预设一个阈值,防止增量如果有微小的波动就计算。如果增量超过这个阈值,则会加入到总候选词集的分数中。其最终得分计算公式如下:
scoreold=|increment|*aincreNum*proportion
increNum为候选词的指标波动较大的次数,a是设定的增加分数的比例,increment取绝对值,scoreold即为最后计算的结果。在计算时,该公式会自动将连续时间段内,左右熵和互信息变化波动较大的候选词,按一定比例增加分数,连续次数越多,增加的分数也就越多。
至此,所有计算过程完成,最后需要对总的候选词集进行排序,选取一定比例的候选词输出即可。根据上述文本中新词发现的方法可以看出,通过将每日舆情文本通过CRF算法分词,减少候选词的数量,可以降低计算的复杂程度。通过过滤非中文的字符,一方面是减小了计算量,另一方面对不可能成词的字符串过滤。通过对候选词使用双数组trie树存储,即可以提升性能,也可以减少存储空间,方面后期进行统计候选词的数量,进行计算。通过候选词的互信息和左右信息熵,以及候选词的内部熵,对于内部结合不稳定,左右信息熵较小的词,可以初步过滤掉。在计算时需要对候选词进行进一步过滤,剔除掉候选词集中包含“<end>”和停用词的候选词,以减少计算量。而内部熵也是可以衡量得到该候选词左侧字串与右侧字串稳定程度,选取前100个可能为新词的候选词。再与之前的总的候选词集进行比较,选取左右熵和互信息变化大于所设阈值的候选词,再次进行加分操作。对于多次,连续的增量的变化,增加其最后得分的比例,即候选词的左右熵和互信息连续变化次数较多的,越有可能是新词。从而能进一步的找到,在某段时间内,对于某些新出现词汇进行有效的输出。
图3是根据本发明实施例的文本中新词发现的装置的主要模块的示意图。
如图3所示,本发明实施例的文本中新词发现的装置20主要包括,预处理模块201、计算模块202、选取比较模块203。
预处理模块201用于读取每日舆情文本,并使用CRF进行分词,对数据进行预处理,方便后续计算和处理。计算模块202用于计算已存储好的候选词,计算内容包括候选词的左右信息熵、互信息和内部熵,其中内部熵是指候选词左侧字串的右熵,右侧字串的左熵,并过滤一些不能成词数据。选取比较模块203用于遍历从每日舆情文本中提取出来的候选词,并和总候选词集中比较,选出增量较大的候选词,进行加分。
预处理模块201还用于将文本过滤非中文字符,并替换为“<end>”特殊标记。然后使用双数组trie树进行存储,提高查询的效率和缩减存储空间。
计算模块202还用于将候选词中包含“<end>”和词典中收录停用词的过滤。并对选出的候选词分数进行排序输出。
选取比较模块203还用于遍历从每日舆情文本中提取出来的候选词,将这些候选词与总候选词集比较。若该候选词存在于总候选词集中,则选出左右信息熵和互信息变化较大候选词,做加分操作,且该候选词连续的,多次的有较大的变化,则加分的比例越大。若该候选词不存在于总候选词集中,则直接加入到总候选词集中。最后排序输出总候选词集中分数较大的候选词作为新词。
根据上述文本中新词发现的方法可以看出,通过将每日舆情文本通过CRF算法分词,减少候选词的数量,可以降低计算的复杂程度。通过过滤非中文的字符,一方面是减小了计算量,另一方面对不可能成词的字符串过滤。通过对候选词使用双数组trie树存储,即可以提升性能,也可以减少存储空间,方面后期进行统计候选词的数量,进行计算。通过候选词的互信息和左右信息熵,以及候选词的内部熵,对于内部结合不稳定,左右信息熵较小的词,可以初步过滤掉。在计算时需要对候选词进行进一步过滤,剔除掉候选词集中包含“<end>”和停用词的候选词,以减少计算量。而内部熵也是可以衡量得到该候选词左侧字串与右侧字串稳定程度,选取前100个可能为新词的候选词。再与之前的总的候选词集进行比较,选取左右熵和互信息变化大于所设阈值的候选词,再次进行加分操作。对于多次,连续的增量的变化,增加其最后得分的比例,即候选词的左右熵和互信息连续变化次数较多的,越有可能是新词。从而能进一步的找到,在某段时间内,对于某些新出现词汇进行有效的输出
上述具体实施方式,并不构成本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所做的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (6)

1.一种新词发现的方法,其特征在于:所述的新词发现方法包括以下步骤:
S1、对每日舆情进行读取文本,使用CRF算法进行分词处理,剔除掉非中文字符,并替换成“<end>”自定义特殊字符;
S2、计算候选词的左右信息熵和互信息,以及候选词的内部熵,按照设定条件过滤不能成词候选词,并将计算结果排序输出;
S3、遍历从每日舆情中提取出来的候选词,与总候选词集比较左右熵和互信息,选出变化较大的候选词,增加该候选词的分数,最后将计算结果进行排序输出,包括:
对当前日期选出的候选词与总候选词集比较,通过对当前日期的舆情文本所计算的候选词分数进行排序,只取一定数量的排名靠前的候选词,然后遍历当前日期的候选词与总候选词集比较互信息和左右熵,计算综合变化得分,若得分超过所设定阈值,则对这个候选词进行加分;最后对所有计算后的候选词集进行排序,取一定数量的排名靠前的候选词作为新词进行输出;
其中,最终得分计算公式如下:
scoreold=|increment|*aincreNum*proportion
其中,increNum为候选词的指标波动较大的次数,a是设定的增加分数的比例,increment取绝对值,increment=(min(dre,dle)+dmi)*proportion,下标为re候选词的右熵,下标为le候选词的左熵,下标mi为候选词的互信息,字母d表示增量,old表示之前的候选词集,increment为该候选词依据增量所得分数,proportion表示按该候选词的排名情况加分。
2.根据权利要求1所述的一种新词发现的方法,其特征在于:所述S1还包括在进行文本的分词、替换非中文字符之后,按照分词顺序两两组合,并使用双数组trie树进行存储;其中树中每个节点存储的是从根节点到该节点组成的候选词,在文本中出现的次数。
3.根据权利要求1所述的一种新词发现的方法,其特征在于:所述S2还包括计算各个候选词的互信息,去除所述互信息在设定的阈值之外的候选词串;
计算候选词的信息熵,以及候选词左字串的右熵和候选词右字串的左熵,即候选词内部熵,剔除在所设定的阈值之外的候选词串;对候选词的左右字串进行停用词过滤,只要候选词其中任意左右字串包含已有的停用词,则剔除该候选词。
4.一种用于新词发现的装置,其特征在于:所述装置包括预处理模块:对每日舆情进行读取文本,使用CRF算法进行分词处理,剔除掉非中文字符,并替换成“<end>”自定义特殊字符;
计算模块:计算候选词的左右信息熵和互信息,以及候选词的内部熵,按照设定条件过滤不能成词候选词,并将计算结果排序输出;
选取比较模块:遍历从每日舆情中提取出来的候选词,与总候选词集比较左右熵和互信息,选出变化较大的候选词,增加该候选词的分数,最后将计算结果进行排序输出,将当前日期与以前的候选词比较,并输出新词;
将当前日期与以前的候选词比较包括:通过前期计算的候选词权重,进行排序,只取一定数量的排名靠前的候选词,并遍历当前日期的候选词与以前的候选词比较互信息和熵,计算综合变化得分,如果得分超过所设定阈值,则对这个候选词进行加分;
输出新词包括:对所有计算后的候选词进行排序,取一定数量的排名靠前的候选词作为新词进行输出;
其中,最终得分计算公式如下:
scoreold=|increment|*aincreNum*proportion
其中,increNum为候选词的指标波动较大的次数,a是设定的增加分数的比例,increment取绝对值,increment=(min(dre,dle)+dmi)*proportion,下标为re候选词的右熵,下标为le候选词的左熵,下标mi为候选词的互信息,字母d表示增量,old表示之前的候选词集,increment为该候选词依据增量所得分数,proportion表示按该候选词的排名情况加分。
5.根据权利要求4所述的一种用于新词发现的装置,其特征在于:所述预处理还包括在进行文本的分词、替换非中文字符之后,按照分词顺序两两组合,并使用双数组trie树进行存储,树中每个节点存储从根节点到该节点组成的候选词,在文本中出现的次数。
6.根据权利要求4所述的一种用于新词发现的装置,其特征在于:所述计算模块还包括计算各个候选词的互信息,去除所述互信息在设定的阈值之外的候选词串;
计算候选词的信息熵,以及候选词左字串的右熵和候选词右字串的左熵,即候选词内部熵,去除在所设定的阈值之外的候选词串;对候选词的左右字串进行停用词过滤,只要候选词其中任意左右字串包含已有的停用词,则剔除该候选词。
CN201810409083.8A 2018-05-02 2018-05-02 新词发现的方法及装置 Active CN108829658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810409083.8A CN108829658B (zh) 2018-05-02 2018-05-02 新词发现的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810409083.8A CN108829658B (zh) 2018-05-02 2018-05-02 新词发现的方法及装置

Publications (2)

Publication Number Publication Date
CN108829658A CN108829658A (zh) 2018-11-16
CN108829658B true CN108829658B (zh) 2022-05-24

Family

ID=64147303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810409083.8A Active CN108829658B (zh) 2018-05-02 2018-05-02 新词发现的方法及装置

Country Status (1)

Country Link
CN (1) CN108829658B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110322A (zh) * 2019-03-29 2019-08-09 泰康保险集团股份有限公司 网络新词发现方法、装置、电子设备及存储介质
CN111061866B (zh) * 2019-08-20 2024-01-02 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN112927675A (zh) * 2019-11-20 2021-06-08 阿里巴巴集团控股有限公司 用于语音合成的词典生成、语音合成方法和装置、系统
CN110991173B (zh) * 2019-11-29 2023-09-29 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN110929510A (zh) * 2019-11-29 2020-03-27 上海晏鼠计算机技术股份有限公司 一种基于字典树的中文未登录词识别方法
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111339403B (zh) * 2020-02-11 2022-08-02 安徽理工大学 一种基于商品评论新词提取方法
CN111353020B (zh) * 2020-02-27 2023-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111553158A (zh) * 2020-04-21 2020-08-18 中国电力科学研究院有限公司 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统
CN111966791B (zh) * 2020-09-03 2024-04-19 深圳市小满科技有限公司 海关数据产品词的提取方法及检索方法
CN112966501B (zh) * 2021-02-22 2023-04-11 广州寄锦教育科技有限公司 一种新词发现方法、系统、终端及介质
CN113051912B (zh) * 2021-04-08 2023-01-20 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置
CN114330336A (zh) * 2021-11-19 2022-04-12 福建亿榕信息技术有限公司 一种基于左右信息熵和互信息的新词发现方法以及装置
CN115034211B (zh) * 2022-05-19 2023-04-18 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN115495507B (zh) * 2022-11-17 2023-03-24 江苏鸿程大数据技术与应用研究院有限公司 一种工程材料信息价格匹配方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置

Also Published As

Publication number Publication date
CN108829658A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829658B (zh) 新词发现的方法及装置
CN101706807B (zh) 一种中文网页新词自动获取方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN101464898B (zh) 一种提取文本主题词的方法
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN104199965B (zh) 一种语义信息检索方法
US20060206306A1 (en) Text mining apparatus and associated methods
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN101079025B (zh) 一种文档相关度计算系统和方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN110543595B (zh) 一种站内搜索系统及方法
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN104008106A (zh) 一种获取热点话题的方法及装置
CN108509490B (zh) 一种网络热点话题发现方法及系统
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN100555276C (zh) 一种中文新词语的检测方法及其检测系统
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant