CN101950306B - 新词发现中的字符串过滤方法 - Google Patents

新词发现中的字符串过滤方法 Download PDF

Info

Publication number
CN101950306B
CN101950306B CN 201010298510 CN201010298510A CN101950306B CN 101950306 B CN101950306 B CN 101950306B CN 201010298510 CN201010298510 CN 201010298510 CN 201010298510 A CN201010298510 A CN 201010298510A CN 101950306 B CN101950306 B CN 101950306B
Authority
CN
China
Prior art keywords
word
string
character strings
probability
candidate character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010298510
Other languages
English (en)
Other versions
CN101950306A (zh
Inventor
牟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN 201010298510 priority Critical patent/CN101950306B/zh
Publication of CN101950306A publication Critical patent/CN101950306A/zh
Application granted granted Critical
Publication of CN101950306B publication Critical patent/CN101950306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种新词发现中字符串过滤方法,该方法包括:步骤A、抽取候选字符串;步骤B、估计候选字符串的成词概率;步骤C、将成词概率大于第一预设阈值的候选字符串作为词语串输出。本发明所述方法在区分垃圾串和词语串时使用了概率估计方法,通过词的上下文约束和词位的成词概率来给字符串排序,同时采用了N元搭配来过滤垃圾串。本发明所述方法的优点在于:1)支持任意长度的新词发现(大于等于2个汉字);2)识别准确率明显提高;3)计算复杂度低,符合工程实用的目的。

Description

新词发现中的字符串过滤方法
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种新词发现中的字符串过滤方法。
背景技术
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的信息越来越多。为了从大量的资源中检索和挖掘有价值的信息,研究界和企业界大力开发各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自动发现新词是进行文本处理和数据挖掘的重要部分。
所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。
由于现有汉语分词方法、理论及实现中的种种缺陷,尚无一种汉语分词方法能够在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高,往往需要增大分词中的计算开销,从而导致分词系统在工程上不适用;汉语分词的速度快,往往需要降低分词中的准确率,从而也容易导致分词系统在工程上不适用。
导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高,包括人名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率,必须从文本里发现未登录词,并把这些发现的未登录词注入词典,从而减少未登录词的识别错误。
新词发现的研究方法主要包括如下两种:
1)基于监督的新词发现方法,该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料,采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响,导致系统准确率不高或者获得的新词存在种种限制。
2)基于非监督的新词发现方法,该方法适合处理高频和较长的字符串组成的新词。这种方法一般不需要训练语料进行统计分析,直接从字或词出发计算字符串或词串的成词概率。基于非监督的新词发现的缺点在于计算复杂性太高,新词发现的准确率不高。
对基于无监督的新词发现方法而言,需要把垃圾串(即垃圾字符串)和词语串(词语字符串)区分开来。垃圾串并不是新词,词语串是新词。所谓新词发现,就是把垃圾串和词语串区分开,仅保留词语串即可。由于二者并没有明显的外在形式特征,因此该问题并不容易处理。
学术界现有的区分垃圾串和词语串的方法如下:
(1)基于规则的垃圾串过滤。通过对文本中词语构成特点的分析,总结得到大量构词法知识,包括过滤规则、构词规则、特殊构词规则等。通过语言学规则来限定和约束字与字的组合从而发现新词。基于规则的方法对于过滤明显的垃圾串非常有用,该方法能区分出绝大多数词语串,但是也会保留大量垃圾串,过滤精度比较低。
(2)基于字符串组合概率来过滤垃圾串。通过分词系统切分文本,通过统计单字与其它字符串的成词概率来保留词语串或过滤垃圾串。字与字或字与字符串之间的成词概率通过大规模语料库可以估计得到,成词概率超过预设阈值的字符串可以作为词语串或者垃圾串。相对于规则方法而言,统计方法能够从成词概率上估计字符串的概率大小,该方法在准确率上明显优于规则方法,但仍然保留了大量垃圾串。
(3)基于n元语法的新词发现。通过统计字与字的N元搭配来发现新词,例如二元、三元、四元等等,并对超出一定出现阈值的N元字符串进行语言学规则过滤,符合规则的字符串判断为新词。该方法的缺陷在于,新词的长度并不确定,因此必须统计大量字符串的N元搭配,而这种统计方法往往会占用大量资源。如果仅统计长度有限的新词,则较长的新词必定会遗漏。另外,基于规则的过滤方法的效果并不太好。
(4)基于多种特征量的背景比对。通过比较候选字符串的多种特征量以及和背景文本之间的概率差异来判断新词的概率,这些特征量包括上下文熵、似然比等等。背景文本往往是与测试文本相似的文本,通过比较二者之间的差异来判断测试文本中的新词。该方法的缺陷在于计算复杂性较高,而且背景文本的确定也比较困难,实用性并不好。
以上诸种垃圾串过滤方法均有其局限性,或者过滤的准确率太低,或者计算复杂性太高,过滤效果和表现并不能满足工程应用的要求。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种计算复杂度低、新词发现准确率高并能够支持任意长度的新词发现中的字符串过滤方法。
(二)技术方案
为解决上述技术问题,本发明提供了一种新词发现中字符串过滤方法,该方法包括:
步骤A:抽取候选字符串;所述抽取候选字符串的方法为基于监督的新词发现方法和基于非监督的新词发现方法之一或二者的结合;
步骤B、根据候选字符串的上下文和内部组成来估计候选字符串的成词概率;
步骤C、基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出;具体包括:如果成词概率大于第一预设阈值的候选字符串的子串是新词,且该子串成词概率高于相关的成词概率大于第一预设阈值的候选字符串的成词概率,则判定相关的成词概率大于第一预设阈值的候选字符串是垃圾串,对垃圾串进行过滤,将相关的成词概率大于第一预设阈值的候选字符串的子串作为词语串输出。
优选地所述成词概率的计算公式为:p(S)=λ1t(S)*λ2q(S),其中,t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率,λ1和λ2分别为t(S)和q(S)的权重;所述t(S)的计算公式为:
t ( S ) = count ( S L ) freq ( S ) * count ( S R ) freq ( S ) * freq ( S ) α
其中,count(SL)为字符串S的左邻接字数目;count(SR)为字符串S的右邻接字数目;freq(S)为字符串S的频次;α为调整因子;所述q(S)的计算公式为:
q ( S ) = Σ s i ∈ S q m ( s i )
q m ( s i ) = word ( s i ) freq ( s i )
其中word(si)表示字符si与其它字符组合成词的频次,qm(si)表示字符si的构词能力,freq(si)为字符si的频次。
优选地,所述count(SL)为1;所述count(SR)为1;所述α为10000。
(三)有益效果
本发明提出了一种新词发现中的字符串过滤方法。本方法在区分垃圾串和词语串时使用了概率估计方法,通过词的上下文约束和词位的成词概率来给字符串排序,同时采用了N元搭配来过滤垃圾串。本发明所述方法的优点在于:
1)支持任意长度的新词发现(大于等于2个汉字);
2)识别准确率明显提高;
3)计算复杂度低,符合工程实用的目的。
附图说明
图1是本发明实施例的新词发现中字符串过滤方法的流程图;
图2是本发明所述方法中基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤的方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的核心思想是:对于挖掘得到的候选字符串,本方法通过对候选字符串的上下文和内部结构组成来估计候选字符串的成词概率,并引入N元语法模型和分词算法来进行候选字符串的过滤。
图1是本发明实施例的新词发现中字符串过滤方法的流程图;如图1所述,所述方法包括:
步骤A:抽取候选字符串。
可以使用现有的基于监督的新词发现方法、基于非监督的新词发现方法或二者的结合方法来抽取候选字符串。
步骤B、估计候选字符串的成词概率。
通过上述方法得到的候选字符串中,大部分是垃圾串,少部分是词语串。在本步骤中,必须对垃圾串和词语串进行初步区分。
对字符串成词概率的影响因素主要包括以下两类:
1、字符串的左右上下文
一个字符串是否成词,必然受到上下文的影响。如果考虑的上下文范围越大,则对字符串成词的概率估计越准确,但计算复杂度越高。如果考虑的上下文范围越小,则计算效率越高,但成词概率估计准确率并不高。本文从工程实际的角度出来,将字符串的上下文界定为左右各一个字。例如,给定字符串“且说袭人自幼”,若“袭人”是候选字符串,则左右上下文为“说”和“自”。通过对语料的分析发现,如果串与左右字的结合很紧密,往往意味着串必须向左或向右扩充。字符串的左右上下文仅仅是字符串成词的外在条件,并非该条件下的所有字符串均是词语,因此,还必须从字符串的内部组成出发估计字符串的成词概率。
2、字符串内部组成
字的构词能力存在差异。字的构词能力表现在参与构词的概率以及构词时的词位概率。有些字很少参与词的构造,一般单用,例如“的”,有些字一般参与词的构造,单用的情况甚至比较少,例如“电”;有些字倾向在词首使用,在其它位置很少出现,例如“阿”,有些字倾向在词中或词尾使用,且很少在词首出现,例如“子”;有些字对所处的词串长度也有要求,如“赴”在尾部出现,则词长都为2(2个汉字),如“奔赴、赶赴、飞赴”,“赴”在首部出现,则词长大多为2,例如“赴任、赴难、赴宴”,“赴”在中间出现,则词长为3和4常见,例如“单刀赴会、共赴国难、前赴后继”。
给定长度为N的字符串S=s1,...,sn(si是指汉字),左右邻接字集合分别为A和B,则字符串S成词的概率为:
p(S)=λ1t(S)*λ2q(S)        (1)
其中,t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率。λ1和λ2分别为t(S)和q(S)的权重,可以根据t(S)和q(S)的重要性调整。在本步骤中,假定二者相等。
t(S)可以根据下述公式(2)确定,
t ( S ) = count ( S L ) freq ( S ) * count ( S R ) freq ( S ) * freq ( S ) α - - - ( 2 )
其中,count(SL)为字符串S的左邻接字数目,这里为1;count(SR)为字符串S的右邻接字数目,这里为1;freq(S)为S的频次;α为调整因子,可以根据上下文调整,在本步骤中,α设定为10000。
由公式(2)可知,字符串S的成词概率与其频次和邻接上下文非常有关。如果S左右邻接不同的上下文比较多,则S独立成词的概率比较大,一般不能向左右扩展。为了避免S的频次过低导致
Figure GDA00001932012900071
过大的情况,引入了α因子来调节。如果S的频次比较低,则
Figure GDA00001932012900072
越小,即会对前面的
Figure GDA00001932012900073
进行调节,这可以有效避免频次过低导致成词概率过大的情况出现。
q(S)可以根据下述公式(3)和(4)确定,
q ( S ) = Σ s i ∈ S q m ( s i ) - - - ( 3 )
q m ( s i ) = word ( s i ) freq ( s i ) - - - ( 4 )
其中word(si)表示字符si与其它字符组合成词的频次。该值从标注语料中抽取。qm(si)表示字符si的构词能力,freq(si)为字符si的频次。
由于候选字符串的长度不一样,因此若对字符串中所有字均计算成词概率,则较长字符串的成词概率会比较小,较短字符串的成词概率会比较大。为了避免字符串长度对成词的影响,本步骤仅仅考虑字符串中成词概率最小的两个字(字符串的长度最小为2)。这两个字的成词概率作为所在字符串的成词概率。
步骤C、将成词概率大于预设阈值的候选字符串作为词语串输出。
本步骤具体包括:基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出。
利用字符串的成词概率估计方法可以对大部分字符串进行处理,即将成词概率大于预设阈值的候选字符串作为词语串输出,但其对常用词组成的垃圾串不太有效,某些常用词可以与多种不同类型的上下文组合,且字符串内的字或词的构词能力也比较高,因而根据左右上下文的成词概率估计方法会给该类字符串过高的成词概率估计。为了去除掉此类常用词组成的垃圾串的影响,本步骤基于汉语分词和N元语法的策略对步骤B中得出的成词概率大于预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出。
图2是本发明所述方法中基于N元语法对成词概率大于预设阈值的候选字符串进行垃圾串过滤的方法流程图。参见图2,所述方法包括:
步骤201、对成词概率大于预设阈值的候选字符串进行分词;
给定一个候选字符串,必须首先进行汉语分词。由于给定的字符串比较短小,且缺乏足够的上下文信息来判断分词位置,因此基于上下文语境的分词系统往往很难取得很好的分词效果。另外,由于要处理的字符串往往由常用词组成,很少涉及到未登录词的识别问题,因此也用不着利用复杂的分词系统来进行分词。
在本步骤中,仅使用正向最大匹配和逆向最大匹配结合的办法来对成词概率大于预设阈值的候选字符串进行分词。
所述正向最大匹配分词是指从左往右利用最大匹配的策略来分词。正向最大匹配分词的伪代码为:
Figure GDA00001932012900081
所述逆向最大匹配分词是指从右往左利用最大匹配的策略来分词。逆向最大匹配最大的优点在于处理正向匹配无法发现的歧义字段。逆向最大匹配分词的伪代码为:
Figure GDA00001932012900082
采用其中任何一种分词方法均无法完全避开交集型歧义的影响。因此,本方法同时采用两种分词方法以尽量避免交集型歧义的影响。例如:在“洗衣服”里,正向最大匹配的分词结果为“洗衣服”,逆向最大匹配的分词结果为“洗衣服”;在“第一场”里,逆向最大匹配的分词结果为“第一场”,正向最大匹配的分词结果为“第一场”。
步骤202、对词进行N元搭配测试,找出垃圾串;
无论正向分词还是逆向分词,只要其中任何一种分词结果无法通过N元搭配的测试,该字符串即被认为是垃圾串。
所谓通过N元搭配的测试是指,分词后字符串中任何一对邻接词,如果该二元对在N元搭配中出现,则该字符串是垃圾串。只有字符串中任意邻接词组合不在N元搭配中出现,该串才会被认为是合法串。例如,给定分词后的字符串“后增加了”,如果二元对“后增加”或“增加了”出现在N元搭配中,则该串即被认为是垃圾串。
由于汉语的新词内部组合往往未曾出现,前后一般很少接续,例如“淡定、灰常”。有些新概念是由已有词语组合而成,如“中国移动、中国联通”,这种新词的意义往往比较简单,易于理解,整体意义往往是部分意义之和,对新词发现而言意义不大。
为了进行N元搭配的测试,必须统计词的N元模型。
在统计词的N元模型时,N越大,则过滤的精度会越高,但所需的语料规模越大。反之,N越小,则过滤的精度会低一些,但对语料的规模没有特别的要求。为了在语料规模和过滤精度之间取得平衡,本方法暂时采用2元模型。
在统计词的2元搭配时,并不需要统计所有词的2元邻接情况。根据前面的分析可知,仅需要常用词的邻接搭配即可,频次较低的词不需统计。在本步骤中,仅考虑频次最高的2万词的2元搭配。
对于经过分词的成词概率大于预设阈值的候选字符串,计算邻接词语是否在N元搭配中出现。如果出现,则判定为垃圾串。
步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。
某些成词概率大于预设阈值的候选字符串包含丰富的左右上下文,在抽取字符串的过程中,往往容易误将这类字符串与左右上下文作为候选字符串。在字符串的成词概率估计中,该类字符串的概率往往较高。为了确定此类字符串是否为垃圾串,可以判断这类字符串的子串是否是新词,且子串的成词概率是否高于这类字符串的成词概率。如果子串是新词且子串成词概率高于当前字符串的成词概率,则当前字符串是垃圾串。进一步将当前字符串过滤掉,保留其子串作为词语串输出。
在一般的汉语词语中,并不包含标点、数字、字母等符号,因此,包含这些符号的字符串一律作为垃圾串。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种新词发现中字符串过滤方法,其特征在于,该方法包括:
步骤A、根据候选字符串的上下文和内部组成来估计候选字符串的成词概率;
步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出;
所述成词概率的计算公式为:p(S)=λ1t(S)*λ2q(S),其中,t(S)和q(S)分别为字符串S的左右邻接概率和内部构成概率,λ1和λ2分别为t(S)和q(S)的权重;所述t(S)的计算公式为:
t ( S ) = count ( S L ) freq ( S ) * count ( S R ) freq ( S ) * freq ( S ) α
其中,count(SL)为字符串S的左邻接字数目;count(SR)为字符串S的右邻接字数目;freq(S)为字符串S的频次;α为调整因子;所述q(S)的计算公式为:
q ( S ) = Σ s i ∈ S q m ( s i )
q m ( s i ) = word ( s i ) freq ( s i )
其中word(si)表示字符si与其它字符组合成词的频次,qm(si)表示字符si的构词能力,freq(si)为字符si的频次。
2.如权利要求1所述的方法,其特征在于,所述步骤B具体包括:基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出。
3.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括:
步骤201、对成词概率大于第一预设阈值的候选字符串进行分词;
步骤202、对词进行N元搭配测试,找出垃圾串;
步骤203、对垃圾串进行过滤,将剩余的候选字符串作为词语串输出。
4.如权利要求2所述的方法,其特征在于,所述基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出具体包括:如果成词概率大于第一预设阈值的候选字符串的子串是新词,且该子串成词概率高于相关的成词概率大于第一预设阈值的候选字符串的成词概率,则判定相关的成词概率大于第一预设阈值的候选字符串是垃圾串,对垃圾串进行过滤,将相关的成词概率大于第一预设阈值的候选字符串的子串作为词语串输出。
5.如权利要求1所述的方法,其特征在于,所述count(SL)为1;所述count(SR)为1;所述α为10000。
6.如权利要求1-5中任一项所述的方法,其特征在于,在步骤A之前,该方法进一步包括:抽取候选字符串的步骤。
7.如权利要求6所述的方法,其特征在于,所述抽取候选字符串的方法为基于监督的新词发现方法和基于非监督的新词发现方法之一或二者的结合。
CN 201010298510 2010-09-29 2010-09-29 新词发现中的字符串过滤方法 Active CN101950306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010298510 CN101950306B (zh) 2010-09-29 2010-09-29 新词发现中的字符串过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010298510 CN101950306B (zh) 2010-09-29 2010-09-29 新词发现中的字符串过滤方法

Publications (2)

Publication Number Publication Date
CN101950306A CN101950306A (zh) 2011-01-19
CN101950306B true CN101950306B (zh) 2013-06-26

Family

ID=43453808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010298510 Active CN101950306B (zh) 2010-09-29 2010-09-29 新词发现中的字符串过滤方法

Country Status (1)

Country Link
CN (1) CN101950306B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976233B (zh) * 2010-09-30 2012-11-14 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN102930055B (zh) * 2012-11-18 2015-11-04 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103870459B (zh) * 2012-12-07 2017-10-27 阿里巴巴集团控股有限公司 有意义串的识别方法和装置
CN104391837A (zh) * 2014-11-19 2015-03-04 熊玮 一种基于格语义的智能语法分析方法
CN104375986B (zh) * 2014-12-02 2017-04-05 江苏科技大学 一种汉语叠词的自动获取方法
CN106407175A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 新词发现中字符串的处理方法及装置
CN108776709B (zh) * 2015-10-27 2020-05-19 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN106815190B (zh) * 2015-11-27 2020-06-23 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN105512110B (zh) * 2015-12-15 2018-04-06 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN107688562A (zh) * 2016-08-05 2018-02-13 株式会社Ntt都科摩 词检测方法、装置、系统
CN106445915B (zh) * 2016-09-14 2020-04-28 安徽科大讯飞医疗信息技术有限公司 一种新词发现方法及装置
CN107391486B (zh) * 2017-07-20 2020-10-27 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN110751165B (zh) * 2019-08-06 2023-01-24 汕头大学 一种乱序文字的自动组词方法
CN110688835B (zh) * 2019-09-03 2023-03-31 重庆邮电大学 一种基于词语特征值的法律专有领域词发现方法及装置
CN111339753B (zh) * 2020-02-25 2023-06-16 北京林业大学 一种自适应中文新词识别方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696933A (zh) * 2005-05-27 2005-11-16 清华大学 基于动态规划的文本概念关系自动提取方法
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185595C (zh) * 2001-09-05 2005-01-19 联想(北京)有限公司 主题词抗干扰提取方法
CN100555276C (zh) * 2004-01-15 2009-10-28 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696933A (zh) * 2005-05-27 2005-11-16 清华大学 基于动态规划的文本概念关系自动提取方法
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牟小峰.面向英汉机器翻译的树库建设.《内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集》.2007,第295-300页. *

Also Published As

Publication number Publication date
CN101950306A (zh) 2011-01-19

Similar Documents

Publication Publication Date Title
CN101950306B (zh) 新词发现中的字符串过滤方法
CN101976233B (zh) 基于序列模式的新词发现方法
CN101763404B (zh) 基于模糊聚类的网络文本数据检测方法
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN102629305B (zh) 一种面向snp数据的特征选择方法
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN103617157A (zh) 基于语义的文本相似度计算方法
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN102930055A (zh) 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN102043851A (zh) 一种基于频繁项集的多文档自动摘要方法
CN106250372A (zh) 一种用于电力系统的中文电力数据文本挖掘方法
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN109885688A (zh) 文本分类方法、装置、计算机可读存储介质和电子设备
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN110188359B (zh) 一种文本实体抽取方法
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building A block 5 layer

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.