CN103593427A - 新词搜索方法及系统 - Google Patents

新词搜索方法及系统 Download PDF

Info

Publication number
CN103593427A
CN103593427A CN201310551747.1A CN201310551747A CN103593427A CN 103593427 A CN103593427 A CN 103593427A CN 201310551747 A CN201310551747 A CN 201310551747A CN 103593427 A CN103593427 A CN 103593427A
Authority
CN
China
Prior art keywords
word
words
neologisms
search
letters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310551747.1A
Other languages
English (en)
Inventor
霍帅
张敏
刘奕群
马少平
金奕江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310551747.1A priority Critical patent/CN103593427A/zh
Publication of CN103593427A publication Critical patent/CN103593427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种新词搜索方法及系统,其中方法包括以下步骤:提供多个语料,并对多个语料分别进行分词以得到多个单词;获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合;根据单词集合中不同单词的数量得到停用词集合;分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词;分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为新词。根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高新词搜索的准确性,简化搜索过程提高搜索效率。

Description

新词搜索方法及系统
技术领域
本发明涉及网络技术领域,特别涉及一种新词搜索方法及系统。
背景技术
在中文信息处理过程中,由于中文不像英文等西方语言,词与词之间有固定的分隔符,因此,中文自动分词往往作为中文信息处理任务最开始的一个重要步骤。
随着互联网技术的不断发展,各行各业多随之出现了“新词”例如网上出现的“肿么办”、“神马”、“给力”等新词汇频繁在网络上出现。其中web2.0应用允许用户创造网页内容,使得出现了大量的新词。新词的出现很大程度上影响了自动分词工具的准确性。经研究者研究显示60%的分词错误是由新词导致的。因此,新词发现是中文自然语言处理领域非常重要的意义。
现有的新词搜索方法主要有两种,一种是基于规则的方法,另一种是基于统计的方法。基于规则的方法是利用构词原理,并结合语义、词性等信息构造模板,通过匹配来搜索新词。例如通过计算语料库中分词后词语之间的静态联合率,并提取具有紧密关系的词语,再利用语法规则、领域特征进行过滤,进而得到具有高置信度的领域术语。虽然该方法可以提高小规模数据的新词搜索,而无法适用于大规模数据的处理。另外该方法中对规则的维护比较困难,且该规则与领域相关,因此覆盖面窄,适应性差。基于统计的方法是通过对语料中的词项信息进行统计来搜索新词。例如采用独立词概率、词语在文档中的频率等作为SVM的训练特征,将新词搜索的问题转化为二分类问题,通过使用训练好的SVM进行分类,实现在线新词搜索。例如对文本进行分词,然后统计其中2-gram到8-gram的搭配,以统计出现频率,最终选择频率高的词作为新词。该方法需要以较大规模的语料进行统计和模型训练数据处理量较大,且准确率相对较低。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此,本发明一方面提供一种新词搜索方法。该搜索方法可以解决搜索准确性差且搜索复杂、效率低的问题。
本发明另一方面提供一种新词搜索系统。
有鉴于此,本发明一方面的实施例提供一种新词搜索方法,包括以下步骤:A:提供多个语料,并对所述多个语料分别进行分词以得到多个单词;B:获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;C:根据所述单词集合中不同单词的数量得到停用词集合;D:分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;E:分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及F:如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词,则将所述对应的候选单词作为搜索到的新词。
根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
在本发明的一个实施例中,还包括:G:如果所述上下文熵不大于所述第一预设值,则将所述对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。
在本发明的一个实施例中,所述根据所述单词集合中不同单词的数量得到停用词集合,进一步包括:如果所述单词集合中不同单词的数量大于第二预设值,则判定所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
在本发明的一个实施例中,还包括:根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
在本发明的一个实施例中,所述特征包括词频、第一单词的词性和末尾单词的词性。
有鉴于此,本发明另一方面的实施例提供一种新词搜索系统,包括:分词模块,用于获取提供多个语料,并对所述多个语料分别进行分词以得到多个单词;获取模块,用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;获得模块,用于根据所述单词集合中不同单词的数量得到停用词集合;组合模块,用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;判断模块,用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及确定模块,用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。
根据本发明实施例的系统,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
在本发明的一个实施例中,还包括:迭代模块,用于对所述上下文熵不大于所述第一预设值的对应候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。
在本发明的一个实施例中,所述获得模块具体包括:计算单元,用于计算所述单词集合中不同单词的数量;获得单元,用于当所述单词集合中不同单词的数量大于第二预设值时,将所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
在本发明的一个实施例中,还包括:训练搜索模块,用于根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
在本发明的一个实施例中,所述特征包括词频、第一单词的词性和末尾单词的词性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的新词搜索方法的流程图;以及
图2为根据本发明另一个实施例的新词搜索系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为根据本发明一个实施例的新词搜索方法的流程图。如图1所示,根据本发明实施例的新词搜索方法包括以下步骤:提供多个语料,并对多个语料分别进行分词以得到多个单词(步骤101)。获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合(步骤103)。根据单词集合中不同单词的数量得到停用词集合(步骤105)。分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词(步骤107)。分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量(步骤109)。如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为搜索到的新词(步骤111)。
根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
下面对上述各步骤进行详细说明。
在步骤101和步骤103中,可从互联网网页、微博、搜索引擎查询日志等中提取数据中的中文文本,并将对应的中文文本转化为统一的编码格式以便统一地进行处理。通过分词工具对web中转化所获得的中文文本数据进行分词进而得到多个单词。该分词工具可以是ICTCLAS5.0中文分词系统(http://ictclas.org),SCWS中文分词(http://www.xunsearch.com/scws/index.php)等工具。对于多个单词中的第一单词,在对应的语料中将与该第一单词相邻的单词添加到该第一单词邻接的单词集合中。该第一单词为分词所获得的多个单词中的任意一个单词。
下面将详细描述步骤105。在步骤105中,对于该第一单词的单词集合统计该单词集合中与该第一单词相邻的不同单词的数量。当单词集合中不同单词的数量大于第二预设值(例如大于整个语料中单词数量的百分之一)时,则判定第一单词为停用词,并将停用词添加到停用词集合中。该停用词集合分为左侧停用词集合和右停用词集合,根据作为停用词的单词是在该第一单词的左边还是右边分别将停用词分为左侧停用词和右停用词,并放入左侧停用词集合和右停用词集合中。例如在ABC、FBK、DBV的语料中,对于单词B而言单词A、C、F、K、D和单词V构成单词B的单词集合。具体而言,根据单词集合的单词与单词B的位置关系可分为左侧邻接单词或右侧邻接单词。左侧停用词和右侧停用词的原理也类似上述方式。
在本发明的一个实施例中,左侧停用词右停用词定义为,
stopwordleft={w|w∈S,||{w′|w′∈S,(w′,w)}||>c}
stopwordritght={w|w∈S,||{w′|w′∈S,(w,w′)}||>c}
其中,stopwordleft表示左侧停用词,stopwordright表示右侧停用词,S表示语料中所有单词的集合,(w′,w)表示单词w′在单词w左侧并与其相邻,c是常数,表示一个单词左(右)侧与其相邻的不同单词个数超过c时,该单词即为左(右)侧停用词。
下面将详细描述步骤107、步骤109和步骤111。
在本发明的一个实施例中,左侧上下文熵和右侧上下文熵便是表示词语组合的概率。对于一个单词w,假设在语料X中他出现的次数是n,出现在它左侧的词语的集合为α={a1,a2,…,as},出现在它右侧的词语的集合为β={b1,b2,…,bt}。那么w的左侧上下文熵和右侧上下文熵可定义为:
LCE ( w ) = 1 n Σ i = 1 s C ( a i , w ) ln C ( a i , w ) n
RCE ( w ) = 1 n Σ i = 1 t C ( w , b i ) ln C ( w , b i ) n
其中,LCE(w)表示单词w的左侧上下文熵,RCE(w)表示单词w的右侧上下文熵,s表示单词w左侧相邻的不同单词的个数,t表示单词w右侧相邻的不同单词的个数,C(ai,w)是ai与w同时出现的次数,C(w,bi)是w与bi同时出现的次数。
从左(右)侧上下文熵的定义式中,如果一个单词的左右侧上下文熵都比较大,那么说明与该单词左右相邻的不同单词个数比较多,并且相邻频率分布较均匀,那么这个单词与左右侧相邻的单词构成新词的概率就很低;相反,如果一个单词的左右侧上下文熵有一个很小(不妨假设左侧上下文熵较小),那么说明该单词左侧相邻的不同单词的频率分布并不均匀,它与左侧相邻频率较高的单词搭配成新词的概率就比较高。
在单词集合中选取与第一单词左侧相邻的单词,且与该第一单词的结合次数大于阈值(例如0.3)的左侧邻接单词,并计算它们之间的上下文熵Eleft和该第一单词和左侧邻接单词结合后与该结合单词左侧单词的上下文熵E′left,当E′left与Eleft的差值大于第一预设值(例如1)时,将该结合有的单词作为候选单词。在单词集合中选取与第一单词右侧相邻的单词,且与该第一单词的结合次数大于阈值(例如0.3)的右侧邻接单词,并计算该第一单词的上下文熵Eright和该第一单词和右侧邻接单词结合后与该结合单词右侧单词的上下文熵E′right,当E′left与Eright的差值大于第一预设值(例如1)时,将该结合有的单词作为候选单词。通过对与第一单词相邻单词构成的单词集合进行处理以得到多个候选单词。通过停用词集合对该多个候选单词进行过滤,即如果多个候选单词中出现停用词集合中的单词时,将该候选单词从多个候选单词中剔除,将剩余的多个候选单词作为搜索到的新词。
在本发明的一个实施例中,如果上下文熵不大于第一预设值(例如2)时,则将对应的候选单词作为第一单词,并获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。再根据单词集合中不同单词的数量得到停用词集合。然后分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量,如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为搜索到的新词。该上下文熵增量为上下文熵的增加量。通过对候选单词进行迭代处理,进一步提高了新词搜索的准确性和鲁棒性。
在本发明的实施例中,通过上述方式搜索到多个新词后,提取该多个新词的特征,并通过所提取的特征训练分类器。该多个新词为已经确定为新词的单词,且新词的特征包括新词的词频、第一单词的词性和末尾单词的词性。所训练的分类器可以为贝叶斯分类器、决策树和SVM等分类器。通过训练后的分类器对多个语料进行搜索,因此提高了新词搜索的效率,方便了使用。
根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
图2为根据本发明另一个实施例的新词搜索系统的结构框图。如图2所示,根据本发明实施例的新词搜索系统包括分词模块100、获取模块200、获得模块300、组合模块400、判断模块500和确定模块600。
具体地,分词模块100用于获取提供多个语料,并对多个语料分别进行分词以得到多个单词。
获取模块200用于获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。
获得模块300用于根据单词集合中不同单词的数量得到停用词集合。
组合模块400用于分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。
判断模块500用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量。
确定模块600用于将上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词的对应候选单词作为搜索到的新词。
根据本发明实施例的系统,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
下面对上述各个模块进行详细说明。
在本发明的一个实施例中,可从互联网网页、微博、搜索引擎查询日志等中提取数据中的中文文本,并将对应的中文文本转化为统一的编码格式以便统一地进行处理。分词模块100通过分词工具对web中转化所获得的中文文本数据进行分词进而得到多个单词。该分词工具可以是ICTCLAS5.0中文分词系统(http://ictclas.org),SCWS 中文分词(http://www.xunsearch.com/scws/index.php)等工具。对于分词模块100所获得的多个单词中的第一单词,获取模块200在对应的语料中将与该第一单词相邻的单词添加到该第一单词邻接的单词集合中。该第一单词为分词所获得的多个单词中的任意一个单词。
在本发明的一个实施例中,获得模块300包括计算单元310和获得单元320。
计算单元310用于计算单词集合中不同单词的数量。
获得单元320用于当单词集合中不同单词的数量大于第二预设值时,将第一单词为停用词,并将停用词添加到停用词集合中。
具体地,计算单元310计算对于该第一单词的单词集合统计该单词集合中与该第一单词相邻的不同单词的数量。当单词集合中不同单词的数量大于第二预设值(例如大于整个语料中单词数量的百分之一)时,获取单元320则判定第一单词为停用词,并将停用词添加到停用词集合中。该停用词集合分为左侧停用词集合和右停用词集合,根据作为停用词的单词是在该第一单词的左边还是右边分别将停用词分为左侧停用词和右停用词,并放入左侧停用词集合和右停用词集合中。例如在ABC、FBK、DBV的语料中,对于单词B而言单词A、C、F、K、D和单词V构成单词B的单词集合。具体而言,根据单词集合的单词与单词B的位置关系可分为左侧邻接单词或右侧邻接单词。左侧停用词和右侧停用词的原理也类似上述方式。
在本发明的一个实施例中,左侧停用词右停用词定义为,
stopwordleft={w|w∈S,||{w′|w′∈S,(w′,w)}||>c}
stopwordright={w|w∈S,||{w′|w′∈S,(w,w′)}||>c}
其中,stopwordleft表示左侧停用词,stopwordright表示右侧停用词,S表示语料中所有单词的集合,(w′,w)表示单词w′在单词w左侧并与其相邻,c是常数,表示一个单词左(右)侧与其相邻的不同单词个数超过c时,该单词即为左(右)侧停用词。
在本发明的一个实施例中,左侧上下文熵和右侧上下文熵便是表示词语组合的概率。对于一个单词w,假设在语料X中他出现的次数是n,出现在它左侧的词语的集合为α={a1,a2,…,as},出现在它右侧的词语的集合为β={b1,b2,…,bt}。那么w的左侧上下文熵和右侧上下文熵可定义为:
LCE ( w ) = 1 n Σ i = 1 s C ( a i , w ) ln C ( a i , w ) n
RCE ( w ) = 1 n Σ i = 1 t C ( w , b i ) ln C ( w , b i ) n
其中,LCE(w)表示单词w的左侧上下文熵,RCE(w)表示单词w的右侧上下文熵,s表示单词w左侧相邻的不同单词的个数,t表示单词w右侧相邻的不同单词的个数,C(ai,w)是ai与w同时出现的次数,C(w,bi)是w与bi同时出现的次数。
从左(右)侧上下文熵的定义式中,如果一个单词的左右侧上下文熵都比较大,那么说明与该单词左右相邻的不同单词个数比较多,并且相邻频率分布较均匀,那么这个单词与左右侧相邻的单词构成新词的概率就很低;相反,如果一个单词的左右侧上下文熵有一个很小(不妨假设左侧上下文熵较小),那么说明该单词左侧相邻的不同单词的频率分布并不均匀,它与左侧相邻频率较高的单词搭配成新词的概率就比较高。
组合模块400将第一单词与对应单词集合的单词进行组合,并在单词集合中选取与第一单词左侧相邻的单词,且与该第一单词的结合次数大于阈值(例如0.3)的左侧邻接单词。计算它们之间的上下文熵Eleft和该第一单词和左侧邻接单词结合后与该结合单词左侧单词的上下文熵E′left,当判断E′left与Eleft的差值大于第一预设值(例如1)时,确定模块600将该结合有的单词作为候选单词。组合模块400将第一单词与对应单词集合的单词进行组合,并在单词集合中选取与第一单词右侧相邻的单词,且与该第一单词的结合次数大于阈值(例如0.3)的右侧邻接单词。计算该第一单词的上下文熵Eright和该第一单词和右侧邻接单词结合后的上下文熵E′right,当E′left与Eright的差值大于第一预设值(例如1)时,确定模块600将该结合有的单词作为候选单词。通过对与第一单词相邻单词构成的单词集合进行处理以得到多个候选单词。通过停用词集合对该多个候选单词进行过滤,即如果多个候选单词中出现停用词集合中的单词时,将该候选单词从多个候选单词中剔除,将剩余的多个候选单词作为搜索到的新词。
在本发明的一个实施例中,还包括:迭代模块700。迭代模块700用于对上下文熵不大于第一预设值(例如2)的对应候选单词作为第一单词,并通过获取模块200、获得模块300、组合模块400、判断模块500和确定模块600进行迭代处理以进一步搜索新词。
具体而言,如果上下文熵不大于第一预设值(例如2)时,则将对应的候选单词作为第一单词,并获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。再根据单词集合中不同单词的数量得到停用词集合。然后分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。分别判断组合为每个候选单词中的上下文熵,如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为搜索到的新词。该上下文熵增量为上下文熵的增加量。通过对候选单词进行迭代处理,进一步提高了新词搜索的准确性和鲁棒性。
在本发明的实施例中,还包括:训练搜索模块800。训练搜索模块800用于根据新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。特征包括词频、第一单词的词性和末尾单词的词性。
具体地,训练搜索模块800提取多个新词的特征,并通过所提取的特征训练分类器。该多个新词为已经确定为新词的单词,且新词的特征包括新词的词频、第一单词的词性和末尾单词的词性。所训练的分类器可以为贝叶斯分类器、决策树和SVM等分类器。通过训练后的分类器对多个语料进行搜索,因此提高了新词搜索的效率,方便了使用。
根据本发明实施例的系统,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
为了验证本发明的效果进行了如下试验。我们进行了新词发现的相关试验。在硬件为8核2.33G主频CPU、40G内存的环境下,使用随机抽取的的方式抽取了13,400,000条新浪微博,并采用本发明的方式和人工标定的方式进行了新词搜索。本发明的方式所消耗的时间约为90分钟,比人工方式小于很多。这比采用人工标注的识别方式在速度和规模方面都有很大的提升。结果的统计显示人工方式对1340万条微博数据的搜索其准确率为88.1%。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种新词搜索方法,其特征在于,包括以下步骤:
A:提供多个语料,并对所述多个语料分别进行分词以得到多个单词;
B:获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;
C:根据所述单词集合中不同单词的数量得到停用词集合;
D:分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;
E:分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及
F:如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词,则将所述对应的候选单词作为搜索到的新词。
2.根据权利要求1所述的新词搜索方法,其特征在于,还包括:
G:如果所述上下文熵不大于所述第一预设值,则将对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。
3.如权利要求1所述的新词发现的方法,其特征在于,所述根据所述单词集合中不同单词的数量得到停用词集合,进一步包括:
如果所述单词集合中不同单词的数量大于第二预设值,则判定所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
4.根据权利要求1或2所述的新词搜索方法,其特征在于,还包括:
根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
5.根据权利要求4所述的新词搜索方法,其特征在于,所述特征包括词频、第一单词的词性和末尾单词的词性。
6.一种新词搜索系统,其特征在于,包括:
分词模块,用于获取提供多个语料,并对所述多个语料分别进行分词以得到多个单词;
获取模块,用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;
获得模块,用于根据所述单词集合中不同单词的数量得到停用词集合;
组合模块,用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;
判断模块,用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及
确定模块,用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。
7.根据权利要求6所述的新词搜索系统,其特征在于,还包括:
迭代模块,用于对所述上下文熵不大于所述第一预设值的候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。
8.根据权利要求6所述的新词搜索系统,其特征在于,所述获得模块具体包括:
计算单元,用于计算所述单词集合中不同单词的数量;
获得单元,用于当所述单词集合中不同单词的数量大于第二预设值时,将所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
9.根据权利要求6或7所述的新词搜索系统,其特征在于,还包括:
训练搜索模块,用于根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
10.根据权利要求9所述的新词搜索系统,其特征在于,所述特征包括词频、第一单词的词性和末尾单词的词性。
CN201310551747.1A 2013-11-07 2013-11-07 新词搜索方法及系统 Pending CN103593427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310551747.1A CN103593427A (zh) 2013-11-07 2013-11-07 新词搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310551747.1A CN103593427A (zh) 2013-11-07 2013-11-07 新词搜索方法及系统

Publications (1)

Publication Number Publication Date
CN103593427A true CN103593427A (zh) 2014-02-19

Family

ID=50083568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310551747.1A Pending CN103593427A (zh) 2013-11-07 2013-11-07 新词搜索方法及系统

Country Status (1)

Country Link
CN (1) CN103593427A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970733A (zh) * 2014-04-10 2014-08-06 北京大学 一种基于图结构的中文新词识别方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
US10540447B2 (en) * 2018-03-20 2020-01-21 Wipro Limited Method and device for N-gram identification and extraction

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统
JP2008151926A (ja) * 2006-12-15 2008-07-03 Internatl Business Mach Corp <Ibm> 音声処理用の辞書に登録するべき新規語句を検索する技術
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN102567371A (zh) * 2010-12-27 2012-07-11 上海杉达学院 自动过滤停用词的方法
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008151926A (ja) * 2006-12-15 2008-07-03 Internatl Business Mach Corp <Ibm> 音声処理用の辞書に登録するべき新規語句を検索する技術
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN102567371A (zh) * 2010-12-27 2012-07-11 上海杉达学院 自动过滤停用词的方法
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QILONG SU等: ""Chinese New Word Extraction From MicroBlog Data"", 《PROCEEDINGS OF THE 2013 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *
熊文新: ""信息检索Query语言分析"", 《中国博士学位论文全文数据库 哲学与人文科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970733A (zh) * 2014-04-10 2014-08-06 北京大学 一种基于图结构的中文新词识别方法
CN103970733B (zh) * 2014-04-10 2017-07-14 中国信息安全测评中心 一种基于图结构的中文新词识别方法
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
US10540447B2 (en) * 2018-03-20 2020-01-21 Wipro Limited Method and device for N-gram identification and extraction
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置

Similar Documents

Publication Publication Date Title
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN104111925B (zh) 项目推荐方法和装置
CN111400493A (zh) 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN103294664A (zh) 开放领域新词发现的方法及系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN101833560A (zh) 基于互联网的厂商口碑自动排序系统
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
Ojokoh et al. A feature–opinion extraction approach to opinion mining
CN114997288A (zh) 一种设计资源关联方法
CN103593427A (zh) 新词搜索方法及系统
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
CN113963804A (zh) 医学数据关系挖掘方法及装置
Li-Juan et al. A classification method of Vietnamese news events based on maximum entropy model
CN112071304B (zh) 一种语意分析方法及装置
US11928427B2 (en) Linguistic analysis of seed documents and peer groups

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140219

RJ01 Rejection of invention patent application after publication