CN106445906A

CN106445906A - 领域词典中中长词词组的生成方法及装置

Info

Publication number: CN106445906A
Application number: CN201510478225.2A
Authority: CN
Inventors: 何鑫
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-08-06
Filing date: 2015-08-06
Publication date: 2017-02-22

Abstract

本发明公开了一种领域词典中中长词词组的生成方法及装置，涉及自然语言处理领域，解决了传统方式构建领域词典的过程中无法生成中长词词组的问题。本发明的方法包括：获取通用语料及领域语料；对两套语料进行中文分词，并对分词结果进行组合得到中长词词组候选字符串；统计每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据；根据每一个中长词词组候选字符串的统计数据，计算每一个中长词词组候选字符串的卡方统计量获得其得分，并将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词。本发明主要用于生成领域词典中的中长词词组的过程中。

Description

领域词典中中长词词组的生成方法及装置

技术领域

本发明涉及自然语言处理领域，特别是涉及一种领域词典中中长词词组的生成方法及装置。

背景技术

在自然语言处理领域中，领域词典的构建是最基本的任务之一，一份高质量的领域词典对于信息检索、文本分类等高层自然语言处理任务具有很大帮助。在领域词典的构建过程中，领域词往往是一些由多个词语组合起来的短语，即中长词词组，而并非通常意义的词语。例如，领域词“自然语言处理”并非是通常意义的“自然”、“语言”、“处理”；“中文分词”并非是通常意义的“中文”、“分词”等。

在使用传统方法构建领域词典的过程中发明人发现：传统的基于机器自动识别和生成领域词典的方法，仅仅是将文本进行中文分词后对现有词语本身是否属于领域词进行判断，无法满足生成领域词典中的中长词词组的需求。

发明内容

有鉴于此，本发明提出了一种领域词典中中长词词组的生成方法及装置，主要目的在于解决通过传统方式构建领域词典的过程中无法生成中长词词组的问题。

依据本发明的第一个方面，本发明提供了一种领域词典中中长词词组的生成方法，包括：

获取通用语料，从通用语料中得到领域语料；

对通用语料及领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串；

统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据；

根据每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，获得每一个候选字符串的得分，并将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。

依据本发明的第二个方面，本发明提供了一种领域词典中中长词词组的生成装置，该装置包括：

获取单元，用于获取通用语料，从通用语料中得到领域语料；

处理单元，用于对获取单元获取的通用语料及领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串；

统计单元，用于统计处理单元生成的每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据；

计算单元，用于根据统计单元得到的每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，获得每一个中长词词组候选字符串的得分，并将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。

借由上述技术方案，本发明实施例提供的领域词典中中长词词组的生成方法及装置，能够获取通用语料并从中得到领域语料，对通用语料及领域语料进行中文分词，并对分词结果进行组合得到中长词词组候选字符串，分别统计每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据，根据每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，得到每一个中长词词组候选字符串的得分，将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。与现有技术中构建领域词典时仅仅是将文本进行中文分词后对现有词语本身是否属于领域词进行判断，无法生成领域词典中的中长词词组的缺陷相比，本发明通过机器统计的方式对切分词进行组合，生成满足领域词典需求的中长词词组，提高了领域词典的质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种领域词典中中长词词组的生成方法的流程图；

图2示出了本发明实施例提供的一种领域词典中中长词词组的生成装置的组成框图；

图3示出了本发明实施例提供的一种领域词典中中长词词组的生成装置的组成框图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在构建领域词典的过程中，领域词往往是一些由多个词语组合起来的短语，即中长词词组，中长词词组具有独有的含义，而并非由通常意义的单个字词组合而来。在领域词典中，中长词词组在结构上具有固定性，在意义上具有整体性，构成中长词词组的字词顺序一般都不能变动，也不能针对各个字词再作字面上的个别解释。例如，领域词“自然语言处理”并非是通常意义的“自然”、“语言”、“处理”；领域词“中文分词”并非是通常意义的“中文”、“分词”等，但是传统的基于机器自动识别和生成领域词典的方法，仅仅是将文本进行中文分词后对现有词语本身是否属于领域词进行判断，无法满足生成领域词典中的中长词词组的需求。

为了解决传统方式构建领域词典的过程中无法生成中长词词组的问题。本发明实施例提供了一种领域词典中中长词词组的生成方法，如图1所示，该方法包括：

101、获取通用语料，从通用语料中得到领域语料。

通常，在统计自然语言处理中实际上不可能观测到大规模的语言实例，所以，人们简单的用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品，一个文本集合被称为一个语料库，当有几个这样的文本集合时，称之为语料库集合。在本实施例中，所谓的通用语料和领域语料是相对关系而非绝对关系，通用语料是相对于领域语料的一层抽象或者上位概念，并非一定是大而全的一套语料。例如，如果本发明实施例需要构建一套体育领域词典，则需要大而全的一套通用语料和体育领域语料来共同完成；若只要构建一套网球领域词典，则体育领域语料应被视为通用语料，再结合网球领域语料进行词典的构建。

因此，本实施例获取通用语料的方式有多种，需要根据构建的词典所属的领域来相应的获取通用语料，并从通用语料中得到领域语料。在实际应用过程中，可以通过下载或购买语料库，从而得到通用语料和领域语料；同时，Web语料以其大规模性、易获得性和整体的领域无关性而成为通用语料获取的一个来源，因此可以从互联网上获取通用语料，并根据网站对页面的分类标记得到领域语料。上述方式只是本实施例的示意，并不对本发明获取通用语料和领域语料进行限制，其他方式也可用于本发明中来获取通用语料和领域语料。

102、对通用语料及领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串。

在本发明实施例中，当步骤101得到通用语料以及领域语料后，无论是通用语料还是领域语料都要进行中文分词。其中，中文分词是将一个汉字序列切分成一个一个单独的词，分词就是将连续的字序列按照一定的规范重新切分成词序列的过程。在实际进行中文分词的过程中，可以使用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法。本发明实施例为了得到准确的分词结果，作为一种可选的实施方式，可以综合以上不同的分词方法对步骤101获取的通用语料和领域语料进行中文分词，得到完备的切分词。

在本实施例中，对通用语料及领域语料进行中文分词后得到的切分词通常是不能继续切分的最小词语单元，但是在实际情况下这样的切分词并不能完全表示领域词，事实上领域词典中的词汇大多是由分词结果进行组合拼接形成的中长词词组所构成。因此，在对通用语料及领域语料进行中文分词后，还需要对分词结果进行组合，生成符合中长词词组的候选字符串。

103、统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据。

当在步骤102中得到中长词词组候选字符串后，由于通用语料中的一部分文档作为领域语料，那么其他部分文档则作为非领域语料。对于一个中长词词组候选字符串来说，若其出现的文档大多数是领域文档，且其未出现的文档大多数是非领域文档，那么该中长词词组候选字符串对于区分文档是否属于领域语料有很大的帮助，说明该中长词词组候选字符串可能是领域词。反之，若某一中长词词组候选字符串存在于领域文档和非领域文档的可能性相当，那么认为该中长词词组候选字符串对于区分文档是否属于领域语料没有什么帮助，说明该中长词词组候选字符串更可能是非领域词。

因此，步骤103需要统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，本实施例中的统计数据也就是每个中长词词组候选字符串在领域文档集合和非领域文档集合中出现与未出现的文档数。其中，对于某个中长词词组候选字符串在某篇文档中出现多次的情况，则该文档只被记录一次，不需重复计数。

104、根据每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，获得每一个中长词词组候选字符串的得分，并将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词。

在步骤104中结合步骤103的统计数据，根据每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，获得每一个中长词词组候选字符串的得分，该得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度，将得分与设定的条件进行比较后，保留符合条件的中长词词组候选字符串作为领域词典的领域词。其中，中长词词组候选字符串的卡方统计量得分越高，表示中长词词组候选字符串越倾向于出现在领域语料内且越不倾向于出现在非领域语料内。

本实施例设定的用于筛选中长词词组候选字符串得到领域词的条件，即为接受中长词词组候选字符串属于领域词的临界限制，该临界限制可以由一个或多个条件共同约束，满足全部条件的中长词词组候选字符串即可作为领域词添加到领域词典中。在本实施例中，设定的条件可以有一个，当然也可以设定多个条件共同筛选中长词词组候选字符串。

本发明实施例提供的领域词典中中长词词组的生成方法，能够获取通用语料并从中得到领域语料，对通用语料及领域语料进行中文分词，并对分词结果进行组合得到中长词词组候选字符串，分别统计每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据，根据每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，得到每一个中长词词组候选字符串的得分，将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。与现有技术中构建领域词典时仅仅是将文本进行中文分词后对现有词语本身是否属于领域词进行判断，无法生成领域词典中的中长词词组的缺陷相比，本发明通过机器统计的方式对切分词进行组合，生成满足领域词典需求的中长词词组，提高了领域词典的质量。

进一步的，为了更好的对上述图1所示的方法进行理解，作为对上述实施方式的细化和扩展，本发明实施例将针对图1中的步骤进行详细说明。

在通过本发明的方法构建领域词典时，可以基于网络爬虫工具从互联网上抓取通用语料，通常是从网站的某个页面(一般是首页)开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止，用这种方式获取到的通用语料往往大而全。同时，获取到的通用语料中，网页文档都带有确定语料所属的具体领域的标签，也就是文档的分类信息，根据网页文档的标签可以从通用语料中得到需要的领域语料。例如，可以通过网络爬虫工具从门户网站的新闻页面进行抓取，新闻页面内的所有文档即构成了通用语料，若需要构建体育领域词典，则新闻页面中的体育频道内的文档即构成了领域语料，根据网页页面所属的分类信息即可从通用语料中得到领域语料。

当通过网络爬虫工具从网络上获取到通用语料，并根据页面所属的分类信息得到领域语料后，就需要对通用语料和领域语料进行中文分词得到切分词。在进行分词的过程中，可以将通用语料及领域语料的文档切分为若干个词语按顺序排列的多个切分词。作为一种可选的实施方式，本实施例提供了一种基于字符匹配原理的方法对通用语料及领域语料进行中文分词，将待分析的通用语料及领域语料中的汉字串与一个充分大的机器词典中的词条进行匹配，若在机器词典中找到通用语料或领域语料中的某个字符串，则匹配成功，识别出一个切分词。例如，按照匹配方向的不同，可以进行正向匹配(由左到右进行匹配)或逆向匹配(由右到左进行匹配)；按照匹配长度的不同，可以进行最长匹配(识别出的切分词较少)或最短匹配(识别出的切分词较多)；还可以将上述各种方法相互组合对通用语料及领域语料进行中文分词以期提高切分的准确率。由于汉语单字成词的特点，正向最短匹配和逆向最短匹配一般很少用。由于逆向匹配的匹配精度略高于正向匹配，因此本实施例可以采用正向最长匹配和逆向最长匹配相结合对通用语料及领域语料进行中文分词，提高切分的准确率。通过上述方法对语料进行中文分词后得到的大量切分词中，多数为单字词、二字词、三字词和/或四字词等。

由于这些切分词并不能完全表示领域词，事实上领域词典中的词汇多由这些切分词进行组合拼接形成的中长词词组所组成。因此，对语料进行中文分词后需要对分词结果进行组合。本发明实施例提供了一种实施方式，可以通过对切分词进行基于语言模型的组合，生成符合中长词词组的候选字符串。语言模型是用来计算一个句子概率的模型，表示一段自然语言片段的概率。在本发明实施例中该语言模型用于根据条件概率公式计算切分词组合成有意义的中长词词组的概率，形式化的表示为：

P(S)＝P(w₁,w₂,w₃,w₄,……,w_n)

＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)……,P(w_n|w₁,w₂,……,w_n-1)

其中，S表示一段连续的文本，w₁,w₂,w₃,w₄,……,w_n表示这段文本的每一个切分词。根据条件概率公式P(w₁)＝C_w1/N、P(w_2|w₁)＝P(w₂w₁)/P(w₁)＝C_w2w1/C_w1算出切分词组成一段连续的文本S的概率。其中，C_w1表示切分词w₁在全部文档中出现的次数，C_w2w1表示切分词w₂w₁在全部文档中出现的次数，N为切分词的总数。根据概率的大小可以筛选出中长词词组候选字符串，例如可以将算出的切分词组成一段连续的文本S的概率与设定的概率阈值进行比较，当切分词组成的连续的文本的概率高于概率阈值时，该文本才能作为中长词词组候选字符串。在本发明实施例中通常n的值不超过3，即需要统计的中长词词组是由最多不超过3个切分词拼接而成的。例如，若字符串“ABCDE”经过中文分词得到{“A”、“B”、“C”、“D”、“E”}，则连接n不超过3的全部可能性组合为{“A”、“B”、“C”、“D”、“E”、“AB”、“BC”、“CD”、“DE”、“ABC”、“BCD”、“CDE”}，其中，除去单个切分词外的中长词词组的可能候选字符串为{“AB”、“BC”、“CD”、“DE”、“ABC”、“BCD”、“CDE”}。

至此，当从语料中获得了大量中长词词组候选字符串后，由于中长词词组候选字符串是简单的对语料中相邻切分词组合得到的，因此，其中有相当一部分是不能称之为词或是无意义的词。因此，本发明实施例在统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据之前，可以对中长词词组候选字符串进行基于新词发现的统计，生成新词候选字符串。本步骤通过基于新词发现的统计，为已经得到的中长词词组候选字符串计算一个得分，这个得分表示该中长词词组候选字符串是一个中长词词组的可能性。

在实施此步骤时，通常的做法是判断这个中长词词组候选字符串在语料中出现的次数是否足够多，出现次数越多的中长词词组候选字符串越倾向于是具有实际语言意义的字符串。由于中长词词组候选字符串的产生是依靠相邻切分词拼接产生的，诸如“**的”或“的**”等词语往往也具有较高的出现频次，但是这类中长词词组候选字符串通常并不是有意义的词语。因此，本发明实施例利用统计中互信息这一概念来衡量中长词词组候选字符串(中长词词组)是一个有意义的词语的可能性，这一过程包括：计算中长词词组候选字符串的互信息统计量，得到中长词词组候选字符串的互信息值；将互信息值与设定的互信息阈值进行比较；过滤掉互信息值小于互信息阈值的中长词词组候选字符串，得到新词候选字符串。其中，计算互信息值的公式为：n_ab/(n_a*n_b)，其中，n_ab表示中长词词组候选字符串AB在通用语料中出现的次数，n_a表示切分词A在通用语料中出现的次数，n_b表示切分词B在通用语料中出现的次数。

假设通用语料由N个切分词组成，切分词A在通用语料中出现了n_a次，那么可以计算出切分词A在通用语料中出现的概率为n_a/N，切分词B在通用语料中出现n_b次，切分词B在通用语料中出现的概率为n_b/N，如果切分词A和切分词B之间毫无关系，那么它们恰好拼在一起组成词组“AB”的期望概率应该为(n_a*n_b)/N^2。若词组“AB”恰好是在上一步骤中得到的一个中长词词组候选字符串，并且同样统计出词组“AB”在通用语料中的实际出现次数为n_ab，那么“AB”在通用语料中的实际出现概率即为n_ab/N，“AB”实际连接在一起的概率是期望概率的(n_ab*N)/(n_a*n_b)倍，这个比值越大，说明切分词A和切分词B与毫无关系的假设差距越大，也就是切分词A和切分词B越倾向于能组成一个词。由于上式中N对于一份语料中所有的切分词及中长词词组候选字符串都是一样的，因此，实际可以通过n_ab/(n_a*n_b)的值来衡量一个中长词词组候选字符串是一个有意义的词语的可能性，并且式子n_ab/(n_a*n_b)即为互信息计算公式。

这里需要说明的是，对于中长词词组候选字符串是“ABC”这类由三个切分词组成的中长词词组候选字符串而言，可以通过计算其两两切分词的互信息值，选取互信息值之间的最小值近似的表示这三个切分词组成有意义的词语的可能性，即min{n_ab/(n_a*n_b),n_ac/(n_a*n_c),n_bc/(n_b*n_c)}。

采用上述实施方式得到中长词词组候选字符串的互信息值，并与设定的互信息阈值进行比较，过滤掉所有互信息值大小小于互信息阈值的中长词词组候选字符串，所剩下的中长词词组候选字符串即为具有实际含义的新词候选字符串。后面仅需要对新词候选字符串判断是否属于领域词即可。

在计算中长词词组候选字符串的互信息统计量，过滤掉所有互信息值大小小于互信息阈值的中长词词组候选字符串得到新词候选字符串之后，本实施例需要使用计数器统计包含某一新词候选字符串的领域文档的第一数量C、包含该新词候选字符串的非领域文档的第二数量D、不包含该新词候选字符串的领域文档的第三数量E及不包含该新词候选字符串的非领域文档的第四数量F。

由于通用语料中的一部分文档作为领域语料使用，那么其他部分的文档则作为非领域语料。现以某一个新词候选字符串w为例，若w出现的文档大部分是领域文档，且w未出现的文档大部分是非领域文档，那么可以认为w对于区分文档是否属于领域文档有很大的指向性，w更可能是领域词。反之，若w出现的文档的数量和w未出现的文档的数量相当，那么可以认为w对于区分文档是否属于领域文档没有参考价值，w更可能是非领域词。

这里需要说明的是，为了使新词候选字符串的统计数据标准化，对于某个新词候选字符串在一篇文档中多次出现的情况，本发明实施例只对该文档统计一次，不重复计数，上述统计结果可以整理成如下表所示：

	领域文档数量	非领域文档数量
			包含w	C	D
不包含w	E	F

其中，C表示包含新词候选字符串w且属于领域文档的文档数量；D表示包含新词候选字符串w但不属于领域文档的文档数量；E表示不包含新词候选字符串w但属于领域文档的文档数量；F表示不包含新词候选字符串w且不属于领域文档的文档数量。根据上述统计数据还可以得到以下数据，即C+D+E+F表示全部文档的数量，记为N；C+D表示包含新词候选字符串w的全部文档数；E+F表示不包含新词候选字符串w的全部文档数；C+E表示全部领域文档数；D+F表示全部非领域文档数。

当统计出关于新词候选字符串的相关数据后，可以采用新的统计量的方式，根据每一个新词候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个新词候选字符串的卡方统计量，得到每一个新词候选字符串的得分。本发明实施例得到新词候选字符串的得分，用于衡量新词候选字符串对于区分文档属于领域文档与否的贡献，其计算公式为：

通过上述公式计算出新词候选字符串的卡方统计量得分，新词候选字符串的得分越高表示该新词候选字符串越倾向于出现在领域语料中且越倾向于不出现在非领域语料中。

当根据每一个新词候选字符串在通用语料中以及在领域语料中的统计数据，计算每一个新词候选字符串的卡方统计量，得到新词候选字符串的得分后，需要根据设定的条件与新词候选字符串的得分进行比较，保留符合条件的新词候选字符串作为领域词。其中，设定的条件可以为卡方统计量得分的分值阈值，新词候选字符串的得分不得小于该分值阈值，保留得分大于等于该分值阈值的新词候选字符串作为领域词。其中，该分值阈值是基于新词候选字符串被正确的选为领域词时的得分的历史记录通过计算得到，例如可以算出新词候选字符串被正确的选为领域词时的得分的历史记录的加权平均数作为分值阈值。

在实际情况中，也会出现一种情况即出现某一中长词词组候选字符串/新词候选字符串的领域文档和非领域文档的数量都非常少，很可能是由于获取的通用语料和领域语料不够全面，此时若通过计算中长词词组候选字符串/新词候选字符串的卡方统计量得到该中长词词组候选字符串/新词候选字符串的得分，那么该得分无法准确衡量该中长词词组候选字符串/新词候选字符串对于区分文档属于领域文档与否的贡献程度。因此，作为另一种实施方式，可以在对通用语料中的统计数据及领域语料中的统计数据进行计算之前，当发现包含某一中长词词组候选字符串/新词候选字符串的领域文档和非领域文档的数量分别小于设定的数量阈值时，不需要进行后续的卡方统计量计算，直接过滤掉该中长词词组候选字符串/新词候选字符串。

这里需要说明的是，用于从中长词词组候选字符串/新词候选字符串中筛选出领域词而设定的条件，作为可以接受中长词词组候选字符串/新词候选字符串属于领域词的临界限制，可以由一个条件或多个条件共同作为约束，只有满足全部条件约束的中长词词组候选字符串/新词候选字符串才能作为领域词添加到领域词典中。设定的条件包括但不限于以下，如中长词词组候选字符串/新词候选字符串的卡方统计量得分不得小于分值阈值、中长词词组候选字符串/新词候选字符串出现在不同文档中的最少文档数量约束等。

本发明实施例在统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据之前，对中长词词组候选字符串进行基于新词发现的统计，过滤掉互信息值小于互信息阈值的中长词词组候选字符串，得到新词候选字符串，从而减少后续待统计的中长词词组候选字符串的数量，降低统计成本，节约构建领域词典的时空开销以及提高领域词典的构建效率。此外，在根据每一个新词候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个新词候选字符串的卡方统计量之前，直接过滤掉出现次数过少的新词候选字符串，从而提高了从新词候选字符串中筛选出领域词的准确率。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种领域词典的生成装置，如图2所示，该装置包括：获取单元21、处理单元22、统计单元23及计算单元24，其中，

获取单元21，用于获取通用语料，从通用语料中得到领域语料；

处理单元22，用于对获取单元21获取的通用语料及领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串；

统计单元23，用于统计处理单元22生成的每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据；

计算单元24，用于根据统计单元23得到的每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据，计算每一个中长词词组候选字符串的卡方统计量，获得每一个中长词词组候选字符串的得分，并将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。

进一步的，获取单元21用于基于网络爬虫工具从互联网上抓取通用语料，根据页面所属的分类信息从通用语料中得到领域语料。

进一步的，处理单元22用于将通用语料及领域语料的文档切分为词语按顺序排列的切分词，切分词包括：单字词、二字词、三字词和/或四字词。

进一步的，处理单元22还用于对切分词进行基于语言模型的组合，生成符合中长词词组的候选字符串；语言模型用于根据条件概率公式计算切分词组合成中长词词组的概率。

进一步的，处理单元22还用于计算中长词词组候选字符串的互信息统计量，得到互信息值；将互信息值与设定的互信息阈值进行比较；过滤掉互信息值小于互信息阈值的中长词词组候选字符串，得到新词候选字符串。

进一步的，统计单元23用于统计包含某一新词候选字符串的领域文档的数量、包含该新词候选字符串的非领域文档的数量、不包含该新词候选字符串的领域文档的数量及不包含该新词候选字符串的非领域文档的数量。

进一步的，如图3所示，该装置还包括：

过滤单元25，用于当包含某一中长词词组候选字符串的领域文档和非领域文档的数量分别小于设定的数量阈值时，直接过滤掉该中长词词组候选字符串。

本发明实施例提供的领域词典中中长词词组的生成装置，能够获取通用语料并从中得到领域语料，对通用语料及领域语料进行中文分词，并对分词结果进行组合得到中长词词组候选字符串，分别统计每一个中长词词组候选字符串在通用语料中以及在领域语料中的统计数据，根据每一个中长词词组候选字符串在通用语料中以及在领域语料中的的统计数据，计算每一个中长词词组候选字符串的卡方统计量，得到每一个中长词词组候选字符串的得分，将得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。与现有技术中构建领域词典时仅仅是将文本进行中文分词后对现有词语本身是否属于领域词进行判断，无法生成领域词典中的中长词词组的缺陷相比，本发明通过机器统计的方式对切分词进行组合，生成满足领域词典需求的中长词词组，提高了领域词典的质量。

此外，本发明实施例在统计每一个中长词词组候选字符串在通用语料中的统计数据以及在领域语料中的统计数据之前，对中长词词组候选字符串进行基于新词发现的统计，过滤掉互信息值小于互信息阈值的中长词词组候选字符串，得到新词候选字符串，从而减少后续待统计的中长词词组候选字符串的数量，降低统计成本，节约构建领域词典的时空开销以及提高领域词典的构建效率。同时，在对通用语料中的统计数据及领域语料中的统计数据进行计算之前，直接过滤掉出现次数过少的新词候选字符串，从而提高了从新词候选字符串中筛选出领域词的准确率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种领域词典中中长词词组的生成方法，其特征在于，所述方法包括：

获取通用语料，从所述通用语料中得到领域语料；

对所述通用语料及所述领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串；

统计每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据；

根据每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据，计算所述每一个中长词词组候选字符串的卡方统计量，获得所述每一个中长词词组候选字符串的得分，并将所述得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，所述得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。

2.根据权利要求1所述的方法，其特征在于，所述获取通用语料，从所述通用语料中得到领域语料，包括：

基于网络爬虫工具从互联网上抓取通用语料，根据页面所属的分类信息从所述通用语料中得到领域语料。

3.根据权利要求1所述的方法，其特征在于，所述对所述通用语料及所述领域语料进行中文分词，包括：

将所述通用语料及所述领域语料的文档切分为词语按顺序排列的切分词，所述切分词包括：单字词、二字词、三字词和/或四字词。

4.根据权利要求3所述的方法，其特征在于，所述对分词结果进行组合，生成中长词词组候选字符串，包括：

对所述切分词进行基于语言模型的组合，生成符合中长词词组的候选字符串；

所述语言模型用于根据条件概率公式计算所述切分词组合成中长词词组的概率。

5.根据权利要求1所述的方法，其特征在于，在统计每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据之前，所述方法进一步包括：

对所述中长词词组候选字符串进行基于新词发现的统计，生成新词候选字符串；

统计每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据包括：

统计每一个新词候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据。

6.根据权利要求5所述的方法，其特征在于，所述对所述中长词词组候选字符串进行基于新词发现的统计，生成新词候选字符串，包括：

计算所述中长词词组候选字符串的互信息统计量，得到互信息值；

将所述互信息值与设定的互信息阈值进行比较；

过滤掉互信息值小于所述互信息阈值的中长词词组候选字符串，得到新词候选字符串。

7.根据权利要求6所述的方法，其特征在于，所述计算所述中长词词组候选字符串的互信息统计量，得到互信息值，包括：

通过下述公式计算所述互信息值：n_ab/(n_a*n_b)，其中，n_ab表示中长词词组候选字符串AB在通用语料中出现的次数，n_a表示切分词A在通用语料中出现的次数，n_b表示切分词B在通用语料中出现的次数。

8.根据权利要求6所述的方法，其特征在于，所述统计每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据，包括：

用计数器统计包含某一新词候选字符串的领域文档的第一数量C、包含该新词候选字符串的非领域文档的第二数量D、不包含该新词候选字符串的领域文档的第三数量E及不包含该新词候选字符串的非领域文档的第四数量F。

9.根据权利要求8所述的方法，其特征在于，所述根据每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据，计算所述每一个中长词词组候选字符串的卡方统计量，获得所述每一个中长词词组候选字符串的得分，包括：

通过下述公式计算所述得分：

S c o r e = \frac{N {(C F - D E)}^{2}}{(C + D) (C + E) (D + F) (E + F)}

其中，N为全部文档的数量。

10.根据权利要求1所述的方法，其特征在于，所述将所述得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，包括：

将所述得分与设定的卡方分值阈值进行比较，保留得分大于等于所述卡方分值阈值的中长词词组候选字符串作为领域词典的领域词。

11.根据权利要求1所述的方法，其特征在于，在所述根据每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据，计算所述每一个中长词词组候选字符串的卡方统计量之前，所述方法进一步包括：

当包含某一中长词词组候选字符串的领域文档和非领域文档的数量分别小于设定的数量阈值时，直接过滤掉该中长词词组候选字符串。

12.一种领域词典中中长词词组的生成装置，其特征在于，所述装置包括：

获取单元，用于获取通用语料，从所述通用语料中得到领域语料；

处理单元，用于对所述获取单元获取的所述通用语料及所述领域语料进行中文分词，并对分词结果进行组合，生成中长词词组候选字符串；

统计单元，用于统计所述处理单元生成的每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据；

计算单元，用于根据所述统计单元得到的每一个中长词词组候选字符串在所述通用语料中的统计数据以及在所述领域语料中的统计数据，计算所述每一个中长词词组候选字符串的卡方统计量，获得所述每一个中长词词组候选字符串的得分，并将所述得分与设定的条件进行比较，保留符合条件的中长词词组候选字符串作为领域词典的领域词，所述得分用于表征中长词词组候选字符串对于区分文档属于领域语料与否的贡献程度。