CN103870472A

CN103870472A - 一种复合词挖掘方法及装置

Info

Publication number: CN103870472A
Application number: CN201210532140.4A
Authority: CN
Inventors: 吴先超; 陈晓昕; 何径舟; 黄鋆
Original assignee: Baidu International Technology Shenzhen Co Ltd
Current assignee: Baidu International Technology Shenzhen Co Ltd
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2014-06-18
Anticipated expiration: 2032-12-11
Also published as: CN103870472B

Abstract

本发明公开了一种复合词挖掘方法及装置。该方法包括：获取词性序列集合；在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典；判断是否需要进行再次挖掘；若是，返回获取词性序列集合的步骤。通过上述方式，本发明根据词性序列集合对语料中的复合词进行循环挖掘，可实现覆盖广的复合词挖掘。

Description

一种复合词挖掘方法及装置

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种复合词挖掘方法及装置。

背景技术

词典又作“辞典”，是收集词汇按某种顺序排列并加以解释供人检查参考的工具书。从内容来区分，有语文词典、专科词典和综合性词典之分。而在表现形式上，又分为纸质的词典和电子化的词典。一般随着信息的增长，需要不断地往词典中加入新词以满足需要。

其中，随着计算机网络技术的快速发展和推广，网络数据急剧膨胀，各种新词特别是复合新词不断诞生并被广泛地应用到实际生活中，影响着人们的生活。同时，这些新词呈现出覆盖领域广的特点，往往散落在海量的网页语料中，所以亟需找到一种覆盖广的挖掘新词特别是挖掘复合新词的方法，能够将这些新词从网页语料中挖掘出来。

发明内容

本发明主要解决的技术问题是提供一种覆盖广的复合词挖掘方法及装置。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种复合词挖掘方法，该方法包括步骤：获取词性序列集合；在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典；判断是否需要进行再次挖掘；若是，返回获取词性序列集合的步骤。

其中，在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤之后，方法进一步包括步骤：判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复；若是，将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列，其中简化是指对词性序列中至少一个词性的重复进行去重处理，得到简化型词性序列；根据词性序列集合复合简化型词性序列对应的复合词；将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。

其中，将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的步骤包括：获取简化型词性序列对应的复合词在语料中出现的频次，视为第一频次，并且获取复合简化型词性序列对应的复合词而得到的词语在语料中出现的频次，视为第二频次；判断第二频次与第一频次之间的比值是否大于第一阈值；若比值大于第一阈值，则在第一词典中删除简化型词性序列对应的复合词并添加复合简化型词性序列对应的复合词而得到的词语；返回判断是否需要进行再次挖掘。

其中，获取词性序列集合的步骤包括：判断第一词典中是否已存储有复合词；若否，则抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合；若是，则抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合。

其中，抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括：利用分词工具对语料进行分词和词性标注；获取第二词典中复合词在语料中对应的多个词性序列；分别获取对应词性序列的复合词在语料中出现的频次，视为第三频次；判断第三频次是否大于第二阈值；若第三频次大于第二阈值，则存储词性序列至词性序列集合。

其中，抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括：获取对应第一词典的词性序列集合；根据第一词典对语料进行分词和词性标注；获取第一词典中复合词在语料中对应的多个词性序列；分别获取对应词性序列的复合词在语料中出现的频次，视为第四频次；判断第四频次是否大于第三阈值；若第四频次大于第三阈值，则存储词性序列至词性序列集合。

其中，在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤包括：在语料中提取词性序列符合词性序列集合的复合词；获取复合词在语料中出现的频次，视为第五频次；判断第五频次是否大于第四阈值；若第五频次大于第四阈值，则存储复合词至第一词典。

其中，判断是否需要进行再次挖掘的步骤具体为：判断添加至第一词典的复合词的总数是否大于第五阈值，若大于第五阈值，则判断为需要进行再次挖掘，否则判断为不需要进行再次挖掘。

其中，判断是否需要进行复合词的再次挖掘的步骤具体为：判断是否达到预定的挖掘次数，若未达到预定的挖掘次数，则判断为需要进行再次挖掘，否则判断为不需要进行再次挖掘。

其中，词性序列集合采用正则表达式描述。

其中，所述方法还包括步骤：根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种复合词挖掘装置，该装置包括：获取模块，获取词性序列集合；第一匹配模块，在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典；第一判断模块，判断是否需要进行复合词的再次挖掘。

其中，装置进一步包括：第二判断模块，判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复；简化模块，当第二判断模块判断第一词典中的复合词对应的词性序列包括至少一个词性的N(N>=2)次重复时，将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列；第二匹配模块，根据词性序列集合复合简化型词性序列对应的复合词并将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。

其中，获取模块包括：第一判断单元，判断第一词典中是否已存储有复合词；第一获取单元，当第一判断模块判断第一词典未存储复合词时，存储第二词典中复合词在语料中的频次大于第二阈值的词性序列至词性序列集合；第二获取单元，当第一判断模块判断第一词典存储有复合词时，存储第一词典中复合词在语料中的频次大于第三阈值的词性序列至词性序列集合。

其中，装置进一步包括：标识模块，根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。

本发明的有益效果是：与现有技术相比，本发明复合词挖掘方法包括：获取词性序列集合；在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典；判断是否需要进行再次挖掘；若是，返回获取词性序列集合的步骤。通过上述方式，本发明根据词性序列集合对语料中复合词进行循环挖掘，实现覆盖广的复合词挖掘。

附图说明

图1是本发明复合词挖掘方法第一实施方式的流程图；

图2是本发明复合词挖掘方法第二实施方式的流程图；

图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图；

图4是图2中将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的流程图；

图5是本发明复合词挖掘方法第三实施方式的流程图；

图6是图5中抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的流程图；

图7是图5中抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的流程图；

图8是某一输入法的展示界面示意图；

图9是本发明复合词挖掘装置第一实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

图1是本发明复合词挖掘方法第一实施方式的流程图。如图1所示，该方法包括步骤：

S10、开始；

S11、获取词性序列集合，并执行步骤S12；

词性是词的一种属性，不同语言中的词都定义有一种或者多种不同的词性。例如：日语中的词分为动词、形容词、形容动词、名词、代词、数词、副词、连体词、连续词、感叹词、助动词和助词等词性。特别地，日语中的词性被称为“品词”。汉语中的词分为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等词性。英语中的词分为noun（名词）、verb（动词）、pronoun（代词）、adjective（形容词）、adverb（副词）、numeral（数词）、article（冠词）、preposition（介词）、conjunction（连词）、interjection(感叹词)、gerund（动名词）等词性。在其他语言中，词也可分为多种不同的词性，在此不再赘述。

词性序列是相对于复合词而言的，复合词是指由两个或多个词结合后作为一个新词来使用的词，复合词的词性是指由两个或多个词的词性组成的词性序列。特别地，日语中的词性序列被称为“品词序列”。例如：日语中的“情報検索”这个复合词，其品词序列是“名词-动词”，“増田有華”这个复合词，其品词序列是“名词-姓-名词-名”。汉语中的“三个代表”这个复合词，其词性序列是“量词-名词”，“羡慕嫉妒恨”这个复合词，其词性序列为“动词-动词-动词”；英语中的“informationretrieval”这个复合词，其词性序列是“名词-名词”，“pattern recognitionand machine learning”这个复合词，其词性序列是“名词-名词-连词-名词-动名词”；

进一步，同一复合词可以有多个不同的词性序列。例如：日语中“あまり大きく”这个复合词，其品词序列可以是“副词-形容词”、“名词-形容词”等。

词性序列集合中的词性序列各不相同，词性序列集合可以从第一词典中获取，或者从第二词典中获取，或者采用预设规则等。在本发明第一实施方式中，第一词典为存储有本发明挖掘出来的复合词的词典，在进行复合词挖掘前，第一词典中未存储任何复合词。第二词典为存储有复合词的已有小规模词典。预设规则是指例如预先设定词性序列集合中包括有“人姓-人名”，“名词-名词”，“动词-动词”等词性序列。

在本发明第一实施方式中，第一次执行S11，从第二词典获取词性序列集合或者采用预定规则。再次执行S11，从第一词典获取词性序列集合。

S12、在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典,并执行步骤S13；

在语料中分别匹配和词性序列集合中的词性序列相同的词语并存储至第一词典。语料可以为网页语料、某本书的语料或者其他类型的语料。在本发明第一实施方式中，均以网页语料为例来进行说明。

网页语料中存储有经过分词和词性标注的句子。例如，以日语为例，网页语料中存储有“太郎は花子が読んでいる本を次郎に渡した（大郎把花子正在读着的书给二郎了）”这个句子，其在网页语料中存储的格式为：

太郎/名词は/助词花子/名词が/助词読ん/动词で/助词いる/动词本/名词を/助词次/名词郎/名词に/助词渡し/动词た/助动词

在网页语料中，“次郎”经过分词被切分成“次”和“郎”两个词。如果词性序列集合，也即品词序列集合中有“名词-名词”这个品词序列，即两个名词可以合并成一个复合名词，提取品词序列符合“名词-名词”的复合词便可得到“次郎”这个复合词。

在执行步骤S 12后，“次郎”被存储至第一词典，其对应的品词序列为“名词-名词”。

又例如，网页语料中存储有两个句子，这两个句子中都包括有“あまり大きく”，其在网页语料中存储的格式为：

w0/名词 w1/助词あまり/副词大きく/形容词 w2/名词

w3/名词 w1/助词あまり/名词大きく/形容词 w4/名词

其中，w0-w4代表日语中的词。

在网页语料中，“あまり大きく”经分词被切分为“あまり”和“大きく”，“あまり”对应的品词为“副词”“名词”，“大きく”对应的品词为“形容词”。

如果品词序列集合中有“副词-形容词”这个品词序列，在网页语料中提取品词序列符合“副词-形容词”的复合词便可得到“あまり大きく”这个复合词。

在执行步骤S12后，“あまり大きく”被存储至第一词典，其对应的品词序列为“副词-形容词”。同时，在网页语料中对“あまり大きく”进行匹配，还可以获取到“あまり大きく”对应的另一个品词序列“名词-形容词”。

在本实施方式中，如果需要进行再次挖掘，再次执行步骤S11，从存储有“あまり大きく”这个复合词的第一词典中可以获取到包括品词序列“副词-形容词”和“名词-形容词”的品词序列集合，实现对品词序列集合的扩展。

在实际应用中，不同语言的网页语料中存储有大量的句子，例如，在网页语料提取符合“副词-形容词”的复合词，将会提取到大量的词性序列为“副词-形容词”的复合词并存储至第一词典。又因为提取到的复合词在网页语料中对应有多个不同的词性序列，因此再次执行步骤S11，从第一词典中就能获取到除“副词-形容词”之外的多个互不相同的词性序列组成的词性序列集合，以实现覆盖广、速度快的复合词的挖掘。

为了进一步提高挖掘速度，词性序列集合用正则表达式来描述。例如，词性序列集合中包括“名词-动词-动词”，“名词-动词”和“动词-动词”这三个词性序列，其相应的正则表达式为“名词{1}动词{1-2}|名词{0}动词{2}”。在语料中提取词性序列符合词性序列集合的复合词时，不是分别对“名词-动词-动词”，“名词-动词”和“动词-动词”这三个词性序列进行提取，而是利用等价的正则表达式“名词{1}动词{1-2}|名词{0}动词{2}”来提取，三次循环变成一次循环，可大大提高挖掘速度。

S13、判断是否需要进行再次挖掘？若是，执行步骤S11，若否，执行步骤S14；

可以判断添加至第一词典的复合词的总数是否大于第五阈值，若大于第五阈值，则判断为需要进行再次挖掘，执行步骤S11；否则判断为不需要进行再次挖掘，流程结束。

具体来说，例如设定这个阈值为5个，假设经过第一次挖掘，添加至第一词典的复合词的总数为10个，10个大于第五阈值，则继续第二次挖掘。经过第二次挖掘，添加至第一词典的复合词的总数为4个，4个小于第五阈值则流程结束。其中，第一词典中复合词的数量为14个。

还可以判断是否达到预定的挖掘次数，预定的挖掘次数可根据实际情况进行设定，若未达到预定的挖掘次数，则判断为需要进行再次挖掘，执行步骤S 11；否则判断为不需要进行再次挖掘，流程结束。

具体来说，例如设定预定的挖掘次数为5次，在完成5次挖掘后流程结束。

S14、结束。

通过上述实施方式，本申请第一实施方式可以从语料中挖掘到词性序列符合词性序列集合的大量复合词，进一步，通过对复合词的循环挖掘，可大大扩展词性序列集合，进而实现覆盖广的复合词的挖掘。

图2是本发明复合词挖掘方法第二实施方式的流程图。如图2所示，该方法包括步骤：

S20、开始；

在本实施方式中，以网页语料为例进行说明。

S21、获取词性序列集合，并执行步骤S22；

词性序列集合可以从第一词典中获取，或者从第二词典中获取，或者采用预定规则等。在本实施方式中，获取到的词性序列集合中包括“名词-名词”这个词性序列。

S22、在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典，并执行步骤S23；

图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图。如图2所示，步骤S22具体包括如下步骤：

S221、在语料中提取词性序列符合词性序列集合的复合词，并执行步骤S222；

在语料中分别匹配和词性序列集合中的词性序列相同的词语。在本实施方式中，网页语料中包括4个句子，句子中的每一个词的词性均为“名词”，其在网页语料中存储的格式为：

其中，w0-w4代表词，c0代表词性，其为名词。

词性序列集合中包括“名词-名词”这个词性序列，在网页语料中提取词性序列符合“名词-名词”的复合词便可得到“w0w1”、“w1w2”“w1w3”和“w1w4”这四个复合词，其对应的词性序列均为“名词-名词”。

S222、获取复合词在语料中出现的频次，视为第五频次,并执行步骤S223；

复合词可以有多个词性序列，获取复合词在语料中出现的频次具体是指获取对应词性序列集合中的词性序列的复合词在语料中出现的频次。在本实施方式中，对应词性序列集合中的词性序列“名词-名词”的复合词“w0w1”“w1w2”“w1w3”“w1w4”在语料中出现的第五频次分别为4、2、1、1。

S223、判断第五频次是否大于第四阈值？若第五频次大于第四阈值，执行步骤S224。

判断第五频次是否大于第四阈值用以滤掉语料中频次低的复合词，提高复合词挖掘的准确性。在本实施方式中，设定第四阈值为3。其中，“w0w1”在语料中出现的第四频次为4，大于第四阈值3次，执行步骤S224。

S224、存储复合词至第一词典。

存储在语料中出现频次大于第四阈值的复合词至第一词典。在本实施方式中，存储“w0w1”至第一词典，其对应的词性序列为“名词-名词”。

网页语料中存储有大量的句子，提取词性序列符合词性序列集合的复合词将会提取到大量的复合词，但这些复合词并不一定都是真正的复合词，在实际应用中，例如可以利用提取到的复合词在网页语料中出现的频次来进行过滤，以提高复合词挖掘的准确性。

S23、判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复？若是，执行步骤S24，若否，执行步骤S27；

判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N (N>=2)次重复用以对词性重复的复合词的词性序列进行扩展，实现覆盖广的复合词的挖掘。

在本实施方式中，第一词典中存储有复合词“w0w1”，其对应的词性序列为“名词-名词”，“名词-名词”是一个词性“名词”的两次重复。

在实际应用中，除上述包括一个词性的两次重复的词性序列，还可以是包括多个词性的多次重复的词性序列。例如词性序列为“名词-动词-名词-动词”，其包括两个词性“名词-动词”的两次重复；词性序列“名词-动词-名词-动词-名词-动词”，其包括两个词性“名词-动词”的三次重复；词性序列为“名词-动词-形容词-名词-动词-形容词”，其包括三个词性“名词-动词-形容词”的两次重复。

S24、将词性序列简化为包括至少一个词性N-1(N>=2)次重复的简化型词性序列，并执行步骤S25；

简化是指对词性序列中至少一个词性的N(N>=2)次重复进行去重处理，得到包括至少一个词性N-1(N>=2)次重复的简化型词性序列。在本实施方式中，“w0w1”的词性序列“名词-名词”，其简化型词性序列为“名词”。

在实际应用中，对于包括多个词性的N(N>=2)次重复的词性序列，其简化型词性序列为包括多个词性的N-1(N>=2)次重复。例如词性序列“名词-动词-名词-动词”，其简化型词性序列为“名词-动词”；词性序列“名词-动词-名词-动词-名词-动词”，其简化型词性序列为“名词-动词-名词-动词”；词性序列“名词-动词-形容词-名词-动词-形容词”，其简化型词性序列为“名词-动词-形容词”。

S25、根据词性序列集合复合简化型词性序列对应的复合词，并执行步骤S26；

根据词性序列集合对简化型词性序列进行复合获取词性序列更长的复合词，实现对词性重复的词性序列的扩展。在本实施方式中，词性序列集合中有“名词-名词”这个词性序列，根据“名词-名词”复合简化型词性序列“名词”对应的复合词“w0w1”，就可以得到复合词“w0w1w2”、“w0w1w3”和“w0w1w4”。其中，复合词“w0w1w2”、“w0w1w3”和“w0w1w4”对应的词性序列为“名词-名词-名词”，简化型词性序列为“名词-名词”。

S26、将复合简化型词性序列对应的复合词而得到的词语存储至第一词典，并执行步骤S27；

图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图。如图3所示，步骤S26具体包括如下步骤：

S261、获取简化型词性序列对应的复合词在语料中出现的频次，视为第一频次，并且获取复合简化型词性序列对应的复合词而得到的词语在语料中出现的频次，视为第二频次，并执行步骤S262；

在语料中获取简化型词性序列对应的复合词以及复合简化型词性序列对应的复合词而得到的词语的频次。在本实施方式中，简化型词性序列对应的复合词“w0w1”在网页语料中出现的第一频次为4次。复合简化型词性序列对应的复合词“w0w1”而得到的词“w0w1w2”、“w0w1w3”和“w0w1w4”在网页语料中出现的第二频次分别为2、1、1次。

S262、判断第二频次与第一频次之间的比值是否大于第一阈值？若是，执行步骤S263。

判断第二频次和第一频次之间的比值是否大于第一阈值用以对语料中的嵌套词进行处理，提高复合词挖掘的准确性。嵌套词是指例如当复合词“w0w1”和复合词“w0w1w2”具有包含关系，网页语料中复合词“w0w1w2”出现的频次占复合词“w0w1”出现的频次的很大比值，则认定“w0w1w2”是一个完整的词而复合词“w0w1”不是一个完整的词。

在本实施方式中，设定第一阈值为40%。其中，“w0w1w2”在网页语料中出现的第二频次2与“w0w1”出现的第一频次4的比值为50%，大于40%，执行步骤S263。

S263、在第一词典中删除简化型词性序列对应的复合词并添加复合简化型词性序列对应的复合词而得到的词语。

在第一词典中删除不完整的复合词并添加完整的复合词。在本实施方式中，在第一词典中，删除复合词“w0w1”并添加复合词“w0w1w2”。其中，“w0w1w2”对应的词性序列为“名词-名词-名词”，简化型词性序列为“名词-名词”。

S27、判断是否需要进行再次挖掘？若是，执行步骤S21，若否，执行步骤S28；

判断添加至第一词典的复合词的总数是否大于第五阈值，若大于第五阈值，则判断为需要进行复合词的再次挖掘，否则判断为不需要进行再次挖掘，流程结束。在本实施方式中，第五阈值设定为2，添加至第一词典的复合词为“w0w1w2”，总数为1，添加至第一词典的复合词小于2，判定为不需要进行再次挖掘。

在本实施方式中，如果判定需要进行再次挖掘，再次执行步骤S21，从存储有“w0w1w2”这个复合词的第一词典中可以获取到包括词性序列“名词-名词”和“名词-名词-名词”的词性序列集合，实现对词性序列集合的扩展。

S28、结束。

通过上述实施方式，本申请可以从语料中提取词性序列符合词性序列集合的大量复合词，优选地，对至少一个词性的N(N>=2)次重复的词性序列的复合词，在存储该复合词至第一词典前，判断其是否为完整复合词以提高挖掘复合词的准确性；同时，通过对至少一个词性的N(N>=2)次重复的词性序列的复合词的循环挖掘，实现相对至少一个词性的N(N>=2)次重复的词性序列的词性序列集合的扩展，进而实现覆盖较广的复合词的挖掘。

图5是本发明复合词挖掘方法第三实施方式的流程图。如图5所示，该方法包括步骤：

S30、开始；

在本实施方式中，以网页语料为例进行说明。

S31、判断第一词典中是否已存储有复合词?若否，执行步骤S32，若是，执行步骤S33；

判断第一词典是否已存储有复合词是用来判断是否已进行过复合词的挖掘。如果第一词典未存储有复合词，说明未进行过复合词的挖掘，需要从第二词典中获取词性序列集合或者采用预定规则。在本实施方式中，第一次执行步骤S31时，第一词典中未存储复合词；再次执行步骤S31时，第一词典中存储有复合词。

S32、抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合，并执行步骤S34；

图6是图5中抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的流程图。如图6所示，步骤S32具体包括如下步骤:

S321、利用分词工具对语料进行分词和词性标注，并执行步骤S322；

利用分词工具对语料中的句子进行分词，同时标注每个词在句子中对应的词性。例如，网页语料中包括6个句子，其经分词工具分词和词性标注后存储的格式为：

\begin{matrix} w 0 / c 0 & w 1 / c 1 & w 2 / c 2 & w 3 / c 0 & w 4 / c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 / c 0 & w 1 / c 1 & w 2 / c 2 & w 3 / c 0 & w 4 / c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 / c 0 & w 1 / c 1 & w 2 / c 2 & w 3 / c 0 & w 4 / c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 / c 0 & w 1 / c 1 & w 2 / c 2 & w 3 / c 3 & w 4 / c 4 & w 5 / c 4 & w 6 / c 5 \\ w 0 / c 0 & w 1 / c 2 & w 2 / c 2 & w 3 / c 3 & w 4 / c 4 & w 5 / c 4 & w 6 / c 5 \\ w 0 / c 0 & w 1 / c 2 & w 2 / c 2 & w 3 / c 3 & w 4 / c 4 & w 5 / c 4 & w 6 / c 5 \end{matrix}

其中，其中，w0-w6代表词，c0-c5代表词性。

S322、获取第二词典中复合词在语料中对应的多个词性序列，并执行步骤S323；

在语料中匹配与第二词典中复合词相同但被切分开的词，根据切分开的词所标注的词性获取第二词典中复合词对应的多个词性序列。在本实施方式中，第二词典中有复合词“w0w1”。在网页语料中，可获取到“w0w1”对应的词性序列分别为：“c0-c1”和“c0-c2”。

S323、分别获取对应词性序列的复合词在语料中出现的频次，视为第三频次，并执行步骤S324；

在语料中获取对应不同词性序列的复合词出现的频次。在本实施方式中，对应词性序列“c0-c1”的“w0w1”在网页语料中出现的第三频次为3，对应词性序列“c0-c2”的“w0w1”出现的第三频次为2。

S324、判断第三频次是否大于第二阈值？若第三频次大于第二阈值，执行步骤S325；

判断第三频次是否大于第二阈值用以滤掉语料中低频的词性序列，提高挖掘复合词的速度和准确性。在本实施方式中，设定第二阈值为2。其中，对应词性序列“c0-c1”的“w0w1”在网页语料中出现的第三频次为3次，大于第二阈值2次，执行步骤S325。

S325、存储词性序列至词性序列集合。

如果第三频次大于第二阈值，则该词性序列为高频词性序列，将其存储至词性序列集合，以用于在网页语料中提取符合该词性序列的复合词。在本实施方式中，存储词性序列“c0-c1”至词性序列集合。

在本实施方式中，执行完步骤S32后，词性序列集合包括“c0-c1”这个词性序列。

S33、抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合，并执行步骤S34；

图7是图5中抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的流程图。如图7所示，步骤S33具体包括如下步骤:

S331、获取第一词典的词性序列集合，并执行步骤S332；

获取第一词典中存储的复合词的词性序列并存储至词性序列集合，其中，词性序列集合中的词性序列互不相同。在本实施方式中，第二次执行步骤S31时，第一词典中已存储有复合词，分别为“w0w1”和“w3w4”。获取第一词典的词性序列集合可以得到包括词性序列“c0-c1”的词性序列集合。

S332、根据第一词典对语料进行分词和词性标注，并执行步骤S333；

根据第一词典将网页语料中被切分开的词复合为第一词典中的复合词并在网页语料中进行词性标注。在本实施方式中，根据第一词典对语料进行分词和词性标注后存储的格式为：

\begin{matrix} w 0 w 1 / c 0 - c 1 & w 2 / c 2 & w 3 w 4 / c 0 - c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 w 1 / c 0 - c 1 & w 2 / c 2 & w 3 w 4 / c 0 - c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 w 1 / c 0 - c 1 & w 2 / c 2 & w 3 w 4 / c 0 - c 1 & w 5 / c 3 & w 6 / c 4 \\ w 0 w 1 / c 0 - c 1 & w 2 / c 2 & w 3 / c 3 & w 4 / c 4 & w 5 / c 4 & w 6 / c 5 \\ w 0 / c 0 & w 1 / c 2 & w 2 / c 2 & w 3 / c 3 & w 4 / c 4 & w 5 / c 4 & w 6 / c 5 \\ w 0 / c 0 & w 1 / c 2 & w 2 / c 2 & w 3 / c 0 & w 4 / c 2 & w 5 / c 4 & w 6 / c 5 \end{matrix}

其中,w0-w6代表词，c0-c5代表词性。

S333、获取第一词典中复合词在语料中对应的多个词性序列，并执行步骤S334；

在语料中匹配与第一词典中复合词相同但被切分开的词，根据切分开的词所标注的词性获取第一词典中复合词对应的多个词性序列。在本实施方式中，在网页语料中，可获取到“w3w4”对应的多个词性序列分别为：“c0-c2”和“c3-c4”。

S334、分别获取对应词性序列的复合词在语料中出现的频次，视为第四频次，并执行步骤S335；

在语料中获取对应不同词性序列的复合词出现的频次。在本实施方式中，对应词性序列“c0-c2”的“w3w4”在网页语料中出现的第四频次为1次，对应词性序列“c3-c4”的“w3w4”出现的第四频次为2次。

S335、判断第四频次是否大于第三阈值？若是，执行步骤S336；

判断第四频次是否大于第三阈值用以滤掉在语料中低频的词性序列，提高挖掘复合词的速度和准确性。在本实施方式中，设定第三阈值为1次。其中，对应词性序列“c3-c4”的“w3w4”在网页语料中出现的第四频次为2次，大于第三阈值1次，则执行S336。

S336、存储词性序列至词性序列集合。

如果第四频次大于第三阈值，则该词性序列为高频词性序列，将其存储至词性序列集合，以用于在网页语料中提取符合该词性序列的新的复合词。在本实施方式中，存储词性序列“c3-c4”至词性序列集合。

在本实施方式中，执行完步骤S33后，词性序列集合包括“c0-c1”“c3-c4”两个词性序列，实现了词性序列的扩展。

S34、在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典，并执行步骤S35；

在语料中分别匹配和词性序列集合中的词性序列相符的复合词并存储至第一词典。在本实施方式中，第一次执行步骤S34，在网页语料中匹配词性序列符合“c0-c1”的复合词便可提取到“w0w1”“w3w4”这两个复合词。步骤S34第一次执行完后，第一词典中存储有复合词“w0w1”“w3w4”，其对应的词性序列为“c0-c1”。第二次执行步骤S34，在网页语料中匹配词性序列符合“c3-c4”的复合词便可提取到“w5w6”。步骤S34第二次执行完后，第一词典中包括复合词“w0w1”、“w3w4”和“w5w6”，其对应的词性序列为“c0-c1”“c3-c4”。

S35、判断是否需要进行再次挖掘？若是，执行步骤S31，若否，执行步骤S36；

判断添加至第一词典的复合词的总数是否大于第五阈值，若大于第五阈值，则判断为需要进行复合词的再次挖掘，否则判断为不需要进行复合词的再次挖掘。在本实施方式中，第五阈值设定为1，第一次执行步骤S35，添加至第一词典的复合词为“w0w1”“w3w4”，总数为2，添加至第一词典的复合词大于第五阈值，判定为需要进行再次挖掘。第二次执行步骤S35，添加至第一词典的复合词为“w5w6”，总数为1，添加至第一词典的复合词等于第五阈值，判定为不需要进行再次挖掘，流程结束。

S36、结束。

通过上述实施方式，本申请可以从语料中提取词性序列符合词性序列集合的大量复合词，优选地，第一次挖掘时，通过提取第二词典中的复合词对应的高频词性序列来获取词性序列集合，实现速度快、精度高的复合词挖掘；再次挖掘时，通过提取第一词典中的复合词对应的高频词性序列来获取词性序列集合，实现词性序列的扩展，进一步实现速度快、精度高、覆盖广的复合词的挖掘。

当新的复合词从语料中被挖掘出来后，即被存储至第一词典后，可以根据复合词在语料中出现的频次标识复合词为“新词-复合词”、“热词-复合词”或“复合词”。

具体来说，关于“热词-复合词”的标识，根据复合词在语料中出现的频次从高到低对复合词进行排序，将排在队列前面的n1个复合词标识为“热词-复合词”。其中，n1可以根据实际情况进行设定，例如，为了避免过多的复合词的热词引起的用户的眼花缭乱的问题，设定n1为1000，则排在队列前面的1000个复合词为“热词-复合词”。

关于“新词-复合词”的标识，通过比较间隔一段时间（例如一周、一个月）的两次挖掘得到的同一复合词在语料中出现的频次，当频次大幅度增长，例如：设定两次频次的比值大于n2倍为大幅度增长，则标识该复合词为“新词-复合词”，其中，n2可以根据实际情况进行设定。

例如，设定n2为9，间隔一个月两次挖掘均获取得到复合词“部屋の中の雲”，一个月前其在语料中出现的频次为1000，现在其在语料中出现的频次为10000，其两次频次的比值为10，大于9，则标识“部屋の中の雲”为“新词-复合词”。

进一步，当频次大幅度增长的复合词的数量大于n3个时，例如，n3为1000时，为了避免过多的复合词的新词引起的用户的眼花缭乱的问题，可以按照增长的幅度从高到低对复合词进行排序，仅仅将排在队伍前面的n3个，也即1000个复合词标识为“新词-复合词”。

优选地，当复合词同时符合“热词-复合词”和“新词-复合词”的标识规则时，标识该复合词为“热词-复合词”。

关于“复合词”的标识，所有复合词在被存储至第一词典时，自动标识为“复合词”，然后，将符合上述“新词-复合词”或“热词-复合词”标识规则的复合词设置为相应的“新词-复合词”或“热词-复合词”。

当日语中的新的复合词从语料中被挖掘出来后，可以将这些新的复合词应用到n-pos品词转换模型，重新获取品词到品词的转移概率以及品词到汉字/假名的生成概率。

n-pos品词转换模型为：

P (y) = Π_{i = 1}^{n} P (w_{i} | c_{i}) P (c_{i} | c_{i - 1})

其中，y表示一个句子，即y=w₁w₂...w_n，w_i表示一个汉字/假名，c_i表示对应w_i的品词，P(c_i|c_i-1)表示品词到品词的转移概率，P(w_i|c_i)表示品词到汉字/假名的生成概率。

例如语料有一个句子H，包括有w0w1w2w3w4五个词，其在语料中存储的格式为：

w0/c0 w1/c1 w2/c2 w3/c3 w4/c4

其中，w0-w4代表日语中的词，c0-c4代表品词。

则基于n-pos模型的句子H的概率为：

P(w₀w₁w₂w₃w₄)

=P(c₀|BOS)P(w₀|c₀)P(w₁|c₁)P(c₁|c₀)P(w₂|c₂)P(c₂|c₁)P(w₃|c₃)P(c₃|c₂)P(w₄|c₄)P(c₄|c₃)

在对语料进行复合词挖掘后，得到复合词w1w2w3，其对应的品词序列为c1c2c3，则句子H在网页语料中存储的格式为:

w0/c0w 1w2w3/c1c2c3 w4/c4

则基于n-pos模型的句子H的概率为：

P(w₀w₁w₂w₃w₄)

=P(c₀|BOS)P(w₀|c₀)P(w₁w₂w₃|c₁c₂c₃)P(c₁|c₀)P(w₄|c₄)P(c₄|c₃)

进一步，根据贝叶斯定律，当用户输入假名序列后，可以获取到概率最高的汉字/假名的句子，假名可以理解为中文中的读音。

贝叶斯定律为：arg max P(y|x)=arg max P(y)P(x|y)

其中，注音模型为：

P (x | y) = Π_{i = 1}^{n} P (r_{i} | w_{i})

x表示用户输入的假名序列，即x=r₁r₂…r_n，r_i表示一个假名，P(r_i|w_i)表示汉字/假名w_i的假名为r_i的概率，也就是说，给定汉字/假名确定其假名的概率。

承接上面的例子，在对语料进行复合词挖掘后，得到复合词w1w2w3，同时可以得到复合词w1w2w3的假名序列，则句子H在网页语料中存储的格式为：

w0/c0/r0 w1w2w3/c1c2c3/r1r2r3 w4/c4/4

其中，r0-r4代表假名。

基于注音模型的句子H的假名的概率为：

P(r₀r₁r₂r₃r₄/w₀w₁w₂w₃w₄)

=P(r₀|w₀)P(r₁r₂r₃|w₁w₂w₃)P(r₄|w₄)

根据贝叶斯定律以及P(w₀w₁w₂w₃w₄)、P(r₀r₁r₂r₃r₄/w₀w₁w₂w₃w₄)，可以得到P(w₀w₁w₂w₃w₄/r₀r₁r₂r₃r₄)，当用户输入假名r₀r₁r₂r₃r₄时，可以获取到概率最高的汉字/假名序列w₀w₁w₂w₃w₄。

进一步，当其他语言中的新的复合词，例如，汉语中的新的复合词，从语料中被挖掘出来后，也可应用于上述基于n-pos模型的品词转换模型和注音模型中。其中，其他语言的词性对应日语的品词，其他语言的拼音或者读音对应日语的假名，其他语言中的复合词的应用与上述日语中复合词的应用类似，在此不再赘述。

在实际应用中，当复合词被挖掘出来后，用户输入复合词的前若干个假名或者拼音或者读音后，可以预测显示该复合词，从而在显著减少用户按键的次数的前提下，提升用户的体验。

图8是某一输入法的展示界面示意图。如图8所示，当用户在输入框中输入假名“じかんがい”（对应汉字“時間外”）的时候，输入法在候选框主动为用户提供读音为“じかんがい”的汉字词条。其中，候选框中的“時間外労働”是挖掘得到的复合词，其显示在候选框中的标识为<hot複合語>，与上文描述的“热词-复合词”相对应。候选框中的“時間外取引”同样为挖掘得到的复合词，其显示在候选框中的标识为<new複合語>，与上文描述的“新词-复合词”相对应。

进一步，当光标移动到候选框中的“時間外労働”时，界面显示“時間外労働”对应的百度搜索的网页地址，当用户点击展示界面上的右箭头方向键“→”或者网页地址时，在浏览器中将展现百度的搜索结果。

图9是本发明复合词挖掘装置第一实施方式的结构示意图。如图9所示，复合词挖掘装置包括：获取模块10、第一匹配模块20、第二判断模块30、简化模块40、第二匹配模块50、标识模块60以及第一判断模块70。

获取模块10，用于获取词性序列集合。

其中，获取模块10包括第一判断单元11、第一获取单元12以及第二获取单元13。

判断单元11，用于判断第一词典中是否已存储有复合词；

第一获取单元12与第一判断单元11相连，用于当第一判断模块11判断第一词典中未存储有复合词时，抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合。

第二存获取单元13与第一判断单元11相连，用于当第一判断单元11判断第一词典中存储有复合词时，抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合。

模块20与获取模块10相连，具体来说，第一匹配模块20分别与获取模块10中的第一获取单元12和第二存获取单元13相连，用于提取词性序列符合词性序列集合的复合词并存储至第一词典。

第二判断模块30与第一匹配模块20相连，用于判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N (N>=2)次重复。

简化模块40与第一判断模块30相连，用于将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列。

第二匹配模块50与简化模块40相连，用于复合简化型词性序列对应的复合词并将复合简化型词性序列对应的复合词得到的词语存储至第一词典。

标识模块60与第二匹配模块50相连，用于根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。

第一判断模块70与标识模块60相连，用于判断是否需要进行复合词的再次挖掘，当判断需要进行复合词的挖掘时，返回获取模块10的第一判断单元11。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种复合词挖掘方法，其特征在于，所述方法包括步骤：

获取词性序列集合；

在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典；

判断是否需要进行再次挖掘；

若是，返回所述获取词性序列集合的步骤。

2.根据权利要求1所述的复合词挖掘方法，其特征在于，所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤之后，所述方法进一步包括步骤：

判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复；

若是，将所述词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列，其中所述简化是指对所述词性序列中至少一个词性的重复进行去重处理，得到所述简化型词性序列；

根据所述词性序列集合复合所述简化型词性序列对应的复合词；

将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典；

返回所述判断是否需要进行再次挖掘。

3.根据权利要求2所述的复合词挖掘方法，其特征在于，所述将所述复合所述简化型词性序列对应的所述复合词而得到的词语存储至所述第一词典的步骤包括：

获取所述简化型词性序列对应的所述复合词在语料中出现的频次，视为第一频次，并且获取复合所述简化型词性序列对应的所述复合词而得到的词语在语料中出现的频次，视为第二频次；

判断所述第二频次与所述第一频次之间的比值是否大于第一阈值；

若所述比值大于所述第一阈值，则在所述第一词典中删除所述简化型词性序列对应的复合词，并添加复合所述简化型词性序列对应的所述复合词而得到的词语。

4.根据权利要求1所述的复合词挖掘方法，其特征在于，所述获取词性序列集合的步骤包括：

判断所述第一词典中是否已存储有所述复合词；

若否，则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合；

若是，则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。

5.根据权利要求4所述的复合词挖掘方法，其特征在于，所述抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括：

利用分词工具对所述语料进行分词和词性标注；

获取第二词典中复合词在所述语料中对应的多个词性序列；

分别获取对应所述词性序列的所述复合词在所述语料中出现的频次，视为第三频次；

判断所述第三频次是否大于第二阈值；

若所述第三频次大于所述第二阈值，则存储所述词性序列至所述词性序列集合。

6.根据权利要求4所述的复合词挖掘方法，其特征在于，所述抽取第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括：

获取对应所述第一词典的词性序列集合；

根据所述第一词典对语料进行分词和词性标注；

获取所述第一词典中复合词在所述语料中对应的多个词性序列；

分别获取对应所述词性序列的所述复合词在所述语料中出现的频次，视为第四频次；

判断所述第四频次是否大于所述第三阈值；

若所述第四频次大于所述第三阈值，则存储所述词性序列至所述词性序列集合。

7.根据权利要求1所述的复合词挖掘方法，其特征在于，所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤包括：

在语料中提取词性序列符合所述词性序列集合的复合词；

获取所述复合词在所述语料中出现的频次，视为第五频次；

判断所述第五频次是否大于第四阈值；

若所述第五频次大于第四阈值，则存储所述复合词至第一词典。

8.根据权利要求1所述的复合词挖掘方法，其特征在于，所述判断是否需要进行再次挖掘的步骤具体为：

判断添加至所述第一词典的所述复合词的总数是否大于第五阈值，若大于所述第五阈值，则判断为需要进行再次挖掘，否则判断为不需要进行再次挖掘。

9.根据权利要求1所述的复合词挖掘方法，其特征在于，所述判断是否需要进行复合词的再次挖掘的步骤具体为：

判断是否达到预定的挖掘次数，若未达到所述预定的挖掘次数，则判断为需要进行再次挖掘，否则判断为不需要进行再次挖掘。

10.根据权利要求1所述的复合词挖掘方法，其特征在于，所述词性序列集合采用正则表达式描述。

11.根据权利要求1所述的复合词挖掘方法，其特征在于，所述方法进一步包括步骤：根据所述复合词在所述语料中出现的频次标识所述复合词为“热词-复合词”、“新词-复合词”或“复合词”。

12.一种复合词挖掘装置，其特征在于，所述装置包括：

获取模块，获取词性序列集合；

第一匹配模块，在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典；

第一判断模块，判断是否需要进行复合词的再次挖掘。

13.根据权利要求12所述的复合词挖掘装置，其特征在于，所述装置进一步包括：

第二判断模块，判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复；

简化模块，当第二判断模块判断所述第一词典中的所述复合词对应的词性序列包括至少一个词性的N(N>=2)次重复时，将所述词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列；

第二匹配模块，根据所述词性序列集合复合所述简化型词性序列对应的复合词并将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典。

14.根据权利要求12所述的复合词挖掘装置，其特征在于，所述获取模块包括：

第一判断单元，判断所述第一词典中是否已存储有所述复合词；

第一获取单元，当第一判断模块判断所述第一词典未存储所述复合词时，存储第二词典中复合词在所述语料中的频次大于第二阈值的词性序列至词性序列集合；

第二获取单元，当第一判断模块判断所述第一词典存储有所述复合词时，存储第一词典中复合词在所述语料中的频次大于第三阈值的词性序列至词性序列集合。

15.根据权利要求12所述的复合词挖掘装置，其特征在于，所述装置进一步包括：

标识模块，根据所述复合词在所述语料中出现的频次标识所述复合词为“热词-复合词”、“新词-复合词”或“复合词”。