CN105426361A

CN105426361A - 关键词提取方法及装置

Info

Publication number: CN105426361A
Application number: CN201510874564.2A
Authority: CN
Inventors: 张昊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-03-23

Abstract

本发明公开了一种关键词提取方法及装置。该方法包括：提供一领域内的语料数据，语料数据包括多个文档；对语料数据进行预处理，得到文本数据；对文本数据进行分词处理，得到多个语料词语；对语料词语进行过滤处理，得到多个候选词；为每个候选词设置初始权重值；根据候选词在每个文档中的共现关系调整候选词的初始权重值，得到候选词在每个文档中的最终权重值；根据最终权重值确定每个文档的关键词。借助于本发明的技术方案，能够准确提取某一领域中语料的关键词。

Description

关键词提取方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种关键词提取方法及装置。

背景技术

在现有技术中，在对某一个领域内的多篇文档组成的语料提取关键词时，多是人工审核该领域内的语料，并总结文本语义，提取关键词，从而对用户的语义进行理解。因此，现有技术方案存在关键词提取效率低、成本高、容易漏检的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的关键词提取方法及装置。

本发明提供一种关键词提取方法，包括：

提供一领域内的语料数据，语料数据包括多个文档；

对语料数据进行预处理，得到文本数据；

对文本数据进行分词处理，得到多个语料词语；

对语料词语进行过滤处理，得到多个候选词；

为每个候选词设置初始权重值；

根据候选词在每个文档中的共现关系调整候选词的初始权重值，得到候选词在每个文档中的最终权重值；

根据最终权重值确定每个文档的关键词。

本发明还提供了一种关键词提取装置，包括：

提供模块，用于提供一领域内的语料数据，语料数据包括多个文档；

预处理模块，用于对语料数据进行预处理，得到文本数据；

分词模块，用于对文本数据进行分词处理，得到多个语料词语；

过滤模块，用于对语料词语进行过滤处理，得到多个候选词；

设置模块，用于为每个候选词设置初始权重值；

调整模块，用于根据候选词在每个文档中的共现关系调整候选词的初始权重值，得到候选词在每个文档中的最终权重值；

确定模块，用于根据最终权重值确定每个文档的关键词。

本发明有益效果如下：

通过对某一领域内所有语料进行预处理、分词和过滤后得到候选词，根据每个候选词的权重最终获取语料的关键词，解决了现有技术中关键词提取效率低、成本高、容易漏检的问题，借助于本发明实施例的技术方案，能够自动提取某一领域中语料的关键词，关键词提取的准确率高，成本低，不会发生漏检，从而提高了语义理解的执行效率，能够更准确的根据关键词执行后续操作。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的关键词提取方法的流程图；

图2是本发明实施例的关键词提取方法的详细处理的流程图；

图3是本发明实施例的关键词提取装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中关键词提取效率低、成本高、容易漏检的问题，本发明提供了一种关键词提取方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种关键词提取方法，图1是本发明实施例的关键词提取方法的流程图。

如图1所示，根据本发明实施例的关键词提取方法包括如下处理：

步骤101，提供一领域内的语料数据，语料数据包括多个文档；也就是说，语料数据是由某一个领域内互相独立的多个文档所组成的。

步骤102，对语料数据进行预处理，得到文本数据；在步骤102中，预处理包括：将语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行。例如，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

步骤103，对文本数据进行分词处理，得到多个语料词语；在步骤103中，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。

步骤104，对语料词语进行过滤处理，得到多个候选词；在步骤104中，过滤处理可以采用以下任一种或两种方式：

方式一：根据词性对语料词语进行过滤，保留名词、动词以及形容词；

方式二：根据频次对语料词语进行过滤，保留频次大于频次阈值的语料词语，其中，频次是指语料词语在语料数据中出现的频率或者次数。

本实施例中，先根据词性对语料词语进行过滤，仅保留名词、动词以及形容词，去除其它词性的语料词语；然后根据频次对保留的名词、动词以及形容词进行过滤，保留频次大于频次阈值的语料词语，从而字典中为频次大于频次阈值的名词、动词和形容词。

在本发明的其它实施例中，可以仅根据词性进行过滤，也可以仅根据频次进行过滤，还可以先根据频次进行过滤再根据词性进行过滤，其都在本发明的保护范围之内。

步骤105，为每个候选词设置初始权重值；在步骤105中，初始权重值通过以下方式进行设置；

当候选词在标题中出现过时，根据计算候选词的初始权重值；否则，根据计算候选词的初始权重值；其中：w_i表示初始权重值，n_i表示候选词出现的文档次数，N表示语料的所有文档数；m为大于1的系数。

优选地，1.5≤m≤2。在实际应用中m可以是定值，也可以根据候选词在标题中出现的次数不同设置不同的值。例如，候选词在题目中出现了1次，可以将m设置为1.5，如果出现了2次，可以将m设置为2。这样可以使候选词的初始权重值更加精确。

步骤106，根据候选词在每个文档中的共现关系调整候选词的初始权重值，得到候选词在每个文档中的最终权重值。

在步骤106中，具体包括如下处理：

步骤1061，设置预定大小的滑动窗口，将滑动窗口在当前文档中进行动态滑动；

步骤1062，获取滑动窗口中出现的2个以上的候选词，将2个以上的候选词之间添加互相指向的2个连接，并将每个候选词作为一个节点，构建当前文档的关联有向图；

步骤1063，根据初始权重值，迭代计算关联有向图中各个节点的权重值，直到当前节点的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算，并将最后一次计算的权重值作为相应节点的最终权重值。

具体地，在步骤1063中，根据以下公式迭代计算关联有向图中各个节点的权重值：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j})

其中，WS(V_i)表示候选词V_i调整后的权重值，d为预先设置的阻尼系数(如：0.85)，In(V_i)表示当前文档中指向候选词V_i的节点，Out(V_i)表示V_i指向的节点，WS(V_j)表示词语关联有向图中节点V_j的权重值，N_j表示V_j指向的节点的个数。

步骤107，根据最终权重值确定每个文档的关键词。

在步骤107中，可以将最终权重值最大的前N个候选词作为文档的关键词，其中，N为自然数；或者，将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。

综上所述，本发明实施例的技术方案对所有语料数据进行预处理和分词后，利用词频和词性等特征过滤候选词，根据位置和文档次数等特征设置初始权重值，并构建当前文档的关联有向图，通过迭代计算使关联有向图稳定后根据候选词的最终权重值生产语料的关键词。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图2是本发明实施例的关键词提取方法的一种详细处理的流程图，如图2所示，根据本发明实施例的关键词提取方法具体包括如下处理：

步骤201，将获取的某一领域内的语料数据的格式统一为文本格式，得到文本数据，并过滤无效的格式，去除脏词、敏感词和停用词等词；对处理后的语料按大标点(问号、叹号、分号以及句号)分割成行保存。

需要说明的是，在本实例中，某一领域内的语料数据属于多个文档。

步骤202，利用分词引擎对文本数据进行分词处理，得到多个语料词语，可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法等进行分词。

步骤203，根据词性对语料词语进行过滤，保留名词、动词和形容词作为候选词；这些词性作为文本关键词的可能性比较大，其他词性作为关键词的可能性非常小，所以直接考虑这几个词性的词语，提高执行效率。

步骤204，统计语料词语在语料数据中出现的频率或者次数(即频次)。

步骤205，保留频次大于频次阈值的语料词语作为候选词；此步骤中，通过语料词语在所有语料中出现的次数，对于达到一定阈值的词添加到候选词库中。

步骤206，对候选词出现的文档数进行统计，例如，该候选词出现在3个文档中，则该候选词出现的文档数为3。

步骤207，由于在所有文档中都多次出现的候选词作为文本关键词的可能性比较大，根据计算候选词的初始权重值；其中：w_i表示初始权重值，n_i表示候选词出现的文档次数，N表示语料的所有文档数。

步骤208，判断候选词是否在文档标题中出现，如果出现，则执行步骤209，否则，执行步骤210。

步骤209，当候选词在标题中出现过时，根据计算候选词的初始权重值；m为大于1的系数。优选地，在本发明实施例中，m＝2，即对于在语料标题中出现过的候选词的权重调高1倍。需要说明的是，在实际应用中m也可以根据候选词在标题中出现的次数不同设置不同的值。例如，候选词在题目中出现了1次，可以将m设置为1.5，如果出现了2次，可以将m设置为2。这样可以使候选词的初始权重值更加精确。

上面九个步骤的处理对象都是所有的文档，而下面的四个步骤的处理对象都是分别针对单个文档。

步骤210，根据候选词在滑动窗口中的共现关系分别构建每个文档的关联有向图；具体包括如下处理：

首先设置预定大小的滑动窗口，将滑动窗口在当前文档中进行动态滑动，随后，获取滑动窗口中出现的2个以上的候选词，将2个以上的候选词之间添加互相指向的2个连接，并将每个候选词作为一个节点，构建当前文档的关联有向图。

例如，在本实例中，滑动窗口的预定大小可以为容纳3个语料词语的长度，能容纳3个语料词语的滑动窗口在文档中滑动时，当滑动窗口中出现了2个候选词时，则将这2个候选词之间添加互相指向的2个连接；当滑动窗口中出现了3个候选词时，则将这3个候选词中两两之间添加互相指向的6个连接，每个候选词为一个节点。随后滑动窗口继续在文档中滑动，每当滑动窗口中出现了2个或3个候选词，则将2个或3个候选词之间添加互相指向的2个连接或6个连接，并将每个候选词作为一个节点。直到遍历整个文档后，得到当前文档的关联有向图。

步骤211，进行迭代计算，直到关联有向图稳定，获取每个文档中每个候选词的最终权重值。

在步骤211中，根据如下公式进行迭代计算，直到关联有向图稳定(即当前节点的相邻两次迭代中权重值之差小于第二阈值)后，会得到每个候选词的最终权重值。由于此时保证了关联有向图的稳定性，因此准确性高。

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j}) W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j})

需要说明的是，本实施例中也可以以迭代次数作为迭代停止的条件，此时效率更高。

步骤212，将同一文档中每个候选词按照最终权重值降序排列。

步骤213，输出前N个候选词作为当前文档的关键词，此时可以严格满足关键词的数量要求。

需要说明的是，本实施例中也可以将最终权重值大于权重阈值的候选词作为当前文档的关键词，从而保证输出的关键词的高准确性。

通过上述处理，能够自动准确地提取某一领域中语料的关键词，从而提高了语义理解的执行效率，能够更准确的根据关键词执行后续操作。

下面对本发明实施例的上述技术方案进行详细举例说明。

在本实例中，语料数据由多个文档组成，其中一个文档的内容如下：

雷锋具有崇高理想和坚定信念，是实践社会主义、共产主义思想道德的楷模，是全国人民学习的光辉榜样。党的十七届六中全会《决定》强调，深入开展学雷锋活动，采取措施推动学习活动常态化。贯彻落实这一要求，需要我们深刻理解雷锋精神的时代内涵，积极探索新形势下弘扬雷锋精神的有效途径，让雷锋精神代代相传。这对于推动社会主义核心价值体系建设、巩固全党全国人民团结奋斗的共同思想道德基础具有重要意义。本期“大家论道”刊发的这组文章，围绕这一问题进行了阐述。雷锋精神的时代内涵雷锋这个响亮的名字和以他的名字命名的雷锋精神，深深镌刻在一代又一代中国人的心中，影响和激励着一代又一代中国人为建设中国特色社会主义而奋勇前进。半个世纪过去了，在雷锋精神的感召下，我国涌现出无数雷锋式的先进人物，他们继承和弘扬雷锋精神，为其注入了新的内涵。雷锋精神的时代内涵，集中体现为服务人民、助人为乐的奉献精神，干一行爱一行、专一行精一行的敬业精神，锐意进取、自强不息的创新精神，艰苦奋斗、勤俭节约的创业精神。【详细】新时期弘扬雷锋精神的着力点雷锋精神内涵丰富，历久弥新。在新的历史条件下，弘扬雷锋精神应把握以下几个主要着力点。不断坚定中国特色社会主义理想信念雷锋是一个立场坚定的共产主义战士。雷锋说过：“我就是长着一个心眼，我一心向着党，向着社会主义，向着共产主义”；“有人说：人生在世，吃好、穿好、玩好是最幸福的。我觉得人生在世，只有勤劳，发愤图强，用自己的双手创造财富，为人类的解放事业——共产主义贡献自己的一切，这才是最幸福的”。这是雷锋对共产主义忠诚信仰的鲜明表达。坚定的共产主义信仰是雷锋精神的精髓。在坚定的共产主义信仰引领下，雷锋的一言一行、一举一动都表现了一个革命战士、共产党人为实现共产主义伟大理想而不懈奋斗的崇高精神。【详细】以学雷锋推动社会主义核心价值体系建设党的十七届六中全会《决定》强调，深入开展学雷锋活动，采取措施推动学习活动常态化。深入贯彻落实全会精神，一项重要任务就是引导广大干部群众积极开展学雷锋活动，推动社会主义核心价值体系建设，不断巩固全党全国各族人民团结奋斗的共同思想道德基础。开展学雷锋活动对社会主义核心价值体系建设具有重要推动作用雷锋是中华民族的道德标杆。深入开展学雷锋活动，充分发挥道德模范人物的示范效应，对于推动社会主义核心价值体系建设具有重要作用。

对所有的语料数据进行预处理和分词。以上述文档为例，上述文档在分词后得到的文本数据如下：

根据词性对所有的文本数据进行过滤处理。以上述文档为例，对该文档的语料词语进行过滤处理的结果如下：

[措施,坚定,十七届,忠诚,立场,进行,长,充分,中华民族,继承,奉献,建设党,建设,重要,具有,体系,阐述,精髓,几个,文章,深入,刊发,觉得,表现,人物,引领,财富,奋斗,新,感召,穿,内涵,双手,共产主义,干,需要,表达,意义,影响,激励,响亮,集中,解放事业,理解,学习,途径,推动,出,信念,理想,弘扬,着力点,崇高,发挥,说,落实,贯彻,核心,好,时代,一项,常态,学,任务,涌现,过去,专,形势,决定,积极,历史,干部,价值,全国,玩,光辉,引导,社会主义,伟大,创业,命名,道,榜样,详细,化,示范,汉字,先进,实践,一行,精,开展,巩固,贡献,丰富,无数,创新,勤劳,中国,发表,人民,鲜明,敬业,强调,时期,模范,围绕,博客园,群众,采取,特色,注入,服务,雷锋,团结,标杆,探索,应,人,实现,活动,全党,作用,问题,创造,把握,有效,幸福,名字,全,深刻,体现,道德,全会,党,条件,要求,效应,吃,人类,爱,镌刻,成,战士,楷模,思想,心眼,革命,一代,精神,基础,信仰]

根据频次对所有的文本数据进行过滤，即统计所有文本数据在语料数据中出现的频次，保留频次大于频次阈值的语料词语作为候选词。以上述文档为例，最后得到的候选词如下：

[措施,坚定,十七届,建设,重要,具有,体系,深入,人物,奋斗,新,内涵,共产主义,学习,推动,信念,理想,弘扬,着力点,崇高,说,落实,贯彻,核心,好,时代,常态,学,决定,积极,价值,全国,社会主义,详细,化,一行,开展,巩固,中国,人民,强调,采取,特色,雷锋,团结,人,活动,作用,幸福,名字,道德,党,战士,思想,一代,精神,基础,信仰]

设置初始权重值，当候选词在标题中出现过时，根据计算候选词的初始权重值；否则，根据计算候选词的初始权重值。以上述文档为例，此处为了简单起见，假设所有候选词的初始权重值都为1。

{0＝1.0,1＝1.0,2＝1.0,3＝1.0,4＝1.0,5＝1.0,6＝1.0,7＝1.0,8＝1.0,9＝1.0,10＝1.0,11＝1.0,12＝1.0,13＝1.0,14＝1.0,15＝1.0,16＝1.0,17＝1.0,18＝1.0,19＝1.0,20＝1.0,21＝1.0,22＝1.0,23＝1.0,24＝1.0,25＝1.0,26＝1.0,27＝1.0,28＝1.0,29＝1.0,30＝1.0,31＝1.0,32＝1.0,33＝1.0,34＝1.0,35＝1.0,36＝1.0,37＝1.0,38＝1.0,39＝1.0,40＝1.0,41＝1.0,42＝1.0,43＝1.0,44＝1.0,45＝1.0,46＝1.0,47＝1.0,58＝1.0,49＝1.0,50＝1.0,51＝1.0,52＝1.0,53＝1.0,54＝1.0,55＝1.0,56＝1.0,57＝1.0}

其中，等号前面的0-57为候选词的序号。

根据候选词在滑动窗口中的共现关系构建每个文档的关联有向图。以上述文档为例，上述文档中的58个候选词进行17次迭代后关联有向图稳定，得到每个候选词的最终权重值。为了简单起见，此处仅给出上述文档中最终权重值最大的前10个为：

[雷锋6.071863508615862,精神6.006201208401913,共产主义3.62503613956761,道德2.904821421678404,社会主义2.437237684482612,具有2.3698202044245216,一行2.160214027566892,推动2.1499017360950763,积极2.0044311280482248,理想1.9856961312709784]

上面的结果中已经将最终权重值进行了降序排列。

最终只要按照该文档所需关键词的个数要求，输出前N个候选词作为当前文档的关键词即可。

综上所述，借助于本发明实施例的技术方案，通过对某一领域内所有语料进行预处理、分词、和过滤后得到候选词，根据每个候选词的权重最终获取语料的关键词，解决了现有技术中关键词提取效率低、成本高、容易漏检的问题，借助于本发明实施例的技术方案，能够自动提取某一领域中语料的关键词，关键词提取的准确率高，从而提高了语义理解的执行效率，能够更准确的根据关键词执行后续操作。

装置实施例

根据本发明的实施例，提供了一种关键词提取装置，图3是本发明实施例的关键词提取装置的结构示意图，如图3所示，根据本发明实施例的关键词提取装置具体包括：提供模块30、预处理模块31、分词模块32、过滤模块33、设置模块34、调整模块35以及确定模块36，以下对本发明实施例的关键词提取装置的各个模块进行详细说明。

提供模块30，用于提供一领域内的语料数据，所述语料数据包括多个文档；也就是说，语料数据是由某一个领域内互相独立的多个文档所组成的。

预处理模块31，用于对所述语料数据进行预处理，得到文本数据；其中，预处理包括：将语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行。例如，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

分词模块32，用于对所述文本数据进行分词处理，得到多个语料词语；具体地，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。

过滤模块33，用于对所述语料词语进行过滤处理，得到多个候选词；过滤模块33的过滤处理可以采用以下任一种或两种方式：

设置模块34，用于为每个所述候选词设置初始权重值；初始权重值通过以下方式进行设置；

当候选词在标题中出现过时，根据计算候选词的初始权重值；否则，根据计算候选词的初始权重值；其中：w_i表示初始权重值，n_i表示候选词出现的文档次数，N表示语料的所有文档数；m为大于1的系数。优选地，1.5≤m≤2。在实际应用中m可以是定值，也可以根据候选词在标题中出现的次数不同设置不同的值。例如，候选词在题目中出现了1次，可以将m设置为1.5，如果出现了2次，可以将m设置为2。这样可以使候选词的初始权重值更加精确。

调整模块35，用于根据候选词在每个文档中的共现关系调整所述候选词的初始权重值，得到候选词在每个文档中的最终权重值；

调整模块35具体用于：设置预定大小的滑动窗口，将滑动窗口在当前文档中进行动态滑动；获取滑动窗口中出现的2个以上的候选词，将2个以上的候选词之间添加互相指向的2个连接，并将每个候选词作为一个节点，构建当前文档的关联有向图；根据初始权重值，迭代计算关联有向图中各个节点的权重值，直到当前节点的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算，并将最后一次计算的权重值作为相应节点的最终权重值。

具体地，根据以下公式迭代计算关联有向图中各个节点的权重值：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j})

确定模块36，用于根据所述最终权重值确定每个文档的关键词。优选地，确定模块36可以将最终权重值最大的前N个候选词作为文档的关键词，其中，N为自然数；或者，将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。

本发明实施例各个模块的具体处理可以参照方法实施例的描述进行理解，在此不再赘述。

综上所述，借助于本发明实施例的技术方案，通过对某一领域内所有语料进行预处理、分词和过滤后得到候选词，根据每个候选词的权重最终获取语料的关键词，解决了现有技术中关键词提取效率低、成本高、容易漏检的问题，借助于本发明实施例的技术方案，能够自动提取某一领域中语料的关键词，关键词提取的准确率高，从而提高了语义理解的执行效率，能够更准确的根据关键词执行后续操作。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种关键词提取方法，其特征在于，包括：

提供一领域内的语料数据，所述语料数据包括多个文档；

对所述语料数据进行预处理，得到文本数据；

对所述文本数据进行分词处理，得到多个语料词语；

对所述语料词语进行过滤处理，得到多个候选词；

为每个所述候选词设置初始权重值；

根据候选词在每个文档中的共现关系调整所述候选词的初始权重值，得到候选词在每个文档中的最终权重值；

根据所述最终权重值确定每个文档的关键词。

2.如权利要求1所述的关键词提取方法，其特征在于，所述预处理包括：将语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行。

3.如权利要求1所述的关键词提取方法，其特征在于，所述分词处理采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种。

4.如权利要求1所述的关键词提取方法，其特征在于，所述过滤处理采用以下任一种或两种方式：

根据词性对所述语料词语进行过滤，保留名词、动词以及形容词；

根据频次对所述语料词语进行过滤，保留频次大于频次阈值的语料词语。

5.如权利要求1所述的关键词提取方法，其特征在于，所述初始权重值通过以下方式进行设置；

当候选词在标题中出现过时，根据计算候选词的初始权重值；

否则，根据计算候选词的初始权重值；

其中：w_i表示初始权重值，n_i表示候选词出现的文档次数，N表示语料的所有文档数；m为大于1的系数。

6.如权利要求5所述的关键词提取方法，其特征在于，所述1.5≤m≤2。

7.如权利要求1所述的关键词提取方法，其特征在于，根据候选词在每个文档中的共现关系调整所述候选词的初始权重值，得到候选词在每个文档中的最终权重值具体包括：

设置预定大小的滑动窗口，将所述滑动窗口在当前文档中进行动态滑动；

获取所述滑动窗口中出现的2个以上的候选词，将所述2个以上的候选词之间添加互相指向的2个连接，并将每个候选词作为一个节点，构建当前文档的关联有向图；

根据所述初始权重值，迭代计算所述关联有向图中各个节点的权重值，直到当前节点的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算，并将最后一次计算的权重值作为相应节点的最终权重值。

8.如权利要求7所述的关键词提取方法，其特征在于，根据以下公式迭代计算所述关联有向图中各个节点的权重值：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j})

其中，WS(V_i)表示候选词V_i调整后的权重值，d为预先设置的阻尼系数，In(V_i)表示当前文档中指向候选词V_i的节点，Out(V_i)表示V_i指向的节点，WS(V_j)表示所述词语关联有向图中节点V_j的权重值，N_j表示V_j指向的节点的个数。

9.如权利要求1所述的关键词提取方法，其特征在于，根据所述最终权重值确定每个文档的关键词包括：

将最终权重值最大的前N个候选词作为文档的关键词，其中，N为自然数；或者，

将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。

10.一种关键词提取装置，其特征在于，包括：

提供模块，用于提供一领域内的语料数据，所述语料数据包括多个文档；

预处理模块，用于对所述语料数据进行预处理，得到文本数据；

分词模块，用于对所述文本数据进行分词处理，得到多个语料词语；

过滤模块，用于对所述语料词语进行过滤处理，得到多个候选词；

设置模块，用于为每个所述候选词设置初始权重值；

调整模块，用于根据候选词在每个文档中的共现关系调整所述候选词的初始权重值，得到候选词在每个文档中的最终权重值；

确定模块，用于根据所述最终权重值确定每个文档的关键词。

11.如权利要求10所述的关键词提取装置，其特征在于，所述预处理模块具体用于：将语料数据的格式统一为文本格式，过滤脏词、敏感词和停用词中的一种或多种，并将过滤后的文本数据按照标点划分为多行。

12.如权利要求10所述的关键词提取装置，其特征在于，所述过滤模块具体用于：

根据词性对所述语料词语进行过滤，保留名词、动词以及形容词；和/或，

13.如权利要求10所述的关键词提取装置，其特征在于，所述设置模块具体用于：

否则，根据计算候选词的初始权重值；

14.如权利要求10所述的关键词提取装置，其特征在于，所述调整模块具体用于：

15.如权利要求14所述的关键词提取装置，其特征在于，所述调整模块具体用于：

根据以下公式迭代计算所述关联有向图中各个节点的权重值：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{1}{N_{j}} W S (V_{j})

16.如权利要求10所述的关键词提取装置，其特征在于，所述确定模块具体用于：