CN105718585A

CN105718585A - 文档与标签词语义关联方法及其装置

Info

Publication number: CN105718585A
Application number: CN201610051437.7A
Authority: CN
Inventors: 陈发君; 刘忠; 黄金才; 修保新; 朱承; 程光权; 陈超; 冯旸赫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-06-29
Anticipated expiration: 2036-01-26
Also published as: CN105718585B

Abstract

发明提供一种文档与标签词语义关联方法及其装置，包括以下步骤：步骤S100：获取文档，作为文档语料，文档属于标签词相关领域且具有时效性；步骤S200：构造句法模式并对文档语料进行句法模式匹配，合并符合句法模式的结果为候选提及相关词集合C；步骤S300：用经过训练的Word2vec模型对候选提及相关词C集合进行过滤，得到提及相关词集合V；步骤S400：根据提及相关词和标签词，计算多篇文档与标签词的相关度，并构件标签词与文档的相关度数据库。本发明的方法基于实时文档语料动态构建语义关联，不需要依赖静态且维护成本较高的同义词库。

Description

文档与标签词语义关联方法及其装置

技术领域

本发明涉及计算机技术领域，具体的涉及一种文档与标签词语义关联方法及其装置。

背景技术

当今互联网每天都会产生海量新闻资讯，个人阅读理解新闻资讯的能力是有限的，然而，互联网用户需要了解网络上都发生了哪些事件、讨论了哪些事件，比如金融行业分析师、投资人士需要查阅大量资讯来了解当前行业热点事件，才能了解到与热点事件关联的新闻有哪些。

目前，建立领域标签与文档关联较常用的方法为通过关键词匹配，即如果文档中出现该具体的标签词，即认为文档与标签相关。并将其提取作为待处理文档。存在的问题是查全率不足。以对含菜籽油的文档进行筛选为例进行说明：当文档中含“菜籽油”这一标签时，现有方法仅能将出现了菜籽油的文档定为具有相关性的文档。而对于其他诸如“菜油”、“芥花油”等与菜籽油同义的词出现时，现有提取方法并不能将其视为与“菜籽油”相关的文档，无法建立关联，导致用户查询不到此类文档。

使用基于语义的文档匹配方法，可以提高查全率。目前，实现标签词与文档语义关联的方法主要是通过同义词库的方式。同义词的获取目前大多需要人工创建和维护，比如《哈工大信息检索研究室同义词词林扩展版》，它是目前应用比较广泛的同义词库，同时也是哈尔滨工业大学花费了大量人力物力才完成的。即便如此，我们发现该词库在2009年之后就不再有更新。因为人工维护同义词库代价较高，更新频率必然会很慢，对于领域专用标签词更是如此，比如最近提出的“一带一路”这类词，现有同义词库根本查不到相关，可供人工筛选用的数据。因而无法使用现有的方法，通过人工获得相应的结果。

现有基于关键词的文档与领域标签关联方法存在以下缺点：①关联不全面，只要标签词不出现，就无法建立关联；②关联不准确，因为没有考虑语义相关词对关联度的影响，导致关联度计算结果与事实不一致。

发明内容

本发明的目的在于提供一种文档与标签词语义关联方法及其装置，该发明解决了现有同义词词库需借助人工维护，同义词库更新及时性差，数据不全面，导致缺乏同义词对应的上下位关系词的技术问题。

本发明提供一种文档与标签词语义关联方法，包括以下步骤：步骤S100：获取文档，作为文档语料，文档属于标签词相关领域且具有时效性；步骤S200：构造句法模式并对文档语料进行句法模式匹配，合并符合句法模式的结果为候选提及相关词集合C；步骤S300：用经过训练的Word2vec模型对候选提及相关词C集合进行过滤，得到提及相关词集合V；步骤S400：根据提及相关词和标签词，计算多篇文档与标签词的相关度，并构件标签词与文档的相关度数据库；句法模式包括含多个标签词s的S集合、含多个模式标识词的W集合和N集合，其中W集合为模式标识词集合，N集合为文档语料的句子中处于模式标识词后的所有名词的集合；模式标识词包括同义模式标识词和子概念标识词。

进一步地，步骤S200中包括以下步骤：步骤S210：对文档语料中的句子进行逐句对比；步骤S220：判断句子中是否包含标签词s和模式标识词w；步骤S230：如果包含标签词s和模式标识词w，则将句子中处于模式标识词w后的所有名词归入N集合中，合并多个N集合，得到候选提及相关词集合C。

进一步地，步骤S300中的过滤包括以下步骤：步骤S310：以文档语料训练word2vec模型后，采用训练后的word2vec模型计算候选提及相关词集合C中每个词与标签词的word2vec相关度；步骤S320：选取C集合中与标签词的word2vec相关度大于阈值的词，构造包含多个提及相关词v的集合V。

进一步地，阈值为0.75。

进一步地，步骤S400还包括以下步骤：步骤S410：对待处理文档进行分词，得到待处理文档中包含的所有词；步骤S420：判断组成待处理文档的所有词中是否包含标签词s和/或提及相关词v；步骤S430：如果包含，则判定待处理文档为与标签词集合相关的数据库文档，计算数据库文档中标签词或提及相关词的词频，作为数据库文档的提及相关度；步骤S440：在数据库文档上标记提及相关度，并构建数据库文档的关联数据库。

进一步地，通过WebService对终端用户提供关联数据库的查询接口。

进一步地，Word2vec模型以文档作为语料进行训练。

本发明另一方面还提供了一种上述方法用文档与标签词语义关联装置，包括：文档获取模块，用于获取文档，作为文档语料，文档属于标签词相关领域且具有时效性；句法匹配模块：用于构造句法模式并对文档语料进行句法模式匹配，合并符合句法模式的结果为候选提及相关词集合C；Word2vec模型过滤模块：用于用经过训练的Word2vec模型对候选提及相关词C集合进行过滤，得到提及相关词集合V；数据库构建模块：用于根据提及相关词和标签词，计算多篇文档与标签词的相关度，并构件标签词与文档的相关度数据库；句法模式包括含多个标签词s的S集合、含多个模式标识词的W集合和N集合，其中W集合为模式标识词集合，N集合为文档语料的句子中处于模式标识词后的所有名词的集合；模式标识词包括同义模式标识词和子概念标识词。

其特征在于句法匹配模块中包括：逐句比对模块：对文档语料中的句子进行逐句对比；判断句子模块：用于判断句子中是否包含标签词s和模式标识词w；合并结果模块：用于如果包含标签词s和模式标识词w，则将句子中处于模式标识词w后的所有名词归入N集合中，合并多个N集合，得到候选提及相关词集合C。

其特征在于数据库构建模块包括：分词模块：用于对待处理文档进行分词，得到待处理文档中包含的所有词；判断词模块：用于：判断组成待处理文档的所有词中是否包含标签词s和/或提及相关词v；计算提及相关度模块：用于如果包含，则判定待处理文档为与标签词集合相关的数据库文档，计算数据库文档中标签词或提及相关词的词频，作为数据库文档的提及相关度；标记数据库构建模块：用于在数据库文档上标记提及相关度，并构建数据库文档的关联数据库。

本发明效果：

本发明提供的相关词提取方法利用经过训练的Word2vec过滤方法，对句法模式匹配获得的领域标签语义相关词进行过滤，把过滤后的词作为领域标签的“提及语义相关词”，用于计算文档与领域标签的关联关系，降低所得结果的噪音。提高从现有文档中获得最新同义词的效率。替代了已有的人工分选同义词方法。能够即时处理新出现的领域标签词，用作领域标签与文档管理分析时，能够提高关联准确度，提高用户查询的查全率。

本发明提供的相关词提取方法改变过去依赖第三方同义词库的做法，转而直接从海量文档语料中自动构建语义词库，提高语义关联分析的效率和准确性。

附图说明

图1是本发明优选实施例文档与标签词语义关联方法的流程示意图；

图2是本发明优选实施例文档与标签词语义关联方法的步骤200的流程示意图；

图3是本发明优选实施例文档与标签词语义关联方法的步骤S300的流程示意图；

图4是本发明优选实施例文档与标签词语义关联方法的步骤S400流程示意图；

图5是本发明优选实施例文档与标签词语义关联装置结构示意图；

图6是本发明优选实施例句法匹配模块结构示意图；

图7是本发明优选实施例数据库构建模块结构示意图；

图8是本发明优选实施例的结构示意图。

具体实施方式

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本发明将互联网上各大新闻媒体财经频道、社交论坛的实时新闻文章作为文档语料，通过文本数据挖掘，动态获取领域标签词的语义信息，然后基于挖掘的动态标签语义，建立文档与领域标签之间的语义关联，供用户查询。用户在使用该数据库时，可以通过输入领域标签，之后就会返回与之相关的文档。使用时用户输入文档URL，则数据库会返回领域标签。

本发明结合句法模式抽取和Word2vec模型对句法模式匹配结果进行过滤，实现了文档和领域标签之间的动态语义关联。领域标签通常具有时效性，在特定时期代表某类事件，静态语义词库无法满足这种时效性的要求。

本发明公开的文档和领域标签语义关联方法，是基于人的概念认知建立的关联，即不仅能通过同义词关联文档标签，还能够通过子概念关联文档标签，定义为提及语义关联。提及语义关联更吻合于语言习惯，即当文档内容提及了标签的子概念，应该被认为文档与标签关联，比如文档中出现“洗衣机”应该认为关联“家用电器”标签，文档出现“曲酒”应该认为关联“白酒”标签等等。通过扩大对同义词的提取范围，从而实现对一些仅出现在新闻文章中的新词同义词或相关词的及时提取或获得。避免了对此类新词的遗漏问题的出现。

参见图1，本发明提供的从新闻文章中提取相关词的方法，包括以下步骤：

步骤S100：获取文档，作为文档语料，文档属于标签词相关领域且具有时效性；

步骤S200：构造句法模式并对文档语料进行句法模式匹配，合并符合句法模式的结果为候选提及相关词集合C；

步骤S300：用经过训练的Word2vec模型对候选提及相关词C集合进行过滤，得到提及相关词集合V；

步骤S400：根据提及相关词和标签词，计算多篇文档与标签词的相关度，并构件标签词与文档的相关度数据库；

此处的Word2vec模型是一个模型文件，是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档，文档越多，模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。

句法模式包括含多个标签词s的S集合、含多个模式标识词的W集合和N集合，其中W集合为模式标识词集合，N集合为文档语料的句子中处于模式标识词后的所有名词的集合。模式标识词包括同义模式标识词和子概念标识词。本文中的集合是指包含多个词组成的集合。此处的句法模式匹配，可以按常规方法进行。通过对文档语料中出现在包含标签词，模式标示词后的名词进行提取，可以实现对文档中所含于标签词相关的名词进行最大限度的提取，减少漏检情况的发生。但由于对文档的提取量较大，所得结果中常会好俺有许多与标签词无关的词。之后再通过经训练的Word2vec模型对所得集合C进行过滤，可以提高所得结果与标签词的相关度。减少噪音的干扰。根据所得提及相关词集合V和标签词集合S共同对现有的文档进行相关度计算，从而提高了对文档相关度计算的准确性。减少误差的产生。该方法结合了Word2vec模型和句法模式，实现了对文档于标签相关度的匹配，提高匹配准确性，提高了用户根据某一新出现的词语，获取相关文档时的准确性，提高用户检索准确性，降低误检率。

其中同义模式标识词包括但不限于：即、也叫做、简称、又名、或是、俗称。子概念标识词包括但不限于：分为、包括、划分、包含、哪些。

优选的，参见图2，步骤S200中包括以下步骤：

步骤S210：对文档语料中的句子进行逐句对比；

步骤S220：判断句子中是否包含标签词s和模式标识词w；

步骤S230：如果包含标签词s和模式标识词w，则将句子中处于模式标识词w后的所有名词归入N集合中，合并多个N集合，得到候选提及相关词集合C。

由图2可知，在判断结果为该句子中不包含s和w词后，则继续对下一句子进行比对。此处的s为S集合中的标签词s；w为W集合中的模式标识词。通过该方法进行句法模式匹配，能将文档语料中出现了的，标签词的下位概念词和同义词选出，提高用于对于文档的检出准确率。

优选的，参见图3，对于利用word2vec模型对所得候选提及相关词集合C进行过滤包括以下步骤：

步骤S310：以文档语料训练word2vec模型后，采用训练后的word2vec模型计算C集合中每个词与标签词的word2vec相关度；

步骤S320：选取候选提及相关词集合C中与标签词的word2vec相关度大于阈值的词，构造包含多个提及相关词v的集合V。

按此方法进行过滤，可以将所得集合C中与标签词关系不大的噪音词去掉，从而提高用户检出所需文章的效率。

优选的阈值为0.75时，所得提及相关词集合V中所含词与标签词的关系较紧密，且不会浪费过多时间在筛选上。

优选的，参见图4，步骤S400还包括以下步骤：

步骤S410：对待处理文档进行分词，得到待处理文档中包含的所有词；

步骤S420：判断组成待处理文档的所有词中是否包含标签词s和/或提及相关词v；

步骤S430：如果包含，则判定待处理文档为与标签词集合相关的数据库文档，计算数据库文档中标签词或提及相关词的词频，作为数据库文档的提及相关度；

步骤S440：在数据库文档上标记提及相关度，并构建数据库文档的关联数据库。

通过对多篇具有时效性的待处理文档进行提及相关度标记，从而获得了具有提及相关度的关联数据库。为针对某一新近提出的新词的检索提供了数据库，该数据库的构建才用呢上述步骤，能提高用户对包含新词文章的检出效率和检准率。

优选的，待处理文档为查询日前1个月以内发布的文章。由此可以保证所得结果的时效性。该方法尤其适用于处理仅出现在新闻文章中的词，以检索到含有该新出现词语文章。

通过WebService对终端用户提供关联数据库的查询接口。从而方便用于通过网络进行检索。

优选的，为提高所Word2vec模型的筛选准确率，以文档作为语料进行训练。

参见图5，本发明另一方面还提供了一种上述方法使用的文档与标签词语义关联装置，包括：

文档获取模块100，用于获取文档，作为文档语料，文档属于标签词相关领域且具有时效性；

句法匹配模块200：用于构造句法模式并对文档语料进行句法模式匹配，合并符合句法模式的结果为候选提及相关词集合C；

Word2vec模型过滤模块300：用于用经过训练的Word2vec模型对候选提及相关词C集合进行过滤，得到提及相关词集合V；

数据库构建模块400：用于根据提及相关词和标签词，计算多篇文档与标签词的相关度，并构件标签词与文档的相关度数据库。

句法模式包括含多个标签词s的S集合、含多个模式标识词的W集合和N集合，其中W集合为模式标识词集合，N集合为文档语料的句子中处于模式标识词后的所有名词的集合；模式标识词包括同义模式标识词和子概念标识词。采用该装置可以实现对文档的读取，并能对所获得的文档进行句法匹配和所得结果过滤，从而实现了对所需数据库的构件。

优选的，参见图6，句法匹配模块200中包括：

逐句比对模块210：对文档语料中的句子进行逐句对比；

判断句子模块220：用于判断句子中是否包含标签词s和模式标识词w；

合并结果模块230：用于如果包含标签词s和模式标识词w，则将句子中处于模式标识词w后的所有名词归入N集合中，合并多个N集合，得到候选提及相关词集合C。采用该模块，能实现对文档中符合句法模式的名词进行选取。

优选的，参见图7，数据库构建模400包括：

分词模块410：用于对待处理文档进行分词，得到待处理文档中包含的所有词；

判断词模块420：用于：判断组成待处理文档的所有词中是否包含标签词s和/或提及相关词v；

计算提及相关度模块430：用于如果包含，则判定待处理文档为与标签词集合相关的数据库文档，计算数据库文档中标签词或提及相关词的词频，作为数据库文档的提及相关度；

标记数据库构建模块440：用于在数据库文档上标记提及相关度，并构建数据库文档的关联数据库。采用该模块，能实现数据库的构件，提高检索的准确性和检出率。

本发明提供方法具有以下优点：

1.本发明基于实时文档语料动态构建语义关联，不需要依赖静态且维护成本较高的同义词库；

2.本发明基于动态语义建立领域标签和文档之间的关联，比基于关键字的关联匹配更准确；

参见图8，以下为具体实例：包括以下步骤：

a)从互联网上获取具体领域相关最近一个月发布的新闻文章作为文档语料，存入文档库；该文章的获取可以从互联网也可以从其他媒体介质上获取。考虑到时效性，优选从互联网上获取。此处的1个月为举例说明，只需根据需要提取具有时效性的文章即可。

b)构造形如(S,W,N)的句法模式，其中S表示领域标签词，W表示模式标识词，N表示模式标识词后的所有名词集合。模式标识词包括两类，即同义模式标识词和子概念模式标识词：

1.同义模式标识词(包括但不限于)：即、也叫做、简称、又名、或是、俗称

2.子概念标识词(包括但不限于)：分为、包括、划分、包含、哪些

c)使用句法模式对获取的文档逐句地进行模式匹配，比如菜籽油就是我们俗称的菜油，又叫香菜油。匹配结果为S＝{菜籽油}，W＝{俗称，又叫}，N＝{菜油，香菜油}；

d)对每个标签词S，合并模式匹配获得的名词集合N，得到标签词的候选提及相关词集合C；

e)使用步骤a)获得的文档语料，训练Word2vec模型。使用该Word2vec模型，计算C中每个词与标签词S的Word2vec相关度；

f)选取C中与S的Word2vec相关度大于0.75的词，构造新的集合V，显然V是C的子集。V即标签S的提及相关词。至此，得到了每个标签S的提及相关词集合V；

g)对任意文档D，把D分词后，从组成D的所有词中查找是否出现标签词S或标签词的提及相关词v∈V，如果出现，则判定文档D与标签S相关，否则判定不相关。并且，以出现的词频数作为相关度，出现词频越高，标签S与文档D的相关度越大；

h)把文档与领域标签相关度存入关联数据库，通过WebService(装载在计算机上)对终端用户提供查询接口。

本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

通过对附图，说明书和权利要求书的研究，在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中，术语“包括”不排除其他步骤或元素，而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims

1.一种文档与标签词语义关联方法，其特征在于，包括以下步骤：

步骤S100：获取所述文档，作为文档语料，所述文档属于标签词相关领域且具有时效性；

步骤S200：构造句法模式并对所述文档语料进行句法模式匹配，合并符合所述句法模式的结果为候选提及相关词集合C；

步骤S300：用经过训练的Word2vec模型对所述候选提及相关词C集合进行过滤，得到提及相关词集合V；

步骤S400：根据所述提及相关词和所述标签词，计算多篇所述文档与所述标签词的相关度，并构件所述标签词与所述文档的相关度数据库；

所述句法模式包括含多个所述标签词s的S集合、含多个所述模式标识词的W集合和N集合，其中所述W集合为模式标识词集合，所述N集合为所述文档语料的句子中处于所述模式标识词后的所有名词的集合；

所述模式标识词包括同义模式标识词和子概念标识词。

2.根据权利要求1所述的文档与标签词语义关联方法，其特征在于，所述步骤S200中包括以下步骤：

步骤S210：对所述文档语料中的句子进行逐句对比；

步骤S220：判断所述句子中是否包含所述标签词s和所述模式标识词w；

步骤S230：如果包含所述标签词s和所述模式标识词w，则将所述句子中处于所述模式标识词w后的所有名词归入所述N集合中，合并多个所述N集合，得到所述候选提及相关词集合C。

3.根据权利要求1所述的文档与标签词语义关联方法，其特征在于，所述步骤S300中的所述过滤包括以下步骤：

步骤S310：以所述文档语料训练所述word2vec模型后，采用所述训练后的所述word2vec模型计算所述候选提及相关词集合C中每个词与所述标签词的word2vec相关度；

步骤S320：选取所述C集合中与所述标签词的word2vec相关度大于阈值的词，构造包含多个提及相关词v的集合V。

4.根据权利要求3所述的文档与标签词语义关联方法，其特征在于，所述阈值为0.75。

5.根据权利要求3所述的文档与标签词语义关联方法，其特征在于，所述步骤S400还包括以下步骤：

步骤S410：对待处理文档进行分词，得到所述待处理文档中包含的所有词；

步骤S420：判断组成所述待处理文档的所有词中是否包含所述标签词s和/或所述提及相关词v；

步骤S430：如果包含，则判定所述待处理文档为与所述标签词集合相关的数据库文档，计算所述数据库文档中所述标签词或所述提及相关词的词频，作为所述数据库文档的提及相关度；

步骤S440：在所述数据库文档上标记所述提及相关度，并构建所述数据库文档的关联数据库。

6.根据权利要求5所述的文档与标签词语义关联方法，其特征在于，通过WebService对终端用户提供所述关联数据库的查询接口。

7.根据权利要求1～6中任一项所述的文档与标签词语义关联方法，其特征在于，所述Word2vec模型以所述文档作为语料进行训练。

8.一种如权利要求1～7中任一项所述方法用文档与标签词语义关联装置，其特征在于，包括：

文档获取模块，用于获取所述文档，作为文档语料，所述文档属于标签词相关领域且具有时效性；

句法匹配模块：用于构造句法模式并对所述文档语料进行句法模式匹配，合并符合所述句法模式的结果为候选提及相关词集合C；

Word2vec模型过滤模块：用于用经过训练的Word2vec模型对所述候选提及相关词C集合进行过滤，得到提及相关词集合V；

数据库构建模块：用于根据所述提及相关词和所述标签词，计算多篇所述文档与所述标签词的相关度，并构件所述标签词与所述文档的相关度数据库；

所述模式标识词包括同义模式标识词和子概念标识词。

9.根据权利要求8所述的文档与标签词语义关联装置，其特征在于，所述句法匹配模块中包括：

逐句比对模块：对所述文档语料中的句子进行逐句对比；

判断句子模块：用于判断所述句子中是否包含所述标签词s和所述模式标识词w；

合并结果模块：用于如果包含所述标签词s和所述模式标识词w，则将所述句子中处于所述模式标识词w后的所有名词归入所述N集合中，合并多个所述N集合，得到所述候选提及相关词集合C。

10.根据权利要求8所述的文档与标签词语义关联装置，其特征在于，所述数据库构建模块包括：

分词模块：用于对待处理文档进行分词，得到所述待处理文档中包含的所有词；

判断词模块：用于：判断组成所述待处理文档的所有词中是否包含所述标签词s和/或所述提及相关词v；

计算提及相关度模块：用于如果包含，则判定所述待处理文档为与所述标签词集合相关的数据库文档，计算所述数据库文档中所述标签词或所述提及相关词的词频，作为所述数据库文档的提及相关度；

标记数据库构建模块：用于在所述数据库文档上标记所述提及相关度，并构建所述数据库文档的关联数据库。