CN104794200A

CN104794200A - 一种基于本体的支持模糊匹配的事件发布订阅方法

Info

Publication number: CN104794200A
Application number: CN201510192400.1A
Authority: CN
Inventors: 刁兴春; 张慧; 严浩; 江春; 邓波; 曹建军; 袁震; 丁晨路; 黄宇; 王芳潇; 俞赟
Original assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Current assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Priority date: 2015-04-21
Filing date: 2015-04-21
Publication date: 2015-07-22
Anticipated expiration: 2035-04-21
Also published as: CN104794200B

Abstract

本发明公开了一种基于本体的支持模糊匹配的事件发布订阅方法，基于领域本体允许发布者和订阅者通过浏览器来构建RDF事件和带关键词描述的SPARQL语句。其中，领域本体规定了某一领域中的概念以及概念之间的关系，采用OWL语言来表示；事件模型规定了事件的表达方式，用RDF图来表示；订阅请求规定了订阅的表达方式，用SPARQL语句和关键词来表示。在匹配上首先利用本体的上下位推理得到满足订阅者事件类型要求的事件，然后利用信息论中的相关度度量手段计算得到关键词与事件之间的相关度得分，利用相关度得分对满足订阅要求的事件进行排序，最后返回给用户排好序的事件集合，从而实现事件发布订阅的模糊匹配。

Description

一种基于本体的支持模糊匹配的事件发布订阅方法

技术领域

本发明属于计算机技术领域，涉及一种基于本体的发布订阅匹配方法。

背景技术

发布订阅系统是指一种能够提供用户以发布者和订阅者的角色参与到消息转发中的中间件系统，被转发的消息在本专利中又被称作事件，其中发布者和订阅者是系统最基本的角色。订阅者和发布者角色可以被同一个系统终端用户所拥有，即一个终端用户可以同时是订阅者和发布者。发布者是事件的生产者，而订阅者是事件的消费者，订阅者通过订阅语句来表达对于某些事件的兴趣，而发布者在发布订阅系统中按照一定的约束来发布事件,最终事件经过匹配算法被转发给特定的订阅者。所以发布订阅系统的目标是保证订阅者所需要的事件准确、及时、高效地转发给订阅者。

组成一个发布订阅系统的基础是数据模型和匹配算法，其中数据模型决定了匹配算法的实现方式。基于主题的发布订阅把事件按照主题来分类，事件的表达能力有限，但是匹配算法实现简单。基于内容的发布订阅提供事件的更细粒度的表达，但是匹配算法的复杂度比较高，没有考虑事件的语义信息。随着语义技术的发展，更多的研究转移到基于语义的发布订阅上来。经过调研，基于本体的语义发布订阅系统也有很多，但是很少有支持推理功能和模糊匹配的。

发明内容

技术问题：针对传统发布订阅系统的缺点，本发明提出了一种以语义技术为基础，支持事件的语义表达和推理、订阅的语义表达、事件/订阅的基于本体的支持模糊匹配的事件发布订阅方法。

技术方案：本发明的基于本体的支持模糊匹配的事件发布订阅方法，包括以下步骤：

步骤1)构建用以提供发布订阅系统中的概念和概念间关系定义的领域本体；步骤2)首先分别按照如下两种方式构建基于所述领域本体的同义词词库：

a)从一个以上的中文百科中抽取重定向；

b)利用固定模式从中文语料库中抽取同义词；

然后将两种方式构建的同义词词库共同构成基于Web的同义词词典，如果两种方式构建的同义词词库集合之间存在交集，则对两者进行合并，去掉重复的词条；

步骤3)构建RDF事件图(RDF是用来表现万维网上各类资源的信息的一种语言)：事件发布者首先通过浏览器在网页上构建事件内容，然后通过事件代理把事件内容转换成RDF事件图；

步骤4)构建订阅请求：订阅者首先通过浏览器在网页上构建订阅内容，然后通过订阅代理把订阅请求内容转化成SPARQL语句(这是一个递归缩写，代表的是一种用于RDF上的查询语言)；

同时收集用户订阅时输入的关键词；

步骤5)事件和订阅匹配：首先利用本体的上下位推理能力对所述步骤4)中生成的SPARQL语句做父子类扩展，然后利用SPARQL查询引擎查询得到满足SPARQL查询条件的事件节点集合；

步骤6)基于每个事件节点，在所述步骤3)构建的RDF事件图上进行有向图的广度优先遍历，得到从事件节点出发的子图，一个子图即一个事件的描述信息；

步骤7)基于用户订阅的关键词和构建好的同义词词典在事件描述信息中进行词频-逆向文件词频计算，得到所述关键词和事件描述信息之间的匹配相关度得分，最后根据匹配得分对事件进行排序并返回给订阅者。

本发明方法的优选方案中，所述步骤1)中构建的领域本体用OWL(一种用于描述语义网上本体论关系的语言)文档形式存储。

本发明方法的优选方案中，所述步骤2)中的中文百科采用维基百科、互动百科和百度百科。

本发明方法的优选方案中，所述步骤3)中，事件内容的主题是从步骤1)中所构建的领域本体中定义的事件类中选取的；所述RDF事件图是在关系型数据库中构建事件表来存放RDF事件得到的。

本发明方法把语义技术引入到发布订阅系统中，以提高语义发布系统的事件表达能力、订阅表达能力、订阅/事件匹配准确度。

有益效果：本发明与现有技术相比，具有以下优点：

本发明支持以浏览器这种用户容易接受的方式来构建事件内容和订阅请求，这种用户界面比直接构建事件内容和订阅请求的方法更友好。另外在订阅与事件匹配上考虑了上下位扩展从而对用户订阅请求匹配到的事件比类似于主题模型的发布订阅系统匹配到的事件更多。这里扩展在本质上是依靠构建好的领域本体来实现的，例如领域本体中有这样一条规则：类A包含于类B，那么如果用户订阅了类B主题下的事件，通过上下位推理，该用户同样会收到主题A下面的所有满足条件约束的事件。此外我们利用了中文三大百科构建了基于领域本体的同义词词典用于提高订阅与事件的匹配准确度。例如：在构建的同义词词典中“金陵”是“南京”的同义词，用户的订阅只包含“南京”或“金陵”和同时包含“南京”和“金陵”效果一样，即都能收到包含南京或金陵并且满足其他约束条件的事件。最后在事件排序上就是基于前面构建的词典和订阅中的关键词并使用信息论中的词频-反向词频度量方法来计算关键词和事件之间的相关度，因为现存的发布订阅系统考虑事件排序的很少，而排序对于用户来说很有必要，因为经过排序可以使用户很容易浏览到其最关注的事件。综上所述本发明与现存的订阅匹配方法相比具有更友好的用户体验、事件匹配的准确率和相关性更高等优点，通过验证，该方法是完全正确可行的。

附图说明

图1是一个领域的本体图。

图2是事件代理处理过程图。

图3是订阅代理处理过程图。

图4是订阅事件匹配过程图。

具体实施方式

为使本发明的目的技术方案和优点更加清楚，以下结合实施例和说明书附图对本发明进一步说明。

本发明方法包括以下七个步骤：

步骤1)构建领域本体，构建的内容包括领域中的概念、概念的属性、概念间的关系以及属性和关系的约束。本体构建是一个工程性的工作，本系统利用斯坦福大学开发的工具protégé来构建本体。本体的模式层相对于数据层来说比较小，构建的模式层包括类、数据属性、对象属性、类之间和属性之间的关系包括等价关系、继承关系。如图1为构建出来的一个本体。它的具体实现描述如下：

本体中每个类、属性都需要唯一的URI引用来标识，按照本体的约束，各个类之间可以存在多重继承，但是不容许出现循环的继承关系，例如奥运会篮球比赛是篮球比赛和奥运会比赛的子类。同理属性之间可以存在多重继承，但是不容许出现循环的继承关系。一个类可以拥有多个属性，一个属性也可以服务于多个类。为了适应事件模型，在本体中定义了所有事件的父类，该类去掉命名空间后的名称是“Event”，这样一个事件必须指向Event类或Event的子类。上下位推理的意义是，奥运会篮球比赛、CBA、NBA等都是篮球比赛下的派生类，如果一个订阅者对这两个比赛的事件都感兴趣，而且对地点进行限制：比赛场地在北京(NBA有国际赛场)，这样他可以订阅篮球比赛并设置条件hasLocation＝“北京”而不需要对奥运会篮球比赛、CBA等都构建一个订阅请求。

步骤2)构建基于特定领域的同义词词库，同义词构建包括以下两种方式

从百度百科、互动百科和维基百科中抽取重定向。首先，利用Ansj分词工具(一个开源的Java中文分词工具)对本体中的所有标签进行分词。然后将分词后的所有词语加入待访问集合(Unvisited Set)中。最后，遍历待访问集合中的词，将其分别提交到三大百科，若存在重定向，则将重定向的词抽取出来，与原本体标签建立映射。

利用固定模式从语料库中抽取同义词。从语言学的角度来看，大量的同义词会以固定的模式出现在文本中，从本体的标签字符集合串出发，利用手工构建中文通用同义词模式包括“[*]别称[*]”、“[*]即[*]”、“[*]又被称为[*]”、“[*]又叫做[*]”来抽取同义词，这些模式中[*]是对文本分词后的最靠近模式词(“别称”、“即”等)的名词。

如果两种方式构建的同义词词库集合之间存在交集，则对两者进行合并，去掉重复的词条，从而构建基于Web抽取的同义词词典。

步骤3)构建事件模型，在发布订阅系统，事件构建页面后台有一个领域本体支持，这样发布者在发布事件内容的时需要选择事件所属的类，这里选择的类必须是具体类。事件所属的类被选定后，相应的会生成该类下的属性区域。比如体育事件会有事件标题、事件发生时间、事件内容等，如图2上半部分是一个构建好的事件。系统规定所有的事件都有一个事件内容属性，时间内容一方面补充时间属性描述不足，另一方面模糊匹配还需要利用内容。所以类选择不能为空，而属性的内容可以为空。也就是说一个事件不能没有所描述的主题，但是其某些属性值可以为空，比如一个事件发生时间或发生地点可以容许发布者不清楚。如果该类和其他类有关系，比如一场篮球比赛有参与的队伍，一支篮球队有其包括的队员，而队员是一个类，这样如果添加了一个队员，则相应会生成该队员的属性内容待用户填写如图2所示。通过不断的递归、迭代最终事件发布者把事件需要描述的内容完成。在发布者对事件描述完之后把网页内容提交给事件代理后事件代理把事件转换成RDF图系统中把每个RDF图作为处理单位，每个RDF图由一组三元组语句构成，三元组语句(statement)由主语(subject)，谓语(predicate)，宾语(object)构成，主语和谓语需要唯一的URI来标识，而object可以用URI或字面量(literal)来标识，图2为事件转换过程图。

步骤4)构建订阅请求，订阅请求的构建过程和事件的构建过程类似，同样是需要订阅者从页面填写订阅请求内容。首先选择要订阅的主题类，这里只能选择一个类，因为如果选择多个说明这个订阅可以拆分，父类、子类、多个子类同时订阅只需要订阅父类，例如一个订阅者对有姚明参加的CBA比赛(姚明曾经效力于上海队)和NBA比赛事件感兴趣，他只需要订阅有姚明参与的篮球比赛事件(是CBA、NBA的父类)，如图3为事件转换和扩展过程图。此外订阅请求在构建的时候还需要添加事件内容和事件标题的关键词，这样在事件/订阅匹配时可以做模糊匹配。如图3是订阅代理对订阅内容的转换过程，订阅代理的输出带关键词描述的SPARQL语句。本步骤与步骤3)是并行的逻辑关系。

步骤5)订阅和事件匹配过程，在步骤3)、4)中用户已经把事件和订阅构建完成，通过事件代理和订阅代理把事件和订阅格式分别转换成RDF图和附带关键词的SPARQL语句。匹配的输入包括：RDF图集合，一个附带关键词集合的SPARQL语句，输出是多个排好序的RDF图。

这里需要对SPARQL做进一步推理，推理即订阅的扩展，需要用到步骤1)定义的领域本体来上下位扩展推理，即从本体中发现订阅中涉及的事件类的父类、等价类以对该SPARQL进行扩展，系统为本体推理定义了两个规则：

1.如果用户订阅类B下的事件，而且类A是类B的子类，类A主题下的事件也符合订阅的要求。

2.如果用户订阅类B下的事件，而且类A是类B的等价类，类A主题下的事件也符合订阅的要求。

例如：初始SPARQL语句是

s＝“select？x？y

where{？x prefix:location“Beijing”.

？x owl:class prefix:A.}”

如果A有子类B和等价类C，则按照规则扩展后的SPARQL语句为：

s＝“select？x？y

where{？x prefix:location“Beijing”.

{？x owl:class prefix:A}union{？x owl:class prefix:B}union{？x owl:class prefix:C}.}”

扩展之后在事件表中查询得到满足要求的事件节点。

步骤6)基于每个事件节点，在所述步骤3)构建的RDF事件图上进行有向图的广度优先遍历，得到从事件节点出发的子图，一个子图即一个事件的描述信息。如图2所示，通过步骤5)只能得到主节点即EVENT1，而只有通过在整个大的RDF事件图上做搜索才能得到这个事件的所有信息。广度优先遍历是一种图的遍历方法，当然采用其他的例如：深度优先遍历也是可行的。从事件主节点出发得到的所有节点(如图2)生成RDF事件图。

步骤7)得到所有满足要求的RDF事件之后需要针对内容、标题的内容做排序。下面叙述一种改进的词频-反向词频计算方法，首先找出关键词的同义词(步骤2中构建)作为同义关键词，然后从事件标题和事件正文中统计关键词或同义关键词出现的次数，其中，关键词和同义关键词会有不同的权重，事件标题和事件正文也有不同的权重，最后将不同情况下的次数和权重相乘求和，作为该关键词匹配该事件的匹配值，最后利用快速排序针对事件的匹配值进行排序并返回给订阅的用户。

计算匹配值的算法详细描述如下：

k表示关键词，{sk₁,sk₂,…,sk_n}表示k同义关键词序列，共有n个同义词，同义关键词会有一个匹配权重wsk，词或者同义关键词出现在事件标题的权重为wt，出现在事件正文的权重为wc。

假设当前要匹配的是事件e_i要计算的事件集合是D，关键词k现在事件e_i标题的次数为t_i，出现在事件正文的次数为c_i，可以得到事件e_i和关键词k的匹配值：

V (k, e_{i}) = (wt * t_{i} + wc * c_{i}) * \log \frac{| D |}{| {j | k &Element; t_{j}} |}

其中|D|表示要进行匹配计算的文档的个数，|{j|k∈t_j}|表示出现了关键词k的文档个数。

针对同义关键词序列{sk₁,sk₂,…,sk_n}，出现在事件标题的次数分别为{st₁,st₂,…,st_n}，出现在事件正文的次数分别为{sc₁,sc₂,…,sc_n}，可以得到同义关键的匹配值：

V (sk, e_{i}) = wsk * \log \frac{| D |}{| {j | k &Element; t_{j}} |} * Σ_{i = 1}^{n} (wt * s t_{i} + wc * s c_{i})

然后将关键词和同义关键词的匹配值加在一起作为关键词k对e_i的匹配值：

Value(k,e_i)＝V(k,e_i)+V(sk,e_i)

经过几次测试和调整，最后取同义关键词的匹配权重wsk＝0.8，出现在事件标题的权重wt＝0.8，出现在事件正文的权重wc＝0.2，匹配值的阈值设置为1，当匹配值大于该阈值则匹配成功，否则失败。最后按照匹配得分对匹配成功的事件进行快速排序然后推送结果。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于本体的支持模糊匹配的事件发布订阅方法，其特征在于，该方法包括如下步骤：

步骤1)构建用以提供发布订阅系统中的概念和概念间关系定义的领域本体；

步骤2)首先分别按照如下两种方式构建基于所述领域本体的同义词词库：

a)从一个以上的中文百科中抽取重定向；

b)利用固定模式从中文语料库中抽取同义词；

步骤3)构建RDF事件图：事件发布者首先通过浏览器在网页上构建事件内容，然后通过事件代理把事件内容转换成RDF事件图；

步骤4)构建订阅请求：订阅者首先通过浏览器在网页上构建订阅内容，然后通过订阅代理把订阅请求内容转化成SPARQL语句；

同时收集用户订阅时输入的关键词；

步骤7)基于用户订阅的关键词和构建好的同义词词典在事件描述信息中进行词频-逆向文件词频计算，得到所述关键词和事件描述信息之间的匹配相关度得分，最后根据相关度得分对事件进行排序并返回给订阅者。

2.根据权利要求1所述的一种基于本体的支持模糊匹配的事件发布订阅方法，其特征在于，所述步骤1)中构建的领域本体用OWL文档形式存储。

3.根据权利要求1所述的一种基于本体的支持模糊匹配的事件发布订阅方法，其特征在于，所述步骤2)中的中文百科采用维基百科、互动百科和百度百科。

4.根据权利要求1所述的一种基于本体的支持模糊匹配的事件发布订阅方法，其特征在于，所述步骤3)中，事件内容的主题是从步骤1)中所构建的领域本体中定义的事件类中选取的；所述RDF事件图是在关系型数据库中构建事件表来存放RDF事件得到的。