CN103425686B

CN103425686B - 一种信息发布方法和装置

Info

Publication number: CN103425686B
Application number: CN201210158030.6A
Authority: CN
Inventors: 井辉; 董恭谨; 伏圣国; 朱红垒; 白栓虎
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2012-05-21
Filing date: 2012-05-21
Publication date: 2016-12-07
Anticipated expiration: 2032-05-21
Also published as: CN103425686A

Abstract

本发明的实施例提供了一种信息发布方法和装置，可提高信息发布的效率。所述方法包括：接收待发布信息；将基础信息与待发布信息进行匹配；若基础信息与待发布信息匹配成功，在该基础信息处发布所述待发布信息。所述基础信息包括发布基础信息和/或用户信息。根据本发明实施例，通过基于文本内容匹配的方法进行信息发布，可使信息在发布的目的性更强，从而使提高了信息的针对性，进而提高了信息发布的效率。

Description

一种信息发布方法和装置

技术领域

本发明涉及一种信息技术，尤其涉及一种基于文本内容匹配技术的信息发布方法和装置。

背景技术

信息发布技术用途十分广泛。信息发布是指在特定的位置和/或特定时间发布待发布信息。待发布信息可以是广告信息、警告信息、警示信息、引导信息、国家法令规定等信息。例如，发布广告是将待发布信息放置在特定的地方，以便人们了解这些待发布信息。发布警告是将警告信息与特定信息一起发布，以便人们了解该特定信息的负面效果，例如，在基础文本为有关“抽烟”的内容时，可在发布该基础文本时，同时发布抽烟有害身体健康的警示信息，及发布关于与烟草有关的最新国家法令。发布引导信息是将引导信息与特定文本文本一起发布，以便人们了解与该特定文本相关的信息，例如，在基础文本为“游戏”时，可在发布该基础文本时，同时发布游戏时间不要过长的引导信息，及发布关于与游戏有关的最新国家规定。内容匹配技术是指给定一个文本，从一个较大的文本集合里找出内容相近的文本来。

目前还没有将信息发布技术和文本内容匹配技术结合起来发布信息的技术，该技术可提高信息发布的效率。

发明内容

本发明的实施例提供了一种信息发布方法和装置，可提高信息发布的效率。

本发明的实施例提供了一种信息发布方法，包括：接收待发布信息；将基础信息与待发布信息进行匹配；若基础信息与待发布信息匹配成功，在该基础信息处发布所述待发布信息。

所述基础信息包括发布基础信息和/或用户信息。

所述基础信息为发布基础信息时，所述将基础信息与待发布信息进行匹配具体包括：获得发布基础信息的主题分布向量；获得待发布信息的主题分布向量；将发布基础信息的主题分布向量与待发布信息的主题分布向量进行匹配。

所述将发布基础信息的主题分布向量与待发布信息的主题分布向量进行匹配具体包括：当发布基础信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离小于预定值时，确定为二者匹配成功，所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d'代表基础信息，p(t_i|d')是基础信息的主题分布向量的一个元素。d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目。

所述基础信息为用户信息时，所述将基础信息与待发布信息进行匹配具体包括：获得用户信息的主题分布向量；获得待发布信息的主题分布向量；将用户信息的主题分布向量与待发布信息的主题分布向量进行匹配。

所述将用户信息的主题分布向量与待发布信息的主题分布向量进行匹配具体包括：当用户信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离小于预定值时，确定为二者匹配成功，所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d'代表用户信息，p(t_i|d')是d'用户信息的主题分布向量的一个元素。d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目。

本发明实施例还提供了一种信息发布装置，其特征在于，包括：接收单元，用于接收待发布信息；匹配单元，用于将接收单元接收的待发布信息与基础信息进行匹配；判断单元，判断基础信息与待发布信息匹配是否成功，若是启动发布单元；发布单元，用于在基础信息处发布所述待发布信息。

所述匹配单元具体包括：第一获得单元，用于获得基础信息的主题分布向量；第二获得单元，用于获得待发布信息的主题分布向量；匹配子单元，用于将基础信息的主题分布向量与待发布信息的主题分布向量进行匹配。

所述匹配子单元具体包括：判断单元，判断基础信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离是否小于预定值，若是，启动确定单元；所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d’代表基础信息，p(t_i|d')是基础信息的主题分布向量的一个元素。d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目；确定单元，用于确定发布基础信息与待发布信息匹配成功。

根据本发明实施例，通过基于文本内容匹配的方法进行信息发布，可使信息在发布的目的性更强，从而使提高了信息的针对性，进而提高了信息发布的效率。在文本内容匹配过程中，进行非监督机器学习方法提取微博和用户主题，从而省去人工建立知识库的繁杂步骤。通过实验表明，其匹配的精度达到90％以上，远比基于知识库的方法高。

附图说明

图1示出了本发明实施例的主题模型匹配的过程；

图2示出了微博的一个例子；

图3示出了本发明实施例的在用户主页投放的例子；

图4示出了本发明实施例的相关内容推荐的例子；

图5示出了本发明实施例的信息发布装置。

具体实施方式

为了便于本领域一般技术人员理解和实现本发明，现结合附图描绘本发明的实施例。

实施例一

本实施例提供了一种信息发布方法，该方法包括步骤：接收待发布信息；将基础信息与待发布信息进行匹配；若基础信息与待发布信息匹配成功，在该基础信息处发布待发布信息。所述基础信息包括发布基础信息和/或用户信息。根据本发明实施例，优选地，发布基础信息为微博，或是博文，可以是已发布或未发布的微博、博文等。

下面以发布基础信息为微博、待发布信息为广告为例，来介绍本发明实施例的信息发布方法。在微博中，用户的即时兴趣通常会隐含在其某个时刻或时段发送或转发的内容当中。用户较长时期发送或转发的大量内容，隐含了用户的长期的兴趣爱好，甚至职业信息。根据本发明实施例，在广告发布过程中，广告匹配引擎可以根据广告中的文字内容，去匹配用户所发送或转发的微博得内容，并根据匹配结果投放广告，当匹配成功时，投放广告，这样会精确定位到广告所投放的位置，提高广告的效率。广告匹配引擎也可以利用广告的文字内容去匹配用户，并根据匹配结果投放广告，当匹配成功时，投放广告，这样会精确定位到广告所投放的具体用户。内容推荐技术和广告匹配基本类似，可以把用户产生的一条博文当作一条广告，内容推荐引擎可以利用类似的匹配算法，把博文推荐给最适合的用户。所以，文本匹配技术是广告匹配引擎和内容推荐引擎的核心。

根据本发明实施例，在匹配技术中，优选地，采用基于主题模型(Topic Model)的内容匹配技术。该技术的主要特征是采用非监督学习的方法，能从大量的文本集合中抽取主题，从而得到每个文本的主题分布向量。此技术同时提供推理机制，能够快速有效地从新的文本中抽取主题。在匹配过程中，比较文本内容上的相似性，可以通过比较文本的主题分布的相似性来实现。因此，可以从一定程度上避免短文本带来的数据稀疏问题。同时，可以通过对用户所发送和转发的博文及这些博文的主题分布向量的分析，也可以综合得到用户主题分布向量。在此基础上，通过比较文本的主题分布向量和用户的主题分布向量，来实现对用户投放广告和推荐的目的。此外，通过比较用户之间主题分布向量的相似度，还可以找出相同兴趣的用户。这项文本匹配技术的最大优势是非监督学习方法，一切由机器自动完成，不需要人工建立知识库。算法的操作性也比较简单，在应用过程中不需要复杂的推理和计算机制。通过大量的微博数据的评估，这种方法的性能明显优于基于分类的方法和基于知识库的方法。下面介绍基于主题模型的内容匹配方法。

一、基于主题模型的内容匹配方法

文本内容匹配有多种方法。一种方法是基于分类的内容匹配。这种方法是设计一个分类器，分类的类别可以根据需求按照某种意义去定义。一般的方法是人工标注大量的文本，然后按照统计方法对分类器进行训练。匹配的原则是如果一个文本分到某个类中，则认为与该类匹配成功。另一种方法是根据知识库的方法，这种方法通常需要建立庞大的知识库，知识库中的词按照不同种类，不同层次打上标签。文本匹配的过程是首先对文本进行关键词抽取，然后通过对知识库的查找，以及查找结果的综合来确定文本的内容标签，最后通过内容标签的比较结果来判定两个文本从内容上来说是否相似。基于分类的方法的缺点之一是需要确定分类的类别。对微博而言，如果类别过粗，匹配的价值就不是特别大；如果分类过细，分类器就很难做到精准。基于知识库的方法存在的问题在于建立合理可用的知识体系以及过程，而建立知识库通常需要大量的人工工作。第三种方法就是下面将要介绍的基于主体模型的方法。通过对现有的这三种方法应用于微博内容匹配进行比较，可以发现基于主体模型的方法无论从精度还是可操作性来说，具有明显的优势。下面详细介绍基于主题模型的内容匹配方法。

主题模型

文本在计算机里的表达有多种方式，不同的应用有不同的表达方式。例如在信息检索过程中可以用向量空间模型来表达。所谓的向量空间模型就是把一个文本表达为一个向量，向量的每一维对应一个词，而向量中元素的值可以是这个词在此文本中出现的频率。通常把文本的这种向量表达叫做对应文本的特征向量，词叫做特征，词频叫做特征值。对一个大的文本集合(例如搜索系统)而言，其词汇表往往很大，而每个词并不一定要出现在每个文本当中。如果用一种统一的格式的向量来表达这个集合，文本的向量就会变得非常稀疏，没有在特定文本中出现的词对应的向量中元素的值就是零。显而易见，文本越短，其向量就越稀疏。

在主题模型中，可以将一个文本简单地理解为由若干个主题来组成，这和通常对文本的一般理解基本一致。构造一个文本，首先构造若干个主题，而这些主题是一些隐性变量，显性的词是由这些主题按照一定的规律来生成。重要的一点就是从文本到主题，再从主题到词是按照一定的概率分布来构造的。通常情况下，在一个主题模型中，采用的主题数要远远少于词汇数。根据不同的文本集合，主题数目的选择可以用实验的方式来获得。

主题模型有一整套完整的训练算法。按照这些算法，可以把文本集的向量空间表达转换到概率空间的表达方式。为了简单起见，以PLSA主题模型为例来说明在概率空间文本表达方式。

p(d)＝∏_w∑_t p(t|d)p(w|t) (1)

在以上公式中，d代表文本，w代表词，t代表主题变量；p(d)称为文本d的似然值，p(t|d)表示主题t在文本d中的分布概率，p(w|t)表示主题t产生词w的概率。其中p(t|d)也可以解释为对文本的软分类，即文本d属于不同主题类别t的概率。我们可以注意到对一个文本d而言，p(t|d)是一个概率分布向量，它的维数就是主题t的数目，从而它也可以解释为一种降维方式，即把文本从用词汇表达的向量空间转换为用主题表达的向量空间。在维数较小的向量空间比较，可以避免数据稀疏带来的不准确的问题。主题模型的训练过程也叫主题解析过程。LDA主题模型是对PLSA主题模型的改进，其主要特征是用Dirichlet分布函数来模拟主题的分布，而不是用参数的形式来直接描述的分布。其重要的优点之一是为新的文本根据已训练过的数据提供主体推理的机制。在本发明，优选地采用LDA主题模型。

事实上，主题模型的应用范围远远不止在文本处理领域，可以扩展到多个类似的样本空间。在这里被处理的文本表达为以词为特征，词频为特征值的特征向量。任何被处理的样本，只要有固定数目的特征及量化的特征值，都可以用主题模型进行处理。在微博中，如果把每个用户看作一个文本，而用户发表的内容所用到的词看作这个文本中用到的词，那么以用户为单位的样本空间同样可以用主题模型来解析，从而得到用户的主题分布。实际上用户的主体分布就代表了用户的兴趣爱好。利用主题模型抽取微博和用户主题分布的目的主要是解决数据稀疏带来的问题，而通过比较用户之间的主题分布可以寻找内容相近的博文或兴趣相近的用户群体。下面介绍主题模型的匹配方法流程。

主题模型的匹配方法流程

通过以上分析，根据给定的样本(例如广告文本、微博、用户信息)，可以利用主题模型的方法进行解析，然后在主题分布向量空间匹配与主题相似内容的微博和用户信息。也可以通过相互比较发现主题分布(兴趣)相近的用户。匹配过程如下：

●对微博用主题模型抽取主题，产生博文的主题分布向量

●根据用户发送/转发/评论内容，产生用户的主题分布向量

●使给定的样本(如待发布信息)的主题分布向量和其它博文或用户的主题分布向量进行匹配，以获得与该给定的样本相近的博文或用户，并根据匹配结果发布该给定的文本。

如图1所示，主题模型匹配在逻辑上分为两层，即学习层和解码层。学习层负责模型的训练，也就是主题提取的过程；解码层负责从训练所得到的模型进行匹配。下面对两个层面分别作一介绍。

1、学习层(机器学习过程)

基于主题模型的学习方法是一种无监督学习过程，不需要任何人工辅助的方法就可以获得微博和用户的主题分布向量。相对于知识库和基于分类的方法，可以省去繁重的手工工作。机器学习的过程是微博集和用户信息，输出是微博主题分布向量集和用户主题分布向量集。

首先介绍微博主题分布向量的学习过程。给定微博文本集，其中集合中的每一条信息对应发送或转发微博的用户编号，和微博的正文内容。图2给出一个微博的例子，在本发明的系统中只处理正文部分。其中用户名在系统中用用户标识码代替，图片、视频等链接都未作处理内容。

第一步要经过文本预处理。其中，分词是指对博文进行词的切分；特征提取是指去掉文本中在主题提取过程中没有用的词，如“的”，“在”等助词和介词等；垃圾和作弊过滤是指过滤掉没有意义的微博和通过关键词作弊的微博(关键词作弊是微博中的一个特有的作弊手段，其目的是在一条微博中加入不相关的热门关键词并在两端放置#，以被搜索引擎建立索引而容易搜到)。通过预处理过程，可把每一条微博转换为以特征词为单位的词特征向量。微博的词特征向量可以理解为一个一维向量，其中每一个元素代表一个不同的词，元素的值是该词在文本中出现的次数。图2的微博正文的词特征向量如表1所示。从表1我们可以看出，由于短文本的原因，大多数词在文本中只出现一次。

表1

在经过预处理流程以后，经过LDA主题模型把词特征向量集合转换为以主体分布概率为单位的主题分布向量集。在此过程中主题数的选择可以针对文本的特点进行反复实验得到。在本发明的实施例中，将主题数设定为500。表2给出了在实验中选择16个主题获得的主题分布向量。其中每个元素代表对应微博主题分布概率。

表2

0.00

0.01

0.16

0.00

0.26

0.00

0.10

0.05

0.00

0.1

0.00

0.32

0.00

用户主题抽取过程和微博主题抽取过程类似。其不同的地方是要用到用户信息。所述用户信息可以是该用户某个时段发送的所有微博。例如，一种最简单的方法，可以把同一用户某个时段发送的微博合并到一起，这样每一个用户就好像转换成一个文本。同样通过LDA主题模型，获得用户的主题分布向量。用户的主题分布向量就代表用户的兴趣和爱好。用户的兴趣爱好通过主题以概率的形式来表达。这样，我们通过分析用户发送的内容，就可以为每个用户建立起其主题分布向量。

然而，在实际应用中我们发现利用这种方法得到的用户主题进行推理准确性不够好，为了提高用户主题的准确度，在本实施例中，采用从微博主题分布向量和微博数据来导出用户主题分布向量的方法。具体的方法如公式(2)。

p (t | D^{I}) = \frac{Σ_{w, d^{I}} n (d^{I}, w) p (t | d^{I}, w)}{Σ_{w, d^{I}, t^{'}} n (d^{I}, w) p (t^{'} | d^{I}, w)} - - - (2)

在公式(2)中，I代表一个用户标识，如用户编号，d^I代表用户I的一条微博，D^I代表用户I的微博的集合，n(d^I,w)是词W在微博d^I中出现的次数，可以从微博词特征向量中获得。p(t|D^I)就是我们需要的用户主题分布向量，p(t|d^I,w)的意义是文本d^I产生词W时用到特定主题t的概率，p(t'|d^I,w)的意义和p(t|d^I,w)类似,只是t'表示任意的主题其计算方式如下公式(3)。

p (t | d^{I}, w) = \frac{p (t | d^{I}) p (w | t)}{Σ_{t^{'}} p (t^{'} | d^{I}) p (w | t^{'})} - - - (3)

用户主题抽取可直接从微博主题抽取获得输入，该输入为微博主题分布向量p(t|d)和词分布概率p(w|t)，文本预处理模块产生的微博词特征向量，以及用户信息(用户信息实际上就是用户名和用户标识的对照表)，采用公式(2)和(3)就可以得到用户主题分布向量。

2、解码层(匹配过程)

解码过程可以理解为利用获得的主题分布向量进行内容匹配的过程。具体的内容有三个方面：

●文本内容比较，即微博之间的比较，或广告文字内容和微博的比较。

●文本和用户之间的比较，即微博或广告文字内容和用户进行比较。

●用户之间的比较，如发现兴趣相近的用户。

所有的这些比较，都在主题分布向量之间的比较过程中完成。

LDA主题模型提供一种推理机制，我们可以利用这种推理机制，推断出新文本的主题。

然而LDA主题模型提供的推理需要通过多次迭代来完成，在实际应用中对大规模实时文本处理存在一定困难。结合实际应用，我们提出了B-LDA方法，以获得主题分布向量，该方法使用下式获得主题分布向量：

p (t | d) = \frac{Π_{t, w &Subset; d} p (t) n (w) p (t | w)}{Σ_{t^{'}} Π_{t^{'}, w &Subset; d} p (t^{'}) n (w) p (t^{'} | w)} - - - (4)

在公式(4)中，d代表用户发的一条微博，n(w)是词W在微博d中出现的次数，可以从微博词特征向量中获得。p(t|d)就是我们需要的用户主题分布向量，p(t|w)的意义是文本产生词w时用到特定主题t的概率，p(t'|w)的意义和p(t|w)类似,只是t'表示任意的主题，其计算方法可以用简单的贝叶斯公式，如(5)所示。

p (t | w) = \frac{p (w | t) p (t)}{P (w)} - - - (5)

其中p(t)表示主题t的先验概率，P(w)表示词w的概率。p(w|t)是用LDA主题模型训练所得到的主题t生成词w的概率。

公式(4)的时间复杂度分析如下:

p(t)和p(t|w)可以线下计算得到,所以线上实际只计算n(w),即微博d中每个词的出现次数,所以公式(4)的时间复杂度为O(N),而传统LDA的推理时间复杂度为O(N*I*T),N为微博d中的词数，I为迭代次数,T为主题数。故公式(4)的时间复杂度较传统LDA至少要快I倍，而传统LDA中I通常要在100以上才可以达到较为理想的结果。

这个方法的主要优点是速度快，它比LDA精确的推理算法快80倍左右，而推理所得的精度和LDA精确推理的结果接近。它可以满足大规模实时文本处理的需求。

对新文本，通过分词和特征提取模块获得其以特征词为单位得特征向量，然后利用我们提出的B-LDA方法以获得此文本的主题分布向量。主题分布向量的比较方式有多种，其中最直观比较方式可以用向量之间的欧式距离，具体如下公式(4)：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}} - - - (6)

其中d’代表发布基础信息(如微博)，p(t_i|d')是发布基础信息的主题分布向量的一个元素。d是待发布信息(如广告信息、警告信息等)，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目。

在比较过程中，我们可以通过实验的方法获得一个阈值α，我们只选择Dist小于α的微博认为匹配成功，剩余的微博认为内容不相匹配。利用文本和微博匹配的方法而得到内容相近的微博，可以在该微博出现的位置作为广告投放的地点。

文本和用户信息匹配的方法和文本与微博匹配方法类似，其计算方法如下(7)

D i s t (D^{I}, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | D^{I}) - p (t_{i} | d^{'}))}^{2}} - - - (7)

利用文本和用户匹配的方法而得到内容相近的用户，可以将该用户作为广告投放的对象，或者内容推荐的对象。

给定用户I，与其他用户J进行比较，可以用类似公式(4)的计算方法计算其距离Dist(D^I,D^J)，距离小于阈值的用户认为是匹配的用户，可以作为兴趣相近的推荐对象。

实验结果

为了证实方法的性能，我们对广告和微博内容匹配、微博和用户的匹配、用户之间的兴趣匹配作了实验。为了简单起见，这里只列出广告和微博匹配的部分实验结果，分别为汽车广告匹配和运动服装广告匹配的数据。在实验过程中我们随即抽取500万条原创微博进行主题抽取。测试内容都训练集范围之内。

1.汽车广告和微博匹配结果

汽车广告匹配实验过程，我们选择了一条视频的标题“元首座驾！！！宝马防弹汽车”为正文。这样选择的目的是正文及其简短，匹配难度较大。匹配过程是在500万条随机抽取的微博中进行。首先我们对500万条微博进行主题抽取，并在此基础上对广告文本进行主题推断，获得其主题分布向量。利用公式(6)计算广告和500万条微博主题分布向量之间的距离，按距离从小到大的顺序排序。广告和微博匹配的部分结果如下表3所示。在表3中，为了简单起见，我们只列出了匹配微博特征词。匹配距离是指广告的主题分布向量和微博的主题分布向量之间的距离；次序指匹配距离按从小到大排序的顺序。次序1至30列出了和广告距离最短的前30条微博。次序28543至28559是阈值在0.294时，匹配到的最后17条微博。

表3

2.运动服广告和微博匹配结果

运动服广告“知名运动品牌Nike推出了NBA著名球星Kobe Bryant的Zoom Kobe VI“3D””的特点是其中含有英文词，其匹配结果如表4所示，解释方法和“汽车广告匹配结果”类似。

表4

广告和内容推荐实例

1用户主页广告投放

如图3所示，用户“http://weibo.com/u/1670145683”发布与汽车相关的相当数量的微博(图中“用户所发内容“)。如果汽车商(如宝马)要做广告，我们可以根据广告的文字内容匹配到用户所发的微博的相似的内容。然后系统可以将用户所发的广告投放到用户的主页(图中”企业微博投放广告“所指)。这样该用户可以在其主页看到其广告。针对不同的用户所发表的内容，投放不同的广告，是精准广告投放方法之一。

2相关内容推荐

如图4所示，在用户的每一条微博内容下面设置一个“相关“的按钮。当鼠标聚焦到该按钮，或点击该按钮时便显示出在一定时段内和此条微博的内容相似，但不相同的微博。如上图所示，用户接收到一条有关鸡肉套餐的微博(图中”原始微博“)系统可以找到在一定时段内，如一天或一小时内，相关的几条内容，在上图中同样代表鸡肉套餐(图中“匹配微博1，匹配微博2”)。这样可以方便用户进行比较，达到推荐的目的。

实施例二

如图5所示，本实施例提供了一种信息发布装置，包括：接收单元，用于接收待发布信息；匹配单元，用于将接收单元接收的待发布信息与基础信息进行匹配；判断单元，判断基础信息与待发布信息匹配是否成功，若是启动发布单元；发布单元，用于在基础信息处发布所述待发布信息。

所述基础信息为发布基础信息时，所述匹配单元具体包括：第一获得单元，用于获得基础信息的主题分布向量；第二获得单元，用于获得发布基础信息的主题分布向量；匹配子单元，用于将基础信息的主题分布向量与发布基础信息的主题分布向量进行匹配。

所述匹配子单元具体包括：判断单元，判断发布基础信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离是否小于预定值，若是，启动确定单元；所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d’代表发布基础信息，p(t_i|d')是发布基础信息的主题分布向量的一个元素。d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目；确定单元，用于确定发布基础信息与待发布信息匹配成功。

本实施例的各个单元的工作原理可参见实施例一的描述。

虽然通过实施例描绘了本发明，但本领域普通技术人员知道，在不脱离本发明的精神和实质的情况下，就可使本发明有许多变形和变化，本发明的范围由所附的权利要求来限定。

Claims

1.一种信息发布方法，其特征在于，包括：

接收待发布信息；

将基础信息与待发布信息进行匹配；

若基础信息与待发布信息匹配成功，在该基础信息处发布所述待发布信息；

所述将基础信息与待发布信息进行匹配具体包括：获得基础信息的主题分布向量；获得待发布信息的主题分布向量；将基础信息的主题分布向量与待发布信息的主题分布向量进行匹配；

所述主题分布向量由B-LDA方法求得，所述B-LDA方法为：

p (t | d) = \frac{Π_{t, w &Subset; d} p (t) n (w) p (t | w)}{Σ_{t^{'}} Π_{t^{'}, w &Subset; d} p (t^{'}) n (w) p (t^{'} | w)}

其中，d代表文本信息，n(w)是词W在文本信息d中出现的次数；p(t|d)就是该文本信息的主题分布向量，p(t|w)代表文本信息产生词w时用到特定主题t的概率，p(t'|w)的意义和p(t|w)类似，只是t'表示任意的主题，其计算方法可以用下述公式获得：

p (t | w) = \frac{p (w | t) p (t)}{P (w)}

其中p(t)表示主题t的先验概率，P(w)表示词w的概率；p(w|t)是用LDA主题模型训练所得到的主题t生成词w的概率。

2.根据权利要求1所述的方法，其特征在于，所述基础信息包括发布基础信息和/或用户信息。

3.根据权利要求2所述的方法，其特征在于，所述基础信息为发布基础信息时，所述将基础信息与待发布信息进行匹配具体为：

获得发布基础信息的主题分布向量；

将发布基础信息的主题分布向量与待发布信息的主题分布向量进行匹配。

4.根据权利要求3所述的方法，其特征在于，所述将发布基础信息的主题分布向量与待发布信息的主题分布向量进行匹配具体包括：

当发布基础信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离小于预定值时，确定为二者匹配成功，所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d’代表发布基础信息，p(t_i|d')是发布基础信息的主题分布向量的一个元素；d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目。

5.根据权利要求2所述的方法，其特征在于，所述基础信息为用户信息时，所述将基础信息与待发布信息进行匹配具体为：

获得用户信息的主题分布向量；

将用户信息的主题分布向量与待发布信息的主题分布向量进行匹配。

6.根据权利要求5所述的方法，其特征在于，所述将用户信息的主题分布向量与待发布信息的主题分布向量进行匹配具体包括：

当用户信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离小于预定值时，确定为二者匹配成功，所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d'代表用户信息，p(t_i|d')是用户信息的主题分布向量的一个元素；d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目。

7.一种信息发布装置，其特征在于，包括：

接收单元，用于接收待发布信息；

匹配单元，用于将接收单元接收的待发布信息与基础信息进行匹配；

判断单元，判断基础信息与待发布信息匹配是否成功，若是启动发布单元；

发布单元，用于在基础信息处发布所述待发布信息；

所述匹配单元具体包括：

第一获得单元，用于获得基础信息的主题分布向量；

第二获得单元，用于获得待发布信息的主题分布向量；

匹配子单元，用于将基础信息的主题分布向量与待发布信息的主题分布向量进行匹配；所述主题分布向量由B-LDA方法求得，所述B-LDA方法为：

p (t | d) = \frac{Π_{t, w &Subset; d} p (t) n (w) p (t | w)}{Σ_{t^{'}} Π_{t^{'}, w &Subset; d} p (t^{'}) n (w) p (t^{'} | w)}

p (t | w) = \frac{p (w | t) p (t)}{P (w)}

8.根据权利要求7所述的装置，其特征在于，所述匹配子单元具体包括：

判断单元，判断基础信息的主题分布向量与待发布信息的主题分布向量之间的欧式距离是否小于预定值，若是，启动确定单元；所述欧式距离由下式给出：

D i s t (d, d^{'}) = \sqrt{Σ_{i = 1}^{n} {(p (t_{i} | d) - p (t_{i} | d^{'}))}^{2}}

其中d’代表基础信息，p(t_i|d')是基础信息的主题分布向量的一个元素；d是待发布信息，p(t_i|d)是待发布信息的主题分布向量中的一个元素，n代表主题数目；

确定单元，用于确定基础信息与待发布信息匹配成功。