CN101782920A

CN101782920A - 面向综合集成研讨环境的信息推荐方法

Info

Publication number: CN101782920A
Application number: CN200910243731A
Authority: CN
Inventors: 倪娜; 刘凯; 李耀东; 戴汝为
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2009-12-23
Filing date: 2009-12-23
Publication date: 2010-07-21
Anticipated expiration: 2029-12-23
Also published as: CN101782920B

Abstract

本发明公开了一种面向综合集成研讨环境的信息推荐方法，该方法采用一种实时的主动信息获取技术，在研讨进行过程中，主动感知当前研讨的具体话题，并判断话题的变化，在话题发生变化的情况下自动生成检索词进行检索，再将检索结果呈现给用户。同时，该方法结合了综合集成研讨环境信息持续变化、流动的特点，采用领域特征和通用特征结合的方法分析发言文本的话题，并通过多个用户之间的协作实现了对重要信息的筛选，最终实现了信息推荐。这一方法已在现有的综合集成研讨环境中进行了实验，并可用于即时通信、网络会议等环境，能够极大的减小信息搜索代价，有效提高信息的利用率。

Description

面向综合集成研讨环境的信息推荐方法

技术领域

本发明涉及综合集成研讨环境中根据研讨内容对用户进行信息推荐的方法，具体的说涉及研讨话题的实时提取、跟踪及协作过滤方法及其实现。

背景技术

综合集成研讨环境[1]是一种多个用户基于某一具体领域，进行文字形式讨论的在线讨论环境。参与研讨的用户针对一个事先拟定的主题进行发言讨论，最终将讨论结果用于解决一系列复杂问题。

随着信息技术的发展，网络上的资源呈爆炸式的增长，使得Internet成为信息传播的主要媒介之一。而Internet上的大量信息，尤其是关于某一问题的权威网页，对于启发、激活用户的思维具有重要意义。在综合集成研讨环境中，频繁的信息检索以及随之而来的信息过滤使得用户很难直接从网络上获取信息。因此，需要一种“主动化”的信息推荐的方法来解决这一问题。

目前，国内外对于信息推荐的研究主要基于网络用户，根据用户的访问历史、当前浏览动作，或通过和用户具有类似行为模式的其他用户等来挖掘用户兴趣，进而将某用户可能感兴趣的信息推荐给该用户。

在综合集成研讨环境中，无法获得参与研讨用户的浏览历史和行为模式等信息，因此通过以上信息建模来挖掘用户兴趣的数据需求不可行；同时，在综合集成研讨环境中多个用户作为一个群体协同开展工作，存在着一定时间压力，而直接从Internet上搜索来的信息数目众多且与话题的关联程度也无法确定，需要根据当前研讨的内容及通过多个用户之间的协作推荐来筛选和研讨话题更加相关的信息进而推荐给用户。因此，现有的基于网络用户的信息推荐系统无法满足综合集成研讨环境的需求。

[1]戴汝为，李耀东，基于综合集成的研讨厅体系与系统复杂性，复杂系统与复杂性科学，2004 Vol.1 No.

发明内容

本发明的目的在于提供一种面向信息持续流动、变化条件下，多用户协作综合集成研讨环境的信息推荐的方法。

为达到上述目的，本发明提供的基于综合集成研讨环境的主动信息获取方法，该方法的步骤如下：

步骤1：在研讨开始前利用多个用户给定的相关背景资料生成此次研讨领域词汇表，用于分析发言；

步骤2：参与研讨的用户依次进行发言讨论，当发言累计一定字数后，读取发言文本；

步骤3：对从研讨环境中得到的文本形式的发言进行向量化处理，在文本向量化的过程中，使用研讨领域的领域词汇表，在计算发言文本特征项的权重时，对包含在领域词汇表中的词的权重进行加权处理，以增强领域知识的作用，体现研讨内容的领域相关性；

步骤4：对于向量化后的文本，由话题提取器从文本中抽取当前研讨话题；

步骤5：由话题判别器判断当前研讨话题是否发生变化，如果当前研讨话题发生变化转入步骤6，如果当前研讨话题没有发生变化，则回到步骤2继续读取发言文本；

步骤6：从步骤4得到的当前研讨话题中提取合适元素，生成检索词；

步骤7：将检索词送入搜索引擎，下载检索结果网页并解析其中的网页链接信息，并将链接信息发送给用户；

步骤8：对系统发送的链接信息，用户可选择其中感兴趣的信息点击进行阅读，并对阅读过的链接信息进行打分；

步骤9：根据步骤8中用户对阅读过的链接的打分情况及用户的权威度重新计算各链接的权重，得到一个重要链接列表，再将重要链接列表推荐给未阅读过这些重要链接列表信息的用户；

步骤10：查看此时是否还有新的发言产生，如果没有则本次研讨结束，退出推荐系统，否则返回步骤2继续读取发言文本并分析。

其中，所述计算发言文本特征项的权重的步骤如下，对于所有特征项首先计算其词频逆文档频率值，然后对包含在领域词表中的特征项的词频文档频率值乘以一个加权系数，以增强领域知识对研讨的作用。

其中，所述重要链接列表是对当前研讨话题分析后，通过用户之间的协作关系计算得到的，具体的说是将利用当前话题搜索返回的每条链接，根据阅读过该链接的用户对链接的打分和相应用户的权威度乘积的加和得到链接与研讨相关性的权值，再根据此权值对链接重新排序，得到重要链接列表并推荐给未访问过这些重要链接信息的用户，最终以可视化的方式在综合集成研讨厅中展现对用户的推荐结果。

本发明的有益效果：本发明采用了主动的信息获取技术，通过与特定领域相结合的方式分析当前研讨话题，并使用包含领域信息的话题词取代通用的关键词方式表示研讨内容，进一步从中生成检索词进行检索；同时又考虑到多用户之间的协同关系，对于检索到的信息，采用用户之间相互推荐的方式，精确了搜索结果，实现了对研讨用户高质量的信息推荐。这一方法是面向综合集成研讨等基于网络的在线讨论环境，用以分析研讨话题，为参与研讨的用户提供信息支持。该方法可减小信息搜索的代价，有效提高信息的利用率。

附图说明

图1是本发明所述方法的实施例流程图。

图2是本发明的原理示意图。

图3是本发明系统运行的示意图。

具体实施方式

下面结合附图对本发明作进一步详细的描述。

该方法采用一种实时的主动信息获取技术(real-time activeinformation retrieval)，在研讨进行过程中，主动感知当前研讨的具体话题，并判断话题的变化，在话题发生变化的情况下自动生成检索词进行检索，再将搜索结果呈现给用户。同时，该方法结合了综合集成研讨环境信息持续变化、流动的特点，采用领域特征和通用特征结合的方法分析发言文本的话题，并通过多个用户之间的协作实现了对重要信息的筛选，最终实现了信息推荐。这一方法已在现有的综合集成研讨环境中进行了实验，并可用于即时通信、网络会议等环境，能够极大的减小信息搜索代价，有效提高信息的利用率。

为了实现面向综合集成研讨环境的信息推荐，我们需要从用户发言中分析话题，再从互联网上搜索相应的信息，并以一定方式推荐给用户。如图2所示的原理，本发明是通过用户和研讨厅，用户1-n和网络，以及用户和用户之间的交互完成对用户的信息推荐的。具体的说，在研讨开始前，用户需要给定一些关于本次研讨的背景资料，利用这些背景资料生成领域词表用于分析发言；研讨开始后参与研讨的用户依次进行发言讨论，信息推荐系统首先从研讨环境中接收文本形式的发言，送入话题提取器；话题提取器快速从发言文本中提取当前研讨话题，然后由话题判别器判别话题是否发生变化，如果发生变化，则从话题中提取合适元素作为检索词，送入搜索引擎进行检索；协作过滤器将接收到的搜索结果发送给用户，进行与用户的第一次交互，并根据本轮的交互情况，筛选出其中的关键信息，推荐给用户。

本发明主要包括三个关键步骤：一是研讨话题的实时提取，二是研讨话题的跟踪，三是协作过滤。

研讨开始前，首先要确定本次研讨的领域，然后根据相关领域资料生成一个能够表达该领域知识的词表，用于在研讨进行过程中分析发言。为了生成这个领域词表，参与研讨的用户首先要给定十个左右具有代表性的词汇作为领域种子词，然后采用Bootstrapping的方法从给定资料中学习出该领域的领域词汇。

研讨开始后，每当累计发言达到一定字数后，都将启动话题提取器对当前发言文本进行分析。首先需要对发言文本进行预处理，包括分词、去除停用词等。然后需要将发言文本表示成计算机能处理的形式，这里采用向量空间模型(vector space model，VSM)来表示文本。在用向量空间模型表示文本时，需要根据所有待表示文本生成当前文本集合的特征空间。然后将发言文本表示成特征空间上的向量，并计算相应特征项的权重。t时刻的特征空间FeatureSpace_t表示方法如下：

FeatureSpace_t＝{term₁，term₂，...term_n} (公式1)

其中n为特征空间的维数，term_i为第i个特征项，特征项是向量空间模型中的最小语言单元，这里是经过分词软件切分后的词或词组。

而每当有新的发言文本到来时，新发言文本都会引入一些原有特征空间中没有的特征，此时需要将这些特征加入原有特征空间，生成新的特征空间。特征空间按公式2进行更新，即t时刻所有文本的特征空间由t时刻读入的新发言文本的特征集合Feature_New及t-1时刻的特征空间FeatureSpace_t-1的并集组

FeatureSpace_t＝FeatureSpace_t-1∪Feature_New (公式2)

例如FeatureSpace_t-1＝{a，b，c，d，e，f}，Feature_New＝{a，b，c，x，y}，那么：

FeatureSpace_t＝{a，b，c，d，e，f，x，y}

其中：a、b、c、d、e、f、x、y等为公式1中的term_i，即发言文本中经过分词软件切分后的词或词组。

当特征空间更新完毕后，将所有发言文本表示成当前特征空间FeatureSpace_t上的向量。即，t时刻读入的发言文本d_t可表示为：

d_t→{weight(d，term₁)，weight(d，term₂)，...，weight(d，term_n)} (公式3)

weight(d，term_i)表示文本d_t中特征项term_i的权重，其计算采用词频逆文档频率(TF：term frequency，词频，IDF：inverse document frequency，逆文档频率，TF-IDF)公式进行计算。即：

weight(d，term_i)＝TF-IDF(d，term_i) (公式4)

在综合集成研讨环境中进行的研讨大多是基于某一具体领域的，因此，领域知识的引入会给研讨文本的分析带来有益效果。现有方法在使用领域词表作为领域知识时，多是直接将领域词表作为特征空间对文本进行分析，忽略了其他不在领域词表中的词对话题表达的作用。这里采用了一种新的方法，把领域特征和通用词频特征相结合，即，对于向量化的文本，对于该文本中的每一个特征，判断其是否为领域特征(即是否包含在领域词表中)，如果是领域特征，则采用公式5的方法提高该特征项的权重，取代公式4对weight(d，term_i)的计算，确保了领域知识的引入，同时又不忽视非领域词对话题表达的作用。

weight(d，term_i)＝TF-IDF(d，term_i)(1+β) (公式5)

其中β领域词汇加权系数，β越大，说明给予领域知识的权重越大，β的具体取值需要通过实验得到。

对于向量化的发言文本，对其所有元素依据相应的权重进行排序，取前十个权重较高的项作为话题词，则当前研讨的话题topic用话题词及其权重表示如下：

topic＝{(topicword_k，weight_k)}，k＝1，...，10 (公式6)

即topicword_k为发言文本向量中权重第k高的项。

当提取出当前研讨话题后，启动话题判别器来判断此时研讨话题是否发生变化。对t时刻的发言文本d_t，如公式7采用余弦距离来计算其和此前所有发言文本d_j的相似度sim(d_t，d_j)。

sim (d_{t}, d_{j}) = \cos (d_{t}, d_{j}) = \frac{Σ_{k = 1}^{n} w_{k} w_{k}^{'}}{\sqrt{Σ_{k = 1}^{n} {(w_{k})}^{2} Σ_{k = 1}^{n} {(w_{k}^{'})}^{2}}}

(公式7)

其中j＝1，2，...，t-1，w_k和w′_k分别表示d_t及d_j第k个特征项的权重，n为特征空间的维数。

此时，如果公式8中的条件满足，即d_t与此时刻前所有发言文本计算得到的最大相似度值

也小于预先设定的阈值，则认为有新话题产生，创建一个包含t时刻的发言文本的话题类别，并从其话题topic中提取权重较高的前5个话题词作为检索词，送入搜索引擎进行检索。

\max_{j} sim (d_{t}, d_{j}) < topicThreshold

(公式8)

其中topicThreshold为预先设定的阈值。

否则没有新话题产生，将d_t加入和其相似度最大的发言文本所属话题类别中。

本发明采用了用户之间的协作推荐方法实现协作过滤，具体的说，首先将搜索引擎返回的搜索结果(如：Google搜索结果前20条)的链接发送给每位用户，用户对链接阅读并打分，然后根据公式9所示的方法计算各个链接的权重x_i，对链接重新进行排序，得到如公式10表示的重要链接列表l₁，l₂，...，l_m，再将每位用户未阅读过的重要链接再次推荐给该用户。

第i个链接的权重为：

x_{i} = Σ_{j = 1}^{K} e_{j} α_{j}, i = 1,2, . . ., L

(公式9)

其中L为总链接数目，K为参与研讨的用户数目，e_j代表第j个用户对第i个链接的打分，α_j代表第j个用户的权威度。

第i个重要链接为：

l_{i} = \arg \max_{j} {x_{j}}, j = 1,2, . . ., L

(公式10)

图1是本发明所述方法的实施例流程图。其实施过程如下：

步骤1，在研讨开始前，首先由参与研讨的多个用户给出本次研讨的相关背景资料，确定研讨的领域，然后由这些背景资料生成分析发言文本所需领域词汇表。研讨开始后，首先进行步骤2；

步骤2，当发言累计一定字数后，从研讨环境中读入文本形式的发言进行分析；

步骤3，对从研讨环境中读入的发言文本进行如分词、去除停用词等的预处理步骤；

步骤4，利用领域词表所表示的相关领域信息，从预处理后的发言文本中抽取当前研讨话题；

步骤5，对比历史研讨话题，判断当前研讨话题是否发生变化，如果发生变化，转步骤6，如果话题未发生变化，返回步骤2，等待下一次分析；

步骤6，从当前研讨话题词中选择合适的元素生成检索词；

步骤7，将检索词送入搜索引擎，下载Google搜索前20条结果网页并解析其中的链接信息，并将链接信息发送给用户，用户可点击进行阅读；

步骤8，用户对发送给其的链接信息可选择一部分进行阅读，并对阅读过的链接进行打分，记录各链接的得分情况；

步骤9，根据各链接的得分情况及对链接进行打分的用户的权威度等信息，计算链接的权重，并根据权重重新对链接进行排序，生成重要信息列表，并推荐给未阅读过这些链接的用户。

步骤10，查看研讨环境中此时是否还有新的发言产生，如果没有则此轮研讨结束，退出推荐系统，否则转步骤2，等待下一轮分析。

下面是一个具体实施实例，这里采用腾讯网一则有关金融危机的访谈来测试方法的有效性。研讨的主题是金融危机对我国经济的影响及我国应采取的应对措施，该研讨大致包含如下几个子主题：

1.中国经济应从政府主导转向市场主导

2.人民币升值、出口结算的问题

3.政府应通过减税等方式让利给企业和个人

4.分析政府的四万亿投资的作用

5.目前房产市场存在的问题

6.完善农村基础设施建设

7.中国应大力发展信贷经济

本次研讨共有五位用户参与，用1-5进行标记，其权威度依次为{0.9，0.7，0.7，0.5，0.5}。

在研讨开始前，用户给定了一个有关经济方面问题的资料集，其中包含约1600篇经济领域文档，并给定了证券、股票、金融、财经、银行、税收、外汇、投资、股市、贷款、经济等作为种子词，在此基础上，经过几轮学习，生成了一个词条数目为约为700的经济领域词汇表，其中包含如资本、国有、财政、国民经济、货币、民营、外资、所有制、信贷、固定资产、储蓄、利率、通货膨胀、对外开放、债券等经济领域相关词汇。

研讨开始后，各个用户就本次研讨的主题进行发言讨论。每当发言累计达到900字时，读取当前发言内容，启动话题提取器对其进行分析。参数设置如下：公式5中β＝0.8，公式8中话题判别阈值topicThreshold＝0.11。

以第三次分析发言为例，此时已经对发言进行过两次分析，且两段发言主题不同，即当前已有两个话题类别Topic1和Topic2，其各包含一篇文档d₁和d₂，其主题词分别为：

Topic1＝{经济：41.4，中国：17，信心：9，出口：9，发展：8，增长：7.2，下滑：5.4，周期：4，走：4，复苏：3.6}

Topic2＝{经济：0.3537，政府：0.2525，干预：0.2169，出口：0.1965，转型：0.1765，中国：0.1765，搞：0.1765，市场经济：0.1765，帮助：0.1765，计划：0.1520}

此时特征空间的维数为269，按公式1表示如下：FeatureSpace₂＝{谈论，信心，贸易，温总理，出口，...，好转，整体}

当发言第三次累计达到900字时，读取发言文本，启动话题提取器，首先对发言文本进行预处理，经过预处理后的新发言的特征集合为：Feature_New＝{人民币，美元，结算，贸易，跨境，升，...，出口，珠三角}，共包含190个独立特征项，其中有142个特征不包含在FeatureSpace₂中，如人民币、美元、结算、珠三角等，另外48个特征包含在FeatureSpace₂中，如贸易、出口、中国、货币等。由公式3知更新后的特征空间FeatureSpace₃＝FeatureSpace₂∪FeatureSpace_New＝{谈论，信心，货币，贸易，温总理，出口，...，好转，整体，人民币，美元，结算，珠三角，...}，维数为411。

再由公式3和公式5将当前发言文本表示成FeatureSpace₃上的向量：d₃＝{谈论：0，信心：0，货币：0.1322，贸易：0.0388，温总理：0，出口0.0569，...，好转：0，整体：0，人民币：0.5154，美元：0.1004，结算：0.2007，珠三角：0.0633，...}，同时也将d₁和d₂也更新为此时特征空间FeatureSpace₃上的特征向量，用以和d₃进行比较。

经过排序抽取当前发言文本的话题如下：Topic＝{人民币：0.5154，升值：0.3418，兑换：0.2945，贬值：0.2646，国际化：0.2278，结算：0.2007，自由化：0.1805，升：0.1470，试点：0.1470，货币：0.1322}

可以看出提取出的话题词能够体现出经济领域的特性，也能表述当前研讨的内容。

抽取当前研讨话题后，需要判断话题是否发生了变化，采用公式7，分别计算d₃和d₁、d₂的相似度得：

sim(d₃，d₁)＝0.0990，sim(d₃，d₂)＝0.0635，

可知：max sim(d₃，d_j)＝0.0990＜0.11，

说明当前话题发生了变化，创建包含d₃的新话题类别Topic3，从中得到检索词人民币、升值、兑换、贬值、国际化，送入Google进行检索，得到的检索结果举例如下：

首先将这20条链接发送给每位用户，用户可在其中选择一些进行阅读，每个用户阅读过的链接如下：

用户1阅读了以下链接：18、4、7、5、13、8、2、16、10、12、1、11、14、9、3、6、17、15、0

用户2阅读了以下链接：2、6、12、0、16

用户3阅读了以下链接：12、7、5、16、0、18、13、11、

用户4阅读了以下链接：16、4、10、13、3、17

用户5阅读了以下链接：5、3、18、12、6、16、10、0、11、1、14、13、4、9

根据公式9和10计算得到排序前十位的链接为：16、0、12、13、3、4、5、6、10、11

则需要向以下用户推荐重要的信息：

向用户2推荐以下链接：13、3、4、5、10、11、

向用户3推荐以下链接：3、4、6、10、

向用户4推荐以下链接：0、12、5、6、11、

以上步骤的结果显示在主动信息获取系统界面的情况如图3所示。

由于此时研讨还未结束，所以返回读取发言文本步骤，等待下一轮分析。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于综合集成研讨环境的主动信息获取方法，其特征在于，该方法的步骤如下：

2.如权利要求1所述的面向综合集成研讨环境的信息推荐方法，其特征在于，所述计算发言文本特征项的权重的步骤如下，对于所有特征项首先计算其词频逆文档频率值，然后对包含在领域词表中的特征项的词频文档频率值乘以一个加权系数，以增强领域知识对研讨的作用。

3.如权利要求1所述的面向综合集成研讨环境的信息推荐方法，其特征在于，所述重要链接列表是对当前研讨话题分析后，通过用户之间的协作关系计算得到的，具体的说是将利用当前话题搜索返回的每条链接，根据阅读过该链接的用户对链接的打分和相应用户的权威度乘积的加和得到链接与研讨相关性的权值，再根据此权值对链接重新排序，得到重要链接列表并推荐给未访问过这些重要链接信息的用户，最终以可视化的方式在综合集成研讨厅中展现对用户的推荐结果。