CN102567509A

CN102567509A - 视觉信息辅助的即时通信方法及系统

Info

Publication number: CN102567509A
Application number: CN2011104419275A
Authority: CN
Inventors: 卢汉清; 刘静; 蒋瑜; 徐常胜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2012-07-11
Anticipated expiration: 2031-12-26
Also published as: CN102567509B

Abstract

本发明公开了一种视觉信息辅助的即时通信方法及系统，该方法包括以下步骤：构建图片数据库；根据用户输入的文本信息提取语义关键词，分析得出关键词之间的语法关系；基于提取出的关键词，利用上下文语义线索和图片的显著度从图片数据库选择吻合即时通信上下文的语境的代表性图片；利用关键词之间的语法关系，合理排布代表性图片，形成视觉信息，并连同所述文本信息一同传递给对方用户。本发明还提供了一种视觉信息辅助的即时通信系统。本发明将传递抽象概念的文本信息与传递形象概念的视觉信息结合起来，通过两者的互补，帮助用户更好地表达自己，理解对方，同时本发明还整合了机器翻译模块，对于不同母语的用户，能够将视觉信息和机器翻译结果共同呈现给用户。

Description

视觉信息辅助的即时通信方法及系统

技术领域

本发明涉及多媒体内容分析与理解领域，特别是一种视觉信息辅助的即时通信方法及系统。

背景技术

网络时代，QQ、阿里旺旺等实时信息服务成为广大网友首选的交流工具。实时信息服务有着方便，快捷，免费等诸多优点。然而本发明注意到当前的实时信息服务主要仍依靠文字媒介来传递信息，因此得到的信息普遍存在内容抽象性，形式单一性的特点。由此也带来了一系列的问题，比如以下几个方面：

(1)文字本身抽象性的特点决定了建立在传统实时信息服务上的交流本身缺乏生动性和趣味性。传统的实时信息服务也在不断改善这方面问题，比如QQ可以发送一些图标来表达一些情感。但是这些图标必须人工操作选择，而且数量有限，大部分局限于情绪的表达。虽然一定程度上增强了交流的趣味性，但是仍然不能让人满足。

(2)不同的年纪，不同的文化背景，不同的地域影响，不同的教育水平导致了用户和用户之间对事物的认识存在着很大的差异性。仅仅依赖文字的网上交流有时候会存在很多误解。一个简单的事例，当一个中国人和一个美国人聊起“football”的话题时，很可能会产生一段风马牛不相及的对话。因为中国人认为“football”是英式足球，而美国人眼里的“football”则是橄榄球。这种认知上的差异经常会给交流带来麻烦。

(3)对于很大一部分掌握一门外语的人来说，词汇不足是他们共同存在的一个问题，甚至还有相当一部分人根本不懂得外语。在这样一种情况下，通过实时信息服务与不同语言的人交流似乎看来不可行。当然，如今可以求助于机器翻译，但机器翻译做得仍不是那么完善，特别是在句子级别的翻译。因此简单地把机器翻译模块整合到实时信息服务仍不能满足不同语言的用户之间的交流。

俗话说“眼见为实”。如果视觉信息，即关于即时通信内容的图示，能够连同文本信息，一起传达给用户，相信可以极大地改善用户使用实时信息服务的体验。首先，毫无疑问，由于视觉信息具有生动性，即时通信本身将变得更有趣味性；同时，视觉信息的引入，可以很大程度上改善因为认知差异性带来的交流障碍。当把英式足球的图片展现在美国人眼前，再和他谈了“football”的时候，他必然不会再误认为橄榄球了。此外，视觉信息的引入能够帮助不同母语的用户进行沟通交流，一方面他们可以借助机器翻译，另一方面图片能够直观地传递部分信息，并弥补机器翻译可能带来的错误。

发明内容

基于以上的考虑，本发明提出了一种视觉信息辅助的即时通信方法及系统。

一方面，本发明提出一种视觉信息辅助的即时通信方法，其特征在于，该方法包括以下步骤：

步骤1，构建图片数据库；

步骤2，根据用户输入的文本信息提取语义关键词，分析得出关键词之间的语法关系；

步骤3，基于提取出的关键词，利用上下文语义线索和图片的显著度从图片数据库选择吻合即时通信上下文的语境的代表性图片；

步骤4，利用关键词之间的语法关系，合理排布代表性图片，形成视觉信息，并连同所述文本信息一同传递给对方用户。

另一方面，本发明还提出一种视觉信息辅助的即时通信系统，其特征在于，该系统包括：图片数据库构建模块、对话分析模块、代表性图片选择模块和视觉排布模块，其中，

所述图片数据库构建模块，用于构建图片数据库；

所述对话分析模块根据用户输入的文本信息提取语义关键词，分析得出关键词之间的语法关系，并将关键词和语法关系分别发送给所述代表性图片选择模块和所述视觉排布模块；

所述代表性图片选择模块基于所述对话分析模块发送的关键词，利用上下文语义线索和图片的显著度从图片数据库选择吻合即时通信上下文的语境的代表性图片，发送给所述视觉排布模块；

所述视觉排布模块利用关键词之间的语法关系，合理排布代表性图片，形成视觉信息，并连同所述文本信息一同传递给对方用户。

不同于传统的实时信息服务，视觉信息辅助的即时通信方法及系统不仅提供了文本信息，更融入了即时通信内容对应的视觉信息，同时将机器翻译模块整合其中。当不同母语的用户使用本系统时，系统将给出机器翻译结果和对应视觉信息。文本信息传递抽象概念，视觉信息传递形象概念，通过两者的互补，帮助用户更好地表达自己，理解对方。

此外，人们经常会需要去查询过去的即时通信记录。相比于传统的实时信息服务，人们必须逐条查询，本发明的即时通信记录以图文并茂的形式存在，人们只需一看记录的视觉信息，便能更快唤醒过去的回忆。

附图说明

图1是本发明所提出的视觉信息辅助的即时通信方法及系统的结构框图。

图2是图片标签及图片视觉显著度检测的示意图。

图3是一些常用的排布模板示意图。

图4是根据本发明实施例的一个图片排布的示例图。

图5是根据本发明实施例的即时通信界面示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

在本发明中，首先离线建立一个大规模的图片数据库。对于易于用图片表达的概念，其对应图片由图片共享网站Flickr自动抓取，并利用基于聚类的方法对图片进行聚类。对于某些不易用图片表达，但极为重要的抽象概念，采取人工标注的方式标注一些图片。

图1为本发明所提出的视觉信息辅助的即时通信方法及系统的结构框图。如图1所示，所述视觉信息辅助的即时通信系统包括四个模块：图片数据库构建模块、对话分析模块、代表性图片选择模块和视觉排布模块。

图片数据库构建模块先构建图片数据库。在用户利用本系统进行交流的过程中，首先，系统的对话分析模块根据用户输入的文本信息提取语义关键词，分析得出关键词之间的语法关系，并将关键词和语法关系分别发送给代表性图片选择模块和视觉排布模块。基于对话分析模块获得的关键词，代表性图片选择模块利用上下文线索和图片的显著度从离线建立的图片数据库选择代表性图片，并将代表性图片发送给图片的视觉排布模块。在视觉排布阶段，视觉排布模块利用关键词之间的语法关系，将代表性图片进行合理排布，从而形成一个有逻辑的有机整体，称之为视觉信息。最后，视觉信息和文本信息一同传递给对方用户。

本系统整合了自然语言处理，图片处理，检索技术等多种技术。

如图1所示，本发明所提出的视觉信息辅助的即时通信方法包括以下步骤：

步骤1，构建图片数据库；

为了满足即时通信实时性的要求，需要离线建立一个大规模的图片数据库。该数据库包括两部分：一部分对应于不易于用图片直接代表的抽象概念，包括部分固定短语、形容词和动词，比如“大”，“小”。这些概念很难自动找到合适的图片，但在表达语句意思时往往非常重要，于是，使用人工标注这类概念。这里着重介绍数据库自动构建的部分，此部分针对大多数比较易于用图片表达的概念。

在自动构建图片数据库的过程中，所面临的最大问题是概念的多义性。一个简单的例子，“pitcher”有两个完全不同的意思，一个意思是棒球中的投掷者，另一个意思则是水壶。为了区分词语的多义性，本发明采用基于语义和视觉特征的聚类来将图片自动聚类成若干语义明确的子类。

对一个关键词Q，利用图片分享网站Flickr提供的应用程序编程接口(Application Programming Interface，简称API)下载若干幅图片及其对应的标签。标签是用户用以描述图片的词或词组。所有下载的图片形成一个初始图片集合

所有得到的标签形成一个初始标签集合

值得指出的是，

中很多标签可能会重复出现。

本发明将构筑语义特征空间和视觉特征空间，来呈现每幅图的语义和视觉特征，进而采用AP聚类(affinity propagation)算法对图片进行聚类。为了构筑语义特征空间，需要从初始标签集合

中提取出一个子集

子集

中包含k个和关键词Q最为语义相关的标签。

两种度量值被用于度量标签和关键词的语义关联程度：Google距离(Normalized Google Distance，简写NGD)和改进的词频率-逆文本频率值(Modified Term Frequency-Inverse Document Frequency，简称改进的TF-IDF)。

NGD的定义如下：

NGD (T, Q) = \frac{\max (\log (M (Q)), \log (M (T))) - \log (M (Q, T))}{\log (M) - \min (\log (M (Q)), \log (M (T)))} - - - (1)

其中，M(Q)，M(T)和M(Q，T)分别代表搜索引擎返回的分别包含Q、T以及同时包含Q和T的页面数，M是搜索引擎收录的总页面数。NGD值越小，代表标签T和关键词Q越语义相关。

改进的TF-IDF值的定义如下：

TFIDF (T, Q) = {freq}_{Q} (T) \times \log (\frac{N}{N (T)}) - - - (2)

不同于传统的TF-IDF，其中，freq_Q(T)为标签T在初始标签集合

中出现的频率，而不是一个词在文档中出现的频率。N是Flickr中的总图片数，N(T)则是Flickr中带有标签T的图片数。改进的TF-IDF值越大，则代表两者语义越相关。

最后语义相关度Closeness由NGD和改进的TF-IDF线性加权所得：

Closeness(T，Q)＝αTFIDF(T，Q)+βf(NGD(T，Q))，

其中，f(·)是一个单调递减函数，α和β是权重系数，这里均设为0.5。

根据语义相关度Closeness可以选取k个和关键词Q最为语义相关的标签形成

词向量被用来表征图片的语义空间。如公式(3)所示，每一个

中的标签对应于词向量的一维。

中的第g个标签若被用以标注图片I，则该词向量的第g维置为标签和关键词的语义相关度，否则的话为0。从而每一张在集合中的图片I都对应了一个k维的词向量特征V_s(I)。

至此，每一张图片的语义特征提取完毕，图片之间的语义相似度Sim_s可由余弦相似度来度量。

{Sim}_{s} (I_{1}, I_{2}) = Σ_{g = 0}^{k} V_{s}^{(g)} (I_{1}) \times V_{s}^{(g)} (I_{2}) - - - (4)

即图I₁和图I₂的语义相似度是其对应每一维的特征乘积的总和。视觉特征空间由全局特征和局部特征共同构成。225维网格颜色矩(grid colormoments)，75维边缘直方图(edge distribution histogram)以及200维尺度不变特征转换(Scale-invariant feature transform，简称SIFT)词袋(bagof words)共同构成视觉特征V_v。

图片间的视觉相似度Sim_v由公式

计算，控制参数σ此处设为1。

将语义相似度Sim_s与视觉相似度Sim_v线性加权，从而得到图片之间终的相似度Sim。

Sim＝αSim_s+βSim_v (5)

此处加权因子α为0.8，β为0.2。

基于图片之间最终的相似度Sim，利用AP聚类算法对图片进行聚类，从而获得语义明确的若干图片子类。AP(Affinity Propagation)聚类算法是近年在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度可以进行有效的聚类。

步骤2，对话分析，即根据用户输入的文本信息提取语义关键词，分析得出关键词之间的语法关系；

当用户开始交流，文本信息被输入对话分析模块。对话分析模块主要肩负两项任务：语义关键词的提取和词之间语法关系的分析。

语义关键词反映了用户交流的内容，其将被作为查询词去图片数据库检索其对应的代表性图片；语法关系呈现了词与词之间的依存关系，将作为图片视觉排布的依据。

本系统采用斯坦福大学的自然语言处理工具Stanford Parser来进行词性标注和语法关系分析。Stanford Parser是一个概率自然语言处理的Java工具包。输入对话内容，经过处理即可得到对话内容的词性标注和语法关系标注。

为了简便起见，本发明仅选择代词，名词，形容词和动词作为语义关键词。因为这些词富含信息，并往往在句子中起关键作用。在语法关系方面，重点关注八种语法关系，分别是形容词修饰关系(adjectival modifier)，连词连接关系(conjunct)，直接宾语(direct object)，间接宾语(indirectobject)，否定关系(negation modified)，主谓主从关系(nominal subject)，所有格(possession modified)和介词短语修饰关系(prepositional modifier)。这些关系是语句中经常出现并非常重要的关系，关系涉及的对象为代词，名词，形容词和动词。

步骤3，代表性图片选择，即基于提取出的关键词，利用上下文语义线索和图片的显著度从图片数据库选择吻合即时通信上下文的语境的代表性图片；

代表性图片选择模块的输入为对话分析模块获得的语义关键词Q。本模块的输出是，对离线数据库中对关键词Q来说，最为合适的代表性图片。所谓代表性图片，需要最大程度上吻合即时通信上下文的语境。对于不易用图片直接代表的抽象概念，直接在人工标注的图库内搜索。对于其他可直接用图片代表的概念，则采用一种两步方法来寻找合适的代表性图片。

第一步，确定正确的图片子类。正如在图片数据库构建中所述，利用语义和视觉特征，图片被聚类成若干语义明确的图片子类。每一图片子类代表该关键词某一方面的含义。而该步骤需要从众多子类中挑选出最吻合上下文语境意思的子类。选择子类的依据是上下文语义线索。所谓的上下文语义线索即在同一句或上一句对话中的语义关键词。

首先，利用Flickr相关标签功能，将上下文语义线索扩展成一组语义相关的标签。然后将获得的这组标签投映到语义特征空间，从而得到上下文语义的特征呈现：k维的向量V_s(context)，其中

每一个图片子类的语义特征由类内图片语义特征的均值V_s(sub-cluster)来呈现。

V_{s} (sub - cluster) = \frac{Σ_{I &Element; sub - cluster} V_{s} (I)}{| sub - cluster |} - - - (7)

利用计算语义相似度Sim_s的余弦相似度计算公式(4)计算上下文语义线索和各个语义子类中心的语义相似度Sim_s(context，sub-cluster)：

{Sim}_{s} (context, sub - cluster) = Σ_{g = 0}^{k} V_{s}^{(g)} (context) \times V_{s}^{(g)} (sub - cluster) - - - (8)

选中语义相似度最大的图片子类作为候选的图片子类。

第二步，利用视觉特征和标签信息，从选定的图片子类中选择最显著的图片作为代表性图片。

代表性图片不仅仅要求准确，即被代表的概念需要出现在代表性图片中，而且还有显著性的要求。所谓显著性，就是要求图片所代表的概念需要在图片中占据鲜明的主体地位。选取正确的图片子类已经确保了概念在图片中出现，因此，该步骤主要是利用视觉特征和标签信息来确保图片的显著性。

直观上来说，对象在图片中占据的面积越大，则越显著。首先利用CVPR11提出的一种基于全局对比的显著性区域检测算法(Global contrastbased salient region detection)侦测第一步得到的图片子类中图片的显著性区域，然后利用以下公式来计算图片的视觉显著度Sal_v：

{Sal}_{v} = \frac{{Area}_{salient}}{{Area}_{total}} - - - (9)

其中，Area_salient是显著性区域的面积，Area_total是图片的总面积。

标签是另一种可以用于测评显著性的资源。如图2所示，图片的Sal_v值显然比较大，但是此图片并非是一张好的苹果的代表性图片。不难发现，这张图片的标签中除了“apple”和“fruit”以外，都是和苹果无关的标签。所以，可以采用图片标签集

中的各标签语义和关键词Q的一致性

来测评图片的显著性。

其中，是

集合中元素的个数。

基于标签的语义显著度为：

Sal_s＝f(AveNGD) (11)

其中，f(·)是一个单调递减函数。

代表性图片总的显著度由Sal_v和Sal_s的线性加权获得。

Sal＝αSal_v+βSal_s (12)

此处加权因子α取为0.3，β取为0.7。

最后，选取显著度Sal最大的图片作为代表性图片输出，用于表征关键词Q的概念。

步骤4，图片的视觉排布，即利用关键词之间的语法关系，合理排布代表性图片，形成视觉信息，并连同所述文本信息一同传递给对方用户

视觉排布模块有两项输入：对话的语法关系和对话中关键词对应的代表性图片。前者是对话分析模块的输出，后者是代表性图片选择模块的输出。

代表性图片仅仅是呈现了一些孤立的概念的语义，而没有形成一个整体的有逻辑的意思。图片的视觉排布，就是以一句话为单位，将这些孤立的代表性图片进行有效组合排布，从而形成直观的视觉信息，来代表这句话的整体意思。

一个有效的排布不仅要求意思直观形象，而且要求便于计算机合成。基于以上考虑，本发明提出一种基于模板的视觉排布方法。图3所示是本发明部分常用模板。其中模板是依据常见的语法关系而设计的。对于本系统，只需根据在对话分析中获得的词之间的语法关系，把获得的对应代表性图片置入模板；然后根据不同模板之间的共享部分依次连接即可。如果没有共享部分，则根据语序关系依次排列。

一个简单的排布过程示例如图4所示。输入对话为“他用望远镜看星星”。经过对话分析模块分析，获得关键词“他”、“看”、“星星”、“望远镜”，以及它们之间的语法依存关系：“他”和“看”是主谓关系；“看”和“星星”是直接宾语关系；“星星”和“望远镜”是介词修饰关系。各个关键词的代表性图片由代表性图片选择模块获得。进入图片排布阶段，两两图片对置入对应的模板，再根据图片的共享部分一次连接。

至此，系统获得了对话语句的视觉信息。视觉信息连同文本信息(对于不同语言的用户，则是机器翻译结果)将共同传送给即时通信对象，从而为双方提供一个更生动，形象，有趣的交流体验。

图5是根据本发明实施例的即时通信界面示意图。从图5中可以看出，本发明以简洁的形式提供了视觉和文本信息。本发明的即时通信界面分为两个部分，左边为视觉信息展示界面，展示当前即时通信语句产生的视觉信息，右边为文本信息展示界面。不同于传统即时通信系统的文本展示界面，本发明将机器翻译模块整合其中，对于不同母语的用户，机器翻译的结果和视觉信息的整合将为他们的交流提供极大的帮助。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视觉信息辅助的即时通信方法，其特征在于，该方法包括以下步骤：

步骤1，构建图片数据库；

2.根据权利要求1所述的方法，其特征在于，构建图片数据库时，使用人工标注不易于用图片直接代表的抽象概念，对于易于用图片表达的概念，自动构建图片数据库。

3.根据权利要求2所述的方法，其特征在于，自动构建图片数据库时，为了区分词语的多义性，采用基于语义和视觉特征的聚类来将图片自动聚类成若干语义明确的子类。

4.根据权利要求3所述的方法，其特征在于，根据以下步骤得到语义特征V_s(I)：

首先，对一个关键词Q，下载若干幅图片及其对应的标签，所有下载的图片形成一个初始图片集合

所有得到的标签形成一个初始标签集合

然后，从所述初始标签集合

中提取出一个子集

子集

中包含k个和关键词Q最为语义相关的标签；

最后，基于标签与关键词的语义关联程度，构造初始图片集合

中任一幅图片I的k维语义特征V_s(I)：

其中，

为用以标注图片I的、

中的第g个标签，

为标签

与关键词Q的语义关联程度。

5.根据权利要求4所述的方法，其特征在于，标签和关键词的语义关联程度Closeness由Google距离NGD和改进的词频率-逆文本频率值TF-IDF线性加权得到：

Closeness(T，Q)＝αTFIDF(T，Q)+βf(NGD(T，Q))，

其中，f(·)是一个单调递减函数，α和β为权重系数，改进的词频率-逆文本频率值

TFIDF (T, Q) = {freq}_{Q} (T) \times \log (\frac{N}{N (T)}),

freq_Q(T)为标签T在初始标签集合

中出现的频率，N为总图片数，N(T)为带有标签T的图片数，Google距离

NGD (T, Q) = \frac{\max (\log (M (Q)), \log (M (T))) - \log (M (Q, T))}{\log (M) - \min (\log (M (Q)), \log (M (T)))},

M(Q)，M(T)和M(Q，T)为搜索引擎返回的分别包含Q、T以及同时包含Q和T的页面数，M是搜索引擎收录的总页面数。

6.根据权利要求3所述的方法，其特征在于，所述视觉特征V_v包括：225维网格颜色矩、75维边缘直方图和200维尺度不变特征转换词袋。

7.根据权利要求1所述的方法，其特征在于，所述基于语义和视觉特征的聚类来将图片自动聚类成若干语义明确的子类进一步为基于图片之间的相似度Sim，利用AP聚类算法对图片进行聚类，从而获得语义明确的若干图片子类，其中，

Sim＝αSim_s+βSim_v，

Sim_s为图片之间的语义相似度：

{Sim}_{s} (I_{1}, I_{2}) = Σ_{g = 0}^{k} V_{s}^{(g)} (I_{1}) \times V_{s}^{(g)} (I_{2}),

(I₁)为图片I₁的语义特征，

(I₂)为图片I₂的语义特征，k为与关键词Q最为语义相关的标签的个数，Sim_v为图片之间的视觉相似度：

V_v(I1)为图片I₁的视觉特征，V_v(I₂)为图片I₂的视觉特征，σ为控制参数，α和β为加权因子。

8.根据权利要求1所述的方法，其特征在于，所述语义关键词包括代词、名词、形容词和动词；所述语法关系包括：形容词修饰关系、连词连接关系、直接宾语、间接宾语、否定关系、主谓主从关系、所有格和介词短语修饰关系。

9.根据权利要求1所述的方法，其特征在于，对于不易用图片直接代表的抽象概念，直接在人工标注的图库内搜索所需要的代表性图片；对于其他可直接用图片代表的概念，采用两步方法来寻找合适的代表性图片，其中所述两步方法为：

第一步，根据上下文语义线索：在同一句或上一句对话中的语义关键词，确定最吻合上下文语境的图片子类；

10.根据权利要求9所述的方法，其特征在于，所述第一步进一步包括：

首先，将上下文语义线索扩展成一组语义相关的标签；

然后，将获得的这组标签投映到语义特征空间，得到上下文语义线索的特征呈现：k维的向量V_s(context)，其中，

为标签

与关键词Q的语义关联程度，为用以标注图片I的标签子集

中的第g个标签，所述标签子集

中包含k个与关键词Q最为语义相关的标签；

然后，计算上下文语义线索与各个语义子类中心的语义相似度Sim_s(context，sub-cluster)；

最后，选择语义相似度最大的图片子类作为候选的图片子类。

11.根据权利要求9所述的方法，其特征在于，所述第二步进一步包括：

首先侦测第一步得到的图片子类中图片的显著性区域；

然后计算图片的视觉显著度Sal_v：

{Sal}_{v} = \frac{{Area}_{salient}}{{Area}_{total}},

其中，Area_salient是显著性区域的面积，Area_total是图片的总面积；

然后计算基于标签的语义显著度：

Sal_s＝f(AveNGD)，

其中，f(·)是一个单调递减函数，

为图片标签集

中的各标签语义和关键词Q的一致性；

然后计算图片总的显著度Sal：

Sal＝αSal_v+βSal_s，

其中，α和β为加权因子；

最后，选取显著度Sal最大的图片作为代表性图片。

12.一种视觉信息辅助的即时通信系统，其特征在于，该系统包括：图片数据库构建模块、对话分析模块、代表性图片选择模块和视觉排布模块，其中，

所述图片数据库构建模块，用于构建图片数据库；