CN103559193A - 一种基于选择单元的主题建模方法 - Google Patents

一种基于选择单元的主题建模方法 Download PDF

Info

Publication number
CN103559193A
CN103559193A CN201310410816.7A CN201310410816A CN103559193A CN 103559193 A CN103559193 A CN 103559193A CN 201310410816 A CN201310410816 A CN 201310410816A CN 103559193 A CN103559193 A CN 103559193A
Authority
CN
China
Prior art keywords
word
theme
fragment structure
chooser
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310410816.7A
Other languages
English (en)
Other versions
CN103559193B (zh
Inventor
汤斯亮
张寅�
王翰琪
鲁伟明
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310410816.7A priority Critical patent/CN103559193B/zh
Publication of CN103559193A publication Critical patent/CN103559193A/zh
Application granted granted Critical
Publication of CN103559193B publication Critical patent/CN103559193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于选择单元的主题建模方法,包括如下步骤:根据查询请求提取数据库中的搜索结果包含的单词、片段结构和单词特征;确定建模采用的主题数;随机分配产生各个片段结构主题、单词主题及二元选择子;通过Gibbs采样过程迭代地确定上述变量;根据上述变量的最终分配结果向用户反馈各个主题中的显著文档和单词,以及具有各种特征的单词表达其所在片段结构的主题的能力。本发明具有的有益效果有:可同时在多种模态数据上进行主题建模;充分利用了数据隐含的结构信息,并消除了结构限制过强的不利效果;可提供文档中单词特征与片段结构限制之间的关联度等信息,为用户在理解数据上提供帮助;具有良好的可扩展性,可作为多种应用的算法基础。

Description

一种基于选择单元的主题建模方法
技术领域
本发明涉及多媒体检索,尤其涉及一种基于选择单元的主题建模方法。 
背景技术
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样模态的多媒体数据,如新闻,图片,以及声音和视频等越来越多。飞速增长的多媒体数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外,也带来了如何对大规模数据进行自动文档聚类的挑战。为了应对这一挑战,许多多媒体检索及整合应用在其核心算法中使用了非监督层次化贝叶斯模型(或称主题模型),如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容(相当于为文档加上了诸如“体育”、“社会”等一个或多个类别标签,而不是提供词的频数统计),而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。 
LDA等经典主题模型的一个核心假设是对文档的BoW表达(词袋表达)。这种表达方式假设每篇文档中词与词之间没有关联,并且相互之间的位置可互换。BoW假设在数学上易于推导,为主题模型带来了计算上的方便和处理数据时的快捷。然而,这样的假设实际上是过于简单的,因为文档中的一些单词(或图片中的视觉单词)受其外部的片段结构(如文本中的句子或段落,以及图片中的区域等)限制,是不能与所属片段结构之外的单词相互交换的。作为对传统主题建模方法的改进,一些应用转而采用较新提出的模型,如LDCC及Spatial-LTM等,开始在对文本、图像等离散型数据的归纳整合中将文档与词之间的片段结构(如前文所述的语句或图像区域等)作为对词分配主题时的结构限制而纳入建模过程。然而,这些模型一般对(视觉)单词施加过强的结构限制,认为其必须服从于所属片段结构的主题,而不考虑该单词表达其他主题或是噪声的可能性。因此,根据(视觉)单词本身的特征对其 选择性地施加结构限制,从而使整体算法以及采用算法的应用能够更加适应现实中的多媒体数据是主题建模领域研究的新方向。 
发明内容
本发明的目的是克服现有技术的不足,提供一种基于选择单元的主题建模方法。 
基于选择单元的主题建模方法包括如下步骤: 
1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果; 
2.如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征; 
3.根据系统自动设定或用户指定的参数,确定建模采用的主题数T; 
4.对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题; 
5.对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题; 
6.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上; 
7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子; 
8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息; 
9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。 
所述的提取文本数据中单词、片段结构和单词特征的步骤如下: 
1.采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构; 
2.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征; 
3.去除其中无用的高频词以及频数过低的生僻词; 
4.统计处理后文本中所有出现过的词,组成词汇表。 
所述的提取图片数据中视觉单词、片段结构和视觉单词特征的步骤如下: 
1.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合; 
2.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词; 
3.采用图像分割和人工标注手段提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构; 
4.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。 
所述的通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子的步骤如下: 
1.由系统自动设定,或者由用户指定Dirihlet分布的参数α与β,以及Beta分布参数γ,并且设定好迭代次数、收敛条件等参数; 
2.对于每个文档d,统计各个主题k上的单词主题数ndk与片段结构主题数ldk; 
3.对于每个主题k,统计所有单词中实际分配到其上的频数nkv; 
4.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1; 
5.对于每个文档d中的每个片段结构l,统计其中各相同单词v的集合中对应二元选择子的值为1的词的数量Rdlv,以及它们之和Rdl; 
6.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下: 
p = ( z dli = k | Φ - z dli , Ψ ) ∝ ( α k + n dk + l dk ) β v + n kv Σ v = 1 V β v + n kv
7.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下: 
p ( π dli = 0 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n z dli v Σ v = 1 V ( β v + n z dli v )
p ( π dli = 1 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n s dl v Σ v = 1 V ( β v + n s dl v )
8.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下: 
p ( s dl = k | Φ - s dl , Ψ ) ∝ ( α k + n dk + l dk ) Π v = 1 V Π x = 1 R dlv ( β v + n kv + x - 1 ) Π y = 1 R dl ( Σ v = 1 V ( β v + n kv ) + y - 1 )
9.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1; 
10.算法满足收敛条件后,输出所有的单词主题z、片段结构主题s和二元选择子π。 
所述的根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息的步骤如下: 
1.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数的分量θdk和φkv的公式如下: 
θ ^ dk = n dk + l dk Σ k n dk + l dk , φ ^ kv = n kv Σ v n kv
2.对于每个主题k,根据
Figure BDA0000379975720000035
值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序; 
3.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档或图片和最有代表性的单词,并整理成可视化图表; 
4.将整理好的图表反馈给用户。 
所述的根据选择子最终分配结果向用户反馈具有各种特征的单词表达其所在片段结构的主题的能力的步骤如下: 
1.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数的分量λt0和λt1的公式如下: 
λ ^ t 0 = c t 0 c t 0 + c t 1 , λ ^ t 1 = c t 1 c t 0 + c t 1
2.将各个特征t的参数估计值
Figure BDA0000379975720000042
作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表; 
3.将处理好的图表反馈给用户。 
本发明与现有技术相比具有的有益的效果: 
1.本发明使用了一种基于LDA的主题建模算法,对比采用传统算法的主题挖掘、整合类型的应用,本发明能够同时在文本、图像及其他模态的多媒体数据上进行主题建模,并且充分利用了数据中可能存在的结构信息和特征信息(如文本数据中的语句、段落、单词词性以及图像数据中的区域轮廓、物体标签等),消除了LDA等传统方法中BoW假设的缺陷。 
2.本发明在文档中单词的主题分配上结合了语句、图像区域等片段结构性限制,并且引入了指明单词主题是否服从所属片段结构的选择子和用于以不同概率产生选择子的单词特征,消除了结构性限制过强可能产生的不利因素,并且更加符合现实中单词主题与所属片段结构主题之间的联系,在实验中较传统主题模型有更好的聚类效果。 
3.相比于已有的主题建模应用,本发明能够提供文档中单词特征与片段结构限制之间的关联度等信息,为用户在理解数据及已建模数据的后续处理提供帮助。 
4.本发明具有良好的可扩展性,以本发明的核心算法为基础,配合回归、时域主题等方法或思想,可以开发多媒体数据分类、文档主题演化与跟踪等多种应用。 
附图说明
图1是本发明所使用的核心主题建模算法的概率图模型表达,方框从外到内分别代表各个文档、文档中的各个片段结构和片段结构中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征),无色圆圈代表隐含的中间变量,黑点代表需要设置的超参数。 
图2是本发明用于图像数据建模的效果实例及与传统方法的对比,图像上的标记代表其是否被聚集到了正确的类上。 
图3是本发明中检测不同特征单词对所属片段结构主题的反映能力的实例。 
具体实施方式
基于选择单元的主题建模方法包括如下步骤: 
1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果; 
2.如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征; 
3.根据系统自动设定或用户指定的参数,确定建模采用的主题数T; 
4.对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题; 
5.对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题; 
6.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上; 
7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子; 
8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息; 
9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。 
所述的提取文本数据中单词、片段结构和单词特征的步骤如下: 
1.采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构; 
2.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征; 
3.去除其中无用的高频词以及频数过低的生僻词; 
4.统计处理后文本中所有出现过的词,组成词汇表。 
所述的提取图片数据中视觉单词、片段结构和视觉单词特征的步骤如下: 
1.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合; 
2.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词; 
3.采用图像分割和人工标注手段提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构; 
4.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。 
所述的通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子的步骤如下: 
1.由系统自动设定,或者由用户指定Dirihlet分布的参数α与β,以及Beta分布参数γ,并且设定好迭代次数、收敛条件等参数; 
2.对于每个文档d,统计各个主题k上的单词主题数ndk与片段结构主题数ldk; 
3.对于每个主题k,统计所有单词中实际分配到其上的频数nkv; 
4.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1; 
5.对于每个文档d中的每个片段结构l,统计其中各相同单词v的集合中对应二元选择子的值为1的词的数量Rdlv,以及它们之和Rdl; 
6.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下: 
p = ( z dli = k | Φ - z dli , Ψ ) ∝ ( α k + n dk + l dk ) β v + n kv Σ v = 1 V β v + n kv
7.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下: 
p ( π dli = 0 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n z dli v Σ v = 1 V ( β v + n z dli v )
p ( π dli = 1 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n s dl v Σ v = 1 V ( β v + n s dl v )
8.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下: 
p ( s dl = k | Φ - s dl , Ψ ) ∝ ( α k + n dk + l dk ) Π v = 1 V Π x = 1 R dlv ( β v + n kv + x - 1 ) Π y = 1 R dl ( Σ v = 1 V ( β v + n kv ) + y - 1 )
9.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1; 
10.算法满足收敛条件后,输出所有的单词主题z、片段结构主题s和二元选择子π。 
所述的根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息的步骤如下: 
1.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数的分量θdk和φkv的公式如下: 
θ ^ dk = n dk + l dk Σ k n dk + l dk , φ ^ kv = n kv Σ v n kv
2.对于每个主题k,根据
Figure BDA0000379975720000065
值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序; 
3.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档或图片和最有代表性的单词,并整理成可视化图表; 
4.将整理好的图表反馈给用户。 
所述的根据选择子最终分配结果向用户反馈具有各种特征的单词表达其所在片段结构的主题的能力的步骤如下: 
1.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数的分量λt0和λt1的公式如下: 
λ ^ t 0 = c t 0 c t 0 + c t 1 , λ ^ t 1 = c t 1 c t 0 + c t 1
2.将各个特征t的参数估计值
Figure BDA0000379975720000072
作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表; 
3.将处理好的图表反馈给用户。 
实施例1 
以用户提交文本类型查询“NYT+CNN”为例,本发明在数据库中处理该查询的步骤如下: 
1.在多媒体数据库中搜索到发布媒体为NYT和CNN的全部新闻,提取搜索结果中的文字; 
2.采用自然语言处理工具对文档进行分句,以得到的语句作为数据的片段结构; 
3.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征; 
4.去除其中无用的高频词以及频数过低的生僻词; 
5.统计处理后文本中所有出现过的词,组成词汇表。 
6.根据数据涵盖的数据集,确定主题数为20; 
7.对于数据集包含的每个语句,随机地分配20个主题中的一个作为语句的主题; 
8.对于数据集包含的每个单词,随机地分配20个主题中的一个作为单词主题; 
9.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,该选择子用于指定1该单词被分配到其所属语句的主题或是其自身的主题上; 
10.对于每个文档d,统计各个主题k上的单词主题数ndk与语句主题数ldk; 
11.对于每个主题k,统计所有单词中实际分配到其上的频数nkv; 
12.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1; 
13.对于每个文档d中的每个语句l,统计各单词v中对应二元选择子的值为1的数量Rdlv,以及它们之和Rdl; 
14.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下: 
p = ( z dli = k | Φ - z dli , Ψ ) ∝ ( α k + n dk + l dk ) β v + n kv Σ v = 1 V β v + n kv
15.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下: 
p ( π dli = 0 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n z dli v Σ v = 1 V ( β v + n z dli v )
p ( π dli = 1 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n s dl v Σ v = 1 V ( β v + n s dl v )
16.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下: 
p ( s dl = k | Φ - s dl , Ψ ) ∝ ( α k + n dk + l dk ) Π v = 1 V Π x = 1 R dlv ( β v + n kv + x - 1 ) Π y = 1 R dl ( Σ v = 1 V ( β v + n kv ) + y - 1 )
17.完成上述更新过程后检查算法是否满足收敛条件或是否完成1000次迭代,未满足则返回步骤10; 
18.输出所有的单词主题z、片段结构主题s和二元选择子π; 
19.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数θdk和φkv的公式如下: 
θ ^ dk = n dk + l dk Σ k n dk + l dk , φ ^ kv = n kv Σ v n kv
20.对于每个主题k,根据
Figure BDA0000379975720000085
值由高至低对各个文档d排序,并根据
Figure BDA0000379975720000086
的大小由高至低对各个单词v排序; 
21.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档和最有代表性的单词,并整理成可视化的图表; 
22.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数λt0和λt1的公式如下: 
λ ^ t 0 = c t 0 c t 0 + c t 1 , λ ^ t 1 = c t 1 c t 0 + c t 1
23.将各个特征t的参数估计值
Figure BDA0000379975720000088
作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表; 
24.将所有整理好的图表反馈给用户。 
本发明用于文本数据建模的实际效果及与传统方法的对比如下表所示。各个主题的代表单词是按其在主题内的比例由高至低排列的(具体比例列在单词右侧)。可以看到本发明较传统算法提供了对主题更完善的描述。 
Figure BDA0000379975720000091
实施例2 
以用户提交图像类型查询“LabelMe+MSRC”为例,本发明在数据库中处理该查询的步骤如下: 
1.在多媒体数据库中搜索到LabelMe和MSRC v2两个图像数据集,提取搜索结果中的图片; 
2.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合; 
3.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词; 
4.利用已有标注提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构; 
5.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。 
6.根据数据涵盖的数据集,确定LabelMe建模主题数为15,MSRC v2为20; 
7.对于数据集包含的每个区域,随机地分配所有主题中的一个作为区域的主题; 
8.对于数据集包含的每个视觉单词,随机地分配所有主题中的一个作为视觉单词主题; 
9.对于数据集包含的每个视觉单词,随机地分配一个0-1二元选择子,该选择子用于指定该视觉单词被分配到其所属区域的主题或是其自身的主题上; 
10.对于每张图片d,统计各个主题k上的视觉单词主题数ndk与区域主题数ldk; 
11.对于每个主题k,统计所有视觉单词中实际分配到其上的频数nkv; 
12.对于带有特征t的视觉单词,统计其对应的二元选择子为0或为1的频数ct0和ct1; 
13.对于每个文档d中的每个语句l,统计各视觉单词v中对应二元选择子的值为1的数量Rdlv,以及它们之和Rdl; 
14.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个视觉单词主题zdli,其所有可能值的概率如下: 
p = ( z dli = k | Φ - z dli , Ψ ) ∝ ( α k + n dk + l dk ) β v + n kv Σ v = 1 V β v + n kv
15.采样图片d的区域l中第i个选择子πdli,其值为0和1的概率分别如下: 
p ( π dli = 0 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n z dli v Σ v = 1 V ( β v + n z dli v )
p ( π dli = 1 | Φ - π dli , Ψ ) ∝ ( γ b + c t dli 0 ) β v + n s dl v Σ v = 1 V ( β v + n s dl v )
16.对于采样图片d中区域l的主题sdl,其所有可能值的概率如下: 
p ( s dl = k | Φ - s dl , Ψ ) ∝ ( α k + n dk + l dk ) Π v = 1 V Π x = 1 R dlv ( β v + n kv + x - 1 ) Π y = 1 R dl ( Σ v = 1 V ( β v + n kv ) + y - 1 )
17.完成上述更新过程后检查算法是否满足收敛条件或是否完成1000次迭代,未满足则返回步骤10; 
18.输出所有的视觉单词主题z、区域主题s和二元选择子π; 
19.设各个主题在图片d中的比例为多项分布θd,各个视觉单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数θdk和φkv的公式如下: 
θ ^ dk = n dk + l dk Σ k n dk + l dk , φ ^ kv = n kv Σ v n kv
20.对于每个主题k,根据
Figure BDA0000379975720000106
值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序; 
21.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的图片和最有代表性的视觉单词,并整理成可视化的图表; 
22.设值为0和1的二元选择子对应具有特征t的视觉单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数λt0和λt1的公式如下: 
λ ^ t 0 = c t 0 c t 0 + c t 1 , λ ^ t 1 = c t 1 c t 0 + c t 1
23.将各个特征t的参数估计值作为具备其特征的视觉单词反映所属区域蕴含的主题的能力,并整理成可视化图表; 
24.将所有整理好的图表反馈给用户。 
图2是上述图片查询、建模的实际运行结果,以及它们同传统主题建模方法LDA的效果对比。 
可以看到本发明的实际建模和聚类效果要好于传统方法。图3是在上述实例处理完成后得到的不同特征单词对所属片段结构主题的反映能力比较图。可以看到文本中的名词、动词反映语句整体主题的能力较高,图像中不同的物体反映其区域主题的能力也大相径庭。 

Claims (6)

1.一种基于选择单元的主题建模方法,其特征在于包括如下步骤: 
1)根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果; 
2)如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征; 
3)根据系统自动设定或用户指定的参数,确定建模采用的主题数T; 
4)对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题; 
5)对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题; 
6)对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上; 
7)通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子; 
8)根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息; 
9)根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。 
2.根据权利要求1所述的一种基于选择单元的主题建模方法,其特征在于所述的提取搜索到的文本数据中的单词、片段结构和单词特征的步骤如下: 
1)采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构; 
2)采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征; 
3)去除其中无用的高频词以及频数过低的生僻词; 
4)统计处理后文本中所有出现过的词,组成词汇表。 
3.根据权利要求1所述的一种基于选择单元的主题建模方法,其特征在于所述的提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征的步骤如下: 
1)使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合; 
2)将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词; 
3)采用图像分割和人工标注手段提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构; 
4)对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。 
4.根据权利要求1所述的一种基于选择单元的主题建模方法,其特征在于所述的通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子的步骤如下: 
1)由系统自动设定,或者由用户指定Dirihlet分布的参数α与β,以及Beta分布参数γ,并且设定好迭代次数、收敛条件等参数; 
2)对于每个文档d,统计各个主题k上的单词主题数ndk与片段结构主题数ldk; 
3)对于每个主题k,统计所有单词中实际分配到其上的频数nkv; 
4)对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1; 
5)对于每个文档d中的每个片段结构l,统计其中各相同单词v的集合中对应二元选择子的值为1的词的数量Rdlv,以及它们之和Rdl; 
6)令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下: 
Figure RE-FDA0000409236490000021
式中,符号“-”代表从向量中排除一个分量,下文中符号用法相同; 
7)采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下: 
Figure RE-FDA0000409236490000022
Figure RE-FDA0000409236490000023
8)采样文档d中片段结构l的主题sdl,其所有可能值的概率如下: 
Figure RE-FDA0000409236490000031
9)完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1; 
10)算法满足收敛条件后,输出所有的单词主题z、片段结构主题s和二元选择子π。 
5.根据权利要求1所述的一种基于选择单元的主题建模方法,其特征在于所述的根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息的步骤如下: 
1)设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数的分量θdk和φkv的公式如下: 
Figure FDA0000379975710000025
2)对于每个主题k,根据
Figure FDA0000379975710000031
值由高至低对各个文档d排序,并根据
Figure FDA0000379975710000032
的大小由高至低对各个单词v排序; 
3)根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档或 
图片和最有代表性的单词,并整理成可视化图表; 
4)将整理好的图表反馈给用户。 
6.根据权利要求1所述的一种基于选择单元的主题建模方法,其特征在于所述的根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力的步骤如下: 
1)设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数的分量λt0和λt1的公式如下: 
Figure FDA0000379975710000033
2)将各个特征t的参数估计值
Figure FDA0000379975710000034
作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表; 
3)将处理好的图表反馈给用户。 
CN201310410816.7A 2013-09-10 2013-09-10 一种基于选择单元的主题建模方法 Active CN103559193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310410816.7A CN103559193B (zh) 2013-09-10 2013-09-10 一种基于选择单元的主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310410816.7A CN103559193B (zh) 2013-09-10 2013-09-10 一种基于选择单元的主题建模方法

Publications (2)

Publication Number Publication Date
CN103559193A true CN103559193A (zh) 2014-02-05
CN103559193B CN103559193B (zh) 2016-08-31

Family

ID=50013440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310410816.7A Active CN103559193B (zh) 2013-09-10 2013-09-10 一种基于选择单元的主题建模方法

Country Status (1)

Country Link
CN (1) CN103559193B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317837A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于主题模型的跨模态检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106156142A (zh) * 2015-04-13 2016-11-23 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN106815211A (zh) * 2016-12-22 2017-06-09 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法
CN107203569A (zh) * 2016-03-18 2017-09-26 北京泰克贝思科技股份有限公司 一种面向沉浸式阅读的阅读主题智能设置方法和装置
CN108197154A (zh) * 2017-12-08 2018-06-22 复旦大学 交互式文档探索的在线子集主题建模方法
CN108701126A (zh) * 2016-02-24 2018-10-23 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109871532A (zh) * 2019-01-04 2019-06-11 平安科技(深圳)有限公司 文本主题提取方法、装置及存储介质
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101965A1 (en) * 2010-10-26 2012-04-26 Microsoft Corporation Topic models
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101965A1 (en) * 2010-10-26 2012-04-26 Microsoft Corporation Topic models
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TANG SILIANG,ZHANG YIN,WANG HANQI ,ET AL: "the discovery of burst topic and its intermittent evolution in our real world", 《CHINA COMMUNICATIONS》 *
张寅,汤斯亮,罗杰斯 等: "结合作者与地理信息的主题建模", 《计算机辅助设计与图形学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317837B (zh) * 2014-10-10 2017-06-23 浙江大学 一种基于主题模型的跨模态检索方法
CN104317837A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于主题模型的跨模态检索方法
CN106156142B (zh) * 2015-04-13 2020-06-02 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN106156142A (zh) * 2015-04-13 2016-11-23 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN108701126A (zh) * 2016-02-24 2018-10-23 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN108701126B (zh) * 2016-02-24 2022-03-04 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN107203569A (zh) * 2016-03-18 2017-09-26 北京泰克贝思科技股份有限公司 一种面向沉浸式阅读的阅读主题智能设置方法和装置
CN106815211A (zh) * 2016-12-22 2017-06-09 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法
CN106815211B (zh) * 2016-12-22 2020-08-07 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法
CN108197154A (zh) * 2017-12-08 2018-06-22 复旦大学 交互式文档探索的在线子集主题建模方法
CN108197154B (zh) * 2017-12-08 2021-07-23 复旦大学 交互式文档探索的在线子集主题建模方法
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109871532A (zh) * 2019-01-04 2019-06-11 平安科技(深圳)有限公司 文本主题提取方法、装置及存储介质
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质

Also Published As

Publication number Publication date
CN103559193B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN103559193A (zh) 一种基于选择单元的主题建模方法
US8874581B2 (en) Employing topic models for semantic class mining
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN116134432A (zh) 用于提供对查询的答案的系统和方法
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
WO2010132790A1 (en) Methods and systems for knowledge discovery
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN104199965A (zh) 一种语义信息检索方法
CN104462408B (zh) 一种基于主题建模的多粒度情感分析方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Cohen et al. Adaptability of neural networks on varying granularity IR tasks
CN110851714A (zh) 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN112836487A (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN115809316A (zh) 公文辅助写作方法及系统
CN117390169B (zh) 表格数据问答方法、装置、设备及存储介质
CN110263312B (zh) 文章生成方法、装置、服务器和计算机可读介质
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN116756347A (zh) 一种基于大数据的语义信息检索方法
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
Chen et al. A query substitution-search result refinement approach for long query web searches

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant