CN103678277A - 基于文档分段的构建主题-词汇分布的方法及系统 - Google Patents

基于文档分段的构建主题-词汇分布的方法及系统 Download PDF

Info

Publication number
CN103678277A
CN103678277A CN201310657341.1A CN201310657341A CN103678277A CN 103678277 A CN103678277 A CN 103678277A CN 201310657341 A CN201310657341 A CN 201310657341A CN 103678277 A CN103678277 A CN 103678277A
Authority
CN
China
Prior art keywords
semantic
mrow
paragraphs
msub
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310657341.1A
Other languages
English (en)
Inventor
王勇
赵立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201310657341.1A priority Critical patent/CN103678277A/zh
Publication of CN103678277A publication Critical patent/CN103678277A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于文档分段的构建主题-词汇分布的方法及系统,其中的方法包括,通过预设的本体库将资源文档按照语义相关度分割成资源文档片段,根据LDA算法对资源文档片段构建主题-词汇分布。利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及系统,通过资源文档增加了一个根据预设的本体库进行分割的过程,对于那些包含多个话题的资源文档进行适当的语义划分,划分成若干具有独立语义的资源文档片段,然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布,因此,能构建相对准确的主题-单词分布,提高学习到的主题的质量。

Description

基于文档分段的构建主题-词汇分布的方法及系统
技术领域
本发明涉及文本分析技术领域,更为具体地,涉及一种基于文档分段的构建主题-词汇分布的方法及系统。
背景技术
在文本分析领域中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)算法是一种常见的基于无监督学习的统计方法,在这种方法中,对于给定的文档集合,系统通过参数估计能够确定一些隐含的主题(Topic),每个主题是一个词汇表上的概率分布,每篇文档则可以表示为在多个主题上的概率分布,和词袋模型中的单词相比隐含主题的维度要低得多,可以有效地避免词一级的噪音,因此得到了广泛的应用。
但是在现实世界中的文档,由于其交流特性和组织方式并不是围绕着一个话题(话题可以认为对若干领域概念之间的关系的描述)来严格地进行论述的,而是围绕着多个话题,进行多方位的描述,如果将这样的文档作为主题学习算法的输入,就会将那些只是在讨论多个特定领域问题时才会使用的多个词语不适当地关联到一起,从而导致了严重的语义污染问题。
为了解决上述问题,常用的解决方法是通过收集足够多的语料,找到各种情景下被讨论问题的全部语料,那么根据概率计算,那些稀少的话题-话题组合就不会取得主要的地位,从而不会对结果产生严重的影响。
一般情况下,这种解决方法是可行的,但是,在企业内部的知识管理这个领域中,企业内部所能提供的文档集总是局部的,因此语义污染总是存在,所以,上述问题仍需要一种解决方案。
发明内容
鉴于上述问题,本发明的目的是提供一种基于文档分段的构建主题-词汇分布的方法及系统,以解决因语义污染造成得到的主题质量差的问题。
本发明提供的基于文档分段的构建主题-词汇分布的方法,包括:
通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
根据LDA算法对资源文档片段构建主题-词汇分布。
其中,在将资源文档按照语义相关度分割成资源文档片段的过程中,
获取所述资源文档中的句法段落和语义段落;其中,
如果所述资源文档包含一个句法段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含一个语义段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果资源文档包含多于一个的句法段落和多于一个的语义段落,则获取两个相邻的句法段落之间的语义距离,将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落,将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落,在句法段落合并成语义段落之后,再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,如果多个相邻的语义段落合并后仍存在多个相邻的语义段落,则重新计算多个相邻的语义段落之间的语义距离,再与预设的语义距离阈值比较后进行合并,重复上述多个相邻的语义段落的合并过程,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段输出。
其中,根据预设的本体库计算两个相邻的句法段落之间的语义距离,所述语义距离的计算公式为:
dis tan ce ( S i , S j ) = ( Σ s = 1 m a s m + Σ t = 1 n b t n ) / 2 ; 其中,
as=min{dis(Sis,Sj1),dis(Sis,Sj2),...,dis(Sis,Sjn)};
bt=min{dis(Si1,Sjt),dis(Si2,Sjt),...,dis(Sim,Sjt)};
as为句法段落Si中的第s个单词Sis和句法段落Sj中的每个单词Sj1,Sj2,...,Sjn之间的距离的最小值;
bt为句法段落Sj中的第t个单词Sjt和句法段落Si中的每个单词Si1,Si2,…,Sim之间的距离的最小值;
dis(Sis,Sjt)为句法段落Si中第s个单词Sis与句法段落Sj中第t个单词Sjt在预设本体库的概念空间中的距离。
在构建主题-词汇分布后,通过构建的主题-词汇分布对其它的资源文档进行分割;其中,在根据构建的主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离的过程中,分别获取两个相邻的句法段落在构建的主题-词汇分布上的主题向量,然后使用余弦距离公式计算上述两个主题向量,获得两个相邻的句法段落之间的语义距离,余弦距离公式为:
dis tan ce ( S i , S j ) = cos ( T i , T j ) = t i 1 t j 1 + t i 2 t j 2 + . . . + t i | T | t j | T | t i 1 2 + t i 1 2 + . . . + t i | T | 2 · t j 1 2 + t j 1 2 + . . . + t j | T | 2
其中,
Ti={til,ti2,...,ti|T|},为句法段落Si在构建的主题-词汇分布上的主题向量;
Tj={tj1,tj2,...,tj|T|},为句法段落Sj在构建的主题-词汇分布上的主题向量。
另外,本发明还提供一种基于文档分段的构建主题-词汇分布的系统,包括:资源文档分割单元,用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
主题分布构建单元,用于根据LDA算法对资源文档片段构建主题-词汇分布。
其中,资源文档分割单元包括:
句法段落获取模块,用于获取资源文档中的句法段落;
语义段落获取模块,用于获取资源文档中的语义段落;
资源文档分割识别模块,用于根据资源文档的句法段落和语义段落的数量识别资源文档是否需要分割,如果资源文档包含一个句法段落或一个语义段落,则不需要分割,主题分布构建单元直接对资源文档构建主题-词汇分布;如果资源文档包含多个句法段落和多个语义段落,则需要分割;
资源文档分割模块,用于对包含多于一个句法段落和多于一个语义段落的资源文档进行分割;其中,资源文档分割模块包括:
语义距离获取模块,用于获取两个相邻的句法段落之间的语义距离;
语义段落生成模块,用于将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落或将语义距离小于预设的语义距离阈值的相邻句法段落合并成一个语义段落;
语义段落合并模块,用于将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段;
资源文档片段生成模块,用于将每个语义段落作为一个资源文档片段输出。
利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及系统,增加了一个根据预设的本体库进行分割的过程,对于那些包含多个话题的资源文档进行适当的语义划分,划分成若干具有独立语义的资源文档片段,然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布,因此,能构建相对准确的主题-词汇分布,提高学习到的主题的质量。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明的基于文档分段的构建主题-词汇分布的方法的流程图;
图2为根据本发明的句法段落和语义段落的模式图;
图3为根据本发明的基于文档分段的构建主题-词汇分布的系统的逻辑框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
为了更好的理解本发明提供的基于文档分段的构建主题-词汇分布的方法及系统,先对如下名词做出解释:
句法段落是指根据资源文档的句法结构(句子、段落)来进行的段落划分,例如,在某些应用场景下,一个“表格”其实就构成了一个句法段落,而在某些场景下,一个表格的一行构成一个句法段落;
语义段落是指根据资源文档的语义信息来进行的段落划分,每个语义段落,描述了一个语义上高度相关的文字。
本发明的思路是通过对资源文档集中的词语根据所谈论的语义重新进行划分,使得在语义上有很强相关性的文本聚集在一起,而在语义上不相关的文本将会被分配到不同的资源文档片段中,经过这样的处理后,再使用LDA算法,就会得到更加合理的主题-词语分布。
由于LDA算法是现有技术,因此在本发明的以下描述中不再对此做详细的说明。
具体地,图1示出了根据本发明的基于文档分段的构建主题-词汇分布的方法的流程。
如图1所示,首先,通过预设的本体库将资源文档按照语义相关度分割成资源文档片段(步骤S100);然后,根据LDA算法对资源文档片段构建主题-词汇分布(步骤S110)。
在步骤S100中,预设的本体库为Wikipedia、知网(HowNet)等由专家定义的本体库,将专家定义的本体库作为引导对资源文档按照语义相关度进行分割。
本发明需要实现语义分割但又不能做过度的分割,为此,对句法段落和语义段落进行了区分,并总结了句法段落和语义段落的关系,共包括三种模式,这使得本发明中提出的文档分割算法不同于一般意义上的文档分割算法。图2示出了根据本发明的句法段落和语义段落的三种模式,在图2中,纹理框表示句法段落,而用空白框表示语义段落。
模式一
在模式一中,资源文档包括一个句法段落,即使该句法段落中包含几个不同的语义段落(模式一中的句法段落包括三个语义段落),本发明中也认为该句法段落中讨论的对象具有非常强的相关性,无需对资源文档进行分割,直接采用LDA算法对资源文档构建主题-词汇分布。
具体的作为示例,一篇文档如下:
“推荐google的新工具:word2vec,简单说就是可以把word表示成向量。可以很容易的用来找近义词,聚类等等。5亿字的语料,在4核机器上1小时跑完。可以跑多线程,适合处理大规模数据。运用了deep learning,还有很多别的亮点,绝对是今年最有价值的nlp工具之一。”
对于这样的一篇只有一句话的文档,其中的“word2vec”、“word”、“近义词、nlp”“聚类、deep learning”“4核、多线程”都彼此没有什么太强的语义关系,但是由于上述文档中只包含一个句法段落,因此这段文字被作为一个整体来作为LDA算法的输入,从而没有丢失这些词汇之间的内在联系。
模式二
资源文档包括一个语义段落,即使该语义段落中包含几个不同的句法段落,本发明中也认为该语义段落中讨论的对象具有非常强的相关性,也无需对资源文档进行分割,直接采用LDA算法对资源文档构建主题-词汇分布。
具体的作为示例,一篇文档如下:
“上个星期,Google为其图片体验进行了大范围的更新。今天Google又为我们带来了一个全新的功能:利用智能识别技术(computer vision和machine learning)为用户提供搜索自己Goolge+图片库里的内容。在Google+内,你可以通过直接输入照片内容的方式进行搜索,比如落日、海滩或者自行车等。如果直接通过Google搜索来进行操作的话则需要在搜索词汇前加上前缀my photos of xyz。
这对Google的图片搜索服务来说是一大进步。正如Google所说,“搜索自己的照片非常有挑战性,因为你想要搜索的内容是视觉上的。”好多人都懒得给自己的照片一个个加上标签,这个新功能会帮你找到一些你很久之前上传的一些照片。
上星期的I/O大会上,Google的Vic Gundotra在介绍Google+Photos的新功能时说,“管理照片常常是件痛苦的事”。他说得不错,但是奇怪的这个新功能没有在I/O大会上发布而是等到了今天。”
在这个示例中,概念“google”,“照片”,“搜索”贯穿其中的3个句法段落,有非常强的相似性,这篇文档最后被聚合成一个语义段落,然后作为LDA算法的输入得到正确的处理。
模式三
资源文档包括多个语义段落和多个句法段落,由于具有多个语义段落和多个句法段落,所以需要根据语义段落的边界对文本进行分割,首先,根据句法标记(例如句子、段落或者其他标记)将文本划分成最小的句法段落,通过分别计算每两个连续句法段落之间的语义距离来判断它们在内容上的相似程度;然后,将语义距离小于预设的语义距离阈值的两个连续的句法段落合并成一个语义段落,将语义距离大于预设的阈值的两个连续的句法段落分别作为单独的语义段落,在句法段落完成语义段落合并之后,将语义距离小于预设的语义距离阈值的多个连续的语义段落合并成一个语义段落。合并结束后,如果仍然有多个相邻的语义段落,重新计算相邻语义段落之间的语义距离,再与预设的语义距离阈值比较后进行合并,重复上述多个相邻的语义段落合并的过程,直到任意两个语义段落之间的距离都大于该阈值为止,然后分别输出这些独立的语义段落作为文本分割的结果;也就是将每个独立的语义段落作为一个资源文档片段,最后,采用LDA算法对每个资源文档片段构建主题-词汇分布。
在初始文档分段过程中,只能使用预设的本体库计算两个相邻的句法段落之间的语义距离,假定资源文档S由n个句法段落构成,记为:S={S1,S2,…,Sn},将句法段落Si与句法段落Sj之间的语义距离定义为:
dis tan ce ( S i , S j ) = ( Σ s = 1 m a s m + Σ t = 1 n b t n ) / 2
其中:
as=min{dis(Sis,Sj1),dis(Sis,Sj2),...,dis(Sis,Sjn)}
bt=min{dis(Si1,Sjt),dis(Si2,Sjt),...,dis(Sim,Sjt)}
这里假设句法段落Si由m个单词构成,记为Si={Si1,Si2,...,Sim},句法段落Sj由n个单词构成,记为Sj={Sj1,Sj2,...,Sjn};则
as表示的是计算句法段落Si中的第s个单词Sis和句法段落Sj中的每个单词Sj1,Sj2,...,Sjn之间的距离的最小值;
同样的,bt表示的是句法段落Sj中的第t个单词Sjt和句法段落Si中的每个单词Si1,Si2,...,Sim之间的距离的最小值;
dis(Sis,Sjt)∈[0,1],表示句法段落Si中单词Sis与句法段落Sj中单词Sjt在预设概念空间中的距离,具体地,当使用Wikipedia作为预设本体库的时,单词Sis和Sjt在预设概念空间中的距离等于单词Sis对应的维基概念C1和单词Sjt对应的维基概念C2之间的维基距离,其定义为:
dis ( S is , S jt ) = Dis wikipedia ( C 1 , C 2 ) = max ( log f ( C 1 ) , log f ( C 2 ) ) - log f ( C 1 , C 2 ) log N - min ( log f ( C 1 ) , log f ( C 2 ) )
其中,f(G1)表示在Wikipedia中引用概念C1的页面数,f(C2)表示在Wikipedia中引用概念C2的页面数,f(G1,C2)表示在Wikipedia中同时引用概念C1、C2的页面数,N表示Wikipedia中的总页面数。
显然,distcance(Si,Sj)∈[O,1],故句法段落间的语义距离的取值范围也位于区间[0,1]之间,语义距离越小,表明两个句法段落描述的主题越相似。
在完成初始LDA学习后,就可以通过所得的主题-词汇分布共同计算其它资源文档中段落间的语义距离,来实现对其它的资源文档分割,在使用主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离过程中,分别求得两个相邻的句法段落在LDA主题空间上的主题向量,然后使用余弦距离公式计算两个段落之间的语义距离。
余弦距离公式定义为:
dis tan ce ( S i , S j ) = cos ( T i , T j ) = t i 1 t j 1 + t i 2 t j 2 + . . . + t i | T | t j | T | t i 1 2 + t i 1 2 + . . . + t i | T | 2 · t j 1 2 + t j 1 2 + . . . + t j | T | 2
其中,句法段落Si对应的主题向量Ti={ti1,ti2,…,ti|T|},句法段落Sj对应的主题向量Tj={tj1,tj2,...,tj|T|}。
计算出两个相邻的句法段落之间的语义距离之后,再与预设的语义距离比较后进行合并,句法段落合并完成后再进行语义段落的合并,重复上述合并的过程,直到文档无法继续合并为止。
具体的,作为示例,文档集如下:
1)8月发生了一些事儿,但呈现的数据却具有逆推性:Google1分钟价值11万美元;Amazon100分钟价值700万美元等等。我们可以很清楚地感受到,每一分钟都在跳动的数据正在被采集、保有(存储)和分析,并带来价值!这就是云计算与大数据存在的本质,也是IT系统需要从传统架构转型到云架构的根本原因之一。
2)记得第五届中国云计算大会上,LSI总裁兼CEO Abhi Talwalkar明确表示:“云计算的商业价值在未来几年可以达到200亿美元,而且我们相信云产业价值会达到3万亿美元。”
3)他的判断是可信的。全球中85%服务器、40%台式机和笔记本、50%外部存储都要使用LSI的存储芯片;全球手机50%-70%无线流量都要通过LSI芯片;LSI在SAS、RAID控制器、SSD控制器、ReadChannel、Preamp、Axxia网络处理器和定制ASIC等方面地位稳固,而成功收购SandForce更是使得LSI获得的闪存NO.2的市场发言权。这一切,都决定了LSI将与最敏感的企业如互联网巨头们,在技术节奏上,保持着高度统一。
4)正如LSI CTO办公室高级专家Robert Ober对CSDN记者说:“几乎所有大型数据中心都在直接使用LSI的产品,OEM和ODM都是我们的合作伙伴。通过直接与客户沟通,和通过OEM、ODM伙伴反馈信息,我们一直紧跟客户需求。比如Facebook和LSI的关系非常密切,我们经常会和Facebook做数据中心的工程师一起开发他们需要的解决方案。作为排名在CPU和内存之后的数据中心的最大支出项,我们看到存储在共享趋势下正在发生架构的变化。”
5)这一变化就是大数据将推动“计算”架构迅速向“数据流”架构演进。具体来看,数据中心架构将向数据流、模块化、机架级、池化架构发展,硬件资源最终会实现松耦合,从无共享、由OEM厂商推动的冗余机架系统向共享IO、简化集群系统的“解聚”机架方向演进,最终实现工作负载的动态调配。
6)这一思路显然与软件定义数据中心一脉相承,但又更为基础。支撑“数据流”架构宏伟蓝图的是LSI全方位的产品和解决方案,如Axxia、DataBolt、TrueStore、Syncro MegaRAID、SandForce、Nytro等。其中,最为引发业内技术圈子关注的是能够代表SSD存储处理器的SandForce和PCIe闪存解决方案的Nytro。
7)LSI通往数据流架构最重要的一条途径:闪存。在美国,闪存已经掀起了互联网和创投市场的狂潮。一方面,Google通过Janus新系统,Facebook通过McDipper新技术先人一步地将闪存用于数据中心;另一方面,TMS(TexasMemory System)、ExtremIO、ScaleIO、SandForce等闪存企业已经被IBM、EMC、LSI等收购。有数据显示,目前美国宣称自己做闪存的企业已达137家。而日前一则一家初创公司Pure Storage宣布获得1.5亿美元融资,5轮下来总额已经达到2.45亿美元的消息更是刺激着产业的神经。
8)LSI也在加快在新一代LSI SandForce的研发速度。比如,刚刚在美国加州闪存存储器峰会上介绍的LSI SHIELD技术。SHIELD是低密度奇偶校验(LDPC)代码与数字信号处理(DSP)的一种独特实现,将用于新一代SandForce闪存控制器。该技术融合硬判决、软判决和DSP,可提供面向闪存存储器的最优化综合纠错码(ECC)解决方案。作为一种高级的纠错方法,其最大特点是即使使用出错率较高的廉价闪存存储器也能实现企业级的SSD耐久度和数据完整性。
9)不止如此,还有DuraWrite Virtual Capacity(DVC,一种独特的SandForce闪存控制器功能,可在底层闪存存储器物理容量的基础上扩大典型数据的可用存储容量)和支持东芝第二代先进19nm NAND闪存存储器(A19nm),使SSD制造商能够制造出成本更低的SSD产品。
10)但针对目前美国很多银行将“PCIe做一个闪存池共享使用”的方法,Robert Ober并不认同:“在实践中,由于其通过的是组网或网络交换方式来完成,所以并不顺利。我们在考虑的是用SAS做一个存储池,然后为多个服务器所共享使用,其更简单且可靠,还便宜。在我看来,闪存共享,中间不需要任何软件或者硬件层的介入,而是闪存和服务器之间直接的连接,这样闪存的价值不会被降低。”
11)在他看来,“分层存储,按照性能的要求,从主存储到一级,一直到三级的存储cache,相信在很长一段时间内比较慢的磁盘仍然是主存储,SSD可能是速度快一些的存储级别,PCIe是更高性能的存储,同时还有DRAM内存存储以及更新一些的内存出现。”
12)这也是目前存储产业的现状。毕竟,SSD的存储成本相对于HDD来说,每GB成本高5-10倍,容量上也有显著的差距,几百GB与几TB的主流产品差距还和明显。2012年全球存储数字很能说明这一点,HDD的出货量为5.85亿,闪存则只出货了3500万。
13)但随着互联网等行业对于软件定义存储和软件定义数据中心(SDDC)的不断深入的探索,存储的技术进入了快速更迭和响应期。这也意味着LSI有了从幕后走到台前的绝佳机会。正如Robert Ober所说:“我们正在和行业领先软件开放商展开更加密切地合作,比如VMware、OpenStack,以满足更多新的市场需求。”
14)这其中,中国市场,对LSI来说充满了发展机遇。
在上述文档中,共讨论了两个不同的话题,一个话题包含了“云计算”、“大数据”、“数据中心”、“流计算架构”这些概念,另外一个话题包含了“LSI”、“Sandforce”、“SSD”这几个概念,这是两个截然不同的领域话题,只是由于“流计算架构”才将这两个话题联系在一起,如果使用LDA算法,由于这两个话题被组织在一个文章中,因此会错误地将这两个话题组织在一个主题之内,下面是对上述文档使用LDA算法得到的结果,文档-主题分布如下:
Topic1 Topic2 Topic3
doc 0.285246 0.180328 0.534426
topic1:
robert0.0605468712747097
center0.0605468712747097
big0.0410156212747097
axxia0.0410156212747097
odm0.0410156212747097
architecture0.0410156212747097
nytro0.0410156212747097
dsp0.0410156212747097
google0.021484375
lsi0.021484375
abhi0.021484375
talwalkar0.021484375
memory0.021484375
wireless0.021484375
preamp0.021484375
asic0.021484375
flash0.021484375
cpu0.021484375
databolt0.021484375
truestore0.021484375
topic2:
ssd0.08806817978620529
sas0.05965908616781235
ober0.05965908616781235
stream0.05965908616781235
amazon0.03125
desktop0.03125
mobile0.03125
phone0.03125
chip0.03125
raid0.03125
readchannel0.03125
sandforce0.03125
cto0.03125
csdn0.03125
janus0.03125
mcdipper0.03125
system0.03125
scaleio0.03125
ibm0.03125
capacity0.03125
topic3:
lsi0.1804932802915573
data0.07959641516208649
memory0.06838565319776535
sandforce0.06838565319776535
computing0.03475336357951164
ssd0.03475336357951164
facebook0.03475336357951164
pcie0.03475336357951164
hdd0.03475336357951164
cloud0.023542599752545357
controller0.023542599752545357
network0.023542599752545357
flash0.023542599752545357
oem0.023542599752545357
google0.01233183965086937
ceo0.01233183965086937
server0.01233183965086937
notepad0.01233183965086937
processor0.01233183965086937
ober0.01233183965086937
根据现有技术得到的主题,在各个学到的主题上,都混合了第一个话题和第二个话题上的内容,比如Topic3中即包含了“云计算”、“大数据”的内容,也包含了“sandforce”“ssd”的内容,因此得到的主题的质量是非常低的。
但使用本发明的方法,对文档集的各个句法段落合语义段落分别计算语义距离,并将那些小于一定阈值的句法段落和语义段落进行合并,当这个过程结束后,本发明得到了两个语义段落,第一个语义段落围绕着“云计算”、“大数据”、“软件定义数据中心”,包括句法段落1,2,4,5,6,7,13,第二个语义段落围绕着“LSI”、“Sandforce”、“SSD”,包括句法段落3,8,9,10,11,12,14,文档使用LDA算法得到的结果,文档-主题分布如下:
Topic1 Topic2 Topic3
第一个语义段落 0.10303 0.284848 0.612121
第二个语义段落 0.51049 0.482517 0.006993
topic1:
ssd0.11685823649168015
robert0.0593869723379612
hdd0.0593869723379612
controller0.040229883044958115
network0.040229883044958115
shield0.040229883044958115
dsp0.040229883044958115
amazon0.02107279747724533
cto0.02107279747724533
ober0.02107279747724533
axxia0.02107279747724533
flash0.02107279747724533
texas0.02107279747724533
sddc0.02107279747724533
vmware0.02107279747724533
desktop0.02107279747724533
phone0.02107279747724533
wireless0.02107279747724533
chip0.02107279747724533
raid0.02107279747724533
topic2:
lsi0.2622699439525604
memory0.10889571160078049
sandforce0.10889571160078049
facebook0.047546014189720154
pcie0.047546014189720154
sas0.03220858797430992
data0.016871167346835136
csdn0.016871167346835136
axxia0.016871167346835136
janus0.016871167346835136
storage0.016871167346835136
server0.016871167346835136
notepad0.016871167346835136
mobile0.016871167346835136
readchannel0.016871167346835136
preamp0.016871167346835136
processor0.016871167346835136
asic0.016871167346835136
ecc0.016871167346835136
capacity0.016871167346835136
topic3:
data0.10481099039316177
computing0.05326460301876068
center0.05326460301876068
google0.036082472652196884
cloud0.036082472652196884
big0.036082472652196884
ober0.036082472652196884
oem0.036082472652196884
odm0.036082472652196884
architecture0.036082472652196884
stream0.036082472652196884
nytro0.036082472652196884
flash0.036082472652196884
ceo0.018900344148278236
abhi0.018900344148278236
talwalkar0.018900344148278236
cpu0.018900344148278236
dddc0.018900344148278236
databolt0.018900344148278236
truestore0.018900344148278236
由此看出,对文档集进行如上的分割后,所得到的主题的质量有了较大的提高,Topic3主要描述了“云计算“大数据”方面的内容,而Topic1、Topic2主要描述了“ssd”、“Sandforc”方面的内容,这样主题-词汇分布的质量有了很大的提高。
本发明提供的基于文档分段的构建主题-词汇分布的方法,一旦利用资源文档构建出主题-词汇分布之后,就可以根据构建出的主题-词汇分布或者构建出的主题-词汇分布与本体库的结合,对其它的资源文档进行分割。
与上述方法相对应,本发明还提供一种基于文档分段的构建主题-词汇分布的系统。图3示出了根据本发明的基于文档分段的构建主题-词汇分布的系统的逻辑结构。
如图3所示,本发明提供的基于文档分段的构建主题-词汇分布的系统300包括资源文档分割单元310和主题分布构建单元320。
其中,资源文档分割单元310用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;主题分布构建单元320,用于根据LDA算法对所述资源文档片段构建主题-词汇分布。
其中,资源文档分割单元包括:句法段落获取模块(图未示出),用于获取资源文档中的句法段落;语义段落获取模块(图未示出),用于获取资源文档中的语义段落;资源文档分割识别模块(图未示出),用于根据资源文档的句法段落和语义段落的数量识别所述资源文档是否需要分割,如果所述资源文档包含一个句法段落或一个语义段落,则不需要分割,主题分布构建单元直接对所述资源文档构建主题-词汇分布;如果所述资源文档包含多个句法段落和多个语义段落,则需要分割;资源文档分割模块(图未示出),用于对包含多个句法段落和多个语义段落的资源文档进行分割。
其中,资源文档分割模块包括:语义距离获取模块(图未示出),用于获取相邻两个句法段落之间的语义距离;语义段落生成模块(图未示出),用于将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落或将获取到的语义距离小于预设的语义距离阈值的两个相邻句法段落合并成一个语义段落;语义段落合并模块(图未示出),用于将语义距离小于预设的语义距离阈值的两个相邻的语义段落合并成一个语义段落,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止;资源文档片段生成模块(图未示出),用于将每个语义段落作为一个资源文档片段输出。
利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及系统,通过资源文档增加了一个根据预设的本体库进行分割的过程,对于那些包含多个话题的资源文档进行适当的语义划分,划分成若干具有独立语义的资源文档片段,然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布,因此,能构建相对准确的主题-词汇分布,提高学习到的主题的质量。
如上参照附图以示例的方式描述了根据本发明的基于文档分段的构建主题-词汇分布的方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于文档分段的构建主题-词汇分布的方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (6)

1.一种基于文档分段的构建主题-词汇分布的方法,包括:
通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
根据LDA算法对所述资源文档片段构建主题-词汇分布。
2.如权利要求1所述的基于文档分段的构建主题-词汇分布的方法,在将资源文档按照语义相关度分割成资源文档片段的过程中,
获取所述资源文档中的句法段落和语义段落;其中,
如果所述资源文档包含一个句法段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含一个语义段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含多于一个的句法段落和多于一个的语义段落,则获取两个相邻的句法段落之间的语义距离,将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落,将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落,在句法段落合并成语义段落之后,再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,如果多个相邻的语义段落合并后仍存在多个相邻的语义段落,则重新计算多个相邻的语义段落之间的语义距离,再与预设的语义距离阈值比较后进行合并,重复上述多个相邻的语义段落的合并过程,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段。
3.如权利要求2所述的基于文档分段的构建主题-词汇分布的方法,根据预设的本体库计算两个相邻的句法段落之间的语义距离,所述语义距离的计算公式为:
dis tan ce ( S i , S j ) = ( Σ s = 1 m a s m + Σ t = 1 n b t n ) / 2 ;
其中,
as=min{dis(Sis,Sj1),dis(Sis,Sj2),...,dis(Sis,Sjn)};
bt=min{dis(Si1,Sjt),dis(Si2,Sjt),...,dis(Sim,Sjt)};
as为句法段落Si中的第s个单词Sis和句法段落Sj中的每个单词Sj1,Sj2,...,Sjn之间的距离的最小值;
bt为句法段落Sj中的第t个单词Sjt和句法段落Si中的每个单词Si1,Si2,…,Sim之间的距离的最小值;
dis(Sis,Sjt)为句法段落Si中第s个单词Sis与句法段落Sj中第t个单词Sjt在预设本体库的概念空间中的距离。
4.如权利要求2所述的基于文档分段的构建主题-词汇分布的方法,
在构建主题-词汇分布后,通过构建的主题-词汇分布对其它的资源文档进行分割;其中,
在根据构建的主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离的过程中,分别获取两个相邻的句法段落在构建的主题-词汇分布上的主题向量,然后使用余弦距离公式计算上述两个主题向量,获得值为两个相邻的句法段落之间的语义距离;所述余弦距离公式为:
dis tan ce ( S i , S j ) = cos ( T i , T j ) = t i 1 t j 1 + t i 2 t j 2 + . . . + t i | T | t j | T | t i 1 2 + t i 1 2 + . . . + t i | T | 2 · t j 1 2 + t j 1 2 + . . . + t j | T | 2
其中,
Ti={ti1,ti2,...,ti|T|},为句法段落Si在构建的主题-词汇分布上的主题向量;
Tj={tj1,tj2,…,tj|T|},为句法段落Sj在构建的主题-词汇分布上的主题向量。
5.一种基于文档分段的构建主题-词汇分布的系统,包括:
资源文档分割单元,用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
主题分布构建单元,用于根据LDA算法对所述资源文档分割单元分割的所述资源文档片段构建主题-词汇分布。
6.如权利要求5所述的基于文档分段的构建主题-词汇分布的系统,其中,资源文档分割单元包括:
句法段落获取模块,用于获取资源文档中的句法段落;
语义段落获取模块,用于获取资源文档中的语义段落;
资源文档分割识别模块,用于根据资源文档的句法段落和语义段落的数量识别所述资源文档是否需要分割,如果所述资源文档包含一个句法段落或一个语义段落,则不需要分割,主题分布构建单元直接对所述资源文档构建主题-词汇分布;如果所述资源文档包含多个句法段落和多个语义段落,则需要分割;
资源文档分割模块,用于对包含多于一个句法段落和多于一个语义段落的资源文档进行分割;其中,所述资源文档分割模块包括:
语义距离获取模块,用于获取两个相邻的句法段落之间的语义距离;
语义段落生成模块,用于将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落或将语义距离小于预设的语义距离阈值的相邻句法段落合并成一个语义段落;
语义段落合并模块,用于将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段;
资源文档片段生成模块,用于将每个语义段落作为一个资源文档片段。
CN201310657341.1A 2013-12-04 2013-12-04 基于文档分段的构建主题-词汇分布的方法及系统 Pending CN103678277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310657341.1A CN103678277A (zh) 2013-12-04 2013-12-04 基于文档分段的构建主题-词汇分布的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310657341.1A CN103678277A (zh) 2013-12-04 2013-12-04 基于文档分段的构建主题-词汇分布的方法及系统

Publications (1)

Publication Number Publication Date
CN103678277A true CN103678277A (zh) 2014-03-26

Family

ID=50315886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310657341.1A Pending CN103678277A (zh) 2013-12-04 2013-12-04 基于文档分段的构建主题-词汇分布的方法及系统

Country Status (1)

Country Link
CN (1) CN103678277A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156350A (zh) * 2014-08-04 2014-11-19 苏州大学 基于细划分MapReduce的文本语义提取方法
CN104574965A (zh) * 2015-01-11 2015-04-29 杭州电子科技大学 一种基于海量交通流数据的城市交通热点区域划分方法
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN105488090A (zh) * 2015-01-29 2016-04-13 深圳Tcl数字技术有限公司 文档合成方法及装置
CN105912631A (zh) * 2016-04-07 2016-08-31 北京百度网讯科技有限公司 检索处理方法和装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN107247701A (zh) * 2017-05-04 2017-10-13 厦门快商通科技股份有限公司 用于语料库的主题聚类模型构建系统及其构建方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN108874775A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于lda的网络舆情文档自动摘要方法
CN109558482A (zh) * 2018-07-27 2019-04-02 中山大学 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110019655A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 先例案件获取方法及装置
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN113361260A (zh) * 2021-06-10 2021-09-07 北京字节跳动网络技术有限公司 一种文本处理方法、装置、设备以及存储介质
CN114154492A (zh) * 2021-12-03 2022-03-08 四川启睿克科技有限公司 一种融合了主题信息的多意图识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010089248A1 (en) * 2009-02-03 2010-08-12 International Business Machines Corporation Method and system for semantic searching
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103092931A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略结合文档自动分类方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010089248A1 (en) * 2009-02-03 2010-08-12 International Business Machines Corporation Method and system for semantic searching
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103092931A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略结合文档自动分类方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
何维 等: "基于句子关系图的网页文本主题句抽取", 《现代图书情报技术》 *
石晶 等: "基于LDA模型的主题分析", 《自动化学报》 *
石晶 等: "基于LDA模型的文本分割", 《计算机学报》 *
罗志成 等: "从维基分类系统构建中文语义词典研究", 《信息系统学报》 *
赵煜 等: "采用并行遗传算法的文本分割研究", 《西安交通大学学报》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN104156350B (zh) * 2014-08-04 2018-03-06 苏州大学 基于细划分MapReduce的文本语义提取方法
CN104156350A (zh) * 2014-08-04 2014-11-19 苏州大学 基于细划分MapReduce的文本语义提取方法
CN104574965A (zh) * 2015-01-11 2015-04-29 杭州电子科技大学 一种基于海量交通流数据的城市交通热点区域划分方法
CN105488090A (zh) * 2015-01-29 2016-04-13 深圳Tcl数字技术有限公司 文档合成方法及装置
CN105912631A (zh) * 2016-04-07 2016-08-31 北京百度网讯科技有限公司 检索处理方法和装置
CN105912631B (zh) * 2016-04-07 2019-07-05 北京百度网讯科技有限公司 检索处理方法和装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
US10783206B2 (en) 2016-07-07 2020-09-22 Tencent Technology (Shenzhen) Company Limited Method and system for recommending text content, and storage medium
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN107832312B (zh) * 2017-01-03 2023-10-10 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN107247701A (zh) * 2017-05-04 2017-10-13 厦门快商通科技股份有限公司 用于语料库的主题聚类模型构建系统及其构建方法
CN110019655A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 先例案件获取方法及装置
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN108874775A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于lda的网络舆情文档自动摘要方法
CN109558482A (zh) * 2018-07-27 2019-04-02 中山大学 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN109558482B (zh) * 2018-07-27 2023-01-06 中山大学 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN111797634B (zh) * 2020-06-04 2023-09-08 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN113361260A (zh) * 2021-06-10 2021-09-07 北京字节跳动网络技术有限公司 一种文本处理方法、装置、设备以及存储介质
CN114154492A (zh) * 2021-12-03 2022-03-08 四川启睿克科技有限公司 一种融合了主题信息的多意图识别方法和系统

Similar Documents

Publication Publication Date Title
CN103678277A (zh) 基于文档分段的构建主题-词汇分布的方法及系统
US10726208B2 (en) Consumer insights analysis using word embeddings
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
US10685183B1 (en) Consumer insights analysis using word embeddings
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
US8782051B2 (en) System and method for text categorization based on ontologies
KR102703923B1 (ko) 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
US9697475B1 (en) Additive context model for entity resolution
US10558759B1 (en) Consumer insights analysis using word embeddings
US20130060769A1 (en) System and method for identifying social media interactions
US10509863B1 (en) Consumer insights analysis using word embeddings
US20120303637A1 (en) Automatic wod-cloud generation
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US9665570B2 (en) Computer-based analysis of virtual discussions for products and services
US20190392077A1 (en) Facet-based query refinement based on multiple query interpretations
EP3494490A1 (en) Surfacing unique facts for entities
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
Kumar et al. BERT based semi-supervised hybrid approach for aspect and sentiment classification
US11665121B2 (en) Determining topic cohesion between posted and linked content
US11061943B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
Bollegala et al. ClassiNet--Predicting missing features for short-text classification
JP2024518458A (ja) テキスト内の自動トピック検出のシステム及び方法
US20210089539A1 (en) Associating user-provided content items to interest nodes
US12112365B2 (en) Probabilistic determination of compatible content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326

RJ01 Rejection of invention patent application after publication