CN101359330B

CN101359330B - 内容扩展的方法和系统

Info

Publication number: CN101359330B
Application number: CN200810105724.7A
Authority: CN
Inventors: 裘钢
Original assignee: Suoyi Interactive Beijing Information Technology Co ltd
Current assignee: Suoyi Interactive Beijing Information Technology Co ltd
Priority date: 2008-05-04
Filing date: 2008-05-04
Publication date: 2015-05-06
Anticipated expiration: 2028-05-04
Also published as: CN101359330A; US8296302B2; US20090276420A1

Abstract

一种内容扩展的方法，包括：将内容划分成多个区域；计算每个区域的区域文档向量；计算每个区域文档向量与词条表中的词条向量的相关度；选择其中相关度最大的若干个词条作为对应区域的扩展关键词；当该文章被请求渲染时，将扩展关键词附加在对应区域旁渲染。

Description

内容扩展的方法和系统

技术领域

本发明涉及内容信息处理领域，尤其涉及根据语义对信息内容进行相关分区域扩充的方法和系统。

背景技术

由于大量的信息内容之间是存在某种联系的，用户在浏览当前内容时非常希望能够看到更多的相关扩展内容。在现有的信息处理领域，尤其是网页内容的处理方面，主要采用的是在整个内容的后面由人工对内容进行鉴别之后，给出相关的内容作为扩充内容。

这样的系统存在至少两个明显的不足，第一个是由于是只给出整个文档的相关扩充内容，而往往在一个完整的文档中有多个不同含意的主题，无法针对这些主题分别给出内容的扩充。第二个是由于是人工给出的扩充内容，效率不高，且相关度不精确。

本申请正是需要能够解决这个问题，将内容分区域，并且根据语义相关找到与当前分区内容相关的扩展关键词。作为对原来内容的语义上的无缝扩充而与内容成为一体化的关键词提供的扩充信息，往往是内容作者或用户没有想到的。这对于帮助或扩充用户对内容的理解有很大帮助。

发明内容

本发明的一个目的是提供：一种内容扩展的方法，包括：将内容划分成多个区域；计算每个区域的区域文档向量；计算每个区域文档向量与词条表中的词条向量的相关度；选择其中相关度最大的若干个词条作为对应区域的扩展关键词；和当该文章被请求渲染时，将扩展关键词附加在对应区域旁渲染。

本发明更进一步的目的是：一种计算机程序产品，存储在计算机可读的介质上，该计算机程序产品具体地包括可读的程序方法，从而触发计算机执行上述的方法。

本发明更进一步的目的是：一种计算机程序，由计算机执行而实现上述方法。

本发明还有一个目的是提供：一种内容扩展的系统，包括：分区装置，用于将内容划分成多个区域；文档向量计算装置，用于计算每个区域的区域文档向量；文档与词条相关度比较装置，用于计算每个区域文档向量与词条表中的词条向量的相关度；扩展关键词确定装置，用于选择其中相关度最大的若干个词条作为对应区域的扩展关键词；和附加装置，用于当该文章被请求渲染时，将扩展关键词附加在对应区域旁渲染。

附图描述

上述内容和其它方面的内容，以及本发明特定优选实施例的特征和优势将通过结合相应附图的详细说明更加清楚。其中：

图1是关于词条的表现方法和组合方式；

图2是词条-文档(term-document)矩阵；

图3是高维(r维)词条空间投影到低维(k维)词条空间的公式；

图4是词条向量表；

图5是描述了词条和文档在二维空间上的投影关系；

图6如何获得查询请求的向量；

图7是根据本发明的第一个实施例；

图8是实现图7中的实施例的流程图10；

图9是根据本发明的第二个实施例；

图10是实现图9中的实施例的流程图20；

图11是根据本发明的第三个实施例；

图12是实现图11中的实施例的流程图30；

图13是根据本发明的第四个实施例；

图14是实现图13中的实施例的流程图40；

图15是根据本发明的第五个实施例；

图16是实现图15中的实施例的流程图50；

图17是实现本发明实施例的系统100的结构图。

所有附图中，同一附图标记理解为同一单元、特征和结构。

优选实施例描述

说明书中定义的内容如具体的结构和单元，是用于辅助全面理解本发明的优选实施例的。因此，根据本领域的普通技术对本申请描述的实施例进行的各种改变和修改都被认为没有脱离本发明的精神范围。同时，为了清楚和简要，省略了对公知的功能和结构的说明。

在现有技术中有大量关于基于语义搜索的技术，本领域技术人员可以利用这些技术很容易的构建词条向量，以及文档向量。其中有代表性的是潜在语义索引模型等技术。下面介绍潜在语义索引的原理，但不代表本发明一定要构建在潜在语义索引之上，本发明可以应用在所有的基于语义的搜索技术上。

潜在语义索引的原理

为了能够更加容易的解释LSI原理，下面通过一个具体例子来描述。设文档由17本书的标题组成。

图1中，有下划线的词表示词条。当然，对于本领域技术人员，存在很多其他选择词条的规则，可以增加或减少词条的数量，也可以改变词条的组合方式等。

图2是16x17词条-文档(term-document)矩阵，被称作A。行代表词条(term)，列代表文档(document)。矩阵的值代表该词条在该文档中出现的次数。

奇异值分解把词条-文档矩阵A分解为三个矩阵的乘积形式，即

A＝U∑V^T 公式1

其中，∑是奇异值的对角矩阵。

图3是潜在语义索引方法通过降维，将高维(r维)词条空间投影到低维(k维)词条空间。

为方便图示表示，在本例中选择k为2，即表示将原词条空间降维到二维词条空间上。矩阵U的前两列表示了词条在二维空间中的向量。获得的向量组即词条向量表如附图中图4所示.

利用这些基本的词条向量，可以根据

v＝q^TU_k∑^-1 _k 公式2

来合成新的向量。例如文档向量B_i、用户输入的查询请求，都可通过分析所引用的词条按公式2相合成。本领域技术人员很容易明了，在合成向量时可以考虑词条向量的权重。

图5描述了词条和文档在二维空间上的投影关系。词条向量之间的夹角越小或夹角的余弦值越大，代表词条和和该文档的相关性越大。例如，以词条“oscillation”为例，在所有词条中“delay”与其夹角最小，即“delay”与其最相关。

图6是当用户输入一个查询请求时，如“application theory”，系统通过分析该请求中包含的关键词“application″、“theory”，将该两关键词相关的词条向量按公式2合成如图6，从而获得查询请求的向量。

通过计算文档向量与该查询请求向量的夹角的余弦值，其值越大，表示该文档与查询请求越相关。

词条与文档的相关度是计算词条向量与文档向量之间的夹角的余弦值，其值越大，表示该文档与查询请求越相关。例如，“nonlinear”这个词条与B9的文档向量间的夹角的余弦值最大，所以与“nonlinear”最相关的文档是B9。

本领域技术人员已知的实际应用中，通过上述原理，对现有的足够数量的文献进行上述处理，即可获得全面的词条向量表。计算文档向量的方法是抽取文档中的词条，比对词条向量表获得相关词条的向量，将这些向量合成为文档向量如公式2。为了简化的目的，本申请不再详细描述如何获得词条向量表，因为本领域技术人员可以根据现有技术能够很容易地获得词条向量表。本发明是在现有的词条向量表的基础上描述的。

相关的参考文献如下：

1.M.W.Berry.S.T.Dumaiis&G.W.O’Brien.Using Linear AlgebraIntelligent Information Retrieval.Computer Science Department CS-94-2701994-12。

2.居斌.潜在语义标引在中文信息检索中的研究与实现.计算机工程2007-03。

3.陈越郭力.隐含语义检索及其应用.信息检索技术2001年第6期。

4.Michael W.Berry，Paul G.Young.Using latent semantic indexing formultilanguage information retrieval.Volume 29，Number 6/1995年12月

图7是根据本发明的第一个实施例。在该实施例中，有一个文章1包括2个自然段，分别是p11和p12。各个自然段都具有与其相关的扩展关键词e11和e12。

图9是根据本发明实施例的第二个实施例。在该实施例中，文档2有6个自然段，分别是p21-p26。系统将这6个自然段分成了三个区域，分别是a21-a23。其中，a21包括p21-p22，a22包括p23-p25，a23包括p26。每个区域分别有一组扩充关键词。

图10是实现图9中的实施例的流程图20。在该实施例中的内容是包括6段文字的文档2。在步骤21，计算文章2的每个段落p21-p26的文档向量v(p21)-v(p26)；然后，从第一个向量v(p21)开始计算与其下一个段落的文档向量的相关度，如果该相关度大于某个门限值则将这些自然段划分到相同的区域，由于(p21，p22)，(p23，p24，p25)，(p26)这三个段落的相邻段落的文档向量的相关度大于门限值，所以划分为三个区域，分别是a21＝(p21，p22)，a22＝(p23，p24，p25)，a23＝(p26)。在步骤22，计算各个区域中的文字的文档向量，，分别是v(a21)-v(a23)。在步骤23，计算每个区域文档向量与词条表中的词条向量的相关度。其中，词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指，向量与向量之间的夹角或余弦值。在步骤24，根据相关度顺序，依次比较所述相关词条是否在对应区域中出现，如果出现则不作为扩展关键词，最终获取N个扩充关键词。例如可以是8个。各个扩展关键词中使用某个特殊符号，例如“|”分隔开。当然，本领域技术人员也能够很容易的实现，将上述的与对应区域比较而改为与整个文章比较。在步骤25，当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

图11是根据本发明实施例的第三个实施例。在该实施例中，文档3有8个自然段，分别是p31-p38。系统将这8个自然段分成了三个区域，分别是a31-a33。其中，a31包括p31-p32，a32包括p33-p35，a23包括p36-p38。每个区域分别有一组扩充关键词。

图12是实现图11中的实施例的流程图30。在该实施例中的内容是包括8段文字的文档3。在步骤31，从起始自然段p31开始，依次将若干个相邻的自然段划分到一个区域，使得各个区域的字数大于或等于一个预设门限，例如300个字，但如果减去该区域中最后一个自然段的字数则小于该预设门限。例如段落p31-p33总计字数超过了300个，但是如果减去段落p33的字数则少于300。根据这样的方式划分为三个区域，分别是a31＝(p31，p32)，a32＝(p33，p34，p35)，a33＝(p36，p37，p38)。在步骤32，计算各个区域中的文字的文档向量，分别是v(a31)-v(a33)。在步骤33，计算每个区域文档向量与词条表中的词条向量的相关度。其中，词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指，向量与向量之间的夹角或余弦值。在步骤34，根据相关度顺序，依次比较所述相关词条是否在整个文章中出现以及是否在前面的区域的扩充关键词中出现，如果在一个地方出现则不作为扩展关键词，最终获取N个扩充关键词。例如可以是8个。各个扩展关键词中使用某个特殊符号，例如“|”分隔开。当然，本领域技术人员也能够很容易的实现，将上述的整个文章与比较而改为与对应区域比较。在步骤35，当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

图13是根据本发明的第四个实施例。在该实施例中，有一个内容包括2个自然段，分别是p41和p42，以及一个音频文件。各个自然段都具有与其相关的扩展关键词e41和e42。音频文件也有与其相关的扩展关键词e43。

图14是实现图13中的实施例的流程图40。在该实施例中的内容是包括两段文字和一个音频文件的文档4。在步骤41，将该文档4中的文字内容按照自然段来划分，从而划分成2个区域，分别是a41和a42，并将其中的音频文件单独确定为一个区域。在步骤42，计算各个区域中的文字的文档向量，分别是v(a41)和v(a42)，采用的方式是抽取文档中的词条，比对词条向量表获得相关词条的向量，将这些向量合成为文档向量。对于音频文件，先使用speech-to-text功能实体对音频文件进行处理，获得相应的文本，并计算该文本的文档向量作为音频文件的文档向量。如果其中的音频文件被替换为视频文件，则利用speech-to-text功能实体将视频中的音频部分变换为音频文本，和/或利用光学字符识别功能实体将视频中的字幕变换为字幕文本，然后计算音频文本和/或字幕文本总的文档向量作为视频的文档向量。此外，对于包含字幕流的视频，可直接利用现有技术将字幕流变换为字幕文本，采取上述方法计算文档向量。另外，如果内容包括图片，则利用光学字符识别功能实体将图片中的字符变换为文本，然后计算文本的文档向量作为图片的文档向量。在步骤43，计算每个区域文档向量与词条表中的词条向量的相关度。其中，词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指，向量与向量之间的夹角或余弦值。在步骤44，选择其中相关度最大的若干个词条作为对应区域的扩展关键词，例如选择8个。在步骤45，当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

图15是根据本发明的第五个实施例。在该实施例中，有一个内容包括2个自然段，分别是p51和p52，以及一个超链接，该超链接指向另一个文件。各个自然段都具有与其相关的扩展关键词e51和e52。超链接也有与其相关的扩展关键词e53。

图16是实现图15中的实施例的流程图50。在该实施例中的内容是包括两段文字和一个超链接的文档5。在步骤51，将该文档5中的文字内容按照自然段来划分，从而划分成2个区域，分别是a51和a52，并将其中的音频文件单独确定为一个区域。在步骤52，计算各个区域中的文字的文档向量，分别是v(a11)和v(a12)，采用的方式是抽取文档中的词条，比对词条向量表获得相关词条的向量，将这些向量合成为文档向量。对于超链接则计算被链接到的文档的文档向量。即将被链接到文档中的非文字内容采用与实施例四中相似的方式处理为文本，并与其中的文字内容合成为整个文件的文字内容，计算合成后的文字并获得该文档向量。在步骤53，计算每个区域文档向量与词条表中的词条向量的相关度。其中，词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指，向量与向量之间的夹角的余弦值。在步骤54，选择其中相关度最大的若干个词条作为对应区域的扩展关键词，例如选择8个。在步骤55，当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

图17是实现本发明实施例的系统100的结构图。该系统包括：分区装置101，非文字内容识别装置102，文档向量计算装置109，文档与词条相关度比较装置106，扩展关键词确定装置107，附加装置108和词条向量表110。非文字内容识别装置102又包括：光学字符识别(OCR)103，Speech-to-text104和超链接文档向量获取装置105。

分区装置101用于对内容进行分区，如果分区需要根据文字内容相邻段落的文档向量之间的关系则需要从文档向量计算装置109获得相关信息。如果分区后某些区域具有非文字内容，例如音频，视频，图片或超链接，则需要将这部分内容提交给非文字内容识别装置102，通过对应的功能模块将相关非文字内容变换为文本，然后将其传输给文档向量计算装置109。另外，对于文字内容，由分区装置101直接传输给文档向量计算装置109。文档向量计算装置109根据接收到的文档和词条向量表110基于现有的智能语义搜索技术来计算文档向量。文档与词条相关度比较装置106计算要比较的文档向量与词条向量表110中词条的向量之间的相关度，例如计算向量夹角或向量之间的余弦值。文档与词条相关度比较装置106将比较结果传输给扩展关键词确定装置107，由扩展关键词确定装置107确定扩展关键词。附加装置108将获得的扩展关键词附加到相应的区域。

尽管本发明通过一些特定的优选实施例加以表述，但是本领域的技术人员都应知道，可能的形式上的各种变化和具体化都没有脱离本发明的精神以及权利要求及其等价内容所定义的范围。

Claims

1.一种计算机实现的基于语义的分区域内容扩展的方法，包括：

步骤一：将内容划分成多个区域，其中内容包括文字内容和非文字内容中的至少一种；

在内容为文字内容时：

根据该文字内容的自然段来划分区域；

或者，计算该文字内容中各个自然段的段落文档向量；计算相邻段落之间的段落向量文档的相关度；将所述相邻段落之间的段落向量文档的相关度与一个门限值进行比较，如果大于门限值则将该相邻段落划分到同一个区域，否则划分到不同的区域；

在内容为非文字内容时：

将非文字内容作为一个区域；

步骤二：计算每个区域的区域文档向量；

步骤三：计算每个区域文档向量与词条表中的词条向量的相关度；

步骤四：选择其中相关度最大的若干个词条作为对应区域的扩展关键词；和

步骤五：当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

2.根据权利要求1所述方法，其中非文字内容包括音频，视频，图片或超链接中的至少一种。

3.根据权利要求1所述方法，其中步骤一中包括：从起始自然段开始，依次将若干个相邻的自然段划分到一个区域，使得各个区域的字数大于或等于一个预设门限，但如果减去该区域中最后一个自然段的字数则小于该预设门限。

4.根据权利要求1所述方法，其中所述门限值是固定值或与随文章长度动态调整。

5.根据权利要求2所述方法，其中步骤二包括：将音频变换为文本，然后计算该文本的文档向量作为该音频的文档向量。

6.根据权利要求2所述方法，其中步骤二包括：将视频中文字的变换为文本，然后计算该文本的文档向量作为该视频的文档向量。

7.根据权利要求2所述方法，其中步骤二包括：将图片中的字符变换为文本，然后计算文本的文档向量作为图片的文档向量。

8.根据权利要求2所述方法，其中步骤二包括：计算超链接链接到的文本的文档向量作为超链接的文档向量。

9.根据权利要求1至8中任一项所述的方法，其中步骤四还包括：根据相关度顺序，依次比较所述相关词条是否在整个文章中出现，如果出现则不作为扩展关键词，最终获取N个扩充关键词。

10.根据权利要求1至8中任一项所述的方法，其中步骤四还包括：根据相关度顺序，依次比较所述相关词条是否在已经确定的其他区域的扩充关键词中出现，如果出现则不作为扩展关键词，最终获取N个扩充关键词。

11.根据权利要求1至8中任一项所述的方法，其中步骤五包括：将所有区域对应的扩展关键词都附加在对应区域旁渲染。

12.根据权利要求1至8中任一项所述的方法，其中步骤五包括：选择部分区域对应的扩展关键词附加在对应区域旁渲染。

13.根据权利要求1至8中任一项所述的方法，计算文档向量包括：抽取文档中的词条，比对词条向量表获得相关词条的向量，将这些向量合成为文档向量。

14.一种计算机实现的基于语义的分区域内容扩展的系统，包括：

分区装置，用于将内容分成多个区域；其中，内容包括文字内容和非文字内容中的至少一种；

其中所述分区装置，进一步包括如果内容包括文字内容，根据该文字内容的自然段来划分区域的装置；

或者，计算该文字内容中各个自然段的段落文档向量的装置；该装置，计算相邻段落之间的段落向量文档的相关度；将所述相邻段落之间的段落向量文档的相关度与一个门限值进行比较，如果大于门限值则将该相邻段落划分到同一个区域，否则划分到不同的区域；

其中所述分区装置，进一步包括如果内容包括非文字内容，将每个非文字内容作为一个区域的装置；

文档向量计算装置，用于计算每个区域的区域文档向量；

文档与词条相关度比较装置，用于计算每个区域文档向量与词条表中的词条向量的相关度；

扩展关键词确定装置，用于选择其中相关度最大的若干个词条作为对应区域的扩展关键词；和

附加装置，用于当该内容被请求渲染时，将扩展关键词附加在对应区域旁渲染。

15.根据权利要求14的系统，其中非文字内容包括音频，视频，图片或超链接中的至少一种。

16.根据权利要求14所述的系统，其中分区装置，包括如果内容包括文字内容：

从起始自然段开始，依次将若干个相邻的自然段划分到一个区域，使得各个区域的字数大于或等于一个预设门限，但如果减去该区域中最后一个自然段的字数则小于该预设门限的装置。

17.根据权利要求14所述的系统，其中所述门限值是固定值或与随文章长度动态调整。

18.根据权利要求15所述的系统，其中文档向量计算装置，包括将音频变换为文本，然后计算该文本的文档向量作为该音频的文档向量的装置。

19.根据权利要求15所述的系统，其中文档向量计算装置，包括将视频中文字的变换为文本，然后计算该文本的文档向量作为该视频的文档向量的装置。

20.根据权利要求15所述的系统，其中文档向量计算装置，包括将图片中的字符变换为文本，然后计算文本的文档向量作为图片的文档向量的装置。

21.根据权利要求15所述的系统，其中文档向量计算装置，包括计算超链接链接到的文本的文档向量作为超链接的文档向量的装置。

22.根据权利要求14-21中任意一个系统，其中扩展关键词确定装置还包括：根据相关度顺序，依次比较所述相关词条是否在整个文章中出现，如果出现则不作为扩展关键词，最终获取N个扩充关键词的装置。

23.根据权利要求14-21中任意一个系统，其中扩展关键词确定装置还包括：根据相关度顺序，依次比较所述相关词条是否在已经确定的其他区域的扩充关键词中出现，如果出现则不作为扩展关键词，最终获取N个扩充关键词的装置。

24.根据权利要求14-21中任意一个系统，其中附加装置包括：将所有区域对应的扩展关键词都附加在对应区域旁渲染的装置。

25.根据权利要求14-21中任意一个系统，其中附加装置包括：选择部分区域对应的扩展关键词附加在对应区域旁渲染的装置。

26.根据权利要求14-21中任意一个系统，文档向量计算装置包括：抽取文档中的词条的装置，比对词条向量表获得相关词条的向量的装置，将这些向量合成为文档向量的装置。