CN101359330B - 内容扩展的方法和系统 - Google Patents

内容扩展的方法和系统 Download PDF

Info

Publication number
CN101359330B
CN101359330B CN200810105724.7A CN200810105724A CN101359330B CN 101359330 B CN101359330 B CN 101359330B CN 200810105724 A CN200810105724 A CN 200810105724A CN 101359330 B CN101359330 B CN 101359330B
Authority
CN
China
Prior art keywords
vector
document
content
region
document vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810105724.7A
Other languages
English (en)
Other versions
CN101359330A (zh
Inventor
裘钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suoyi Interactive Beijing Information Technology Co ltd
Original Assignee
Suoyi Interactive Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suoyi Interactive Beijing Information Technology Co ltd filed Critical Suoyi Interactive Beijing Information Technology Co ltd
Priority to CN200810105724.7A priority Critical patent/CN101359330B/zh
Publication of CN101359330A publication Critical patent/CN101359330A/zh
Priority to US12/434,855 priority patent/US8296302B2/en
Application granted granted Critical
Publication of CN101359330B publication Critical patent/CN101359330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种内容扩展的方法,包括:将内容划分成多个区域;计算每个区域的区域文档向量;计算每个区域文档向量与词条表中的词条向量的相关度;选择其中相关度最大的若干个词条作为对应区域的扩展关键词;当该文章被请求渲染时,将扩展关键词附加在对应区域旁渲染。

Description

内容扩展的方法和系统
技术领域
本发明涉及内容信息处理领域,尤其涉及根据语义对信息内容进行相关分区域扩充的方法和系统。
背景技术
由于大量的信息内容之间是存在某种联系的,用户在浏览当前内容时非常希望能够看到更多的相关扩展内容。在现有的信息处理领域,尤其是网页内容的处理方面,主要采用的是在整个内容的后面由人工对内容进行鉴别之后,给出相关的内容作为扩充内容。
这样的系统存在至少两个明显的不足,第一个是由于是只给出整个文档的相关扩充内容,而往往在一个完整的文档中有多个不同含意的主题,无法针对这些主题分别给出内容的扩充。第二个是由于是人工给出的扩充内容,效率不高,且相关度不精确。
本申请正是需要能够解决这个问题,将内容分区域,并且根据语义相关找到与当前分区内容相关的扩展关键词。作为对原来内容的语义上的无缝扩充而与内容成为一体化的关键词提供的扩充信息,往往是内容作者或用户没有想到的。这对于帮助或扩充用户对内容的理解有很大帮助。
发明内容
本发明的一个目的是提供:一种内容扩展的方法,包括:将内容划分成多个区域;计算每个区域的区域文档向量;计算每个区域文档向量与词条表中的词条向量的相关度;选择其中相关度最大的若干个词条作为对应区域的扩展关键词;和当该文章被请求渲染时,将扩展关键词附加在对应区域旁渲染。
本发明更进一步的目的是:一种计算机程序产品,存储在计算机可读的介质上,该计算机程序产品具体地包括可读的程序方法,从而触发计算机执行上述的方法。
本发明更进一步的目的是:一种计算机程序,由计算机执行而实现上述方法。
本发明还有一个目的是提供:一种内容扩展的系统,包括:分区装置,用于将内容划分成多个区域;文档向量计算装置,用于计算每个区域的区域文档向量;文档与词条相关度比较装置,用于计算每个区域文档向量与词条表中的词条向量的相关度;扩展关键词确定装置,用于选择其中相关度最大的若干个词条作为对应区域的扩展关键词;和附加装置,用于当该文章被请求渲染时,将扩展关键词附加在对应区域旁渲染。
附图描述
上述内容和其它方面的内容,以及本发明特定优选实施例的特征和优势将通过结合相应附图的详细说明更加清楚。其中:
图1是关于词条的表现方法和组合方式;
图2是词条-文档(term-document)矩阵;
图3是高维(r维)词条空间投影到低维(k维)词条空间的公式;
图4是词条向量表;
图5是描述了词条和文档在二维空间上的投影关系;
图6如何获得查询请求的向量;
图7是根据本发明的第一个实施例;
图8是实现图7中的实施例的流程图10;
图9是根据本发明的第二个实施例;
图10是实现图9中的实施例的流程图20;
图11是根据本发明的第三个实施例;
图12是实现图11中的实施例的流程图30;
图13是根据本发明的第四个实施例;
图14是实现图13中的实施例的流程图40;
图15是根据本发明的第五个实施例;
图16是实现图15中的实施例的流程图50;
图17是实现本发明实施例的系统100的结构图。
所有附图中,同一附图标记理解为同一单元、特征和结构。
优选实施例描述
说明书中定义的内容如具体的结构和单元,是用于辅助全面理解本发明的优选实施例的。因此,根据本领域的普通技术对本申请描述的实施例进行的各种改变和修改都被认为没有脱离本发明的精神范围。同时,为了清楚和简要,省略了对公知的功能和结构的说明。
在现有技术中有大量关于基于语义搜索的技术,本领域技术人员可以利用这些技术很容易的构建词条向量,以及文档向量。其中有代表性的是潜在语义索引模型等技术。下面介绍潜在语义索引的原理,但不代表本发明一定要构建在潜在语义索引之上,本发明可以应用在所有的基于语义的搜索技术上。
潜在语义索引的原理
为了能够更加容易的解释LSI原理,下面通过一个具体例子来描述。设文档由17本书的标题组成。
图1中,有下划线的词表示词条。当然,对于本领域技术人员,存在很多其他选择词条的规则,可以增加或减少词条的数量,也可以改变词条的组合方式等。
图2是16x17词条-文档(term-document)矩阵,被称作A。行代表词条(term),列代表文档(document)。矩阵的值代表该词条在该文档中出现的次数。
奇异值分解把词条-文档矩阵A分解为三个矩阵的乘积形式,即
A=U∑VT    公式1
其中,∑是奇异值的对角矩阵。
图3是潜在语义索引方法通过降维,将高维(r维)词条空间投影到低维(k维)词条空间。
为方便图示表示,在本例中选择k为2,即表示将原词条空间降维到二维词条空间上。矩阵U的前两列表示了词条在二维空间中的向量。获得的向量组即词条向量表如附图中图4所示.
利用这些基本的词条向量,可以根据
v=qTUk-1 k    公式2
来合成新的向量。例如文档向量Bi、用户输入的查询请求,都可通过分析所引用的词条按公式2相合成。本领域技术人员很容易明了,在合成向量时可以考虑词条向量的权重。
图5描述了词条和文档在二维空间上的投影关系。词条向量之间的夹角越小或夹角的余弦值越大,代表词条和和该文档的相关性越大。例如,以词条“oscillation”为例,在所有词条中“delay”与其夹角最小,即“delay”与其最相关。
图6是当用户输入一个查询请求时,如“application theory”,系统通过分析该请求中包含的关键词“application″、“theory”,将该两关键词相关的词条向量按公式2合成如图6,从而获得查询请求的向量。
通过计算文档向量与该查询请求向量的夹角的余弦值,其值越大,表示该文档与查询请求越相关。
词条与文档的相关度是计算词条向量与文档向量之间的夹角的余弦值,其值越大,表示该文档与查询请求越相关。例如,“nonlinear”这个词条与B9的文档向量间的夹角的余弦值最大,所以与“nonlinear”最相关的文档是B9。
本领域技术人员已知的实际应用中,通过上述原理,对现有的足够数量的文献进行上述处理,即可获得全面的词条向量表。计算文档向量的方法是抽取文档中的词条,比对词条向量表获得相关词条的向量,将这些向量合成为文档向量如公式2。为了简化的目的,本申请不再详细描述如何获得词条向量表,因为本领域技术人员可以根据现有技术能够很容易地获得词条向量表。本发明是在现有的词条向量表的基础上描述的。
相关的参考文献如下:
1.M.W.Berry.S.T.Dumaiis&G.W.O’Brien.Using Linear AlgebraIntelligent Information Retrieval.Computer Science Department CS-94-2701994-12。
2.居斌.潜在语义标引在中文信息检索中的研究与实现.计算机工程2007-03。
3.陈越郭力.隐含语义检索及其应用.信息检索技术2001年第6期。
4.Michael W.Berry,Paul G.Young.Using latent semantic indexing formultilanguage information retrieval.Volume 29,Number 6/1995年12月
图7是根据本发明的第一个实施例。在该实施例中,有一个文章1包括2个自然段,分别是p11和p12。各个自然段都具有与其相关的扩展关键词e11和e12。
图8是实现图7中的实施例的流程图10。在该实施例中的内容是包括两段文字的文档1。在步骤11,将该文档1按照自然段来划分,从而划分成两个区域,分别是a11和a12。在步骤12,计算各个区域中的文字的文档向量,分别是v(a11)和v(a12)。在步骤13,计算每个区域文档向量与词条表中的词条向量的相关度。其中,词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指,向量与向量之间的夹角或余弦值。在步骤14,选择其中相关度最大的若干个词条作为对应区域的扩展关键词,例如选择8个。在这个例子中,两组扩展关键词分别为“抗氧化效果|羟苯|人体胃肠|抑制胃酸分泌|抑制肿瘤细胞|血糖浓度|抑制胃酸|中风危险”,“维生素b族|钙吸收率|胃酸过多|饮浓茶|维生素缺乏|促进骨骼|人体体液|优质蛋白质”。各个扩展关键词中使用某个特殊符号,例如“|”分隔开。在步骤15,当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
图9是根据本发明实施例的第二个实施例。在该实施例中,文档2有6个自然段,分别是p21-p26。系统将这6个自然段分成了三个区域,分别是a21-a23。其中,a21包括p21-p22,a22包括p23-p25,a23包括p26。每个区域分别有一组扩充关键词。
图10是实现图9中的实施例的流程图20。在该实施例中的内容是包括6段文字的文档2。在步骤21,计算文章2的每个段落p21-p26的文档向量v(p21)-v(p26);然后,从第一个向量v(p21)开始计算与其下一个段落的文档向量的相关度,如果该相关度大于某个门限值则将这些自然段划分到相同的区域,由于(p21,p22),(p23,p24,p25),(p26)这三个段落的相邻段落的文档向量的相关度大于门限值,所以划分为三个区域,分别是a21=(p21,p22),a22=(p23,p24,p25),a23=(p26)。在步骤22,计算各个区域中的文字的文档向量,,分别是v(a21)-v(a23)。在步骤23,计算每个区域文档向量与词条表中的词条向量的相关度。其中,词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指,向量与向量之间的夹角或余弦值。在步骤24,根据相关度顺序,依次比较所述相关词条是否在对应区域中出现,如果出现则不作为扩展关键词,最终获取N个扩充关键词。例如可以是8个。各个扩展关键词中使用某个特殊符号,例如“|”分隔开。当然,本领域技术人员也能够很容易的实现,将上述的与对应区域比较而改为与整个文章比较。在步骤25,当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
图11是根据本发明实施例的第三个实施例。在该实施例中,文档3有8个自然段,分别是p31-p38。系统将这8个自然段分成了三个区域,分别是a31-a33。其中,a31包括p31-p32,a32包括p33-p35,a23包括p36-p38。每个区域分别有一组扩充关键词。
图12是实现图11中的实施例的流程图30。在该实施例中的内容是包括8段文字的文档3。在步骤31,从起始自然段p31开始,依次将若干个相邻的自然段划分到一个区域,使得各个区域的字数大于或等于一个预设门限,例如300个字,但如果减去该区域中最后一个自然段的字数则小于该预设门限。例如段落p31-p33总计字数超过了300个,但是如果减去段落p33的字数则少于300。根据这样的方式划分为三个区域,分别是a31=(p31,p32),a32=(p33,p34,p35),a33=(p36,p37,p38)。在步骤32,计算各个区域中的文字的文档向量,分别是v(a31)-v(a33)。在步骤33,计算每个区域文档向量与词条表中的词条向量的相关度。其中,词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指,向量与向量之间的夹角或余弦值。在步骤34,根据相关度顺序,依次比较所述相关词条是否在整个文章中出现以及是否在前面的区域的扩充关键词中出现,如果在一个地方出现则不作为扩展关键词,最终获取N个扩充关键词。例如可以是8个。各个扩展关键词中使用某个特殊符号,例如“|”分隔开。当然,本领域技术人员也能够很容易的实现,将上述的整个文章与比较而改为与对应区域比较。在步骤35,当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
图13是根据本发明的第四个实施例。在该实施例中,有一个内容包括2个自然段,分别是p41和p42,以及一个音频文件。各个自然段都具有与其相关的扩展关键词e41和e42。音频文件也有与其相关的扩展关键词e43。
图14是实现图13中的实施例的流程图40。在该实施例中的内容是包括两段文字和一个音频文件的文档4。在步骤41,将该文档4中的文字内容按照自然段来划分,从而划分成2个区域,分别是a41和a42,并将其中的音频文件单独确定为一个区域。在步骤42,计算各个区域中的文字的文档向量,分别是v(a41)和v(a42),采用的方式是抽取文档中的词条,比对词条向量表获得相关词条的向量,将这些向量合成为文档向量。对于音频文件,先使用speech-to-text功能实体对音频文件进行处理,获得相应的文本,并计算该文本的文档向量作为音频文件的文档向量。如果其中的音频文件被替换为视频文件,则利用speech-to-text功能实体将视频中的音频部分变换为音频文本,和/或利用光学字符识别功能实体将视频中的字幕变换为字幕文本,然后计算音频文本和/或字幕文本总的文档向量作为视频的文档向量。此外,对于包含字幕流的视频,可直接利用现有技术将字幕流变换为字幕文本,采取上述方法计算文档向量。另外,如果内容包括图片,则利用光学字符识别功能实体将图片中的字符变换为文本,然后计算文本的文档向量作为图片的文档向量。在步骤43,计算每个区域文档向量与词条表中的词条向量的相关度。其中,词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指,向量与向量之间的夹角或余弦值。在步骤44,选择其中相关度最大的若干个词条作为对应区域的扩展关键词,例如选择8个。在步骤45,当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
图15是根据本发明的第五个实施例。在该实施例中,有一个内容包括2个自然段,分别是p51和p52,以及一个超链接,该超链接指向另一个文件。各个自然段都具有与其相关的扩展关键词e51和e52。超链接也有与其相关的扩展关键词e53。
图16是实现图15中的实施例的流程图50。在该实施例中的内容是包括两段文字和一个超链接的文档5。在步骤51,将该文档5中的文字内容按照自然段来划分,从而划分成2个区域,分别是a51和a52,并将其中的音频文件单独确定为一个区域。在步骤52,计算各个区域中的文字的文档向量,分别是v(a11)和v(a12),采用的方式是抽取文档中的词条,比对词条向量表获得相关词条的向量,将这些向量合成为文档向量。对于超链接则计算被链接到的文档的文档向量。即将被链接到文档中的非文字内容采用与实施例四中相似的方式处理为文本,并与其中的文字内容合成为整个文件的文字内容,计算合成后的文字并获得该文档向量。在步骤53,计算每个区域文档向量与词条表中的词条向量的相关度。其中,词条表中的词条向量是通过例如LSI或则空间向量模型等现有的智能语义搜索技术获得的。其中的相关度指,向量与向量之间的夹角的余弦值。在步骤54,选择其中相关度最大的若干个词条作为对应区域的扩展关键词,例如选择8个。在步骤55,当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
图17是实现本发明实施例的系统100的结构图。该系统包括:分区装置101,非文字内容识别装置102,文档向量计算装置109,文档与词条相关度比较装置106,扩展关键词确定装置107,附加装置108和词条向量表110。非文字内容识别装置102又包括:光学字符识别(OCR)103,Speech-to-text104和超链接文档向量获取装置105。
分区装置101用于对内容进行分区,如果分区需要根据文字内容相邻段落的文档向量之间的关系则需要从文档向量计算装置109获得相关信息。如果分区后某些区域具有非文字内容,例如音频,视频,图片或超链接,则需要将这部分内容提交给非文字内容识别装置102,通过对应的功能模块将相关非文字内容变换为文本,然后将其传输给文档向量计算装置109。另外,对于文字内容,由分区装置101直接传输给文档向量计算装置109。文档向量计算装置109根据接收到的文档和词条向量表110基于现有的智能语义搜索技术来计算文档向量。文档与词条相关度比较装置106计算要比较的文档向量与词条向量表110中词条的向量之间的相关度,例如计算向量夹角或向量之间的余弦值。文档与词条相关度比较装置106将比较结果传输给扩展关键词确定装置107,由扩展关键词确定装置107确定扩展关键词。附加装置108将获得的扩展关键词附加到相应的区域。
尽管本发明通过一些特定的优选实施例加以表述,但是本领域的技术人员都应知道,可能的形式上的各种变化和具体化都没有脱离本发明的精神以及权利要求及其等价内容所定义的范围。

Claims (26)

1.一种计算机实现的基于语义的分区域内容扩展的方法,包括:
步骤一:将内容划分成多个区域,其中内容包括文字内容和非文字内容中的至少一种;
在内容为文字内容时:
根据该文字内容的自然段来划分区域;
或者,计算该文字内容中各个自然段的段落文档向量;计算相邻段落之间的段落向量文档的相关度;将所述相邻段落之间的段落向量文档的相关度与一个门限值进行比较,如果大于门限值则将该相邻段落划分到同一个区域,否则划分到不同的区域;
在内容为非文字内容时:
将非文字内容作为一个区域;
步骤二:计算每个区域的区域文档向量;
步骤三:计算每个区域文档向量与词条表中的词条向量的相关度;
步骤四:选择其中相关度最大的若干个词条作为对应区域的扩展关键词;和
步骤五:当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
2.根据权利要求1所述方法,其中非文字内容包括音频,视频,图片或超链接中的至少一种。
3.根据权利要求1所述方法,其中步骤一中包括:从起始自然段开始,依次将若干个相邻的自然段划分到一个区域,使得各个区域的字数大于或等于一个预设门限,但如果减去该区域中最后一个自然段的字数则小于该预设门限。
4.根据权利要求1所述方法,其中所述门限值是固定值或与随文章长度动态调整。
5.根据权利要求2所述方法,其中步骤二包括:将音频变换为文本,然后计算该文本的文档向量作为该音频的文档向量。
6.根据权利要求2所述方法,其中步骤二包括:将视频中文字的变换为文本,然后计算该文本的文档向量作为该视频的文档向量。
7.根据权利要求2所述方法,其中步骤二包括:将图片中的字符变换为文本,然后计算文本的文档向量作为图片的文档向量。
8.根据权利要求2所述方法,其中步骤二包括:计算超链接链接到的文本的文档向量作为超链接的文档向量。
9.根据权利要求1至8中任一项所述的方法,其中步骤四还包括:根据相关度顺序,依次比较所述相关词条是否在整个文章中出现,如果出现则不作为扩展关键词,最终获取N个扩充关键词。
10.根据权利要求1至8中任一项所述的方法,其中步骤四还包括:根据相关度顺序,依次比较所述相关词条是否在已经确定的其他区域的扩充关键词中出现,如果出现则不作为扩展关键词,最终获取N个扩充关键词。
11.根据权利要求1至8中任一项所述的方法,其中步骤五包括:将所有区域对应的扩展关键词都附加在对应区域旁渲染。
12.根据权利要求1至8中任一项所述的方法,其中步骤五包括:选择部分区域对应的扩展关键词附加在对应区域旁渲染。
13.根据权利要求1至8中任一项所述的方法,计算文档向量包括:抽取文档中的词条,比对词条向量表获得相关词条的向量,将这些向量合成为文档向量。
14.一种计算机实现的基于语义的分区域内容扩展的系统,包括:
分区装置,用于将内容分成多个区域;其中,内容包括文字内容和非文字内容中的至少一种;
其中所述分区装置,进一步包括如果内容包括文字内容,根据该文字内容的自然段来划分区域的装置;
或者,计算该文字内容中各个自然段的段落文档向量的装置;该装置,计算相邻段落之间的段落向量文档的相关度;将所述相邻段落之间的段落向量文档的相关度与一个门限值进行比较,如果大于门限值则将该相邻段落划分到同一个区域,否则划分到不同的区域;
其中所述分区装置,进一步包括如果内容包括非文字内容,将每个非文字内容作为一个区域的装置;
文档向量计算装置,用于计算每个区域的区域文档向量;
文档与词条相关度比较装置,用于计算每个区域文档向量与词条表中的词条向量的相关度;
扩展关键词确定装置,用于选择其中相关度最大的若干个词条作为对应区域的扩展关键词;和
附加装置,用于当该内容被请求渲染时,将扩展关键词附加在对应区域旁渲染。
15.根据权利要求14的系统,其中非文字内容包括音频,视频,图片或超链接中的至少一种。
16.根据权利要求14所述的系统,其中分区装置,包括如果内容包括文字内容:
从起始自然段开始,依次将若干个相邻的自然段划分到一个区域,使得各个区域的字数大于或等于一个预设门限,但如果减去该区域中最后一个自然段的字数则小于该预设门限的装置。
17.根据权利要求14所述的系统,其中所述门限值是固定值或与随文章长度动态调整。
18.根据权利要求15所述的系统,其中文档向量计算装置,包括将音频变换为文本,然后计算该文本的文档向量作为该音频的文档向量的装置。
19.根据权利要求15所述的系统,其中文档向量计算装置,包括将视频中文字的变换为文本,然后计算该文本的文档向量作为该视频的文档向量的装置。
20.根据权利要求15所述的系统,其中文档向量计算装置,包括将图片中的字符变换为文本,然后计算文本的文档向量作为图片的文档向量的装置。
21.根据权利要求15所述的系统,其中文档向量计算装置,包括计算超链接链接到的文本的文档向量作为超链接的文档向量的装置。
22.根据权利要求14-21中任意一个系统,其中扩展关键词确定装置还包括:根据相关度顺序,依次比较所述相关词条是否在整个文章中出现,如果出现则不作为扩展关键词,最终获取N个扩充关键词的装置。
23.根据权利要求14-21中任意一个系统,其中扩展关键词确定装置还包括:根据相关度顺序,依次比较所述相关词条是否在已经确定的其他区域的扩充关键词中出现,如果出现则不作为扩展关键词,最终获取N个扩充关键词的装置。
24.根据权利要求14-21中任意一个系统,其中附加装置包括:将所有区域对应的扩展关键词都附加在对应区域旁渲染的装置。
25.根据权利要求14-21中任意一个系统,其中附加装置包括:选择部分区域对应的扩展关键词附加在对应区域旁渲染的装置。
26.根据权利要求14-21中任意一个系统,文档向量计算装置包括:抽取文档中的词条的装置,比对词条向量表获得相关词条的向量的装置,将这些向量合成为文档向量的装置。
CN200810105724.7A 2008-05-04 2008-05-04 内容扩展的方法和系统 Active CN101359330B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200810105724.7A CN101359330B (zh) 2008-05-04 2008-05-04 内容扩展的方法和系统
US12/434,855 US8296302B2 (en) 2008-05-04 2009-05-04 Method and system for extending content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810105724.7A CN101359330B (zh) 2008-05-04 2008-05-04 内容扩展的方法和系统

Publications (2)

Publication Number Publication Date
CN101359330A CN101359330A (zh) 2009-02-04
CN101359330B true CN101359330B (zh) 2015-05-06

Family

ID=40331782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810105724.7A Active CN101359330B (zh) 2008-05-04 2008-05-04 内容扩展的方法和系统

Country Status (2)

Country Link
US (1) US8296302B2 (zh)
CN (1) CN101359330B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447789B2 (en) * 2009-09-15 2013-05-21 Ilya Geller Systems and methods for creating structured data
US8516013B2 (en) * 2009-03-03 2013-08-20 Ilya Geller Systems and methods for subtext searching data using synonym-enriched predicative phrases and substituted pronouns
JP2011044023A (ja) * 2009-08-21 2011-03-03 Sharp Corp 情報処理装置、表示制御方法、およびプログラム
JP2011141659A (ja) * 2010-01-06 2011-07-21 Fujifilm Corp 文書検索装置ならびにその動作制御方法およびその制御プログラム
CN102262630A (zh) * 2010-05-31 2011-11-30 国际商业机器公司 进行扩展化搜索的方法和装置
TWI459230B (zh) * 2011-08-08 2014-11-01 Ind Tech Res Inst 數位版權管理裝置及數位版權管理方法
US10127306B2 (en) * 2012-11-28 2018-11-13 International Business Machines Corporation Searching alternative data sources
US9817823B2 (en) 2013-09-17 2017-11-14 International Business Machines Corporation Active knowledge guidance based on deep document analysis
CN105005562B (zh) * 2014-04-15 2018-09-21 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
CN108416019A (zh) * 2018-03-06 2018-08-17 王海泉 关联词调整方法及调整系统
CN108399254B (zh) * 2018-03-06 2023-02-24 王海泉 关联词调整方法及调整系统
US11526567B2 (en) * 2018-10-17 2022-12-13 International Business Machines Corporation Contextualizing searches in a collaborative session
CN111222314B (zh) * 2020-01-03 2021-12-21 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
CN112669821B (zh) * 2020-12-17 2024-04-30 中国科学技术大学 一种语音意图识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1252577A (zh) * 1998-10-23 2000-05-10 松下电器产业株式会社 用于处理中文电传文件的方法和装置
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6199067B1 (en) * 1999-01-20 2001-03-06 Mightiest Logicon Unisearch, Inc. System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6424969B1 (en) * 1999-07-20 2002-07-23 Inmentia, Inc. System and method for organizing data
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
WO2003060766A1 (en) * 2002-01-16 2003-07-24 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
US6907431B2 (en) * 2002-05-03 2005-06-14 Hewlett-Packard Development Company, L.P. Method for determining a logical structure of a document
US7249118B2 (en) * 2002-05-17 2007-07-24 Aleri, Inc. Database system and methods
US7519607B2 (en) * 2002-08-14 2009-04-14 Anderson Iv Robert Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
JP3813911B2 (ja) * 2002-08-22 2006-08-23 株式会社東芝 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
US20040139072A1 (en) * 2003-01-13 2004-07-15 Broder Andrei Z. System and method for locating similar records in a database
US20070074102A1 (en) * 2005-09-29 2007-03-29 Reiner Kraft Automatically determining topical regions in a document
US7580910B2 (en) * 2005-04-06 2009-08-25 Content Analyst Company, Llc Perturbing latent semantic indexing spaces
CA2549536C (en) * 2006-06-06 2012-12-04 University Of Regina Method and apparatus for construction and use of concept knowledge base
JP2008021267A (ja) * 2006-07-14 2008-01-31 Fuji Xerox Co Ltd 文献検索システム、文献検索処理方法及び文献検索処理プログラム
US7870133B2 (en) * 2008-01-14 2011-01-11 Infosys Technologies Ltd. Method for semantic based storage and retrieval of information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1252577A (zh) * 1998-10-23 2000-05-10 松下电器产业株式会社 用于处理中文电传文件的方法和装置
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
居斌.《潜在语义标引在中文信息检索中的研究与实现》.《计算机工程》.2007,第33卷(第5期),193-196. *
陈越 等.《隐含语义检索及其应用》.《现代图书情报技术》.2001,(第6期),27-29. *

Also Published As

Publication number Publication date
CN101359330A (zh) 2009-02-04
US8296302B2 (en) 2012-10-23
US20090276420A1 (en) 2009-11-05

Similar Documents

Publication Publication Date Title
CN101359330B (zh) 内容扩展的方法和系统
Lee et al. Automatic generic document summarization based on non-negative matrix factorization
Tonellotto et al. Query embedding pruning for dense retrieval
US20080114742A1 (en) Object entity searching method and object entity searching device
CN103064982A (zh) 一种专利检索时智能推荐专利的方法
Li et al. A distributed meta-learning system for Chinese entity relation extraction
CN112488063B (zh) 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN101315638B (zh) 添加专属扩展词的方法和系统
Jimeno Yepes et al. Knowledge-based and knowledge-lean methods combined in unsupervised word sense disambiguation
CN107644104A (zh) 一种文本特征提取方法及系统
Kramer et al. Homelessness: The other as object
CN101320383B (zh) 基于用户个性化兴趣动态添加附加信息方法和系统
JP5810046B2 (ja) 文書検索キーワード提示装置及び方法及びプログラム
Qu et al. Doc-to-Doc Recommender for Medical Literature with Similarity of Molecule Graphs
CN107577656B (zh) 文本隐含语义激活方法及系统
Zhan et al. On macro-and micro-level information in multiple documents and its influence on summarization
Ko et al. Comparison of Feature Performance in Off-line Hanwritten Korean Alphabet Recognition
Yang et al. Mixed 3D-(2+ 1) D convolution for action recognition
Nomoto Mediameter: A global monitor for online news coverage
Fujiwara et al. A realistic baryon-baryon interaction in the SU6 quark model and its applications to few-baryon systems
Beagle Visualizing keyword distribution across multidisciplinary C-space
Gourgoulhon Numerical Relativity: Solving Einstein's Equations on the Computer
Calistru et al. Inesc, porto at trecvid 2007: Automatic and interactive video search
Ali et al. The Hirsch index applied to topics of interest to developing countries
Slabá et al. The Impact of the Economic Crisis on the Development of the Number of Accommodation Establishments in V4 Countries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant