CN102236693A - 确定文档之间的相似度的方法和设备 - Google Patents

确定文档之间的相似度的方法和设备 Download PDF

Info

Publication number
CN102236693A
CN102236693A CN2011101035019A CN201110103501A CN102236693A CN 102236693 A CN102236693 A CN 102236693A CN 2011101035019 A CN2011101035019 A CN 2011101035019A CN 201110103501 A CN201110103501 A CN 201110103501A CN 102236693 A CN102236693 A CN 102236693A
Authority
CN
China
Prior art keywords
node
similarity
digraph
document data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101035019A
Other languages
English (en)
Other versions
CN102236693B (zh
Inventor
三品拓也
吉滨佐知子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102236693A publication Critical patent/CN102236693A/zh
Application granted granted Critical
Publication of CN102236693B publication Critical patent/CN102236693B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90339Query processing by using parallel associative memories or content-addressable memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种确定文档之间的相似度的方法和设备。本发明的目标是提供一种检测其中混合了文本信息和非文本信息的文档之间的相似度的技术。为了实现上述目标,作为第一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的方法。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述方法包括以下步骤:将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图;以及通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度。

Description

确定文档之间的相似度的方法和设备
技术领域
本发明涉及用于确定多个文档之间的相似度的方法、设备和计算机程序。
背景技术
现在,演示文档的创建逐步增加。经常在一个或多个现有文档的基础上创建新的演示文档。在这种环境中,当机密文档被泄露时,公司会担心丧失信誉度,并且由于丧失信誉度而导致的财务损失风险也将增加。很难断绝有问题文档的泄露并且很难确定该演示文档的创建基础。对于只包括文本的文档,其比较方法是公知的。但是,由于演示文档中混合了对象、文本以及图形和图像等非文本信息,所以很难进行比较。
在专利文献1中,每个图形的面积用作比较确定的基础。具体地说,在比较两个页面时,通过将一个页面上对象之间的面积比与另一页面上对象之间的面积比相比较来确定页面之间的相似度。但是,在专利文献1的方法中,当对象之间的面积比不同时,则确定不存在相似度。因此,这种确定明显不同于人类执行的相似度确定。而且,在专利文献1中,仅使用图像信息而未考虑文本信息。总之,专利文献1中的方法可以被认为是一种在生成完整页面的缩放副本时有效的相似度确定方法。
在非专利文献1中,采用了一种方法,其中当获得了图像之间的相似度时,矢量图像被转换为图形表示,并且图像之间的相似度被计算为图形之间的相似度。但是,在计算诸如演示文档之类的包括图形的文档之间的相似度时,通过非专利文献1中的方法无法获得足够的准确性。这是因为演示文档包括文本数据以及图形数据,并且文本数据显著影响文档的特性。此外,在非专利文献1的方法中,当在完全不同的文档中使用相同图像对象(例如,跨各文档频繁使用的公司标识或剪贴画)时,这些文档将被错误地检测为是相似文档。
非专利文献2披露了一种基于随机游动的图挖掘方法。非专利文献2未描述使用对象之间的面积比获取文本之间的相似度或文档之间的相似度的方法。
引用列表
专利文献
[PTL 1]日本未审查的申请公开No.2007-164648
非专利文献
[NPL 1]Anoop M.Namboodiri,Anil K.Jain,“Retrieval of on-lineHand-Drawn Sketches(检索在线手绘草图,icpr,Vol 2,第642-645页,第17届国际模式识别大会(ICPR′04)-卷2,2004)”
[NPL 2]Kashima H.,Tsuda K.和Inokuchi A.的“Marginalized kernelsbetween labeled graphs(标记图之间的边际核函数,ICML,′03:第20届国际机器学习大会会议记录,AAAI Press,2003,321-328)”
发明内容
技术问题
鉴于上述情况,本发明的目标是提供一种用于检测其中混合了文本信息和非文本信息的文档之间的相似度的技术、一种用于在考虑每个对象的重要度的情况下检测文档之间的相似度的技术,以及一种用于以非常符合人类在一瞥之下确定文档之间相似度的方式执行文档之间的相似度确定的技术。
解决方案
为了解决上述问题,本发明提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的方法。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述方法包括以下步骤:将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图,以及通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度。
在这种情况下,每个对象的重要度可以是所述对象的面积与所有对象的总面积的比(面积比)。
此外,转换为有向图的步骤可包括以下步骤:将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。
在这种情况下,所述节点所拥有的特征可包括文本、图像或图形属性。
此外,指示所述位置关系的信息可包括上方、下方、左侧或右侧。
此外,可通过图挖掘来执行计算有向图之间的相似度的步骤。
此外,可使用以下项执行通过图挖掘计算相似度的步骤:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
在这种情况下,可通过基于随机游动的图挖掘来执行通过图挖掘计算相似度的步骤,并且假设转换后的有向图为G和G′,当使用以下项计算指示有向图G和G′之间的相似度的核函数K(G,G′)时:
ps(i):随机游动从节点i开始的概率,
pt(j|i):发生从节点i转移到节点j的转移概率,
pq(i):随机游动在节点i结束的概率,
K(v,v′):指示所述一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′):指示所述一对边(e,e′)之间的相似度的核函数,
ps(i)或pt(j|i)的值可随每个对象的面积与所有对象的总面积的比(面积比)而成比例地增大。
此外,作为另一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的系统。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述系统包括:用于将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图的装置,以及用于通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度的装置。
此外,作为另一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机程序。所述计算机程序使计算机执行上述每种方法中的步骤。
此外,作为另一方面,提供了存储上述计算机程序以便所述计算机程序可以由计算机读取的记录介质。
本发明的有益效果
使用本发明能够检测其中混合了文本信息和非文本信息的文档之间的相似度,并且在考虑每个对象的重要度的情况下检测文档之间的相似度。在本发明中,对象的面积越大,比较该对象的频率也越高。因此,对象越大,该对象对相似度计算的贡献也越大。在此布置中,可使计算机以非常符合人类在一瞥之下确定文档之间相似度的方式执行确定。
附图说明
图1示出了本发明的过程的概述;
图2示出了将文档数据段转换为标记有向图的流程的更详细的流程图;
图3示出了节点和边的示意性特征;
图4示出了在将演示图用作文档数据的情况下到有向图的示意性转换;
图5示出了节点的特征的内部数据结构;
图6示出了边的标记的数据结构;
图7是本发明的文档相似度确定系统的方块图;
图8是本发明的文档相似度确定系统的详细流程图;
图9是比较页面相似度的过程的更详细的流程图;
图10是本发明的文档数据相似度确定系统的示意性硬件方块图;以及
图11是示出更实际的比较方法的图。
具体实施方式
图1示出了本发明的过程的概述。在步骤110,将每个都包括对象的文档数据段转换为标记有向图(labeled directed graph)。此时,将每个对象转换为节点并计算所述对象的特征。然后,通过边连接所述节点。要被连接的节点之间的地理位置关系被用作分配给对应边的标记。然后,在步骤120,使用获取有向图之间的相似度的函数计算所述文档数据段之间的相似度。此时,除了每个节点的特征和边的位置关系以外,还使用每个对象的重要度执行计算。在本发明中,对象的面积被视为对象的重要度。备选地,可以在不偏离本发明本质的情况下使用其他指标,例如,与特殊形状成比例的信息或使用数字水印技术嵌入的重要度。在本发明的一个实施例中,在节点和边的相似度计算中,将对象的面积与所有对象的总面积的比(面积比)用作对象的重要度。
图2示出了将文档数据段转换为标记有向图的步骤110的更详细的流程图。在步骤210,将文档数据中的每个对象首先转换为节点。此时,对象的属性被设为节点的特征。然后,在步骤220,通过边连接各节点。将要连接的节点之间的位置关系分配给对应的边作为标记。
图3示出了对象的涉及节点和边的属性。在将文档数据转换为标记有向图时,节点所拥有的特征主要包括文本、位图图像和图形属性。文本的内容包括字符串。位图图像包括作者的用户ID和面积。图形属性包括前景颜色、背景颜色、线型、宽度、高度、形状以及面积。边所拥有的特征包括方向和标记。方向包含指示方向从哪个节点延伸到哪个节点的信息。标记包含地理位置信息。
图4示出了在将演示图用作文档数据的情况下到有向图的示意性转换。在两个图中,上图示出了原始图,下图示出了原始图转换而成的有向图。符号v1、v2、v3、v4、v5和v6均表示一个节点。原始图中的符号v1、v2、v3、v4、v5和v6是为了清晰地表达与图的对应,实际图中没有这些符号。在有向图中,节点中的E指示原始对象的形状为椭圆,节点中的R指示原始对象的形状为矩形,并且节点中的B指示原始对象为位图图形。另外,边的标记A、B、L和R分别表示上方、下方、左侧和右侧。例如,在节点v1与v2之间的关系中,对应的标记指示节点v2位于节点v1右侧的位置关系。另外,每个节点都具有特征。例如,在节点v3中,文本为“风险”,线条颜色为黑色,填充色为浅绿色。节点v6具有对位图唯一的标识符并且UID为A593F7。
图5示出了节点的特征的内部数据结构。此数据结构存储在存储器中。在图5中,示出了节点v3。应该理解,针对每个节点号存储了特征名以及值。在图5中,对应对象的形状为椭圆。例如,对于节点v6,对应对象的形状为B,唯一ID包含在特征名中,并且A593F7包含在值中。图5仅示出了一个实例,并且取决于对象类型,可以适当地考虑使用多种特征类型。
图6示出了边的标记的数据结构。此数据结构也存储在存储器中。在图6中,示出了节点v4与v5之间的边。边包括以下特征:方向和标记。方向包括指示方向从哪个节点延伸到哪个节点的“自”和“至”,在“自”和“至”中将节点号设为值。在标记中设置地理位置信息值“上方”、“下方”、“左侧”和“右侧”之一。地理位置信息指示相对于对应边起点处的节点,所述边的终点处的节点的位置。由于节点v5位于节点v4下方,因此在对应值中设置“下方”。另外,由于节点v4位于节点v5上方,因此在对应值中设置“上方”。
实施例
披露了通过核方法实现的采用图挖掘的相似度确定方法作为实施例。图挖掘可以计算可由诸如分子结构之类的图形表示的数据的相似度,并且用于例如根据获取的相似度查找具有特定属性的物质。由于图挖掘方法是公知的,因此将省略具体的方法。例如,非专利文献2中提出了一种方法,其中结合了图挖掘方法以外的随机游动和核方法。因此,现在将其中定义了适合确定文档数据相似度的核函数并将其用于相似度确定的实例示为本发明的实施例。
图挖掘概述
在基于随机游动的图挖掘中,两个标记有向图G和G′之间的核函数K(G,G′)表示为:
[E1]
K ( G , G ′ ) = Σ l = 1 ∞ Σ h Σ h ′ p s ( h 1 ) Π i = 2 l p t ( h i | h i - 1 ) p q ( h 1 )
× p s ′ ( h 1 ′ ) Π j = 2 l p t ′ ( h j ′ | h j - 1 ′ ) p q ′ ( h l ′ )
× K ( v h 1 , v h 1 ′ ′ ) Π k = 2 l K ( e h k - 1 , h k , e h k - 1 ′ , h k ′ ′ ) K ( v h k , v h k ′ ′ )
其中
ps(i)是随机游动从节点i开始的概率,
pt(j|i)是发生从节点i转移到节点j的转移概率,
pq(i)是随机游动在节点i结束的概率,
K(v,v′)是指示一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′)是指示一对边(e,e′)之间的相似度的核函数。
在非专利文献2中,ps和pt为均匀分布,pq为常量。此外,对于K(v,v′)和K(e,e′),当节点或分配给边的标记相互匹配时,函数返回1,否则返回0。在本发明中,假设使用类似的函数。
简言之,核函数可以被视为特征空间中两个特征向量的内积。因此,核函数可以被视为这样的函数:针对具有相似特性的一对向量返回高值,并且针对具有不同特性的一对向量返回低值。也就是说,K(G,G′)可以被认为是表示两个图G和G′的各自结构的相似程度。因此,通过将需要度量其间的相似度的文档数据段的一对页面转换为图并获取图之间的核心函数的值,可以获得所述一对页面之间的相似度。
将图挖掘应用于文档相似度确定
为了将图挖掘应用于包括文本和非文本数据的文档数据,下面确定将文档数据中包括的每个页面转换为图结构的过程和图挖掘所需的参数(ps、pt、pq、K(v,v′)和K(e,e′))。
转换为图结构
文档数据(例如,演示文档中的页面)首先被转换为标记有向图。对象首先被转换为节点。考虑到所述对象中的每个对象的属性(包括文本)是所述节点中的一个对应节点所拥有的特征,因此在下面描述的K(v,v′)的计算中使用属性。然后通过边连接各节点。此时,要被连接的节点之间的地理位置关系(上方、下方、左侧或右侧)被用作分配给对应边的标记。将有意识地使用具有粗粒度的边标记查找对微小改动具有鲁棒性的图结构。有关到有向图的示意性转换可参阅图4。
随机游动参数
接下来将确定与随机游动相关的参数ps(i)、pt(j|i)和pq(i)。此时,可通过调整节点的ps(i)和pt(j|i)更改考虑每个节点的程度。因此,此时调整参数以便赋予主要对象更多的重要度,赋予次要对象较少的重要度。具体而言,随对象所占面积与对应页面的比而成比例地向每个对象分配转移概率。例如,在节点v6的面积为100正方像素的情况下,节点v4的面积为50正方像素,图4中所有对象的相应面积的总和为1000正方像素,ps(v6)=100/1000,因此:
pt(v6|v5)=100/(100+50)
pt(v4|v5)=50/(100+50)
此外,当使用随机数选择随机游动中的起始节点时,每个对象被选择的可能性随该对象所占面积与对应页面的比而成比例地增加。如上所述,对于发生从一个节点转移到另一节点的概率,发生转移到较大面积对象(节点)的可能性也将增加。可通过增加以此方式选择的较大面积对象的可能性来执行其中考虑每个对象的重要度的确定。也就是说,可以以非常符合人类在一瞥之下确定文档之间相似度的方式执行文档之间的相似度确定。在此情况下,不是使用面积比,而是例如使用指示对象与特定形状的接近程度的形状相似度或借助数字水印技术嵌入的不可见重要度作为对象的重要度。
节点和边的核函数
核函数是针对具有相似特性的一对向量返回高值并且针对具有不同特性的一对向量返回低值的函数。任何满足例如:
K(x,y)=K(y,x),K(x,y)>0
的某些条件的函数都可以用作核函数。
对于K(v,v′),通过线性插值获得下面的属性匹配度。每个节点和每条边的特征(属性)存储在存储器中,如图5中的示意性数据结构所示。
对于文本,使用一对节点中出现的常用词的百分比(Jaccard指数)。也就是说,通过比较文本并使用指示同一词语使用百分比的信息来度量文本匹配度。
对于位图图像,将确定对于图像唯一的图像唯一ID是否相同。
对于图形属性,将例如确定前景颜色、背景颜色、线型、宽度和高度中的每一个的匹配度。
对于K(e,e′),函数在标记相互匹配时返回1,否则返回0。有关每条边的示意性数据结构可参阅图6。上述内容只是示意性的,应该理解,可以做出各种更改。
图7示出了本发明的文档相似度确定系统的方块图。文档数据获取单元710读取文档数据并将文档数据存储在文档数据存储单元705中。然后,有向图转换单元720从文档数据存储单元705读取文档数据、将文档数据转换为有向图,然后将有向图存储在图数据存储单元730中。然后,相似度确定单元740读取图数据存储单元730中存储的图数据、确定相似度,然后将结果存储在确定结果累积单元750中。在针对文档数据的所有页面执行相似度确定之后,确定结果输出单元760根据确定结果累积单元450中的累积数据输出最终的相似度确定结果。
图8示出了本发明的文档相似度确定系统的详细流程图。在步骤810,首先读取文档数据1的所有页面并将其存储在文档数据存储单元705中。然后,在步骤820,读取存储在文档数据存储单元705中的文档数据1、将所有页面转换为有向图,然后将所述有向图作为图数据1附加地存储在图数据存储单元730中。类似地,在步骤830,读取文档数据2的所有页面并将其存储在文档数据存储单元705中。然后,在步骤840,读取存储在文档数据存储单元705中的文档数据2、将所有页面转换为有向图,然后将所述有向图作为图数据2附加地存储在图数据存储单元730中。
在步骤850,判定是否完成所有页面的相似度的比较。当比较完成时,在步骤880,根据确定结果累积单元750中的累积数据将最终的相似度确定结果输出为介于0%到100%之间的概率(连续值)。当页面之间的相似度为概率时,将最终相似度优选地计算为概率平均值。备选地,当页面之间的相似度为绝对值时,最终相似度可以是总数。在任一情况下都是先合计再输出页面之间的相似度。当在步骤850中未完成所有页面的比较时,在步骤860,逐一处理需要处理的页面。然后,在步骤870,从图数据存储单元730中的图数据1和图数据2读取要处理的页面并计算页面之间的相似度。接着,将结果附加地存储在确定结果累积单元750中。
在实际演示文档的情况下,文档1和文档2不一定包括相同数量的页面并且将经历各种类型的编辑操作,例如,删除和移动。因此,在本发明中采用了更实际的比较方法。图11示出了实际的比较方法。在图11中,假设图数据1包括n个页面,图数据2包括m个页面。要比较的页面的所有组合的数量为nm。
在一种确定方法中,当nm个对中的每个对都相似时,将整个文档看作是相似的。在这种确定方法中,尽管错误的检测很罕见,但只能检测完全相同的重用,并且因此无法检测部分重用。
在另一方法中,当nm个对中的至少一个对之间的相似度超过预定阈值t时,可将整个文档看作是相似的。在此布置中,即使仅重用一个页面,也可检测到所有类似的文档。这种能够执行全面检测的确定方法适合于需要避免在重用中省略信息的情况。
此外,当确定文档相似时,可即时向用户发出警报。在这种情况下,由于重要的只是确定整体相似度是0(无警报)还是1(警报),因此当nm个对中的任意一个对超过阈值t时,过程都将终止,并显示指示文档相似的信息。此外,可以进行各种更改。
图9示出了在步骤870比较页面相似度的过程的更详细的流程图。在图9的流程图中,计算图数据存储单元730中存储的图数据1和图数据2内要处理的页面之间的相似度。对于要处理的页面,选择比较的起始节点时,函数不一定选择同一个节点,具体取决于包括对象重要度(对象的面积比)的概率。此外,即使起始节点相同,起始节点所转移到的转移目的地节点也不一定相同。在随机游动算法中,当同时转移到多个通过边相连的节点时执行计算,并将过程结束时的路径之间的相似度进行相加。应指出的是,为了便于说明,此描述仅限于图9中从单个节点到单个节点的转移。
在步骤910,首先从所有节点中选择比较开始的初始节点。从图数据1中选择一个节点,并且从图数据2中选择一个节点。此时,可能选择其对应对象的重要度(面积比)较高的节点。然后,在步骤920,使用上述指示一对节点(v,v′)之间的相似度的核函数K(v,v′)计算节点之间的相似度。然后,在步骤930,根据随机游动在节点i结束的上述终止概率pq(i)确定是否满足终止过程的条件。当满足条件时,过程终止。当不满足条件时,在步骤940,根据发生从节点i转移到节点j的上述转移概率pt(j|i)从相邻节点中选择转移目的地节点。此时,可能选择其对应对象的重要度(面积比)较高的节点。然后,在步骤950,使用上述指示一对边(e,e′)之间的相似度的核函数K(e,e′)计算指向转移目的地节点的各条边之间的相似度,并且将结果附加地存储在确定结果累积单元750中。然后,过程返回步骤920。
计算机硬件的方块图
图10示出了本发明的文档数据相似度确定系统的计算机硬件的方块图作为实例。根据本发明的实施例的计算机系统(1001)包括与总线(1004)相连的CPU(1002)和主存储器(1003)。CPU(1002)优选地基于32位或64位架构。例如,可以使用英特尔公司的Xeon(商标)系列、Core(商标)系列、Atom(商标)系列、Pentium(商标)系列或Celeron(商标)系列,或者AMD公司的Phenom(商标)系列、Athlon(商标)系列、Turion(商标)系列或Sempron(商标)系列作为CPU(1002)。
诸如LCD监视器之类的显示器(1006)通过显示器控制器(1005)与总线(1004)相连。显示器(1006)用于显示文档数据、转换后的有向图以及相似度确定结果。硬盘或硅磁盘(1008)以及CD-ROM、DVD或蓝光驱动器(1009)通过IDE或SATA控制器(1007)与总线(1004)相连。根据本发明的程序和数据可以存储在这些存储单元中。本发明的程序、文档数据、转换后的有向图存储在硬盘(1008)或主存储器(1003)中,并且由CPU(1002)执行相似度确定过程。此外,确定结果累积数据优选地存储在硬盘(1008)中。然后,在显示器(1006)上显示最终的相似度确定。
CD-ROM、DVD或蓝光驱动器(1009)用于根据需要将本发明的程序从作为计算机可读介质的CD-ROM、DVD-ROM或蓝光盘安装到硬盘或从作为计算机可读介质的CD-ROM、DVD-ROM或蓝光盘读取数据。另外,键盘(1011)和鼠标(1012)通过键鼠控制器(1010)与总线(1004)相连。
通信接口(1014)基于例如Ethernet(商标)协议。通信接口(1014)通过通信控制器(1013)与总线(1004)相连,将计算机系统物理连接到通信线路(1015),并且为作为计算机系统的操作系统的通信功能的TCP/IP通信协议提供网络接口层。在此情况下,可以通过通信线路读取外部文档数据或有向图并可由CPU(1002)进行处理。
本发明的文档相似度确定方法可以由设备可执行的程序实现,使用例如面向对象的编程语言(例如,C++、Java(注册商标)、Java(注册商标)Beans、Java(注册商标)Applet、Java(注册商标)Script、Perl或Rbuy)或诸如SQL之类的数据库语言编写所述设备可执行的程序。此外,所述程序可以存储在计算机可读记录介质中,也可以进行传输以便分发。
尽管使用特定实施例对本发明进行了描述,但是本发明并不限于所述特定实施例。只要能够实现本发明的操作和优点,就可以在本领域的技术人员可轻松达到的范围内实现其他实施例、添加、更改和删除并将它们包括在本发明的范围内。
标号列表
705:文档数据存储单元
710:文档数据获取单元
720:有向图转换单元
730:图数据存储单元
740:相似度确定单元
750:确定结果累积单元
760:确定结果输出单元

Claims (16)

1.一种支持确定两个文档数据段之间的相似度的计算机可执行的方法,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述方法包括以下步骤:
将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图;以及
使用每个对象的重要度计算转换后的有向图之间的相似度。
2.如权利要求1中所述的方法,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
3.如权利要求1中所述的方法,其中转换为有向图的步骤包括以下步骤:
将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及
通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。
4.如权利要求3中所述的方法,其中所述节点所拥有的特征包括文本、图像或图形属性。
5.如权利要求3中所述的方法,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
6.如权利要求1中所述的方法,其中通过图挖掘来执行计算有向图之间的相似度的步骤。
7.如权利要求6中所述的方法,其中使用以下项执行通过图挖掘计算相似度的步骤:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
8.如权利要求7中所述的方法,其中通过基于随机游动的图挖掘来执行通过图挖掘计算相似度的步骤,并且假设转换后的有向图为G和G′,当使用以下项计算指示有向图G和G′之间的相似度的核函数K(G,G′)时:
ps(i):随机游动从节点i开始的概率,
pt(j|i):发生从节点i转移到节点j的转移概率,
pq(i):随机游动在节点i结束的概率,
K(v,v′):指示所述一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′):指示所述一对边(e,e′)之间的相似度的核函数,
ps(i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
9.一种支持确定两个文档数据段之间的相似度的计算机可执行的系统,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述系统包括:
用于将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图的装置;以及
用于通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度的装置。
10.如权利要求9中所述的系统,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
11.如权利要求9中所述的系统,其中用于转换为有向图的装置包括:
用于将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征的装置,以及
用于通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息的装置。
12.如权利要求11中所述的系统,其中所述节点所拥有的特征包括文本、图像或图形属性。
13.如权利要求11中所述的系统,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
14.如权利要求9中所述的系统,其中通过图挖掘来执行有向图之间的相似度的计算。
15.如权利要求14中所述的系统,其中使用以下项执行通过图挖掘计算所述相似度:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
16.如权利要求15中所述的系统,其中通过基于随机游动的图挖掘来执行通过图挖掘计算所述相似度,并且假设转换后的有向图为G和G′,当使用以下项计算指示有向图G和G′之间的相似度的核函数K(G,G′)时:
ps(i):随机游动从节点i开始的概率,
pt(j|i):发生从节点i转移到节点j的转移概率,
pq(i):随机游动在节点i结束的概率,
K(v,v′):指示所述一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′):指示所述一对边(e,e′)之间的相似度的核函数,
ps(i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
CN201110103501.9A 2010-04-28 2011-04-25 确定文档之间的相似度的方法和设备 Expired - Fee Related CN102236693B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP104088/2010 2010-04-28
JP2010104088A JP5467643B2 (ja) 2010-04-28 2010-04-28 文書の類似度を判定する方法、装置及びプログラム。

Publications (2)

Publication Number Publication Date
CN102236693A true CN102236693A (zh) 2011-11-09
CN102236693B CN102236693B (zh) 2015-04-08

Family

ID=44859133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110103501.9A Expired - Fee Related CN102236693B (zh) 2010-04-28 2011-04-25 确定文档之间的相似度的方法和设备

Country Status (3)

Country Link
US (1) US20110270851A1 (zh)
JP (1) JP5467643B2 (zh)
CN (1) CN102236693B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法
CN110890977A (zh) * 2019-10-15 2020-03-17 平安科技(深圳)有限公司 云平台的主机节点监控方法、装置和计算机设备

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8499284B2 (en) * 2008-09-11 2013-07-30 Microsoft Corporation Visualizing relationships among components using grouping information
US8509525B1 (en) * 2011-04-06 2013-08-13 Google Inc. Clustering of forms from large-scale scanned-document collection
US9792017B1 (en) 2011-07-12 2017-10-17 Domo, Inc. Automatic creation of drill paths
US10001898B1 (en) 2011-07-12 2018-06-19 Domo, Inc. Automated provisioning of relational information for a summary data visualization
US9202297B1 (en) 2011-07-12 2015-12-01 Domo, Inc. Dynamic expansion of data visualizations
JP2013149061A (ja) * 2012-01-19 2013-08-01 Nec Corp 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
JP5910867B2 (ja) 2012-03-13 2016-04-27 日本電気株式会社 文書内の図情報を利用した類似文書の検索システム及び方法
US9158970B2 (en) * 2012-11-16 2015-10-13 Canon Kabushiki Kaisha Devices, systems, and methods for visual-attribute refinement
US9779063B1 (en) * 2013-03-15 2017-10-03 Not Invented Here LLC Document processor program having document-type dependent interface
US9753960B1 (en) * 2013-03-20 2017-09-05 Amdocs Software Systems Limited System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
US9405853B2 (en) * 2013-06-17 2016-08-02 Hewlett Packard Enterprise Development Lp Reading object queries
US10776501B2 (en) 2013-08-07 2020-09-15 Microsoft Technology Licensing, Llc Automatic augmentation of content through augmentation services
KR102094507B1 (ko) * 2013-11-01 2020-03-27 삼성전자주식회사 선택적 정제를 이용한 계층적 중요점 영상 생성 방법, 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 중요점 영상 생성 장치.
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
US10127230B2 (en) 2015-05-01 2018-11-13 Microsoft Technology Licensing, Llc Dynamic content suggestion in sparse traffic environment
US10394949B2 (en) 2015-06-22 2019-08-27 Microsoft Technology Licensing, Llc Deconstructing documents into component blocks for reuse in productivity applications
US10740349B2 (en) 2015-06-22 2020-08-11 Microsoft Technology Licensing, Llc Document storage for reuse of content within documents
US10339183B2 (en) 2015-06-22 2019-07-02 Microsoft Technology Licensing, Llc Document storage for reuse of content within documents
US10395325B2 (en) * 2015-11-11 2019-08-27 International Business Machines Corporation Legal document search based on legal similarity
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter
US11222054B2 (en) * 2018-03-12 2022-01-11 International Business Machines Corporation Low-complexity methods for assessing distances between pairs of documents
CN114600096A (zh) * 2019-10-25 2022-06-07 株式会社半导体能源研究所 文档检索系统
JP7147996B2 (ja) * 2019-11-22 2022-10-05 日本電信電話株式会社 画像識別装置、画像識別方法及び画像識別プログラム
US11568663B2 (en) * 2020-05-05 2023-01-31 Jpmorgan Chase Bank, N.A. Image-based document analysis using neural networks

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
CN1959671A (zh) * 2005-10-31 2007-05-09 北大方正集团有限公司 基于文档结构的文档相似性度量方法
US20070143272A1 (en) * 2005-12-16 2007-06-21 Koji Kobayashi Method and apparatus for retrieving similar image
US20080097941A1 (en) * 2006-10-19 2008-04-24 Shivani Agarwal Learning algorithm for ranking on graph data
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008181460A (ja) * 2007-01-26 2008-08-07 Ricoh Co Ltd 文書画像検索装置および文書画像検索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
CN1959671A (zh) * 2005-10-31 2007-05-09 北大方正集团有限公司 基于文档结构的文档相似性度量方法
US20070143272A1 (en) * 2005-12-16 2007-06-21 Koji Kobayashi Method and apparatus for retrieving similar image
US20080097941A1 (en) * 2006-10-19 2008-04-24 Shivani Agarwal Learning algorithm for ranking on graph data
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法
CN102651034B (zh) * 2012-04-11 2013-11-20 江苏大学 一种基于核函数的文档相似检测方法
CN110890977A (zh) * 2019-10-15 2020-03-17 平安科技(深圳)有限公司 云平台的主机节点监控方法、装置和计算机设备
WO2021072844A1 (zh) * 2019-10-15 2021-04-22 平安科技(深圳)有限公司 云平台的主机节点监控方法、装置和计算机设备

Also Published As

Publication number Publication date
US20110270851A1 (en) 2011-11-03
CN102236693B (zh) 2015-04-08
JP5467643B2 (ja) 2014-04-09
JP2011233023A (ja) 2011-11-17

Similar Documents

Publication Publication Date Title
CN102236693B (zh) 确定文档之间的相似度的方法和设备
US20210342404A1 (en) System and method for indexing electronic discovery data
Balsmeier et al. Machine learning and natural language processing on the patent corpus: Data, tools, and new measures
CN102722709B (zh) 一种垃圾图片识别方法和装置
US20200183986A1 (en) Method and system for document similarity analysis
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN103544186A (zh) 挖掘图片中的主题关键词的方法和设备
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN106407450A (zh) 文件搜索方法及装置
Lai et al. A natural language processing approach to understanding context in the extraction and geocoding of historical floods, storms, and adaptation measures
CN109857869B (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
Dou et al. Expandable group identification in spreadsheets
JP5629908B2 (ja) セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN112949476A (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN103324641B (zh) 信息记录推荐方法和装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Sheeren et al. A data‐mining approach for assessing consistency between multiple representations in spatial databases
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
CN105573971A (zh) 表格重构装置和方法
US9672438B2 (en) Text parsing in complex graphical images
CN112632223A (zh) 案事件知识图谱构建方法及相关设备
Dutta et al. Structural analysis and regular expressions based noise elimination from web pages for web content mining
El Abdouli et al. Mining tweets of Moroccan users using the framework Hadoop, NLP, K-means and basemap

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150408