CN110175220A - 一种基于关键词位置结构分布的文档相似性度量方法及系统 - Google Patents

一种基于关键词位置结构分布的文档相似性度量方法及系统 Download PDF

Info

Publication number
CN110175220A
CN110175220A CN201910406179.3A CN201910406179A CN110175220A CN 110175220 A CN110175220 A CN 110175220A CN 201910406179 A CN201910406179 A CN 201910406179A CN 110175220 A CN110175220 A CN 110175220A
Authority
CN
China
Prior art keywords
keyword
document
lds
similarity
position distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910406179.3A
Other languages
English (en)
Other versions
CN110175220B (zh
Inventor
陆介平
倪巍伟
杨春立
李爱东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenjiang College
Original Assignee
Zhenjiang College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenjiang College filed Critical Zhenjiang College
Priority to CN201910406179.3A priority Critical patent/CN110175220B/zh
Publication of CN110175220A publication Critical patent/CN110175220A/zh
Application granted granted Critical
Publication of CN110175220B publication Critical patent/CN110175220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词位置结构分布的文档相似性度量方法,包括:存储两篇文档W1与W2,文档W1与W2均具有多个自然段;设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到两篇文档的加权相似度。本发明提出文档相似性度量方法,有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足,实用性更强,准确率更高。

Description

一种基于关键词位置结构分布的文档相似性度量方法及系统
技术领域
本发明涉及文档相似度度量技术领域,具体涉及一种基于关键词位置结构分布的文档相似性度量方法及系统。
背景技术
文档间相似性分析计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。常见的文档相似度计算方法简介如下:余弦相似性,基于关键词将文档转换为向量模型,通过计算文档的余弦相似度进行度量;简单共有词法,通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估文档相似度。编辑距离,又称Levenshtein距离,利用将文档中两个字串,由一个转成另一个所需的最少编辑操作次数进行度量。SimHash+汉明距离,将文档转换成64位的字节,然后通过判断两个字节的汉明距离计算相似度。Jaccard相似性系数法,通过比较样本集中的相似性和分散性的概率进行度量。但上述方法均会存在文档词句语义角度度量相似性的偏差以及关键词在文档全文分布结构特征提取的不足的问题。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于关键词位置结构分布的文档相似性度量方法,该方法可以解决文档词句语义角度度量相似性的偏差的问题;也可以规避已有方法从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足的问题,本发明还提供一种基于关键词位置结构分布的文档相似性度量系统。
技术方案:本发明所述的基于关键词位置结构分布的文档相似性度量方法,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
(3)根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
(4)根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
优选的,所述步骤(2)中,所述位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
优选的,所述步骤(3)中,关键词si在文档W1中的位置分布序列表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq
所述各个关键词在文档W2中的位置分布序列表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'
优选的,所述根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
优选的,所述文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
另一方面,本发明还提供一种基于关键词位置结构分布的文档相似性度量系统,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
关键词查找模块,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
位置分布序列生成模块,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
文档相似度计算模块,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
优选的,所述关键词查找模块还包括位置计算单元,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
优选的,所述位置分布序列生成模块还包括第一位置分布序列表示单元和第二位置分布序列表示单元,所述第一位置分布序列单元用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq
第二位置分布序列表示单元,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'
优选的,所述文档相似度计算模块还包括:
第一位置平均值计算单元,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
分布序列相似度表示单元,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
优选的,所述文档相似度计算模块还包括:
权重计算单元,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
有益效果:本发明与现有技术相比,其显著优点是:本发明提出文档相似性度量方法,侧重关键词在文档中出现段落、段落内出现位置和频次特征角度度量文档相似度,有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足,实用性更强,准确率更高。
附图说明
图1为本发明一实施例所述的方法流程图;
图2为本发明一实施例所述的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
实施例1
本发明提供一种基于关键词位置结构分布的文档相似性度量方法,该方法包括:
S1存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理,并保留分段标记。
S2设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注。
给定目标关键词集合S={s1,s2,...,si,...,sn},n>1为整数,其中,si为一个关键词,1≤i≤n,对S中的每个关键词si,在文档W1中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x,y,si),其中,x为关键词si在文档W1中自然段落的编号,y为对应si位于该段落内的位置。
在文档W2中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x',y',si),其中,x'为关键词si在文档W2中自然段落的编号,y'为对应si位于该段落内的位置。
位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
S3根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
生成关键词si在W1中的位置分布序列:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,(yp1,...,ypq)表示关键词si在W1的编号为xp的自然段出现了q次,每次位置依次为yp1到ypq
生成关键词si在W2中的位置分布序列:
lds(si,W2)={{x'1,(y'11,...,y'1a')},...,{x'p’,(y'p'1,...,y'p'q')}},其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'
生成文档W1和W2关于S的位置分布序列集合WS1和WS2,其中WS1={lds(si,W1)|si∈S},WS2={lds(si,W2)|si∈S};
对分属WS1与WS2的相同关键词的位置分布序列lds(si,W1)和lds(si,W2),计算位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))。
S4根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
首先根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度DistSeq(lds(si,W1),lds(si,W2)),具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
本发明考虑关键词在文档中出现的段落,及其在个段落中出现的次数以及位于段落中的位置关系,在一定意义上体现了该文档与相应关键词的关联紧密性。因此本发明从关键词在文档段落中位置分布结构特征角度,提出文档相似性度量方法,有利于规避文档词句语义角度度量相似性的偏差;也可以规避已有方法从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足。
实施例2
本发明还提供一种基于关键词位置结构分布的文档相似性度量系统,包括:
文档预处理模块1,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理,保留分段标记;
关键词查找模块2,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
关键词查找模块还包括位置计算单元21,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
给定目标关键词集合S={s1,s2,...,si,...,sn},n>1为整数,其中,si为一个关键词,1≤i≤n,对S中的每个关键词si,在文档W1中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x,y,si),其中,x为关键词si在文档W1中自然段落的编号,y为对应si位于该段落内的位置。
在文档W2中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x',y',si),其中,x'为关键词si在文档W2中自然段落的编号,y'为对应si位于该段落内的位置。
位置分布序列生成模块3,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
所述位置分布序列生成模块3还包括第一位置分布序列表示单元31和第二位置分布序列表示单元32,所述第一位置分布序列单元31用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq
第二位置分布序列表示单元32,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'
生成文档W1和W2关于S的位置分布序列集合WS1和WS2,其中WS1={lds(si,W1)|si∈S},WS2={lds(si,W2)|si∈S};
对分属WS1与WS2的相同关键词的位置分布序列lds(si,W1)和lds(si,W2),计算位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))。
文档相似度计算模块4,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
所述文档相似度计算模块4包括:
第一位置平均值计算单元41,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元42,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元43,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
分布序列相似度表示单元44,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
优选的,所述文档相似度计算模块还包括:
权重计算单元45,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元46,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
通过具体实施例,来说明本发明:
从中文期刊网节选两篇文章的相应段落如下,从两篇论文的关键词中选出如下关键词组S={隐私,直方图},相似度计算中,m取2,两篇文档的自然段数均为2,在预处理计算机程序时不删除自然段的标记。
文档W1:
“直方图作为一种可以直观准确地显示数据分布的统计工具,在社交网络分析、数据共享等领域得到广泛的应用。直方图的横轴表示属性取值区间或属性离散值,纵轴表示取值落在相应取值区间或取值为离散取值的个体统计数量。例如,表1是疾病与相应患者数量的统计表,图1(a)是根据表1绘制的患者统计直方图,图中横轴表示疾病名称,纵轴表示患者统计值。医院可以将这些统计数据直接发布给数据分析研究人员,分析结果可以用于决策等。但是直接将原始直方图发布可能会泄露患者的隐私,对于图1(a)所示的直方图,共有340人参与了疾病统计,假如攻击者已经知道Alice参与了此次统计,并且获得了除Alice之外339人的患病情况,可以准确地推出Alice所患疾病。
为了防止原始直方图泄露用户隐私信息,在发布之前需要进行隐私保护处理,得到符合隐私保护需求的发布直方图。差分隐私自从被提出,就被研究者们广泛用于各种数据的隐私保护工作。由于直接在直方图的箱数据上添加拉普拉斯噪声会导致数据可用性降低,目前已经提出了许多改进的差分隐私直方图发布方法,这些工作的主要目的是在保证满足差分隐私的前提下尽可能提高发布直方图的精确度,即发布的直方图与原始直方图的误差应尽可能小。基于分组的直方图发布方法的主要思想是将相临近的桶划分到相同分组,然后在分组平均值上添加拉普拉斯噪声。”
文档W2:
“快速而又准确的获取数据分布的梗概是数据分析与查询的主要任务。直方图是近似估计数据分布的主要技术之一,该技术使用分箱技术近似描述数据分布信息,将数据集按照某种属性划分成不相交的组,每个组用频度或计数表示其特征。直方图的发布通常用来支持聚集查询、范围计数查询,以及数据挖掘等应用。然而若直接发布直方图,而不给予隐私保护,桶的真实计数会泄露个人的敏感信息。图1为HIV疾病监测中心确诊患者的年龄分布,其中40岁患者为20人。若攻击者知道了除Alice以外其他19人的年龄情况,攻击者利用图1中的直方图可以推理出Alice患了HIV疾病,进而泄露了Alice的个人隐私。
为了阻止直方图统计信息带来的隐私泄露,在发布之前,需要对其进行隐私保护处理。目前差分隐私已经成为一种新的隐私保护模型,基于该模型出现了多种直方图发布方法。其中,给予数据相关的分组方法是差分隐私下直方图发布的主要技术,该技术利用组平均值近似估计每个原始计数。分组操作的优点在于能够比较准确的响应范围查询。”
实施步骤如下:
对关键词s1=“隐私”:
lds(隐私,W1)=lds("yinsi",W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
{{x1,(y11)},{x2,(y21,...,y27)}}
{{1,(216/289)},{2,(13/249,27/249,38/249,53/249,76/249,129/249,157/249)}}
lds(隐私,W2)
lds("隐私",W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
{{x'1,(y'11,y'12‘)},{x'2,(y'21,...,y'25)}}
{{1,(153/261,259/261)},{2,(14/150,31/150,42/150,52/150,94/150)}}
对关键词“直方图”:
lds(直方图,W1)
lds("直方图",W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
{{x1,(y11,...,y15)},{x2,(y21,...,y28)}}
{{1,(0/289,49/289,134/289,203/289,226/289)},{2,(6/249,47/249,88/249,131/249,170/249,182/249,188/249,205/249)}}
lds(直方图,W2)
lds("直方图",W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
{{1,(30/261,104/261,145/261)},{2,(4/150,69/150,97/150)}}
生成WS1
{{{1,(216/289)},{2,(13/249,27/249,38/249,53/249,76/249,129/249,157/249)}},{{1,(0/289,49/289,134/289,203/289,226/289)},{2,(6/249,47/249,88/249,131/249,170/249,182/249,188/249,205/249)}}};
生成WS2
{{{1,(153/261,259/261),{2,(14/150,31/150,42/150,52/150,94/150}},{{1,(30/261,104/261,145/261),{2,(4/150,69/150,97/150)}}}
同样的,根据关键词“隐私”在W1中的位置分布序列计算各段落位置集合的均值,记作:
{{1,(216/289),{2,(70.4/249)}}
{{1,(206/261)},{2,(46.6/150)}}
计算Avg-lds(隐私,W1)与Avg-lds(隐私,W2)中两两二元组特征的均值差的绝对值,分别为:
|216/289-206/261|=0.0418,|216/289-46.6/150|=0.437,
|164/249-206/261|=0.131,|164/249-46.6/150|=0.348
取这4个值中最大的两个值0.437与0.348,则有
DistSeq(lds(隐私,W1),lds(隐私,W2))=(0.437+0.348)/2=0.393
关键词“隐私”的权重w隐私=2+2=4。
同样的,对关键词“直方图”度量过程如下:
Avg-lds(直方图,W1)
={{1,(122.4/289)},{2,(127.13/249)}}
Avg-lds(直方图,W2)=
{{1,(93/261)},{2,(56.67/150)}}
计算Avg-lds(直方图,W1)与Avg-lds(直方图,W2)中两两二元组特征的均值差的绝对值,分别为:
|122.4/289-93/261|=0.0672,|122.4/289-56.67/150|=0.0457
|127.13/249-93/261|=0.154,|127.13/249-56.67/150|=0.133
取这4个值中最大的两个值0.154和0.133,则有
DistSeq(lds(直方图,W1),lds(直方图,W2))=(0.154+0.133)/2=0.144
关键词“直方图”的权重w直方图=2+2=4。
文档W1与W2关于关键词集合{隐私,直方图}的加权相似度:
WDist(W1,W2)=(4*0.393/(4+4))+(4*0.144/(4+4))=0.269。
以上计算均保留小数点后三位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于关键词位置结构分布的文档相似性度量方法,其特征在于,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
(3)根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
(4)根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
2.根据权利要求1所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述步骤(2)中,所述位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
3.根据权利要求1所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述步骤(3)中,关键词si在文档W1中的位置分布序列表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq
所述各个关键词在文档W2中的位置分布序列表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y′p'q'
4.根据权利要求3所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
5.根据权利要求4所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
6.一种根据权利要求1-5任一项所述的基于关键词位置结构分布的文档相似性度量方法实现的系统,其特征在于,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
关键词查找模块,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
位置分布序列生成模块,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
文档相似度计算模块,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
7.根据权利要求6所述的基于关键词位置结构分布的文档相似性度量系统,其特征在于,所述关键词查找模块还包括位置计算单元,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
8.根据权利要求6所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述位置分布序列生成模块还包括第一位置分布序列表示单元和第二位置分布序列表示单元,所述第一位置分布序列单元用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq
第二位置分布序列表示单元,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'
9.根据权利要求8所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档相似度计算模块还包括:
第一位置平均值计算单元,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm
分布序列相似度表示单元,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
10.根据权利要求9所述的基于关键词位置结构分布的文档相似性度量方法,其特征在于,所述文档相似度计算模块还包括:
权重计算单元,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
CN201910406179.3A 2019-05-16 2019-05-16 一种基于关键词位置结构分布的文档相似性度量方法及系统 Active CN110175220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910406179.3A CN110175220B (zh) 2019-05-16 2019-05-16 一种基于关键词位置结构分布的文档相似性度量方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910406179.3A CN110175220B (zh) 2019-05-16 2019-05-16 一种基于关键词位置结构分布的文档相似性度量方法及系统

Publications (2)

Publication Number Publication Date
CN110175220A true CN110175220A (zh) 2019-08-27
CN110175220B CN110175220B (zh) 2023-02-17

Family

ID=67691177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910406179.3A Active CN110175220B (zh) 2019-05-16 2019-05-16 一种基于关键词位置结构分布的文档相似性度量方法及系统

Country Status (1)

Country Link
CN (1) CN110175220B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685534A (zh) * 2020-12-23 2021-04-20 上海掌门科技有限公司 在创作过程中生成已创作内容的脉络信息的方法与设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) * 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) * 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685534A (zh) * 2020-12-23 2021-04-20 上海掌门科技有限公司 在创作过程中生成已创作内容的脉络信息的方法与设备

Also Published As

Publication number Publication date
CN110175220B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN106202548B (zh) 数据存储方法、查找方法及装置
US10579661B2 (en) System and method for machine learning and classifying data
CN108664574B (zh) 信息的输入方法、终端设备及介质
US20220012231A1 (en) Automatic content-based append detection
US20160232211A1 (en) Keyword expansion method and system, and classified corpus annotation method and system
CN104142984A (zh) 一种基于粗细粒度的视频指纹检索方法
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN111475729A (zh) 搜索内容推荐方法及装置
CN103577418B (zh) 海量文档分布式检索排重系统和方法
US10664481B2 (en) Computer system programmed to identify common subsequences in logs
CN109948125A (zh) 改进的Simhash算法在文本去重中的方法及系统
JP2006350656A (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN110516210A (zh) 文本相似度的计算方法和装置
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN109376277A (zh) 确定设备指纹同源性的方法及装置
Yuan et al. Privacy‐preserving mechanism for mixed data clustering with local differential privacy
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN110175220A (zh) 一种基于关键词位置结构分布的文档相似性度量方法及系统
KR101089504B1 (ko) 이미지 군집화 방법과 장치 및 이를 이용한 이미지 인식 방법과 장치
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111563527B (zh) 异常事件检测方法以及装置
CN110175328A (zh) 一种基于关键词序列结构的文档相似度度量方法及系统
CN109145633A (zh) 轨迹数据隐私保护方法、电子设备、存储介质及系统
CN110019829A (zh) 数据属性确定方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant