CN110175220B - 一种基于关键词位置结构分布的文档相似性度量方法及系统 - Google Patents
一种基于关键词位置结构分布的文档相似性度量方法及系统 Download PDFInfo
- Publication number
- CN110175220B CN110175220B CN201910406179.3A CN201910406179A CN110175220B CN 110175220 B CN110175220 B CN 110175220B CN 201910406179 A CN201910406179 A CN 201910406179A CN 110175220 B CN110175220 B CN 110175220B
- Authority
- CN
- China
- Prior art keywords
- keyword
- document
- lds
- similarity
- distribution sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词位置结构分布的文档相似性度量方法,包括:存储两篇文档W1与W2,文档W1与W2均具有多个自然段;设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到两篇文档的加权相似度。本发明提出文档相似性度量方法,有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足,实用性更强,准确率更高。
Description
技术领域
本发明涉及文档相似度度量技术领域,具体涉及一种基于关键词位置结构分布的文档相似性度量方法及系统。
背景技术
文档间相似性分析计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。常见的文档相似度计算方法简介如下:余弦相似性,基于关键词将文档转换为向量模型,通过计算文档的余弦相似度进行度量;简单共有词法,通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估文档相似度。编辑距离,又称Levenshtein距离,利用将文档中两个字串,由一个转成另一个所需的最少编辑操作次数进行度量。SimHash+汉明距离,将文档转换成64位的字节,然后通过判断两个字节的汉明距离计算相似度。Jaccard相似性系数法,通过比较样本集中的相似性和分散性的概率进行度量。但上述方法均会存在文档词句语义角度度量相似性的偏差以及关键词在文档全文分布结构特征提取的不足的问题。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于关键词位置结构分布的文档相似性度量方法,该方法可以解决文档词句语义角度度量相似性的偏差的问题;也可以规避已有方法从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足的问题,本发明还提供一种基于关键词位置结构分布的文档相似性度量系统。
技术方案:本发明所述的基于关键词位置结构分布的文档相似性度量方法,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
(3)根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
(4)根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
优选的,所述步骤(2)中,所述位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
优选的,所述步骤(3)中,关键词si在文档W1中的位置分布序列表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为 xp自然段出现了q次,位置依次为yp1到ypq;
所述各个关键词在文档W2中的位置分布序列表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a' 为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'。
优选的,所述根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
优选的,所述文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
另一方面,本发明还提供一种基于关键词位置结构分布的文档相似性度量系统,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
关键词查找模块,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
位置分布序列生成模块,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
文档相似度计算模块,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
优选的,所述关键词查找模块还包括位置计算单元,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为 y=precount/sum。
优选的,所述位置分布序列生成模块还包括第一位置分布序列表示单元和第二位置分布序列表示单元,所述第一位置分布序列表示 单元用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为 xp自然段出现了q次,位置依次为yp1到ypq;
第二位置分布序列表示单元,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a' 为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'。
优选的,所述文档相似度计算模块还包括:
第一位置平均值计算单元,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
分布序列相似度表示单元,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度 DistSeq(lds(si,W1),lds(si,W2)):
优选的,所述文档相似度计算模块还包括:
权重计算单元,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
有益效果:本发明与现有技术相比,其显著优点是:本发明提出文档相似性度量方法,侧重关键词在文档中出现段落、段落内出现位置和频次特征角度度量文档相似度,有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足,实用性更强,准确率更高。
附图说明
图1为本发明一实施例所述的方法流程图;
图2为本发明一实施例所述的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
实施例1
本发明提供一种基于关键词位置结构分布的文档相似性度量方法,该方法包括:
S1存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理,并保留分段标记。
S2设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注。
给定目标关键词集合S={s1,s2,...,si,...,sn},n>1为整数,其中,si为一个关键词,1≤i≤n,对S中的每个关键词si,在文档W1中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x,y,si),其中,x为关键词si在文档W1中自然段落的编号,y为对应si位于该段落内的位置。
在文档W2中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x',y',si),其中,x'为关键词si在文档W2中自然段落的编号,y'为对应si位于该段落内的位置。
位置的计算方法为:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为 y=precount/sum。
S3根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
生成关键词si在W1中的位置分布序列:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数, (yp1,...,ypq)表示关键词si在W1的编号为xp的自然段出现了q次,每次位置依次为yp1到ypq;
生成关键词si在W2中的位置分布序列:
lds(si,W2)={{x'1,(y'11,...,y'1a')},...,{x'p’,(y'p'1,...,y'p'q')}},其中,a',p',q'为正整数,a' 为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'。
生成文档W1和W2关于S的位置分布序列集合WS1和WS2,其中 WS1={lds(si,W1)|si∈S},WS2={lds(si,W2)|si∈S};
对分属WS1与WS2的相同关键词的位置分布序列lds(si,W1)和lds(si,W2),计算位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))。
S4根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
首先根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度DistSeq(lds(si,W1),lds(si,W2)),具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
本发明考虑关键词在文档中出现的段落,及其在个段落中出现的次数以及位于段落中的位置关系,在一定意义上体现了该文档与相应关键词的关联紧密性。因此本发明从关键词在文档段落中位置分布结构特征角度,提出文档相似性度量方法,有利于规避文档词句语义角度度量相似性的偏差;也可以规避已有方法从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足。
实施例2
本发明还提供一种基于关键词位置结构分布的文档相似性度量系统,包括:
文档预处理模块1,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理,保留分段标记;
关键词查找模块2,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
关键词查找模块还包括位置计算单元21,用于计算所述关键词si在自然段中的位置信息,具体的:若所述关键词si所在某自然段的总字数为sum;所述自然段中的所述关键词si之前的字数记为precount,则所述关键词si在所述段落的位置为y=precount/sum。
给定目标关键词集合S={s1,s2,...,si,...,sn},n>1为整数,其中,si为一个关键词, 1≤i≤n,对S中的每个关键词si,在文档W1中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x,y,si),其中,x为关键词si在文档W1中自然段落的编号,y为对应si位于该段落内的位置。
在文档W2中查找出现si的所有段落和位置,对每个出现位置,提取其段落和位置信息,并以如下形式三元组标注(x',y',si),其中,x'为关键词si在文档W2中自然段落的编号,y'为对应si位于该段落内的位置。
位置分布序列生成模块3,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
所述位置分布序列生成模块3还包括第一位置分布序列表示单元31和第二位置分布序列表示单元32,所述第一位置分布序列表示 单元31用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}},其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为 xp自然段出现了q次,位置依次为yp1到ypq;
第二位置分布序列表示单元32,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}},其中,a',p',q'为正整数,a' 为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp‘1,...,yp’q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q'。
生成文档W1和W2关于S的位置分布序列集合WS1和WS2,其中 WS1={lds(si,W1)|si∈S},WS2={lds(si,W2)|si∈S};
对分属WS1与WS2的相同关键词的位置分布序列lds(si,W1)和lds(si,W2),计算位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))。
文档相似度计算模块4,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度。
所述文档相似度计算模块4包括:
第一位置平均值计算单元41,用于根据关键词si在W1中的位置分布序列 lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元42,用于根据关键词si在W2中的位置分布序列对 lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元43,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
分布序列相似度表示单元44,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
优选的,所述文档相似度计算模块还包括:
权重计算单元45,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元46,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
通过具体实施例,来说明本发明:
从中文期刊网节选两篇文章的相应段落如下,从两篇论文的关键词中选出如下关键词组S={隐私,直方图},相似度计算中,m取2,两篇文档的自然段数均为2,在预处理计算机程序时不删除自然段的标记。
文档W1:
“直方图作为一种可以直观准确地显示数据分布的统计工具,在社交网络分析、数据共享等领域得到广泛的应用。直方图的横轴表示属性取值区间或属性离散值,纵轴表示取值落在相应取值区间或取值为离散取值的个体统计数量。例如,表1是疾病与相应患者数量的统计表,图1(a)是根据表1绘制的患者统计直方图,图中横轴表示疾病名称,纵轴表示患者统计值。医院可以将这些统计数据直接发布给数据分析研究人员,分析结果可以用于决策等。但是直接将原始直方图发布可能会泄露患者的隐私,对于图1(a)所示的直方图,共有340人参与了疾病统计,假如攻击者已经知道Alice 参与了此次统计,并且获得了除Alice之外339人的患病情况,可以准确地推出Alice 所患疾病。
为了防止原始直方图泄露用户隐私信息,在发布之前需要进行隐私保护处理,得到符合隐私保护需求的发布直方图。差分隐私自从被提出,就被研究者们广泛用于各种数据的隐私保护工作。由于直接在直方图的箱数据上添加拉普拉斯噪声会导致数据可用性降低,目前已经提出了许多改进的差分隐私直方图发布方法,这些工作的主要目的是在保证满足差分隐私的前提下尽可能提高发布直方图的精确度,即发布的直方图与原始直方图的误差应尽可能小。基于分组的直方图发布方法的主要思想是将相临近的桶划分到相同分组,然后在分组平均值上添加拉普拉斯噪声。”
文档W2:
“快速而又准确的获取数据分布的梗概是数据分析与查询的主要任务。直方图是近似估计数据分布的主要技术之一,该技术使用分箱技术近似描述数据分布信息,将数据集按照某种属性划分成不相交的组,每个组用频度或计数表示其特征。直方图的发布通常用来支持聚集查询、范围计数查询,以及数据挖掘等应用。然而若直接发布直方图,而不给予隐私保护,桶的真实计数会泄露个人的敏感信息。图1为HIV疾病监测中心确诊患者的年龄分布,其中40岁患者为20人。若攻击者知道了除Alice 以外其他19人的年龄情况,攻击者利用图1中的直方图可以推理出Alice患了HIV 疾病,进而泄露了Alice的个人隐私。
为了阻止直方图统计信息带来的隐私泄露,在发布之前,需要对其进行隐私保护处理。目前差分隐私已经成为一种新的隐私保护模型,基于该模型出现了多种直方图发布方法。其中,给予数据相关的分组方法是差分隐私下直方图发布的主要技术,该技术利用组平均值近似估计每个原始计数。分组操作的优点在于能够比较准确的响应范围查询。”
实施步骤如下:
对关键词s1=“隐私”:
lds(隐私,W1)=lds("yinsi",W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
{{x1,(y11)},{x2,(y21,...,y27)}}
{{1,(216/289)},{2,(13/249,27/249,38/249,53/249,76/249,129/249,157/249)}}
lds(隐私,W2)
lds("隐私",W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
{{x'1,(y'11,y'12‘)},{x'2,(y'21,...,y'25)}}
{{1,(153/261,259/261)},{2,(14/150,31/150,42/150,52/150,94/150)}}
对关键词“直方图”:
lds(直方图,W1)
lds("直方图",W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
{{x1,(y11,...,y15)},{x2,(y21,...,y28)}}
{{1,(0/289,49/289,134/289,203/289,226/289)},{2,(6/249,47/249,88/249,131/249,170/24 9,182/249,188/249,205/249)}}
lds(直方图,W2)
lds("直方图",W2)={{x'1,(y'11,...,y'1a‘)},...,{x'p’,(y'p‘1,...,y'p’q‘)}}
{{1,(30/261,104/261,145/261)},{2,(4/150,69/150,97/150)}}
生成WS1:
{{{1,(216/289)},{2,(13/249,27/249,38/249,53/249,76/249,129/249,157/249)}}, {{1,(0/289,49/289,134/289,203/289,226/289)},{2,(6/249,47/249,88/249,131/249,170/249,182 /249,188/249,205/249)}}};
生成WS2:
{{{1,(153/261,259/261),{2,(14/150,31/150,42/150,52/150,94/150}}, {{1,(30/261,104/261,145/261),{2,(4/150,69/150,97/150)}}}
同样的,根据关键词“隐私”在W1中的位置分布序列计算各段落位置集合的均值,记作:
{{1,(216/289),{2,(70.4/249)}}
{{1,(206/261)},{2,(46.6/150)}}
计算Avg-lds(隐私,W1)与Avg-lds(隐私,W2)中两两二元组特征的均值差的绝对值,分别为:
|216/289-206/261|=0.0418,|216/289-46.6/150|=0.437,
|164/249-206/261|=0.131,|164/249-46.6/150|=0.348
取这4个值中最大的两个值0.437与0.348,则有
DistSeq(lds(隐私,W1),lds(隐私,W2))=(0.437+0.348)/2=0.393
关键词“隐私”的权重w隐私=2+2=4。
同样的,对关键词“直方图”度量过程如下:
Avg-lds(直方图,W1)
={{1,(122.4/289)},{2,(127.13/249)}}
Avg-lds(直方图,W2)=
{{1,(93/261)},{2,(56.67/150)}}
计算Avg-lds(直方图,W1)与Avg-lds(直方图,W2)中两两二元组特征的均值差的绝对值,分别为:
|122.4/289-93/261|=0.0672,|122.4/289-56.67/150|=0.0457
|127.13/249-93/261|=0.154,|127.13/249-56.67/150|=0.133
取这4个值中最大的两个值0.154和0.133,则有
DistSeq(lds(直方图,W1),lds(直方图,W2))=(0.154+0.133)/2=0.144
关键词“直方图”的权重w直方图=2+2=4。
文档W1与W2关于关键词集合{隐私,直方图}的加权相似度:
WDist(W1,W2)=(4*0.393/(4+4))+(4*0.144/(4+4))=0.269。
以上计算均保留小数点后三位。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (2)
1.一种基于关键词位置结构分布的文档相似性度量方法,其特征在于,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
所述步骤(2)中,位置的计算方法为:若关键词si所在某自然段的总字数为sum;该自然段中的关键词si之前的字数记为precount,则关键词si在所述段落的位置为y=precount/sum;
(3)根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
所述步骤(3)中,关键词si在文档W1中的位置分布序列表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq;
所述各个关键词在文档W2中的位置分布序列表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a')},...,{x'p',(y'p'1,...,y'p'q')}}
其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp'1,...,yp'q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q';
(4)根据各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度;
所述根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,具体包括:
(41)根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
(42)根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
(43)计算Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)中各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
(44)位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2))表示为:
所述文档W1与W2的加权相似度,计算过程包括:
(45)设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
(46)所述文档W1与W2的加权相似度表示为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低
2.一种根据权利要求1所述的基于关键词位置结构分布的文档相似性度量方法实现的系统,其特征在于,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
关键词查找模块,用于设置任意目标关键词集合,在文档W1与W2内查找每个关键词出现的所有段落编号和位置信息,并分别采用三元组进行标注;
关键词查找模块还包括位置计算单元,用于计算关键词si在自然段中的位置信息,具体的:若关键词si所在某自然段的总字数为sum;该自然段中的关键词si之前的字数记为precount,则所述关键词si在该自然段的位置为y=precount/sum;
位置分布序列生成模块,用于根据所述段落编号和位置信息分别生成各个关键词分别在文档W1与W2中的位置分布序列;
所述位置分布序列生成模块还包括第一位置分布序列表示单元和第二位置分布序列表示单元,所述第一位置分布序列表示单元用于计算关键词si在文档W1中的位置分布序列,具体表示为:
lds(si,W1)={{x1,(y11,...,y1a)},...,{xp,(yp1,...,ypq)}}
其中,a,p,q为正整数,a为关键词si在文档W1的编号为x1出现的次数,(yp1,...,ypq)表示关键词si在文档W1的编号为xp自然段出现了q次,位置依次为yp1到ypq;
第二位置分布序列表示单元,用于计算各个关键词在文档W2中的位置分布序列,具体表示为:
lds(si,W2)={{x'1,(y'11,...,y'1a')},...,{x'p',(y'p'1,...,y'p'q')}}
其中,a',p',q'为正整数,a'为关键词si在文档W2的编号为x'1的自然段出现的次数,(yp'1,...,yp'q')表示关键词si在文档W2的编号为x'p'的自然段出现了q'次,位置依次为y'p'1到y'p'q';
文档相似度计算模块,用于根据所述各个关键词分别在文档W1与W2中的位置分布序列计算每个关键词在文档W1与W2中位置分布序列的相似度,进而得到文档W1与W2的加权相似度;
所述文档相似度计算模块还包括:
第一位置平均值计算单元,用于根据关键词si在W1中的位置分布序列lds(si,W1),计算各段落位置集合的均值,记作:
第二位置平均值计算单元,用于根据关键词si在W2中的位置分布序列对lds(si,W2),计算存在所述关键词的各段落位置集合的均值,记作:
计算因子选取单元,用于根据Avg_lds(si,W1)各个二元组和Avg_lds(si,W2)计算各个二元组均值差的绝对值,共计p*p'个值,选数值最大的前m个值,记为D1,D2,...,Dj,...,Dm;
分布序列相似度表示单元,用于表示位置分布序列lds(si,W1)和lds(si,W2)的相似度DistSeq(lds(si,W1),lds(si,W2)):
所述文档相似度计算模块还包括:
权重计算单元,用于设定所述关键词si的权值wi=|lds(si,W1)|+|lds(si,W2)|,
其中,|lds(si,W1)|为所述位置分布序列lds(si,W1)的长度,|lds(si,W2)|为lds(si,W2)的长度;
文档加权相似度计算单元,用于计算所述文档W1与W2的加权相似度,为:
WDist(W1,W2)数值越小,表明两个文档关于目标关键词集合S={s1,s2,...,si,...,sn}表现出的相似性越高,反之相似性越低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910406179.3A CN110175220B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词位置结构分布的文档相似性度量方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910406179.3A CN110175220B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词位置结构分布的文档相似性度量方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175220A CN110175220A (zh) | 2019-08-27 |
CN110175220B true CN110175220B (zh) | 2023-02-17 |
Family
ID=67691177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910406179.3A Active CN110175220B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词位置结构分布的文档相似性度量方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175220B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685534B (zh) * | 2020-12-23 | 2022-12-30 | 上海掌门科技有限公司 | 在创作过程中生成已创作内容的脉络信息的方法与设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100685023B1 (ko) * | 2001-11-13 | 2007-02-20 | 주식회사 포스코 | 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
-
2019
- 2019-05-16 CN CN201910406179.3A patent/CN110175220B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110175220A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021541B (zh) | 区分准标识符属性的二次k‑匿名隐私保护算法 | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
WO2022142027A1 (zh) | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
US20220012231A1 (en) | Automatic content-based append detection | |
CN107590128B (zh) | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 | |
JP2009193584A (ja) | ワードセットに関係するワードの決定 | |
JP2009093654A (ja) | 文書の具体性の決定 | |
Treeratpituk et al. | Name-ethnicity classification and ethnicity-sensitive name matching | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
JP2009093650A (ja) | 文書の段落分析によるその文書のタグの選択 | |
Qiu | Toward deterministic and semiautomated SPADE analysis | |
CN109948125A (zh) | 改进的Simhash算法在文本去重中的方法及系统 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Winkler | Probabilistic linkage | |
CN111524600A (zh) | 基于neighbor2vec的肝癌术后复发风险预测系统 | |
CN110175220B (zh) | 一种基于关键词位置结构分布的文档相似性度量方法及系统 | |
CN110175328B (zh) | 一种基于关键词序列结构的文档相似度度量方法及系统 | |
CN110019829A (zh) | 数据属性确定方法、装置 | |
Clifford et al. | A filtering algorithm for k-mismatch with don't cares | |
Alenazi et al. | A review of similarity measurement for record duplication detection | |
Xu et al. | Index based hidden outlier detection in metric space | |
Tsumoto et al. | Comparing similarity of concepts identified by temporal patterns of terms in biomedical research documents | |
Pamulaparty et al. | A novel approach to perform document clustering using effectiveness and efficiency of simhash |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |