CN108304480B - 一种文本相似度确定方法、装置及设备 - Google Patents

一种文本相似度确定方法、装置及设备 Download PDF

Info

Publication number
CN108304480B
CN108304480B CN201711476821.2A CN201711476821A CN108304480B CN 108304480 B CN108304480 B CN 108304480B CN 201711476821 A CN201711476821 A CN 201711476821A CN 108304480 B CN108304480 B CN 108304480B
Authority
CN
China
Prior art keywords
text
word set
feature
same
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711476821.2A
Other languages
English (en)
Other versions
CN108304480A (zh
Inventor
赵耕弘
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711476821.2A priority Critical patent/CN108304480B/zh
Publication of CN108304480A publication Critical patent/CN108304480A/zh
Application granted granted Critical
Publication of CN108304480B publication Critical patent/CN108304480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了文本相似度确定方法、装置及设备,实现对两个文本的文本相似度的计算。包括:获取包括第一特征词集合和相同特征词集合的第一文本,和包括相同特征词集合和第二特征词集合的第二文本;根据相同特征词集合和第一特征词集合之间的相关性,得到相同特征词集合表达第一文本的概率;根据相同特征词集合和第二特征词集合之间的相关性,得到相同特征词集合表达第二文本的概率;基于相同特征词集合表达第一文本的概率和表达第二文本的概率,确定第一文本和第二文本之间的第一相似度。

Description

一种文本相似度确定方法、装置及设备
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本相似度确定方法、装置及设备。
背景技术
在自然语言处理过程中,计算文本之间的相似度是文本处理的基础。利用文本间的相似度,可以完成例如文章查重、热点抽取、兴趣发现等功能。不仅如此,利用文本间相似度作为前置运算,后续还可以执行对文本进行聚类等复杂运算。由此可见,如何确定文本相似度是非常重要的。
发明内容
本申请实施例提供了一种文本相似度确定方法及装置,实现了对第一文本和第二文本之间相似度的确定。
本申请实施例提供了一种文本相似度确定方法,所述方法包括:
获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词;
根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,所述方法还包括:
根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
可选的,所述根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率包括:
获取所述相同特征词集合中特征词的词向量,以及所述第一特征词集合中特征词的词向量;
根据所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第一文本的概率;
根据所述相同特征词集合中每个特征词表达所述第一文本的概率,得到所述相同特征词集合表达所述第一文本的概率;
和/或,
所述根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率包括:
获取所述相同特征词集合中特征词的词向量,以及所述第二特征词集合中特征词的词向量;
根据所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第二文本的概率;
根据所述相同特征词集合中每个特征词表达所述第二文本的概率,得到所述相同特征词集合表达所述第二文本的概率。
可选的,所述基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度包括:
根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,若所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,则所述根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度包括:
根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
本申请实施例提供了一种文本相似度确定装置,所述装置包括:
文本获取单元,用于获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词;
第一概率确定单元,用于根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
第二概率确定单元,用于根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
第一相似度确定单元,用于基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,所述装置还包括:
第二相似度确定单元,用于根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度;
总体相似度确定单元,用于根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
可选的,所述第一相似度确定单元,具体用于:
根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,若所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,则总体相似度确定单元,具体用于:
根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
本申请实施例还提供了一种文本相似度确定设备,所述设备包括处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词;
根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
本实施例通过获取第一文本和第二文本,根据所述相同特征词集合和第一文本的所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;根据所述相同特征词集合和第二文本的所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度,实现对第一文本和第二文本之间相似度的确定。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种文本相似度确定方法的流程图;
图2为本申请实施例提供的一种文本相似度确定装置的结构框图;
图3为本申请实施例提供的一种文本相似度确定设备的硬件架构图。
具体实施方式
本申请实施例提供了一种文本相似度确定方法,该方法包括两个文本,即第一文本和第二文本,将这两个文本分别划分为两个特征词集合,其中一个特征词集合为两个文本中共同出现的特征词形成的集合,即相同特征词集合;另外一个特征词集合为其余的特征词形成的集合,其中,第一文本的其余特征词形成的集合为第一特征词集合,第二文本的其余特征词集合为第二特征词集合。然后根据相同特征词集合和第一特征词集合得到相同特征词集合表达第一文本的概率,以及根据相同特征词集合和第二特征词集合得到相同特征词集合表达第二文本的概率。基于这两个概率得到第一文本和第二文本的第一相似度。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种文本相似度确定方法的流程图。
本实施例提供的文本相似度确定方法包括如下步骤:
S101:获取第一文本和第二文本。
在本实施例中,所述第一文本和所述第二文本可以为论文、新闻稿、著作、博客等等,本申请不做具体限定。所述第一文本和所述第二文本的语言可以是中文、英文、日文、韩文等,本申请也不做具体限定。
所述第一文本和所述第二文本均由特征词构成,所述特征词为含义独立的词,例如名词、动词、形容词等。从所述第一文本和第二文本中获取各自的特征词的方式例如可以是:首先对第一文本和第二文本进行分词,然后从分词结果中去除停用词,例如的、吗、呢、啊等等,剩余的词即为特征词。
所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词。
例如,第一文本T1包括的特征词有A、B、C、D、E、F、G、H和I,第二文本T2包括的特征词有H、I、J、K和L。那么相同特征词集合SameWord(T1&T2)=(H,I)。第一特征词集合RESTT1=(A,B,C,D,E,F,G),第二特征词集合RESTT2=(J,K,L)。
S102:根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率。
在本实施例中,所述相同特征词集合中的特征词和所述第一特征词集合中的特征词之间的相关性越高,表示相同特征词集合和第一特征词集合表达的含义越相近,那么相同特征词集合表达所述第一文本的概率也越高,即相同特征词集合为第一文本的核心词的可能性就越高。
所以,可以通过所述相同特征词集合中的特征词和所述第一特征词集合中的特征词之间的相关性,来计算所述相同特征词集合表达所述第一文本的概率。
具体的,相关性可以用词向量之间的距离来表示。即,首先获取所述相同特征词集合中特征词的词向量,以及所述第一特征词集合中特征词的词向量。然后,根据所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第一文本的概率。最后,根据所述相同特征词集合中每个特征词表达所述第一文本的概率,得到所述相同特征词集合表达所述第一文本的概率。
计算词向量之间的距离可以通过计算词向量之间的欧式距离、词向量夹角的余弦、曼哈顿距离等,此处不做具体限定。
可选的,根据所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第一文本的概率可以通过如下方式来实现:
将所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离的求平均,得到所述相同特征词集合中该特征词表达所述第一文本的概率。
以上述例子为例,相同特征词集合SameWord(T1&T2)=(H,I),这两个特征词对应的词向量分别为:VectorH和VectorI。第一特征词集合RESTT1=(A,B,C,D,E,F,G),这些特征词对应的词向量分别为:VectorA、VectorB、VectorC、VectorD、VectorE、VectorF和VectorG。那么,相同特征词集合SameWord(T1&T2)中特征词H表达第一文本的概率
Figure BDA0001533004760000071
相同特征词集合SameWord(T1&T2)中特征词I表达第一文本的概率
Figure BDA0001533004760000072
其中,cos表示求词向量之间夹角的余弦。
当然,计算所述相同特征词集合中某个特征词表达所述第一文本的概率的方法除了求平均,还可以用其他方式,例如加权求和等等,本申请不做具体限定。
可选的,在得到所述相同特征词集合中每个特征词表达所述第一文本的概率之后,将所述相同特征词集合中每个特征词表达所述第一文本的概率求平均,得到所述相同特征词集合表达所述第一文本的概率。
例如,相同特征词集合SameWord(T1&T2)表达所述第一文本的概率
Figure BDA0001533004760000073
当然,可以理解的是,所述相同特征词集合表达所述第一文本的概率除了将每个特征词表达所述第一文本的概率求平均得到,还有其他方式,例如加权求和等等,本实施例不做具体限定。
S103:根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率。
在本实施例中,所述相同特征词集合中的特征词和所述第二特征词集合中的特征词之间的相关性越高,表示相同特征词集合和第二特征词集合表达的含义越相近,那么相同特征词集合表达所述第二文本的概率也越高,即相同特征词集合为第二文本的核心词的可能性就越高。
所以,可以通过所述相同特征词集合中的特征词和所述第二特征词集合中的特征词之间的相关性,来计算所述相同特征词集合表达所述第二文本的概率。
具体的,相关性可以用词向量之间的距离来表示。即,首先获取所述相同特征词集合中特征词的词向量,以及所述第二特征词集合中特征词的词向量。然后,根据所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第二文本的概率。最后,根据所述相同特征词集合中每个特征词表达所述第二文本的概率,得到所述相同特征词集合表达所述第二文本的概率。
计算词向量之间的距离可以通过计算词向量之间的欧式距离、词向量夹角的余弦、曼哈顿距离等,此处不做具体限定。
可选的,根据所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第二文本的概率可以通过如下方式来实现:
将所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离的求平均,得到所述相同特征词集合中该特征词表达所述第二文本的概率。
以上述例子为例,相同特征词集合SameWord(T1&T2)=(H,I),这两个特征词对应的词向量分别为:VectorH和VectorI。第二特征词集合RESTT2=(J,K,L),这些特征词对应的词向量分别为:VectorJ、VectorK和VectorL。那么,相同特征词集合SameWord(T1&T2)中特征词H表达第二文本的概率sim(H&RESTT2)=(cos(VectorH,VectorJ)+cos(VectorH,VectorK)+cos(VectorH,VectorL))/3,相同特征词集合SameWord(T1&T2)中特征词I表达第二文本的概率sim(I&RESTT2)=(cos(VectorI,VectorJ)+cos(VectorI,VectorK)+cos(VectorI,VectorL))/3。
其中,cos表示求词向量之间夹角的余弦。
当然,计算所述相同特征词集合中某个特征词表达所述第二文本的概率的方法除了求平均,还可以用其他方式,例如加权求和等等,本申请不做具体限定。
可选的,在得到所述相同特征词集合中每个特征词表达所述第二文本的概率之后,将所述相同特征词集合中每个特征词表达所述第二文本的概率求平均,得到所述相同特征词集合表达所述第二文本的概率。
例如,相同特征词集合SameWord(T1&T2)表达所述第二文本的概率
Figure BDA0001533004760000091
当然,可以理解的是,所述相同特征词集合表达所述第二文本的概率除了将每个特征词表达所述第二文本的概率求平均得到,还有其他方式,例如加权求和等等,本实施例不做具体限定。
S104:基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
如前文所述,由于相同特征词集合表达第一文本的概率越高,是第一文本的核心词的可能性就越大,同样,相同特征词集合表达第二文本的概率越高,是第二文本的核心词的可能性越大。所以相同特征词集合分别表达第一文本的概率和第二文本的概率,可以在一定程度上反映出第一文本和第二文本之间相似度,即第一相似度。
具体的,计算第一相似度可以有多种方式,本实施例不做具体限定。例如将所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率求平均或者加权求和等,得到第一相似度。
本实施例通过获取第一文本和第二文本,根据所述相同特征词集合和第一文本的所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;根据所述相同特征词集合和第二文本的所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度,实现对第一文本和第二文本之间相似度的确定。
可选的,在本实施例中,参见图1,所述文本相似度确定方法还包括如下步骤:
S105:根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度。
在本实施例中,所述第一特征词集合和所述第二特征词集合是所述第一文本和所述第二文本的区别特征词,尽管是区别特征词,在语义上也有可能是存在相关关系的。例如第一文本讲述的是“无人机”,第二文本讲述的是“无人飞行器”,尽管这两个特征词不同,被归为区别特征词,但是这两个特征词在语义上是相同的,所以仍然需要根据第一特征词集合和所述第二特征词集合,确定所述第一文本和所述第二文本之间的相似度,即第二相似度。
可选的,可以通过如下方式计算第二相似度:
首先,获取所述第一特征词集合中各个特征词的词向量,以及所述第二特征词集合中各个特征词的词向量。然后,将所述第一特征词集合中各个特征词的词向量求和,得到所述第一特征词集合对应的向量。并且,将所述第一特征词集合中各个特征词的词向量求和,得到所述第一特征词集合对应的向量。接着,计算所述第一特征词集合对应的向量和所述第二特征词集合对应的向量之间的距离。最后,根据所述第一特征词集合对应的向量和所述第二特征词集合对应的向量之间的距离,得到所述第二相似度。
例如,第二相似度
Figure BDA0001533004760000101
在上述公式中,第一特征词集合对应的向量为
Figure BDA0001533004760000102
第二特征词集合对应的向量为
Figure BDA0001533004760000103
这两个向量之间的距离除了求二者夹角的余弦,还可以求欧式距离、曼哈顿距离等,本申请不做具体限定。
S106:根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
在本实施例中,综合第一相似度和第二相似度,得到第一文本和第二文本的总体相似度,以使提高计算第一文本和第二文本的相似度的准确度。
计算总体相似度的方式有很多种,例如可以直接将第一相似度和第二相似度求和,也可以加权求和等。
可以理解的是,上述步骤的顺序并不对本申请进行限定,例如S102和S103的步骤可以互换,也可以同时进行;S104和S105的步骤也可以互换或同时进行。
本实施例提供的文本相似度确定方法既适用于特征词数目差异较小的文本,也适用于长度差异较大的文本。可选的,如果面对的场景是特征词数目差异较大的文本,那么由于较短的文本的特征词的数量总体较少,所以相同特征词的数量也较少,相比较于特征词数目差异较小的场景,计算得到的文本相似度会较低。
本实施例还提供如下技术手段,基于上述文本相似度确定方法,在文本特征词数目差异较大的情况下,进一步提高文本相似度的计算准确性。
具体的,假设所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,也就是说,第一文本可以看作是长文本,第二文本可以看作是短文本。需要注意的是,长文本和短文本是相对的概念,并不意味着特征词的数目多于某个阈值才为长文本,特征词的数目低于某个阈值才为短文本。
技术手段一:针对第一相似度的计算
可选的,可以根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
例如,若
Figure BDA0001533004760000121
则令第一相似度
Figure BDA0001533004760000122
Figure BDA0001533004760000123
则令第一相似度
Figure BDA0001533004760000124
Figure BDA0001533004760000125
则令第一相似度
Figure BDA0001533004760000126
Figure BDA0001533004760000127
这是因为,如果
Figure BDA0001533004760000128
说明比起长文本,相同特征词集合更能表达短文本,由于短文本的特征词较少,而长文本本身特征词多,所以应当更加优先考虑相同特征词集合对短文本的表达,因而选取较大的
Figure BDA0001533004760000129
作为第一相似度。
如果
Figure BDA00015330047600001210
说明比起短文本,相同特征词集合更能表达长文本,而由于长文本中所包含的特征词较多,在表达主旨能力上比短文本有优势,而短文本的特征词少,共同的特征词本来就少。但如果该部分特征词能够较好的表达长文本的主旨,那么说明该部分特征词有较高的主旨概括能力。而当短文本包括这些特征词时,那么说明这些特征词即有表达长文本语义的能力,又有表达短文本语义的能力,所以将较大的
Figure BDA00015330047600001211
作为第一相似度比较合适,能够进一步提高总体相似度的准确性。
技术手段二:针对总体相似度的计算
可以通过对第一相似度和第二相似度进行加权求和得到总体相似度:根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
例如,总体相似度
Figure BDA00015330047600001212
其中,a1为第一权重,a2为第二权重。其中,
Figure BDA00015330047600001213
numSameWord(T1&T2)为相同特征词集合中特征词的数量,在上述例子中,SameWord(T1&T2)=(H,I),所以numSameWord(T1&T2)=2。min(numT1,numT2)为第一文本的特征词数目和第二文本的特征词数目的较小值,因为第一文本的特征词数目多于第二文本的特征词的数目,那么min(numT1,numT2)=numT2。在上述例子中,第二文本T2包括的特征词有H、I、J、K和L,因此numT2=5,也就是说,
Figure BDA0001533004760000131
容易理解的是,当知道第一权重之后,可以知道第二权重为1减去第一权重。仍然以上个例子为例,
Figure BDA0001533004760000132
那么
Figure BDA0001533004760000133
第一权重a1的含义为相同特征词集合在第一文本和第二文本中的占比,之所以分母为min(numT1,numT2),是因为第二文本为短文本,考虑到短文本特征词较少,所以将相同特征词在短文本中的占比作为第一相似度的权重,通过增大第一相似度的权重,来弥补短文本特征词少的缺陷,从而进一步提高总体相似度的准确性。
可以理解的是,上述技术手段一和技术手段二可以至少选择其中一个来提高总体相似度的准确性。当然,上述技术手段一和技术手段二也并不限定本申请的技术方案,本领域技术人员还可以根据实际情况自行设计。
基于以上实施例提供的一种文本相似度确定方法,本申请实施例还提供了一种文本相似度确定装置,下面结合附图来详细说明其工作原理。
参见图2,该图为本申请实施例提供的一种文本相似度确定装置的结构框图。
本实施例提供的文本相似度确定装置包括:
文本获取单元101,用于获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词;
第一概率确定单元102,用于根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
第二概率确定单元103,用于根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
第一相似度确定单元104,用于基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,所述装置还包括:
第二相似度确定单元,用于根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度;
总体相似度确定单元,用于根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
可选的,所述第一概率确定单元,包括:
第一词向量获取单元,用于获取所述相同特征词集合中特征词的词向量,以及所述第一特征词集合中特征词的词向量;
第一单个特征词概率确定单元,用于根据所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第一文本的概率;
第一概率确定子单元,用于根据所述相同特征词集合中每个特征词表达所述第一文本的概率,得到所述相同特征词集合表达所述第一文本的概率;
和/或,
所述第二概率确定单元,包括:
第二词向量获取单元,用于获取所述相同特征词集合中特征词的词向量,以及所述第二特征词集合中特征词的词向量;
第二单个特征词概率确定单元,用于根据所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第二文本的概率;
第二概率确定子单元,用于根据所述相同特征词集合中每个特征词表达所述第二文本的概率,得到所述相同特征词集合表达所述第二文本的概率。
可选的,所述第一单个特征词概率确定单元,具体用于:
将所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离的求平均,得到所述相同特征词集合中该特征词表达所述第一文本的概率;
和/或,
所述第二单个特征词概率确定单元,具体用于:
将所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离求平均,得到所述相同特征词集合中该特征词表达所述第二文本的概率。
可选的,所述第一概率确定子单元,具体用于:
将所述相同特征词集合中每个特征词表达所述第一文本的概率求平均,得到所述相同特征词集合表达所述第一文本的概率;
和/或,
所述第二概率确定子单元,具体用于:
将所述相同特征词集合中每个特征词表达所述第二文本的概率求平均,得到所述相同特征词集合表达所述第二文本的概率。
可选的,所述第一相似度确定单元,具体用于:
根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
可选的,所述第二相似度确定单元,具体用于:
获取所述第一特征词集合中各个特征词的词向量,以及所述第二特征词集合中各个特征词的词向量;
将所述第一特征词集合中各个特征词的词向量求和,得到所述第一特征词集合对应的向量;
将所述第一特征词集合中各个特征词的词向量求和,得到所述第一特征词集合对应的向量;
计算所述第一特征词集合对应的向量和所述第二特征词集合对应的向量之间的距离;
根据所述第一特征词集合对应的向量和所述第二特征词集合对应的向量之间的距离,得到所述第二相似度。
可选的,若所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,则总体相似度确定单元,具体用于:
根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
上述实施例提供的文本相似度确定装置可以应用在任何具有处理器的电子设备上,所述电子设备可以是现有的、正在研发的或将来研发的任何电子设备,包括但不限于:现有的、正在研发的或将来研发的台式计算机、膝上型计算机、移动终端(包括智能手机、非智能手机、各种平板电脑)等。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在投影系统的设备或带有处理器的电子设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明文本相似度确定装置所在投影系统的设备或带有处理器的电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及存储器之外,实施例中装置所在的文本相似度确定设备或带有处理器的电子设备通常根据该设备的实际功能,还可以包括其他硬件,例如显示器,对此不再赘述。
其中,存储器中可以存储有数据包发送方法对应的逻辑指令,该存储器例如可以是非易失性存储器(non-volatile memory),处理器可以调用执行存储器中的保存的逻辑指令,以执行上述的文本相似度确定方法。
文本相似度确定方法对应的逻辑指令的功能,如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供了一种文本相似度确定设备,所述设备包括处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词;
根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文本相似度确定方法,其特征在于,所述方法包括:
获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词;
根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率包括:
获取所述相同特征词集合中特征词的词向量,以及所述第一特征词集合中特征词的词向量;
根据所述相同特征词集合中每个特征词的词向量,与所述第一特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第一文本的概率;
根据所述相同特征词集合中每个特征词表达所述第一文本的概率,得到所述相同特征词集合表达所述第一文本的概率;
和/或,
所述根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率包括:
获取所述相同特征词集合中特征词的词向量,以及所述第二特征词集合中特征词的词向量;
根据所述相同特征词集合中每个特征词的词向量,与所述第二特征词集合中各个特征词的词向量之间的距离,得到所述相同特征词集合中每个特征词表达所述第二文本的概率;
根据所述相同特征词集合中每个特征词表达所述第二文本的概率,得到所述相同特征词集合表达所述第二文本的概率。
4.根据权利要求1所述的方法,其特征在于,所述基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度包括:
根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
5.根据权利要求2所述的方法,其特征在于,若所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,则所述根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度包括:
根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
6.一种文本相似度确定装置,其特征在于,所述装置包括:
文本获取单元,用于获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词;
第一概率确定单元,用于根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
第二概率确定单元,用于根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
第一相似度确定单元,用于基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二相似度确定单元,用于根据所述第一特征词集合和所述第二特征词集合之间的相关性,确定所述第一文本和所述第二文本之间的第二相似度;
总体相似度确定单元,用于根据所述第一相似度和所述第二相似度确定所述第一文本和所述第二文本的总体相似度。
8.根据权利要求6所述的装置,其特征在于,所述第一相似度确定单元,具体用于:
根据所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率中的较大值,确定所述第一文本和所述第二文本之间的第一相似度。
9.根据权利要求6所述的装置,其特征在于,若所述第一特征词集合中特征词的数目多于所述第二特征词集合中特征词的数目,则总体相似度确定单元,具体用于:
根据所述第一相似度和第一权重,以及第二相似度和第二权重,得到所述第一文本和所述第二文本的总体相似度,所述第一权重为所述相同特征词集合中特征词的数量与第二文本中所有特征词的比值。
10.一种文本相似度确定设备,其特征在于,所述设备包括处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取第一文本和第二文本,所述第一文本包括第一特征词集合和相同特征词集合,所述第二文本包括所述相同特征词集合和第二特征词集合,所述相同特征词集合包括在所述第一文本和所述第二文本中都出现的特征词,所述第一特征词集合包括仅在所述第一文本中出现而没有在所述第二文本中出现的特征词,所述第二特征词集合包括仅在所述第二文本中出现而没有在所述第一文本中出现的特征词;
根据所述相同特征词集合和所述第一特征词集合之间的相关性,得到所述相同特征词集合表达所述第一文本的概率;
根据所述相同特征词集合和所述第二特征词集合之间的相关性,得到所述相同特征词集合表达所述第二文本的概率;
基于所述相同特征词集合表达所述第一文本的概率和表达所述第二文本的概率,确定所述第一文本和所述第二文本之间的第一相似度。
CN201711476821.2A 2017-12-29 2017-12-29 一种文本相似度确定方法、装置及设备 Active CN108304480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711476821.2A CN108304480B (zh) 2017-12-29 2017-12-29 一种文本相似度确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711476821.2A CN108304480B (zh) 2017-12-29 2017-12-29 一种文本相似度确定方法、装置及设备

Publications (2)

Publication Number Publication Date
CN108304480A CN108304480A (zh) 2018-07-20
CN108304480B true CN108304480B (zh) 2020-08-04

Family

ID=62867818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711476821.2A Active CN108304480B (zh) 2017-12-29 2017-12-29 一种文本相似度确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108304480B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827811A (zh) * 2018-08-13 2020-02-21 格力电器(武汉)有限公司 家电设备的语音控制方法及装置
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN110489664A (zh) * 2019-08-07 2019-11-22 北京达佳互联信息技术有限公司 一种基于契合度的客户端推荐方法及装置
CN111382563B (zh) * 2020-03-20 2023-09-08 腾讯科技(深圳)有限公司 文本相关性的确定方法及装置
CN112000767A (zh) * 2020-07-31 2020-11-27 深思考人工智能科技(上海)有限公司 一种基于文本的信息抽取方法和电子设备
CN114490940A (zh) * 2022-01-25 2022-05-13 中国人民解放军国防科技大学 一种自适应的项目查重方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017056803A (ja) * 2015-09-15 2017-03-23 トヨタ自動車株式会社 車両制御装置
WO2018188576A1 (zh) * 2017-04-13 2018-10-18 腾讯科技(深圳)有限公司 资源推送方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162789C (zh) * 2001-09-06 2004-08-18 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN103257957B (zh) * 2012-02-15 2017-09-08 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN103617157B (zh) * 2013-12-10 2016-08-17 东北师范大学 基于语义的文本相似度计算方法
US9660991B2 (en) * 2014-05-25 2017-05-23 Fujitsu Limited Relational encryption
CN104778158B (zh) * 2015-03-04 2018-07-17 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN106909535A (zh) * 2015-12-23 2017-06-30 北京国双科技有限公司 相似文本判定方法和装置
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN106547739B (zh) * 2016-11-03 2019-04-02 同济大学 一种文本语义相似度分析方法
CN108334513A (zh) * 2017-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种识别相似文本的处理方法、装置及系统
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107239562A (zh) * 2017-06-13 2017-10-10 华东理工大学 基于概率特征关联的舆情分析方法
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017056803A (ja) * 2015-09-15 2017-03-23 トヨタ自動車株式会社 車両制御装置
WO2018188576A1 (zh) * 2017-04-13 2018-10-18 腾讯科技(深圳)有限公司 资源推送方法及装置

Also Published As

Publication number Publication date
CN108304480A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304480B (zh) 一种文本相似度确定方法、装置及设备
US11080306B2 (en) Method and apparatus and electronic device for clustering
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109344406B (zh) 词性标注方法、装置和电子设备
CN109087163B (zh) 信用评估的方法及装置
CN109388801B (zh) 相似词集合的确定方法、装置和电子设备
CN110321537B (zh) 一种文案生成方法和装置
CN110134942B (zh) 文本热点提取方法及装置
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
US20180018392A1 (en) Topic identification based on functional summarization
CN111930810A (zh) 数据规则挖掘方法及装置
CN112860758A (zh) 搜索方法、装置、电子设备及计算机存储介质
CN116738956A (zh) 一种提示模板生成方法、装置、计算机设备及存储介质
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
KR20160081604A (ko) 특징벡터 기반 전자문서 분류 방법
CN113127639B (zh) 一种异常会话文本检测方法和装置
CN111428767B (zh) 数据处理方法及装置、处理器、电子设备及存储介质
CN110443746B (zh) 基于生成对抗网络的图片处理方法、装置及电子设备
CN113934842A (zh) 文本聚类方法、装置及可读存储介质
Yeh et al. A fraud detection system for real-time messaging communication on Android Facebook messenger
CN107665189B (zh) 一种提取中心词的方法、终端以及设备
Jain et al. MRCBert: A machine reading ComprehensionApproach for unsupervised summarization
CN112101308B (zh) 一种基于语言模型的文本框的合并方法、装置及电子设备
CN116128066A (zh) 数据增强方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant