CN111144112A - 文本相似度分析方法、装置和存储介质 - Google Patents

文本相似度分析方法、装置和存储介质 Download PDF

Info

Publication number
CN111144112A
CN111144112A CN201911394188.1A CN201911394188A CN111144112A CN 111144112 A CN111144112 A CN 111144112A CN 201911394188 A CN201911394188 A CN 201911394188A CN 111144112 A CN111144112 A CN 111144112A
Authority
CN
China
Prior art keywords
text
keyword set
similarity
obtaining
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911394188.1A
Other languages
English (en)
Other versions
CN111144112B (zh
Inventor
卢达沛
罗乐滔
陈惠芳
胡志乐
黄娇燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdian Yuntong Group Co ltd
GRG Banking IT Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
GRG Banking IT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd, GRG Banking IT Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN201911394188.1A priority Critical patent/CN111144112B/zh
Publication of CN111144112A publication Critical patent/CN111144112A/zh
Application granted granted Critical
Publication of CN111144112B publication Critical patent/CN111144112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了文本相似度分析方法、装置和存储介质,方法包括以下步骤:获取第一文本和第二文本;根据第一文本、第二文本分别获取第一主题关键词集合和第二主题关键词集合;根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种。通过本发明使得相似度分析结果准确,即使是长文本和短文本的比对也能获得准确的相似度分析结果,适用性强。本发明可广泛应用于数据处理领域。

Description

文本相似度分析方法、装置和存储介质
技术领域
本发明涉及数据处理领域,尤其是一种文本相似度分析方法、装置和存储介质。
背景技术
在自然语言处理(Natural Language Processing)中,经常会涉及到如何度量两个文本的相似度问题。例如对话系统、信息检索的问题,如何度量两个文本的相似度尤为重要。而目前,度量文本相似度的方法有将文本映射到向量空间,利用余弦相似度计算或者其他距离计算,或基于深度学习训练词向量,构造文本向量,利用余弦相似度计算。然而,现有方法适用性差,评判标准单一,不能准确对长文本和短文本进行相似度分析,例如,当A文档内容少时,与B文档进行相似度对比,得出的结果可能为50%,而当A文档内容非常多时,与B文档进行相似度对比得出的结果可能为80%,而该结果实际上可能仅仅是因为A文档包含的内容越多,而更有可能全部包含B文档的内容,也就是说实际上得出的两个文本的相似度分析结果不准确。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供一种准确且适用性强的文本相似度分析方法、装置和存储介质。
本发明采用的技术方案是:文本相似度分析方法,包括以下步骤:
获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
进一步,所述根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量的步骤中,包括以下步骤:
对每一第一句子进行分词处理、关键词提取和过滤,得到每一第一句子的第一关键词集合,以及对每一第二句子进行分词处理、关键词提取和过滤,得到每一第二句子的第二关键词集合,其中第一关键词集合包括至少一个第一关键词,第二关键词集合包括至少一个第二关键词;
根据每一第一关键词集合、每一第二关键词集合,得到每一第一关键词集合与每一第二关键词集合的第一关键词和第二关键词相同的第三数量、每一第一关键词集合相对每一第二关键词集合的第一关键词与第二关键词不相同的第四数量,以及每一第二关键词集合相对每一第一关键词集合的第二关键词与第一关键词不相同的第五数量;
根据第三数量、第四数量、第一预设阈值和第二预设阈值,得到第一文本相对第二文本相似的第三句子的第一数量;
根据第三数量、第五数量、第一预设阈值和第二预设阈值,得到第二文本相对第一文本相似的第四句子的第二数量。
进一步,所述根据第三数量、第四数量、第一预设阈值和第二预设阈值,得到第一文本相对第二文本相似的第三句子的第一数量以及根据第三数量、第五数量、第一预设阈值和第二预设阈值,得到第二文本相对第一文本相似的第四句子的第二数量的步骤中,包括以下步骤:
若第三数量大于或等于第一预设阈值,且第四数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第一文本相对第二文本相似的第三句子的第一数量;
若第三数量大于或等于第一预设阈值,且第五数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第二文本相对第一文本相似的第四句子的第二数量。
进一步,所述根据第一主题关键词集合和第二主题关键词集合,得到主题关联度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比,第六数量在第二主题关键词集合中的占比,以及根据第六数量进行标准化后的标准化结果,得到主题关联度;
其中,第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比以及标准化结果与主题关联度呈正相关。
进一步,所述根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比、第一句子的数量、第一数量,得到第一文本相对第二文本的相似度;
其中,第六数量在第一主题关键词集合中的占比、第一数量与第一文本相对第二文本的相似度呈正相关,第一句子的数量与第一文本相对第二文本的相似度呈负相关。
进一步,所述根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第二主题关键词集合中的占比,第二句子的数量、第二数量,得到第二文本相对第一文本的相似度;
其中,第六数量在第二主题关键词集合中的占比、第二数量与第二文本相对第一文本的相似度呈正相关,第二句子的数量与第二文本相对第一文本的相似度呈负相关。
进一步,所述根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比、第一句子的数量、第一数量、第二句子的数量、第二数量,得到内容相似度;
其中,第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比、第一数量、第二数量与内容相似度呈正相关,第一句子的数量、第二句子的数量与内容相似度呈负相关。
本发明还提供,文本相似度分析装置,包括:
第一获取模块,用于获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
第二获取模块,用于根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
第三获取模块,用于根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
相似度分析模块,用于获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度,第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
本发明还提供,文本相似度分析装置,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现所述文本相似度分析方法。
本发明还提供存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述文本相似度分析方法。
本发明的有益效果是:通过获取第一文本的第一主题关键词集合,第二文本的第二主题关键词集合,第一文本相对第二文本相似的第三句子的第一数量,以及第二文本相对第一文本相似的第四句子的第二数量,再根据上述获取的内容引入包含主题关联度、内容相似度、第一文本相对第二文本的相似度,第二文本相对第一文本的相似度的至少两种的相似度分析结果,使得相似度分析结果准确,即使是长文本和短文本的比对也能获得准确的相似度分析结果,适用性强。
附图说明
图1为本发明文本相似度分析方法的步骤流程示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本实施例提供一种文本相似度分析方法,包括以下步骤:
获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
在本实施例中,第一主题关键词和第二主题关键词指的是能够分别表征第一文本和第二文本所描述的主题的词语。相似度分析结果同时包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度,在其他实施例中可以仅包括其中两种或三种。
在本实施例中,具体地,包括以下步骤:
1)获取第一文本和第二文本并进行分句;
可选地,获取的第一文本包括若干个第一句子,第二文本包括若干个第二句子。
例如,第一文本为“12月5日,华为宣布向美国法院提交起诉书,请求法院认定美国联邦通信委员会…”,第二文本为“据央视消息,华为今天在美国法院提交起诉书,请求法院认定美国联邦通信委员会(FCC)…”,将第一文本分成第一句子集合S1={s11,s12,…,s1m},(m=1,2,…),将第一文本分成第,句子集合S2={s21,s22,…,s2n},(n=1,2,…),其中s1m代表第一句子,s2n代表第二句子。
2)根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
具体地包括以下步骤:
通过TextRank算法提取第一文本的主题关键词键值对MKT1,形式为(k,v),k代表主题关键词,v代表得分,得分越高代表关键词越重要,选择得分由高至低排列的位于预设数量之前的主题关键词作为第一主题关键词,所有第一主题关键词组成第一主题关键词集合;
同理,通过TextRank算法提取第二文本的主题关键词键值对MKT2,最终得到由所有第二主题关键词组成的第二主题关键词集合。
其中,本实施例的预设数量为25,即选择得分最高的前25个主题关键词,在其他实施例中可以为其他数量。
例如,MKT1={("华为","6.675263"),("美国","6.0908623"),("联邦","3.7495434"),…};MKT2={("华为","7.5425158"),("美国","6.059275"),("服务","3.419236"),…}分别在MKT1和MKT2中选择得分在排名在前25的主题关键词作为第一关键词和第二关键词,得到第一主题关键词集合CKT1={华为,美国,联邦...}和第二主题关键词集合CKT2={华为,美国,服务...}。
3)根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
包括以下步骤:
S1:对每一第一句子进行分词处理、关键词提取和过滤,得到每一第一句子的第一关键词集合,以及对每一第二句子进行分词处理、关键词提取和过滤,得到每一第二句子的第二关键词集合,其中第一关键词集合包括至少一个第一关键词,第二关键词集合包括至少一个第二关键词;
具体地:S11:对每一第一句子进行分词处理,分词处理包括通过StandardTokenizer分词器(Standard Tokenizer分词算法)对每一第一句子进行分词,并转化为每一句子对应的分词向量集合,其中Standard Tokenizer分词算法是一种基于词典和词性推断的分词算法,可以同时得到分词结果以及词的属性,比如该词为名词(n)或动词(v)等等;
S12:通过TextRank算法对分词向量集合提取一定数量的关键词,并进行过滤使得每一个第一句子最终转化成每一第一句子对应的第一关键词集合KV1={kv11,kv12,…,kv1m},(m=1,2,…),其中过滤包括过滤冗余词和停用词,即代表第一句子中信息量较少的词,例如“的”,“呢”,“可以”等,例如:“我也喜欢熊猫呢”会被分成“我/r”,“也/d”,“喜欢/v”,“熊猫/n”,“呢/y”,其中r-代词、d-副词v-动词、n-名词、y-语气词,将语气词进行过滤,可选地将副词也进行过滤。
同理可得到每一第二句子的第二关键词集合KV2={kv21,kv22,…,kv2n},(n=1,2,…)即一个第二句子对应一个第二关键词集合KV2,其中,kv1m代表该第一句子中的第一关键词,kv2n代表该第二句子中的第二关键词。
S2:根据每一第一关键词集合、每一第二关键词集合,得到每一第一关键词集合与每一第二关键词集合的第一关键词和第二关键词相同的第三数量、每一第一关键词集合相对每一第二关键词集合的第一关键词与第二关键词不相同的第四数量,以及每一第二关键词集合相对每一第一关键词集合的第二关键词与第一关键词不相同的第五数量;
具体地:计算两两第一关键词集合KV1和第二关键词集合KV2的每一交集和每一的差集,交集指的是第一关键词与第二关键词相同的关键词组成的集合,差集包括第一差集和第二差集,第一差集指的是第一关键词集合相对第二关键词集合的第一关键词与第二关键词不相同的关键词组成的集合,第二差集指的是第二关键词集合相对第一关键词集合的第二关键词与第一关键词不相同的关键词组成的集合,并计算交集包括关键词的第三数量、第一差集包括关键词的第四数量,第二差集包括关键词的第五数量。
例如:其中一个第一关键词集合KV1={提交,法院,今天,美国,华为,起诉书},其中一个第二关键词集合KV2={宣布,法院,美国,提交,华为,起诉书,禁止},则交集D为{提交,法院,美国,华为,起诉书},第三数量为5,第一差集为{今天},第四数量为1,第二差集为{宣布,禁止},第五数量为2。
S3:根据第三数量、第四数量、第一预设阈值和第二预设阈值,得到第一文本相对第二文本相似的第三句子的第一数量;根据第三数量、第五数量、第一预设阈值和第二预设阈值,得到第二文本相对第一文本相似的第四句子的第二数量。
具体地,若第三数量大于或等于第一预设阈值,且第四数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第一文本相对第二文本相似的第三句子的第一数量,若第三数量大于或等于第一预设阈值,且第五数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第二文本相对第一文本相似的第四句子的第二数量。
可选地,在本实施例中,第一预设阈值与第二预设阈值相同,均为4,在其他实施例中,第一预设阈值与第二预设阈值可以不相同,也可以设置为其他数值。预设长度设置为5,在其他实施例中可以设置为其他数值。
例如,如上所述,并集为{提交,法院,美国,华为,起诉书},第三数量为5,第一差集为{今天},第四数量为1,第二差集为{宣布,禁止},第五数量为2,第三数量满足大于或等于第一预设阈值,且第四数量满足小于第二预设阈值,因此该第一关键词集合KV1对应的第一句子相对第二关键词集合KV2对应的第二句子相似,并将该第一句子作为第三句子,在通过每一第一关键词集合KV1与每一第二关键词集合KV2两两对比后,得到所有初步判定的第三句子;
然后对初步判定的第三句子通过长度为5滤波窗口处理进行滤波处理,例如,根据句子的长度和位置在第一文本中按顺序有“AABAA”,A为通过上述处理得到的初步判定的第三句子,B为与第二文本不相似的其中一个第一句子,此时将满足前后均有两个初步判定的第三句子的B进行滤波处理,得到“AAAAA”,即从4个初步判定的第三句子变为最终得到的5个第三句子;在进行滤波处理后,再统计第三句子的数量,得到第一数量,即第一文本相对第二文本相似的第三句子的第一数量。
同理,第三数量满足大于或等于第一预设阈值,且第五数量小于第二预设阈值,因此该第二关键词集合KV2对应的第二句子与该第一关键词集合KV1对应的第一句子相似,并将该第二句子作为第四句子,在通过每一第二关键词集合KV2与每一第一关键词集合KV1两两对比后,得到所有初步判定的第四句子,同样经过滤波处理,在进行滤波处理后,再统计第四句子的数量,得到第二数量,即第二文本相对第一文本相似的第四句子的第二数量。
其中,根据句子的长度和位置通过滤波处理,排除了长文本的比对中,个别句子特别是短句子的相似或不相似实际上可能是意外导致的情况,实现连续文本的相似或不相似判断,例如上述例子中“AABAA”,其中B可能为人工手动进行修改后而导致不相似,实际上是相似的,在查重中可以使得相似度分析更准确。
4)计算主题关联度;
S41:根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量,并根据第六数量,计算第六数量在第一主题关键词集合CKT1中的占比RT1,第六数量在第二主题关键词集合CKT2中的占比RT2
例如,CKT1={华为,美国,联邦...},CKT2={华为,美国,服务...},得到两者的交集Ckinter为{华为,美国},即第一主题关键词和第二主题关键词相同的第六数量为2,如果CKT1一共有25个第一主题关键词,CKT2一共也有25个第二主题关键词,那么RT1为2/25,RT2为2/25。
S42:计算主题相似度Simsubject,其中Simsubject是CKT1和CKT2的交集Ckinter的Log10(size(Ckinter)+1)的进行标准化的标准化结果,当Simsubject>1时取值为z,其中size(Ckinter)表示Ckinter中主题关键词的数量,即第六数量,在本实施例中z为0.95,其他实施例中可以为小于1的其他数值;
S43:计算主题关联度,计算公式为:
主题关联度Relsubject=RT1×a+RT2×b+Simsubject×c,其中,a、b、c表示权重,在本实施例中a=0.25,b=0.25,c=0.5,在其他是实施例中可以为其他数值。
5)计算左侧相似占比,即第一文本相对第二文本的相似度Simleft
计算公式为:Simleft=d×sim(S1)/size(S1)+RT1×e,
其中,d、e表示权重,在本实施例中d=0.8,e=0.2,在其他是实施例中可以为其他数值;sim(S1)为第一数量,size(S1)为第一句子的数量。
6)计算右侧相似占比,即第二文本相对第一文本的相似度Simright
计算公式为:Simright=f×sim(S2)/size(S2)+RT2×g,
其中,f、g表示权重,在本实施例中f=0.8,g=0.2,可选地与d、e相同,在其他是实施例中可以为其他数值;sim(S2)为第二数量,size(S2)为第二句子的数量。
7)计算内容相似度Simcontent
计算公式为:Simcontent=h×sim(S1)/size(S1)+i×sim(S2)/size(S2)+Relsubject×j;
其中,h、i、j表示权重,在本实施例中h=0.3,i=0.3,j=0.4,在其他是实施例中可以为其他数值。
8)将主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度进行显示,例如在进行检索的浏览器进行显示,或将主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度进行加权后得到的最终结果进行显示。
9)进行高亮处理:对主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度进行高亮处理,可选地对第三句子、第四句子、交集Ckinter中的主题关键词、交集D中的关键词进行高亮处理。其中,高亮处理可以为添加html标签,进行颜色改变、加粗等等,便于用户观看。
其中,上述方法步骤可以不局限于上述描述的顺序,可以进行调换或同步进行。
本发明实施例还提供了文本相似度分析装置,包括:
第一获取模块,用于获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
第二获取模块,用于根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
第三获取模块,用于根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
相似度分析模块,用于获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度,第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了文本相似度分析装置,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现所述文本相似度分析方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
综上所述,相较于现有技术,本发明具有以下优点:
1)同时引入主题关联度、内容相似度、第一文本相对第二文本的相似度,第二文本相对第一文本的相似度,使得相似度分析结果准确,即使是长文本和短文本的比对也能获得准确的相似度分析结果,适用性强,满足中文短文本比较、长文本比较、长短文本比较要求;
2)进行高亮处理使得用户能直观看到相似内容,体验好。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明并且采用方块图的形式举例说明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
本发明实施例还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述文本相似度分析方法。
同样可见,上述方法实施例中的内容均适用于本存储介质实施例中,实现的功能和有益效果与方法实施例相同。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本说明书的描述中,参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.文本相似度分析方法,其特征在于,包括以下步骤:
获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
2.根据权利要求1所述文本相似度分析方法,其特征在于:所述根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量的步骤中,包括以下步骤:
对每一第一句子进行分词处理、关键词提取和过滤,得到每一第一句子的第一关键词集合,以及对每一第二句子进行分词处理、关键词提取和过滤,得到每一第二句子的第二关键词集合,其中第一关键词集合包括至少一个第一关键词,第二关键词集合包括至少一个第二关键词;
根据每一第一关键词集合、每一第二关键词集合,得到每一第一关键词集合与每一第二关键词集合的第一关键词和第二关键词相同的第三数量、每一第一关键词集合相对每一第二关键词集合的第一关键词与第二关键词不相同的第四数量,以及每一第二关键词集合相对每一第一关键词集合的第二关键词与第一关键词不相同的第五数量;
根据第三数量、第四数量、第一预设阈值和第二预设阈值,得到第一文本相对第二文本相似的第三句子的第一数量;
根据第三数量、第五数量、第一预设阈值和第二预设阈值,得到第二文本相对第一文本相似的第四句子的第二数量。
3.根据权利要求2所述文本相似度分析方法,其特征在于:所述根据第三数量、第四数量、第一预设阈值和第二预设阈值,得到第一文本相对第二文本相似的第三句子的第一数量以及根据第三数量、第五数量、第一预设阈值和第二预设阈值,得到第二文本相对第一文本相似的第四句子的第二数量的步骤中,包括以下步骤:
若第三数量大于或等于第一预设阈值,且第四数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第一文本相对第二文本相似的第三句子的第一数量;
若第三数量大于或等于第一预设阈值,且第五数量小于第二预设阈值,通过预设长度的滤波窗口处理得到第二文本相对第一文本相似的第四句子的第二数量。
4.根据权利要求1所述文本相似度分析方法,其特征在于:所述根据第一主题关键词集合和第二主题关键词集合,得到主题关联度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比,第六数量在第二主题关键词集合中的占比,以及根据第六数量进行标准化后的标准化结果,得到主题关联度;
其中,第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比以及标准化结果与主题关联度呈正相关。
5.根据权利要求1所述文本相似度分析方法,其特征在于:所述根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比、第一句子的数量、第一数量,得到第一文本相对第二文本的相似度;
其中,第六数量在第一主题关键词集合中的占比、第一数量与第一文本相对第二文本的相似度呈正相关,第一句子的数量与第一文本相对第二文本的相似度呈负相关。
6.根据权利要求1所述文本相似度分析方法,其特征在于:所述根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第二主题关键词集合中的占比,第二句子的数量、第二数量,得到第二文本相对第一文本的相似度;
其中,第六数量在第二主题关键词集合中的占比、第二数量与第二文本相对第一文本的相似度呈正相关,第二句子的数量与第二文本相对第一文本的相似度呈负相关。
7.根据权利要求1所述文本相似度分析方法,其特征在于:所述根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度的步骤中,具体为:
根据第一主题关键词集合与第二主题关键词集合,得到第一主题关键词和第二主题关键词相同的第六数量;
根据第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比、第一句子的数量、第一数量、第二句子的数量、第二数量,得到内容相似度;
其中,第六数量在第一主题关键词集合中的占比、第六数量在第二主题关键词集合中的占比、第一数量、第二数量与内容相似度呈正相关,第一句子的数量、第二句子的数量与内容相似度呈负相关。
8.文本相似度分析装置,其特征在于,包括:
第一获取模块,用于获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;
第二获取模块,用于根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;
第三获取模块,用于根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;
相似度分析模块,用于获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度,第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:
根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;
根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;
根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;
根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;
其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。
9.文本相似度分析装置,其特征在于,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现如权利要求1-7任一项所述文本相似度分析方法。
10.存储介质,存储有处理器可执行的指令,其特征在于:处理器执行所述处理器可执行的指令时执行如权利要求1-7任一项所述文本相似度分析方法。
CN201911394188.1A 2019-12-30 2019-12-30 文本相似度分析方法、装置和存储介质 Active CN111144112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911394188.1A CN111144112B (zh) 2019-12-30 2019-12-30 文本相似度分析方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911394188.1A CN111144112B (zh) 2019-12-30 2019-12-30 文本相似度分析方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111144112A true CN111144112A (zh) 2020-05-12
CN111144112B CN111144112B (zh) 2023-07-14

Family

ID=70521761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394188.1A Active CN111144112B (zh) 2019-12-30 2019-12-30 文本相似度分析方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111144112B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112712866A (zh) * 2020-12-25 2021-04-27 医渡云(北京)技术有限公司 一种确定文本信息相似度的方法及装置
CN113011153A (zh) * 2021-03-15 2021-06-22 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN113051903A (zh) * 2021-04-21 2021-06-29 哈尔滨工业大学 语句、案件经过、量刑情节和司法文书一致性比对方法
CN113392184A (zh) * 2021-06-09 2021-09-14 平安科技(深圳)有限公司 一种相似文本的确定方法、装置、终端设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109918660A (zh) * 2019-03-04 2019-06-21 北京邮电大学 一种基于TextRank的关键词提取方法和装置
US20190221204A1 (en) * 2018-01-18 2019-07-18 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
WO2019149200A1 (zh) * 2018-02-01 2019-08-08 腾讯科技(深圳)有限公司 文本分类方法、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
US20190221204A1 (en) * 2018-01-18 2019-07-18 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
WO2019149200A1 (zh) * 2018-02-01 2019-08-08 腾讯科技(深圳)有限公司 文本分类方法、计算机设备及存储介质
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109918660A (zh) * 2019-03-04 2019-06-21 北京邮电大学 一种基于TextRank的关键词提取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EAGLEKING012: "如何比较两个文本的相似度", pages 1 *
蒲梅;周枫;周晶晶;严馨;周兰江;: "基于加权TextRank的新闻关键事件主题句提取", no. 08, pages 219 - 224 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112712866A (zh) * 2020-12-25 2021-04-27 医渡云(北京)技术有限公司 一种确定文本信息相似度的方法及装置
CN113011153A (zh) * 2021-03-15 2021-06-22 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN113011153B (zh) * 2021-03-15 2022-03-29 平安科技(深圳)有限公司 文本相关性检测方法、装置、设备及存储介质
CN113051903A (zh) * 2021-04-21 2021-06-29 哈尔滨工业大学 语句、案件经过、量刑情节和司法文书一致性比对方法
CN113392184A (zh) * 2021-06-09 2021-09-14 平安科技(深圳)有限公司 一种相似文本的确定方法、装置、终端设备及存储介质
WO2022257455A1 (zh) * 2021-06-09 2022-12-15 平安科技(深圳)有限公司 一种相似文本的确定方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN111144112B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111144112B (zh) 文本相似度分析方法、装置和存储介质
Däubler et al. Natural sentences as valid units for coded political texts
US10891427B2 (en) Machine learning techniques for generating document summaries targeted to affective tone
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
CN107577663B (zh) 一种关键短语抽取方法和装置
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
CN110210022B (zh) 标题识别方法及装置
CN110162752B (zh) 文章判重处理方法、装置及电子设备
Braz et al. Document classification using a Bi-LSTM to unclog Brazil's supreme court
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN109766527B (zh) 一种文本相似度的计算方法以及相关设备
CN110457691B (zh) 基于剧本角色的情感曲线分析方法和装置
CN109871540B (zh) 一种文本相似度的计算方法以及相关设备
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN113240322B (zh) 气候风险披露质量方法、装置、电子设备及存储介质
KR20170094063A (ko) 의미 기반 명사 유사도 계산 장치 및 방법
Wang et al. Word intuition agreement among Chinese speakers: a Mechanical Turk-based study
CN105893397A (zh) 一种视频推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510663 research institute office building, No.9, Kelin Road, Science City, Guangzhou high tech Industrial Development Zone, Guangzhou City, Guangdong Province

Patentee after: GRG BANKING IT Co.,Ltd.

Country or region after: China

Patentee after: Guangdian Yuntong Group Co.,Ltd.

Address before: 510663 research institute office building, No.9, Kelin Road, Science City, Guangzhou high tech Industrial Development Zone, Guangzhou City, Guangdong Province

Patentee before: GRG BANKING IT Co.,Ltd.

Country or region before: China

Patentee before: GRG BANKING EQUIPMENT Co.,Ltd.

CP03 Change of name, title or address