CN111061842A - 一种相似文本确定方法及装置 - Google Patents

一种相似文本确定方法及装置 Download PDF

Info

Publication number
CN111061842A
CN111061842A CN201911368984.8A CN201911368984A CN111061842A CN 111061842 A CN111061842 A CN 111061842A CN 201911368984 A CN201911368984 A CN 201911368984A CN 111061842 A CN111061842 A CN 111061842A
Authority
CN
China
Prior art keywords
threshold
texts
preset
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911368984.8A
Other languages
English (en)
Other versions
CN111061842B (zh
Inventor
付元宝
顾伟
王玉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongyuan Network Co ltd
Original Assignee
Shanghai Zhongyuan Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongyuan Network Co ltd filed Critical Shanghai Zhongyuan Network Co ltd
Priority to CN201911368984.8A priority Critical patent/CN111061842B/zh
Publication of CN111061842A publication Critical patent/CN111061842A/zh
Application granted granted Critical
Publication of CN111061842B publication Critical patent/CN111061842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出的一种相似文本确定方法及装置,先通过预设的语义相似度算法计算两个文本的语义相似度,当语义相似度不小于预设第一阈值时确定两个文本是相似文本,当两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,通过字面相似度算法计算两个文本的字面相似度,进一步从字面上判断两个文本是否属于相似文本,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与现有技术只通过一个相似度算法来确定相似文本相比,结果更加准确。

Description

一种相似文本确定方法及装置
技术领域
本发明实施例涉及语言处理技术领域,具体涉及一种相似文本确定方法及装置。
背景技术
热点(hot spot)通常是指比较受广大群众关注,或者欢迎的新闻或者信息,现在很多用户都会对热点事件进行关注,为了方便用户可以了解到更多的与热点事件相关的内容,现急需一种能针对信息流进行分析,提取与热点事件相关的信息(例如视频、文章、新闻报道等),从而可以推送与热点事件相关信息,为网站访问者提供更加主动的、智能化的服务。
上述对问题的发现过程的描述,仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种相似文本确定方法及装置。
有鉴于此,第一方面,本发明实施例提供一种相似文本确定方法,包括:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
在一种可能的实现方式中,所述语义相似度算法为余弦相似度算法;
所述根据预设的语义相似度算法计算两个文本之间的语义相似度,包括:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
在一种可能的实现方式中,所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度,包括:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
在一种可能的实现方式中,所述方法还包括:
在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值;
所述预设条件为阈值组合对应的一个或多个相关指标的值为所述多个阈值组合中相应的相关指标的最大值。
在一种可能的实现方式中,采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,包括:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系和通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
第二方面,本发明实施例还提供了一种相似文本确定装置,包括:
第一计算模块,用于根据预设的语义相似度算法计算两个文本之间的语义相似度;
第一判定模块,用于若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
第二计算模块,用于若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
第二判定模块,用于若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
在一种可能的实现方式中,所述语义相似度算法为余弦相似度算法,所述第一计算模块具体用于:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
在一种可能的实现方式中,所述第二计算模块具体用于:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
在一种可能的实现方式中,所述装置还包括阈值设置模块;
所述阈值设置模块包括:
组合设置子模块,用于在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
样本获取子模块,获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
指标计算子模块,用于采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
阈值确定子模块,用于确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值。
在一种可能的实现方式中,所述指标计算子模块具体用于:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系和通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于外部设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行第一方面所述相似文本确定方法的步骤。
第四方面,本发明实施例还提供了一种可读存储介质,所述可读存储介质存储计算机指令,所述计算机指令使计算机执行第一方面所述相似文本确定方法的步骤。
相比现有技术,本发明实施例提出的相似文本确定方法,先通过预设的语义相似度算法计算两个文本的语义相似度,以此从整体上来判断两个文本之间是否相似,若语义相似度不小于预设第一阈值,则说明两个文本整体上足够相似,此时确定两个文本是相似文本,若两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,说明两个文本之间具有一定的相似度,但不能直接确定两个文本是否为相似文本,所以为了保证相似文本确定结果的准确性,此时再进一步通过字面相似度算法计算两个文本的字面相似度,进一步从字面上来判断两个文本之间是否属于相似文本,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与现有只通过一个相似度算法来确定相似文本的方式相比,结果更加准确。在具体应用时,可以采用本方案对热点事件对应的文本和其他信息组成的另一个文本进行处理,从而确定出与热点事件相关的信息,进而可以向用户推送与热点事件相关的信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种相似文本确定方法的流程图;
图2为本发明实施例提供的一种语义相似度计算方法的流程图;
图3为本发明实施例提供的一种阈值确定方法的流程图;
图4为本发明另一个实施例提供的一种字面相似度计算方法的流程图;
图5为本发明又一个实施例提供的一种相似文本确定装置的框图;
图6为本发明一个实施例提供的一种电子设备的框图;
图7为本发明一个实施例提供的一种相似文本确定方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种相似文本确定方法的流程图,如图1所示,该方法可以包括如下步骤:
S11.根据预设的语义相似度算法计算两个文本之间的语义相似度。
其中预设的语义相似度算法可以为根据需求设置的可以计算两个文本间的语义相似度的NLP(natural language processing,自然语言处理)算法,例如余弦相似度算法、欧几里德距离算法、曼哈顿距离算法、汉明距离算法、切比雪夫距离算法等等用于计算两个文本之间语义相似度的算法。
S12.若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本。
其中第一阈值为根据需求预先设定的大于0且不大于1的值,例如0.8或0.9等,具体取值本实施例不做具体限定。
S13.若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值。
其中第二阈值为根据需求设定的不小于0且小于第一阈值的值,具体取值本实施例不做具体限定。
其中,字面相似度算法可以为根据需求设置的可以计算两个文本之间字面内容的相似度的NLP算法,例如,TF-IDF、BM25、simhash等算法。
S14.若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
若所述字面相似度小于所述第一阈值,或所述语义相似度小于第二阈值,则确定两个文本为非相似文本。
本发明实施例提出的相似文本确定方法,先通过预设的语义相似度算法计算两个文本的语义相似度,以此从整体上来判断两个文本之间是否相似,若语义相似度不小于预设第一阈值,则说明两个文本整体上足够相似,此时确定两个文本是相似文本,若两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,说明两个文本之间具有一定的相似度,但不能直接确定两个文本是否为相似文本,所以为了保证相似文本确定结果的准确性,此时再进一步通过字面相似度算法计算两个文本的字面相似度,进一步从字面上来判断两个文本之间是否属于相似文本,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与现有只通过一个相似度算法来确定相似文本的方式相比,结果更加准确。在具体应用时,可以采用本方案对热点事件对应的文本和其他信息组成的另一个文本进行处理,从而确定出与热点事件相关的信息,进而可以向用户推送与热点事件相关的信息。本方案提供的相似文本确定方法除了可以应用于确定与热点事件相关的信息,还可用来确定两个不同事件源的事件是否为同一事件,方法与确定与热点事件相关的信息类似,就是将两个不同事件源的事件对应的文本通过本方案进行计算,确定是否为相似文本,若是则说明两个事件为同一事件。
在一种可能的实现方式中,以整体相似点算法为余弦相似度算法为例,对S11计算两个文本之间的语义相似度的方法进行描述,如图2所示,计算两个文本之间的语义相似度可以包括如下步骤:
S111.将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量。
其中,预设的词向量转换模型可以为根据需求设置的现有的词向量转换模型,例如fastText(facebook开源的一个词向量与文本分类工具)等。
S112.采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度的具体过程为现有成熟技术本实施例不再赘述。
采用余弦相似度算法计算两个文本之间的相似度,余弦相似度度的值越大,说明两个文本越相似,采用余弦相似度算法计算两个文本之间的语义相似度结果准确度高。
语义相似度算法除了采用余弦相似度算法还可以采用距离算法例如欧几里德距离算法、曼哈顿距离算法、汉明距离算法、切比雪夫距离算法等,采用距离算法计算两个文本之间的相似度也是现有成熟技术具体过程本实施例不再赘述,上述算法均具有计算过程简单,结果准确度高的特点。
在一种可能的实现方式中,如图4所示,S13计算两个文本之间的局部相似度可以包括如下步骤:
S131.采用预设的关键词提取算法分别提取所述两个文本的关键词。
其中预设的关键词提取算法可以为根据需求设置的现有的关键词提取算法,例如TF-IDF、TextRank等算法。
S132.采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
其中,字面相似度算法可以采用现有的相应算法,例如TF-IDF、BM25、simhash等算法。
采用字面相似度算法计算两个文本的相似度,从文本的字面内容上来判断两个文本是否相似,精确到具体的文本内容,结果更加准确。
一些文本语义可能相似但是字面内容却完全不同,若仅通过语义相似度算法来确定相似文本则准确率太低,例如两个文本其中一个为“奥格斯堡0-2门兴”,另一个为“国米0-1都灵”,若通过语义相似度算法计算两个文本的语义相似度会发现得到的相似度值很高,但是从两个文本的字面内容上就可以知道两个文本描述的并非同一事件,也就是说两个文本实际并不是相似文本,所以在语义相似度的基础上增加对字面相似度的计算,提高了相似文本确定结果的准确性。
在一个可能的实现方式中,本实施例采用双算法和双阈值的方式来确定相似文本,在执行S12之前,还需先确定预设第一阈值和预设第二阈值,为了使得相似文本确定结果更加符合用户的需求,如图3所示,可以通过下述方式确定预设第一阈值和预设第二阈值:
S121.在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值。
其中,取值区间为根据需求设置的区间,例如可以为[0.8,0.92]等,此处对此不作具体限定。
在一种可能的实现方式中可以采用穷举法,以0.01为步长,确定出在阈值区间内的所有阈值组合(例如第一阈值从0.81开始列举,并以0.01为单位增长直至0.91,第二阈值从0.80开始列举,并以0.01位单位增长直至到0.91),每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值。
S122.获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本。
可以获取之前进行过相似文本确定,且确定结果准确的文本对作为样本。
S123.采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值。
在一种可能的实现方式中,可以通过下述方式计算各个阈值组合对应的相关指标:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合,目的是分别计算各个阈值组合对应的相关指标,且各个阈值组合对应的相关指标的计算方法一致,具体过程如下。
采用预设的语义相似度算法计算样本中各个文本对的语义相似度。
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本。
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本。
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度。
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本。
根据所述样本中各文本已知的关系和通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
其中准确率、精确率、召回率和/或F1值均是针对样本中所有文本对的关系确定结果的,也就是文本对的关系确定结果的准确率、精确率召回率和/或F1值。
其中,准确率指的是关系确定正确(及通过上述方式确定出的文本对中两个文本的关系与该文本对两个文本已知的关系一致,例如通过上述方式确定文本对中两个文本为相似文本,且该文本对中的两个文本已知的关系也是相似文本,则确定该文本对关系确定正确)的文本对占样本中总的文本对的比重。
精确率也称为查准率,指的是正确预测为正的占全部预测为正的比例,也就是正文本对总数占正结果总数的比例,其中正文本对指的是通过上述方式确定文本对中两个文本的关系为相似文本,且关系确定正确的文本对,正结果指的是通过上述方式确定出文本对中两个文本的关系为相似文本的文本对。
召回率也称为查全率,指的是正确预测为正的占全部实际为正的比例,也就是正文本对总数占正样本总数的比例,其中正样本指的是样本中包含的两个文本的已知关系为相似文本的文本对。
F1值可通过下式计算:
Figure BDA0002339171910000121
其中,F1表示F1值,Precision表示精确率,Recall表示召回率。
其中预设条件为根据用户需求或业务特性确定的,可以为准确率、精确率、召回率和F1值中的一个或多个的值为多个阈值组合中的最优值,例如准确率的值为多个阈值组合中准确率的最大值、精确率的值为多个阈值组合中精确率的最大值、召回率的值为多个阈值组合中召回率的最大值、F1值为多个阈值组合中F1值的最大值、或准确率、精确率、召回率和F1值中的两个或三个的值均为多个阈值组合中相应的相关指标的最大值等等。
S124.确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值。
其中预设条件为根据用户需求或业务特性确定的,可以为准确率、精确率、召回率和F1值中的一个或多个的值为多个阈值组合中的最优值,例如准确率的值为多个阈值组合中准确率的最大值、精确率的值为多个阈值组合中精确率的最大值、召回率的值为多个阈值组合中召回率的最大值、F1值为多个阈值组合中F1值的最大值、或准确率、精确率、召回率和F1值中的两个或三个的值均为多个阈值组合中相应的相关指标的最大值等等。
一个具体的例子
如下表所示,确定预设取值区间为[0.8,0.92],在这个区间中列举了下表所示的6对阈值组合,通过上述S123中的方法计算每对阈值组合对应的准确率、精确率、召回率和F1值,得到的结果如下表所示,假设S124中预设条件为“准确率为所有阈值组合中最高的”,则根据下表确定准确率0.78088为6对阈值组合中最高的,则确定准确率0.78088对应的第一阈值0.92为预设的第一阈值,第二阈值0.89为预设的第二阈值,预设条件除了为“准确率为所有阈值组合中最高的”还可以为其他的内容例如:“精确率为所有阈值组合中最高的”、“F1值为所有阈值组合中最高的”等等,根据不同的预设条件选取不同的阈值组合。
第一阈值 第二阈值 准确率 精确率 召回率 F1值
0.81 0.8 0.51127 0.42841 0.9853333 0.59717
0.82 0.8 0.59902 0.47766 0.9693333 0.63996
0.82 0.81 0.6343 0.50146 0.916 0.64811
0.92 0.89 0.78088 0.91281 0.44666667 0.59982
0.92 0.9 0.76961 0.9321 0.4026667 0.56233
0.92 0.91 0.75196 0.93262 0.35066667 0.50969
通过上述确定第一阈值和第二阈值的方法,用户可以根据自己的需求选取对应的第一阈值和第二阈值,从而使得相似文本确定的结果更加符合用户的需求。
一个具体的例子
如图7所示,判断文本1和文本2是否为相似文本,分别将文本1和文本2转换为词向量1和词向量2,根据词向量1和词向量2计算语义相似度P1,判断P1与第一阈值A和第二阈值B之间的大小关系,若P1小于B,则确定文本1和文本2不相似为非相似文本,若P1不小于A,则确定文本1和文本2相似为相似文本,若P1小于A且不小于B,则计算文本1和文本2的字面相似度P2,若字面相似度P2不小于A,则确定文本1和文本2相似为相似文本,若字面相似度P2小于A,则确定文本1和文本2不相似为非相似文本。
本发明实施例还提供了一种相似文本确定装置,如图5所示,该装置可以包括:
第一计算模块501,用于根据预设的语义相似度算法计算两个文本之间的语义相似度;
第一判定模块502,用于若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
第二计算模块503,用于若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
第二判定模块504,用于若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
本发明实施例提出的相似文本确定装置,先通过第一计算模块计算两个文本的语义相似度,通过第一判定模块判断语义相似度是否小于第一阈值,当语义相似度不小于预设第一阈值时确定两个文本是相似文本,当两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,说明两个文本之间具有一定的相似度,此时通过第二计算模块进一步采用字面相似度算法计算两个文本的字面相似度,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与只通过一个相似度算法相比,结果更加准确。在具体应用时,将热点事件作为一个文本来与其他信息组成的另一个文本,采用本方案提供的方法即可确定出与热点事件的相似信息,进一步的将相似信息确定为与热点事件相关的信息。
在一种可能的实现方式中,语义相似度算法为余弦相似度算法,所述第一计算模块501具体用于:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
采用余弦相似度算法计算两个文本之间的语义相似度,准确率高。
在一种可能的实现方式中,所述第二计算模块503具体用于:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
采用字面相似度算法用于计算两个文本之间字面上的相似度,准确率高。
在一种可能的实现方式中,所述装置还包括阈值设置模块;
所述阈值设置模块包括:
组合设置子模块,用于在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
样本获取子模块,获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
指标计算子模块,用于采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
阈值确定子模块,用于确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值。
在一种可能的实现方式中,所述指标计算子模块具体用于:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系和通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
通过上述阈值设置模块在确定第一阈值和第二阈值时可以根据用户需求确定不同预设条件,从而确定出更符合用户需求的第一阈值和第二阈值。
如图6所示,在本申请另一实施例中,还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信;
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的与所述语义相似度算法不同的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
上述电子设备提到的通信总线604可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线604可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口602用于上述电子设备与其他设备之间的通信。
存储器603可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请另一实施例中,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理方法程序,所述数据处理方法程序被处理器执行时实现上述任一所述的相似文本确定方法的步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种相似文本确定方法,其特征在于,包括:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
2.根据权利要求1所述的方法,其特征在于,所述语义相似度算法为余弦相似度算法;
所述根据预设的语义相似度算法计算两个文本之间的语义相似度,包括:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度,包括:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值;
所述预设条件为阈值组合对应的一个或多个相关指标的值为所述多个阈值组合中相应的相关指标的最大值。
5.根据权利要求4所述的方法,其特征在于,采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,包括:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系以及通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
6.一种相似文本确定装置,其特征在于,包括:
第一计算模块,用于根据预设的语义相似度算法计算两个文本之间的语义相似度;
第一判定模块,用于若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
第二计算模块,用于若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
第二判定模块,用于若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
7.根据权利要求6所述的装置,其特征在于,所述语义相似度算法为余弦相似度算法;
所述第一计算模块具体用于:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
8.根据权利要求6所述的装置,其特征在于,所述第二计算模块具体用于:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括阈值设置模块;
所述阈值设置模块包括:
组合设置子模块,用于在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
样本获取子模块,获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
指标计算子模块,用于采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
阈值确定子模块,用于确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值。
10.根据权利要求9所述的装置,其特征在于,所述指标计算子模块具体用于:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法分别计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系和通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
CN201911368984.8A 2019-12-26 2019-12-26 一种相似文本确定方法及装置 Active CN111061842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911368984.8A CN111061842B (zh) 2019-12-26 2019-12-26 一种相似文本确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911368984.8A CN111061842B (zh) 2019-12-26 2019-12-26 一种相似文本确定方法及装置

Publications (2)

Publication Number Publication Date
CN111061842A true CN111061842A (zh) 2020-04-24
CN111061842B CN111061842B (zh) 2023-06-30

Family

ID=70302924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911368984.8A Active CN111061842B (zh) 2019-12-26 2019-12-26 一种相似文本确定方法及装置

Country Status (1)

Country Link
CN (1) CN111061842B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051903A (zh) * 2021-04-21 2021-06-29 哈尔滨工业大学 语句、案件经过、量刑情节和司法文书一致性比对方法
CN113377927A (zh) * 2021-06-28 2021-09-10 成都卫士通信息产业股份有限公司 一种相似文档检测方法、装置、电子设备及存储介质
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统
WO2022172334A1 (ja) * 2021-02-09 2022-08-18 日本電信電話株式会社 情報処理装置、抽出方法及び抽出プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN108875050A (zh) * 2018-06-27 2018-11-23 北京工业大学 面向文本的数字取证分析方法、装置和计算机可读介质
US20190197129A1 (en) * 2017-12-26 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd . Text analyzing method and device, server and computer-readable storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
US20190197129A1 (en) * 2017-12-26 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd . Text analyzing method and device, server and computer-readable storage medium
CN108875050A (zh) * 2018-06-27 2018-11-23 北京工业大学 面向文本的数字取证分析方法、装置和计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪一百;陈实;叶剑锋;: "利用深度学习的文本相似度计算方法" *
詹志建;杨小平;: "基于语言网络和语义信息的文本相似度计算" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022172334A1 (ja) * 2021-02-09 2022-08-18 日本電信電話株式会社 情報処理装置、抽出方法及び抽出プログラム
CN113051903A (zh) * 2021-04-21 2021-06-29 哈尔滨工业大学 语句、案件经过、量刑情节和司法文书一致性比对方法
CN113377927A (zh) * 2021-06-28 2021-09-10 成都卫士通信息产业股份有限公司 一种相似文档检测方法、装置、电子设备及存储介质
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统
CN113486071B (zh) * 2021-07-27 2022-04-26 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统

Also Published As

Publication number Publication date
CN111061842B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111061842B (zh) 一种相似文本确定方法及装置
WO2019076191A1 (zh) 关键词提取方法和装置、存储介质及电子装置
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
CN109597874B (zh) 信息推荐方法、装置及服务器
CN111767713B (zh) 关键词的提取方法、装置、电子设备及存储介质
CN110825977A (zh) 一种数据推荐方法及相关设备
CN112199588A (zh) 舆情文本筛选方法及装置
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
CN111027316A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112487181B (zh) 关键词确定方法和相关设备
CN109902129B (zh) 基于大数据分析的保险代理人归类方法及相关设备
CN112395388A (zh) 信息处理方法及装置
CN109033070B (zh) 一种数据处理方法、服务器及计算机可读介质
CN111984867B (zh) 一种网络资源确定方法及装置
CN113392184A (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN112784032A (zh) 会话语料推荐评价方法、装置、存储介质和电子设备
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN117390292B (zh) 基于机器学习的应用程序信息推荐方法、系统及设备
CN110704690B (zh) 一种数据处理方法、设备及存储介质
CN109101485B (zh) 一种信息处理方法、装置、电子设备及计算机存储介质
CN111666295B (zh) 数据提取方法、终端设备及计算机可读存储介质
CN115249098A (zh) 数据指标的确定方法、装置、设备及存储介质
CN117076785A (zh) 热点话题确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant