CN110188330A - 确定相似文本信息的方法、装置、电子设备及存储介质 - Google Patents
确定相似文本信息的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110188330A CN110188330A CN201910471123.6A CN201910471123A CN110188330A CN 110188330 A CN110188330 A CN 110188330A CN 201910471123 A CN201910471123 A CN 201910471123A CN 110188330 A CN110188330 A CN 110188330A
- Authority
- CN
- China
- Prior art keywords
- processed
- text information
- text
- semantic
- informations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种确定相似文本信息的方法、装置、电子设备及存储介质。该方法包括:针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定各个待处理文本信息两两之间的语义相似度,根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。本申请实施例的相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
Description
技术领域
本申请涉及互联网信息技术领域,具体而言,本申请涉及一种确定相似文本信息的方法、装置、电子设备及存储介质。
背景技术
深度学习是机器学习的技术和研究领域之一,通过建立具有阶层结构的人工神经网络,在计算系统中实现人工智能。在人工智能问答领域,句子的相似度计算是保证回答准确率的核心。相似度计算主要依赖于各种深刻学习模型的训练,而训练这些深度学习模型需要有足够量的训练文本信息支撑。
通常情况下,深度学习模型训练文本信息的量级至少要在千万级以上,才能保证训练得到的深度学习模型准确率较高。这些用于训练深度学习模型的训练文本信息被称作平行语料。平行语料指的是相似文本信息对,也叫做正例对。如“创业板怎么开通”和“创业板的开通方法”就是一个正例对。
平行语料的构建已经成为决定深度学习模型效果的核心因素,如何快速有效的构建千万级的平行语料库,成为困扰业内大部分智能客服厂商的主要问题。在现有技术中,平行语料的构建基本采用人工标注的方式进行,需要耗费大量的人力财力和时间,成本居高不下。而且由于每个数据标注员的标准很难达到统一,所以导致标注出来的平行语料库存在标准不一致的情况,影响模型训练效果。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是人工标注平行语料的成本较高的技术缺陷。
第一方面,提供了一种确定相似文本信息的方法,该方法包括:
针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定各个待处理文本信息两两之间的语义相似度;
根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息;
对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
第二方面,提供了一种确定相似文本信息的装置,该装置包括:
第一确定模块,用于针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定各个待处理文本信息两两之间的语义相似度;
第二确定模块,用于根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息;
过滤确定模块,用于对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述的确定相似文本信息的方法。
例如,本申请的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如本申请的第一方面所示的确定相似文本信息的方法对应的操作。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的确定相似文本信息的方法。
例如,本申请实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的确定相似文本信息的方法。
本申请实施例提供的技术方案带来的有益效果是:
针对多个待处理文本信息,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。该相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种确定相似文本信息的方法的流程示意图;
图2为本申请实施例提供的一种确定相似文本信息的装置的结构示意图;
图3为本申请实施例提供的一种确定相似文本信息的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:本申请中的相似文本信息指通过对常用问答语料中的句子进行子句切分和频率特征提取等获得大片段语料。大片段语料指在问题领域中,经常出现的一些子句或者短语,比如“怎么样”,“如何计算”,“怎么开通”,“请教一个问题”等。相似文本信息对指用于训练深度学习模型的训练文本信息,也叫平行语料、正例对。
通常情况下,深度学习模型训练文本信息的量级至少要在千万级以上,才能保证训练得到的深度学习模型准确率较高。因此,训练文本信息的构建已经成为决定深度学习模型效果的核心因素。在现有技术中,平行语料的构建基本采用人工标注的方式进行,需要耗费大量的人力财力和时间,成本居高不下。而且由于每个数据标注员的标准很难达到统一,所以导致标注出来的平行语料库存在标准不一致的情况,影响模型训练效果。
本申请提供的确定相似文本信息的方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种确定相似文本信息的方法,如图1所示,该方法包括:
S101,针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定各个待处理文本信息两两之间的语义相似度;
多个待处理文本信息为预先得到的,可以为人工标注得到的,也可以通过机器的形式得到,或者通过人机结合的形式得到。优选地,待处理文本信息的数量为百万量级以上。
确定各个待处理文本信息的语义向量的方式不做限定,其中一种方式为将待处理文本信息输入预先训练好的词向量模型中,由词向量模型输出与各个待处理文本信息相对应的语义向量,基于与各个待处理文本信息相对应的语义向量确定各个待处理文本信息两两之间的语义相似度。
S102,根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息;
基于各个待处理文本信息两两之间的语义相似度,针对一个待处理文本信息,从多个待处理文本信息中确定至少一个其他待处理文本信息,且每个待处理文本信息均要执行从多个待处理文本信息中确定至少一个其他待处理文本信息的步骤。其中,当两个待处理文本信息之间的语义相似度的数值大于预设语义相似阈值时,确定一个待处理文本信息为另一个待处理文本信息对应的其他待处理文本信息。
例如,一共有10个待处理文本信息,针对10个待处理文本信息两两之间的语义相似度,若语义相似度大于0.8,则满足一个待处理文本信息为另一个待处理文本信息对应的其他待处理文本信息的条件。依据该条件,针对待处理文本信息1,从10个待处理文本信息中确定待处理文本信息3和待处理文本信息7为待处理文本信息1对应的其他待处理文本信息,针对待处理文本信息2,从10个待处理文本信息中确定待处理文本信息4为待处理文本信息2对应的其他待处理文本信息,直至10个待处理文本信息中的每一个,均确定与该待处理文本信息对应的其他待处理文本信息为止。
S103,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
过滤处理包括实体过滤处理、上下文过滤处理和异常文本过滤处理等。对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,过滤掉各个待处理文本信息和与该待处理文本信息对应的其他待处理文本信息中的负例对,保证每一待处理文本信息与其对应的过滤结果为正例对,进而保证相似文本信息对能更好的用于训练深度学习模型。
在本申请实施例中,针对多个待处理文本信息,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。该相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
实施例二
本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,S101包括S1011(图中未标出):
S1011,针对多个待处理文本信息,计算任两个待处理文本信息的语义向量之间的向量夹角,并将向量夹角作为所述任两个待处理文本信息之间的语义相似度;
S102包括S1021(图中未标出):
S1021,若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,则确定另一待处理文本信息为任一待处理文本信息语义对应的其他待处理文本信息。
计算任两个待处理文本信息的语义向量之间的向量夹角,当大于预设第一阈值,则确定另一待处理文本信息为任一待处理文本信息语义对应的其他待处理文本信息。优选的计算任两个待处理文本信息的语义向量之间的余弦向量夹角。其中,余弦向量夹角越大,表明两个待处理文本信息的语义距离越相关,余弦向量夹角越小,表明两个语义向量的距离越远,两个待处理文本信息的语义距离越不相关。
若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,确定另一待处理文本信息为任一待处理文本信息语义对应的其他待处理文本信息。即,针对任一待处理文本信息,从多个多个待处理文本信息中召回至少一条与其语义相关的其他待处理文本信息。
例如,针对“如何计算”这条待处理文本信息,从多个待处理文本信息中召回了余弦向量夹角大于0.8的“怎么计算”、“要怎么计算”及“应该如何算”三条其他待处理文本信息,“如何计算”与“怎么计算”语义基本一致,“如何计算”与“要怎么计算”语义基本一致,“如何计算”与“应该如何算”语义基本一致余弦向量夹角小于等于0.8的“如何开通”和“要怎么开”并没有被召回,且“如何计算”与“如何开通”的语义不相关,“如何计算”与“要怎么开”的语义也不相关。
在又一具体实施例中,对任一待处理文本信息以及与任一待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,包括S1031(图中未标出)、S1032(图中未标出)和S1033(图中未标出):
S1031,对与任一待处理文本信息语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,得到该任一待处理文本信息对应的第一中间过滤结果;
S1032,对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,得到该任一待处理文本信息对应的第二中间过滤结果;
S1033,过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果。
针对与任一待处理文本信息语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,先后经过实体过滤、上下文过滤和异常文本信息过滤。其中,实体过滤、上下文过滤和异常文本信息过滤的顺序不做限定,三个过滤的顺序可以进行更换。每一待处理文本信息与其对应的过滤结果为相似文本信息对。
其中,在对各个待处理文本信息以及与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,除包括实体过滤、上下文过滤和异常文本信息过滤外,还可能包括其他形式的过滤,进一步提高相似文本信息对的准确度。
例如,针对待处理文本信息“怎么开通”,根据语义相似度确定与“怎么开通”语义对应的有三个其他待处理文本信息,分别为“开通卡”、“要怎么开”和“如何开通”,而在过滤的过程中,实体过滤掉了“开通卡”,上下文过滤和异常文本信息过滤均没有过滤掉另两个其他待处理文本信息,即实体过滤、上下文过滤和异常文本信息过滤均没有过滤掉“要怎么开”和“如何开通”。则“怎么开通”与过滤结果“要怎么开”组成一个相似文本信息对,“怎么开通”与过滤结果“如何开通”组成另一个相似文本信息对。
在又一具体实施例中,S1031包括S10311(图中未标出):
S10311,基于预设实体列表进行文本信息查询,过滤属于预设实体列表中的其他待处理文本信息,得到该任一待处理文本信息对应的第一中间过滤结果。
实体指一些类似于人物,影视名称,游戏名称,地址等代表某个特定事物的名词,比如“范冰冰”,“湄公河行动”,“王者荣耀”等都是实体。因此,预设实体列表中的文本信息包括上述多个或者全部的特定事物的名词。
根据所述语义相似度,确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,其他待处理文本信息可能包括实体。其他待处理文本信息中的实体有两个来源,一是由于其他待处理文本信息可能本身带有实体,如“开通卡”本身就是一个实体。二是可能在确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息的过程中存在实体相关的误召,如针对“王者荣耀”,确定的其他待处理文本信息为“绝地求生”,由于“王者荣耀”和“绝地求生”的语义向量接近,语义相似度也会比较高,但实际上并不是语义相关,二者是两款完全不同的产品。
利用术语挖掘、实体命名识别(Named Entity Recognition,NER)等方式可从预设的语料库中挖掘得预设实体列表。针对任一待处理文本信息语义对应的至少一个其他待处理文本信息,过滤掉属于预设实体列表中的其他待处理文本信息,剩余没有被过滤掉的其他待处理文本信息,为该任一待处理文本信息对应的第一中间过滤结果。
在又一具体实施例中,S1032包括S10321(图中未标出)和S10322(图中未标出):
S10321,计算该任一待处理文本信息和其对应的第一中间过滤结果之间的上下文概率分数;
S10322,将上下文概率分数大于预设第二阈值的第一中间过滤结果进行过滤,得到该任一待处理文本信息对应的第二中间过滤结果。
上下文指两个文本信息之间存在上下文关系,而不是语义相近或一致,比如“最近总感冒”和“该看医生了”两个文本信息,二者具有上下文关系。在根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息的过程中,具有上下文关系的两个文本信息是通过上下文关系训练语义向量表示的。具有上下文关系的两个文本信息经常出现在同一段对话中,学习出来的语义向量比较接近,语义相似度也较高,因此,“最近总感冒”就会很容易将“该看医生了”误召回来。
上下文过滤处理采取训练语言模型的方式实现过滤。通过对全语料的训练学习,语言模型能够学习到任意两个文本信息出现在一个用户问题中的概率,若同时出现的概率高与预设概率阈值,说明这两个两个文本信息具有上下文关系。基于训练好的语言模型,将任一待处理文本信息和其对应的第一中间过滤结果输入至训练好的语言模型中,输出二者的上下文概率分数,若上下文概率分数大于预设第二阈值,则过滤掉其对应的第一中间过滤结果,达到上下文过滤处理的目的,剩余未过滤的第一中间过滤结果作为该任一待处理文本信息对应的第二中间过滤结果。
例如,针对“最近总感冒”,根据语义相似度确定与“最近总感冒”语义对应的多个待处理文本信息中的其他待处理文本信息分别为“最近感冒了”和“该看医生了”,利用训练好的语言模型,“最近总感冒”和“最近感冒了”的上下文概率分数为0.2,“最近总感冒”和“该看医生了”的上下文概率为0.9,其中,预设第二阈值为0.7,因此,过滤掉“该看医生了”,保留“最近感冒了”,将“最近感冒了”作为“最近总感冒”对应的第二中间过滤结果。
S1033,过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果。
过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,即为异常文本信息过滤。过滤方式为按照预设的过滤规则,过滤掉任一待处理文本信息对应的第二中间过滤结果中的常见负例误召结果。预设的过滤规则需要根据对实际数据的观察进行设计,因场景而异,因数据而异,没有固定模式。
例如,过滤任一待处理文本信息对应的第二中间过滤结果中以“的”开头的异常文本信息,剩余没有被过滤的第二中间过滤结果作为该任一待处理文本信息对应的过滤结果。
在又一可能的实现方式中,将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对,包括S1034(图中未标出):
S1034,将每一待处理文本信息与其对应的过滤结果进行去重处理,并将去重结果确定为相似文本信息对。
每一待处理文本信息与其对应的一个过滤结果为一个相似文本信息对。一个待处理文本信息对应N个过滤结果,则相似文本信息对有N对,一个待处理文本信息与N个过滤结果中的任一个均可作为一个相似文本信息对。如“怎么计算”对应两个过滤结果,分别为“要怎么算”和“如何计算”,则“怎么计算”与“要怎么算”作为一个相似文本信息对,“怎么计算”与“如何计算”作为一个相似文本信息对。
针对一个待处理文本信息对应N个过滤结果所形成的N对相似文本信息对,进行去重处理,将重复出现的两对或者两对以上的相似文本信息对,去重后只保留一个,将去重结果确定为相似文本信息对。即去重后的相似文本信息对的个数小于或者等于N。
例如,“怎么计算”对应三个过滤结果,分别为“要怎么算”、“要怎么算”和“如何计算”,则“怎么计算”与其中一个“要怎么算”作为一个相似文本信息对,“怎么计算”与另一个“要怎么算”作为一个相似文本信息对,“怎么计算”与“如何计算”作为一个相似文本信息对,去重后的去重结果为“怎么计算”与“要怎么算”的一个相似文本信息对,“怎么计算”与“如何计算”的另一个相似文本信息对,即最终为两个相似文本信息对。
在又一可能的实现方式中,确定各个待处理文本信息的语义向量的方式,包括S1012(图中未标出):
S1012,利用预设词向量模型得到各个待处理文本信息对应的语义向量。
预设词向量模型用于得到各个待处理文本信息对应的语义向量。其中,
对预设语料库中的文本信息进行分词,把大片段文本信息作为分词的干预词典,保证大片段文本信息作为一个词语,得到训练词向量模型的训练文本信息。利用预设的word2vector模型或者fasttext短文本分类模型训练得到预设词向量模型,将待处理文本信息输入至预设词向量模型,预设词向量模型输出各个待处理文本信息的语义向量。
在本申请实施例中,针对多个待处理文本信息,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。该相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
实施例三
本申请实施例提供了一种确定相似文本信息的装置,如图2所示,该确定相似文本信息的装置20可以包括:第一确定模块201、第二确定模块202以及过滤确定模块203,其中,
第一确定模块201,用于针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定各个待处理文本信息两两之间的语义相似度;
第二确定模块202,用于根据语义相似度,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息;
过滤确定模块203,用于对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
进一步地,第一确定模块201,还用于针对多个待处理文本信息,计算任两个待处理文本信息的语义向量之间的向量夹角,并将向量夹角作为任两个待处理文本信息之间的语义相似度;
第二确定模块202,还用于若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,则确定另一待处理文本信息为任一待处理文本信息语义对应的其他待处理文本信息。
进一步地,过滤确定模块203包括第一过滤模块(图中未标出)、第二过滤模块(图中未标出)、第三过滤模块(图中未标出)和第三确定模块(图中未标出):
第一过滤模块,用于对与任一待处理文本信息语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,得到该任一待处理文本信息对应的第一中间过滤结果;
第二过滤模块,用于对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,得到该任一待处理文本信息对应的第二中间过滤结果;
第三过滤模块,用于过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果;
第三确定模块,用于将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
进一步地,第一过滤模块,还用于基于预设实体列表进行文本信息查询,过滤属于预设实体列表中的其他待处理文本信息,得到该任一待处理文本信息对应的第一中间过滤结果。
进一步地,第二过滤模块包括计算模块(图中未标出)和第四过滤模块(图中未标出):
计算模块,用于计算该任一待处理文本信息和其对应的第一中间过滤结果之间的上下文概率分数;
第四过滤模块,用于将上下文概率分数大于预设第二阈值的第一中间过滤结果进行过滤,得到该任一待处理文本信息对应的第二中间过滤结果。
进一步地,第三确定模块,还用于将每一待处理文本信息与其对应的过滤结果进行去重处理,并将去重结果确定为相似文本信息对。
进一步地,确定各个待处理文本信息的语义向量的方式,包括:
利用预设词向量模型得到各个待处理文本信息对应的语义向量。
本实施例的确定相似文本信息的装置可执行本申请实施例一和/或本申请实施例二提供的一种确定相似文本信息的方法,其实现原理相类似,此处不再赘述。
在本申请实施例中,针对多个待处理文本信息,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。该相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
实施例四
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备2000包括:处理器2001和收发器2004。其中,处理器2001和收发器2004相连,如通过总线2002相连。可选的,电子设备2000还可以包括存储器2003。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一和/或本申请实施例二所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,针对多个待处理文本信息,确定与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,对各个待处理文本信息以及与各个待处理文本信息分别语义对应的多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。该相似文本信息对是通过机器处理得到的,具有统一的标准,且节省了人力、财力和时间,能有效降低成本。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供了:
A1、一种确定相似文本信息的方法,包括:
针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定所述各个待处理文本信息两两之间的语义相似度;
根据所述语义相似度,确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息;
对各个待处理文本信息以及与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
A2、根据A1所述的方法,依据各个待处理文本信息的语义向量,确定任两个待处理文本信息之间的语义相似度,包括:
计算任两个待处理文本信息的语义向量之间的向量夹角,并将所述向量夹角作为所述任两个待处理文本信息之间的语义相似度;
根据所述语义相似度,确定与任一待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,包括:
若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,则确定所述另一待处理文本信息为所述任一待处理文本信息语义对应的其他待处理文本信息。
A3、根据A1所述的方法,对任一待处理文本信息以及与任一待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,包括:
对与任一待处理文本信息语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,得到该任一待处理文本信息对应的第一中间过滤结果;
对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,得到该任一待处理文本信息对应的第二中间过滤结果;
过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果。
A4、根据A3所述的方法,所述对与任一待处理文本信息语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,包括:
基于预设实体列表进行文本信息查询,过滤属于所述预设实体列表中的其他待处理文本信息。
A5、根据A3所述的方法,所述对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,包括:
计算该任一待处理文本信息和其对应的第一中间过滤结果之间的上下文概率分数;
将所述上下文概率分数大于预设第二阈值的第一中间过滤结果进行过滤。
A6、根据A1所述的方法,所述将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对,包括:
将每一待处理文本信息与其对应的过滤结果进行去重处理,并将去重结果确定为相似文本信息对。
A7、根据A1所述的方法,确定各个待处理文本信息的语义向量的方式,包括:
利用预设词向量模型得到各个待处理文本信息对应的语义向量。
B8、一种确定相似文本信息的装置,其特征在于,包括:
第一确定模块,用于针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定所述各个待处理文本信息两两之间的语义相似度;
第二确定模块,用于根据所述语义相似度,确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息;
过滤确定模块,用于对各个待处理文本信息以及与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
B9、根据B8所述的装置,
第一确定模块,还用于针对多个待处理文本信息,计算任两个待处理文本信息的语义向量之间的向量夹角,并将所述向量夹角作为所述任两个待处理文本信息之间的语义相似度;
第二确定模块,还用于若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,则确定所述另一待处理文本信息为所述任一待处理文本信息语义对应的其他待处理文本信息。
B10、根据B8所述的装置,过滤确定模块包括:
第一过滤模块,用于对与任一待处理文本信息语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,得到该任一待处理文本信息对应的第一中间过滤结果;
第二过滤模块,用于对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,得到该任一待处理文本信息对应的第二中间过滤结果;
第三过滤模块,用于过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果;
第三确定模块,用于将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
B11、根据B10所述的装置,第一过滤模块,还用于基于预设实体列表进行文本信息查询,过滤属于所述预设实体列表中的其他待处理文本信息,得到该任一待处理文本信息对应的第一中间过滤结果。
B12、根据B10所述的装置,第二过滤模块包括:
计算模块,用于计算该任一待处理文本信息和其对应的第一中间过滤结果之间的上下文概率分数;
第四过滤模块,用于将所述上下文概率分数大于预设第二阈值的第一中间过滤结果进行过滤,得到该任一待处理文本信息对应的第二中间过滤结果。
B13、根据B8所述的装置,第三确定模块,还用于将每一待处理文本信息与其对应的过滤结果进行去重处理,并将去重结果确定为相似文本信息对。
B14、根据B8所述的装置,确定各个待处理文本信息的语义向量的方式,包括:
利用预设词向量模型得到各个待处理文本信息对应的语义向量。
C15、一种电子设备,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据A1~A7任一项所述的确定相似文本信息的方法。
D16、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现A1-A7任一项所述的确定相似文本信息的方法。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种确定相似文本信息的方法,其特征在于,包括:
针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定所述各个待处理文本信息两两之间的语义相似度;
根据所述语义相似度,确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息;
对各个待处理文本信息以及与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
2.根据权利要求1所述的方法,其特征在于,依据各个待处理文本信息的语义向量,确定任两个待处理文本信息之间的语义相似度,包括:
计算任两个待处理文本信息的语义向量之间的向量夹角,并将所述向量夹角作为所述任两个待处理文本信息之间的语义相似度;
根据所述语义相似度,确定与任一待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,包括:
若任一待处理文本信息与另一待处理文本信息的语义向量之间的向量夹角大于预设第一阈值,则确定所述另一待处理文本信息为所述任一待处理文本信息语义对应的其他待处理文本信息。
3.根据权利要求1所述的方法,其特征在于,对任一待处理文本信息以及与任一待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,包括:
对与任一待处理文本信息语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,得到该任一待处理文本信息对应的第一中间过滤结果;
对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,得到该任一待处理文本信息对应的第二中间过滤结果;
过滤该任一待处理文本信息对应的第二中间过滤结果中的异常文本信息,得到该任一待处理文本信息对应的过滤结果。
4.根据权利要求3所述的方法,其特征在于,所述对与任一待处理文本信息语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行实体过滤处理,包括:
基于预设实体列表进行文本信息查询,过滤属于所述预设实体列表中的其他待处理文本信息。
5.根据权利要求3所述的方法,其特征在于,所述对该任一待处理文本信息对应的第一中间过滤结果进行上下文过滤处理,包括:
计算该任一待处理文本信息和其对应的第一中间过滤结果之间的上下文概率分数;
将所述上下文概率分数大于预设第二阈值的第一中间过滤结果进行过滤。
6.根据权利要求1所述的方法,其特征在于,所述将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对,包括:
将每一待处理文本信息与其对应的过滤结果进行去重处理,并将去重结果确定为相似文本信息对。
7.根据权利要求1所述的方法,其特征在于,确定各个待处理文本信息的语义向量的方式,包括:
利用预设词向量模型得到各个待处理文本信息对应的语义向量。
8.一种确定相似文本信息的装置,其特征在于,包括:
第一确定模块,用于针对多个待处理文本信息,依据各个待处理文本信息的语义向量,确定所述各个待处理文本信息两两之间的语义相似度;
第二确定模块,用于根据所述语义相似度,确定与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息;
过滤确定模块,用于对各个待处理文本信息以及与各个待处理文本信息分别语义对应的所述多个待处理文本信息中的至少一个其他待处理文本信息,进行过滤处理,并将每一待处理文本信息与其对应的过滤结果确定为相似文本信息对。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~7任一项所述的确定相似文本信息的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的确定相似文本信息的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910471123.6A CN110188330B (zh) | 2019-05-31 | 2019-05-31 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910471123.6A CN110188330B (zh) | 2019-05-31 | 2019-05-31 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188330A true CN110188330A (zh) | 2019-08-30 |
CN110188330B CN110188330B (zh) | 2021-07-16 |
Family
ID=67719507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910471123.6A Active CN110188330B (zh) | 2019-05-31 | 2019-05-31 | 确定相似文本信息的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188330B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781687A (zh) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | 相同意图语句的获取方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN105302779A (zh) * | 2015-10-23 | 2016-02-03 | 北京慧点科技有限公司 | 一种文本相似度比对方法及装置 |
US20180349350A1 (en) * | 2017-06-01 | 2018-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for checking text |
CN109325229A (zh) * | 2018-09-19 | 2019-02-12 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN109597878A (zh) * | 2018-11-13 | 2019-04-09 | 北京合享智慧科技有限公司 | 一种确定文本相似度的方法及相关装置 |
-
2019
- 2019-05-31 CN CN201910471123.6A patent/CN110188330B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN105302779A (zh) * | 2015-10-23 | 2016-02-03 | 北京慧点科技有限公司 | 一种文本相似度比对方法及装置 |
US20180349350A1 (en) * | 2017-06-01 | 2018-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for checking text |
CN109325229A (zh) * | 2018-09-19 | 2019-02-12 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN109597878A (zh) * | 2018-11-13 | 2019-04-09 | 北京合享智慧科技有限公司 | 一种确定文本相似度的方法及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781687A (zh) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | 相同意图语句的获取方法及装置 |
CN110781687B (zh) * | 2019-11-06 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 相同意图语句的获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110188330B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9575936B2 (en) | Word cloud display | |
Meng et al. | Temporal information extraction for question answering using syntactic dependencies in an LSTM-based architecture | |
US11243994B2 (en) | Labeling/names of themes | |
US10860566B1 (en) | Themes surfacing for communication data analysis | |
Saha et al. | BERT-caps: A transformer-based capsule network for tweet act classification | |
JP3962382B2 (ja) | 表現抽出装置、表現抽出方法、プログラム及び記録媒体 | |
US10078689B2 (en) | Labeling/naming of themes | |
CN109033270A (zh) | 一种基于人工客服日志自动构建客服知识库的方法 | |
CN109684441A (zh) | 对职位和简历进行匹配的方法、系统、设备和介质 | |
US20220068279A1 (en) | Automatic extraction of conversation highlights | |
US20210304747A1 (en) | Extracting customer problem description from call transcripts | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN106033438B (zh) | 舆情数据存储方法和服务器 | |
CN115034220B (zh) | 一种异常日志检测方法、装置、电子设备及存储介质 | |
CN110188330A (zh) | 确定相似文本信息的方法、装置、电子设备及存储介质 | |
US11483208B2 (en) | System and method for reducing network traffic | |
US20160034509A1 (en) | 3d analytics | |
CN111708880A (zh) | 类簇的识别系统及方法 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
US11822563B2 (en) | Scoring potential actions for machine learning based recommendations | |
CN108924002A (zh) | 一种性能数据文件的解析方法、装置及设备 | |
Masmoudi et al. | An ontology-based approach for mining radicalization indicators from online messages | |
CN114003708A (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN113094471A (zh) | 交互数据处理方法和装置 | |
Im et al. | Multilayer CARU model for text summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200727 Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms Applicant before: Tricorn (Beijing) Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |