CN112667809A - 一种文本处理方法、装置及电子设备、存储介质 - Google Patents
一种文本处理方法、装置及电子设备、存储介质 Download PDFInfo
- Publication number
- CN112667809A CN112667809A CN202011561797.4A CN202011561797A CN112667809A CN 112667809 A CN112667809 A CN 112667809A CN 202011561797 A CN202011561797 A CN 202011561797A CN 112667809 A CN112667809 A CN 112667809A
- Authority
- CN
- China
- Prior art keywords
- text
- clustered
- texts
- target
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本处理方法、装置及电子设备、存储介质,应用于人工智能技术领域,其中方法包括:将待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。本申请涉及区块链技术,如可将待聚类文本存储至区块链中,以用于文本聚类等场景。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及医疗技术领域,尤其涉及一种文本处理方法、装置及电子设备、存储介质。
背景技术
随着近些年大数据以及人工智能技术在各行各业的普及与发展,各领域市场相关的AI(人工智能,Artificial Intelligence))产品也面临着巨大缺口,以医疗领域为例,目前,很多巨头公司都在开发医疗领域的AI产品或者研发相关的技术,例如谷歌、IBM、微软,其中一个很重要的方向就是医疗AI问答系统,而搭建AI问答系统,自然离不开语料数据的整理,例如在FAQ(Frequently Asked Questions,常见问题解答)问答中,经常需要从几万甚至几十万的数据中进行聚类,如果完全按照人工,会耗费很大的时间成本,而且准确度也难以保证。已有的文本聚类方法通常是设定好一个聚类的数量,然后进行聚类,但是这个聚类数量的选择很难,往往需要根据经验不断更新确定,需要消耗大量的时间。
因此,如何提高文本聚类的效率成为一种亟待解决的问题。
发明内容
本申请实施例提供了一种文本处理方法、装置及电子设备、存储介质,有利于计算搜索文本与各候选文本之间的相似度,将相似度大于相似度阈值的目标候选文本与搜索文本聚类。
一方面,本申请实施例提供了一种文本处理方法,所述方法包括:
将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;
从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;
通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;
将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
在一个实施例中,所述从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本之前,还可以在搜索引擎的索引库中建立一个目标索引;将所述一个或者多个待聚类文本进行分词处理得到至少一个分词,向所述搜索引擎发送包括所述至少一个分词的索引创建请求,所述索引创建请求用于指示所述搜索引擎在所述目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。
在一个实施例中,所述从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本的具体实施方式为:
对目标搜索文本进行分词处理,得到至少一个搜索分词;所述目标搜索文本为所述一个或者多个待聚类文本中的任一个;
依次将各搜索分词与所述索引库中预先存储的各分词进行匹配,确定与各搜索分词匹配的目标分词;
依照所述索引库中预先标记的所述各分词与对应的待聚类文本的关联关系,确定所述目标分词对应的目标待聚类文本;
计算所述目标待聚类文本中所包括的所述目标分词的数量,依照所述数量确定所述目标待聚类文本与所述目标搜索文本的匹配度;
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本,所述N为大于0的整数。
在一个实施例中,所述依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本的具体实施方式为:
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,得到搜索序列;
将所述搜索序列中排序第一的目标待聚类文本删除,并在删除排序第一的目标待聚类文本后的搜索序列中,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本。
在一个实施例中,若所述一个或者多个待聚类文本中的任一待聚类文本聚类完毕,则在所述索引库中删除与所述任一待聚类文本关联的目标数据,所述目标数据包括以下任一种或者多种:所述任一待聚类文本对应的各分词和所述任一待聚类文本对应的各分词与所述任一待聚类文本的关联关系。
在一个实施例中,所述得到一个或者多个聚类之后,还可以获取所述一个或者多个聚类中各聚类所包括的文本数量;依照所述文本数量从大到小的顺序对所述各聚类进行排序;输出对所述各聚类的排序结果。
在一个实施例中,所述得到一个或者多个聚类之后,还可以从所述一个或者多个聚类包括的各聚类中选取一个文本,作为所述各聚类各自对应的目标文本;依照所述各聚类的属性信息,对所述各聚类各自对应的目标文本进行标记;输出标记后的目标文本。
另一方面,本申请实施例提供了一种文本处理装置,包括:
处理模块,用于将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;
搜索模块,用于从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;
所述处理模块,还用于通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;
所述处理模块,还用于将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
再一方面,本申请实施例提供了一种电子设备,包括处理器、存储装置和通信接口,所述处理器、存储装置和通信接口相互连接,其中,所述存储装置用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本,与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述文本处理方法。
本申请实施例,可将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。采用这样的方式,使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。除此以外,可适用于不同数据总量的数据,适用性更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种文本处理方法的流程示意图;
图2是本申请实施例的另一种文本处理方法的流程示意图;
图3是本申请实施例的相似度计算模型的结构示意图;
图4是本申请实施例的一种文本处理装置的结构示意图;
图5是本申请实施例的一种电子设备的结构示意图。
具体实施方式
本申请实施例提出了一种文本处理方法,该方法可以由电子设备执行,此处的电子设备可以为服务器或者终端,该终端可以包括但不限于:平板电脑、膝上计算机、笔记本电脑以及台式电脑,等等。请参见图1所示,该文本处理方法可包括以下步骤S101-S104:
S101、将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本。
在一个实施例中,可以在执行S101之前,在搜索引擎的索引库中建立一个目标索引,将一个或者多个待聚类文本进行分词处理得到至少一个分词(例如将“糖尿病如何治疗”,分词处理为:“糖尿病”、“如何”、“治疗”等3个分词),向搜索引擎发送包括至少一个分词的索引创建请求,该索引创建请求用于指示搜索引擎在所述目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。搜因引擎可以在接收到该索引创建请求后,基于该请求的指示在预先创建的目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。
上述关联关系包括:分词与待聚类文本的对应关系(例如一个分词“糖尿病”对应的是哪一个文本),以及分词在对应待聚类文本的位置信息(例如一个分词“糖尿病”对应的待聚类文本为“糖尿病怎么治疗”,那么该位置信息用于表征分词“糖尿病”为待聚类文本“糖尿病怎么治疗”的第一个分词)。
其中,可以对各待聚类文本设置唯一的文本标识(例如文本编号),各分词与对应的待聚类文本的关联关系,可以为各分词与待聚类文本的文本标识的对应关系,例如表1所示。
表1
在一个实施例中,上述搜索引擎例如可以为ES(elasticsearch)搜索引擎,在搜索引擎的索引库中建立一个目标索引的过程为:在索引库中创建一个新字段以及该字段对应的数据类型(例如文本类型),后续可以将上述分词存储至新字段对应的索引空间。
在一个实施例中,可以轮询上述一个或者多个待聚类文本,每次从一个或者多个待聚类文本中选取一个待聚类文本作为搜索文本,并对该搜索文本执行S102~S103的聚类步骤,将该搜索文本与对应的目标候选文本聚为一类。以此类推,可以去下一个待聚类文本作为下一个搜索文本,并再次执行步骤S102~103的聚类步骤,将下一个搜索文本与对应的目标候选文本聚为一类,直至上述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
S102、从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本。
在一个实施例中,以目标搜索文本(上述一个或者多个待聚类文本中的任一个)为例说明上述步骤S102的具体实施方式,包括:
对目标搜索文本进行分词处理,得到至少一个搜索分词,依次将各搜索分词与索引库中预先存储的各分词进行匹配,确定与各搜索分词匹配的目标分词;依照索引库中预先标记的各分词与对应的待聚类文本的关联关系,确定目标分词对应的目标待聚类文本。进一步地,计算目标待聚类文本中所包括的目标分词的数量(也即一个目标待聚类文本中与各搜索分词匹配的目标分词的数量),依照该数量确定目标待聚类文本与目标搜索文本的匹配度,并依照该匹配度从大到小的顺序对目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与目标搜索文本匹配的候选文本,该N为大于0的整数。
其中,依照目标待聚类文本中所包括的目标分词的数量确定目标待聚类文本与目标搜索文本的匹配度时,可以依照一个目标待聚类文本所包括目标分词的数量越大,相应与目标搜索文本的匹配度也越高的原则确定匹配度。例如一个目标搜索文本为:糖尿病如何治疗,对应的搜索分词包括:第一分词“糖尿病”、第二分词“如何”和第三分词“治疗”,与各分词匹配的目标分词,以及目标分词对应的目标待聚类文本,如表2所示。从表2可以看出,文本编号为1的第一目标待聚类文本所包括的目标分词的目标数量为1,文本编号为2的第二目标待聚类文本所包括的目标分词的目标数量为2,那么可以将2/3确定为第二目标待聚类文本与目标搜索文本的匹配度,将1/3确定为第一目标待聚类文本与目标搜索文本的匹配度。
表2
其中,在一个实施例中,上述依照匹配度从大到小的顺序对目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与目标搜索文本匹配的候选文本的具体实施方式为:依照匹配度从大到小的顺序对目标待聚类文本进行排序,得到搜索序列;将搜索序列中排序第一的目标待聚类文本删除,并在删除排序第一的目标待聚类文本后的搜索序列中,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本。采用这样的方式,可以防止排序第一的文本为目标搜索文本本身。
S103、通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度。
S104、将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
在聚类过程中,可以将任一搜索文本对应的候选文本中相似度大于相似度阈值的目标候选文本与该任一搜索文本聚为一类。例如,任一搜索文本为“糖尿病如何治疗”,对应的目标候选文本为“糖尿病怎么治疗”,那么可以将搜索文本“糖尿病如何治疗”与对应的目标候选文本“糖尿病怎么治疗”聚为一类。
其中,在对每个待聚类文本的聚类过程中,若一个或者多个待聚类文本中的任一待聚类文本聚类完毕,则在索引库中删除与该任一待聚类文本关联的目标数据,该目标数据包括以下任一种或者多种:该任一待聚类文本对应的各分词和任一待聚类文本对应的各分词与任一待聚类文本的关联关系。可以防止已经聚类成功的文本,对后续搜索的干扰,提高后续的聚类效率和减小无效索引的概率。例如,任一待聚类文本为“糖尿病如何治疗”,对应的分词包括:“糖尿病”、“如何”和“治疗”,在该任一待聚类文本聚类成功后,若检测到索引库中不存在其它待聚类文本包括这三个分词,那么可以直接在索引库中删除这三个分词,以及这三个分词与该任一待聚类文本的关联关系。或者若检测到索引库中其它待聚类文本包括分词“糖尿病”,不包括其它两个分词,那么可以直接在索引库中删除其它两个分词,以及这三个分词与该任一待聚类文本的关联关系。
本申请实施例,可以将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。采用这样的方式,使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。除此以外,可适用于不同数据总量的数据,适用性更高。
请参见图2,本申请实施例提出了另一种文本处理方法,请参见图2所示,该文本处理方法可包括以下步骤S201-S205:
S201、将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本。
S202、从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本。
S203、通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度。
具体实现中,上述相似度计算模型可以为自然语言处理模型中的孪生网络模型,孪生网络一般可用于计算两个句子的相似度,其一般网络结构如图3所示。从图3可以看出,孪生神经网络有两个输入(输入1和输入2),两个输入进入两个神经网络(网络1和网络2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示,通过损失的计算,确定两个输入的相似度。本方案中孪生网络使用的网络1和网络2例如可以为LSTM(Long Short-Term Memory,长短期记忆网络)。预先可以基于本方案提出的文本处理方法应用领域,采用与应用领域匹配的训练文本对相似度计算模型进行训练。示例性地,假设应用领域为:医疗领域的FAQ问答服务领域,那么训练文本可以为医疗领域关联的问题类数据。假设应用领域为电商领域的FAQ问答服务领域,那么训练文本可以为电商领域关联的问题类数据。
S204、将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。其中,步骤S201~步骤S204的具体实施方式,可以参见上述实施例中步骤S101~步骤S104的相关描述,此处不再赘述。
S205、从一个或者多个聚类包括的各聚类中选取一个文本,作为各聚类各自对应的目标文本,依照各聚类的属性信息,对各聚类各自对应的目标文本进行标记,输出标记后的目标文本。其中,任一聚类的属性信息可以是基于对该任一聚类中的各文本进行语义解析,基于语义解析结果确定的。例如对任一聚类中各文本的语义解析结果表征各文本的语义均为:关于糖尿病如何治疗的问题,那么该属性信息可以表征糖尿病如何治疗,对该任一聚类的目标文本的标记可以为“糖尿病如何治疗”。其中,任一聚类对应的目标文本可以为该任一聚类包括的文本中的任一个。或者,在另一个实施例中,上述任一聚类的属性信息还可以包括任一聚类中所包括文本的数量,以便给予开发人员参考,一个聚类中聚类的文本越多,则说明该聚类中的文本越常见。
作为一种可行的方式,假设上述待聚类文本均为问题类文本,那么在得到至少一个聚类之后,可以从每一个聚类中选取一个文本作为目标问题(即上述目标文本),并进行标记。后续用户可以直接使用针对每一个聚类所标记的目标问题作为常见问题,应用于FAQ问答服务中。
以医疗领域的FAQ问答服务为例,假设目前存在的数据集包括:10万条用户关于糖尿病的问题类数据,这些问题类数据可能包括:“糖尿病怎么办”、“糖尿病咋治啊”、“糖尿病如何治疗啊”、“糖尿病会死吗”、“糖尿病对寿命有影响吗”……。
如果要基于上述数据集做一个关于糖尿病FAQ问答服务,那么首先需要知道哪些属于常见问题。面对用户10万甚至上百万的问题,开发人员不可能每个问题都提供答案,这个时候就需要从用户的问题中尽可能多的提取一些常见问题,而且是多样性的,比如选择1000个就可以覆盖90%用户的问题。
针对这种情况,可以将该数据集确定为上述一个或者待聚类文本,依照上述步骤S201~步骤S205,对数据集进行聚类处理,得到至少一个聚类,并从各聚类中选取一个文本,确定为各聚类各自对应的目标问题。开发人员可以将上述确定出的每个聚类的目标问题作为常见问题。采用这样的方式,对于任何一个疾病,均可以在短时间内快速的构建出当前疾病的常见问题,有利于提高常见问题构建的效率。
在一个实施例中,得到一个或者多个聚类之后,还可以获取一个或者多个聚类中各聚类所包括的文本数量,依照文本数量从大到小的顺序对各聚类进行排序,输出对各聚类的排序结果。可以理解的是,假设上述待聚类文本为问题类文本,基于一个数据集构建的聚类结果,如果某个聚类的数量越多,说明这样的问题具有普遍性,对于这种问题在产品应用上可以展示为热门问题。因此,本方案输出排序结果,可以辅助开发人员或者运维人员对热门问题的设置。
或者,在一个实施例中,在执行上述S205之前,还可以确定每个聚类所包括的文本数量是否大于文本数量阈值,从各聚类中将所包括的文本数量大于文本数量阈值的聚类确定为目标聚类,并从各目标聚类中选取一个文本,作为各目标聚类各自对应的目标文本,依照各目标聚类的属性信息,对各目标聚类各自对应的目标文本进行标记,输出标记后的目标文本。
本申请实施例中,可以将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。进一步地,从一个或者多个聚类包括的各聚类中选取一个文本,作为各聚类各自对应的目标文本,依照各聚类的属性信息,对各聚类各自对应的目标文本进行标记,输出标记后的目标文本。采用这样的方式,使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。除此以外,可适用于不同数据总量的数据,适用性更高。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再请参见图4,是本申请实施例的一种文本处理装置的结构示意图。
本申请实施例的所述装置的一个实现方式中,所述装置包括如下结构。
处理模块40,用于将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;
搜索模块41,用于从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;
所述处理模块40,还用于通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;
所述处理模块41,还用于将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
在一个实施例中,处理模块40,还用于在搜索引擎的索引库中建立一个目标索引;将所述一个或者多个待聚类文本进行分词处理得到至少一个分词,向所述搜索引擎发送包括所述至少一个分词的索引创建请求,所述索引创建请求用于指示所述搜索引擎在所述目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。
在一个实施例中,搜索模块41,具体用于:
对目标搜索文本进行分词处理,得到至少一个搜索分词;所述目标搜索文本为所述一个或者多个待聚类文本中的任一个;
依次将各搜索分词与所述索引库中预先存储的各分词进行匹配,确定与各搜索分词匹配的目标分词;
依照所述索引库中预先标记的所述各分词与对应的待聚类文本的关联关系,确定所述目标分词对应的目标待聚类文本;
计算所述目标待聚类文本中所包括的所述目标分词的数量,依照所述数量确定所述目标待聚类文本与所述目标搜索文本的匹配度;
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本,所述N为大于0的整数。
在一个实施例中,所述搜索模块41,具体用于:
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,得到搜索序列;
将所述搜索序列中排序第一的目标待聚类文本删除,并在删除排序第一的目标待聚类文本后的搜索序列中,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本。
在一个实施例中,若所述一个或者多个待聚类文本中的任一待聚类文本聚类完毕,则在所述索引库中删除与所述任一待聚类文本关联的目标数据,所述目标数据包括以下任一种或者多种:所述任一待聚类文本对应的各分词和所述任一待聚类文本对应的各分词与所述任一待聚类文本的关联关系。
在一个实施例中,处理模块40,还用于:
获取所述一个或者多个聚类中各聚类所包括的文本数量;
依照所述文本数量从大到小的顺序对所述各聚类进行排序;
输出对所述各聚类的排序结果。
在一个实施例中,所述得到一个或者多个聚类之后,处理模块40,还用于:
从所述一个或者多个聚类包括的各聚类中选取一个文本,作为所述各聚类各自对应的目标文本;
依照所述各聚类的属性信息,对所述各聚类各自对应的目标文本进行标记;
输出标记后的目标文本。
本申请实施例中,文本处理装置可将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本,与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。采用这样的方式,使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。除此以外,可适用于不同数据总量的数据,适用性更高。
再请参见图5,是本申请实施例的一种电子设备的结构示意图,本申请实施例的所述电子设备包括供电模块等结构,并包括处理器501、存储装置502以及通信接口503。所述处理器501、存储装置502以及通信接口503之间可以交互数据,由处理器501实现相应的文本处理功能。
所述存储装置502可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置502也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储装置502还可以包括上述种类的存储器的组合。
所述处理器501可以是中央处理器501(central processing unit,CPU)。在一个实施例中,所述处理器501还可以是图形处理器501(Graphics Processing Unit,GPU)。所述处理器501也可以是由CPU和GPU的组合。在所述电子设备中,可以根据需要包括多个CPU和GPU进行相应的文本处理。在一个实施例中,所述存储装置502用于存储程序指令。所述处理器501可以调用所述程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,所述电子设备的所述处理器501,调用所述存储装置502中存储的程序指令,用于将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
在一个实施例中,处理器501,还用于在搜索引擎的索引库中建立一个目标索引;将所述一个或者多个待聚类文本进行分词处理得到至少一个分词,向所述搜索引擎发送包括所述至少一个分词的索引创建请求,所述索引创建请求用于指示所述搜索引擎在所述目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。
在一个实施例中,处理器501,具体用于:
对目标搜索文本进行分词处理,得到至少一个搜索分词;所述目标搜索文本为所述一个或者多个待聚类文本中的任一个;
依次将各搜索分词与所述索引库中预先存储的各分词进行匹配,确定与各搜索分词匹配的目标分词;
依照所述索引库中预先标记的所述各分词与对应的待聚类文本的关联关系,确定所述目标分词对应的目标待聚类文本;
计算所述目标待聚类文本中所包括的所述目标分词的数量,依照所述数量确定所述目标待聚类文本与所述目标搜索文本的匹配度;
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本,所述N为大于0的整数。
在一个实施例中,所述处理器501,具体用于:
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,得到搜索序列;
将所述搜索序列中排序第一的目标待聚类文本删除,并在删除排序第一的目标待聚类文本后的搜索序列中,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本。
在一个实施例中,若所述一个或者多个待聚类文本中的任一待聚类文本聚类完毕,则在所述索引库中删除与所述任一待聚类文本关联的目标数据,所述目标数据包括以下任一种或者多种:所述任一待聚类文本对应的各分词和所述任一待聚类文本对应的各分词与所述任一待聚类文本的关联关系。
在一个实施例中,处理器501,还用于:
获取所述一个或者多个聚类中各聚类所包括的文本数量;
依照所述文本数量从大到小的顺序对所述各聚类进行排序;
输出对所述各聚类的排序结果。
在一个实施例中,所述得到一个或者多个聚类之后,处理器501,还用于:
从所述一个或者多个聚类包括的各聚类中选取一个文本,作为所述各聚类各自对应的目标文本;
依照所述各聚类的属性信息,对所述各聚类各自对应的目标文本进行标记;
输出标记后的目标文本。
可参考前述各个附图所对应的实施例中相关内容的描述。
本申请实施例中,电子设备可将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本,从搜索引擎的索引库中搜索与每个搜索文本匹配的候选文本,通过相似度计算模型计算每个搜索文本与各自对应的候选文本的相似度,将相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。采用这样的方式,使得整个聚类过程无需依赖于聚类数量的提前设置,有利于提高聚类的效率和准确度。除此以外,可适用于不同数据总量的数据,适用性更高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;
从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;
通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;
将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
2.如权利要求1所述的方法,其特征在于,所述从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本之前,所述方法还包括:
在搜索引擎的索引库中建立一个目标索引;
将所述一个或者多个待聚类文本进行分词处理得到至少一个分词,向所述搜索引擎发送包括所述至少一个分词的索引创建请求,所述索引创建请求用于指示所述搜索引擎在所述目标索引中存储各分词,并标记各分词与对应的待聚类文本的关联关系。
3.如权利要求2所述的方法,其特征在于,所述从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本,包括:
对目标搜索文本进行分词处理,得到至少一个搜索分词;所述目标搜索文本为所述一个或者多个待聚类文本中的任一个;
依次将各搜索分词与所述索引库中预先存储的各分词进行匹配,确定与各搜索分词匹配的目标分词;
依照所述索引库中预先标记的所述各分词与对应的待聚类文本的关联关系,确定所述目标分词对应的目标待聚类文本;
计算所述目标待聚类文本中所包括的所述目标分词的数量,依照所述数量确定所述目标待聚类文本与所述目标搜索文本的匹配度;
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本,所述N为大于0的整数。
4.如权利要求3所述的方法,其特征在于,所述依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本,包括:
依照所述匹配度从大到小的顺序对所述目标待聚类文本进行排序,得到搜索序列;
将所述搜索序列中排序第一的目标待聚类文本删除,并在删除排序第一的目标待聚类文本后的搜索序列中,将排序前N的目标待聚类文本确定为与所述目标搜索文本匹配的候选文本。
5.如权利要求3所述的方法,其特征在于,若所述一个或者多个待聚类文本中的任一待聚类文本聚类完毕,则在所述索引库中删除与所述任一待聚类文本关联的目标数据,所述目标数据包括以下任一种或者多种:所述任一待聚类文本对应的各分词和所述各分词与所述任一待聚类文本的关联关系。
6.如权利要求1所述的方法,其特征在于,所述得到一个或者多个聚类之后,所述方法还包括:
获取所述一个或者多个聚类中各聚类所包括的文本数量;
依照所述文本数量从大到小的顺序对所述各聚类进行排序;
输出对所述各聚类的排序结果。
7.如权利要求1所述的方法,其特征在于,所述得到一个或者多个聚类之后,所述方法还包括:
从所述一个或者多个聚类包括的各聚类中选取一个文本,作为所述各聚类各自对应的目标文本;
依照所述各聚类的属性信息,对所述各聚类各自对应的目标文本进行标记;
输出标记后的目标文本。
8.一种文本处理装置,其特征在于,包括:
处理模块,用于将一个或者多个待聚类文本中的每个待聚类文本确定为搜索文本;
搜索模块,用于从搜索引擎的索引库中搜索与每个所述搜索文本匹配的候选文本;
所述处理模块,还用于通过相似度计算模型计算所述每个搜索文本与各自对应的候选文本的相似度;
所述处理模块,还用于将所述相似度大于相似度阈值的目标候选文本与任一搜索文本聚为一类,直至所述一个或者多个待聚类文本中的每个待聚类文本均聚类完毕,得到一个或者多个聚类。
9.一种电子设备,其特征在于,包括处理器、存储装置和通信接口,所述处理器、所述存储装置和所述通信接口相互连接,其中,所述存储装置用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011561797.4A CN112667809A (zh) | 2020-12-25 | 2020-12-25 | 一种文本处理方法、装置及电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011561797.4A CN112667809A (zh) | 2020-12-25 | 2020-12-25 | 一种文本处理方法、装置及电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667809A true CN112667809A (zh) | 2021-04-16 |
Family
ID=75408954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011561797.4A Pending CN112667809A (zh) | 2020-12-25 | 2020-12-25 | 一种文本处理方法、装置及电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667809A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220840A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN109918560A (zh) * | 2019-01-09 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于搜索引擎的问答方法和装置 |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、系统和存储介质 |
CN110442718A (zh) * | 2019-08-08 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及服务器和存储介质 |
CN110765244A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 获取应答话术的方法、装置、计算机设备及存储介质 |
CN111460257A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 专题生成方法、装置、电子设备和存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
-
2020
- 2020-12-25 CN CN202011561797.4A patent/CN112667809A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN109918560A (zh) * | 2019-01-09 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于搜索引擎的问答方法和装置 |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、系统和存储介质 |
CN110442718A (zh) * | 2019-08-08 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及服务器和存储介质 |
CN110765244A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 获取应答话术的方法、装置、计算机设备及存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
CN111460257A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 专题生成方法、装置、电子设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220840A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113220840B (zh) * | 2021-05-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Traceability transformed: Generating more accurate links with pre-trained bert models | |
CN108920453B (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111666415A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN111859872A (zh) | 一种文本标注方法和装置 | |
CN112906377A (zh) | 基于实体限制的问答方法、装置、电子设备及存储介质 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN111797245A (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
CN117473053A (zh) | 基于大语言模型的自然语言问答方法、装置、介质及设备 | |
CN112667775A (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
US20240127575A1 (en) | Artificial intelligence system with iterative two-phase active learning | |
CN114138243A (zh) | 基于开发平台的功能调用方法、装置、设备及存储介质 | |
CN112667809A (zh) | 一种文本处理方法、装置及电子设备、存储介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN115309865A (zh) | 基于双塔模型的交互式检索方法、装置、设备及存储介质 | |
CN115146064A (zh) | 意图识别模型优化方法、装置、设备及存储介质 | |
CN114676307A (zh) | 基于用户检索的排序模型训练方法、装置、设备及介质 | |
CN114491204A (zh) | 一种用于信息类专业实验的课程自动搭建方法及系统 | |
CN114139530A (zh) | 同义词提取方法、装置、电子设备及存储介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |