CN110825863A - 一种文本对融合方法及装置 - Google Patents
一种文本对融合方法及装置 Download PDFInfo
- Publication number
- CN110825863A CN110825863A CN201911096632.1A CN201911096632A CN110825863A CN 110825863 A CN110825863 A CN 110825863A CN 201911096632 A CN201911096632 A CN 201911096632A CN 110825863 A CN110825863 A CN 110825863A
- Authority
- CN
- China
- Prior art keywords
- text
- fused
- pair
- candidate
- text pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本对融合方法及装置;本申请实施例在获取到待融合文本对后,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,基于关键分词从预设文本集中确定候选文本对,接着,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;由于本申请实施例是基于待融合文本对中的关键分词从预设文本集中先获取候选文本对,再通过相似度和编辑距离确定目标文本对,从而可以减少融合需要的时间、提高融合效果。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种文本对融合方法及装置。
背景技术
在问答对数据构建的过程中,一般是把用户上传的问答对直接导入数据库中;或者,有的问答对在导入前与数据库中的问答对进行融合。然而,现有技术中的问答对之间的融合效果较差。
发明内容
本申请实施例提供一种文本对融合方法及装置,可以提高融合效果。
本申请实施例提供一种文本融合方法,包括:
获取待融合文本对;
对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
相应的,本申请实施例还提供一种文本融合装置,包括:
获取模块,所述获取模块用于获取待融合文本对;
分词模块,所述分词模块用于对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
第一确定模块,所述确定模块用于基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
第二确定模块,所述第二确定模块用于获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
融合模块,所述融合模块用于将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
可选的,在本申请的一些实施例中,所述分词模块,包括:
第一分词子单元,所述第一分词子单元用于对所述待融合文本对中的文本进行分词处理,得到候选分词;
第一获取子单元,所述第一获取子单元用于获取所述候选分词的词性和词频,所述词频为所述候选分词在所述预设文本集中出现的频次;
第一确定子单元,所述第一确定子单元用于基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,得到所述待融合文本对对应的关键分词。
可选的,在本申请的一些实施例中,所述第一确定子单元具体用于:
当所述候选分词的词性为预设词性、且所述候选分词的词频小于第一预设阈值时,将所述候选分词确定为关键分词。
可选的,在本申请的一些实施例中,所述第一确定模块,包括:
选取子单元,所述选取子单元用于基于所述关键分词从所述预设文本集中选取预选文本对;
第二分词子单元,所述第二分词子单元用于对所述预选文本对进行分词处理,得到所述预选文本对对应的预选分词;
第二确定子单元,所述第二确定子单元用于基于所述预选分词和所述关键分词,从所述预选文本对中确定候选文本对。
可选的,在本申请的一些实施例中,所述第二确定子单元具体用于:
获取所述预选分词与所述关键分词的匹配分词的数量;
基于所述匹配分词的数量,从所述预选文本对中确定候选文本对。
可选的,在本申请的一些实施例中,所述第二确定模块,包括:
第二获取子单元,所述第二获取子单元用于获取待融合文本向量以及候选文本向量,所述待融合文本向量为所述待融合文本对中文本对应的向量,所述候选文本向量为所述候选文本对中文本对应的向量;
计算子单元,所述计算子单元用于基于所述待融合文本向量与候选文本向量,计算所述待融合文本向量与候选文本向量的相似度;
第三获取子单元,所述第三获取子单元用于基于所述相似度获取所述待融合文本对与候选文本对之间的相似度。
可选的,在本申请的一些实施例中,所述融合模块包括第一融合子单元,所述第一融合子单元用于当所述待融合文本对中的文本与所述目标文本对中的文本匹配时,将所述待融合文本对中的文本添加至所述目标文本对中的文本进行融合,得到融合后文本集。
可选的,在本申请的一些实施例中,所述融合模块还包括第二融合子单元,所述第二融合子单元用于当所述待融合文本对中的文本与所述目标文本对中的文本不匹配时,将所述待融合文本对中的文本添加至所述目标文本对中,得到融合后文本集。
可选的,在本申请的一些实施例中,文本对融合装置还包括编码模块,所述编码模块用于对所述待融合文本对进行编码处理,得到所述待融合文本对对应的编码;
所述第二确定模块具体用于:获取所述待融合文本对与候选文本对之间的相似度、编辑距离、及所述待融合文本对对应的编码,并基于所述相似度、所述编辑距离、和所述编码,从所述候选文本对中确定至少一个目标文本对。
相应的,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行以上所述文本对融合方法中的步骤。
本申请实施例在获取到待融合文本对后,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,然后,基于关键分词从预设文本集中确定候选文本对,接着,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;由于本申请实施例是基于待融合文本对中的关键分词从预设文本集中先获取候选文本对,再通过相似度和编辑距离确定目标文本对,从而可以减少融合需要的时间、提高融合效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的文本对融合的场景示意图;
图1b为本申请实施例提供的文本对融合方法的流程示意图;
图2a是本申请实施例提供的文本对融合方法的另一流程示意图;
图2b是本申请实施例提供的文本对融合方法的呈现示意图;
图3a是本申请实施例提供的文本对融合装置的实施方式的结构示意图;
图3b是本申请实施例提供的文本对融合装置的第一种具体结构示意图;
图3c是本申请实施例提供的文本对融合装置的第二种具体结构示意图;
图3d是本申请实施例提供的文本对融合装置的第三种具体结构示意图;
图3e为本申请实施例提供的文本对融合方法的第四种具体结构示意图;
图3f是本申请实施例提供的文本对融合装置的实施方式的另一结构示意图;
图4是本申请实施例提供的终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本对融合方法、装置以及存储介质。
其中,该文本对融合装置具体可以集成在网络设备,比如终端或服务器等设备中。终端具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
例如,请参阅图1a,当用户需要将某个文本对与其他文本对进行融合时,终端接收到用户发出的请求,该请求包括待融合文本对,通过待融合文本对找到目标文本对,并将待融合文本对与目标文本对进行融合,得到融合后文本集。首先,终端获取待融合文本对,然后,终端对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,接着,终端基于关键分词从预设文本集中确定候选文本对,随后,终端获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,终端将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
请参阅图1b,图1b为本申请实施例提供的文本对融合方法的流程示意图。该文本对融合方法的具体流程可以如下:
101、获取待融合文本对。
其中,待融合文本对为需要融合至预设文本集的文本对,文本对包括至少两个文本,比如,待融合文本对可以是用户对网络设备输入的问答对,问答对包括用于提出问题的提问句,以及用于解答提问句的回答句,比如,用户在网络设备上输入“A的妻子是谁?B”,“A的妻子是谁?B”这个待融合文本对为一个问答对,“A的妻子是谁”为这个问答对中的提问句,“B”为这个问答对中的回答句,“A的妻子是谁”、“B”均为这个待融合文本对中的文本。
在一些实施例中,获取待融合文本对之后,还包括:对待融合文本对进行编码处理,得到待融合文本对对应的编码。其中,对待融合文本对进行编码处理,得到待融合文本对对应的编码,具体包括:基于结构相似性哈希敏感算法对待融合文本对进行编码处理,得到待融合文本对对应的编码。
需要说明的是,结构相似性哈希敏感算法是一种局部敏感哈希算法,其可以将待融合文本对转化为编码。比如:还是以“A的妻子是谁?B”为例,首先,对“A的妻子是谁?B”这一待融合文本对进行分词处理,得到多个分词,然后通过哈希函数将每个分词转换为数字序列,得到多个数字序列,接着,将每个数据序列加权,权值为分词出现的次数,得到多个加权序列,最后,将所有分词对应的加权序列相加,并对相加后的结果进行降维,即,在加权序列相加后的结果中,正数为1,负数为,从而得到“A的妻子是谁?B”这个待融合文本对对应的编码。
102、对待融合文本对进行分词处理,得到待融合文本对对应的关键分词。
其中,对待融合文本对进行分词处理,可以是对待融合文本对中的一个文本进行分词处理,也可以是对待融合文本对中的多个文本进行分词处理。比如:还是以“A的妻子是谁?B”为例,在这个待融合文本对中,可以对“A的妻子是谁”进行分词处理,,也可以对“B”进行分词处理,还可以对“A的妻子是谁?B”进行分词处理。
在一些实施例中,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,包括:
(1021)对待融合文本对中的文本进行分词处理,得到候选分词。
(1022)获取候选分词的词性和词频。
(1023)基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
需要说明的是,在本申请实施例中,词性指的是以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。比如,现代汉语的词可以分为两类14种词性,一类是实词,包括:名词、动词、形容词、区别词、代词、数词、量词;一类是虚词,包括:副词、介词、连词、助词、语气词、拟声词、叹词。
词频指的是某一个给定的词语在一份给定的文件里出现的次数。比如,还是以“A的妻子是谁?B”为例,“妻子”这个词的词频指的是“妻子”这个词在一份给定的文件里出现的次数。
待融合文本对中的文本由多个分词构成,比如,还是以“A的妻子是谁?B”为例,在这个文本对中,“A的妻子是谁”这个文本,其分词分别为“A”、“的”、“妻子”、“是谁”。也即,对“A的妻子是谁?B”这个文本对中的文本“A的妻子是谁”进行分词处理,得到候选分词为:“A”、“的”、“妻子”、“是谁”。
对待融合文本对中的文本进行分词处理,得到的候选分词中会包括一些词性为虚词的词,以及一些词频较大的词,为了提高精确度,减少工作量,会基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
也即,基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词,包括:当候选分词的词性为预设词性、且候选分词的词频小于第一预设阈值时,将候选分词确定为关键分词。
比如,还是以“A的妻子是谁?B”为例,在对“A的妻子是谁”进行分词处理得到的候选分词中,由于“A”这个候选分词的词性为预设词性,且“A”这个候选分词的词频小于第一预设阈值,故可以将“A”这个候选分词确定为关键分词。再比如,由于“的”这个候选分词的词性不为预设词性,故将“的”这个候选分词去除;由于“是谁”这个候选分词的词频大于第一预选阈值,故将“是谁”这个候选分词去除。
103、基于关键分词从预设文本集中确定候选文本对。
需要说明的是,预设文本集可以为预先建立的数据库,里面存储了大量的文本对。具体的,预设文本集包括至少一个文本对。
在一些实施例中,基于关键分词从预设文本集中确定候选文本对,包括:
(1031)基于关键分词从预设文本集中选取预选文本对。
(1032)对预选文本对进行分词处理,得到预选文本对对应的预选分词。
(1033)基于预选分词和关键分词,从预选文本对中确定候选文本对。
基于关键分词从预设文本集中选取预选文本对,指的是,分别通过每个关键分词从预设文本集中选取预选文本对。比如,还是以“A的妻子是谁?B”这个文本对为例,其中,“A”、“妻子”均为关键分词,在本申请实施例中,则是,基于“A”这个关键词从预选文本集中选出含有“A”这个关键词的文本对,即为预选文本对;以及基于“妻子”这个关键词从预选文本集中选出含有“妻子”这个关键词的文本对,即为预选文本对。
同样,对预选文本对进行分词处理,得到预选文本对对应的预选分词,可以参照对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,在此不做赘述。预选文本对由多个分词构成,比如,以“谁是A的老婆?B”为例,在这个预选文本对中,“谁是A的老婆”这个文本,其分词分别为“谁是”、“A”、“的”、“老婆”。也即,对“谁是A的老婆?B”这个预选文本对中的文本“谁是A的老婆”进行分词处理,得到预选文本对对应的预选分词为:“A”、“老婆”。
在一些实施例中,基于预选分词和关键分词,从预选文本对中确定候选文本对,包括:获取预选分词与关键分词的匹配分词的数量;基于匹配分词的数量,从预选文本对中确定候选文本对。
需要说明的是,匹配分词指的是既为预选分词、又为候选分词的分词。比如,一个待融合文本对中的关键分词为:“a”、“b”、“c”、“d”,一个预选文本对中的预选分词为:“a”、“b”、“c”、“d1”,则匹配分词为:“a”、“b”、“c”。
基于匹配分词的数量,从预选文本对中确定候选文本对,包括:当匹配分词的数量满足预设条件时,确定预选文本对为候选文本对。比如,可以设定预设条件为匹配分词的数量大于2,则当预选文本对中匹配分词的数量大于2时,确定预选文本对为候选文本对。
104、获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对。
需要说明的是,编辑距离:是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个字符串串的相似度越大。在本申请实施例中,获取待融合文本对与候选文本对之间的编辑距离,指的是,待融合文本对转换成候选文本对所需的最少编辑操作次数。相似度指的是余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。
在一些实施例中,获取待融合文本对与候选文本对之间的相似度,包括:获取待融合文本向量以及候选文本向量;基于待融合文本向量与候选文本向量,计算待融合文本向量与候选文本向量的相似度;基于相似度获取待融合文本对与候选文本对之间的相似度。
其中,待融合文本向量为待融合文本对中文本对应的向量,候选文本向量为候选文本对中文本对应的向量。比如,获取待融合文本对中文本对应的向量的步骤可以包括:将待融合文本对中文本进行分词以得到多个词语;获取每一词语的词向量;将每一词语的词向量进行叠加并归一化以得到待融合文本对中文本对应的向量。
在一些实施例中,基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,包括:当待融合文本向量与候选文本向量的相似度大于第一预设阈值,且待融合文本向量与候选文本向量的编辑距离小于第二预设阈值时,将候选文本对确定为目标文本对。
在一些实施例中,获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,还包括:获取待融合文本对与候选文本对之间的相似度、编辑距离、及待融合文本对对应的编码,并基于相似度、编辑距离、编码,从候选文本对中确定至少一个目标文本对。
比如,还是以“A是谁的妻子?B”这个待融合文本对为例,一方面可以基于待融合文本对与候选文本对之间的相似度、编辑距离,从候选文本对中确定目标文本对;另一方面,还可以基于待融合文本对对应的编码,从候选文本对中确定目标文本对。
105、将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
在一些实施例中,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集,包括:当待融合文本对中的文本与目标文本对中的文本匹配时,将待融合文本对中的文本添加至目标文本对中的文本进行融合,得到融合后文本集;当待融合文本对中的文本与目标文本对中的文本不匹配时,将待融合文本对中的文本添加至目标文本对中,得到融合后文本集。
比如,以“A的妻子是谁?B”为待融合文本对,“谁是A的老婆?B”为目标文本对为例,由于“A的妻子是谁?B”这个待融合文本对中的文本“B”与“谁是A的老婆?B”这个目标文本对中的文本“B”匹配,则将“A的妻子是谁?B”这个待融合文本对中的文本“B”添加至“A的妻子是谁?B”这个目标文本对中的文本“B”进行融合,得到融合后文本集;由于“A的妻子是谁?B”这个待融合文本对中的文本“A的妻子是谁”与“谁是A的老婆?B”这个目标文本对中的文本“谁是A的老婆”不匹配,则将“A的妻子是谁?B”这个待融合文本对中的文本“A的妻子是谁”添加至“A的妻子是谁?B”这个目标文本对中,得到融合后文本集。
本申请实施例在获取到待融合文本对后,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,然后,基于关键分词从预设文本集中确定候选文本对,接着,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;由于本申请实施例是基于待融合文本对中的关键分词从预设文本集中先获取候选文本对,再通过相似度和编辑距离确定目标文本对,从而可以减少融合需要的时间、提高融合效果;另外,本申请实施例还能提升用户的满意度。
根据本申请实施例所述的方法,以下将举例进一步详细说明。在本申请实施例中将以该文本对融合装置具体集成在服务器中为例进行说明。
请参阅图2a,一种文本对融合方法,具体流程可以如下:
201、服务器获取待融合文本对。
其中,待融合文本对可以是用户对网络设备输入的问答对,问答对包括用于提出问题的提问句,以及用于解答提问句的回答句,比如,用户在网络设备上输入“A的妻子是谁?B”,“A的妻子是谁?B”这个待融合文本对为一个问答对,“A的妻子是谁”为这个问答对中的提问句,“B”为这个问答对中的回答句,“A的妻子是谁”、“B”均为这个待融合文本对中的文本。
需要说明的是,在本申请实施例中,一般是通过用户上传文档从而获取待融合的文本对。比如,当用户上传文档之后,会把文档放在一个公共可以访问的地方,比如:COS(China Operating System)系统,然后把COS系统的统一资源定位符发送给后台,后台根据这个统一资源定位符去获取文档,然后由后台的解析脚本把文档的数据进行解析,从而得到文本对。
此外,用户上传的文档一般为docx格式数据,该文档里的数据并不是特别规整的数据,所以需要采用一些算法和规则来进行文档的文本对解析,从而得到该文本对。由于经过解析得到文档中的文本对可能存在特殊字符、标点以及一些非法字符(例如,日文,韩文等),因此需要对解析文档得到的文本对进行清洗,以去除其中的特殊字符、标点以及一些非法字符。
当然,以上是批量上传文本对的模式,主要是针对提供服务的运营商而言的,因此,需要一系列规范化的解析及清洗处理操作,从而得到格式规范的文本对。可以理解地,在一些实施例中,还可以针对单个用户或者工作人员上传的单个的文本对。在这种模式下,只需去除其中的特殊字符、标点以及一些非法字符(例如,日文,韩文等)即可,无需进行解析
在一些实施例中,服务器获取待融合文本对之后,还包括:服务器对待融合文本对进行编码处理,得到待融合文本对对应的编码。其中,对待融合文本对进行编码处理,得到待融合文本对对应的编码,具体包括:服务器基于simhash算法对待融合文本对进行编码处理,得到待融合文本对对应的编码。
需要说明的是,simhash算法是一种局部敏感哈希算法,其可以将待融合文本对转化为编码。比如:还是以“A的妻子是谁?B”为例,首先,对“A的妻子是谁?B”这一待融合文本对进行分词处理,得到多个分词,然后通过哈希函数将每个分词转换为数字序列,得到多个数字序列,接着,将每个数据序列加权,权值为分词出现的次数,得到多个加权序列,最后,将所有分词对应的加权序列相加,并对相加后的结果进行降维,即,在加权序列相加后的结果中,正数为1,负数为,从而得到“A的妻子是谁?B”这个待融合文本对对应的编码。
202、服务器对待融合文本对进行分词处理,得到待融合文本对对应的关键分词。
其中,对待融合文本对进行分词处理,可以是对待融合文本对中的一个文本进行分词处理,也可以是对待融合文本对中的多个文本进行分词处理。比如:还是以“A的妻子是谁?B”为例,在这个待融合文本对中,可以对“A的妻子是谁”进行分词处理,,也可以对“B”进行分词处理,还可以对“A的妻子是谁?B”进行分词处理。
在一些实施例中,服务器对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,包括:
(2021)服务器对待融合文本对中的文本进行分词处理,得到候选分词。
(2022)服务器获取候选分词的词性和词频。
(2023)服务器基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
需要说明的是,在本申请实施例中,词性指的是以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。比如,现代汉语的词可以分为两类14种词性,一类是实词,包括:名词、动词、形容词、区别词、代词、数词、量词;一类是虚词,包括:副词、介词、连词、助词、语气词、拟声词、叹词。
词频指的是某一个给定的词语在一份给定的文件里出现的次数。比如,还是以“A的妻子是谁?B”为例,“妻子”这个词的词频指的是“妻子”这个词在一份给定的文件里出现的次数。
待融合文本对中的文本由多个分词构成,比如,还是以“A的妻子是谁?B”为例,在这个文本对中,“A的妻子是谁”这个文本,其分词分别为“A”、“的”、“妻子”、“是谁”。也即,对“A的妻子是谁?B”这个文本对中的文本“A的妻子是谁”进行分词处理,得到候选分词为:“A”、“的”、“妻子”、“是谁”。
对待融合文本对中的文本进行分词处理,得到的候选分词中会包括一些词性为虚词的词,以及一些词频较大的词,为了提高精确度,减少工作量,会基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
也即,基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词,包括:当候选分词的词性为预设词性、且候选分词的词频小于第一预设阈值时,将候选分词确定为关键分词。
比如,还是以“A的妻子是谁?B”为例,在对“A的妻子是谁”进行分词处理得到的候选分词中,由于“A”这个候选分词的词性为预设词性,且“A”这个候选分词的词频小于第一预设阈值,故可以将“A”这个候选分词确定为关键分词。再比如,由于“的”这个候选分词的词性不为预设词性,故将“的”这个候选分词去除;由于“是谁”这个候选分词的词频大于第一预选阈值,故将“是谁”这个候选分词去除。
203、服务器基于关键分词从预设文本集中确定候选文本对。
需要说明的是,预设文本集可以为预先建立的数据库,里面存储了大量的文本对。具体的,预设文本集包括至少一个文本对。
在一些实施例中,服务器基于关键分词从预设文本集中确定候选文本对,包括:
(2031)服务器基于关键分词从预设文本集中选取预选文本对。
(2032)服务器对预选文本对进行分词处理,得到预选文本对对应的预选分词。
(2033)服务器基于预选分词和关键分词,从预选文本对中确定候选文本对。
基于关键分词从预设文本集中选取预选文本对,指的是,分别通过每个关键分词从预设文本集中选取预选文本对。比如,还是以“A的妻子是谁?B”这个文本对为例,其中,“A”、“妻子”均为关键分词,在本申请实施例中,则是,基于“A”这个关键词从预选文本集中选出含有“A”这个关键词的文本对,即为预选文本对;以及基于“妻子”这个关键词从预选文本集中选出含有“妻子”这个关键词的文本对,即为预选文本对。
同样,对预选文本对进行分词处理,得到预选文本对对应的预选分词,可以参照对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,在此不做赘述。
在一些实施例中,服务器基于预选分词和关键分词,从预选文本对中确定候选文本对,包括:服务器获取预选分词与关键分词的匹配分词的数量;服务器基于匹配分词的数量,从预选文本对中确定候选文本对。
服务器基于匹配分词的数量,从预选文本对中确定候选文本对,包括:当匹配分词的数量满足预设条件时,服务器确定预选文本对为候选文本对。比如,可以设定预设条件为匹配分词的数量大于2,则当预选文本对中匹配分词的数量大于2时,服务器确定预选文本对为候选文本对。
204、服务器获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对。
需要说明的是,编辑距离:是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个字符串串的相似度越大。在本申请实施例中,获取待融合文本对与候选文本对之间的编辑距离,指的是,待融合文本对转换成候选文本对所需的最少编辑操作次数。
在一些实施例中,服务器获取待融合文本对与候选文本对之间的相似度,包括:服务器获取待融合文本向量以及候选文本向量;服务器基于待融合文本向量与候选文本向量,计算待融合文本向量与候选文本向量的相似度;服务器基于相似度获取待融合文本对与候选文本对之间的相似度。
其中,待融合文本向量为待融合文本对中文本对应的向量,候选文本向量为候选文本对中文本对应的向量。比如,服务器获取待融合文本对中文本对应的向量的步骤可以包括:服务器将待融合文本对中文本进行分词以得到多个词语;服务器获取每一词语的词向量;服务器将每一词语的词向量进行叠加并归一化以得到待融合文本对中文本对应的向量。
在一些实施例中,服务器基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,包括:当待融合文本向量与候选文本向量的相似度大于第一预设阈值,且待融合文本向量与候选文本向量的编辑距离小于第二预设阈值时,服务器将候选文本对确定为目标文本对。
在一些实施例中,服务器获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,还包括:服务器获取待融合文本对与候选文本对之间的相似度、编辑距离、及待融合文本对对应的编码,并基于相似度、编辑距离、编码,从候选文本对中确定至少一个目标文本对。
205、服务器将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
在一些实施例中,服务器将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集,包括:当待融合文本对中的文本与目标文本对中的文本匹配时,服务器将待融合文本对中的文本添加至目标文本对中的文本进行融合,得到融合后文本集;当待融合文本对中的文本与目标文本对中的文本不匹配时,服务器将待融合文本对中的文本添加至目标文本对中,得到融合后文本集。
比如,请参阅图2b,以“A的妻子是谁?B”为待融合文本对,“谁是A的老婆?B”为目标文本对为例,由于“A的妻子是谁?B”这个待融合文本对中的文本“B”与“谁是A的老婆?B”这个目标文本对中的文本“B”匹配,则将“A的妻子是谁?B”这个待融合文本对中的文本“B”添加至“A的妻子是谁?B”这个目标文本对中的文本“B”进行融合,得到融合后文本集;由于“A的妻子是谁?B”这个待融合文本对中的文本“A的妻子是谁”与“谁是A的老婆?B”这个目标文本对中的文本“谁是A的老婆”不匹配,则将“A的妻子是谁?B”这个待融合文本对中的文本“A的妻子是谁”添加至“A的妻子是谁?B”这个目标文本对中,得到融合后文本集。
如图2b所示,我们把相似的问题放在了一起进行展示。用户可以编辑结果,把不对的删掉,把遗漏的补充,把有缺失的进行修改。在底层设计上,我们设置了一个相似度的id,把每一条数据进行打平存储。比如,问题A+问题A的答案和问题B+问题B的答案相似,则融合的结果是(问题A+(问题A答案+问题B答案)+相似度id)(问题B+(问题A答案+问题B答案)+相似度id),最终我们前端页面进行展示的时候,会按照相似度id来进行聚合展示,两个结果完全的融合在一起。这样设计的好处是一旦用户删除了聚合结果的某一条答案,或者某一个问题,我们直接在数据表中进行对应删除就可以了,不用做其他的任何操作。
本申请实施例在服务器获取到待融合文本对后,服务器对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,然后,服务器基于关键分词从预设文本集中确定候选文本对,接着,服务器获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,服务器将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;该方案可以减少融合需要的时间、提高融合效果。
请参阅图3a,图3a是本申请实施例提供的文本对融合装置的实施方式的结构示意图,其中该检索装置可以包括获取模块301、分词模块302、第一确定模块303、第二确定模块304以及融合模块305,具体可以如下:
获取模块301用于获取待融合文本对。
其中,待融合文本对可以是用户对网络设备输入的问答对,问答对包括用于提出问题的提问句,以及用于解答提问句的回答句。
分词模块302用于对待融合文本对进行分词处理,得到待融合文本对对应的关键分词。
其中,对待融合文本对进行分词处理,可以是对待融合文本对中的一个文本进行分词处理,也可以是对待融合文本对中的多个文本进行分词处理。
在一些实施例中,如图3b所示,分词模块302,包括第一分词子单元3021、第一获取子单元3022以及第一确定子单元3023。
第一分词子单元3021用于对待融合文本对中的文本进行分词处理,得到候选分词。
第一获取子单元3022用于获取候选分词的词性和词频,词频为候选分词在预设文本集中出现的频次,
第一确定子单元3023用于基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
待融合文本对中的文本由多个分词构成,比如,还是以“A的妻子是谁?B”为例,在这个文本对中,“A的妻子是谁”这个文本,其分词分别为“A”、“的”、“妻子”、“是谁”。也即,对“A的妻子是谁?B”这个文本对中的文本“A的妻子是谁”进行分词处理,得到候选分词为:“A”、“的”、“妻子”、“是谁”。
对待融合文本对中的文本进行分词处理,得到的候选分词中会包括一些词性为虚词的词,以及一些词频较大的词,为了提高精确度,减少工作量,会基于候选分词的词性和词频,在候选分词中确定关键分词,得到待融合文本对对应的关键分词。
在一些实施例中,第一确定子单元3023具体用于:当候选分词的词性为预设词性、且候选分词的词频小于第一预设阈值时,将候选分词确定为关键分词。
第一确定模块303用于基于关键分词从预设文本集中确定候选文本对。
需要说明的是,预设文本集可以为预先建立的数据库,里面存储了大量的文本对。具体的,预设文本集包括至少一个文本对。
在一些实施例中,如图3c所示,第一确定模块303包括选取子单元3031、第二分词子单元3032以及第二确定子单元3033。
选取子单元3031用于基于关键分词从预设文本集中选取预选文本对。
第二分词子单元3032用于对预选文本对进行分词处理,得到预选文本对对应的预选分词。
第二确定子单元3033用于基于预选分词和关键分词,从预选文本对中确定候选文本对。
基于关键分词从预设文本集中选取预选文本对,指的是,分别通过每个关键分词从预设文本集中选取预选文本对。比如,还是以“A的妻子是谁?B”这个文本对为例,其中,“A”、“妻子”均为关键分词,在本申请实施例中,则是,基于“A”这个关键词从预选文本集中选出含有“A”这个关键词的文本对,即为预选文本对;以及基于“妻子”这个关键词从预选文本集中选出含有“妻子”这个关键词的文本对,即为预选文本对。
同样,对预选文本对进行分词处理,得到预选文本对对应的预选分词,可以参照对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,在此不做赘述。
在一些实施例中,第二确定子单元3033具体用于:获取预选分词与关键分词的匹配分词的数量;基于匹配分词的数量,从预选文本对中确定候选文本对。
基于匹配分词的数量,从预选文本对中确定候选文本对,包括:当匹配分词的数量满足预设条件时,确定预选文本对为候选文本对。
第二确定模块用于获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对。
在一些实施例中,如图3d所示,第二确定模块304,包括第二获取子单元3041、计算子单元3042以及第三获取子单元3043。
第二获取子单元3041用于获取待融合文本向量以及候选文本向量。
计算子单元3042用于基于待融合文本向量与候选文本向量,计算待融合文本向量与候选文本向量的相似度。
第三获取子单元3043用于基于相似度获取待融合文本对与候选文本对之间的相似度。
其中,待融合文本向量为待融合文本对中文本对应的向量,候选文本向量为候选文本对中文本对应的向量。比如,获取待融合文本对中文本对应的向量的步骤可以包括:将待融合文本对中文本进行分词以得到多个词语;获取每一词语的词向量;将每一词语的词向量进行叠加并归一化以得到待融合文本对中文本对应的向量
在一些实施例中,第二确定模块304具体用于当待融合文本向量与候选文本向量的相似度大于第一预设阈值,且待融合文本向量与候选文本向量的编辑距离小于第二预设阈值时,将候选文本对确定为目标文本对。
融合模块305用于将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
在一些实施例中,如图3e所示,融合模块305包括第一融合子单元3051和第二融合子单元3052.
第一融合子单元3051用于当待融合文本对中的文本与目标文本对中的文本匹配时,将待融合文本对中的文本添加至目标文本对中的文本进行融合,得到融合后文本集。
第二融合子单元3051用于当待融合文本对中的文本与目标文本对中的文本不匹配时,将待融合文本对中的文本添加至目标文本对中,得到融合后文本集。
在本申请实施例中,如图3f所示,文本对融合装置还包括编码模块306,编码模块306用于对待融合文本对进行编码处理,得到待融合文本对对应的编码。
第二确定模块304具体用于:获取待融合文本对与候选文本对之间的相似度、编辑距离、及待融合文本对对应的编码,并基于相似度、编辑距离、和编码,从候选文本对中确定至少一个目标文本对。
本申请实施例在获取模块获取到待融合文本对后,分词模块对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,然后,第一确定模块基于关键分词从预设文本集中确定候选文本对,接着,第二确定模块获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,融合模块将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;该可以减少融合需要的时间、提高融合效果。
相应的,本申请实施例还提供一种终端,如图4所示,该终端可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:
获取待融合文本对,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,基于关键分词从预设文本集中确定候选文本对,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
本申请实施例在获取到待融合文本对后,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,然后,基于关键分词从预设文本集中确定候选文本对,接着,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,最后,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;该方案可以减少融合需要的时间、提高融合效果。
本申请实施例可以将融合后文本集存储至区块链中,然后,根据区块链模板详细介绍区块链。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种车辆信息的获取方法中的步骤。例如,该指令可以执行如下步骤:
获取待融合文本对,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,基于关键分词从预设文本集中确定候选文本对,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本对融合中的步骤,因此,可以实现本申请实施例所提供的任一种文本对融合方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本对融合方法、装置以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本对融合方法,其特征在于,包括:
获取待融合文本对;
对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
2.根据权利要求1所述的文本对融合方法,其特征在于,所述对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词,包括:
对所述待融合文本对中的文本进行分词处理,得到候选分词;
获取所述候选分词的词性和词频,所述词频为所述候选分词在所述预设文本集中出现的频次;
基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,得到所述待融合文本对对应的关键分词。
3.根据权利要求2所述的文本对融合方法,其特征在于,所述基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,包括:
当所述候选分词的词性为预设词性、且所述候选分词的词频小于第一预设阈值时,将所述候选分词确定为关键分词。
4.根据权利要求1所述的文本对融合方法,其特征在于,所述基于所述关键分词从预设文本集中确定候选文本对,包括:
基于所述关键分词从所述预设文本集中选取预选文本对;
对所述预选文本对进行分词处理,得到所述预选文本对对应的预选分词;
基于所述预选分词和所述关键分词,从所述预选文本对中确定候选文本对。
5.根据权利要求4所述的文本对融合方法,其特征在于,所述基于所述预选分词和所述关键分词,从所述预选文本对中确定候选文本对,包括:
获取所述预选分词与所述关键分词的匹配分词的数量;
基于所述匹配分词的数量,从所述预选文本对中确定候选文本对。
6.根据权利1所述的文本对融合方法,其特征在于,所述获取所述待融合文本对与候选文本对之间的相似度,包括:
获取待融合文本向量以及候选文本向量,所述待融合文本向量为所述待融合文本对中文本对应的向量,所述候选文本向量为所述候选文本对中文本对应的向量;
基于所述待融合文本向量与候选文本向量,计算所述待融合文本向量与候选文本向量的相似度;
基于所述相似度获取所述待融合文本对与候选文本对之间的相似度。
7.根据权利要求1所述的文本对融合方法,其特征在于,所述将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集,包括:当所述待融合文本对中的文本与所述目标文本对中的文本匹配时,将所述待融合文本对中的文本添加至所述目标文本对中的文本进行融合,得到融合后文本集。
8.根据权利要求7所述的文本对融合方法,其特征在于,还包括:当所述待融合文本对中的文本与所述目标文本对中的文本不匹配时,将所述待融合文本对中的文本添加至所述目标文本对中,得到融合后文本集。
9.根据权利要求1所述的文本融合方法,其特征在于,所述获取待融合文本对之后,还包括:
对所述待融合文本对进行编码处理,得到所述待融合文本对对应的编码;
所述获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对,包括:获取所述待融合文本对与候选文本对之间的相似度、编辑距离、及所述待融合文本对对应的编码,并基于所述相似度、所述编辑距离、和所述编码,从所述候选文本对中确定至少一个目标文本对。
10.一种文本对融合装置,其特征在于,包括:
获取模块,所述获取模块用于获取待融合文本对;
分词模块,所述分词模块用于对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
第一确定模块,所述确定模块用于基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
第二确定模块,所述第二确定模块用于获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
融合模块,所述融合模块用于将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096632.1A CN110825863B (zh) | 2019-11-11 | 2019-11-11 | 一种文本对融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096632.1A CN110825863B (zh) | 2019-11-11 | 2019-11-11 | 一种文本对融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825863A true CN110825863A (zh) | 2020-02-21 |
CN110825863B CN110825863B (zh) | 2021-05-07 |
Family
ID=69553930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911096632.1A Active CN110825863B (zh) | 2019-11-11 | 2019-11-11 | 一种文本对融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825863B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254989A (zh) * | 2021-04-27 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 目标数据的融合方法、装置和服务器 |
CN113505593A (zh) * | 2021-07-23 | 2021-10-15 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
CN113886659A (zh) * | 2021-10-08 | 2022-01-04 | 科大讯飞股份有限公司 | 数据融合方法、相关设备及可读存储介质 |
CN114757208A (zh) * | 2022-06-10 | 2022-07-15 | 荣耀终端有限公司 | 一种问答匹配方法及装置 |
CN114818706A (zh) * | 2021-01-29 | 2022-07-29 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法、装置以及政务服务文本匹配方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304437A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
CN108415980A (zh) * | 2018-02-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 问答数据处理方法、电子装置及存储介质 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109657038A (zh) * | 2018-10-10 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种问答对数据的挖掘方法、装置及电子设备 |
US20190303473A1 (en) * | 2018-04-02 | 2019-10-03 | International Business Machines Corporation | Query interpretation disambiguation |
-
2019
- 2019-11-11 CN CN201911096632.1A patent/CN110825863B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304437A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
CN108415980A (zh) * | 2018-02-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 问答数据处理方法、电子装置及存储介质 |
US20190303473A1 (en) * | 2018-04-02 | 2019-10-03 | International Business Machines Corporation | Query interpretation disambiguation |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109657038A (zh) * | 2018-10-10 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种问答对数据的挖掘方法、装置及电子设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818706A (zh) * | 2021-01-29 | 2022-07-29 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法、装置以及政务服务文本匹配方法 |
CN113254989A (zh) * | 2021-04-27 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 目标数据的融合方法、装置和服务器 |
CN113505593A (zh) * | 2021-07-23 | 2021-10-15 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
CN113505593B (zh) * | 2021-07-23 | 2024-03-29 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
CN113886659A (zh) * | 2021-10-08 | 2022-01-04 | 科大讯飞股份有限公司 | 数据融合方法、相关设备及可读存储介质 |
CN114757208A (zh) * | 2022-06-10 | 2022-07-15 | 荣耀终端有限公司 | 一种问答匹配方法及装置 |
CN114757208B (zh) * | 2022-06-10 | 2022-10-21 | 荣耀终端有限公司 | 一种问答匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110825863B (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825863B (zh) | 一种文本对融合方法及装置 | |
WO2021196981A1 (zh) | 语音交互方法、装置和终端设备 | |
CN110209952B (zh) | 信息推荐方法、装置、设备及存储介质 | |
JP6594534B2 (ja) | テキスト情報処理方法およびデバイス | |
CN110795528B (zh) | 一种数据查询方法、装置、电子设备及存储介质 | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
CN110309357B (zh) | 应用数据推荐的方法、模型训练的方法、装置及存储介质 | |
CN109165292A (zh) | 数据处理方法、装置以及移动终端 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN111813910A (zh) | 客服问题的更新方法、系统、终端设备及计算机存储介质 | |
CN114694226B (zh) | 一种人脸识别方法、系统及存储介质 | |
CN113868427A (zh) | 一种数据处理方法、装置及电子设备 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN109543014B (zh) | 人机对话方法、装置、终端及服务器 | |
CN110765502A (zh) | 信息处理方法及相关产品 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
CN114973351A (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN116933149A (zh) | 一种对象意图预测方法、装置、电子设备和存储介质 | |
CN111611369B (zh) | 基于人工智能的交互方法和相关装置 | |
CN111031354B (zh) | 一种多媒体播放方法、装置及存储介质 | |
CN114444338A (zh) | Ai模型组合快速轻量级验证的方法、装置及存储介质 | |
CN113413590A (zh) | 一种信息验证方法、装置、计算机设备及存储介质 | |
CN111723783A (zh) | 一种内容识别方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021111 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |