CN111339241B - 一种问题查重方法、装置以及电子设备 - Google Patents
一种问题查重方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN111339241B CN111339241B CN202010099141.9A CN202010099141A CN111339241B CN 111339241 B CN111339241 B CN 111339241B CN 202010099141 A CN202010099141 A CN 202010099141A CN 111339241 B CN111339241 B CN 111339241B
- Authority
- CN
- China
- Prior art keywords
- checked
- candidate
- encoding
- algorithm
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 100
- 239000013598 vector Substances 0.000 claims abstract description 100
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种问题查重方法、装置以及电子设备,涉及信息处理技术领域。具体实现方案为:对待查问题进行编码,获得待查问题的目标向量;通过近似最近邻算法在检索空间中检索目标向量的候选向量,其中,检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;获取候选向量对应的候选问题,已有问题集中包括候选问题;根据候选问题,获取待查问题的重复问题。在问题查重方法过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。
Description
技术领域
本申请涉及计算机技术中的信息处理技术领域,尤其涉及一种问题查重方法、装置以及电子设备。
背景技术
企业知识管理中,有大量知识存在于FAQ(Frequently Asked Questions)中,FAQ即常见的问题与对应问题的解答。为了能够对FAQ进行有效的管理,在对FAQ进行管理过程中,若有待新增问题,则需要对待新增问题进行查重,即在FAQ中查找是否有与该待新增问题重复的问题,以便后续对待新增问题的管理。
然而,目前在查重过程中,需将待新增问题与已有问题集合中每个问题进行逐一查找匹配,如此,容易导致查重效率较低。
发明内容
本申请提供一种问题查重方法、装置和电子设备,以解决问题查重效率较差的问题。
第一方面,本申请一个实施例提供一种问题查重方法,包括:
对待查问题进行编码,获得所述待查问题的目标向量;
通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;
根据所述候选问题,获取所述待查问题的重复问题。
本申请上述实施例的问题查重方法中,首先对待查问题进行编码得到目标向量,通过近似最近邻算法在检索空间中检索目标向量的候选向量,然后获取候选向量对应的候选问题,再根据候选问题,获取待查问题的重复问题。即在问题查重过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。
可选的,所述根据所述候选问题,确定所述待查问题的重复问题,包括:
计算所述候选问题与所述待查问题之间的语义相似度;
获取所述候选问题中语义相似度大于预设相似度的所述重复问题。
即在本实施例中,待查问题的重复问题为候选问题中语义相似度大于预设相似度的问题,如此可提高待查问题的重复问题的准确性。
可选的,所述检索空间的构建方式包括:
基于第一编码算法对所述已有问题集进行编码,得到第一矩阵;
基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间。
通过第一编码算法对已有问题集进行编码,得到第一矩阵,同时,基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间,然后根据待查问题的目标向量,通过最近邻算法在通过第二编码算法对第一矩阵编码后的检索空间进行检索得到候选向量,根据候选向量的候选问题确定待查问题的重复问题,提高检索效率以及提高查重效率。
可选的,所述第一编码算法包括字嵌入算法。
通过字嵌入算法对已有问题集进行编码,获得所述已有问题集的第一矩阵,从而可提取到已有问题的语义特征,即第一矩阵中具有已有问题集的语义特征,减少语义相同字面不同时查重准确性较低的问题,后续对待查问题进行查重时,可提高查重准确性。
可选的,所述对待查问题进行编码,获得所述待查问题的目标向量包括:
基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。
通过字嵌入算法对对待查问题进行编码,获得所述待查问题的目标向量,从而可提取到待查问题的语义特征,后续对待查问题进行查重时,可提高查重准确性。
第二方面,本申请一个实施例提供一种问题查重装置,所述装置包括:
第一编码模块,用于对待查问题进行编码,获得所述待查问题的目标向量;
检索模块,用于通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
候选问题获取模块,用于获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;
查重模块,用于根据所述候选问题,获取所述待查问题的重复问题。
可选的,所述查重模块,包括:
相似度计算模块,用于计算所述候选问题与所述待查问题之间的语义相似度;
重复问题获取模块,用于获取所述候选问题中语义相似度大于预设相似度的所述重复问题。
可选的,所述装置还包括:
第二编码模块,用于基于第一编码算法对所述已有问题集进行编码,得到第一矩阵;
第三编码模块,用于基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间。
可选的,所述第一编码算法包括字嵌入算法。
可选的,所述对待查问题进行编码,获得所述待查问题的目标向量包括:
基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。
第三方面,本申请一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的方法。
第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请提供的一个实施例的问题查重方法的流程示意图;
图2是本申请提供的一个实施例的问题查重装置的结构图之一;
图3是本申请提供的一个实施例的问题查重装置的结构图之二;
图4是用来实现本申请实施例的问题查重方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,根据本申请的实施例,本申请提供一种问题查重方法,包括:
步骤S101:对待查问题进行编码,获得待查问题的目标向量。
首先获取待查问题,对待查问题在已有问题集中进行查重,可以理解,待查问题为由文字(可以是中文、其他国家的外文、或者中文与外文的混合等)组成的问题。在本申请实施例中,首先可对待查问题进行编码,得到待查问题的目标向量,可以理解为将待查问题映射为表征该待查问题的目标向量。
步骤S102:通过近似最近邻算法在检索空间中检索目标向量的候选向量。
其中,检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的。
近似最近邻算法即ANN(Approximate Nearest Neighbor)算法,为一种检索算法,在本实施例中,可采用开源的ANN算法,例如,开源的ANN算法开源可选用KNSW、KGraph、SW-graph、Annoy等。在获取待查问题的目标向量之后,可基于ANN算法在已经构建的检索空间中检索待查问题的目标向量的候选向量,候选向量为检索空间中的向量,检索空间可以理解为检索矩阵,根据第一矩阵构建得到。而在对待查问题进行查重之前,在FAQ已记录有许多的问题,这里可表示为已有问题集,上述第一矩阵为对已有问题集进行编码得到,可以理解,对已有问题集中每个已有问题分别进行编码,得到每个已有问题对应的编码向量,基于每个已有问题的编码向量构建得到第一矩阵,即第一矩阵中包括每个已有问题的编码向量。另外,需要说明的是,上述检索空间为专门为近似最近邻算法构建的检索空间,即该检索空间为近似最近邻算法的检索空间,为通过近似最近邻算法进行检索提供检索基础。
步骤S103:获取候选向量对应的候选问题,已有问题集中包括候选问题。
检索空间中是包括上述候选向量,由于检索空间为根据已有问题集编码后的第一矩阵构建得到,可以理解,检索空间中每个向量在已有问题集中有对应的候选问题,在检索空间中检索到目标向量的候选向量后,可从已有问题集中获取候选向量对应的候选问题。作为一个示例,候选向量的数量可有多个,则候选问题的数量也可以为多个,且与候选向量的数量相同。
步骤S104:根据候选问题,获取待查问题的重复问题。
得到候选问题后,即可在候选问题中确定与待查问题重复的问题,即获取待查问题的重复问题,实现对待查问题的查重过程。
本申请上述实施例的问题查重方法中,首先对待查问题进行编码得到目标向量,通过近似最近邻算法在检索空间中检索目标向量的候选向量,然后获取候选向量对应的候选问题,再根据候选问题,获取待查问题的重复问题。即在问题查重过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。
在一个实施例中,根据候选问题,确定待查问题的重复问题,包括:计算候选问题与待查问题之间的语义相似度;获取候选问题中语义相似度大于预设相似度的重复问题。
问题之间的语义相似度越高,表示问题之间越相似,为重复的问题的可能性越大,在本实施例中,可计算候选问题与待查问题之间的语义相似度,如果候选问题有多个,则需计算每个候选问题分别与待查问题之间的语义相似度。然后从候选问题中获取语义相似度大于预设相似度的重复问题,即在本实施例中,待查问题的重复问题为候选问题中语义相似度大于预设相似度的问题,如此可提高待查问题的重复问题的准确性。需要说明的是,计算语义相似度的方法有多种,本申请不作限定,例如,可通过计算候选问题与待查问题之间的余弦相似度等以获得语义相似度。
作为一个示例,在根据所述候选问题,获取所述待查问题的重复问题之后,可以包括:输出提示信息。提示信息用于提示该待查问题已存在重复,无需将其添加至已有问题集中,即无需将该待查问题添加至FAQ中。或者,在根据所述候选问题,获取所述待查问题的重复问题之后,可以包括:若重复问题与待查问题之间的语义相似度小于预设阈值,将待查问题添加至已有问题集中。如此,可避免将语义相似度大于或等于预设阈值的待查问题添加至已有问题集中,容易导致已有问题集中存在相似度较高的问题,不利于管理的问题,若重复问题与待查问题之间的语义相似度小于预设阈值,将待查问题添加至已有问题集中,可利于对问题的管理。其中,预设阈值大于预设相似度。又或者在根据所述候选问题,获取所述待查问题的重复问题之后,可以包括:将待查问题添加至已有问题集中。即直接就将待查问题添加至已有问题集中,以减少对问题的遗漏的情况。
在一个实施例中,检索空间的构建方式包括:基于第一编码算法对已有问题集进行编码,得到第一矩阵。基于第二编码算法对第一矩阵进行编码,生成近似最近邻算法的检索空间。
基于第一编码算法对已有问题集进行编码,得到第一矩阵,可以理解为,通过第一编码算法对已有问题集中每个已有问题进行编码,可得到每个已有问题的编码向量,合并每个已有问题的编码向量得到第一矩阵,即第一矩阵包括基于第一编码算法对每个已有问题进行编码得到的编码向量。
基于第二编码算法对第一矩阵进行编码,生成近似最近邻算法的检索空间,可以理解为对第一矩阵的降维处理或者将第一矩阵映射到另一个矩阵,即得到检索空间,以生成较低维度的检索空间,以便于检索。第二编码算法有多种,在此不作限定。例如,第二编码算法可以包括哈希散列算法(例如,局部敏感哈希算法等)和矢量量化算法等。
通过第一编码算法对已有问题集进行编码,得到第一矩阵,同时,基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间,然后根据待查问题的目标向量,通过最近邻算法在通过第二编码算法对第一矩阵编码后的检索空间进行检索得到候选向量,根据候选向量的候选问题确定待查问题的重复问题,提高检索效率以及提高查重效率。
在一个实施例中,第一编码算法包括字嵌入算法。
字嵌入算法即为Word Embedding算法,为一种把词汇表中的单词或者短语映射成由实数构成的向量上的算法,可提取到其语义特征,即能保留其含义。通过字嵌入算法对已有问题集进行编码,获得所述已有问题集的第一矩阵,从而可提取到已有问题的语义特征,即第一矩阵中具有已有问题集的语义特征,减少语义相同字面不同时查重准确性较低的问题,后续对待查问题进行查重时,可提高查重准确性。
在一个实施例中,对待查问题进行编码,获得待查问题的目标向量包括:基于词嵌入算法对待查问题进行编码,获得待查问题的目标向量。
通过字嵌入算法对对待查问题进行编码,获得所述待查问题的目标向量,从而可提取到待查问题的语义特征,后续对待查问题进行查重时,可提高查重准确性。在检索过程中,通过近似最近邻算法对检索空间进行检索得到候选向量,可提高检索效率,从而可提高查重效率。
下面以一个具体实施例对上述问题查重方法的过程加以具体说明,例如,以字嵌入算法对待查问题进行编码,通过字嵌入算法对已有问题集进行编码,通过哈希散列方法构建检索空间为例进行说明。上述问题查重方法可应用于FAQ管理系统,具体可应用于电子设备,该电子设备可以是可进行FAQ管理的电子设备,例如,计算机、移动终端、服务器、穿戴设备、汽车等。
首先,可将FAQ中所有的问题即已有问题集中每个已有问题通过Word Embedding算法表示成高维向量,即上述编码向量,将每个已有问题的高维向量组成第一矩阵;
然后,通过哈希散列算法对第一矩阵进行降维处理,构建ANN算法那的检索空间。
其次,对于每一个需要判断重复的问题即待查问题,通过Word Embedding算法表示成高维向量,即待查问题的目标向量。对于目标向量,利用ANN算法去检索空间S,获得目标向量的候选向量,从而可获得候选向量的候选问题列表,候选问题列表包括至少一个候选问题。
计算候选问题列表中的每个候选问题与待查问题进行语义相似度计算,根据预设设置的预设相似度,将候选问题列表中语义相似度高于预设相似度的问题作为待查问题的重复问题,实现问题查重过程。
本申请使用Word Embedding来表示待查问题以及已有问题集,构建待查问题的高维向量以及已有问题集的第一矩阵,具有了语义特征。然后根据第一矩阵构建检索空间,通过对ANN算法在检索空间检索,提升检索效率,根据检索得到的候选向量对应的候选问题确定重复问题,提高查重效率。
请参考图2,本申请提供一种实施例的问题查重装置200,装置包括:
第一编码模块201,用于对待查问题进行编码,获得待查问题的目标向量;
检索模块202,用于通过近似最近邻算法在检索空间中检索目标向量的候选向量,其中,检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
候选问题获取模块203,用于获取候选向量对应的候选问题,已有问题集中包括候选问题;
查重模块204,用于根据候选问题,获取待查问题的重复问题。
请参考图3,在一个实施例中,查重模块204,包括:
相似度计算模块2041,用于计算候选问题与待查问题之间的语义相似度;
重复问题获取模块2042,用于获取候选问题中语义相似度大于预设相似度的重复问题。
在一个实施例中,上述装置200,还包括:
第二编码模块,用于基于第一编码算法对已有问题集进行编码,得到第一矩阵;
第三编码模块,用于基于第二编码算法对第一矩阵进行编码,生成近似最近邻算法的检索空间。
在一个实施例中,第一编码算法包括字嵌入算法。
在一个实施例中,对待查问题进行编码,获得待查问题的目标向量包括:
基于词嵌入算法对待查问题进行编码,获得待查问题的目标向量。
上述各实施例的问题查重装置为实现上述各实施例的问题查重方法的装置,技术特征对应,技术效果对应,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的问题查重方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的问题查重方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的问题查重方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的问题查重方法对应的程序指令/模块(例如,附图2所示的第一编码模块201、检索模块202、候选问题获取模块203、查重模块204)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的问题查重方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
问题查重方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,能够对待查问题进行编码得到目标向量,通过近似最近邻算法在检索空间中检索目标向量的候选向量,然后获取候选向量对应的候选问题,再根据候选问题,获取待查问题的重复问题。即在问题查重过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种问题查重方法,其特征在于,所述方法包括:
对待查问题进行编码,获得所述待查问题的目标向量;
通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;
根据所述候选问题,获取所述待查问题的重复问题;
其中,所述检索空间的构建方式包括:
基于第一编码算法对所述已有问题集进行编码,得到第一矩阵,所述第一矩阵包括所述已有问题集中每个已有问题的编码向量;
基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间;
所述基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间,包括:通过所述第二编码算法对所述第一矩阵的降维处理或者将第一矩阵映射到另一个矩阵,以得到所述检索空间;
所述根据所述候选问题,获取所述待查问题的重复问题之后,还包括以下任一项:
输出提示信息,所述提示信息用于提示在已有问题集中所述待查问题已存在重复;
若所述重复问题与所述待查问题之间的语义相似度小于预设阈值,将所述待查问题添加至已有问题集中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选问题,确定所述待查问题的重复问题,包括:
计算所述候选问题与所述待查问题之间的语义相似度;
获取所述候选问题中语义相似度大于预设相似度的所述重复问题。
3.根据权利要求1所述的方法,其特征在于,所述第一编码算法包括字嵌入算法。
4.根据权利要求1所述的方法,其特征在于,所述对待查问题进行编码,获得所述待查问题的目标向量包括:
基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。
5.一种问题查重装置,其特征在于,所述装置包括:
第一编码模块,用于对待查问题进行编码,获得所述待查问题的目标向量;
检索模块,用于通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
候选问题获取模块,用于获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;
查重模块,用于根据所述候选问题,获取所述待查问题的重复问题;
所述装置,还包括:
第二编码模块,用于基于第一编码算法对所述已有问题集进行编码,得到第一矩阵,所述第一矩阵包括所述已有问题集中每个已有问题的编码向量;
第三编码模块,用于基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间;
所述基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间,包括:通过所述第二编码算法对所述第一矩阵的降维处理或者将第一矩阵映射到另一个矩阵,以得到所述检索空间;
所述根据所述候选问题,获取所述待查问题的重复问题之后,所述问题查重装置还用于以下任一项:
输出提示信息,所述提示信息用于提示在已有问题集中所述待查问题已存在重复;
若所述重复问题与所述待查问题之间的语义相似度小于预设阈值,将所述待查问题添加至已有问题集中。
6.根据权利要求5所述的装置,其特征在于,所述查重模块,包括:
相似度计算模块,用于计算所述候选问题与所述待查问题之间的语义相似度;
重复问题获取模块,用于获取所述候选问题中语义相似度大于预设相似度的所述重复问题。
7.根据权利要求5所述的装置,其特征在于,所述第一编码算法包括字嵌入算法。
8.根据权利要求5所述的装置,其特征在于,所述对待查问题进行编码,获得所述待查问题的目标向量包括:
基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099141.9A CN111339241B (zh) | 2020-02-18 | 2020-02-18 | 一种问题查重方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099141.9A CN111339241B (zh) | 2020-02-18 | 2020-02-18 | 一种问题查重方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339241A CN111339241A (zh) | 2020-06-26 |
CN111339241B true CN111339241B (zh) | 2024-02-13 |
Family
ID=71183478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099141.9A Active CN111339241B (zh) | 2020-02-18 | 2020-02-18 | 一种问题查重方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339241B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN109948044A (zh) * | 2017-12-14 | 2019-06-28 | 微软技术许可有限责任公司 | 基于向量最近邻搜索的文档查询 |
CN110096580A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种faq对话方法、装置及电子设备 |
KR20190101330A (ko) * | 2019-08-12 | 2019-08-30 | 엘지전자 주식회사 | 음성 처리 장치 및 음성 처리 방법 |
CN110347790A (zh) * | 2019-06-18 | 2019-10-18 | 广州杰赛科技股份有限公司 | 基于注意力机制的文本查重方法、装置、设备及存储介质 |
CN110362665A (zh) * | 2019-06-12 | 2019-10-22 | 深圳追一科技有限公司 | 一种基于语义相似度的问答系统及方法 |
-
2020
- 2020-02-18 CN CN202010099141.9A patent/CN111339241B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
CN109948044A (zh) * | 2017-12-14 | 2019-06-28 | 微软技术许可有限责任公司 | 基于向量最近邻搜索的文档查询 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN110096580A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种faq对话方法、装置及电子设备 |
CN110362665A (zh) * | 2019-06-12 | 2019-10-22 | 深圳追一科技有限公司 | 一种基于语义相似度的问答系统及方法 |
CN110347790A (zh) * | 2019-06-18 | 2019-10-18 | 广州杰赛科技股份有限公司 | 基于注意力机制的文本查重方法、装置、设备及存储介质 |
KR20190101330A (ko) * | 2019-08-12 | 2019-08-30 | 엘지전자 주식회사 | 음성 처리 장치 및 음성 처리 방법 |
Non-Patent Citations (2)
Title |
---|
基于向量语义相似度的改进K-Means算法;李法运;农罗锋;情报科学(第002期);全文 * |
基于问句相似度的中文FAQ问答系统;叶正;林鸿飞;杨志豪;;计算机工程与应用(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339241A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663258B2 (en) | Method and apparatus for processing dataset | |
US11573992B2 (en) | Method, electronic device, and storage medium for generating relationship of events | |
CN111488740B (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
EP3916630A1 (en) | Method and apparatus for identifying video | |
CN111667056B (zh) | 用于搜索模型结构的方法和装置 | |
US20220067439A1 (en) | Entity linking method, electronic device and storage medium | |
JP7395445B2 (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
KR20210132578A (ko) | 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체 | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
US11343572B2 (en) | Method, apparatus for content recommendation, electronic device and storage medium | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
CN111274407A (zh) | 知识图谱中三元组置信度计算方法和装置 | |
CN114943228B (zh) | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 | |
CN111666417B (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN111523007A (zh) | 用户感兴趣信息确定方法、装置、设备以及存储介质 | |
CN112329429B (zh) | 文本相似度学习方法、装置、设备以及存储介质 | |
CN111738325B (zh) | 图像识别方法、装置、设备以及存储介质 | |
CN111177479A (zh) | 获取关系网络图中节点的特征向量的方法以及装置 | |
CN111339241B (zh) | 一种问题查重方法、装置以及电子设备 | |
US11954449B2 (en) | Method for generating conversation reply information using a set of historical conversations, electronic device, and storage medium | |
CN111340222B (zh) | 神经网络模型搜索方法、装置以及电子设备 | |
CN111324747B (zh) | 三元组的生成方法、装置及电子设备 | |
CN113761528B (zh) | 恶意软件检测方法和装置 | |
CN111125362B (zh) | 一种异常文本确定方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |