CN115344680B - 一种获取查询结果的方法及装置 - Google Patents
一种获取查询结果的方法及装置 Download PDFInfo
- Publication number
- CN115344680B CN115344680B CN202210987349.3A CN202210987349A CN115344680B CN 115344680 B CN115344680 B CN 115344680B CN 202210987349 A CN202210987349 A CN 202210987349A CN 115344680 B CN115344680 B CN 115344680B
- Authority
- CN
- China
- Prior art keywords
- text
- recall
- vector
- question
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种获取查询结果的方法及装置,其中,该获取查询结果的方法包括:基于问答文本查询文本数据库,获取与问答文本相匹配的召回文本;对问答文本进行分词处理并生成问答向量;依据召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;基于文本数据库中的词向量集,构建召回文本的召回词典向量矩阵及问答文本的问答词典向量;利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。可以降低获取查询结果所需的时间。
Description
技术领域
本发明涉及搜索技术领域,具体而言,涉及一种获取查询结果的方法及装置。
背景技术
目前,在基于相似度计算获取最优问答时,一般采用基于召回以及相似度算法的技术方案,即基于问答文本,通过弹性搜索(ES,Elasticsearch)等文本数据库召回与问答文本相匹配的Top N笔召回文本,然后再对该Top N笔召回文本,逐笔与问答词进行相似度计算,从而选取相似度值高的一笔或多笔召回文本,作为问答文本的最优查询结果。
但该基于召回以及相似度算法获取问答文本查询结果的方法,需要基于每一笔召回文本进行相似度计算,使得获取查询结果所需的时间较长。若需要减少获取查询结果所需的时间,则需要减少召回的Top N笔数,但通过降低召回率,会降低获取的查询结果的准确率。进一步地,在进行相似度计算时,采用单一的相似度算法,例如,采用文本距离算法进行相似度计算,将忽略匹配结果中词之间的关联等信息,也降低了获取的查询结果的准确率。
发明内容
有鉴于此,本发明的目的在于提供获取查询结果的方法及装置,以降低获取查询结果所需的时间。
第一方面,本发明实施例提供了获取查询结果的方法,包括:
基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;
对所述问答文本进行分词处理,依据分词处理结果生成问答向量;
依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;
基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本,包括:
对问答文本进行分词,基于分词结果生成该问答文本的问答向量;
基于问答向量以及文本数据库中预先为每一文本进行分词得到的文本向量,获取召回文本。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵,包括:
以所述问答向量为所述召回向量矩阵的列;
对于每一召回文本,对该召回文本进行分词处理;
若得到的分词向量中,包含有所述问答向量,将该召回文本所在行的分词向量对应的列值置1,其中,每一召回文本对应所述召回向量矩阵的一行。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,包括:
以所述词向量集中的每一词向量为所述召回词典向量矩阵的列;
对于每一召回文本,遍历召回词典向量矩阵的每一列;
若该召回文本对应的分词向量中,包含有该列的词向量,将该列值置1;
若未包含该列的词向量,将该列值置0。
结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,包括:
对所述问答向量进行转置处理,得到问答转置向量;
利用相似度算法,采用Pandas方法计算所述召回词典向量矩阵与所述问答转置向量的矩阵乘积,得到第一相似度值矩阵。
结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,包括:
对于每一召回文本,基于该召回文本在各相似度算法对应的第一相似度值矩阵中的位置权重,获取该召回文本的位置权重第一和值;以及,基于该召回文本在各相似度算法对应的第二相似度值矩阵中的位置权重,获取该召回文本的位置权重第二和值;
对于每一召回文本,计算该召回文本的位置权重第一和值与位置权重第二和值的和值,得到该召回文本的查询权重;
获取大于预设查询阈值的查询权重对应的召回文本。
结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述相似度算法包括:欧氏距离算法、曼哈顿距离算法、余弦距离算法、皮尔逊距离算法、切比雪夫距离算法、Jaccard距离算法中的一种或任意组合。
第二方面,本发明实施例还提供了一种获取查询结果的装置,包括:
召回文本获取模块,用于基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;
分词模块,用于对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;
向量矩阵构建模块,用于基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
相似度值计算模块,用于利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
投票模块,用于基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的获取查询结果的方法及装置,通过基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。这样,通过对问答文本及召回文本进行分词,依据分词处理结果构建向量矩阵,进行问答文本与召回文本的矩阵运算,无需逐笔进行相似度计算,能够有效降低获取查询结果所需的时间。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的获取查询结果的方法流程示意图;
图2示出了本发明实施例所提供的获取查询结果的装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有基于召回以及相似度算法获取问答词查询结果的方法,需要基于每一笔召回文本进行相似度计算,使得获取查询结果所需的时间较长。本发明实施例中,通过构建召回文本的矩阵向量,依据矩阵向量进行批量计算,无需逐笔进行相似度计算,可以有效降低查询结果获取所需的时间;同时,也能够有效提升召回的召回文本数,使得召回文本数可达几千笔,且耗时都在几百毫秒之内;进一步地,基于多种相似度算法进行相似度值计算,综合考虑召回文本中包含的各种信息,使得速度与准确率都达到较高的水平。
本发明实施例提供了一种获取查询结果的方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的获取查询结果的方法流程示意图。
如图1所示,该方法包括:
步骤101,基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;
本发明实施例中,将用户输入的问答文本导入文本数据库以获取召回文本,作为一可选实施例,文本数据库包括但不限于:ES。
本发明实施例中,还可以对文本数据库中的文本预先进行处理,以降低获取召回文本时的召回时间,作为一可选实施例,基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本,包括:
对问答文本进行分词,基于分词结果生成该问答文本的问答向量;
基于问答向量以及文本数据库中预先为每一文本进行分词得到的文本向量,获取召回文本。
本发明实施例中,通过在文本数据库中,预先对每一文本进行分词,生成该文本的文本向量,对问答文本进行分词形成问答向量,从而可以基于向量的方式获取召回文本,能够降低获取召回文本所需的时间。
本发明实施例中,依据文本数据库,对问答文本进行召回,例如,通过将问答文本的问答向量输入ES,与ES中各文本对应的文本向量进行匹配,召回Top N笔召回文本。
步骤102,对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;
本发明实施例中,作为一可选实施例,依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵,包括:
以所述问答向量为所述召回向量矩阵的列;
对于每一召回文本,对该召回文本进行分词处理,若得到的分词向量中,包含有所述问答向量,将该召回文本所在行的分词向量对应的列值置1,其中,每一召回文本对应所述召回向量矩阵的一行。
本发明实施例中,对问答文本以及召回文本分别进行分词,依据问答文本的分词处理结果生成问答词向量。对于召回文本,针对Top N笔召回文本中的每一召回文本,对该召回文本进行分词处理,与问答文本进行分词处理得到的问答向量进行匹配,即以各问答向量为召回向量矩阵的列,以各召回文本为召回向量矩阵的行,针对每一召回文本,若对该召回文本进行分词处理得到的分词向量中,包含有该列对应的问答向量,则将该行中该列置1,若列中未找到有该列对应的分词向量,将该行中该列置0。
本发明实施例中,以问答文本为“公积金提取的预约流程是怎样”为例,通过分词,得到的分词向量分别是:公积金、提取、的、预约、流程、是、怎样;设Top 3笔召回文本分别是:怎样打印公积金单位汇缴证明;修改公积金密码的流程是怎样;如何开通手机银行,则得到的召回向量矩阵如表1所示。
表1
公积金 | 提取 | 的 | 预约 | 流程 | 是 | 怎样 |
1 | 0 | 0 | 0 | 0 | 0 | 1 |
1 | 0 | 1 | 0 | 1 | 1 | 1 |
0 | 0 | 0 | 0 | 0 | 0 | 0 |
步骤103,基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
本发明实施例中,在文本数据库在对文本进行分词处理,或,对问答文本进行分词处理,均是基于词向量模型进行分词处理,词向量模型为对样本文本进行人工分词得到的词语集,其中,选取一定数量的词语作为常用的词向量集。例如,作为一可选实施例,预设维数为200,则表示词向量集中,包含有200个不同的词语。
本发明实施例中,作为一可选实施例,基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,包括:
以所述词向量集中的每一词向量为所述召回词典向量矩阵的列;
对于每一召回文本,遍历召回词典向量矩阵的每一列;
若该召回文本对应的分词向量中,包含有该列的词向量,将该列值置1;
若未包含该列的词向量,将该列值置0。
本发明实施例中,以预设维数为200为例,对于Top N笔召回文本,构建一N*200的召回词典向量矩阵。其中,200为预设维数,N为召回文本数量。本发明实施例中,不同的词向量模型,维数可以不同。
本发明实施例中,对于构建问答文本的问答词典向量,与构建召回文本的召回词典向量矩阵相类似,不同的是,问答词典向量为一1*200的行矩阵。
本发明实施例中,通过在文本数据库中设置词向量集,便于在后续进行相似度计算时,可以考虑各词向量之间包含的信息。作为一可选实施例,词向量集包含的词向量数量,可以是通过统计文本数据库中各文本进行分词得到的词语,选取频次前n位的词语作为词向量,例如,选取频次前200位的词语,则词向量集的维数为200。因而,在基于问答向量以及文本数据库中预先为每一文本进行分词的文本向量获取的召回文本中,携带有召回向量以及词典向量,其中,召回向量为该召回文本在所述文本数据库中的文本向量,词典向量为所述召回向量映射至所述文本数据库中,对文本进行分词提取的预设维数的词向量集得到的,这样,可以进一步提升构建召回词典向量矩阵所需的时间。
步骤104,利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
本发明实施例中,作为一可选实施例,采用Pandas方法进行相似度运算。
本发明实施例中,作为一可选实施例,相似度算法包括但不限于:欧氏距离算法、曼哈顿距离算法、余弦距离算法、皮尔逊距离算法、切比雪夫距离算法、Jaccard距离算法中的一种或任意组合。
本发明实施例中,作为一可选实施例,计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,包括:
对所述问答向量进行转置处理,得到问答转置向量;
利用相似度算法,采用Pandas方法计算所述召回词典向量矩阵与所述问答转置向量的矩阵乘积,得到第一相似度值矩阵。
本发明实施例中,以召回词典向量矩阵为N*200为例,最后得到的第一相似度值矩阵为一N*1的矩阵,即每一召回文本,对应有与问答文本的一相似度值,相似度值的大小表征了召回文本与问答文本的匹配程度,相似度值越高,匹配程度越高。
本发明实施例中,设np表示numpy(Numerical Python)文本数据库,a、b分别为TopN召回文本对应的召回词典向量矩阵与问答文本对应的问答向量,对于各相似度算法,分别利用下式计算相似度。
利用下式计算欧氏距离:
np.sqrt(np.sum(np.asarray(b-a)**2,axis=1))
利用下式计算曼哈顿距离:
np.sum(np.abs(np.asarray(b-a)),axis=1)
利用下式计算余弦(Cosine)距离:
np.sum(np.asarray(b*a),axis=1)/(np.sqrt(np.sum(a**2,axis=1))*np.sqrt(np.sum(b**2,axis=1)))
利用下式计算皮尔逊(Pearson)距离:
aav=np.average(a,axis=1)
aav=np.repeat([aav],a.shape[1],axis=0).T
bav=np.average(b,axis=1)
av=np.sum((a-aav)*(b-bav),axis=1)
aa=np.sum(np.square(a-aav),axis=1)
bb=np.sum(np.square(b-bav),axis=1)
return 1.0-av/np.sqrt(aa*bb)
步骤105,基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
本发明实施例中,对多种相似度算法结果进行投票,得到投票最多的1笔或N笔召回文本作为最优查询结果并展示。
本发明实施例中,作为一可选实施例,基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,包括:
对于每一召回文本,基于该召回文本在各相似度算法对应的第一相似度值矩阵中的位置权重,获取该召回文本的位置权重第一和值;以及,基于该召回文本在各相似度算法对应的第二相似度值矩阵中的位置权重,获取该召回文本的位置权重第二和值;
对于每一召回文本,计算该召回文本的位置权重第一和值与位置权重第二和值的和值,得到该召回文本的查询权重;
获取大于预设查询阈值的查询权重对应的召回文本。
本发明实施例中,对于不同的相似度算法,可依据问答文本所属的领域,对相似度算法赋予相应的权重,从而使得查询结果更能匹配问答文本的领域,因而,作为一可选实施例,基于该召回文本在各相似度算法对应的第一相似度值矩阵中的位置权重,获取该召回文本的位置权重第一和值,包括:
针对每一相似度算法,基于该召回文本在该相似度算法对应的第一相似度值矩阵中的位置权重,计算该位置权重与该相似度算法对应的算法权重的乘积,得到该召回文本在该相似度算法中的算法位置权重;
对召回文本在各相似度算法中的算法位置权重进行加权求和,得到该召回文本的位置权重第一和值。
本发明实施例中,对于位置权重第一和值以及位置权重第二和值,也可以分别设置相应的权重,通过计算召回文本的位置权重第一和值与预设的第一权重系数的第一乘积,以及,计算该召回文本的位置权重第二和值与预设的第二权重系数的第二乘积,计算第一乘积与第二乘积的和值,得到该召回文本的查询权重。
本发明实施例中,对问答文本等输入句子,通过文本分词、词向量模型进行向量化,转化为向量矩阵,以及,对召回文本进行向量化,利用Pandas方法进行问答文本与召回文本的矩阵运算,达到批量运算的效果,无需逐笔进行相似度计算,从而有效降低获取查询结果所需的时间;同时,基于多种相似度算法进行相似度值计算,能够综合考虑召回文本中包含的与问答文本相关的各种信息,准确率达85%,有效提升了查询结果的准确率;进一步地,由于采用矩阵方式获取查询结果,在相同的查询时间下,能够有效提升召回的召回文本数,使得召回文本数可达几千笔,能够支持Top 2000笔,且耗时都在几百毫秒之内。
图2示出了本发明实施例所提供的获取查询结果的装置结构示意图。
如图2所示,该装置包括:
召回文本获取模块201,用于基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;
本发明实施例中,文本数据库包括但不限于:ES。
本发明实施例中,作为一可选实施例,召回文本获取模块201包括:
分词单元(图中未示出),用于对问答文本进行分词,基于分词结果生成该问答文本的问答向量;
文本匹配单元,用于基于问答向量以及文本数据库中预先为每一文本进行分词得到的文本向量,获取召回文本。
分词模块202,用于对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;
本发明实施例中,作为一可选实施例,分词模块202包括:
召回向量矩阵获取单元(图中未示出),用于以所述问答向量为所述召回向量矩阵的列;对于每一召回文本,对该召回文本进行分词处理;
若得到的分词向量中,包含有所述问答向量,将该召回文本所在行的分词向量对应的列值置1,其中,每一召回文本对应所述召回向量矩阵的一行。
向量矩阵构建模块203,用于基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
本发明实施例中,以预设维数为200为例,对于Top N笔召回文本,构建一N*200的召回词典向量矩阵。其中,200为预设维数,N为召回文本数量。
本发明实施例中,作为一可选实施例,向量矩阵构建模块203包括:
召回词典向量矩阵构建单元(图中未示出),用于以所述词向量集中的每一词向量为所述召回词典向量矩阵的列;对于每一召回文本,遍历召回词典向量矩阵的每一列;若该召回文本对应的分词向量中,包含有该列的词向量,将该列值置1;若未包含该列的词向量,将该列值置0。
相似度值计算模块204,用于利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
本发明实施例中,作为一可选实施例,相似度算法包括但不限于:欧氏距离算法、曼哈顿距离算法、余弦距离算法、皮尔逊距离算法、切比雪夫距离算法、Jaccard距离算法中的一种或任意组合。
本发明实施例中,作为一可选实施例,相似度值计算模块204包括:
转置单元(图中未示出),用于对所述问答向量进行转置处理,得到问答转置向量;
相似度第一计算单元,用于利用相似度算法,采用Pandas方法计算所述召回词典向量矩阵与所述问答转置向量的矩阵乘积,得到第一相似度值矩阵。
投票模块205,用于基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
本发明实施例中,对多种相似度算法结果进行投票,得到投票最多的1笔或N笔召回文本作为最优查询结果并展示。
本发明实施例中,作为一可选实施例,投票模块205包括:
位置权重获取单元(图中未示出),用于对于每一召回文本,基于该召回文本在各相似度算法对应的第一相似度值矩阵中的位置权重,获取该召回文本的位置权重第一和值;以及,基于该召回文本在各相似度算法对应的第二相似度值矩阵中的位置权重,获取该召回文本的位置权重第二和值;
查询权重获取单元,对于每一召回文本,计算该召回文本的位置权重第一和值与位置权重第二和值的和值,得到该召回文本的查询权重;
查询结果获取单元,用于获取大于预设查询阈值的查询权重对应的召回文本。
本发明实施例中,作为一可选实施例,位置权重获取单元具体用于:
针对每一相似度算法,基于该召回文本在该相似度算法对应的第一相似度值矩阵中的位置权重,计算该位置权重与该相似度算法对应的算法权重的乘积,得到该召回文本在该相似度算法中的算法位置权重;
对召回文本在各相似度算法中的算法位置权重进行加权求和,得到该召回文本的位置权重第一和值。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的获取查询结果的方法,该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述获取查询结果的方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述获取查询结果的方法。
对应于图1中的获取查询结果的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述获取查询结果的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述获取查询结果的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种获取查询结果的方法,其特征在于,包括:
基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;其中,所述召回文本携带有召回向量以及词典向量;所述召回向量为该召回文本在所述文本数据库中的文本向量,词典向量为所述召回向量映射至所述文本数据库中,对文本进行分词提取的预设维数的词向量集得到的;
对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;其中,所述召回向量矩阵用于对分词处理后的召回文本与问答文本进行匹配;
基于所述召回向量以及所述词典向量,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
2.根据权利要求1所述的方法,其特征在于,所述基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本,包括:
对问答文本进行分词,基于分词结果生成该问答文本的问答向量;
基于问答向量以及文本数据库中预先为每一文本进行分词得到的文本向量,获取召回文本。
3.根据权利要求1所述的方法,其特征在于,所述依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵,包括:
以所述问答向量为所述召回向量矩阵的列;
对于每一召回文本,对该召回文本进行分词处理;
若得到的分词向量中,包含有所述问答向量,将该召回文本所在行的分词向量对应的列值置1,其中,每一召回文本对应所述召回向量矩阵的一行。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文本数据库中预设维数的词向量集,构建所述召回文本的召回词典向量矩阵,包括:
以所述词向量集中的每一词向量为所述召回词典向量矩阵的列;
对于每一召回文本,遍历召回词典向量矩阵的每一列;
若该召回文本对应的分词向量中包含有该列的词向量,将该列值置1;
若未包含该列的词向量,将该列值置0。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,包括:
对所述问答向量进行转置处理,得到问答转置向量;
利用相似度算法,采用Pandas方法计算所述召回词典向量矩阵与所述问答转置向量的矩阵乘积,得到第一相似度值矩阵。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,包括:
对于每一召回文本,基于该召回文本在各相似度算法对应的第一相似度值矩阵中的位置权重,获取该召回文本的位置权重第一和值;以及,基于该召回文本在各相似度算法对应的第二相似度值矩阵中的位置权重,获取该召回文本的位置权重第二和值;
对于每一召回文本,计算该召回文本的位置权重第一和值与位置权重第二和值的和值,得到该召回文本的查询权重;
获取大于预设查询阈值的查询权重对应的召回文本。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述相似度算法包括:欧氏距离算法、曼哈顿距离算法、余弦距离算法、皮尔逊距离算法、切比雪夫距离算法、Jaccard距离算法中的一种或任意组合。
8.一种获取查询结果的装置,其特征在于,包括:
召回文本获取模块,用于基于问答文本查询文本数据库,获取与所述问答文本相匹配的召回文本;其中,所述召回文本携带有召回向量以及词典向量;所述召回向量为该召回文本在所述文本数据库中的文本向量,词典向量为所述召回向量映射至所述文本数据库中,对文本进行分词提取的预设维数的词向量集得到的;
分词模块,用于对所述问答文本进行分词处理,依据分词处理结果生成问答向量;依据所述召回文本的分词处理结果,获取基于问答向量的召回向量矩阵;其中,所述召回向量矩阵用于对分词处理后的召回文本与问答文本进行匹配;
向量矩阵构建模块,用于基于所述召回向量以及所述词典向量,构建所述召回文本的召回词典向量矩阵,以及,所述问答文本的问答词典向量;其中,所述词向量集为对所述文本数据库中的文本进行分词提取得到的;
相似度值计算模块,用于利用预设的相似度算法,分别计算所述召回词典向量矩阵与问答向量的第一相似度值矩阵,以及,召回词典向量矩阵与问答词典向量的第二相似度值矩阵;
投票模块,用于基于所述第一相似度值矩阵以及第二相似度值矩阵进行投票,获取满足投票策略的召回文本,得到所述问答文本的查询结果。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的获取查询结果的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的获取查询结果的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987349.3A CN115344680B (zh) | 2022-08-17 | 2022-08-17 | 一种获取查询结果的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210987349.3A CN115344680B (zh) | 2022-08-17 | 2022-08-17 | 一种获取查询结果的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115344680A CN115344680A (zh) | 2022-11-15 |
CN115344680B true CN115344680B (zh) | 2023-06-27 |
Family
ID=83951429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210987349.3A Active CN115344680B (zh) | 2022-08-17 | 2022-08-17 | 一种获取查询结果的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115344680B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209372A (zh) * | 2020-01-02 | 2020-05-29 | 北京字节跳动网络技术有限公司 | 一种关键词的确定方法、装置、电子设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
CN110674271B (zh) * | 2019-08-27 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种问答处理方法及装置 |
CN111538908B (zh) * | 2020-06-22 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN114064929A (zh) * | 2021-11-29 | 2022-02-18 | 工银科技有限公司 | 搜索排序方法及装置 |
-
2022
- 2022-08-17 CN CN202210987349.3A patent/CN115344680B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209372A (zh) * | 2020-01-02 | 2020-05-29 | 北京字节跳动网络技术有限公司 | 一种关键词的确定方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115344680A (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107807987B (zh) | 一种字符串分类方法、系统及一种字符串分类设备 | |
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN109508379A (zh) | 一种基于加权词向量表示和组合相似度的短文本聚类方法 | |
EP3138058A1 (en) | Method and apparatus for classifying object based on social networking service, and storage medium | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN110555140B (zh) | 面向口令猜测的语料乘积规则的描述、生成与检测方法 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN115186650A (zh) | 数据检测方法及相关装置 | |
CN109344252B (zh) | 基于优质主题扩展的微博文本分类方法及系统 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN115344680B (zh) | 一种获取查询结果的方法及装置 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN111831819B (zh) | 一种文本更新方法及装置 | |
CN115099832B (zh) | 异常用户检测方法及其装置、设备、介质、产品 | |
CN106021299B (zh) | 文本的降维特征向量确定方法及装置 | |
CN111309901A (zh) | 一种短文本分类方法及装置 | |
CN106021346B (zh) | 检索处理方法及装置 | |
CN111428180B (zh) | 一种网页去重方法、装置和设备 | |
CN111400413A (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN109165097B (zh) | 一种数据处理方法以及数据处理装置 | |
CN112308703A (zh) | 用户分群方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |