CN113220832A - 一种文本处理方法及装置 - Google Patents
一种文本处理方法及装置 Download PDFInfo
- Publication number
- CN113220832A CN113220832A CN202110484317.7A CN202110484317A CN113220832A CN 113220832 A CN113220832 A CN 113220832A CN 202110484317 A CN202110484317 A CN 202110484317A CN 113220832 A CN113220832 A CN 113220832A
- Authority
- CN
- China
- Prior art keywords
- text
- question
- candidate
- answered
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本处理方法及装置,其中所述文本处理方法包括:基于获取的待答复问题,确定待答复问题的语义向量、多个候选文本和多个候选文本的语义向量,其中,每个候选文本是文本库中与待答复问题语义相关的文本;基于待答复问题和多个候选文本的关联关系构建邻接矩阵,其中,邻接矩阵用于表征待答复问题与多个候选文本的相关性,以及多个候选文本之间的相关性;将待答复问题的语义向量、多个候选文本的语义向量和邻接矩阵输入文本筛选网络中,确定目标文本。上述方法确定多个候选文本之后,可以进一步通过文本筛选网络对候选文本进行筛选,减少了无关文本的召回,并且基于目标文本确定的答案的准确性更高,即提高了问答系统的性能。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种文本处理方法及装置、计算设备和计算机可读存储介质。
背景技术
在问答系统中,获取问题之后会先进行信息检索,以得到与问题比较相关的文本,再从得到的文本中确定问题的答案,若信息检索得到的文本是无关文本,则会影响确定的答案的准确性,进而影响问答系统的性能,因此,信息检索是至关重要的。
现有技术中,为了提升信息检索的召回率,使得检索得到的文本与问题的相关性更高,通常采用语义检索的方式确定与问题语义相关的文本。具体的,可以通过检索模型确定待答复问题的语义向量和文本库中多个文本的语义向量,确定文本的语义向量与待答复问题的语义向量的相似度,若相似度较高则说明待答复问题与文本的语义比较接近,因此可以将与待答复问题的语义向量相似度较高的文本确定为与待答复问题语义相关的文本。
但上述方式中,对待答复问题进行向量化表示得到语义向量仅根据检索模型来确定,而检索模型的性能依赖于训练情况,所以确定的待答复问题的语义向量在不能准确地表示待答复问题的情况下,这样的语义向量确定的文本可能与待答复问题不相关,即通过语义检索可能会召回无关文本,进而基于无关文本确定的待答复问题的答案可能不准确,即会影响问答系统的性能。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;
基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;
将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
第一确定模块,被配置为基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;
构建模块,被配置为基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;
第二确定模块,被配置为将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本处理方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本处理方法的步骤。
本申请实施例中,基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。上述方法在确定多个候选文本之后,可以进一步地通过文本筛选网络对候选文本进行筛选,删除与待答复问题不相关的候选文本,得到与待答复文本相关性较高的目标文本,减少了无关文本的召回,提高了检索的召回率,并且由于目标文本与待答复问题的相关性更高,因此基于这些目标文本确定的答案的准确性更高,即提高了问答系统的性能。
附图说明
图1是本申请实施例提供的一种计算设备的结构框图;
图2是本申请实施例提供的一种文本处理方法的流程图;
图3是本申请实施例提供的一种文本处理方法的示意图;
图4是本申请实施例提供的一种确定候选文本的示意图;
图5是本申请实施例提供的一种图网络的示意图;
图6是本申请实施例提供的另一种文本处理方法的流程图;
图7是本申请实施例提供的一种文本处理装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
信息检索:一种查询信息的方法。
语义检索:根据语义进行检索的方法。
DPR模型:(Dense Passage Retrieval,密集文本段检索)模型,可以进行语义检索,用于根据输入的问题输出与该问题相关的候选文本。
召回率:检索出的相关文本的个数与文本库中实际存在的相关文本的数量的比例。其中,相关文本是与待答复问题真实相关的文本。
邻接矩阵:表示节点之间相邻关系的矩阵,无向图的邻接矩阵是对称的。
文本筛选网络:对输入的文本进行筛选,从而确定出符合要求的文本的网络。
图神经网络:一种处理图数据的深度学习网络。
BM25算法:是一种二元独立模型的扩展,可以用来做搜索的相关度排序的一种算法。
语义向量:用于表征文本的语义特征的向量。
隐层特征向量:结合上下文信息后得到的特征向量,是一种向量表示形式。
词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量的处理过程。
word2vec:进行词嵌入处理的一种方法,是Mikolov在Bengio Neural NetworkLanguage Model(NNLM)的基础上构建的一种高效的词向量训练方法。即通过使用该方法可以对文本进行词嵌入处理,得到文本的词向量。
词向量:词的一种表示,是为了让计算机能够处理的一种表示。
Bert模型:(Bidirectional Encoder Representations from Transformer)模型,是一种双向注意力神经网络模型。
第一词单元:对待答复问题进行分词处理后得到的词单元。
第二词单元:对候选文本进行分词处理后得到的词单元。
第一特征向量:第一词单元结合待答复问题中其他第一词单元的词向量后得到的向量表示。
第二特征向量:第二词单元结合相应的候选文本中其他第二词单元的词向量后的向量表示。
在本申请中,提供了一种文本处理方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示文本处理方法中的步骤。图2示出了根据本申请一实施例的文本处理方法的流程图,包括步骤202至步骤206。
步骤202:基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本。
实际应用中,获取到待答复问题后可以通过检索模型确定问题的语义向量和文本库中文本的语义向量,与问题的语义向量的相似度较高的文本可以认为是与问题的意思比较接近的文本,因此可以将与问题的语义向量的相似度较高的文本确定为与待答复问题相关的文本,这种情况下,通常可以获取到大量的文本。但由于对待答复问题进行向量化和对文本库中的文本进行向量化均是根据检索模型确定的,而检索模型的性能依赖于训练情况,因此确定的语义向量是不可控的,可能无法准确地表示待答复问题,或者,可能无法准确地表示文本库中的文本,使用这种不准确的语义向量确定的文本可能与待答复问题不相关,即通过语义检索可能会召回无关文本,也可以认为是降低了检索的召回率。而且基于与待答复问题不相关的文本确定的答案可能不准确,即还会影响问答系统的性能。
因此,本申请提供了一种文本处理方法,可以在初步检索得到候选文本后,进一步地对候选文本进行筛选,删除与待答复问题不相关的候选文本,得到与待答复文本相关性很高的目标文本。即本申请提供的文本处理方法,在大规模的语义检索的召回的基础上做进一步筛选,可以过滤掉无关文本。该方法提高了检索的召回率,增强了语义检索的可靠性,并且基于这些目标文本确定的答案的准确性更高,即提高了问答系统的性能。
作为一种示例,待答复问题的语义向量是可以用来表征待答复问题的语义的特征向量,候选文本的语义向量是可以用来表征候选文本的语义的特征向量。
作为一种示例,待答复问题是需要得到对应答案的问题。例如,待答复问题可以是“最小的自然数是几”,或者,待答复问题可以是“What is the smallestprime number”,或者,待答复问题可以是“四大文明古国包括哪些国家”等等。
在第一种可能的实现方式中,基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量的具体实现可以包括:对所述待答复问题进行特征提取,确定所述待答复问题的语义向量;获取所述文本库中多个文本的语义向量;基于所述待答复问题的语义向量和所述多个文本的语义向量,确定每个文本相对于所述待答复问题的相似度分值;基于每个文本相对于所述待答复问题的相似度分值确定所述多个候选文本,并获取所述多个候选文本的语义向量。
其中,相似度分值可以用来表征文本和待答复问题的相似度,相似度分值越高,表示文本和待答复问题越相似,相似度分值越低,表示文本和待答复问题越不相似。
也就是说,可以对待答复问题进行特征提取,得到待答复问题的语义向量,对文本库中的文本进行特征提取,得到每个文本的语义向量,根据待答复问题的语义向量与文本的语义向量的相似度从文本库中确定与待答复问题语义相关的候选文本。
在一些实施例中,可以将待答复问题和文本库中的文本输入语义检索模型中,确定多个候选文本。该语义检索模型可以包括特征提取模块和文本检索模块,该特征提取模块可以对待答复问题和文本库中每个文本进行特征提取,以得到待答复问题的语义向量和文本库中每个文本的语义向量,再根据待答复问题的语义向量和每个文本的语义向量,通过文本检索模块可以确定与待答复问题语义相关的候选文本。
作为一种示例,特征提取模块可以包括词嵌入层和编码层。其中,词嵌入层用于对输入的文本进行词嵌入处理,得到词向量,编码层用于对输入的词向量进行编码,得到语义向量。
具体实现中,可以先对输入的待答复问题和文本库中多个文本分别进行分词处理,得到待答复问题的多个第一词单元和每个文本的多个第二词单元。作为一种示例,可以根据预先编制的词表对待答复问题和多个文本分别进行分词处理。示例性地,在预先编制的词表中,若文本为中文文本,可以将一个字、一个标点符号作为一个词单元。若文本为外语文本,可以将一个单词、一个标点符号作为一个词单元。若文本中包括数字,可以将一个数字作为一个词单元。
例如,假设待答复问题是“最小的自然数是几”,则对该待答复问题进行分词处理,可以得到多个第一词单元是[最小、的、自然数、是、几],假设待答复问题是“What is thesmallest prime number”,则对该待答复问题进行分词处理,可以得到多个第一词单元是[What、is、the、smallest、prime、number]。假设文本是“0是最小的自然数”,则对该文本进行分词处理,可以得到多个第二词单元是[0、是、最小、的、自然数],假设文本是“自然数是大于或等于0的整数”,则对该文本进行分词处理,可以得到多个第二词单元是[自然数、是、大于、或、等于、0、的、整数]。
具体实现中,对待答复问题进行分词处理之后,可以对待答复问题的每个第一词单元和文本库中文本的每个第二词单元进行词嵌入处理,将每个词单元映射至一个低维的向量空间中,得到每个词单元的词向量。其中,为了便于描述,将第一词单元和第二词单元统称为词单元。
作为一种示例,可以通过one-hot(独热)编码的方式对待答复问题的每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量。
作为另一种示例,可以通过word2vec编码的方式对待答复问题的每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量。
具体实现中,通过词嵌入层进行词嵌入处理得到词向量后,可以将每个第一词单元的词向量和每个第二词单元的词向量均输入至编码层进行编码处理,可以得到每个第一词单元结合待答复问题中其他第一词单元的词向量后的向量表示,即每个第一词单元的第一特征向量,以及可以得到每个第二词单元结合相应的文本中其他第二词单元的词向量后的向量表示,即每个第二词单元的第二特征向量。将待答复问题的多个第一词单元的第一特征向量进行拼接,得到待答复问题的语义向量,以及将同一个文本的多个第二词单元的第二特征向量进行拼接,可以得到文本的语义向量。
在一些实施例中,通过特征提取模块得到待答复问题的语义向量和文本库中文本的语义向量后,可以将待答复问题的语义向量和每个文本的语义向量输入文本检索模块,确定待答复文本的语义向量与每个文本的语义向量的相似度分值,可以得到多个相似度分值,再根据多个相似度分值从文本库的多个文本中确定候选文本。
作为一种示例,通过文本检索模块,可以将待答复问题的语义向量与每个文本的语义向量相乘,并对乘积进行归一化处理,可以得到待答复问题与每个文本的相似度分值,即得到多个相似度分值。
需要说明的是,上述提到的特征提取模块仅是本申请的一种示例。在另一些实施例中,特征提取模块可以是任何包括分词功能、词嵌入功能和编码功能的结构,本申请实施例对此不做限定。例如,特征提取模块可以采用BERT模型的结构。另外,语义检索模型可以是DPR模型,通过该语义检索模型可以得到与待答复问题语义相关的多个候选文本。
在一种实施方式中,确定多个相似度分值后,还需要根据相似度分值确定候选文本,因此基于每个文本相对于所述待答复问题的相似度分值确定所述多个候选文本的具体实现可以包括:以相似度分值大于第二阈值的多个文本为所述多个候选文本。
需要说明的是,第二阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不做限定。例如,第二阈值可以是0.8。
示例性地,由于相似度分值越大,可以认为文本与待答复问题的语义相关性越大,相似度分值越小,可以认为文本与待答复问题的语义相关性越小,因此,若相似度分值大于第二阈值,可以认为相似度已经足够高,即文本与待答复问题的语义相关性足够大,则可以将该文本确定为候选文本。
例如,参见图3,图3是本申请实施例提供的一种文本处理方法的示意图。将待答复问题输入语义检索模型后,通过特征提取模块可以输出待答复问题的语义向量和多个文本的语义向量,通过文本检索模块可以得到1000个候选文本和1000个候选文本的语义向量。
进一步地,确定多个候选文本后,还可以通过BM25算法对多个候选文本进行初次排序,将排序靠前的N个候选文本保留,删除排序比较靠后的候选文本,初次筛选之后得到的候选文本的数量会减少,可以降低在文本筛选网络中的计算量。
在该种实现方式中,通过语义检索的方法从文本库中确定与待答复问题相关的多个候选文本,通过语义检索模型,可以召回多个与待答复问题的相关性比较高的候选文本。
在本申请实施例中,通过对待答复问题和文本进行特征提取,确定出可以表示待答复问题的语义的语义向量,以及可以表示文本的语义的语义向量,根据语义向量之间的相似度确定与待答复问题语义相关的候选文本,且待答复问题的语义向量不是单一的多个第一词单元的词向量拼接,而是基于每个第一词单元结合全文语义信息后得到的第一特征向量得到,可以更加准确地表示待答复问题,候选文本的语义向量不是单一的多个第二词单元的词向量拼接,而是基于每个第二词单元结合全文语义信息后得到的第二特征向量得到,可以更加准确地表示候选文本,提高了检索的准确率和召回率。
在第二种可能的实现方式中,可以通过BM25算法从文本库的文本中确定多个候选文本,然后对待答复问题和确定的候选文本进行特征提取,可以确定待答复问题的语义向量和多个候选文本的语义向量。
在一些实施例中,通过BM25算法从文本库中确定多个候选文本的具体实现可以包括:对待答复问题进行分词处理,得到待答复问题的多个第一词单元;确定每个第一词单元与每个文本的相关性取值,可以得到每个第一词单元的多个相关性取值,且每个相关性取值与一个文本对应;确定每个第一词单元的权重值;基于每个第一词单元的权重值和每个第一词单元的多个相关性取值,可以确定每个文本相对于待答复问题的相似度分值,得到多个相似度分值。将多个相似度分值与第二阈值进行比对,将相似度分值大于第二阈值的多个文本确定为多个候选文本。
作为一种示例,可以根据预先编制的词表对待答复问题进行分词处理。示例性地,假设待答复问题是“最小的自然数是几”,则对该待答复问题进行分词处理,可以得到多个第一词单元分别是[最小、的、自然数、是、几]。
作为一种示例,以第一词单元qi和文本d为例,确定第一词单元qi与文本d的相关性取值的实现可以包括:确定第一词单元qi在文本d中出现的频率,并确定文本库中所有文本的平均长度,以及确定文本d的长度,基于该频率、平均长度和文本d的长度,可以确定第一词单元qi与文本d的相关性取值。
示例性地,可以通过如下公式(1)确定第一词单元qi与文本d的相关性取值:
其中,R(qi,d)表示第一词单元qi与文本d的相关性取值,fi表示第一词单元qi在文本d中出现的频率,k1和b均是调节因子,通常根据经验设置,一般k1=2,b=0.75,dl表示文本d的长度,avg(dl)表示文本库中所有文本的平均长度。
通过上述公式(1),可以确定每个第一词单元相对于每个文本的相关性取值。
作为一种示例,以第一词单元qi为例,确定第一词单元qi的权重的实现可以包括:确定文本库中所有文本的总数量,以及确定文本库中包括第一词单元qi的文本的数量,基于该总数量和该包括第一词单元q1的文本的数量,可以确定第一词单元qi的权重值。
示例性地,可以通过如下公式(2)确定第一词单元qi的权重值:
其中,Wi表示第一词单元qi的权重,N表示文本库中文本的总数量,n(q1)表示包括第一词单元q1的文本的数量。
通过上述公式(2),可以确定每个第一词单元的权重值。
作为一种示例,以文本d为例,确定每个第一词单元相对于每个文本d的相关性取值,以及确定每个第一词单元的权重值之后,可以通过如下公式(3)确定文本d相对于待答复问题的相似度分值:
其中,Q表示待答复问题,Score(Q,d)表示文本d相对于待答复问题Q的相似度分值,n表示待答复问题中第一词单元的数量,Wi表示第一词单元qi的权重,R(qi,d)表示第一词单元qi与文本d的相关性取值。
通过上述公式(3),可以确定每个文本相对于待答复问题的相似度分值。
确定每个文本相对于待答复问题的相似度分值后,可以将相似度分值大于第二阈值的文本确定为候选文本,然后将候选文本和待答复问题均输入特征提取模型中进行特征提取,可以得到每个候选文本的语义向量和待答复问题的语义向量。
需要说明的是,上述通过BM25算法确定多个候选文本的实现过程仅是一种示例,实际实现中,可以对BM25算法进行适应性调整后使用,本申请实施例对此不作限定。另外,根据相似度分值确定候选文本,以及对候选文本和待答复问题进行特征提取的实现过程与上一种实现方式相同,其具体实现可以参见第一种实现方式中的相关描述,本申请实施例在此不再赘述。
在该种实现方式中,通过BM25检索的方法从文本库中确定与待答复问题相关的多个候选文本,可以召回多个与待答复问题的相关性比较高的候选文本。
在第三种可能的实现方式中,可以通过语义检索模型从文本库中获取第一待选文本,以及通过BM25检索算法从文本库中获取第二待选文本,基于第一待选文本和第二待选文本确定多个候选文本。并且,获取待答复问题的语义向量和多个候选文本的语义向量。
需要说明的是,通过语义检索从文本库中获取第一待选文本的实现过程和上述第一种实现方式中确定候选文本的实现过程相同,其具体实现可以参见第一种实现方式中的相关描述,本申请实施例对此不作限定。并且,通过BM25检索算法从文本库中获取第二待选文本的实现过程和上述第二种实现方式中确定候选文本的实现过程相同,其具体实现可以参见第二种实现方式中的相关描述,本申请实施例对此不作限定。
在一些实施例中,可以将第一待选文本和第二待选文本的交集确定为多个候选文本,即将第一待选文本和第二待选文本中重复出现的文本确定为候选文本。示例性地,假设第一待选文本包括文本1、文本2和文本4,第二待选文本包括文本1、文本3和文本4,则可以将文本1和文本4确定为候选文本。如此确定的候选文本相对于仅通过一种检索方法确定的候选文本,该候选文本与待答复问题的相关性更高,即确定的候选文本更加准确。
在另一些实施例中,可以将第一待选文本和第二待选文本的并集确定为该多个候选文本。示例性地,假设第一待选文本包括文本1、文本2和文本4,第二待选文本包括文本1、文本3和文本4,则可以将文本1、文本2、文本3和文本4确定为候选文本。如此可以尽可能地将与待答复问题相关的文本都获取到,能够避免漏掉相关的文本的情况。
另外,在实施中,通过语义检索模型确定第一待选文本时,可以获取到待答复问题的语义向量和第一待选文本的语义向量,通过特征提取则可以得到第二待选文本的语义向量。
作为一种示例,若最终确定的多个候选文本中包括不属于第一待选文本的文本,则可以对不属于第一待选文本的文本进行特征提取,可以获取到不属于第一待选文本的文本的语义向量,进而可以获取到多个候选文本的语义向量。示例性地,假设第一待选文本包括文本1、文本2和文本4,候选文本包括文本1、文本3和文本4,通过语义检索模型的特征提取模块可以获取到文本1的语义向量、文本2的语义向量和文本4的语义向量,且文本3是不属于第一待选文本的文本,则可以对文本3进行特征提取,确定文本3的语义向量,如此可以确定出3个候选文本的语义向量。
作为另一种示例,若最终确定的多个候选文本是第一待选文本和第二待选文本的交集,即不存在不属于第一待选文本的文本,则可以将通过语义检索模型确定的第一待选文本的语义向量确定为该多个候选文本的语义向量。示例性地,假设第一待选文本包括文本1、文本2和文本4,候选文本包括文本1和文本4,通过语义检索模型的特征提取模块可以获取到文本1的语义向量、文本2的语义向量和文本4的语义向量,因此可以直接获取到2个候选文本的语义向量。
示例性地,参见图4,图4是本申请实施例提供的一种确定候选文本的示意图。在图4中,通过语义检索模型可以确定N个第一待选文本和N个第一待选文本的语义向量,通过BM25检索算法可以确定M个第二待选文本,将M个第二待选文本通过特征提取模块进行特征提取,可以得到M个第二待选文本的语义向量。假设第一待选文本和第二待选文本中没有重复的文本,则可以将M+N个文本作为候选文本,将M+N个语义向量作为候选文本的语义向量。
在该种实现方式中,通过语义检索和BM25检索相结合的方式从文本库中确定与待答复问题相关的多个候选文本,能够提高召回的候选文本的准确性。
步骤204:基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性。
在本申请实施例中,确定多个候选文本后需要对多个候选文本进行筛选,由于仅根据候选文本与待答复问题的关联关系进行筛选可能比较单一,因此,还可以考虑候选文本和候选文本之间的关联关系,且可以用邻接矩阵来表示候选文本之间以及候选文本与待答复问题的关联关系。
进一步地,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵之前,还包括:
获取所述待答复问题的关键词和每个候选文本的关键词;
若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本;
若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本;
确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关,或者,确定所述待答复问题和自身的关联关系是不相关,且确定每个候选文本和自身的关联关系是不相关。
其中,关键词可以是待答复问题中比较重要的词,或者,可以是候选文本中比较重要的词。并且,待答复问题的关键词的数量可以是一个、两个或多个。候选文本的关键词的数量可以是一个、两个和多个。
其中,对应关键词可以是关键词、也可以是关键词的相似词、近义词、替代词等等。例如,假设关键词是纸巾,则对应关键词可以是卫生纸、卷纸、抽纸。假设关键词是自然数,则对应关键词可以是非负整数。假设关键词是李白,则对应关键词可以是诗仙、太白、青莲居士。
也就是说,在构建邻接矩阵之前,需要先确定待答复问题和多个候选文本的关联关系,以及多个候选文本之间的关联关系。具体的,可以获取待答复问题的关键词和每个候选文本的关键词,且若第一候选文本中包括待答复问题的关键词的对应关键词,可以认为该第一候选文本可能与待答复问题所表达的中心思想相近,则可以确定第一候选文本和该待答复问题的关联关系是相关。若第一候选文本中存在第二候选文本的关键词的对应关键词,可以认为该第一候选文本可能与第二候选文本所表达的中心思想相近,则可以确定第一候选文本和第二候选文本的关联关系是相关。并且,可以将待答复问题和自身的关联关系确定为相关或不相关,可以将每个候选文本和自身的关联关系确定为相关和不相关。
在一些实施例中,可以根据实体提取算法从待答复问题和候选文本中提取得到关键词。例如,假设待答复问题是“最小的自然数是几”,则可以提取得到关键词是“最小”和“自然数”。假设候选文本是“自然数是大于或等于0的整数”,则可以提取得到的关键词是“自然数”、“大于或等于”和“0”。
在一些实施例中,若待答复问题包括一个关键词,只要第一候选文本中存在该关键词的对应关键词,则可以确定待答复问题与该第一候选文本的关联关系是相关;若第二候选文本包括一个关键词,只要第一候选文本中存在该关键词的对应关键词,则可以确定第二候选文本和第一候选文本的关联关系是相关。
作为一种示例,若待答复问题包括多个关键词,只要第一候选文本中存在其中一个关键词的对应关键词,则可以确定待答复问题与该第一候选文本的关联关系是相关;若第二候选文本包括多个关键词,只要第一候选文本中存在其中的一个关键词的对应关键词,则可以确定第二候选文本和第一候选文本的关联关系是相关。
例如,假设待答复问题的关键词包括“最小”和“自然数”,且第一候选文本是“自然数是非负整数”,其中包括关键词“自然数”,则可以确定第一候选文本和待答复问题的关联关系是相关。假设第二候选文本的关键词是“0”和“自然数”,第一候选文本是“自然数是非负整数”,其中包括关键词“自然数”,则可以确定第一候选文本和第二候选文本的关联关系是相关。
作为另一种示例,若待答复问题包括多个关键词,则第一候选文本需要存在其中每个关键词的对应关键词,才可以确定待答复问题与该第一候选文本的关联关系是相关;若第二候选文本包括多个关键词,则第一候选文本需要存在其中每个关键词的对应关键词,才可以确定第二候选文本和第一候选文本的关联关系是相关。如此,可以提高确定关联关系的准确性。
例如,假设待答复问题的关键词包括“最小”和“自然数”,且第一候选文本1是“自然数是非负整数”,其中仅包括关键词“自然数”,则可以确定第一候选文本1和待答复问题的关联关系是不相关;假设第一候选文本2是“0是最小的非负整数”,其中包括关键词“最小”和关键词“自然数”的对应关键词“非负整数”,即第一候选文本2中包括待答复问题中每个关键词的对应关键词,则可以确定第一候选文本2和待答复问题的关联关系是相关。假设第二候选文本的关键词是“0”和“自然数”,且第一候选文本是“自然数从0开始”,其中包括关键词“自然数”和关键词“0”,则可以确定第一候选文本和第二候选文本的关联关系是相关。
需要说明的是,在第一候选文本中存在第二候选文本的关键词的对应关键词的这种情况下,第一候选文本可能是对第二候选文本的关键词的解释。例如,假设第二候选文本包括关键词B,该关键词B可以是以超链接的形式存在在第二候选文本中,通过点击该超链接,可以跳转至第一候选文本,则可以认为第一候选文本中存在第二候选文本的关键词的对应关键词。
本申请实施例中,在构建邻接矩阵之前,可以先根据关键词确定待答复问题与候选文本的关联关系,以及确定多个候选文本之间的关联关系,基于该关联关系构建邻接矩阵,在考虑待答复问题和候选文本的关联关系的基础上,还考虑了候选文本之间的关联关系,能够进一步提高文本筛选的准确性。
在一种可能的实现方式中,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵的具体实现可以包括:以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。
也就是说,在构建的邻接矩阵中,每个位置的元素是根据该位置的行节点和列节点的关联关系确定的,行节点和列节点则是待答复问题和多个候选文本,且行节点的排列顺序和列节点的排列顺序相同。
作为一种示例,为了便于描述,可以将待答复问题和多个候选文本称为节点,可以随机对该多个节点进行编号,按照编号将多个节点作为行,以及按照编号将多个节点作为列,则邻接矩阵中第i行第j列的元素是根据第i个行节点和第j个行节点的关联关系确定的。其中,i和j均是大于0的整数。
例如,假设待答复问题的编号是1,候选文本1的编号是2,候选文本2的编号是3,则邻接矩阵的行节点按照编号从1到3的顺序排列,列节点也按照编号从1到3的顺序排列。
本申请实施例中,可以将待答复问题和候选文本的关联关系以邻接矩阵的形式表示出来,便于设备处理。
在一种实施方式中,基于每个位置对应的行和列的关联关系确定每个位置的元素的具体实现可以包括:
若目标位置对应的行节点和列节点的关联关系是相关,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;若所述目标位置对应的行节点和列节点的关联关系是不相关,则确定所述目标位置的元素是0。
作为一种示例,为了便于设备识别,可以将相关用数值1表示,将不相关用数值0表示。若第i个行节点和第j个列节点的关联关系是相关,则第i行第j列的元素是1,若第i个行节点和第j个列节点的关联关系是不相关,则第i行第j列的元素是0。
示例性地,假设包括三个候选文本,待答复问题的编号是1,候选文本1的编号是2,候选文本2的编号是3,候选文本3的编号是4。并且,待答复问题与候选文本1的关联关系是相关,则第1行第2列和第2行第1列的元素均是1;待答复问题与候选文本2的关联关系是不相关,则第1行第3列和第3行第1列的元素均是0;待答复问题与候选文本3的关联关系是相关,则第1行第4列和第4行第1列的元素均是1;候选文本1与候选文本2的关联关系是相关,则第2行第3列和第3行第2列的元素均是1;候选文本1与候选文本3的关联关系是相关,则第2行第4列和第4行第2列的元素均是1;候选文本2与候选文本3的关联关系是不相关,则第3行第4列和第4行第3列的元素均是0;且待答复文本与自身的关联关系是相关,每个候选文本与自身的关联关系是相关,则第1行第1列、第2行第2列、第3行第3列和第4行第4列的元素均是1。即通过上述方法可以得到邻接矩阵
在另一种可能的实现方式中,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵的具体实现可以包括:以所述待答复问题和所述多个候选文本为节点,将关联关系是相关的不同节点相连,得到图网络;基于所述图网络构建所述邻接矩阵。
在该种实现方式中,对于不同的节点,若关联关系是相关,则可以认为该不同的节点之间存在边,以待答复问题和多个候选文本为节点,以关联关系为边,则可以构建图网络,再基于图网络构建邻接矩阵。
示例性地,假设待答复问题与候选文本1的关联关系是相关,则待答复问题节点与候选文本1节点之间存在边;待答复问题与候选文本2的关联关系是不相关,待答复问题节点与候选文本2节点之间不存在边;待答复问题与候选文本3的关联关系是相关,待答复问题节点与候选文本3节点之间存在边;候选文本1与候选文本2的关联关系是相关,候选文本1节点与候选文本2节点之间存在边;候选文本1与候选文本3的关联关系是相关,候选文本1节点与候选文本3节点之间存在边;候选文本2与候选文本3的关联关系是不相关,候选文本2节点与候选文本3节点之间不存在边,则可以得到图5所示的图网络。
在一种实施方式中,基于所述图网络构建所述邻接矩阵的具体实现可以包括:以所述图网络中的节点作为行和列,且行节点的排列顺序和列节点的排列顺序相同,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,得到所述邻接矩阵。
也就是说,在构建的邻接矩阵中,每个位置的元素是根据该位置的行节点和列节点的关联关系确定的,行节点和列节点则是图网络中的节点,且行节点的排列顺序和列节点的排列顺序相同。
作为一种示例,可以随机对图网络中的节点进行编号,按照编号将多个节点作为行,以及按照编号将多个节点作为列,则邻接矩阵中第i行第j列的元素是根据第i个行节点和第j个行节点的关联关系确定的。其中,i和j均是大于0的整数。
例如,假设待答复问题的编号是1,候选文本1的编号是2,候选文本2的编号是3,则邻接矩阵的行节点按照编号从1到3的顺序排列,列节点也按照编号从1到3的顺序排列。
本申请实施例中,可以将待答复问题和候选文本的关联关系以邻接矩阵的形式表示出来,便于设备处理。
在一种实施方式中,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素的具体实现可以包括:若目标位置对应的行节点和列节点不是相同的节点且在所述图网络中存在边,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;若所述目标位置对应的行节点和列节点不是相同的节点且在所述图网络中不存在边,则确定所述目标位置的元素是0;若所述目标位置对应的行节点和列节点是相同的节点,则确定所述目标位置的元素是1或0。
也就是说,为了便于设备识别,可以将相关用数值1表示,将不相关用数值0表示。若目标位置对应的行节点和列节点不是相同的节点,且在图网络中该行节点和列节点之间有边相连,可以认为该行节点和列节点相关,则可以确定该目标位置的元素是1;若目标位置对应的行节点和列节点不是相同的节点,且在图网络中该行节点和列节点之间没有边连接,可以认为该行节点和列节点不相关,则可以确定该目标位置的元素是1。若目标位置对应的行节点和列节点是相同的节点,则在图网络中是不存在边的,但可以将该目标位置的元素确定为1或0。
作为一种示例,在i和j不相同的情况下,若在图网络中第i个行节点和第j个列节点之间存在边,则第i行第j列的元素是1;若在图网络中第i个行节点和第j个列节点之间不存在边,则第i行第j列的元素是0。在i和j相同的情况下,可以将第i行第j列的元素确定为1或0。
示例性地,假设包括三个候选文本,待答复问题的编号是1,候选文本1的编号是2,候选文本2的编号是3,候选文本3的编号是4。并且,待答复问题节点与候选文本1节点之间存在边,则第1行第2列和第2行第1列的元素均是1;待答复问题节点与候选文本2节点之间不存在边,则第1行第3列和第3行第1列的元素均是0;待答复问题节点与候选文本3节点之间存在边,则第1行第4列和第4行第1列的元素均是1;候选文本1节点与候选文本2节点之间存在边,则第2行第3列和第3行第2列的元素均是1;候选文本1节点与候选文本3节点之间存在边,则第2行第4列和第4行第2列的元素均是1;候选文本2节点与候选文本3节点之间不存在边,则第3行第4列和第4行第3列的元素均是0。并且,确定邻接矩阵中对角线位置的元素1。即通过上述方法可以得到邻接矩阵
示例性地,参见图3,邻接矩阵是基于待答复问题和候选文本构建的。
本申请实施例中,可以根据待答复问题的关键词和候选文本的关键词,确定多个候选文本之间的关联关系以及待答复问题和候选文本之间的关联关系,根据该关联关系可以构建邻接矩阵,即将关联关系以邻接矩阵的形式表示,可以在考虑待答复问题的基础上同时考虑到候选文本之间的关系,提取的关联关系更加丰富,以该邻接矩阵作为文本筛选网络的输入,可以使得文本筛选网络提取到更加丰富的关联关系,进而可以提高文本筛选的准确率。
步骤206:将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
作为一种示例,目标文本可以是经过筛选后与问题相关性较高的文本,且目标文本中不存在不相关文本。其中,不相关文本可以是与问题无关的文本。
作为一种示例,文本筛选网络可以是图神经网络。示例性地,文本筛选网络可以是图卷积神经网络、图自编码神经网络等,本申请实施例对此不作限定。
在一种实施方式中,将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本的具体实现可以包括:将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值;将相关度分值大于第一阈值的候选文本确定为所述目标文本。
其中,第一阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不作限定。例如,第一阈值可以是0.8。
其中,相关度分值用于表示候选文本与待答复问题的相关性。相关度分值越大,表示候选文本与待答复问题相关性越高,相关度分值越小,表示候选文本与待答复问题的相关性越低。
作为一种示例,可以将邻接矩阵、待答复问题的语义向量和多个候选文本的语义向量输入文本筛选网络中,经过文本筛选网络学习待答复问题和多个候选文本的关联关系,并根据该关联关系以及待答复问题的语义向量、多个候选文本的语义向量对多个候选文本的语义向量进行更新,并将更新后的语义向量转换为每个候选文本相对于待答复问题的相关度分值,若某候选文本的相关度分值大于第一阈值,可以认为该候选文本与待答复问题的相关性足够高,则可以将该候选文本确定为目标文本。
本申请实施例中,可以通过文本筛选网络确定每个候选文本相对于待答复问题的相关度分值,再根据相关度分值从多个候选文本中确定目标文本,能够对多个候选文本中筛选出与待答复问题相关性更高的目标文本,可以快速地对大规模地候选文本进行重排序以及筛选。
在一种实施方式中,将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值的具体实现可以包括:
将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量;
将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。
在一些实施例中,可以将待答复问题的语义向量和多个候选文本的语义向量拼接后得到拼接语义向量,将该拼接语义向量和邻接矩阵输入文本筛选网络的隐藏层,在隐藏层中可以进行多次卷积操作,将拼接语义向量中待答复问题的语义向量和候选文本的语义向量进行结合,得到隐层特征向量组,将该隐层特征向量组输入全连接层,可以得到每个候选文本相对于待答复问题的相关度分值。
作为一种示例,假设候选文本的数量是9个,待答复问题的语义向量是300维的向量,每个候选文本的语义向量也是300维的向量,则将待答复问题的语义向量和多个候选文本的语义向量进行拼接得到的拼接语义向量可以是10×300的矩阵,该矩阵中每一行表示的是一个语义向量。将该拼接语义向量输入隐藏层后,可以将该拼接语义向量与其转置相乘,即将10×300的矩阵与300×10的矩阵进行点乘,则可以得到一个10×10的第一矩阵。该第一矩阵中第i行第j列的元素是第i个行节点的语义向量与所有节点的语义向量中第一维的值结合后的值。
作为一种示例,邻接矩阵也是一个10×10的矩阵,然后将该第一矩阵与邻接矩阵进行合并,则将第一矩阵中第i行第j列的元素与邻接矩阵中第i行第j列的元素相乘,即将第一矩阵和邻接矩阵中相同位置的元素一一相乘得到一个10×10的第二矩阵,使得无关的行节点和列节点之间对应的位置处的元素为0。然后按行对第二矩阵进行归一化处理,使得每一行的元素在同一个量级,得到每个节点对应的权重。
作为一种示例,再将第二矩阵与拼接特征向量相乘,即将10×10的矩阵与10×300的矩阵相乘,可以得到10×300的第三矩阵,在该第三矩阵中,第i行表示第i个行节点结合其他节点的语义向量之后的隐层特征向量,且第i行第j个元素标识的是第i个行节点结合其他节点的语义向量之后的隐层特征向量在第j维的值。
作为一种示例,第三矩阵也可以称为隐层特征向量组,将该隐层特征向量组输入全连接层,在全连接层存在预设的转换矩阵,该转换矩阵可以是300×1的矩阵,将该第三矩阵和转换矩阵相乘,可以得到10×1的目标矩阵,在该目标矩阵中,每行的元素表示该行节点的相关度分值。由于行节点是待答复问题和多个候选文本,则由此可以得到每个候选文本相对于待答复问题的相关度分值。
在一些实施例中,确定每个候选文本相对于待答复问题的相关度分值后,还可以将相关度分值大于第一阈值的候选文本的标记确定为相关,即确定这些候选文本与待答复问题相关。
本申请实施例中,通过文本筛选网络对候选文本进行筛选得到目标文本,不仅考虑了待答复问题与候选文本的关联关系,同时还考虑到候选文本之间的关联关系,提取的关联关系更加丰富,且以邻接矩阵表示关联关系,再结合语义向量,可以使得文本筛选网络学习到更加丰富的关联关系,进而可以提高文本筛选的准确率。
示例性地,参见图3,将待答复问题的语义向量和1000个候选文本的语义向量拼接得到拼接语义向量,将拼接语义向量和邻接矩阵输入文本筛选网络中,可以输出每个候选文本相对于待答复问题的相关度分值,进而确定10个目标文本。
在一种实施方式中,将相关度分值大于预设阈值的候选文本确定为所述目标文本之后,还包括:若所述目标文本的数量是多个,按照相关度分值从大到小的顺序对所述目标文本进行排序,并按照顺序输出排序后的所述目标文本。
其中,预设阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不作限定。例如,预设阈值可以是0.85。
具体实现中,在目标文本的数量是多个的情况下,可以按照相关度分值从大到小的顺序对目标文本进行排序,并按照顺序输出排序后的目标文本以供用户查看。在目标文本的数量是一个的情况下,可以将该目标文本输出以供用户查看。
本申请实施例中,不同于现有技术中通过语义检索模型处理后需要通过重排序模型重新对待答复问题和候选文本进行特征提取,并根据重新提取的语义向量对多个候选文本进行重排序。而是可以将语义检索模型得到的待答复问题的语义向量和多个候选文本的语义向量输入文本筛选网络中,减少了现有技术中重新获取问题的语义向量和文本的语义向量的过程,可以快速对候选文本进行重排序,得到目标文本。并且,通过文本筛选网络可以对语义检索模型的召回结果进行约束,避免一些不相关文本被召回。
进一步地,通过上述方法可以实现文本筛选,得到与待答复问题相关的目标文本,然后可以基于待答复问题和该目标文本得到目标答案。作为一种示例,可以将待答复问题和按照相关度分值排序后的目标文本输入阅读理解模型中,则可以输出待答复问题的目标答案。
进一步地,所述文本筛选网络的训练方法如下:
获取样本问题、多个样本文本和每个样本文本的样本标记,其中,每个样本文本的样本标记用于表征所述样本文本与所述样本问题的相关性;
确定所述样本问题的语义向量和每个样本文本的语义向量,并基于样本问题和多个样本文本构建邻接矩阵;
将所述样本问题的语义向量、每个样本文本的语义向量、以及邻接矩阵输入所述文本筛选网络中,通过所述文本筛选网络的隐藏层进行处理,得到隐层特征向量组,其中,所述隐层特征向量组包括所述样本问题结合所述多个样本文本的语义向量后得到的隐层特征向量,以及每个样本文本结合其他样本文本和所述样本问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个样本文本相对于所述样本问题的相关度分值;
基于每个样本文本相对于所述样本问题的相关度分值确定每个样本文本的预测标记;
基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件。
其中,样本标记可以包括相关和不相关。
在一些实施例中,可以从样本库中获取样本问题和多个样本文本,且样本库中每个样本文本对应有样本标记,同时可以获取每个样本文本的样本标记。
具体实现中,可以先获取样本问题、多个样本文本和每个样本文本的样本标记,并对样本问题和样本文本进行特征提取,确定样本问题的语义向量和每个样本文本的语义向量,并根据样本文本和样本问题的关联关系,以及样本文本之间的关联关系构建邻接矩阵,将样本问题的语义向量、每个样本文本的语义向量和邻接矩阵输入文本筛选网络的隐藏层,在隐藏层中可以进行多次卷积操作,将拼接语义向量中样本问题的语义向量和样本文本的语义向量进行结合,得到隐层特征向量组,将该隐层特征向量组输入全连接层,可以得到每个样本文本相对于样本问题的相关度分值,将相关度分值大于第一阈值的样本文本的预测标记确定为相关,将相关度分值小于或等于第一阈值的样本文本的预测标记确定为不相关,则可以确定每个样本文本的预测标记,再根据每个样本文本的预测标记和每个样本文本的样本标记确定损失值,根据该损失值对文本筛选网络进行训练,直至达到训练停止条件。
需要说明的是,确定样本问题的语义向量和每个样本文本的语义向量的具体实现与步骤202中确定待答复问题的语义向量和每个候选文本的语义向量的具体实现相同,其实现过程可以参见步骤202的相关描述,本实施例在此不再赘述。基于样本问题和多个样本文本构建邻接矩阵的具体实现与基于待答复问题和多个候选文本的关联关系构建邻接矩阵的具体实现相同,其实现过程可以参见步骤204的相关描述。将样本问题的语义向量、每个样本文本的语义向量、以及邻接矩阵输入文本筛选网络,直到确定每个样本文本的预测标记的具体实现与本步骤中确定目标文本的具体实现部分相同,其实现过程可以参见本步骤的相关描述,本实施例在此不再赘述。
在一种可能的实现方式中,基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件的具体实现可以包括:若所述损失值小于或等于第三阈值,停止对所述文本筛选网络的训练;若所述损失值大于所述第三阈值,继续对所述文本筛选网络进行训练。
需要说明的是,第三阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不作限定。
也就是说,若损失值大于第三阈值,说明预测标记和第一标记组的差异比较大,文本分类模型的性能不够好,因此,需要继续对文本分类模型进行训练。若损失值小于或等于第三阈值,说明预测标记和第一标记组的差异较小,文本分类模型的性能已经比较好,可以认为文本分类模型的训练已经结束,因此,可以停止对文本分类模型的训练。
作为一种示例,可以基于每个样本文本的预测标记和每个样本文本的样本标记确定损失值,则对于多个样本文本来说,可以得到多个损失值,可以将该多个损失值加权求和,可以得到此次训练对应的损失值,并基于该损失值对文本筛选网络的参数进行调整,以实现对文本筛选网络的训练。
本说明书实施例根据损失值判断文本筛选网络的具体训练情况,并在训练未合格的情况下根据损失值反向调整文本筛选网络的参数以提高该文本筛选网络的文本筛选能力,训练速率高且训练效果好。
在另一种可能的实现方式中,基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件的具体实现可以包括:每基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行一次训练,记录迭代训练的次数加一;若所述迭代训练的次数小于或等于第四阈值,继续对所述文本筛选网络的训练;若所述迭代训练的次数大于所述第四阈值,停止对所述文本筛选网络进行训练。
需要说明的是,第四阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不作限定。
也就是说,每基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行一次训练,可以认为进行了一次迭代训练,基于该次迭代训练得到的预测标记和样本标记继续进行对模型进行迭代训练,并记录迭代训练的迭代次数,若迭代次数小于或等于第四阈值,说明模型训练的次数还不够,需要继续训练,若迭代次数大于第四阈值,说明已经经过了足够多次数的训练,模型的性能已经基本稳定,可以停止训练。
作为一种示例,可以基于每个样本文本的预测标记和每个样本文本的样本标记确定损失值,则对于多个样本文本来说,可以得到多个损失值,可以将该多个损失值加权求和,可以得到此次训练对应的损失值,并基于该损失值对文本筛选网络的参数进行调整,以实现对文本筛选网络的训练。
需要说明的是,预设次数可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不做限定。
在本说明书实施例中,根据迭代次数判断文本筛选网络训练是否完成,可以减少不必要次数的迭代训练,提高文本筛选网络训练的效率。
本申请实施例中,通过基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。上述方法在确定多个候选文本之后,可以进一步地通过文本筛选网络对候选文本进行筛选,删除与待答复问题不相关的候选文本,得到与待答复文本相关性较高的目标文本,减少了无关文本的召回,提高了检索的召回率,并且由于目标文本与待答复问题的相关性更高,因此基于这些目标文本确定的答案的准确性更高,即提高了问答系统的性能。
图6示出了本申请实施例提供的另一种文本处理方法的流程图,该文本处理方法以待答复问题是“最小的自然数是几”为例进行描述,包括步骤602至步骤628。
步骤602:获取待答复问题。
在本实施例中,以待答复问题是“最小的自然数是几”为例。
步骤604:对所述待答复问题进行特征提取,确定所述待答复问题的语义向量。
继续上述举例,对待答复问题进行分词,可以得到多个第一词单元是[最小、的、自然数、是、几],可以通过word2vec编码的方式对待答复问题的每个第一词单元进行词嵌入处理,将每个第一词单元映射至一个低维的向量空间中,得到每个第一词单元的词向量。再将每个第一词单元的词向量输入至编码层进行编码处理,可以得到每个第一词单元结合待答复问题中其他第一词单元的词向量后的向量表示,即每个第一词单元的第一特征向量,将待答复问题的多个第一词单元的第一特征向量进行拼接,可以得到待答复问题的语义向量。
步骤606:获取文本库中多个文本的语义向量。
例如,假设文本是“0是最小的自然数”,则对该文本进行分词处理,可以得到多个第二词单元是[0、是、最小、的、自然数],可以通过word2vec编码的方式对文本的每个第二词单元进行词嵌入处理,将每个第二词单元映射至一个低维的向量空间中,得到每个第二词单元的词向量。再将每个第二词单元的词向量输入至编码层进行编码处理,可以得到每个第二词单元结合文本中其他第二词单元的词向量后的向量表示,即每个第二词单元的第二特征向量,将文本的多个第二词单元的第二特征向量进行拼接,可以得到文本的语义向量。
步骤608:基于所述待答复问题的语义向量和所述多个文本的语义向量,确定每个文本相对于所述待答复问题的相似度分值。
步骤610:以相似度分值大于第二阈值的多个文本为所述多个候选文本,并获取所述多个候选文本的语义向量。
需要说明的是,上述步骤602-步骤610是对步骤202的下位描述,其实现过程与步骤202相同,具体实现可以参见步骤202的相关描述,本实施例在此不再赘述。另外,在该实施例中,仅以语义检索为例对从文本库中确定候选文本的过程进行说明,在实际实现中,还可以通过BM25或其他检索算法确定候选文本,本申请对此不作限定。
步骤612:获取所述待答复问题的关键词和每个候选文本的关键词。
继续上述举例,假设待答复问题是“最小的自然数是几”,则可以提取得到关键词是“最小”和“自然数”。假设候选文本是“0是最小的自然数”,则可以提取得到的关键词是“自然数”、“0”和“最小”。
步骤614:若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本。
例如,假设待答复问题的关键词包括“最小”和“自然数”,且第一候选文本是“自然数是非负整数”,其中包括关键词“自然数”,则可以确定第一候选文本和待答复问题的关联关系是相关。
步骤616:若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本。
例如,假设第二候选文本的关键词是“0”和“自然数”,第一候选文本是“自然数是非负整数”,其中包括关键词“自然数”,则可以确定第一候选文本和第二候选文本的关联关系是相关。
步骤618:确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关。
步骤620:以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。
例如,假设包括三个候选文本,待答复问题的编号是1,候选文本1的编号是2,候选文本2的编号是3,候选文本3的编号是4。并且,待答复问题与候选文本1的关联关系是相关,则第1行第2列和第2行第1列的元素均是1;待答复问题与候选文本2的关联关系是不相关,则第1行第3列和第3行第1列的元素均是0;待答复问题与候选文本3的关联关系是相关,则第1行第4列和第4行第1列的元素均是1;候选文本1与候选文本2的关联关系是相关,则第2行第3列和第3行第2列的元素均是1;候选文本1与候选文本3的关联关系是相关,则第2行第4列和第4行第2列的元素均是1;候选文本2与候选文本3的关联关系是不相关,则第3行第4列和第4行第3列的元素均是0;且待答复文本与自身的关联关系是相关,每个候选文本与自身的关联关系是相关,则第1行第1列、第2行第2列、第3行第3列和第4行第4列的元素均是1。即通过上述方法可以得到邻接矩阵
需要说明的是,上述步骤612-步骤620是对步骤204的下位描述,其实现过程与步骤204相同,具体实现可以参见步骤204的相关描述,本实施例在此不再赘述。
步骤622:将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量。
步骤624:将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量。
步骤626:将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。
步骤628:将相关度分值大于第一阈值的候选文本确定为所述目标文本。
例如,以待答复问题是“最小的自然数是几”,候选文本包括候选文本1“自然数是非负整数”,候选文本2“0是最小的自然数”,候选文本3“自然数是大于或等于0的整数”为例,假设候选文本1相对于待答复问题的相关度分值是0.6,候选文本2相对于待答复问题的相关度分值是0.9,候选文本3相对于待答复问题的相关度分值是0.85,第一阈值是0.8,则可以确定候选文本2和候选文本3为目标文本。
需要说明的是,上述步骤622-步骤628是对步骤206的下位描述,其实现过程与步骤206相同,具体实现可以参见步骤206的相关描述,本实施例在此不再赘述。
本申请实施例提供的文本处理方法,在确定多个候选文本之后,可以进一步地通过文本筛选网络对候选文本进行筛选,删除与待答复问题不相关的候选文本,得到与待答复文本相关性较高的目标文本,减少了无关文本的召回,提高了检索的召回率,并且由于目标文本与待答复问题的相关性更高,因此基于这些目标文本确定的答案的准确性更高,即提高了问答系统的性能。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图7示出了本申请一个实施例的文本处理装置的结构示意图。如图7所示,该装置700包括:
第一确定模块702,被配置为基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;
构建模块704,被配置为基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;
第二确定模块706,被配置为将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
可选地,构建模块704还被配置为:
获取所述待答复问题的关键词和每个候选文本的关键词;
若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本;
若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本;
确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关,或者,确定所述待答复问题和自身的关联关系是不相关,且确定每个候选文本和自身的关联关系是不相关。
可选地,构建模块704,被配置为:
以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。
可选地,构建模块704,被配置为:
若目标位置对应的行节点和列节点的关联关系是相关,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点的关联关系是不相关,则确定所述目标位置的元素是0。
可选地,构建模块704,被配置为:
以所述待答复问题和所述多个候选文本为节点,将关联关系是相关的不同节点相连,得到图网络;
基于所述图网络构建所述邻接矩阵。
可选地,构建模块704,被配置为:
以所述图网络中的节点作为行和列,且行节点的排列顺序和列节点的排列顺序相同,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,得到所述邻接矩阵。
可选地,构建模块704,被配置为:
若目标位置对应的行节点和列节点不是相同的节点且在所述图网络中存在边,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点不是相同的节点且在所述图网络中不存在边,则确定所述目标位置的元素是0;
若所述目标位置对应的行节点和列节点是相同的节点,则确定所述目标位置的元素是1或0。
可选地,第二确定模块706,被配置为:
将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值;
将相关度分值大于第一阈值的候选文本确定为所述目标文本。
可选地,第二确定模块706,被配置为:
将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量;
将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。
可选地,第二确定模块706还被配置为:
若所述目标文本的数量是多个,按照相关度分值从大到小的顺序对所述目标文本进行排序,并按照顺序输出排序后的所述目标文本。
可选地,第一确定模块702,被配置为:
对所述待答复问题进行特征提取,确定所述待答复问题的语义向量;
获取所述文本库中多个文本的语义向量;
基于所述待答复问题的语义向量和所述多个文本的语义向量,确定每个文本相对于所述待答复问题的相似度分值;
基于每个文本相对于所述待答复问题的相似度分值确定所述多个候选文本,并获取所述多个候选文本的语义向量。
可选地,第一确定模块702,被配置为:
以相似度分值大于第二阈值的多个文本为所述多个候选文本。
可选地,所述装置还包括训练模块,所述训练模块被配置为:
获取样本问题、多个样本文本和每个样本文本的样本标记,其中,每个样本文本的样本标记用于表征所述样本文本与所述样本问题的相关性;
确定所述样本问题的语义向量和每个样本文本的语义向量,并基于样本问题和多个样本文本构建邻接矩阵;
将所述样本问题的语义向量、每个样本文本的语义向量、以及邻接矩阵输入所述文本筛选网络中,通过所述文本筛选网络的隐藏层进行处理,得到隐层特征向量组,其中,所述隐层特征向量组包括所述样本问题结合所述多个样本文本的语义向量后得到的隐层特征向量,以及每个样本文本结合其他样本文本和所述样本问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个样本文本相对于所述样本问题的相关度分值;
基于每个样本文本相对于所述样本问题的相关度分值确定每个样本文本的预测标记;
基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件。
可选地,所述训练模块被配置为:
若所述损失值小于或等于第三阈值,停止对所述文本筛选网络的训练;
若所述损失值大于所述第三阈值,继续对所述文本筛选网络进行训练。
可选地,所述训练模块被配置为:
每基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行一次训练,记录迭代训练的次数加一;
若所述迭代训练的次数小于或等于第四阈值,继续对所述文本筛选网络的训练;
若所述迭代训练的次数大于所述第四阈值,停止对所述文本筛选网络进行训练。
本申请实施例中,通过基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。上述方法在确定多个候选文本之后,可以进一步地通过文本筛选网络对候选文本进行筛选,删除与待答复问题不相关的候选文本,得到与待答复文本相关性较高的目标文本,减少了无关文本的召回,提高了检索的召回率,并且由于目标文本与待答复问题的相关性更高,因此基于这些目标文本确定的答案的准确性更高,即提高了问答系统的性能。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的文本处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述文本处理方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (18)
1.一种文本处理方法,其特征在于,所述方法包括:
基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;
基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;
将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
2.如权利要求1所述的文本处理方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵之前,还包括:
获取所述待答复问题的关键词和每个候选文本的关键词;
若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本;
若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本;
确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关,或者,确定所述待答复问题和自身的关联关系是不相关,且确定每个候选文本和自身的关联关系是不相关。
3.如权利要求2所述的文本处理方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:
以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。
4.如权利要求3所述的文本处理方法,其特征在于,基于每个位置对应的行和列的关联关系确定每个位置的元素,包括:
若目标位置对应的行节点和列节点的关联关系是相关,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点的关联关系是不相关,则确定所述目标位置的元素是0。
5.如权利要求2所述的文本处理方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:
以所述待答复问题和所述多个候选文本为节点,将关联关系是相关的不同节点相连,得到图网络;
基于所述图网络构建所述邻接矩阵。
6.如权利要求5所述的文本处理方法,其特征在于,基于所述图网络构建所述邻接矩阵,包括:
以所述图网络中的节点作为行和列,且行节点的排列顺序和列节点的排列顺序相同,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,得到所述邻接矩阵。
7.如权利要求6所述的文本处理方法,其特征在于,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,包括:
若目标位置对应的行节点和列节点不是相同的节点且在所述图网络中存在边,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点不是相同的节点且在所述图网络中不存在边,则确定所述目标位置的元素是0;
若所述目标位置对应的行节点和列节点是相同的节点,则确定所述目标位置的元素是1或0。
8.如权利要求1所述的文本处理方法,其特征在于,将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本,包括:
将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值;
将相关度分值大于第一阈值的候选文本确定为所述目标文本。
9.如权利要求8所述的文本处理方法,其特征在于,将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值,包括:
将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量;
将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。
10.如权利要求8或9所述的文本处理方法,其特征在于,将相关度分值大于预设阈值的候选文本确定为所述目标文本之后,还包括:
若所述目标文本的数量是多个,按照相关度分值从大到小的顺序对所述目标文本进行排序,并按照顺序输出排序后的所述目标文本。
11.如权利要求1所述的文本处理方法,其特征在于,基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,包括:
对所述待答复问题进行特征提取,确定所述待答复问题的语义向量;
获取所述文本库中多个文本的语义向量;
基于所述待答复问题的语义向量和所述多个文本的语义向量,确定每个文本相对于所述待答复问题的相似度分值;
基于每个文本相对于所述待答复问题的相似度分值确定所述多个候选文本,并获取所述多个候选文本的语义向量。
12.如权利要求11所述的文本处理方法,其特征在于,基于每个文本相对于所述待答复问题的相似度分值确定所述多个候选文本,包括:
以相似度分值大于第二阈值的多个文本为所述多个候选文本。
13.如权利要求1所述的文本处理方法,其特征在于,所述文本筛选网络的训练方法如下:
获取样本问题、多个样本文本和每个样本文本的样本标记,其中,每个样本文本的样本标记用于表征所述样本文本与所述样本问题的相关性;
确定所述样本问题的语义向量和每个样本文本的语义向量,并基于样本问题和多个样本文本构建邻接矩阵;
将所述样本问题的语义向量、每个样本文本的语义向量、以及邻接矩阵输入所述文本筛选网络中,通过所述文本筛选网络的隐藏层进行处理,得到隐层特征向量组,其中,所述隐层特征向量组包括所述样本问题结合所述多个样本文本的语义向量后得到的隐层特征向量,以及每个样本文本结合其他样本文本和所述样本问题的语义向量后得到的隐层特征向量;
将所述隐层特征向量组输入全连接层,得到每个样本文本相对于所述样本问题的相关度分值;
基于每个样本文本相对于所述样本问题的相关度分值确定每个样本文本的预测标记;
基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件。
14.如权利要求13所述的文本处理方法,其特征在于,基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件,包括:
若所述损失值小于或等于第三阈值,停止对所述文本筛选网络的训练;
若所述损失值大于所述第三阈值,继续对所述文本筛选网络进行训练。
15.如权利要求13所述的文本处理方法,其特征在于,基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行训练,直至达到训练停止条件,包括:
每基于每个样本文本的预测标记和样本标记的损失值对所述文本筛选网络进行一次训练,记录迭代训练的次数加一;
若所述迭代训练的次数小于或等于第四阈值,继续对所述文本筛选网络的训练;
若所述迭代训练的次数大于所述第四阈值,停止对所述文本筛选网络进行训练。
16.一种文本处理装置,其特征在于,所述装置包括:
第一确定模块,被配置为基于获取的待答复问题,确定所述待答复问题的语义向量、多个候选文本和所述多个候选文本的语义向量,其中,每个候选文本是文本库中与所述待答复问题语义相关的文本;
构建模块,被配置为基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;
第二确定模块,被配置为将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。
17.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-15任意一项所述方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-15任意一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311036568.4A CN117009488A (zh) | 2021-04-30 | 2021-04-30 | 候选文本确定方法及装置 |
CN202110484317.7A CN113220832B (zh) | 2021-04-30 | 2021-04-30 | 一种文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484317.7A CN113220832B (zh) | 2021-04-30 | 2021-04-30 | 一种文本处理方法及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311036568.4A Division CN117009488A (zh) | 2021-04-30 | 2021-04-30 | 候选文本确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220832A true CN113220832A (zh) | 2021-08-06 |
CN113220832B CN113220832B (zh) | 2023-09-05 |
Family
ID=77090694
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110484317.7A Active CN113220832B (zh) | 2021-04-30 | 2021-04-30 | 一种文本处理方法及装置 |
CN202311036568.4A Pending CN117009488A (zh) | 2021-04-30 | 2021-04-30 | 候选文本确定方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311036568.4A Pending CN117009488A (zh) | 2021-04-30 | 2021-04-30 | 候选文本确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113220832B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067349A (zh) * | 2022-01-12 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 目标对象处理方法及装置 |
CN114840648A (zh) * | 2022-03-21 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 答案生成方法、装置及计算机程序产品 |
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN116737888A (zh) * | 2023-01-11 | 2023-09-12 | 北京百度网讯科技有限公司 | 对话生成模型的训练方法和答复文本的确定方法、装置 |
CN117150026A (zh) * | 2023-11-01 | 2023-12-01 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052716A1 (en) * | 2012-08-14 | 2014-02-20 | International Business Machines Corporation | Automatic Determination of Question in Text and Determination of Candidate Responses Using Data Mining |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
WO2018157805A1 (zh) * | 2017-03-03 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN110750630A (zh) * | 2019-09-25 | 2020-02-04 | 北京捷通华声科技股份有限公司 | 一种生成式机器阅读理解方法、装置、设备及存储介质 |
CN111125328A (zh) * | 2019-12-12 | 2020-05-08 | 深圳数联天下智能科技有限公司 | 文本处理方法及相关设备 |
CN111125335A (zh) * | 2019-12-27 | 2020-05-08 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN111597314A (zh) * | 2020-04-20 | 2020-08-28 | 科大讯飞股份有限公司 | 推理问答方法、装置以及设备 |
WO2021068615A1 (zh) * | 2019-10-12 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 文书中问答数据获取方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-30 CN CN202110484317.7A patent/CN113220832B/zh active Active
- 2021-04-30 CN CN202311036568.4A patent/CN117009488A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052716A1 (en) * | 2012-08-14 | 2014-02-20 | International Business Machines Corporation | Automatic Determination of Question in Text and Determination of Candidate Responses Using Data Mining |
WO2018157805A1 (zh) * | 2017-03-03 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN110750630A (zh) * | 2019-09-25 | 2020-02-04 | 北京捷通华声科技股份有限公司 | 一种生成式机器阅读理解方法、装置、设备及存储介质 |
WO2021068615A1 (zh) * | 2019-10-12 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 文书中问答数据获取方法、装置、计算机设备和存储介质 |
CN111125328A (zh) * | 2019-12-12 | 2020-05-08 | 深圳数联天下智能科技有限公司 | 文本处理方法及相关设备 |
CN111125335A (zh) * | 2019-12-27 | 2020-05-08 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
CN111597314A (zh) * | 2020-04-20 | 2020-08-28 | 科大讯飞股份有限公司 | 推理问答方法、装置以及设备 |
Non-Patent Citations (1)
Title |
---|
金丽娇;傅云斌;董启文;: "基于卷积神经网络的自动问答", 华东师范大学学报(自然科学版), no. 05, pages 66 - 79 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067349A (zh) * | 2022-01-12 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 目标对象处理方法及装置 |
CN114840648A (zh) * | 2022-03-21 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 答案生成方法、装置及计算机程序产品 |
CN116737888A (zh) * | 2023-01-11 | 2023-09-12 | 北京百度网讯科技有限公司 | 对话生成模型的训练方法和答复文本的确定方法、装置 |
CN116737888B (zh) * | 2023-01-11 | 2024-05-17 | 北京百度网讯科技有限公司 | 对话生成模型的训练方法和答复文本的确定方法、装置 |
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN117150026A (zh) * | 2023-11-01 | 2023-12-01 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
CN117150026B (zh) * | 2023-11-01 | 2024-01-26 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113220832B (zh) | 2023-09-05 |
CN117009488A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN113220832B (zh) | 一种文本处理方法及装置 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN111159359A (zh) | 文档检索方法、装置及计算机可读存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN113159187B (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN114495129A (zh) | 文字检测模型预训练方法以及装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN110147414B (zh) | 一种知识图谱的实体表征方法及装置 | |
CN113961686A (zh) | 问答模型的训练方法及装置、问答方法及装置 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN117453859A (zh) | 一种农业病虫害图文检索方法、系统及电子设备 | |
CN113538079A (zh) | 一种推荐模型的训练方法及装置、一种推荐方法及装置 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN114547273B (zh) | 问题回答方法及相关装置、电子设备、存储介质 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN112800186B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN114943236A (zh) | 关键词提取方法及装置 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN115392244A (zh) | 一种学术关键词批量识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |