CN111476026A - 语句向量的确定方法、装置、电子设备及存储介质 - Google Patents
语句向量的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111476026A CN111476026A CN202010214440.2A CN202010214440A CN111476026A CN 111476026 A CN111476026 A CN 111476026A CN 202010214440 A CN202010214440 A CN 202010214440A CN 111476026 A CN111476026 A CN 111476026A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- vector
- word
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Abstract
本申请提供了一种语句向量的确定方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取待处理的各目标文本;对各所述目标文本进行分词处理,得到分词集合;通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。采用本申请可以提高确定语句向量的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语句向量的确定方法、装置、电子设备及存储介质。
背景技术
在自然语言处理的众多应用场景中,都有涉及到语句语义理解的任务,比如问答系统、文本分类、机器翻译等。其中,语句向量的算法是这些自然语言处理任务的重要组成模块,语句向量中包含了根据上下文环境得到的相似度信息,能够有效的帮助语句语义理解。
目前,通常是基于CNN结构的模型来计算语句向量。人们可以预先训练用于计算语句向量的CNN模型,以通过CNN模型确定某文本的语句向量。然而,CNN模型存在只能获取短程的语义依赖信息的问题,对于较长语句的语句向量的捕获准确度较低。
发明内容
本申请实施例的目的在于提供一种语句向量的确定方法、装置、电子设备及存储介质,以解决CNN模型对于较长语句的语句向量的捕获准确度较低的问题。具体技术方案如下:
第一方面,提供了一种语句向量的确定方法,所述方法包括:
获取待处理的各目标文本;
对各所述目标文本进行分词处理,得到分词集合;
通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
可选的,所述根据各所述目标文本的文本向量计算奇异向量,包括:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
可选的,所述计算该目标文本包含的分词的词频逆文本频率指数,包括:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
可选的,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
可选的,所述获取待处理的各目标文本,包括:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
可选的,所述基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量之后,所述方法还包括:
根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
获取相似度最大的目标样本询问语句对应的目标回答语句;
向用户反馈所述目标回答语句。
第二方面,提供了一种语句向量的确定装置,所述装置包括:
第一获取模块,用于获取待处理的各目标文本;
处理模块,用于对各所述目标文本进行分词处理,得到分词集合;
确定模块,用于通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
第一计算模块,用于针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
第二计算模块,用于根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
可选的,所述第二计算模块,具体用于:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
可选的,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
可选的,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
可选的,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
可选的,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
可选的,所述第一获取模块,具体用于:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
可选的,所述装置还包括:
第三计算模块,用于根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
第二获取模块,用于获取相似度最大的目标样本询问语句对应的目标回答语句;
反馈模块,用于向用户反馈所述目标回答语句。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的语句向量的确定方法。
本申请实施例有益效果:
本申请实施例提供了一种语句向量的确定方法,可以获取待处理的各目标文本,然后对各目标文本进行分词处理,得到分词集合。通过预先训练的词向量模型,确定分词集合中各分词的词向量,针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,进而根据各目标文本的文本向量计算奇异向量,基于各目标文本的文本向量和奇异向量,分别计算各目标文本的语句向量。由于本方案是基于目标文本包含的分词的词向量和词频逆文本频率指数,来计算目标文本的语句向量,因此,对于较长语句也能够准确的计算出语句向量,解决了现有技术中较长语句的语句向量计算准确度低的问题。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语句向量的确定方法的流程图;
图2为本申请实施例提供的一种词频逆文本频率指数的计算方法的流程图;
图3为本申请实施例提供的一种语句向量的确定方法示例的流程图;
图4为本申请实施例提供的一种语句向量的确定装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种语句向量的确定方法,可以应用于电子设备。其中,电子设备可以是具有数据处理和存储功能的电子设备。下面将结合具体实施方式,对本申请实施例提供的一种语句向量的确定方法进行详细的说明,如图1所示,具体步骤如下:
步骤101,获取待处理的各目标文本。
本申请实施例中,电子设备可以获取待处理的多个目标文本。其中,目标文本可以是电子设备通过互联网爬取到的,或者,也可以是技术人员输入的,本申请实施例对目标文本的获取方式及内容不做限定。
在一个示例中,电子设备可以通过互联网爬取其他网站中的电器百科数据集,该数据集包含多个有关电器的文本。然后,电子设备可以从爬取到的文本中,筛选出字数在60至100的文本,作为待处理的目标文本。
步骤102,对各目标文本进行分词处理,得到分词集合。
本申请实施例中,电子设备获取到目标文本后,可以分别对每个目标文本进行分词处理,得到每个目标文本对应的多个分词。电子设备将得到的全部分词进行去重处理和去停用词处理,从而得到分词集合。其中,停用词可以是预先设置的没有具体语义的词,比如“的”、“是”、“了”和标点等。
步骤103,通过预先训练的词向量模型,确定分词集合中各分词的词向量。
本申请实施例中,词向量模型可以采用BERT(bidirectional encoderrepresentations from transformers,来自变压器的双向编码器表示)模型。针对分词集合中的每个分词,电子设备可以将该分词输入至BERT模型中,BERT模型则会输出该分词对应的词向量,其中,词向量的维度可以为512。
在一个示例中,可以先获取公开的基于维基百科训练的BERT中文预训练词向量模型,然后可以基于获取的电器百科数据集,使用Tensorflow框架的BERT公开模型训练代码,对BERT中文预训练词向量模型进行二次训练,使得得到的BERT模型更适应家电领域。
步骤104,针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量。
本申请实施例中,针对每个目标文本,电子设备可以确定出该目标文本包含的分词,进而根据预设的词频-逆文本频率指数算法,分别计算每个分词的词频逆文本频率指数(term frequency–inverse document frequency,TF-IDF)。其中,词频逆文本频率指数计算过程后续会进行详细说明。
电子设备可以根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,具体的计算方式可以有以下两种。
方式一、针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积,然后,计算该目标文本包含的每个分词对应的乘积的和值,将和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
本申请实施例中,可以将词向量记为v,则针对每个目标文本,假设该目标文本包含n个分词,则该目标文本对应的词向量为[v1,v2,...,vn],其中vi是分词i的词向量。另外,可以将分词的词频逆文本频率指数记为tfidf。则目标文本的文本向量的计算公式可以如下。
其中,Vs为目标文本的文本向量,tfidfi是分词i的词频逆文本频率指数,vi是分词i的词向量,n是目标文本包含的分词的总数。
方式二、针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积,然后计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
本申请实施例中,可以将词向量记为v,则针对每个目标文本,假设该目标文本包含n个分词,则该目标文本对应的词向量为[v1,v2,...,vn],其中vi是分词i的词向量。另外,可以将分词的词频逆文本频率指数记为tfidf。则目标文本的文本向量的计算公式可以如下。
其中,Vs为目标文本的文本向量,tfidfi是分词i的词频逆文本频率指数,vi是分词i的词向量,n是目标文本包含的分词的总数。
步骤105,根据各目标文本的文本向量计算奇异向量,基于各目标文本的文本向量和奇异向量,分别计算各目标文本的语句向量。
本申请实施例中,电子设备可以根据各目标文本的文本向量计算奇异向量,具体的,可以将各目标文本的文本向量拼接成一个向量矩阵,然后通过SVD(singular valuedecomposition,奇异值分解)算法计算向量矩阵的奇异向量,奇异向量可记为u。然后,基于目标文本的文本向量和奇异向量,计算该目标文本的语句向量。
可选的,某一目标文本的语句向量的计算公式为:
v's=vs-uuTvs (3)
其中,v′s为目标文本的语句向量,u为奇异向量,vs为该目标文本的文本向量。
可选的,本申请实施例提供了词频逆文本频率指数的计算过程,如图2所示,具体包括以下步骤。
步骤201,针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频。
本申请实施例中,针对某一目标文本包含的每个分词,电子设备可以统计该分词在该目标文本中的出现次数、以及该目标文本的总词数,然后计算出现次数与总次数的比值,得到该分词在该目标文本中的词频。
步骤202,在各目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和文本集合的总文本数,计算该分词的逆文本频率指数。
本申请实施例中,电子设备可以确定各目标文本对应的文本集合。其中,该文本集合可以是由目标文本构成的文本集合,或者,该文本集合也可以由目标文本、以及其他文本构成。
电子设备可以在各目标文本对应的文本集合中,统计包含该分词的文本的数目、以及文本集合的总文本数,进而基于包含该分词的文本的数目和文本集合的总文本数,计算该分词的逆文本频率指数,具体的计算公式可以如下。
其中,|D|是文本集合的总文本数,j为文本集合中包含该分词的文本的数目,ti表示分词,dj为包含分词ti的文本。
步骤203,将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
本申请实施例中,电子设备可以计算该分词的词频与该分词的逆文本频率指数的乘积,该乘积即为该分词的词频逆文本频率指数。词频逆文本频率指数可以反映该分词对于该目标文本的重要程度。
本申请实施例还提供了上述语句向量的确定方法应用于问答系统时的示例。如图3所示,具体步骤如下。
步骤301,接收用户输入的目标询问语句。
本申请实施例中,用户可以通过问答系统的客户端输入目标询问语句,客户端则会将该目标询问语句发送给电子设备。
步骤302,在预设的数据库中确定预设数目个与目标询问语句相匹配的目标样本询问语句。
其中,数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句,也即,数据库包含多个问答对。
本申请实施例中,电子设备接收到目标询问语句后,可以通过存储有客服话术知识的Elasticsearch搜索引擎在数据库中进行搜索,得到各样本询问语句与目标询问语句的匹配得分,然后,可以确定匹配得分最高的预设数目个样本询问语句(即目标样本询问语句)。
步骤303,将目标询问语句和目标样本询问语句作为待处理的目标文本。
本申请实施例中,电子设备可以将目标询问语句和目标样本询问语句作为待处理的目标文本,然后执行步骤304。
步骤304,对各目标文本进行分词处理,得到分词集合。
本申请实施例中,电子设备可以对目标询问语句和目标样本询问语句进行分词处理,得到分词集合,具体的处理过程与上述步骤102类似,此处不再赘述。
步骤305,通过预先训练的词向量模型,确定分词集合中各分词的词向量。
本步骤的具体的处理过程与上述步骤103类似,此处不再赘述。
步骤306,针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量。
本申请实施例中,电子设备可以将目标询问语句和数据库包含的各样本询问语句作为文本集合,来计算每个分词的逆文本频率指数。然后,分别根据每个语句包含的分词的词向量和词频逆文本频率指数,计算每个语句的文本向量。本步骤的具体的处理过程与上述步骤104、以及步骤201~203类似,此处不再赘述。
这样,通过步骤306可以计算出目标询问语句和每个目标样本询问语句的文本向量。
步骤307,根据各目标文本的文本向量计算奇异向量,基于各目标文本的文本向量和奇异向量,分别计算各目标文本的语句向量。
本申请实施例中,可以将目标询问语句的文本向量、以及各目标样本询问语句的文本向量拼接成一个向量矩阵,然后通过SVD算法计算该向量矩阵的奇异向量,进而通过上述公式(3)计算目标询问语句的文本向量、以及各目标样本询问语句的语句向量。
步骤308,根据目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算目标询问语句与每个目标样本询问语句的相似度。
本申请实施例中,电子设备可以根据目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算目标询问语句与每个目标样本询问语句的相似度。其中,相似度的计算算法可以采用element-wise、欧式距离等,本申请实施例不做限定。
步骤309,获取相似度最大的目标样本询问语句对应的目标回答语句。
本申请实施例中,电子设备可以在目标样本询问语句中,确定相似度最大的目标样本询问语句,作为与目标询问语句匹配度最高的样本询问语句,然后从数据库中获取该目标样本询问语句对应的目标回答语句。
步骤310,向用户反馈目标回答语句。
本申请实施例中,电子设备可以向用户反获取到的目标回答语句,以使用户可以看到问题的答案。
例如,预设数目为20,则可以对目标询问语句(可记为sent_t)和匹配出的20个样本询问语句(可记为sent1、sent2、……、sent20)进行分词、去停用词处理,得到分词集合。然后,可以通过步骤303~307计算sent_t和sent1、sent2、……、sent20的语句向量,可记为vst和vs1,vs2,...,vs20。由于vst和vs1,vs2,...,vs20这21个向量为维度相同的向量,因此,可以使用element-wise算法分别计算vst与vs1,vs2,...,vs20的相似度,得到相似度st1,st2,...,st20。然后,可以确定最大相似度(比如st2),则将sent2对应的回答语句反馈给用户。
本申请实施例中,由于是基于目标文本包含的分词的词向量和词频逆文本频率指数,来计算目标文本的语句向量,因此,对于较长语句也能够准确的计算出语句向量,解决了现有技术中较长语句的语句向量计算准确度低的问题。并且,本方案融合了传统的TF-IDF和词向量模型(即Transformer结构的BERT模型)来计算语句向量,提升了语句向量计算的准确度。而且,在计算语句向量时,是通过重要的成分(即重要分词)分析机制,在降低语句向量维度的情况下,使得语义信息丢失较少。将此方法应用于客服话术搜索系统中,能够提高语句匹配的准确度,从而提升用户的搜索体验,减少了客服代表寻找话术的时间。
基于相同的技术构思,本申请实施例还提供了一种语句向量的确定装置,如图4所示,该装置包括:
第一获取模块410,用于获取待处理的各目标文本;
处理模块420,用于对各目标文本进行分词处理,得到分词集合;
确定模块430,用于通过预先训练的词向量模型,确定分词集合中各分词的词向量;
第一计算模块440,用于针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
第二计算模块450,用于根据各目标文本的文本向量计算奇异向量,基于各目标文本的文本向量和奇异向量,分别计算各目标文本的语句向量。
可选的,第二计算模块450,具体用于:
将各目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算向量矩阵的奇异向量。
可选的,第一计算模块440,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
可选的,第一计算模块440,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
可选的,第一计算模块440,具体用于:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
可选的,目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v′s为目标文本的语句向量,u为奇异向量,vs为目标文本的文本向量。
可选的,第一获取模块410,具体用于:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与目标询问语句相匹配的目标样本询问语句,其中,数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将目标询问语句和目标样本询问语句作为待处理的目标文本。
可选的,该装置还包括:
第三计算模块,用于根据目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算目标询问语句与每个目标样本询问语句的相似度;
第二获取模块,用于获取相似度最大的目标样本询问语句对应的目标回答语句;
反馈模块,用于向用户反馈所述目标回答语句。
本申请实施例中,可以获取待处理的各目标文本,然后对各目标文本进行分词处理,得到分词集合。通过预先训练的词向量模型,确定分词集合中各分词的词向量,针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,进而根据各目标文本的文本向量计算奇异向量,基于各目标文本的文本向量和奇异向量,分别计算各目标文本的语句向量。由于本方案是基于目标文本包含的分词的词向量和词频逆文本频率指数,来计算目标文本的语句向量,因此,对于较长语句也能够准确的计算出语句向量,解决了现有技术中较长语句的语句向量计算准确度低的问题。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取待处理的各目标文本;
对各所述目标文本进行分词处理,得到分词集合;
通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
可选的,所述根据各所述目标文本的文本向量计算奇异向量,包括:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
可选的,所述计算该目标文本包含的分词的词频逆文本频率指数,包括:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
可选的,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
可选的,所述获取待处理的各目标文本,包括:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
可选的,所述基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量之后,所述方法还包括:
根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
获取相似度最大的目标样本询问语句对应的目标回答语句;
向用户反馈所述目标回答语句。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一语句向量的确定方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一语句向量的确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种语句向量的确定方法,其特征在于,所述方法包括:
获取待处理的各目标文本;
对各所述目标文本进行分词处理,得到分词集合;
通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述目标文本的文本向量计算奇异向量,包括:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
3.根据权利要求1所述的方法,其特征在于,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
4.根据权利要求1所述的方法,其特征在于,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
5.根据权利要求1所述的方法,其特征在于,所述计算该目标文本包含的分词的词频逆文本频率指数,包括:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
6.根据权利要求1所述的方法,其特征在于,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理的各目标文本,包括:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
8.根据权利要求7所述的方法,其特征在于,所述基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量之后,所述方法还包括:
根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
获取相似度最大的目标样本询问语句对应的目标回答语句;
向用户反馈所述目标回答语句。
9.一种语句向量的确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的各目标文本;
处理模块,用于对各所述目标文本进行分词处理,得到分词集合;
确定模块,用于通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
第一计算模块,用于针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
第二计算模块,用于根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
10.根据权利要求9所述的装置,其特征在于,所述第二计算模块,具体用于:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
11.根据权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
12.根据权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
13.根据权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
14.根据权利要求9所述的装置,其特征在于,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
15.根据权利要求9所述的装置,其特征在于,所述第一获取模块,具体用于:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
第三计算模块,用于根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
第二获取模块,用于获取相似度最大的目标样本询问语句对应的目标回答语句;
反馈模块,用于向用户反馈所述目标回答语句。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010214440.2A CN111476026A (zh) | 2020-03-24 | 2020-03-24 | 语句向量的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010214440.2A CN111476026A (zh) | 2020-03-24 | 2020-03-24 | 语句向量的确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111476026A true CN111476026A (zh) | 2020-07-31 |
Family
ID=71747731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010214440.2A Pending CN111476026A (zh) | 2020-03-24 | 2020-03-24 | 语句向量的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476026A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN114970551A (zh) * | 2022-07-27 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
US20190018838A1 (en) * | 2016-03-22 | 2019-01-17 | Sony Corporation | Electronic device and method for text processing |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
CN110705612A (zh) * | 2019-09-18 | 2020-01-17 | 重庆邮电大学 | 一种混合多特征的句子相似度计算方法、存储介质及系统 |
-
2020
- 2020-03-24 CN CN202010214440.2A patent/CN111476026A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190018838A1 (en) * | 2016-03-22 | 2019-01-17 | Sony Corporation | Electronic device and method for text processing |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN110705612A (zh) * | 2019-09-18 | 2020-01-17 | 重庆邮电大学 | 一种混合多特征的句子相似度计算方法、存储介质及系统 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN114970551A (zh) * | 2022-07-27 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
US11651236B2 (en) | Method for question-and-answer service, question-and-answer service system and storage medium | |
US11016966B2 (en) | Semantic analysis-based query result retrieval for natural language procedural queries | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN106874441B (zh) | 智能问答方法和装置 | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
EP3343400A1 (en) | System and method for dynamically creating a domain ontology | |
CN109062912B (zh) | 一种翻译质量评价方法及装置 | |
US20190361987A1 (en) | Apparatus, system and method for analyzing review content | |
US11017002B2 (en) | Description matching for application program interface mashup generation | |
US20210056261A1 (en) | Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis | |
US11861308B2 (en) | Mapping natural language utterances to operations over a knowledge graph | |
CN110990533A (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN111476026A (zh) | 语句向量的确定方法、装置、电子设备及存储介质 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
US20210334314A1 (en) | Sibling search queries | |
CN110427626B (zh) | 关键词的提取方法及装置 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
WO2023065638A1 (zh) | 一种数据检索方法、装置、电子设备以及存储介质 | |
CN110929501B (zh) | 文本分析方法和装置 | |
CN115129859A (zh) | 意图识别方法、装置、电子装置及存储介质 | |
TWI603320B (zh) | 全域對話系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200731 |