CN110147881A - 语言处理方法、装置、设备及存储介质 - Google Patents
语言处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110147881A CN110147881A CN201810206125.8A CN201810206125A CN110147881A CN 110147881 A CN110147881 A CN 110147881A CN 201810206125 A CN201810206125 A CN 201810206125A CN 110147881 A CN110147881 A CN 110147881A
- Authority
- CN
- China
- Prior art keywords
- vector
- reference vector
- training
- statement
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是关于一种语言处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:将源语句进行预处理,生成第一向量;从第一参考向量集中,获取与第一向量间相似度大于第一阈值的第一参考向量;利用第一神经网络,对第一向量及第一参考向量进行解码处理,确定与源语句对应的目标语句,其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。由此,实现了在进行语言处理过程中,使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,从而提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种语言处理方法、装置、设备及存储介质。
背景技术
随着神经网络的不断发展,神经网络被认为是人工智能的热点技术,被广泛应用于各个技术领域。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
神经网络的使用过程可以分为训练和使用两个阶段。在训练阶段,通过对样本进行学习,来确定神经网络的各神经元间的权重值。之后,在使用阶段,神经网络即可利用训练确定的权重值,对输入的数据进行处理,得到最终的处理结果。
例如,利用大量的双语语料组成的样本,对神经网络进行训练后,即可得到翻译系统可用的神经网络。之后,该神经网络获取到源语句后,即可根据训练阶段确定各权重值对源语句进行处理,从而得到对应的目标语句。
然而,申请人发现,利用上述方式获取目标语句时,目标语句的准确率与训练样本中是否包括目标语句有关,若训练样本不全面,就容易导致对未训练过的数据,所提供的结果语句准确度比较低,而若采用大规模的训练样本对神经网络进行训练,虽然可以在一定程度上提高神经网络的准确率,但是会增加神经网络的训练过程耗时较长。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明一方面提供一种语言处理方法,该方法包括:将源语句进行预处理,生成第一向量;从第一参考向量集中,获取与所述第一向量间的相似度大于第一阈值的第一参考向量;利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句,其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
本发明另一方面提供一种语言处理装置,该装置包括:预处理模块,用于将源语句进行预处理,生成第一向量;获取模块,用于从第一参考向量集中,获取与所述第一向量间的相似度大于第一阈值的第一参考向量;确定模块,用于利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句,其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
本发明又一方面提供一种计算机设备,包括:存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,当所述处理器执行所述程序时实现如上所述的语言处理方法。
本发明再一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如上所述的语言处理方法。
本申请提供的语言处理方法、装置、设备及存储介质,首先将源语句进行预处理,生成第一向量,然后从第一参考向量集中,获取与第一向量最相似的第一参考向量,然后利用第一神经网络,对第一向量及第一参考向量进行解码处理,以确定源语句对应的目标语句,其中,第一参考向量集中各参考向量,为在第一神经网络训练阶段,对训练样本中的问题语句进行学习后生成的向量。由此,在进行语言处理过程中,首先从参考向量集中获取与源语句相似的参考向量,然后再对参考向量及源语句对应的第一向量进行解码处理,从而使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语言处理方法的流程示意图;
图2是根据另一示例性实施例示出的一种语言处理方法的流程示意图;
图3是根据一示例性实施例示出的训练生成第一参考向量集的流程示意图;
图4是根据一示例性实施例示出的训练生成第一神经网络的流程示意图;
图5是根据一示例性实施例示出的对初始神经网络的系数矩阵及第二种子向量集进行修正的流程示意图;
图6是根据一示例性实施例示出的一种语言处理装置的结构示意图;
图7是根据另一示例性实施例示出的一种计算机设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明各实施例主要针对现有的技术中,利用神经网络进行语言处理时,若训练样本不全面,就容易导致对未训练过的数据,所提供的结果准确度比较低,而若采用大规模的训练样本对神经网络进行训练,虽然可以在一定程度上提高神经网络的准确率,但是会增加神经网络的训练过程耗时较长的问题,提出一种语言处理方法。
本发明实施例提供的语言处理方法,通过先对源语句进行预处理,以生成第一向量,然后根据第一向量从第一参考向量集中,获取出与第一向量间相似度大于第一阈值的第一参考向量,然后利用第一神经网络,对第一向量及第一参考向量进行解码处理,确定出与源语句对应的目标语句。由此,在进行语言处理过程中,通过结合预先训练的与源语句相似的第一参考向量来确定目标语句,从而提高了获取的目标语句的准确性。
下面结合附图,对本申请提供的语言处理方法、装置、设备及存储介质进行详细说明。
首先对本发明实施例提供的语言处理方法进行详细说明。
图1是根据一示例性实施例示出的一种语言处理方法的流程示意图。
如图1所示,该语言处理方法,可以包括以下步骤:
步骤101,将源语句进行预处理,生成第一向量。
具体的,本发明实施例提供的语言处理方法,可以由本发明实施例提供的语言处理装置执行。其中,语言处理装置,可以被配置在任意计算机设备中,以实现对源语句的处理进行控制。
其中,计算机设备可以是但不限于:智能手机、电脑、个人数字助理等等,本实施例对此不作具体限定。
具体实现步骤101之前,本实施例的语言处理装置可先对用户输入的服务请求进行监测。其中,用户输入的服务请求,可能有多种类型。比如,启动应用请求、关闭应用请求,获取数据等等,此处不作具体限定。
在具体实现时,用户输入服务请求,可以是通过多种方式实现。比如,用户通过语音输入的方式输入服务请求;或者,用户通过手工输入的方式输入服务请求;或者,用户根据设备所提供的输入方式输入服务请求等等。
举例来说,假设使用手机查询天气情况时,用户可通过触发语音输入功能输入“今天的天气情况”,以向设备发送查询服务。
当语言处理装置监测到用户输入了服务请求,可先对服务请求进行解析处理,以确定上述服务请求中是否包括源语句。若包括源语句,则可以确定用户需要进行语句获取操作。此时,语言处理装置可对源语句进行预处理,以生成与源语句对应的第一向量。
具体实现时,本实施例可通过向量空间模型(Vector Space Model,简称为:VSM),将源语句进行预处理,生成第一向量;或者,通过文本的分布式表示方法,将源语句进行预处理,生成第一向量等等。
步骤102,从第一参考向量集中,获取与第一向量间的相似度大于第一阈值的第一参考向量。
步骤103,利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句。
其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
具体的,第一参考向量集中包括的参考向量的数量及形式,可以根据需要进行调整。比如第一参考向量集可以矩阵的形式设置,矩阵中的每一行、或者每一列、或者每一个元素表示一个参考向量等等,本实施例对此不做限定。
其中,第一阈值的大小可以根据需要确定。比如,根据语言处理装置的功能设置,举例来说,语言处理装置,是用来为用户提供搜索服务的,那么第一阈值可以设置为较小的值,比如70%、80%等;或者,若语言处理装置,为用来为用户提供翻译服务的,那么第一阈值可以设置为较大的值,比如为85%、90%等等。本实施例对此不作限定。
进一步的,为了减小语言处理装置的解码处理负担,在获取第一参考向量时,语言处理装置还可以根据第一向量从第一参考向量集中,获取与第一向量相似度最高的第一参考向量。
即上述步骤102中,获取的第一参考向量可能为一个向量,也可能为多个向量,由于语言处理装置对参考向量的解码处理过程相同,因此,本申请以下各实施例,以第一参考向量为与第一向量相似度最高的向量为例进行说明。
具体实现时,可将第一向量分别与第一参考向量集中每一个向量进行相似度计算,以得到对应的多个相似度值。然后从上述多个相似度值中筛选出与第一向量相似度最高的向量,作为第一参考向量。
其中,计算第一向量与第一参考向量集中每个向量间的相似度时,可能包括多种实现方式。比如,通过余弦相似度,计算第一向量与上述参考向量集中每个向量间的相似度;或者,通过杰卡德相似度,计算第一向量与上述参考向量集中每个向量间的相似度等等。
需要说明的是,为了提高计算效率,本实施例通过杰卡德相似度,计算第一向量与上述参考向量集中每个向量间的相似度时,可先将第一向量与上述参考向量集中每个向量进行二值化处理,然后再计算杰卡德相似度。
在本实施例中,第一向量与第一参考向量集中,每个向量间的相似度均可映射在[0,1]区间。当相似度值越高,则说明第一向量与上述参考向量集中的某一向量的相似度越高。
例如,假设第一向量A1,与第一参考向量集中B1、B2、B3的相似度值,分别为0.7、0.85、0.96,那么可以确定出第一向量A1与上述参考向量集中B3的最相似,因此可以获取B3作为A1的第一参考向量。
具体实现时,语言处理装置,在获取到第一参考向量后,可将第一向量及第一参考向量输入至训练好的神经网络中,以利用训练好的第一神经网络,对第一向量及第一参考向量进行解码处理,以生成对应的输出语句(即目标语句)。
其中,训练好的第一神经网络是指利用大量样本,训练后生成的神经网络。
可以理解的是,本申请实施例中,第一参考向量集中各参考向量,是在第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量,即第一参考向量集中各向量分别对训练数据进行了记忆。从而使得利用第一神经网络对第一向量及第一参考向量进行解码,以获取目标语句的过程,融入了源语句与训练样本间的关联关系,从而提高了获取的目标语句的准确性,
需要说明的是,本申请提供的语言处理方法,可以应用与任意语言处理场合中,比如翻译系统、对话系统中,从而提高翻译系统或对话系统的准确率,改善用户体验。
本发明实施例提供的语言处理方法,首先将源语句进行预处理,生成第一向量,然后从第一参考向量集中,获取与第一向量最相似的第一参考向量,然后利用第一神经网络,对第一向量及第一参考向量进行解码处理,以确定源语句对应的目标语句,其中,第一参考向量集中各参考向量,为在第一神经网络训练阶段,对训练样本中的问题语句进行学习后生成的向量。由此,在进行语言处理过程中,首先从参考向量集中获取与源语句相似的参考向量,然后再对参考向量及源语句对应的第一向量进行解码处理,从而使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。
通过上述分析可知,本发明实施例通过从第一参考向量集中,获取与第一向量最相似的第一参考向量,从而根据第一向量及第一参考向量,确定出与源语句对应的目标语句。在具体实现时,为了能够进一步提高获取的目标语句准确性,本实施例在获取到第一向量及第一参考向量之后,还可以根据第一参考向量,进一步的获取第一种子向量,即第一参考向量对应的用于生成结果语句的向量,从而根据第一向量与第一种子向量,确定与源语句对应的目标语句。下面结合图2,对上述语言处理方法的过程进行具体说明。
图2是根据另一示例性实施例示出的一种语言处理方法的流程示意图。
如图2所示,该语言处理方法可以包括以下步骤:
步骤201,将源语句进行预处理,生成第一向量。
步骤202,从第一参考向量集中,获取与第一向量最相似的第一参考向量。
具体的,为了更清楚的说明本实施例,在执行步骤202之前,本实施例可先对获取第一参考向量集进行详细说明:
具体实现时,如图3所示,第一参考向量集的训练生成过程可包括以下步骤:
步骤301,获取训练数据集,训练数据集中包括N个语句对,其中第i个语句对包括第i个问题语句及第i个结果语句,N为正整数,i为小于或等于N的正整数。
其中,第i个语句对可以是训练数据集中的任意一个语句对,此处不作具体限定。
具体实现时,语言处理装置可通过向数据服务器发送获取请求,来获取训练数据集,本实施例对此不作具体限定。
步骤302,确定第i个问题语句对应的第i个训练向量。
具体实现时,可通过VSM确定第i个问题语句对应的第i个训练向量;或者,通过文本的分布式表示方法,确定第i个问题语句对应的第i个训练向量等等。
步骤303,从第二参考向量集中,获取与第i个训练向量最相似的第j个初始参考向量,其中,j为正整数。
其中,第二参考向量集中各参考向量,为所述第一参考向量集中各参考向量的初始值。第二参考向量集可以是随机生成的,也可以是用户预先定义的,此处不作具体限定。
具体的,在确定出第i个问题语句对应的第i个训练向量后,语言处理装置可根据第i个训练向量从第二参考向量集中,获取与第i个训练向量最相似的第j个初始参考向量。
具体实现时,可将第i个训练向量分别与第二参考向量集中,每个向量进行相似度计算,以得到对应的多个相似度值。然后从上述多个相似度值中,选择出与第i个训练向量相似度最高的向量,作为与第i个训练向量最相似的第j个初始参考向量。
其中,计算第i个训练向量与第二参考向量集中,每个向量间的相似度时,可以包括多种实现方式。比如,通过余弦相似度,计算第一向量与上述参考向量集中每个向量间的相似度;或者,通过杰卡德相似度,计算第一向量与上述参考向量集中每个向量间的相似度等等。
需要说明的是,为了提高计算效率,本实施例通过杰卡德相似度,计算第i个训练向量与第二参考向量集中每个向量间的相似度时,可先将第i个训练向量与上述第二参考向量集中每个向量进行二值化处理,然后再计算杰卡德相似度。
在本实施例中,第i个训练向量与第二参考向量集中,每个向量间的相似度均映射在[0,1]区间。也就是说,当相似度值越高,则说明第i个训练向量与上述第二参考向量集中的某一向量的相似度越高。
例如,假设第i个训练向量A1,与第二参考向量集中B1、B2、B3的相似度值,分别为0.75、0.80、0.93,那么可以确定出第i个训练向量A1与上述第二参考向量集中B3的最相似,因此可以获取B3作为A1的初始参考向量。
步骤304,利于预设的参考向量更新规则,根据第i个训练向量对第j个初始参考向量进行更新。
其中,预设的参考向量更新规则可以是根据大量实验确定的,此处不作具体限定。
具体实现时,可通过以下公式(1),对第j个初始参考向量进行更新操作:
b'i=αbi+(1-α)ai…………………………………………(1)
其中,b'i表示第i个初始参考向量更新后的向量,bi表示第i个初始参考向量更新前的向量,α表示更新系数,可以根据经验进行取值,比如,α=0.95,ai表示第i个训练向量。
需要说明的是,在对第二参考向量集中各初始参考向量进行更新的过程中,若每次从第二参考向量集中获取的是,与问题语句对应的向量间的相似度满足阈值的多个初始参考向量,那么可以根据多个初始参考向量与问题语句对应的向量间的各相似度,利用上述式(1)对多个初始参考向量进行更新。
步骤305,利用训练数据集中各问题语句,重复执行上述操作,直至生成第一参考向量集。
具体的,由于训练数据集中包括多个语句对,且每个语句对中的问题语句对应的训练向量,均可在第二参考向量集中,获取与上述训练向量最相似的初始参考向量。
因此,为了能够对初始参考向量进行更新,以提高目标语句的获取精准度,本实施例可依次从训练数据中获取不同的问题语句,并确定出每个问题语句对应的训练像向量,然后根据训练向量从第二参考向量集中,获取与上述训练向量最相似的初始参考向量,然后利用上述步骤304中预设的参考向量更新规则,对每一个初始参考向量进行更新,以得到更新后的参考向量集(即第一参考向量集)。
进一步的,在得到第一参考向量集之后,语言处理装置可从第一参考向量集中,获取与第一向量最相似的第一参考向量。
步骤203,从第一种子向量集中,获取与第一参考向量对应的第一种子向量。
其中,所述第一种子向量集中的第n个种子向量,用于在所述第一神经网络训练阶段,与训练样本中第k个问题语句对应的向量一同被所述第一神经网络进行解码处理时,得到训练样本中结果语句的概率大于第二阈值,其中,第n个种子向量对应的第n个参考向量与第k个问题语句间的相似度大于第一阈值。
需要说明的是,第一种子向量集中各种子向量,可以是在第一神经网络及第一参考向量集训练阶段,利用大量样本数据训练生成的,其具体实现方式,可参照下述实施例的详细描述。
具体的,由于第一种子向量集与第一参考向量集之间存在映射关系。因此当语言处理装置从第一参考向量集中,获取到与第一向量间的相似度大于第一阈值的第一参考向量后,即可根据第一种子向量集与第一参考向量集之间的映射关系,获取出与第一参考向量对应的第一种子向量。
步骤204,利用所述第一神经网络,对第一向量及第一种子向量分别进行预解码处理,得到第一概率向量及第二概率向量。
其中,第一概率向量中,包括利用第一向量进行目标语句预测时,确定的目标语句中各个词分别对应的概率值;相应的,第二概率向量中,包括利用第一种子向量进行目标语句预测时,确定的目标语句中各个词分别对应的概率值。
举例来说,若目标语句由3个词组成,且利用第一向量进行目标语句预测时,得到第一个词有三种可能,分别对应的概率为y11、y12及y13,第二个词有三种可能,分别对应的概率为y21、y22及y23,第三个词有三种可能,分别对应的概率为y31、y32及y33,则第一概率向量可以表示为:
同样的方式,利用第一种子向量进行目标预计预测时,可以确定第二概率向量。
步骤205,根据第一向量与第一参考向量间的第一相似度,利用第一神经网络,对第一概率向量及第二概率向量进行解码处理,确定与源语句对应的目标语句。
具体的,在获取到第一概率向量及第二概率向量后,语言处理装置可根据第一向量与第一参考向量间的第一相似度,对第一概率向量及第二概率向量进行解码处理,确定出与源语句对应的目标语句。
具体实现时,可通过以下公式(2),确定源语句对应的目标语句,举例来说:
其中,y表示目标语句,x表示源语句,p(y|x)表示在源语句条件下的目标语句,H为由训练数据集中的问题语句组成的集合,p(x∈H)表示第一向量属于H的概率,p(y|x,x∈H)表示第一概率向量,表示第一向量不属于H的概率,表示第二概率向量。
进一步的,若p(x∈H)=s,则上述公式(2)还可以写成:
通过上述分析可知,通过上式不仅可以确定出目标语句,还可以根据目标语句中各词的概率,确定产生该目标语句的概率值。
即上述确定与源语句对应的目标语句,具体包括:
确定与源语句对应的各目标语句及产生所述各目标语句的概率值。
从而在具体实现时,语言处理装置,即可将概率最大的各词组成的语句确定为目标语句,或者,也可以根据产生各目标语句的概率值,选择一个目标语句,作为此次处理过程中的目标语句。
在本实施例一种可能的实现形式中,上述源语句可能为用户输入的语句,即在上述步骤201之前,还可以包括:
接收用户输入的服务请求,所述服务请求中包括所述源语句。
具体的,用户可以通过多种方式输入服务请求,比如通过语音输入、文字输入等等。
其中,服务请求,可以为翻译服务请求、或者搜索服务请求、或者对话服务请求等等,本实施例对此不做限定。
相应的,在上述步骤205之后,还可以包括:
根据产生各目标语句的概率值、及用户的历史使用记录,确定当前待返回的目标语句。
其中,用户的历史使用记录,包括:用户的历史服务请求记录、及与历史服务请求记录对应的响应记录。
在具体实现时,若通过上述方式确定的多个目标语句的概率值相近,则语言处理装置,也可以根据用户需要,在不同场景向用户返回不同目标语句,以改善用户体验。
具体的,由于现有的神经网络,根据源语句进行处理生成的目标语句通常是唯一的,这就使得用户在不同时间、不同地点获取源语句的目标语句始终相同,降低了用户体验,不满足用户个性化的需求。因此,本发明可利用第一神经网络计算出与源语句对应的多个目标语句,以及产生多个目标语句的概率值,进而根据用户的历史使用记录,确定出当前待返回的目标语句。
比如,若源语句为X1,语言处理装置根据第一神经网络,获取到4个目标语句,分别为Y1、Y2、Y3、Y4,且Y1的概率为0.78,Y2的概率值为0.69,Y3的概率值为0.88,Y4的概率值为0.97,当语言处理装置根据历史使用记录,确定出用户在最近一次的服务请求中,输入过源语句X1,且语言处理装置向用户推送的目标语句为Y4,那么此次语言处理装置可将Y3返回给用户,以使用户能够获取到不同的目标语句,从而提高用户的使用需求。
本发明实施例提供的语言处理方法,在语言处理过程中,首先将源语句进行预处理,生成第一向量,然后从第一参考向量集中,获取与第一向量最相似的第一参考向量,进而再根据第一参考向量,获取第一种子向量,然后利用第一神经网络对第一向量及第一种子向量进行解码处理,确定源语句对应的目标语句。由此,在进行语言处理过程中,首先从参考向量集中获取与源语句相似的参考向量,然后再根据参考向量获取对应的种子向量,进而对种子向量及源语句对应的第一向量进行解码处理,从而使得神经网络的解码过程,根据源语句与训练样本间的关联关系,融入了用于提高目标语句准确性的种子向量,从而提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。并且,基于获取的目标语句的概率及用户的使用记录,对同一源语句向用户返回不同的目标语句,还增强了用户的使用趣味性,改善了用户的体验。
为了更清楚的对本申请提供的语言处理方法进行说明,下面结合图4和图5,对语言处理装置中的第一神经网络的生成过程进行详细说明:
如图4所示,第一神经网络的训练生成过程可包括以下步骤:
步骤401,获取训练数据集。
其中,所述训练数据集中包括N个语句对,其中第i个语句对包括第i个问题语句及第i个结果语句,N为正整数,i为小于或等于N的正整数。
步骤402,确定第i个问题语句对应的第i个训练向量。
步骤403,从第二参考向量集中,获取与所述第i个训练向量最相似的第j个初始参考向量。
其中,j为正整数,其中第二参考向量集中各参考向量,为所述第一参考向量集中各参考向量的初始值;
步骤404,从第二种子向量集中,获取与第j个初始参考向量对应的第j个初始种子向量。
其中,第二种子向量集中各种子向量,为所述第一种子向量集中各种子向量的初始值。第二种子向量集可以是随机生成的,也可以是用户指定的,此处不作具体限定。
具体的,由于初始种子向量与初始参考向量之间存在对应关系,因此本实施例中的语言处理装置,从第二参考向量集中,获取与第i个训练向量最相似的第j个初始参考向量之后,可根据初始种子向量与初始参考向量间的对应关系,从第二种子向量集中,获取与第j个初始参考向量对应的第j个初始种子向量。
步骤405,根据第i个训练向量、第i个结果语句及第j个初始种子向量,对所述初始神经网络的系数矩阵及所述第二种子向量集进行修正。
具体的,由于结果语句为离散数据,因此,本申请实施例中,在对初始模型进行训练时,可以基于第i个训练向量、第i个结果语句及第j个初始种子向量,采用极大似然估计的方式,对初始神经网络的系数矩阵及第二种子向量集进行修正。
下面结合图5,对初始神经网络的系数矩阵及第二种子向量集进行修正的过程进行详细说明。
具体如图5所示,上述步骤405,可包括以下步骤:
步骤501,确定初始神经网络,对第i个训练向量及所述第j个初始种子向量进行解码处理,生成所述第i个结果语句时,对应的第i个似然函数。
步骤502,计算第i个似然函数的值最大时,系数矩阵中各元素的取值、及第j个初始种子向量的取值。
具体的,语言处理装置,利用初始神经网络对第i个训练向量及第j个初始种子向量进行解码处理,以生成第i个结果语句时,对应的第i个似然函数具体为:log p(yi|xi)。
可以理解的是,上述似然函数中包括初始神经网络系数矩阵中个元素及第j个初始种子向量。从而为了使初始神经网络根据第i个训练向量及第j个初始种子向量,得到第i个结果语句的概率最大。可以通过计算上述似然函数值最大时,系数矩阵中各元素的值及第j个初始种子向量,进而根据计算得到的取值对初始神经网络的系数矩阵及第二种子向量集中的第j个初始种子向量进行修正。
具体实现时,可利用求导方式来计算,但是由于似然函数中包括的参数有多个,求导后计算导数等于零的运算量比较大,因此为了减少运算量,本实施例在计算系数矩阵中各元素的取值、及第j个初始种子向量的取值时,可利用梯度下降算法,比如采用误差反向传播算法来计算上述参数的取值。
需要说明的是,本申请实施例中,在对种子向量进行更新时,也可以首先根据各初始参考向量与问题语句对应的向量的相似度,选取相似度大于第一阈值的多个初始参考向量,进而再选取与多个初始参考向量对应的多个初始种子向量,之后再确定初始神经网络对各初始种子向量及问题语句对应的向量进行解码处理,得到对应的结果语句的各似然函数,然后计算各似然取最大值时,各初始种子向量的取值,及神经网络中各系数的取值。
步骤406,利用训练数据集中各语句对,重复执行上述操作,直至达到预设的轮数或者确定神经网络的输出误差在预设范围内。
其中,预设的轮数,可以根据实际使用情况进行适应性设置。比如,可以根据训练数据集中样本的规模,和/或利用所述训练数据集完成一轮神经网络模型训练所需的时长,确定预设的轮数等等,本实施例对此不作具体限定。
进一步的,神经网络的输出误差,可以根据实际情况,采用不同的方式衡量。
具体的,可以根据神经网络对应的似然函数在连续训练轮数中的变化情况确定。
举例来说:若似然函数在连续K轮中(K为指定的参数,可以根据需要调整)不再上升,则可以认为神经网络的输出误差在预设范围内。
或者,可以根据神经网络输出的语句与结果语句间的相似度确定。
举例来说,若利用神经网络输出的语句与结果语句间的相似度大于某设定值,比如大于0.9,则可以认为神经网络的输出误差在预设范围内等等。
进一步的,当得到第一神经网络之后,语言处理装置可利用第一神经网络,对第一向量及第一种子向量分别进行预解码处理,以生成第一概率向量及第二概率向量。
上述第一神经网络的训练方式,通过根据训练样本中的各问题语句与初始参考向量间的相似度,对初始参考向量进行更新,从而使得到的第一参考向量集中的各参考向量,对神经网络训练样本中的各问题语句进行了“记忆”,使神经网络具有“记忆”功能。并且,在神经网络训练阶段,训练得到的种子向量集中的种子向量,为与训练样本中问题语句对应的向量一同被神经网络进行解码处理时,得到结果语句的概率值较大的向量,从而不仅可以有效提高第一神经网络对样本中未出现语句进行准确处理的能力,还可以加快神经网络的收敛速度,缩短神经网络的训练时间。
在示例性实施例中,还提供了一种语言处理装置,包括:
图6是本发明一个实施例的语言处理装置的结构示意图。
参照图6所示,本发明的语言处理装置,包括:预处理模块110、获取模块120和确定模块130。
其中,预处理模块110用于将源语句进行预处理,生成第一向量;
获取模块120用于从第一参考向量集中,获取与所述第一向量间的相似度大于第一阈值第一参考向量;
确定模块130用于利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句。
其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
需要说明的是,前述对语言处理方法实施例的解释说明也适用于该实施例的语言处理装置,其实现原理类似,此处不再赘述。
本发明实施例提供的语言处理装置,首先将源语句进行预处理,生成第一向量,然后从第一参考向量集中,获取与第一向量最相似的第一参考向量,然后利用第一神经网络,对第一向量及第一参考向量进行解码处理,以确定源语句对应的目标语句,其中,第一参考向量集中各参考向量,为在第一神经网络训练阶段,对训练样本中的问题语句进行学习后生成的向量。由此,在进行语言处理过程中,首先从参考向量集中获取与源语句相似的参考向量,然后再对参考向量及源语句对应的第一向量进行解码处理,从而使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。
在示例性实施例中,还提供了一种计算机设备。
图7是本发明一个实施例的计算机设备的结构示意图。
参照图7,该计算机设备包括:存储器210及存储在所述存储器210上并可在所述处理器220上运行的计算机程序,当所述处理器220执行所述程序时实现第一方面实施例所述的语言处理方法。
需要说明的是,前述对语言处理方法实施例的解释说明也适用于该实施例的计算机设备,其实现原理类似,此处不再赘述。
本发明实施例提供的计算机设备,首先将源语句进行预处理,生成第一向量,然后从第一参考向量集中,获取与第一向量最相似的第一参考向量,然后利用第一神经网络,对第一向量及第一参考向量进行解码处理,以确定源语句对应的目标语句,其中,第一参考向量集中各参考向量,为在第一神经网络训练阶段,对训练样本中的问题语句进行学习后生成的向量。由此,在进行语言处理过程中,首先从参考向量集中获取与源语句相似的参考向量,然后再对参考向量及源语句对应的第一向量进行解码处理,从而使得神经网络的解码过程,融入了当前源语句与训练样本间的关联关系,提高了获取的目标语句的准确性,有效改善了语言处理装对低频源语句处理的准确性。
在示例性实施例中,本发明还提出了一种计算机可读存储介质。
上述计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现第一方面实施例所述的语言处理方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种语言处理方法,其特征在于,包括:
将源语句进行预处理,生成第一向量;
从第一参考向量集中,获取与所述第一向量间的相似度大于第一阈值的第一参考向量;
利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句;
其中,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
2.如权利要求1所述的方法,其特征在于,所述获取与所述第一向量间的相似度大于第一阈值的第一参考向量之后,还包括:
从第一种子向量集中,获取与所述第一参考向量对应的第一种子向量;
其中,所述第一种子向量集中的第n个种子向量,用于在所述第一神经网络训练阶段,与训练样本中第k个问题语句对应的向量一同被所述第一神经网络进行解码处理时,得到训练样本中结果语句的概率大于第二阈值,且第n个种子向量对应的第n个参考向量与第k个问题语句间的相似度大于第一阈值;
所述确定与所述源语句对应的目标语句,包括:
利用所述第一神经网络,对所述第一向量及所述第一种子向量分别进行预解码处理,得到第一概率向量及第二概率向量;
根据所述第一向量与所述第一参考向量间的第一相似度,利用所述第一神经网络,对所述第一概率向量及所述第二概率向量进行解码处理,确定与所述源语句对应的目标语句。
3.如权利要求2所述的方法,其特征在于,所述确定与所述源语句对应的目标语句,包括:
确定与所述源语句对应的各目标语句及各产生所述各目标语句的概率值。
4.如权利要求3所述的方法,其特征在于,所述将源语句进行预处理之前,还包括:
接收用户输入的服务请求,所述服务请求中包括所述源语句;
所述确定与所述源语句对应的各目标语句之后,还包括:
根据所述产生所述各目标语句的概率值、及所述用户的历史使用记录,确定当前待返回的目标语句。
5.如权利要求4所述的方法,其特征在于,所述用户的历史使用记录,包括:
所述用户的历史服务请求记录、及与所述历史服务请求记录对应的响应记录。
6.如权利要求2-5任一所述的方法,其特征在于,所述获取与所述第一向量最相似的第一参考向量之前,还包括:
获取训练数据集,所述训练数据集中包括N个语句对,其中第i个语句对包括第i个问题语句及第i个结果语句,N为正整数,i为小于或等于N的正整数;
确定第i个问题语句对应的第i个训练向量;
从第二参考向量集中,获取与所述第i个训练向量最相似的第j个初始参考向量,其中,j为正整数,其中第二参考向量集中各参考向量,为所述第一参考向量集中各参考向量的初始值;
利于预设的参考向量更新规则,根据所述第i个训练向量对所述第j个初始参考向量进行更新;
利用所述训练数据集中各问题语句,重复执行上述操作,直至生成所述第一参考向量集。
7.如权利要求6所述的方法,其特征在于,所述对所述第一向量及所述第一种子向量进行解码处理之前,还包括:
从第二种子向量集中,获取与所述第j个初始参考向量对应的第j个初始种子向量,其中第二种子向量集中各种子向量,为所述第一种子向量集中各种子向量的初始值;
根据所述第i个训练向量、第i个结果语句及所述第j个初始种子向量,对所述初始神经网络的系数矩阵及所述第二种子向量集进行修正;
利用所述训练数据集中各语句对,重复执行上述操作,直至达到预设的轮数或者确定神经网络的输出误差在预设范围内。
8.如权利要求7所述的方法,其特征在于,所述对所述初始神经网络的系数矩阵及所述第二种子向量集进行修正,包括:
确定所述初始神经网络,对所述第i个训练向量及所述第j个初始种子向量进行解码处理,生成所述第i个结果语句时,对应的第i个似然函数;
计算所述第i个似然函数的值最大时,所述系数矩阵中各元素的取值、及所述第j个初始种子向量的取值。
9.一种语言处理装置,其特征在于,包括:
预处理模块,用于将源语句进行预处理,生成第一向量;
获取模块,用于从第一参考向量集中,获取与所述第一向量间的相似度大于第一阈值的第一参考向量;
确定模块,用于利用第一神经网络,对所述第一向量及所述第一参考向量进行解码处理,确定与所述源语句对应的目标语句,其中,,所述第一参考向量集中的参考向量,为在所述第一神经网络训练阶段,对训练数据中的问题语句学习后生成的向量。
10.一种计算机设备,其特征在于,包括:存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述程序时实现如权利要求1-8任一所述的语言处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-8任一所述的语言处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810206125.8A CN110147881B (zh) | 2018-03-13 | 2018-03-13 | 语言处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810206125.8A CN110147881B (zh) | 2018-03-13 | 2018-03-13 | 语言处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147881A true CN110147881A (zh) | 2019-08-20 |
CN110147881B CN110147881B (zh) | 2022-11-22 |
Family
ID=67588305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810206125.8A Active CN110147881B (zh) | 2018-03-13 | 2018-03-13 | 语言处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147881B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393547A (zh) * | 2007-09-20 | 2009-03-25 | 株式会社东芝 | 机器翻译设备、方法和系统 |
WO2015192734A1 (en) * | 2014-06-18 | 2015-12-23 | Tencent Technology (Shenzhen) Company Limited | Information processing method and apparatus |
CN106202124A (zh) * | 2015-05-08 | 2016-12-07 | 广州市动景计算机科技有限公司 | 网页分类方法及装置 |
US20170323636A1 (en) * | 2016-05-05 | 2017-11-09 | Conduent Business Services, Llc | Semantic parsing using deep neural networks for predicting canonical forms |
US20180032900A1 (en) * | 2016-07-27 | 2018-02-01 | International Business Machines Corporation | Greedy Active Learning for Reducing Labeled Data Imbalances |
-
2018
- 2018-03-13 CN CN201810206125.8A patent/CN110147881B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393547A (zh) * | 2007-09-20 | 2009-03-25 | 株式会社东芝 | 机器翻译设备、方法和系统 |
WO2015192734A1 (en) * | 2014-06-18 | 2015-12-23 | Tencent Technology (Shenzhen) Company Limited | Information processing method and apparatus |
CN106202124A (zh) * | 2015-05-08 | 2016-12-07 | 广州市动景计算机科技有限公司 | 网页分类方法及装置 |
US20170323636A1 (en) * | 2016-05-05 | 2017-11-09 | Conduent Business Services, Llc | Semantic parsing using deep neural networks for predicting canonical forms |
US20180032900A1 (en) * | 2016-07-27 | 2018-02-01 | International Business Machines Corporation | Greedy Active Learning for Reducing Labeled Data Imbalances |
Non-Patent Citations (5)
Title |
---|
GANBIN ZHOU 等: "Mechanism-Aware Neural Machine for Dialogue Response Generation", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
李亚超 等: "神经机器翻译综述", 《计算机学报》 * |
李敏 等: "基于深度学习的维吾尔语语句情感倾向分析", 《计算机工程与设计》 * |
李耀勇: "利用HNC理论进行基于实例的英汉机器翻译", 《自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集》 * |
杨攀 等: "基于短语统计翻译的汉维机器翻译系统", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
CN110717340B (zh) * | 2019-09-29 | 2023-11-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110147881B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597492B (zh) | 语音合成方法和装置 | |
US11886998B2 (en) | Attention-based decoder-only sequence transduction neural networks | |
JP7109560B2 (ja) | グローバルローカルエンコーダを使用した対話状態追跡 | |
CN110929515B (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
CN108170749B (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN106528845B (zh) | 基于人工智能的检索纠错方法及装置 | |
US10032463B1 (en) | Speech processing with learned representation of user interaction history | |
CN113519001A (zh) | 利用语言模型生成常识解释 | |
CN110287961A (zh) | 中文分词方法、电子装置及可读存储介质 | |
CN107315772B (zh) | 基于深度学习的问题匹配方法以及装置 | |
CN110335584A (zh) | 神经网络生成建模以变换语音发音和增强训练数据 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN110597966A (zh) | 自动问答方法及装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN105046366A (zh) | 模型训练方法及装置 | |
CN109726400A (zh) | 实体词识别结果评价方法、装置、设备及实体词提取系统 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN114072816A (zh) | 用于神经主题建模中的多视图和多源迁移的方法和系统 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
US12086713B2 (en) | Evaluating output sequences using an auto-regressive language model neural network | |
CN110147881A (zh) | 语言处理方法、装置、设备及存储介质 | |
CN113535911B (zh) | 奖励模型处理方法、电子设备、介质和计算机程序产品 | |
CN117035038A (zh) | 模型剪枝方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |