CN110837738B - 相似问识别方法、装置、计算机设备及存储介质 - Google Patents
相似问识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110837738B CN110837738B CN201910905566.1A CN201910905566A CN110837738B CN 110837738 B CN110837738 B CN 110837738B CN 201910905566 A CN201910905566 A CN 201910905566A CN 110837738 B CN110837738 B CN 110837738B
- Authority
- CN
- China
- Prior art keywords
- layer
- question
- matrix
- vector
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种相似问识别方法、装置、计算机设备及存储介质,所述方法包括:通过获取待识别问句,并从预设的问题库中,获取每个标准问,将待识别问句与每个标准问分别组成一组基础数据,再将每组基础数据输入到目标相似问模型中,通过训练好的目标相似问模型进行识别,得到每组基础数据对应的识别结果,根据每组基础数据对应的识别结果,确定待识别问句对应的标准问,提高了相似问识别的准确率和效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种相似问识别方法、装置、计算机设备及存储介质。
背景技术
在智能面试场景中,预先会在问题库中设置一些标准问题,这类问题被称为标准问,对于每个标准问,内置了一些对应回答的评分规则,在面试者参与面试后,根据面试者对每个标准问的回答和评分规则,即可确定面试者的面试评分,避免人工主观因素影响。
但是,面试官在进行面试的过程中,由于语言习惯等一些因素影响,使得提问的问题与标准问虽然语义上相同,但是字面上有所区别,这种现象,在自然语言处理领域被称为相似问问题,如何准确高效地判断一个句子是否为某个标准问的相似问,是智能面试场景中一个亟待解决的难题。
在当前,进行相似问判断时,通常是采用将标准问和提问问题训练成词向量模型,得到标准问的词向量和提问问题的词向量,再将得到的两个词向量进行匹配,来获取提问问题对应的标准问,但是,训练好的词向量蕴含的语义信息是固定的,在自然语言中,往往在后一轮的提问中,会根据前一轮的提问进行简单问答,例如:A问“你买房了吗”,B回答“我买房了”,A再问“在哪儿”,如何确定“在哪儿”这一提问问题代表什么意思,单单依靠训练好的词向量模型判断该提问问题对应哪个标准问,准确率往往达不到要求。
发明内容
本发明实施例提供一种相似问识别方法、装置、计算机设备和存储介质,以解决当前相似问识别准确率低的问题。
第一方面,本发明实施例提供一种相似问识别方法,包括:
获取待识别问句;
从预设的问题库中,获取每个标准问,将所述待识别问句与每个所述标准问分别组成一组基础数据;
将每组所述基础数据输入到目标相似问模型中,其中,所述目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
通过所述第一输入层将所述基础数据中的标准问传递到所述第一编码层,通过所述第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用所述第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
通过所述第二输入层将所述基础数据中的待识别问句传递到所述第二编码层,通过所述第二编码层对所述待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用所述第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵输入到所述目标全连接层;
在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定所述基础数据对应的识别结果;
根据每组基础数据对应的所述识别结果,确定所述待识别问句对应的标准问。
第二方面,本发明实施例提供一种相似问识别装置,包括:
问句获取模块,用于获取待识别问句;
问句分组模块,用于从预设的问题库中,获取每个标准问,将所述待识别问句与每个所述标准问分别组成一组基础数据;问句输入模块,用于将每组所述基础数据输入到目标相似问模型中,其中,所述目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
第一特征提取模块,用于通过所述第一输入层将所述基础数据中的标准问传递到所述第一编码层,通过所述第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用所述第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
第二特征提取模块,用于通过所述第二输入层将所述基础数据中的待识别问句传递到所述第二编码层,通过所述第二编码层对所述待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用所述第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
特征输入模块,用于将所述第一特征矩阵和所述第二特征矩阵输入到所述目标全连接层;
特征识别模块,用于在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定所述基础数据对应的识别结果;
结果确定模块,用于根据每组基础数据对应的所述识别结果,确定所述待识别问句对应的标准问。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述相似问识别方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述相似问识别方法的步骤。
本发明实施例提供的相似问识别方法、装置、计算机设备及存储介质,通过获取待识别问句,并从预设的问题库中,获取每个标准问,将待识别问句与每个标准问分别组成一组基础数据,再将每组基础数据输入到目标相似问模型中,其中,目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层,通过第一输入层将基础数据中的标准问传递到第一编码层,通过第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵,通过第二输入层将基础数据中的待识别问句传递到第二编码层,通过第二编码层对待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵,将第一特征矩阵和第二特征矩阵输入到目标全连接层,在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定基础数据对应的识别结果,根据每组基础数据对应的识别结果,确定待识别问句对应的标准问,提高了相似问识别的准确率和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的相似问识别方法的应用环境示意图;
图2是本发明实施例提供的相似问识别方法的实现流程图;
图3是本发明实施例提供的相似问识别方法中相似问模型的结构示意图;
图4是本发明实施例提供的相似问模型训练方法的实现流程图;
图5是本发明实施例提供的相似问识别方法中步骤S11的一实现流程图;
图6是本发明实施例提供的相似问识别方法中步骤S11的另一实现流程图;
图7是本发明实施例提供的相似问识别方法中步骤S16的一实现流程图;
图8是本发明实施例提供的相似问识别方法中步骤S164的一实现流程图;
图9是本发明实施例提供的相似问识别装置的示意图;
图10是本发明实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示出本发明实施例提供的相似问识别方法的应用环境。该相似问识别方法应用在智能面试中的相似问识别场景中。该识别场景包括客户端和服务端,其中,客户端和服务端之间通过网络进行连接,服务端训练目标相似问模型,在客户端需要进行待识别问句识别时,将该待识别问句发送给服务端,服务端通过目标相似问模型识别待识别问句对应的标准问,客户端具体可以但不限于是各种个人计算机、便携式笔记本、平板电脑、手机和带有网络数据传递功能的智能设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。
请参阅图2,图2示出本发明实施例提供的一种相似问识别方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S21:获取待识别问句。
具体地,在进行智能面试时,先获取待识别问句,以使后续将该待识别问句与预设的问题库中的标准问进行比对,确定该待识别问句对应的标准问,也即,判断该待识别问句属于哪一标准问对应的相似问。
S22:从预设的问题库中,获取每个标准问,将待识别问句与每个标准问分别组成一组基础数据。
具体地,从预设的问题库中,获取每个标准问,并将待识别问句与每个标准分别进行组合,得到每个标准问对应的基础数据。
示例性地,预设的问题库中存储有100个标准问,在获取到待识别问句之后,将待识别问句与每个标准问组成一组基础数据,得到100组基础数据,在后续,将每组基础数据中的标准问和待识别问句分别输入到目标相似问模型中的第一输入层和第二输出层,以使通过目标相似问模型对每组基础数据是否属于相似问进行识别判断,得到识别结果。
S23:将每组基础数据输入到目标相似问模型中,其中,目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层。
具体地,将每组基础数据输入到目标相似问模型中,以使后续通过目标相似问模型判别哪一组别的基础数据为一对相似问。
其中,目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层,具体请参加图3,图3为目标相似问模型的结构示意图。
S24:通过第一输入层将基础数据中的标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵。
具体地,通过第一输入层将标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵。
其中,transformer层是通过transformer框架进行构建,transformer框架是谷歌团队提出的自然语言处理的经典之作,Transformer可以增加到非常深的深度,并利用注意力机制实现快速并行,因而,Transformer框架相对于通常的卷积神经网络或者循环神经网络具有训练速度快,且识别率高的特点。
S25:通过第二输入层将基础数据中的待识别问句传递到第二编码层,通过第二编码层对待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵。
具体地,通过第二输入层将待识别问句传递到第二编码层,通过第二编码层对待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵。
需要说明的是,步骤S24与步骤S25之间没有必然的先后顺序关系,其具体也可以是并列执行,此处不作具体限制。
S26:将第一特征矩阵和第二特征矩阵输入到目标全连接层。
具体地,分别将第一transformer层输出的第一特征矩阵和第二transformer层输出的第二特征矩阵均输入到目标全连接层。
S27:在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定基础数据对应的识别结果。
具体地,在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果,具体过程可参考步骤S1641至步骤S1643的步骤,为避免重复,此处不再赘述。
S28:根据每组基础数据对应的识别结果,确定待识别问句对应的标准问。
具体地,根据每组基础数据对应的识别结果,获取识别结果为该组基础数据为相似问的识别结果中的标准问,作为待识别问句对应的标准问。
在本实施例中,通过获取待识别问句,并从预设的问题库中,获取每个标准问,将待识别问句与每个标准问分别组成一组基础数据,再将每组基础数据输入到目标相似问模型中进行识别,得到每组基础数据对应的识别结果,根据每组基础数据对应的识别结果,确定待识别问句对应的标准问,提高了相似问识别的准确率和效率。
在一实施例中,步骤S23之前,该相似问识别方法还包括对目标相似问模型的训练,下面通过一个具体的实施例来对目标相似问模型的训练的实现方法进行详细说明,请参阅图4,具体过程如下:
S11:获取预设语料库,并使用预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型,其中,初始语义识别模型为多层长短时记忆网络,多层长短时记忆网络包括编码层、K个长短时记忆层和全连接层,K为大于1的正整数。
具体地,本实施例中使用的的语义识别模型为多层长短时记忆网络模型,通过获取预设语料库,并将预设语料库输入到初始语义识别模型中进行训练,在达到预设条件时,得到训练好的语义识别模型。
其中,预设语料库具体可以是微博、影视台词等热门话题中的内容,获取预设语料库具体可以是通过网络爬虫的方式进行获取。
其中,多层长短时记忆网络为包含多个长短时记忆层的神经网络模型,长短时记忆网络(Long Short-Term Memory,简称LSTM)是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
其中,预设条件具体可以是达到预设的迭代次数,例如迭代20次,也可以是指在训练过程中,拟合达到预设的范围等。
其中,K的数值可以根据实际需求进行设定,优选地,在本实施例中,K的数值为3,也即,使用3个长短时记忆层。
S12:从预设的问题库中,获取面试语料库,其中,面试语料库包括标准问和标准问对应的相似问。
具体地,在服务端存储由预设的问题库,从该预设的问题库中,获取面试语料库。
其中,面试语料库包括标准问和标准问对应的相似问。
其中,本实施例中的相似问是指与预设的问题库中的标准问具有相同或者相近语义的问题。
S13:将标准问输入训练好的语义识别模型进行识别,得到编码层输出的第一向量矩阵和长短时记忆层输出的K个第一输出结果,并对第一向量矩阵和K个第一输出结果进行加权汇总,得到第一参数信息。
具体地,步骤S11中,得到的训练好的语义识别模型为一个通用的语义识别模型,为提高对面试语料库中语义的理解程度,在本实施例中,将面试语料库中的标准问输入到该训练好的语义识别模型中,得到编码层输出的第一向量矩阵,以及每个长短时记忆层输出的数字化向量,将第一向量矩阵和每个数字化向量均作第一输出结果,并对第一输出结果进行加权汇总,得到第一参数信息。
进一步地,对第一输出结果进行加权汇总,得到第一参数信息包括:
获取编码层的预设权重W0,以及第i个长短时记忆层的预设权重Wi,其中,i为正整数;
使用如下公式对第一输出结果进行加权汇总,得到第一参数信息:
其中,A0为编码层对应的第一输出结果,Ai为第i个长短时记忆层对应的第一输出结果,A为第一参数信息。
S14:将标准问对应的相似问输入训练好的语义识别模型进行识别,得到编码层输出的第二向量矩阵和长短时记忆层输出的K个第二输出结果,并对第二向量矩阵和K个第二输出结果进行加权汇总,得到第二参数信息。
具体地,步骤S11中,得到的训练好的语义识别模型为一个通用的语义识别模型,为提高对面试语料库中语义的理解程度,在本实施例中,将面试语料库中的标准问输入到该训练好的语义识别模型中,得到编码层输出的第二向量矩阵,以及每个长短时记忆层输出的数字化向量,将第二向量矩阵和每个数字化向量均作为第二输出结果,并对第二输出结果进行加权汇总,得到第二参数信息。
本实施例中,对第二输出结果进行加权汇总,得到第二参数信息的具体过程可参照步骤S13的描述,为避免重复,此处不再赘述。
需要说明的是,步骤S13与步骤S14之间,没有必然的先后顺序关系,其具体也可以是并行执行,此处不作具体限定。
S15:将标准问、标准问对应的相似问、第一参数信息和第二参数信息输入到相似问模型中,其中,相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层。
具体地,将标准问、标准问对应的相似问、第一参数信息和第二参数信息输入到相似问模型中,其中,相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层,相似问模型的具体结构示意图可参考图3所示。
其中,第一输入层和第二输入层用于接收标准问和标准问对应的相似问。
其中,第一编码层和第二编码层用于从标准问和标准问对应的相似问中提取向量特征数据;
其中,第一transformer层和第二transformer层用于对向量特征数据进行处理,得到具有上下文语义的特征矩阵,并将该特征矩阵输入到目标全连接层。
其中,目标全连接层用于对特征矩阵进行识别,并根据识别结果对第一编码层、第二编码层、第一transformer层和第二transformer层的参数进行调整。
S16:使用第一输入层接收标准问,使用第二输入层接收标准问对应的相似问,将第一参数信息作为第一transformer层的初始参数信息,将第二参数信息作为第二transformer层的初始参数信息,并对相似问模型进行训练,得到目标相似问模型。
具体地,使用第一输入层接收标准问,使用第二输入层接收标准问对应的相似问,将第一参数信息作为第一transformer层的初始参数信息,将第二参数信息作为第二transformer层的初始参数信息,并对相似问模型进行训练,得到目标相似问模型。
其中,对相似问模型进行训练,得到目标相似问模型的具体过程可参考步骤S161至步骤S166的描述,为避免重复,此处不再赘述。
容易理解地,采用训练好的语义识别模型对标准问进行识别得到的第一参数信息,作为第一transformer层的初始参数信息,同时,训练好的语义识别模型对相似问进行识别得到的第二参数信息,作为第二transformer层的初始参数信息,有利于后续提升相似问模型训练的速度。
在本实施例中,通过使用预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型,使得可以通过该语义识别模型对相似问和标准问进行上下文语义的理解,提高了后续使用该语义识别模型进行识别的准确率,同时,从预设的问题库中,获取面试语料库,再将面试语料库中的相似问和标准问分别输入到训练好的语义识别模型中进行识别,得到第一参数信息和第二参数信息,使得得到的第一参数信息和第二参数信息本预设问题库中的标准问和相似问识别度较高,进而将第一参数信息和第二参数信息分别作为相似问模型中第一transformer层、第二transformer层的初始参数信息,并将标准问和标准问对应的相似问作为训练数据,输入到相似问模型中进行训练,得到目标相似问模型,实现了采用对预设问题库中的标准问和相似问识别度较高的参数信息,作为相似问模型的初始参数,有利于提高相似问模型的训练速度,以及目标相似问模型的识别准确率。
在图4对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S11中所提及的获取预设语料库的实现方法进行详细说明,请参阅图5,具体过程如下:
S1111:通过网络爬虫的方式,对预设域名进行爬取,得到预设域名对应的页面信息中的统一资源定位符,其中,页面信息中包含至少一个统一资源定位符。
具体地,通过网络爬虫的方式,对预设域名进行爬取,得到预设的域名对应的网页页面中包含的每个统一资源定位符。
由于网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
其中,统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
其中,深度优先策略的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。
其中,广度优先策略是按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点。
优选地,本发明实施例采用的爬行策略为广度优先策略,先爬取预设的域名,获取各个应用渠道,再在后续对每个应用渠道进行爬取,获取每个应用渠道中包含的各个应用程序的基本信息,避免了爬取过多的无用信息而导致的额外时间开销,提高了爬取效率。
示例性地,通过对预设域名http://apprank.sfw.cn进行爬取,得到该预设域名中包含的其中5个统一资源定位符,这5个统一资源定位符对应的页面信息分别为:安卓市场、91助手、腾讯手机管家、UC应用商店和360手机助手,后续通过访问这5个统一资源定位符进行访问,即可获取每个统一资源定位符对应的页面信息。
S1112:爬取每个统一资源定位符,得到每个统一资源定位符对应的基本信息。
具体地,对获取到的每个统一资源定位符进行爬取,得到每个统一资源定位符对应的基本信息。
S1113:采用正则匹配的方式,对每个基本信息进行正则匹配,得到每个基本信息中包含的语料信息。
具体地,通过正则匹配的方式,对每个基本信息进行正则匹配,将匹配结果中,符合要求的每个基本信息作为语料信息。
S1114:对语料信息进行数据清洗,并根据数据清洗后的语料信息生成预设语料库。
具体地,对语料信息进行数据清洗,并根据数据清洗后的语料信息生成预设语料库。
其中,数据清洗(Data cleaning)是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
在本实施例中,通过网络爬虫的方式,对预设域名进行爬取,得到预设域名对应的页面信息中的统一资源定位符,进而爬取每个统一资源定位符,得到每个统一资源定位符对应的基本信息,再采用正则匹配的方式,对每个基本信息进行正则匹配,得到每个基本信息中包含的语料信息,并对语料信息进行数据清洗,并根据数据清洗后的语料信息生成预设语料库,得到样本丰富的预设语料库,有利于后续通过该预设语料库进行语义识别模型的训练的准确率。
在图4对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S11中所提及的使用预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型的实现方法进行详细说明,请参阅图6,具体过程如下:
S1121:将预设语料库中的每个语料作为一个训练集,并将训练集输入到编码层。
具体地,在预设语料库中,包含多个语料,将每个语料作为一个训练集,并将训练集输入到编码层,以使后续编码层对训练集进行向量特征提取。
S1122:通过编码层对训练集进行向量化处理,得到训练集对应的词向量,并通过预设方式,获取每个词向量对应的位置向量。
具体地,通过编码层对训练集进行向量化处理,得到训练集对应的词向量,同时,通过预设方式,得到每个词向量对应的位置向量。
其中,向量化处理是指对将训练集转化为词向量的形式,后续通过将词向量转化为向量矩阵进行特征提取。
其中,位置向量是指用于指代词向量与其他词向量直接的位置关系,在本实施例中,可以指定一个词向量作为实体词,进而计算其他词向量与该实体词的距离,得到每个词向量的位置向量。
优选的,本实施例指定第一个词向量为实体词。
例如,在一具体实施方式中,采用skip-gram模型,窗口大小设为8,迭代周期设为15,设定词向量的维度是400维,训练结束后,得到一个词向量映射表,进而根据词向量映射表,获取训练集的每一个词对应的词向量。为了加快训练速度,将该词典中的词与数据集中出现的词一一对应,对多余的词向量舍弃,进而抽取位置向量,也即,获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,得到的每个词向量在句子中的位置,以实体位置为原点,得到句子中的每个词相对词向量的位置,每个词对两个实体的相对位置组成该词的位置向量特征。
S1123:对词向量和词向量对应的位置向量进行向量级联,得到向量矩阵。
具体地,对词向量和词向量对应的位置向量进行向量级联,得到向量矩阵。
其中,级联(cascade)在指建立多个对象之间的映射关系,建立数据之间的级联关系提高执行或管理效率,本实施例中的向量级联,具体是指建立词向量和词向量对应的位置向量的级联,得到向量矩阵。
S1124:将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息。
具体地,将向量矩阵输入到多层长短时记忆层,通过多层长短时记忆层,提取向量矩阵中包含的上下文语义信息。
其中,长短时记忆层(Long Short-Term Memory,简称LSTM)是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
需要说明的是,单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,而双向LSTM由两个方向不同的LSTM组成,一个LSTM按照句子中词的顺序从前往后读取数据,另一个LSTM从后往前按照句子词序的反方向读取数据,这样第一个LSTM获得上文信息,另一个LSTM获得下文信息,两个LSTM的联合说出就是整个句子的上下文信息,而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息(句子的意思),这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,而且由于我们输入了位置特征,其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息,其他的方法就没有这样的优点。
因而,作为一种优选方式,本实施例采用双向LSTM来构建长短时记忆层。
S1125:将上下文语义信息输入到全连接层,通过全连接层对上下文语义信息进行识别,得到识别语义信息,并将识别语义信息与预设标注信息进行对比,得到对比结果。
具体地,将上下文语义信息输入到全连接层,通过全连接层对上下文语义信息进行识别,得到识别语义信息,并将识别语义信息与预设标注信息进行对比,得到对比结果。
其中,对比结果包括识别正确和识别错误。
S1126:若对比结果不满足预设条件,则通过反向传播的方式,对长短时记忆层的参数进行调整,并返回将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息的步骤继续执行,直到对比结果满足预设条件,将此时得到的初始语义识别模型作为训练好的语义识别模型。
具体地,在对比结果不满足预设条件时,通过反向传播的方式,对长短时记忆层的参数进行调整,并返回将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息的步骤继续执行,直到对比结果满足预设条件,将此时得到的初始语义识别模型作为训练好的语义识别模型。
其中,预设条件具体可以是预设的迭代次数,例如50次,也可以是识别准确率达到预设准确率阈值,例如,识别准确率超过90%,也可以依据实际情况进行设定,此处不做限制。
在本实施例中,将预设语料库中的每个语料作为一个训练集,并将训练集输入到编码层,通过编码层对训练集进行向量化处理,得到训练集对应的词向量,并通过预设方式,获取每个词向量对应的位置向量,进而对词向量和词向量对应的位置向量进行向量级联,得到向量矩阵,再将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息,将上下文语义信息输入到全连接层,通过全连接层对上下文语义信息进行识别,得到识别语义信息,并将识别语义信息与预设标注信息进行对比,得到对比结果,在对比结果不满足预设条件时,通过反向传播的方式,对长短时记忆层的参数进行调整,并返回S1124的步骤继续执行,直到对比结果满足预设条件,将此时得到的初始语义识别模型作为训练好的语义识别模型,通过预设语料库中的海量语料与多层长短时记忆层,使得训练好的语义识别模型的识别准确率较高。
在图4对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S16中所提及的对相似问模型进行训练,得到目标相似问模型的实现方法进行详细说明,请参阅图7,具体流程如下:
S161:通过第一输入层将标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵。
具体地,通过第一输入层将标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵。
S162:通过第二输入层将相似问传递到第二编码层,通过第二编码层对相似问进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵。
具体地,通过第二输入层将相似问传递到第二编码层,通过第二编码层对相似问进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵。
需要说明的是,步骤S161与步骤S162之间没有必然的先后顺序关系,其具体也可以是并列执行,此处不作具体限制。
S163:将第一特征矩阵和第二特征矩阵输入到目标全连接层。
具体地,分别将第一transformer层输出的第一特征矩阵和第二transformer层输出的第二特征矩阵均输入到目标全连接层。
S164:在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果。
具体地,在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果,具体过程可参考步骤S1641至步骤S1643的步骤,为避免重复,此处不再赘述。
S165:根据输入的标准问、输入的相似问和相似问的标注信息,计算识别结果的准确率。
具体地,在训练过程中,每个相似问都预设有标注信息,通过输入的标准问、输入的相似问和相似问的标注信息,判断每个识别结果的准确性,进而计算得到的所有识别结果的准确率。
其中,标注信息是指用来标注该相似问对应的标准问,通过该标注信息,可以判断步骤S164中的识别结果是否准确。
S166:若识别结果的准确率小于预设阈值,则通过反向传播的方式,对相似问模型进行迭代训练,直到识别结果的准确率大于或等于预设阈值,将得到的相似问模型作为目标相似问模型。
具体地,若识别结果的准确率小于预设阈值,则通过反向传播和损失函数对相似问模型进行迭代训练,直到识别结果的准确率大于或等于预设阈值,停止训练,将此时得到的相似问模型作为目标相似问模型。
其中,反向传播(Backpropagation algorithm,BP)是一种多层神经元网络的一种学习算法,它建立在梯度下降法的基础上,反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
其中,损失函数包括但不限于:均方误差(Mean-Square Error,MSE)损失函数、合页(Hinge)损失函数、交叉熵(Cross Entropy)损失函数和Smooth L1损失函数等,优选地,本实施例采用的损失函数为交叉熵损失函数。
在本实施例中,通过提取相似问对应的第一特征矩阵和标准问对应的第二特征矩阵,进而对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果确定识别结果,再根据标准问、相似问和相似问的标注信息,计算识别结果的准确率,在识别结果的准确率小于预设阈值时,通过反向创博的方式,对相似问模型进行迭代训练,直到识别结果的准确率大于或等于预设阈值时,将此时得到的相似问模型作为目标相似问模型。实现快速进行相似问模型的训练。
在图7对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S164中所提及的在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果的具体实现方法进行详细说明。
请参阅图8,图8示出了本发明实施例提供的步骤S164的具体实现流程,详述如下:
S1641:将第一特征矩阵与第二特征矩阵进行拼接,得到目标特征矩阵。
具体地,将第一特征矩阵与第二特征矩阵进行拼接,得到目标特征矩阵。
示例性地,第一transformer层输出的第一特征矩阵为a(1*m)和第二transformer层输出的第二特征矩阵为b(1*m),第一特征矩阵a(1*m)和第二特征矩阵b(1*m)进行拼接处理后,得到目标特征矩阵c(1*2m)。
S1642:将目标特征矩阵与目标全连接层的预设参数矩阵进行矩阵相乘处理,得到二维比较向量。
具体地,在目标全连接层,预设有参数矩阵,将目标特征矩阵与目标全连接层的预设参数矩阵进行矩阵相乘处理,得到二维比较向量。
S1643:对二维比较向量中的第一个向量和第二个向量进行数值比较,得到比较结果,并根据比较结果,确定识别结果。
具体地,对二维比较向量中的第一个向量和第二个向量进行数值比较,得到比较结果,在比较结果为第一个向量的值大于第二个向量时,确定识别结果为第二输入层输入的相似问不属于第一层输入层输入的标准问对应的相似问,在比较结果为第一个向量的值小于或等于第二个向量时,确定识别结果为第二输入层输入的相似问属于第一层输入层输入的标准问对应的相似问。
在本实施例中,将第一特征矩阵与第二特征矩阵进行拼接,得到目标特征矩阵,进而将目标特征矩阵与目标全连接层的预设参数矩阵进行矩阵相乘处理,得到二维比较向量,并对二维比较向量中的第一个向量和第二个向量进行数值比较,得到比较结果,并根据比较结果,确定识别结果,实现快速对第一特征矩阵和第二特征矩阵的关联关系进行识别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图9示出与上述实施例相似问识别方法一一对应的似问模型训练装置的原理框图。如图9所示,该相似问模型训练装置包括问句获取模块21、问句分组模块22、问句输入模块23、第一特征提取模块24、第二特征提取模块25、特征输入模块26、特征识别模块27和结果确定模块28。各功能模块详细说明如下:
问句获取模块21,用于获取待识别问句;
问句分组模块22,用于从预设的问题库中,获取每个标准问,将待识别问句与每个标准问分别组成一组基础数据;
问句输入模块23,用于将每组基础数据输入到目标相似问模型中,其中,目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
第一特征提取模块24,用于通过第一输入层将基础数据中的标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
第二特征提取模块25,用于通过第二输入层将基础数据中的待识别问句传递到第二编码层,通过第二编码层对待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
特征输入模块26,用于将第一特征矩阵和第二特征矩阵输入到目标全连接层;
特征识别模块27,用于在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定基础数据对应的识别结果;
结果确定模块28,用于根据每组基础数据对应的识别结果,确定待识别问句对应的标准问。
该相似问识别装置还包括:
语义识别模型训练模块,用于获取预设语料库,并使用预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型,其中,初始语义识别模型为多层长短时记忆网络,多层长短时记忆网络包括编码层、K个长短时记忆层和全连接层,K为大于1的正整数;
面试语料库获取模块,用于从预设的问题库中,获取面试语料库,其中,面试语料库包括标准问和标准问对应的相似问;
第一参数信息获取模块,用于将标准问输入训练好的语义识别模型进行识别,得到编码层输出的第一向量矩阵和长短时记忆层输出的K个第一输出结果,并对第一向量矩阵和K个第一输出结果进行加权汇总,得到第一参数信息;
第二参数信息获取模块,用于将标准问对应的相似问输入训练好的语义识别模型进行识别,得到编码层输出的第二向量矩阵和长短时记忆层输出的K个第二输出结果,并对第二向量矩阵和K个第二输出结果进行加权汇总,得到第二参数信息;
信息输入模块,用于将标准问、标准问对应的相似问、第一参数信息和第二参数信息输入到相似问模型中,其中,相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
相似问模型训练模块,用于使用第一输入层接收标准问,使用第二输入层接收标准问对应的相似问,将第一参数信息作为第一transformer层的初始参数信息,将第二参数信息作为第二transformer层的初始参数信息,并对相似问模型进行训练,得到目标相似问模型。
进一步地,语义识别模型训练模块包括:
第一爬取单元,用于通过网络爬虫的方式,对预设域名进行爬取,得到预设域名对应的页面信息中的统一资源定位符,其中,页面信息中包含至少一个统一资源定位符;
第二爬取单元,用于爬取每个统一资源定位符,得到每个统一资源定位符对应的基本信息;
正则匹配单元,用于采用正则匹配的方式,对每个基本信息进行正则匹配,得到每个基本信息中包含的语料信息;
语料库生成单元,用于对语料信息进行数据清洗,并根据数据清洗后的语料信息生成预设语料库。
进一步地,语义识别模型训练模块还包括:
训练集输入单元,用于将预设语料库中的每个语料作为一个训练集,并将训练集输入到编码层;
向量化处理单元,用于通过编码层对训练集进行向量化处理,得到训练集对应的词向量,并通过预设方式,获取每个词向量对应的位置向量;
向量级联单元,用于对词向量和词向量对应的位置向量进行向量级联,得到向量矩阵;
语义理解单元,用于将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息;
对比单元,用于将上下文语义信息输入到全连接层,通过全连接层对上下文语义信息进行识别,得到识别语义信息,并将识别语义信息与预设标注信息进行对比,得到对比结果;
循环迭代单元,用于若对比结果不满足预设条件,则通过反向传播的方式,对长短时记忆层的参数进行调整,并返回将向量矩阵输入到长短时记忆层,通过长短时记忆层,提取向量矩阵中包含的上下文语义信息的步骤继续执行,直到对比结果满足预设条件,将此时得到的初始语义识别模型作为训练好的语义识别模型。
进一步地,相似问模型训练模块包括:
第一特征矩阵获取单元,用于通过第一输入层将标准问传递到第一编码层,通过第一编码层对标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
第二特征矩阵获取单元,用于通过第二输入层将相似问传递到第二编码层,通过第二编码层对相似问进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
矩阵输入单元,用于将第一特征矩阵和第二特征矩阵输入到目标全连接层;
变换处理单元,用于在目标全连接层,对第一特征矩阵和第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果;
迭代训练单元,用于根据输入的标准问、输入的相似问和相似问的标注信息,计算识别结果的准确率;若识别结果的准确率小于预设阈值,则通过反向传播的方式,对相似问模型进行迭代训练,直到识别结果的准确率大于或等于预设阈值,将得到的相似问模型作为目标相似问模型。
进一步地,变换处理单元包括:
矩阵拼接子单元,用于将第一特征矩阵与第二特征矩阵进行拼接,得到目标特征矩阵;
矩阵相乘子单元,用于将目标特征矩阵与目标全连接层的预设参数矩阵进行矩阵相乘处理,得到二维比较向量;
结果确定子单元,用于对二维比较向量中的第一个向量和第二个向量进行数值比较,得到比较结果,并根据比较结果,确定识别结果。
关于相似问模型训练装置的具体限定可以参见上文中对于相似问识别方法的限定,关于相似问识别装置的具体限定可以参见上文中对于相似问识别方法的限定,在此不再赘述。上述相似问模型训练装置和相似问识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图10是本发明一实施例提供的计算机设备的示意图。该计算机设备可以是服务端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始语义识别模型和预设的问题库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述相似问识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中相似问识别方法的步骤,例如图2所示的步骤S21至步骤S28,或者,处理器执行计算机程序时实现上述实施例中相似问识别装置的各模块/单元的功能,例如图9所示的模块21至模块28的功能。为避免重复,这里不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例相似问识别方法的步骤,或者,该计算机程序被处理器执行时实现上述实施例相似问识别装置中各模块/单元的功能。为避免重复,这里不再赘述。
可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号和电信信号等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种相似问识别方法,其特征在于,包括:
获取待识别问句;
从预设的问题库中,获取每个标准问,将所述待识别问句与每个所述标准问分别组成一组基础数据;
获取预设语料库,并使用所述预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型,其中,所述初始语义识别模型为多层长短时记忆网络,所述多层长短时记忆网络包括编码层、K个长短时记忆层和全连接层,K为大于1的正整数;
从预设的问题库中,获取面试语料库,其中,所述面试语料库包括标准问和所述标准问对应的相似问;
将所述标准问输入所述训练好的语义识别模型进行识别,得到所述编码层输出的第一向量矩阵和所述长短时记忆层输出的K个第一输出结果,并对所述第一向量矩阵和K个所述第一输出结果进行加权汇总,得到第一参数信息;
将所述标准问对应的相似问输入所述训练好的语义识别模型进行识别,得到所述编码层输出的第二向量矩阵和长短时记忆层输出的K个第二输出结果,并对所述第二向量矩阵和K个所述第二输出结果进行加权汇总,得到第二参数信息;
将所述标准问、所述标准问对应的相似问、所述第一参数信息和所述第二参数信息输入到相似问模型中,其中,所述相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
使用所述第一输入层接收所述标准问,使用所述第二输入层接收所述标准问对应的相似问,将第一参数信息作为所述第一transformer层的初始参数信息,将所述第二参数信息作为所述第二transformer层的初始参数信息,并对所述相似问模型进行训练,得到目标相似问模型;
将每组所述基础数据输入到目标相似问模型中,其中,所述目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
通过所述第一输入层将所述基础数据中的标准问传递到所述第一编码层,通过所述第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用所述第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
通过所述第二输入层将所述基础数据中的待识别问句传递到所述第二编码层,通过所述第二编码层对所述待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用所述第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵输入到所述目标全连接层;
在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定所述基础数据对应的识别结果;
根据每组基础数据对应的所述识别结果,确定所述待识别问句对应的标准问。
2.如权利要求1所述的相似问识别方法,其特征在于,所述获取预设语料库包括:
通过网络爬虫的方式,对预设域名进行爬取,得到所述预设域名对应的页面信息中的统一资源定位符,其中,所述页面信息中包含至少一个所述统一资源定位符;
爬取每个所述统一资源定位符,得到每个所述统一资源定位符对应的基本信息;
采用正则匹配的方式,对每个所述基本信息进行正则匹配,得到每个所述基本信息中包含的语料信息;
对所述语料信息进行数据清洗,并根据数据清洗后的语料信息生成所述预设语料库。
3.如权利要求1所述的相似问识别方法,其特征在于,使用所述预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型包括:
将所述预设语料库中的每个语料作为一个训练集,并将所述训练集输入到所述编码层;
通过所述编码层对所述训练集进行向量化处理,得到所述训练集对应的词向量,并通过预设方式,获取每个所述词向量对应的位置向量;
对所述词向量和所述词向量对应的位置向量进行向量级联,得到向量矩阵;
将所述向量矩阵输入到所述长短时记忆层,通过所述长短时记忆层,提取所述向量矩阵中包含的上下文语义信息;
将所述上下文语义信息输入到全连接层,通过所述全连接层对所述上下文语义信息进行识别,得到识别语义信息,并将识别语义信息与预设标注信息进行对比,得到对比结果;
若所述对比结果不满足预设条件,则通过反向传播的方式,对所述长短时记忆层的参数进行调整,并返回所述将所述向量矩阵输入到所述长短时记忆层,通过所述长短时记忆层,提取所述向量矩阵中包含的上下文语义信息的步骤继续执行,直到所述对比结果满足预设条件,将此时得到的初始语义识别模型作为所述训练好的语义识别模型。
4.如权利要求1所述的相似问识别方法,其特征在于,所述输入到第二输入层的相似问包含标注信息,所述对所述相似问模型进行训练,得到目标相似问模型包括:
通过所述第一输入层将所述标准问传递到所述第一编码层,通过所述第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用所述第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
通过所述第二输入层将所述相似问传递到所述第二编码层,通过所述第二编码层对所述相似问进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用所述第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵输入到所述目标全连接层;
在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定识别结果;
根据输入的所述标准问、输入的所述相似问和所述相似问的标注信息,计算所述识别结果的准确率;若所述识别结果的准确率小于预设阈值,则通过反向传播的方式,对所述相似问模型进行迭代训练,直到所述识别结果的准确率大于或等于预设阈值,将得到的相似问模型作为所述目标相似问模型。
5.如权利要求4所述的相似问识别方法,其特征在于,所述在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,并根据变换处理的结果,确定识别结果包括:
将所述第一特征矩阵与所述第二特征矩阵进行拼接,得到目标特征矩阵;
将所述目标特征矩阵与所述目标全连接层的预设参数矩阵进行矩阵相乘处理,得到二维比较向量;
对所述二维比较向量中的第一个向量和第二个向量进行数值比较,得到比较结果,并根据所述比较结果,确定识别结果。
6.一种相似问识别装置,其特征在于,包括:
问句获取模块,用于获取待识别问句;
问句分组模块,用于从预设的问题库中,获取每个标准问,将所述待识别问句与每个所述标准问分别组成一组基础数据;
语义识别模型训练模块,用于获取预设语料库,并使用所述预设语料库,对初始语义识别模型进行训练,得到训练好的语义识别模型,其中,所述初始语义识别模型为多层长短时记忆网络,所述多层长短时记忆网络包括编码层、K个长短时记忆层和全连接层,K为大于1的正整数;
面试语料库获取模块,用于从预设的问题库中,获取面试语料库,其中,所述面试语料库包括标准问和所述标准问对应的相似问;
第一参数信息获取模块,用于将所述标准问输入所述训练好的语义识别模型进行识别,得到所述编码层输出的第一向量矩阵和所述长短时记忆层输出的K个第一输出结果,并对所述第一向量矩阵和K个所述第一输出结果进行加权汇总,得到第一参数信息;
第二参数信息获取模块,用于将所述标准问对应的相似问输入所述训练好的语义识别模型进行识别,得到所述编码层输出的第二向量矩阵和长短时记忆层输出的K个第二输出结果,并对所述第二向量矩阵和K个所述第二输出结果进行加权汇总,得到第二参数信息;
信息输入模块,用于将所述标准问、所述标准问对应的相似问、所述第一参数信息和所述第二参数信息输入到相似问模型中,其中,所述相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
相似问模型训练模块,用于使用所述第一输入层接收所述标准问,使用所述第二输入层接收所述标准问对应的相似问,将第一参数信息作为所述第一transformer层的初始参数信息,将所述第二参数信息作为所述第二transformer层的初始参数信息,并对所述相似问模型进行训练,得到目标相似问模型;
问句输入模块,用于将每组所述基础数据输入到目标相似问模型中,其中,所述目标相似问模型包括第一输入层、第二输入层、第一编码层、第二编码层、第一transformer层、第二transformer层和目标全连接层;
第一特征提取模块,用于通过所述第一输入层将所述基础数据中的标准问传递到所述第一编码层,通过所述第一编码层对所述标准问进行向量矩阵提取,并将提取到的向量矩阵输入到第一transformer层,采用所述第一transformer层对提取到的向量矩阵进行特征提取,得到第一特征矩阵;
第二特征提取模块,用于通过所述第二输入层将所述基础数据中的待识别问句传递到所述第二编码层,通过所述第二编码层对所述待识别问句进行向量矩阵提取,并将提取到的向量矩阵输入到第二transformer层,采用所述第二transformer层对提取到的向量矩阵进行特征提取,得到第二特征矩阵;
特征输入模块,用于将所述第一特征矩阵和所述第二特征矩阵输入到所述目标全连接层;
特征识别模块,用于在所述目标全连接层,对所述第一特征矩阵和所述第二特征矩阵进行变换处理,得到变换结果,并根据变换结果,确定所述基础数据对应的识别结果;
结果确定模块,用于根据每组基础数据对应的所述识别结果,确定所述待识别问句对应的标准问。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的相似问识别方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的相似问识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905566.1A CN110837738B (zh) | 2019-09-24 | 2019-09-24 | 相似问识别方法、装置、计算机设备及存储介质 |
PCT/CN2019/116922 WO2021056709A1 (zh) | 2019-09-24 | 2019-11-10 | 相似问识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905566.1A CN110837738B (zh) | 2019-09-24 | 2019-09-24 | 相似问识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837738A CN110837738A (zh) | 2020-02-25 |
CN110837738B true CN110837738B (zh) | 2023-06-30 |
Family
ID=69574576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910905566.1A Active CN110837738B (zh) | 2019-09-24 | 2019-09-24 | 相似问识别方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110837738B (zh) |
WO (1) | WO2021056709A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666755A (zh) * | 2020-06-24 | 2020-09-15 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN113378902B (zh) * | 2021-05-31 | 2024-02-23 | 深圳神目信息技术有限公司 | 一种基于优化视频特征的视频抄袭检测方法 |
CN113704411B (zh) * | 2021-08-31 | 2023-09-15 | 平安银行股份有限公司 | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 |
CN113850078A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于机器学习的多意图识别方法、设备及可读存储介质 |
CN114416927B (zh) * | 2022-01-24 | 2024-04-02 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114595697B (zh) * | 2022-03-14 | 2024-04-05 | 京东科技信息技术有限公司 | 用于生成预标注样本的方法、装置、服务器和介质 |
CN114818693A (zh) * | 2022-03-28 | 2022-07-29 | 平安科技(深圳)有限公司 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
CN117011690B (zh) * | 2023-10-07 | 2024-02-09 | 广东电网有限责任公司阳江供电局 | 一种海缆隐患识别方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013125286A1 (ja) * | 2012-02-23 | 2013-08-29 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
CN109902296A (zh) * | 2019-01-18 | 2019-06-18 | 华为技术有限公司 | 自然语言处理方法、训练方法及数据处理设备 |
CN109933779A (zh) * | 2017-12-18 | 2019-06-25 | 苏宁云商集团股份有限公司 | 用户意图识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702665B2 (en) * | 2005-06-14 | 2010-04-20 | Colloquis, Inc. | Methods and apparatus for evaluating semantic proximity |
-
2019
- 2019-09-24 CN CN201910905566.1A patent/CN110837738B/zh active Active
- 2019-11-10 WO PCT/CN2019/116922 patent/WO2021056709A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013125286A1 (ja) * | 2012-02-23 | 2013-08-29 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
CN109933779A (zh) * | 2017-12-18 | 2019-06-25 | 苏宁云商集团股份有限公司 | 用户意图识别方法及系统 |
CN109902296A (zh) * | 2019-01-18 | 2019-06-18 | 华为技术有限公司 | 自然语言处理方法、训练方法及数据处理设备 |
Non-Patent Citations (1)
Title |
---|
面向知识库问答中复述问句评分的词向量构建方法;詹晨迪;凌震华;戴礼荣;;模式识别与人工智能(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021056709A1 (zh) | 2021-04-01 |
CN110837738A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837738B (zh) | 相似问识别方法、装置、计算机设备及存储介质 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
US11640515B2 (en) | Method and neural network system for human-computer interaction, and user equipment | |
CN111221944B (zh) | 文本意图识别方法、装置、设备和存储介质 | |
CN110929515A (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN111444715B (zh) | 实体关系识别方法、装置、计算机设备和存储介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN109522561B (zh) | 一种问句复述识别方法、装置、设备及可读存储介质 | |
CN112580328A (zh) | 事件信息的抽取方法及装置、存储介质、电子设备 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN114492451B (zh) | 文本匹配方法、装置、电子设备及计算机可读存储介质 | |
CN111625715A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
JP2024512628A (ja) | キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置 | |
CN116663523A (zh) | 多角度增强网络的语义文本相似度计算方法 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |