CN110895559B - 模型训练、文本处理方法、装置以及设备 - Google Patents
模型训练、文本处理方法、装置以及设备 Download PDFInfo
- Publication number
- CN110895559B CN110895559B CN201811061901.6A CN201811061901A CN110895559B CN 110895559 B CN110895559 B CN 110895559B CN 201811061901 A CN201811061901 A CN 201811061901A CN 110895559 B CN110895559 B CN 110895559B
- Authority
- CN
- China
- Prior art keywords
- text
- training
- vector
- word
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例提供一种模型训练、文本处理方法、装置以及设备,所述模型训练方法包括:获取源语言构成的第一训练文本;获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型;其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。本申请实施例提高了文本识别范围以及效果。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种模型训练、文本处理方法、装置以及设备。
背景技术
智能问答主要指通过将无序的语料进行有序以及科学的整理,建立知识分类模型,通过知识分类模型识别用户的输入文本,并输出回答,节约人力资源,提高信息的处理效率。例如,智能机器人即为一种常见的智能问答模型。
目前,所有的知识分类模型都是以单一语言为基础而建立的,例如,中文的语料即对应训练中文的知识分类模型,英文的语料即对应训练英文的知识分类模型。针对现有知识模型的使用,进能识别其想对应的文本。
但是,现有的模型训练方法,通常仅能训练单一语言的知识分类模型,缺乏不同语言或者多语言的知识分类模型。
发明内容
本申请实施例提供一种模型训练、文本处理方法、装置以及设备,用以解决现有技术中模型训练方法仅能识别单一语言,不能处理不同语言或多语言识别的技术问题。
第一方面,本申请实施例中提供了一种模型训练方法,包括:
获取源语言构成的第一训练文本;
获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;
基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
第二方面,本申请实施例中提供了一种文本处理方法,包括:
确定待处理文本对应的至少一种目标语言;
基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;
获得与所述目标文本对应的应答内容。
第三方面,本申请实施例提供了一种文本处理方法,包括:
确定用户输入的至少一种目标语言的待处理文本;
发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端;
接收所述服务端发送的目标文本的应答内容;
输出所述应答内容,以供所述用户查看;
其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于第二训练文本的数量。
第四方面,本申请实施例中提供了一种模型训练装置,包括:
第一获取模块,用于获取源语言构成的第一训练文本;
第二获取模块,用于获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;
模型训练模块,用于基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
第五方面,本申请实施例中提供了一种文本处理装置,包括:
第一确定模块,用于确定待处理文本对应的至少一种目标语言;
文本匹配模块,用于基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本。其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;
内容获取模块,用于获得与所述目标文本对应的应答内容。
第六方面,本申请实施例中提供了一种文本处理装置,包括:
第二确定模块,用于确定用户输入的至少一种目标语言的待处理文本;
文本发送模块,用于发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端;
文本接收模块,用于接收所述服务端发送的目标文本的应答内容;
文本输出模块,用于输出所述应答内容,以供所述用户查看;
其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量。
第七方面,本申请实施例中提供了一种模型训练设备,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
获取源语言构成的第一训练文本;获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
第八方面,本申请实施例中提供了一种文本处理设备,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:确定待处理文本对应的至少一个目标语言;
确定待处理文本对应的至少一个目标语言;基于文本识别模型,从所述至少一个目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应至少一个目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;获得与所述目标文本对应的应答内容。
第九方面,本申请实施例提供了一种文本处理设备,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
确定用户输入的至少一种目标语言的待处理文本;发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端;接收所述服务端发送的目标文本的应答内容;输出所述应答内容,以供所述用户查看;其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于第二训练文本的数量。
本申请实施例中,获取源语言第一训练文本以及该至少一种目标语言的第二训练文本,并基于该第一训练文本与第二训练文本语义相同的训练结果,利用第一训练文本以及第二训练文本来训练文本识别模型。由于训练结果是第一训练文本与第二训练文本的语义相同,也即通过文本识别模型可以对源语言的文本以及目标语言的文本进行无差别的语义对待,实现不同语言之间表达方式的统一,语义表达的统一,继而对于不同目标语言构成的待处理文本均可以使用同一个文本识别模型进行识别,减少识别模型的数量,并使用源语言知识库的目标文本,通过源语言目标文本的应答内容对待处理文本进行应答,进而实现了不同语言之间知识库的共享,扩展了知识库的应用范围,提高问答效率。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种模型训练方法的一个实施例的流程图;
图2示出了本申请提供的一种模型训练方法的又一个实施例的流程图;
图3示出了本申请提供的一种文本处理方法的一个实施例的流程图;
图4示出了本申请提供的一种文本处理方法的又一个实施例的流程图;
图5示出了本申请提供的一种文本处理方法的又一个实施例的流程图;
图6示出了本申请提供的一种模型训练装置的一个实施例的结构示意图;
图7示出了本申请提供的一种模型训练设备的一个实施例的结构示意图;
图8示出了本申请提供的一种文本处理装置的一个实施例的结构示意图;
图9示出了本申请提供的一种文本处理设备的一个实施例的结构示意图;
图10示出了本申请提供的一种文本处理装置的又一个实施例的结构示意图;
图11示出了本申请提供的一种文本处理设备的又一个实施例的结构示意图;
图12示出了本申请提供的一种文本处理系统的一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以应用于基于人机交互实现智能问答、智能翻译的使用场景中,比如聊天机器人、机器人客服等基于人机对话场景中,人工智能翻译场景中,在一个实际应用中还可以应用于辅助实现人工客服对话场景中。
本申请实施例中的待处理文本在实际应用中即可以是用户输入语句。知识库中存在大量源语言以及目标语言的<Q,A>数据,Q为目标语言构成的语料样本,A为该语料样本对应的应答内容。目标文本、标准文本即可以指知识库中的语料样本。例如,语料样本Q可以为“物流信息”,应答内容A为“由深圳发往北京”。该知识库可以基于源语言以及目标语言的历史对话预先创建。
以智能问答场景为例,用户输入语句为源语言的待处理文本;通过从知识库中查找与该源语言的待处理文本匹配的源语言的目标文本;该目标文本对应的源语言的应答内容即为该待处理文本的问题回答,将问题回答输出到用户端进行显示。由于现有技术中的语言识别模型,仅能识别单一语言,并基于识别结果获取对应的应答内容,语言识别模型的识别功能单一。对于包含与其不同语言的待处理文本则不能识别,例如,用户输入的待处理文本为混合语言或者多语言时,则不能识别该待处理文本。
为了对多语言进行识别,扩展识别场景以及提高识别效果,发明人经过一系列研究提出了本申请实施例的技术方案,在本申请实施例中,获取源语言的第一训练文本,以及与至少一种目标语言的第二训练文本,并通过对于第一训练文本与第二训练文本语义相同的训练结果,利用第一训练文本以及第二训练文本训练来文本识别模型。之后,可以将文本识别模型进行保存。在获得用户输入的待处理文本之后,可以根据文本识别模型将源语言的待处理文本,查找目标语言的知识库中与待处理文本匹配的目标文本,进而获得目标文本的应答内容,该应答内容即为待处理文本对应的应答内容。
本申请实施例,通过训练文本识别模型,可以同时对至少一种目标语言进行识别处理,减少了识别模型的数量。同时,查找知识库中与其语言类型不同,但语义相同的源语言的文本,以获取目标文本对应的应答内容,实现了通过文本识别模型,可以实现不同语言之间表达方式的统一,语义表达的统一,进而实现不同语言之间知识库的共享,从而通过本申请实施例的文本识别模型对可以快速查找其他知识库中的问答内容,扩展源语言知识库的应用范围,提高问答效率以及准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种模型训练方法的一个实施例的流程图,该方法可以包括以下几个步骤:
101:获取源语言构成的第一训练文本。
102:获取至少一种目标语言构成的第二训练文本。
其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量。
第一训练文本以及第二训练文本根据源语言以及至少一种目标语言的历史语料分析获得。第一训练文本为源语言的语料样本以及该语料样本对应的应答内容,第二训练文本为至少一种目标语言的语料样本以及该语料样本对应的应答内容。
第一训练文本可以包括至少一个第一训练数据,以及第二训练文本可以包括至少一个第二训练数据。其中,每一个第一训练数据由源语言的语料样本以及该语料样本对应应答内容构成;每一个第二训练数据由目标语言的语料样本以及该语料样本对应应答内容构成。
每一个语料样本通常是一个句子,句子由词或短语构成,具有一定语法结构,形成一定的逻辑关系以表达一个完整意思的语言运用单位。
可选地,可以将第一训练文本以及第二训练文本分别存储至相应的数据库中,并在需要时,从数据库中读取源语言第一训练文本以及至少一种目标语言的第二训练文本。
可选地,可以针对至少一种目标语言的第二训练文本,获取与其对应的源语言的第一训练文本。作为一种可能的实现方式,可以获取与第一训练文本句子含义相同的第二训练文本,例如第一训练文本为中文的“我想买一本书”,第二训练文本可以为英文的“Iwant to buy a book”。可选地,第一训练文本与第二训练文本可以不存在关联,也即二者是独立的。也即,可以针对第一训练文本以及第二训练文本句义表达方式相同的目的,训练文本识别模型,通过大量的文本训练,可以获得较为准确的训练结果。
可选地,源语言可以是语料样本较多的普通语言,任一种目标语言可以是语料样本较少的小语种语言。第一训练文本的数量远大于目标语言。
第一训练文本可以由多种语言的语料样本以及其应答内容构成,例如源语言可以是中文、英语等语料样本较多的语言,通过训练可以获得针对至少一种目标语言的语言识别模型。任一种目标语言可以是缅语、泰语等语料样本较为稀少的语言。如果直接针对每一种小语种的语料样本,进行单一语言的训练获得的语言识别模型,通常需要进行多次训练,获得多个识别模型,训练方式较为复杂,同时由于训练样本较少不够准确,在识别文本时,识别率较低。如果能够将常见例如,中英等源语言的知识库应用到各个小语种构成的至少一种目标语言的识别中,可以提高小语种的识别效率。
103:基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型。
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
第一训练文本与第二训练文本语义相同的训练结果可以指,第一训练文本与第二训练文本通过所述文本识别模型时,所述文本识别模型对第一训练文本以及第二训练文本均能进行语义识别。
在一个实际的应用场景中,通过文本识别模型的训练过程,将源语言的第一训练文本的知识迁移到至少一种目标语言的第二训练文本中,使至少一种目标语言能够学习源语言的第一训练文本的语义,实现源语言的第一训练文本与至少一种目标语言的第二训练文本从文本语义上靠近,获得的文本识别训练模型,即可以针对源语言以及目标语言进行语义差异上的处理,实现语义的迁移。
本申请实施例中,本申请实施例,通过训练文本识别,可以对源语言进行处理,识别与知识库中与其语言类型不同,但语义相同的目标文本,并获取该目标文本对应的应答内容,可以同时对至少一种目标语言进行识别处理,减少了识别模型的数量。同时,查找知识库中与其语言类型不同,但语义相同的源语言的文本,以获取目标文本对应的应答内容,实现了通过文本识别模型,可以实现不同语言之间表达方式的统一,语义表达的统一,进而实现不同语言之间知识库的共享,从而通过本申请实施例的文本识别模型对可以快速查找其他知识库中的问答内容,扩展源语言知识库的应用范围,提高问答效率以及准确度。
如图2所示,为本发明实施例提供的一种模型训练方法的一个实施例的流程图,该方法可以包括以下几个步骤:
201:获取源语言构成的第一训练文本。
202:获取至少一种目标语言构成的第二训练文本。
其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量。
本实施例中部分步骤与图1所示的步骤相同,在此不再赘述。
203:获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量。
第一词向量是指利用向量的方式表达的第一训练文本中的每一个词语;第二词向量指利用向量的方式表达的第二训练文本中的每一个词语。
可选地,可以基于词向量训练模型,获取第一训练文本的第一词向量以及第二训练文本的第二词向量。对于词向量训练模型,可以指可以按照一定训练方式将第一训练文本转换为第一词向量以及第二训练文本转换为第二词向量。
可选地,可以通过词嵌入算法获得第一训练文本的第一词向量以及第二训练文本的第二词向量。具体地,可以通过CBOW(Continuous Bag of Words,连续词袋)算法,通过周围词预测中心词的方式,训练周围词以及中心词的词向量,获得第一训练文本的第一词向量;通过Skip-gram算法,通过中心词预测周围词的方式,训练周围词以及中心词的词向量,获得第一训练文本的第一词向量。
可选地,由于第一训练文本与第二训练文本属于不同的语言,为了将将两个词语从词语含义的表达上无差别对待,使两个语言的从词语的表达方式上实现统一,可以根据第一训练文本以及第二训练文本进行交叉训练,获得第一训练文本的第一词向量以及第二训练文本的第一词向量。也即将第一训练文本以及第二训练文本交叉输入相应的词向量训练模型,获得第一训练文本的第一词向量以及第二训练文本的第二词向量。
第一训练文本对应至少一个第一训练数据,第二训练文本对应至少一个第二训练数据;获取第一训练文本的第一词向量也即获取至少一个第一训练数据分别对应的词向量,获取第二训练文本的第二词向量也即获取至少一个第二训练数据分别对应的词向量。
204:基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型。
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
第一训练文本对应至少一个第一训练数据中每一个第一训练数据对应的词向量,构成第一词向量;以及第二训练文本对应至少一个第二训练数据中每一个第二训练数据对应的词向量,构成第二词向量。基于第一词向量与第二词向量语义相同的训练结果,利用第一词向量以及第二词向量训练文本识别模型可以包括:基于第一训练文本中至少一个第一训练数据各自的第一词向量,以及第二训练文本中至少一个第二训练数据各自的第二词向量语义相同的训练结果,利用第一词向量以及第二词向量训练文本识别模型。
可选地,所述基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型包括:利用所述第一词向量构建第一句向量,利用第二词向量构建第二句向量;基于第一句向量以及第二句向量语义相同的训练结果,训练文本识别模型。
可选地,文本识别模型通过对抗训练方式训练第一训练数据以及第二训练数据获得。文本识别模型可以包括生成模型以及判别模型,所述基于所述第一词向量与所述第二词向量语义相同的训练结果,利用第一词向量以及第二词向量训练文本识别模型包括:利用第一词向量以及第二词向量输入训练文本识别模型的生成模型分别获得第一句向量以及第二句向量,将第一句向量以及第二句向量输入判别模型,基于所述判别模型的判别结果更新生成模型以及判别模型,生成模型生成的句向量可以欺骗判别模型,使判别模型不能确定输入的句向量为源语言还是目标语言,进而获得最优的生成模型以及对抗模型,以供后续使用。
通过对抗训练,可以将所述第一词向量构成的句向量的语义迁移到所述第二词向量构成的向量中,获得文本识别模型。文本识别模型可以用于基于目标语言的待处理文本对应的词向量,获得与所述待处理文本的语义相同的源语言对应的句向量。
本申请实施例中,通过获取第一训练文本的第一词向量以及第二训练文本的第二词向量,实现源语言以及目标语言实现词语表达方式上的统一,以对不同类型的语言进行语言表达方式统一时,实现不同语言之间词语表示的统一,为后续的对抗训练提供训练基础,进而实现两种语言从句义表达上的统一。
为了获得准确的训练结果,可以将文本识别模型构建为编码器以及分类器,其中,编码器作为对抗网络中的生成模型,用于生成句向量,分类器作为判别模型,用于对句向量的语言种类进行预测。因此,作为一个实施例,所述基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型包括:
构建文本识别模型的编码器以及分类器;
利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;
将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;
基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
可选地,基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型包括:
构建所述文本识别模型的损失函数;
将所述第一词向量与所述第二词向量语义相同的训练结果输入损失函数,获得语义差异;
利用所述语义差异更新训练文本识别模型,直至所述损失函数达到最优。
更新分类器的时候,可以更新多次,每一次更新,使得分类结果更准确。
本申请实施例中,通过将编码器将第一词向量转换为第一句向量,将所述第二词向量转换为第二句向量,也即是通过编码器对第一训练文本以及第二训练文本进行句子表达上的统一,使两种语言的文本从句子的含义上去靠近,以扩展句子的识别范围。
为了实现对训练过程的精准监控,获得准确的训练结果,在某些实施例中,所述基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同可以包括:
构建分类损失函数以及编码损失函数;
获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果;
将所述语义分类结果输入所述分类损失函数,获得针对所述语义分类结果的分类损失评价结果;
如果所述分类损失评价结果不满足预设的分类损失条件,重新训练所述分类器,并返回至所述获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果的步骤继续执行;
如果所述分类损失评价结果满足预设的损失条件,将所述语义分类结果输入所述编码损失函数,获得编码损失评价结果;
如果所述编码损失评价结果满足预设的编码损失条件,确定所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同,获得文本识别模型;
如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器;并返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述损失评价结果满足预设的损失条件。
为了扩充编码器的训练样本,以获得更准确的编码器,在某些实施例中,所述如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器包括:
如果所述损失评价结果不满足预设的损失条件,将所述第一句向量翻译为至少一种目标语言各自对应的目标翻译文本,以及将所述第二句向量翻译为源语言对应的源翻译文本;
基于所述至少一种目标语言各自对应的目标翻译文本以及所述源翻译文本,重新训练所述编码器,以更新所述编码器。
编码器可以事先训练,也可以实时训练。
对于词向量的获取过程可以有多种方式,其中,第一种获取方式,可以通过查表方式,查询事先建立的词向量库,快速获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第二种获取方式,可以通过事先训练获得的权重矩阵,获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第三种获取方式,可以通过实时训练,对第一训练文本以及第二训练文本进行词向量训练,以获得第一训练文本的第一词向量以及第二训练文本的第二词向量。
作为一个实施例,为了加快获取速度,通过查表方式获得词向量,也即所述获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量包括:
获取所述源语言以及所述至少一种目标语言对应的词向量库;其中,所述词向量库中基于所述源语言的第三训练文本以及所述至少一种目标语言的第四训练文本事先交叉训练获得;
查询所述词向量库中与所述第一训练文本各个分词匹配的第一词向量;
查询所述词向量库中与所述第二训练文本各个分词匹配的第二词向量。
所述词向量库是基于第三训练文本以及第四训练文本通过word2ver算法实现训练获得。其中,第三训练文本可以包括第一训练文本,第四训练文本可以包括第二训练文本。第三训练文本的数量可以多于第一训练文本,第四训练文本的数量可以多于第二训练文本。
词向量库中事先存储第一训练文本的每一个词语的词向量,以及第二训练文本的每一个词语的第二词向量。该词向量库可以基于第三训练文本以及第四训练文本事先交叉训练获得。词向量的训练方式可以采样本申请其他实施例所述的交叉训练方式训练获得。
作为又一个实施例,为了针对任一个待处理语言进行处理,可以采用简单的矩阵计算方式,获得词向量,也即所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量具体可以通过以下方式交叉训练获得:
获取事先训练获得的权重矩阵;其中,所述权重矩阵基于源语言的第五训练数据以及至少一种目标语言的第六训练数据交叉训练获得;
计算所述第一训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第一词向量;
计算所述第二训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第二词向量。
权重矩阵可以基于第五训练文本与第六训练文本事先交叉训练获得的。所述第五训练文本包括第一训练文本,所述第六训练文本包括第二训练文本。
作为又一个实施例,为了获取任意词语的词向量,可以采用实时训练方式,获得词向量,也即获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量包括:
获取第一训练文本对应的第一训练数据以及第二训练数据,以及所述第二训练文本对应的第三训练数据以及第四训练数据;
将所述第二训练数据翻译为至少一种目标语言各自对应的第一翻译数据,获得至少一种第一翻译数据。
将所述第四训练数据翻译为源语言对应的第二翻译数据;
基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量;
基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量;
根据所述第一训练数据的词向量以及所述第二翻译数据的词向量,确定所述第一训练文本的第一词向量;
根据所述第三训练数据的词向量以及所述至少一种第一翻译数据的词向量,确定所述第二训练文本的第二词向量。
可以获取的所述第一训练数据的词向量、所述至少一种第一翻译数据的词向量、所述第三训练数据的词向量以及所述第二翻译数据的词向量,可以是每一个词语对应的热独码。
可以获取一个词典,可以根据词典,将所述第二训练数据翻译为目标语言对应的至少一种第一翻译数据以及将所述第四训练数据翻译为源语言对应的第二翻译数据。
可选地,可以确定与编码器对应的翻译器。可以通过翻译器,将所述第二训练数据翻译为目标语言对应的至少一种第一翻译数据,以及将所述第四训练数据翻译为源语言对应的第二翻译数据。
所述翻译器将第一训练文本的第二训练数据翻译为目标语言对应的至少一种第一翻译数据,将第二训练文本对应的第四训练数据翻译为源语言对应的第二翻译数据。
可选地,对于CBOW模型,第一训练数据可以为第一训练文本的周围词以及第三训练数据可以为第二训练文本的周围词,第二训练数据可以为第二训练文本的中心词以及第四训练数据可以为第二训练文本的中心词。对于CBOW模型利用上下文预测中心词的方式获得第一训练数据以及至少一种第一翻译数据分别对应的词向量,利用上下文预测中心词的方式,获得第二训练数据以及第二翻译数据分别对应的词向量。
对于Skip-gram模型,第一训练数据可以为第一训练文本的中心词以及第三训练数据可以为第二训练文本的中心词,第二训练数据可以为第一训练文本的周围词以及第四训练数据可以为第二训练文本的周围词。对于Skip-gram模型利用第二训练数据以及第翻译数据,利用中心词预测上下文的周围词的方式获得第第一训练数据以及至少一种第一翻译数据分别对应的词向量,利用中心词预测周围词的方式,获得第二训练数据以及第二翻译数据分别对应的词向量。
在实时训练过程中,为了实现不同语言的无差别处理,可以采用交叉训练方式进行训练,因此,对于第一训练文本的交叉训练过程而言,作为一个实施例,所述基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量包括:
确定所述第一训练数据的第一初始向量,以及所述至少一种第一翻译数据的第二初始向量;
确定第一权重矩阵以及第二权重矩阵;
基于所述第一初始向量与所述第一权重矩阵,获得第一隐层向量;
基于所述隐层向量与所述第二权重矩阵,获得第一预测向量;
预估所述第一预测向量与所述第二初始向量的第一向量差异;
如果所述第一向量差异满足预设的差异条件,确定所述第一初始向量为所述第一训练数据的词向量以及所述第二初始向量为所述至少一种第一翻译数据的词向量;
如果所述第一向量差异不满足预设的差异条件,更新输入权重矩阵、输出权重矩阵、第一初始向量以及第二初始向量;并返回至确定第一训练数据的第一初始向量以及至少一种第一翻译数据的第二初始向量的步骤继续执行。
第一权重矩阵的维度可以与第一词向量的维度相匹配,与第二权重矩阵的维度可以与第二词向量的维度相匹配。
基于所述第一初始向量与所述第一权重矩阵,获得第一隐层向量包括:计算第一初始向量与第一权重矩阵的向量积,获得第一隐层向量。
基于所述第一隐层向量与所述第二权重矩阵,获得第一预测向量包括:计算第一隐层向量与第二权重矩阵的向量积,获得第一预测向量。
预估所述第一预测向量与所述第二初始向量的第一向量差异包括:将第一预测向量输入激活函数进行处理,获得与第一训练文本维度匹配的概率分布,概率最大的一列即为预测出的第一预测向量,获得所述第一预测向量与所述第二初始向量的词向量差异。
获得第一预测向量与第二初始向量的差异,更新输入权重矩阵、输出权重矩阵、第一初始向量以及第二初始向量包括,定义第一损失函数,确定第一预测向量与第二初始向量的差异,获得损失结果,基于损失结果,采用梯度下降算法更新第一权重矩阵、第二权重矩阵、第一初始向量以及第二初始向量。
因为源语言和目标语言是两种不同的语言,翻译任务和对抗任务保证源语言的知识迁移到目标语言。大量的翻译任务能够使大量的数据进入编码器,使得两种不同语言的句子映射到不同的语义空间更准确。
对于第二训练文本的交叉训练过程而言,作为又一个实施例,所述基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量包括:
确定所述第三训练数据的第三初始向量,以及所述第二翻译数据的第四初始向量;
确定第三权重矩阵以及第四权重矩阵;
基于所述第三初始向量与所述第三权重矩阵,获得第二隐层向量;
基于所述第二隐层向量与所述第四权重矩阵,获得第二预测向量;
预估所述第二预测向量与所述第四初始向量的第二向量差异;
如果所述第二向量差异满足预设的差异条件,确定所述第三初始向量为所述第三训练数据的词向量以及所述第四初始向量为所述第二翻译数据的词向量;
如果所述第二向量差异不满足预设的差异条件,更新所述第三权重矩阵、所述第四权重矩阵、所述第三初始向量以及所述第四初始向量;并返回至所述确定所述第三训练数据的第三初始向量以及所述第二翻译数据的第四初始向量的步骤继续执行。
第三权重矩阵的维度可以与第一词向量的维度相匹配,与第二权重矩阵的维度可以与第二词向量的维度相匹配。
第一权重矩阵的维度可以与第一词向量的维度相匹配,与第二权重矩阵的维度可以与第二词向量的维度相匹配。
基于所述第三初始向量与所述第三权重矩阵,获得第二隐层向量包括:计算第三初始向量与第三权重矩阵的向量积,获得第二隐层向量。
基于所述第二隐层向量与所述第四权重矩阵,获得第二预测向量包括:计算第二隐层向量与第四权重矩阵的向量积,获得第二预测向量。
获得第二预测向量与第四初始向量的差异,更新输入权重矩阵、输出权重矩阵、第三初始向量以及第四初始向量包括,定义第二损失函数,确定第二预测向量与第四初始向量的差异,获得损失结果,基于损失结果,采用梯度下降算法更新第三权重矩阵、第四权重矩阵、第三初始向量以及述第四初始向量。
本申请实施例中所使用的各个初始向量是随机生成的。
如图3所示,为本发明实施例提供的一种文本处理方法的一个实施例的流程图,该方法可以包括以下几个步骤:
301:确定待处理文本对应的至少一种目标语言。
用户可以通过输入窗口输入所述待处理文本。
待处理文本可以对应至少一个词语,待处理文本可以由一种或多种语言的词语按照一定的语法结构构成。
302:基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本.
其中,所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量。
源语言可能有大量的语料样本,任一中目标语言可能只有少量的语料样本,通过训练把源语言的知识迁移到目标语言上。
303:获得与所述目标文本对应的应答内容。
本申请实施例,通过识别待处理文本对应的目标文本,可以通过文本识别模型。而文本识别模型是基于源语言的第一训练数据以及目标语言的第二训练数据事先训练获得,源语言与目标语言不同。语义相同的目标文本,并获取该目标文本对应的应答内容,实现了不同语言之间知识库的共享,通过文本识别模型对可以快速查找其他知识库中的问答内容,扩展识别范围,提高问答效率以及准确度。
为了准确获得待处理文本对应的源语言,作为一个实施例,所述确定所述待处理文本对应的至少一种目标语言可以包括:
确定所述待处理文本的至少一个分词。
针对每一个分词对应的语言种类,确定所述待处理文本对应的至少一种目标语言。
本申请实施例中,通过将待处理文本进行分词,获得每一个分词的语言种类,识别待处理文本的源语言,进而可以针对包含不同和/或相同语言种类的待处理文本,分别进行处理,获得对应的语言种类,以提高文本的匹配效率。
为了准确识别待处理文本中不同领域的词语,可以将不同领域的词语替换为更容易被识别的普通词语,作为一个实施例,所述确定所述待处理文本对应的至少一种目标语言包括:
确定所述待处理文本的至少一个分词;
确定所述每一个分词是否在同义词替换表中存在同义词;
如果存在将所述每一个分词替换为所述同义词替换表中的目标同义词,获得替换后的至少一个替换分词;
所述针对每一个分词的语言种类,确定所述待处理文本的目标语言包括:
针对所述至少一个替换分词的语言种类,确定所述待处理文本的目标语言。
本申请实施例中,对于不同领域而言,相同的词语可能有不同的意思表示,不同的词语可能有相同的意思表示,为了实现对所有词语进行更好的识别,实现词义表达的统一,可以将分词中存在同义词的替换为相应的同义词,以提高分词的识别结果。
为了实现获得目标语言中知识库的语料样本,如图4所示,为本发明实施例提供的一种文本处理方法的又一个实施例的流程图,该方法可以包括以下几个步骤:
401:确定待处理文本对应的至少一种目标语言。
402:确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本。
其中,每一个标准文本对应有相应的应答内容。
403:基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本。
其中,文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,源语言与任一种目标语言不同且第一训练文本的数量大于第二训练文本的数量。
404:获得与所述目标文本对应的应答内容。
本申请实施例中,对于源语言的知识库而言,可能存储有大量的语料样本以及语料样本对应的应答内容,如果针对所有语言种类的目标语言均通过文本识别模型以执行待处理文本查找匹配计算,计算量非常庞大。如果首先针对知识库进行筛选,获得至少一个标准文本,并从至少一个标准文本中查找与待处理文本最匹配的目标文本。通过以上方式可以对知识库的初步筛选,以缩小匹配范围,降低运算量,提高匹配效率。
为了对知识库中的语料样本进行初步筛选,提高处理效率,在某些实施例中,所述确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本包括:
提取所述待处理文本的实体词。
从所述至少一种目标语言对应源语言的知识库中,查找包含所述实体词的至少一个标准文本。
其中,每一个标准文本对应有相应的应答内容。
待处理文本的实体词可以指句子中起主要作用的句子成分,句子的实体词提取之后,句子的主要意思即被破坏。假设一个句子为“我想要买一本书”中实体词可以是“买”以及“书”。
可选地,可以提取待处理文本的至少一个实体词,可以从目标语言对应源语言的知识库中,查找包含所述至少一个实体词的至少一个标准文本。
提取待处理文本中的至少一个实体词可以包括:对待处理文本进行分词;之后可以对所述待处理文本进行语法分析以及主干分析,删减待处理文本中属于预定成分和/或预定性的分词词语,以获得句子的至少一个实体词。当然,可以针对任一个实体词进行同样的分析以获得。
句子中的预定成分和/或预定性的分词词语可以指删减后不影响句子表达的词语,例如,语气词“吗”即可以被定义为一个预定成分和/或预定性的分词词语。
为了获得准确的目标文本,提高目标文本的准确度,作为又一个实施例,所述基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本可以包括:
基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量;
基于所述待处理词向量与所述至少一个标准文本分别对应的标准词向量的词向量相似程度,从所述至少一个标准文本中选择第一数量的候选文本;
基于所述文本识别模型中事先训练获得的编码器,将所述第一数量候选文本各自对应的标准词向量转换为候选句向量以及将所述待处理词向量转换为待处理句向量;
根据第一数量的候选句向量与所述待处理句向量的句向量相似度,确定相似度最高的候选句向量对应候选文本为所述目标文本。
至少一个标准文本分别对应的标准词向量为该至少一个标准文本中,每一个标准文本对应平均词向量;待处理文本的待处理词向量为该待处理文本的平均词向量。
其中,任一个文本的平均词向量可以通过以下方式计算获得:
将任一个文本进行分词,获得至少一个分词;
获取每一个分词对应的词向量,获得至少一个词向量;
将所述至少一个词向量进行加权求和之后,基于与其对应至少一个词向量个数的比值,获得平均词向量。
为了获得使获得的匹配结果更准确,作为又一个实施例,所述基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量可以包括:
基于词向量训练模型,确定每一个标准文本对应的至少一个词向量以及所述待处理词向量对应的至少一个词向量;
计算所述每一个标准文本对应至少一个词向量的平均词向量,获得每一个标准文本的标准词向量,以确定所述至少一个标准文本分别对应的标准词向量;
计算所述待处理文本对应至少一个词向量的平均词向量,获得所述待处理文本的待处理词向量。
通过平均词向量的计算,可以将不同语言的文本进行统一处理,扩展文本的处理范围,继而将不同语言的语料样本进行交互使用,提高了处理效果。
如图5所示,为本申请实施例提供的一种文本处理方法的一个实施例的流程图,该方法可以包括:
501:确定用户输入的至少一种目标语言的待处理文本;502:发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本,获取并发送所述目标文本对应应答内容至用户端。
503:接收所述服务端发送的目标文本的应答内容。504:输出所述应答内容,以供所述用户查看。
其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于第二训练文本的数量。
本申请实施例中,对于用户输入的不同语言种类的目标语言的待处理文本,可以基于服务端的文本识别模型,进行识别,而文本识别模型是基于至少一种目标语言对应第二训练数据以及源语言对应第一训练数据事先训练获得,也即文本识别模型可以同时识别多种目标语言的待识别文本,并输出相应的应答内容给用户。提高了识别效率以及识别结果。
如图6所示,为本申请实施例提供的一种模型训练装置的一个实施例的结构示意图,该装置可以包括:
第一获取模块601,用于获取源语言构成的第一训练文本;
第二获取模块602,用于获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量。
模型训练模块603,用于基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型。
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
本申请实施例中,通过训练文本识别,可以对源语言进行处理,识别与知识库中与其语言类型不同,但语义相同的目标文本,并获取该目标文本对应的应答内容,实现了不同语言之间知识库的共享,从而通过本申请实施例的文本识别模型对可以快速查找其他知识库中的问答内容,扩展识别范围,提高问答效率以及准确度。
所述模型训练模块包括:
第一获取单元,用于获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;
第一训练单元,用于基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型。
本申请实施例中,通过获取第一训练文本的第一词向量以及第二训练文本的第二词向量,实现源语言以及目标语言实现词语表达方式上的统一,以对不同类型的语言进行语言表达方式统一时,实现不同语言之间词语表示的统一,为后续的对抗训练提供训练基础,进而实现两种语言从句义表达上的统一。
为了获得准确的训练结果,可以将文本识别模型为对抗网络模型库,所述对抗网络模型可以构建为编码器以及分类器,其中,编码器为文本识别中的生成模型,用于生成句向量,分类器为判别模型,用于对句向量的语言种类进行预测。因此,作为一个实施例,所述第一训练单元包括:
构建子单元,用于构建文本识别模型的编码器以及分类器;
编码子单元,用于利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;
分类子单元,用于将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;
调整子单元,用于基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
本申请实施例中,通过将编码器将第一词向量转换为第一句向量,将所述第二词向量转换为第二句向量,也即是通过编码器对第一训练文本以及第二训练文本进行句子表达上的统一,使两种语言的文本从句子的含义上去靠近,以扩展句子的识别范围。
为了实现对训练过程的精准监控,获得准确的训练结果,在某些实施例中,所调整子单元具体用于:
构建分类损失函数以及编码损失函数;
获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果;
将所述语义分类结果输入所述分类损失函数,获得针对所述语义分类结果的分类损失评价结果;
如果所述分类损失评价结果不满足预设的分类损失条件,重新训练所述分类器,并返回至所述获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果的步骤继续执行;
如果所述分类损失评价结果满足预设的损失条件,将所述语义分类结果输入所述编码损失函数,获得编码损失评价结果;
如果所述编码损失评价结果满足预设的编码损失条件,确定所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同,获得文本识别模型;
如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器;并返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述损失评价结果满足预设的损失条件。
为了扩充编码器的训练样本,以获得更准确的编码器,在某些实施例中,所述调整子单元具体还用于:
如果所述损失评价结果不满足预设的损失条件,将所述第一句向量翻译为至少一种目标语言各自对应的目标翻译文本,以及将所述第二句向量翻译为源语言对应的源翻译文本;
基于所述至少一种目标语言各自对应的目标翻译文本以及所述源翻译文本,重新训练所述编码器,以更新所述编码器。
对于词向量的获取过程可以有多种方式,其中,第一种获取方式,可以通过查表方式,查询事先建立的词向量库,快速获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第二中获取方式,可以通过事先训练获得的权重矩阵,获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第三种获取方式,可以通过实时训练,对第一训练文本以及第二训练文本进行词向量训练,以获得第一训练文本的第一词向量以及第二训练文本的第二词向量。
作为一个实施例,为了加快获取速度,通过查表方式获得词向量,所述第一获取单元包括:
第一获取子单元,用于获取所述源语言以及所述至少一种目标语言对应的词向量库;其中,所述词向量库中基于所述源语言的第三训练文本以及所述至少一种目标语言的第四训练文本事先交叉训练获得;
第一查询子单元,用于查询所述词向量库中与所述第一训练文本各个分词匹配的第一词向量;
第二查询子单元,用于查询所述词向量库中与所述第二训练文本各个分词匹配的第二词向量。
词向量库是基于第三训练文本以及第四训练文本通过word2ver算法实现训练获得。其中,第三训练文本可以包括第一训练文本,第四训练文本可以包括第二训练文本。第三训练文本的数量可以多于第一训练文本,第四训练文本的数量可以多于第二训练文本。
词向量库中,可以存储第一训练文本的每一个词语的词向量,以及第二训练文本的每一个词语的第二词向量。该词向量库可以基于第三训练文本以及第四训练文本事先交叉训练获得。词向量的训练方式可以采样本申请其他实施例所述的交叉训练方式训练获得。
作为又一个实施例,为了针对任一个待处理语言进行处理,可以采用简单的矩阵计算方式,获得词向量,也即所述第一获取单元包括:
第二获取子单元,用于获取事先训练获得的权重矩阵。其中,所述权重矩阵基于源语言的第五训练数据以及至少一种目标语言的第六训练数据交叉训练获得。
第一计算子单元,用于计算所述第一训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第一词向量。
第二计算子单元,用于计算所述第二训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第二词向量。
作为又一个实施例,为了获取任意词语的词向量,可以采用实时训练方式,获得词向量,也即所述模型训练模块具体通过以下方式进行交叉训练:
获取第一训练文本对应的第一训练数据以及第二训练数据,以及所述第二训练文本对应的第三训练数据以及第四训练数据;
将所述第二训练数据翻译为至少一种目标语言各自对应的第一翻译数据,获得至少一种第一翻译数据;
将所述第四训练数据翻译为源语言对应的第二翻译数据;
基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量;
基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量;
根据所述第一训练数据的词向量以及所述第二翻译数据的词向量,确定所述第一训练文本的第一词向量;
根据所述第三训练数据的词向量以及所述至少一种第一翻译数据的词向量,确定所述第二训练文本的第二词向量。
在实时训练过程中,为了实现不同语言的无差别处理,可以采用交叉训练方式进行训练,因此,对于第一训练文本的交叉训练过程而言,作为一个实施例,所述模型训练模块还用于:
确定所述第一训练数据的第一初始向量,以及所述至少一种第一翻译数据的第二初始向量;
确定第一权重矩阵以及第二权重矩阵;
基于所述第一初始向量与所述第一权重矩阵,获得第一隐层向量;
基于所述第一隐层向量与所述第二权重矩阵,获得第一预测向量;
预估所述第一预测向量与所述第二初始向量的第一向量差异;
如果所述第一向量差异满足预设的差异条件,确定所述第一初始向量为所述第一训练数据的词向量以及所述第二初始向量为所述至少一种第一翻译数据的词向量;
如果所述第一向量差异不满足预设的差异条件,更新所述输入权重矩阵、所述输出权重矩阵、所述第一初始向量以及所述第二初始向量;并返回至所述确定所述第一训练数据的第一初始向量以及所述至少一种第一翻译数据的第二初始向量的步骤继续执行。
因为源语言和目标语言是两种不同的语言,翻译任务和对抗任务保证源语言的知识迁移到目标语言。大量的翻译任务能够使大量的数据进入编码器,使得两种不同语言的句子映射到不同的语义空间更准确。
对于第二训练文本的交叉训练过程而言,所述模型训练模块还用于:
确定所述第三训练数据的第三初始向量,以及所述第二翻译数据的第四初始向量;
确定第三权重矩阵以及第四权重矩阵;
基于所述第三初始向量与所述第三权重矩阵,获得第二隐层向量;
基于所述第二隐层向量与所述第四权重矩阵,获得第二预测向量;
预估所述第二预测向量与所述第四初始向量的第二向量差异;
如果所述第二向量差异满足预设的差异条件,确定所述第三初始向量为所述第三训练数据的词向量以及所述第四初始向量为所述第二翻译数据的词向量;
如果所述第二向量差异不满足预设的差异条件,更新所述第三权重矩阵、所述第四权重矩阵、所述第三初始向量以及所述第四初始向量;并返回至所述确定所述第三训练数据的第三初始向量以及所述第二翻译数据的第四初始向量的步骤继续执行。
如图6所示的模型训练装置可以实现为一模型训练设备,如图7所示,所述设备可以包括:存储组件701以及处理组件702,所述存储组件701存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件602调用并执行;
所述处理组件702用于:
获取源语言构成的第一训练文本;获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型。
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容。
本申请实施例中,通过训练文本识别,可以对源语言进行处理,识别与知识库中与其语言类型不同,但语义相同的目标文本,并获取该目标文本对应的应答内容,实现了不同语言之间知识库的共享,从而通过本申请实施例的文本识别模型对可以快速查找其他知识库中的问答内容,扩展识别范围,提高问答效率以及准确度。
所述处理组件基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一文本以及所述第二文本训练文本识别模型具体是:
获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;
基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型。
本申请实施例中,通过获取第一训练文本的第一词向量以及第二训练文本的第二词向量,实现源语言以及目标语言实现词语表达方式上的统一,以对不同类型的语言进行语言表达方式统一时,实现不同语言之间词语表示的统一,为后续的对抗训练提供训练基础,进而实现两种语言从句义表达上的统一。
为了获得准确的训练结果,可以将文本识别模型构建为编码器以及分类器,其中,编码器为文本识别中的生成模型,用于生成句向量,分类器为判别模型,用于对句向量的语言种类进行预测。因此,作为一个实施例,所述处理组件基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型具体是:
构建文本识别模型的编码器以及分类器;
利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;
将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;
基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
本申请实施例中,通过将编码器将第一词向量转换为第一句向量,将所述第二词向量转换为第二句向量,也即是通过编码器对第一训练文本以及第二训练文本进行句子表达上的统一,使两种语言的文本从句子的含义上去靠近,以扩展句子的识别范围。
为了实现对训练过程的精准监控,获得准确的训练结果,在某些实施例中,所述处理组件基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同具体是:
构建分类损失函数以及编码损失函数;
获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果;
将所述语义分类结果输入所述分类损失函数,获得针对所述语义分类结果的分类损失评价结果;
如果所述分类损失评价结果不满足预设的分类损失条件,重新训练所述分类器,并返回至所述获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果的步骤继续执行;
如果所述分类损失评价结果满足预设的损失条件,将所述语义分类结果输入所述编码损失函数,获得编码损失评价结果;
如果所述编码损失评价结果满足预设的编码损失条件,确定所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同,获得文本识别模型;
如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器;并返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述损失评价结果满足预设的损失条件。
为了扩充编码器的训练样本,以获得更准确的编码器,在某些实施例中,所述处理组件在编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器具体是包括:
如果所述损失评价结果不满足预设的损失条件,将所述第一句向量翻译为至少一种目标语言各自对应的目标翻译文本,以及将所述第二句向量翻译为源语言对应的源翻译文本;
基于所述至少一种目标语言各自对应的目标翻译文本以及所述源翻译文本,重新训练所述编码器,以更新所述编码器。
对于词向量的获取过程可以有多种方式,其中,第一种获取方式,可以通过查表方式,查询事先建立的词向量库,快速获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第二中获取方式,可以通过事先训练获得的权重矩阵,获得第一训练文本的第一词向量以及第二训练文本的第二词向量;第三种获取方式,可以通过实时训练,对第一训练文本以及第二训练文本进行词向量训练,以获得第一训练文本的第一词向量以及第二训练文本的第二词向量。
作为一个实施例,为了加快获取速度,通过查表方式获得词向量,所述处理组件获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量具体是:
获取所述源语言以及所述至少一种目标语言对应的词向量库;其中,所述词向量库中基于所述源语言的第三训练文本以及所述至少一种目标语言的第四训练文本事先交叉训练获得;
查询所述词向量库中与所述第一训练文本各个分词匹配的第一词向量;
查询所述词向量库中与所述第二训练文本各个分词匹配的第二词向量。
作为又一个实施例,为了针对任一个待处理语言进行处理,可以采用简单的矩阵计算方式,获得词向量,也即所述处理组件获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量具体是:
获取事先训练获得的权重矩阵;其中,所述权重矩阵基于源语言的第五训练数据以及至少一种目标语言的第六训练数据交叉训练获得;
计算所述第一训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第一词向量;
计算所述第二训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第二词向量。
作为又一个实施例,为了获取任意词语的词向量,可以采用实时训练方式,获得词向量,也即所述处理组件具体通过以下方式交叉训练获得第一训练文本的第一词向量以及所述第二训练文本的第二词向量:
获取第一训练文本对应的第一训练数据以及第二训练数据,以及所述第二训练文本对应的第三训练数据以及第四训练数据;
将所述第二训练数据翻译为至少一种目标语言各自对应的第一翻译数据,获得至少一种第一翻译数据;
将所述第四训练数据翻译为源语言对应的第二翻译数据;
基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量;
基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量;
根据所述第一训练数据的词向量以及所述第二翻译数据的词向量,确定所述第一训练文本的第一词向量;
根据所述第三训练数据的词向量以及所述至少一种第一翻译数据的词向量,确定所述第二训练文本的第二词向量。
在实时训练过程中,为了实现不同语言的无差别处理,可以采用交叉训练方式进行训练,因此,对于第一训练文本的交叉训练过程而言,作为一个实施例,所述处理组件基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量包括:
确定所述第一训练数据的第一初始向量,以及所述至少一种第一翻译数据的第二初始向量;
确定第一权重矩阵以及第二权重矩阵;
基于所述第一初始向量与所述第一权重矩阵,获得第一隐层向量;
基于所述第一隐层向量与所述第二权重矩阵,获得第一预测向量;
预估所述第一预测向量与所述第二初始向量的第一向量差异;
如果所述第一向量差异满足预设的差异条件,确定所述第一初始向量为所述第一训练数据的词向量以及所述第二初始向量为所述至少一种第一翻译数据的词向量;
如果所述第一向量差异不满足预设的差异条件,更新所述输入权重矩阵、所述输出权重矩阵、所述第一初始向量以及所述第二初始向量;并返回至所述确定所述第一训练数据的第一初始向量以及所述至少一种第一翻译数据的第二初始向量的步骤继续执行。
因为源语言和目标语言是两种不同的语言,翻译任务和对抗任务保证源语言的知识迁移到目标语言。大量的翻译任务能够使大量的数据进入编码器,使得两种不同语言的句子映射到不同的语义空间更准确。
对于第二训练文本的交叉训练过程而言,所述处理组件基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量包括:
确定所述第三训练数据的第三初始向量,以及所述第二翻译数据的第四初始向量;
确定第三权重矩阵以及第四权重矩阵;
基于所述第三初始向量与所述第三权重矩阵,获得第二隐层向量;
基于所述第二隐层向量与所述第四权重矩阵,获得第二预测向量;
预估所述第二预测向量与所述第四初始向量的第二向量差异;
如果所述第二向量差异满足预设的差异条件,确定所述第三初始向量为所述第三训练数据的词向量以及所述第四初始向量为所述第二翻译数据的词向量;
如果所述第二向量差异不满足预设的差异条件,更新所述第三权重矩阵、所述第四权重矩阵、所述第三初始向量以及所述第四初始向量;并返回至所述确定所述第三训练数据的第三初始向量以及所述第二翻译数据的第四初始向量的步骤继续执行。
对于上述实施例中的实现模型训练装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
如图8所示,为本申请实施例提供的一种文本处理装置,包括:
第二确定模块801,用于确定用户输入的至少一种目标语言的待处理文本;
文本发送模块802,用于发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得;
文本接收模块803,用于接收所述服务端发送的应答内容;
文本输出模块804,用于输出所述应答内容,以供所述用户查看。
本申请实施例中,用户端可以检测用户输入的至少一种目标语言的待处理文本,并将待处理文本发送至服务端,服务端可以获取与待处理文本对应的目标文本,以获取目标文本对应应答内容。继而服务端可以同时识别至少一种目标语言,实现了多语言使用同一训练模型进行识别,减少模型训练次数,提高训练效率,以及应用范围。
图8所示的文本处理装置可以实现为一文本处理设备,如图9所示,所述文本处理设备可以包括:
存储组件901以及处理组件902,所述存储组件901存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件902调用并执行;
所述处理组件902用于:
确定用户输入的至少一种目标语言的待处理文本;发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得;接收所述服务端发送的应答内容;输出所述应答内容,以供所述用户查看。
本申请实施例中,用户端可以检测用户输入的至少一种目标语言的待处理文本,并将待处理文本发送至服务端,服务端可以获取与待处理文本对应的目标文本,以获取目标文本对应应答内容。继而服务端可以同时识别至少一种目标语言,实现了多语言使用同一训练模型进行识别,减少模型训练次数,提高训练效率,以及应用范围。
如图10所示,为本申请实施例提供的一种文本处理装置的一个实施例的结构示意图,所述装置可以包括:
第一确定模块1001,用于确定待处理文本对应的至少一种目标语言。
文本匹配模块1002,用于基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本。其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;
内容获取模块1003,用于获得与所述目标文本对应的应答内容。
用户可以通过输入窗口输入所述待处理文本。
待处理文本可以对应至少一个词语,待处理文本可以由一种或多种语言的词语按照一定的语法结构构成。
源语言可能有大量的语料样本,目标语言可能只有少量的语料样本,通过训练把源语言的知识迁移到目标语言上。
其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同。
本申请实施例,通过识别待处理文本对应的目标内容,可以通过文本识别模型库,从目标语言对应源语言的知识库中查找与待处理文本匹配的目标文本。而文本识别模型是基于源语言的第一训练数据以及目标语言的第二训练数据事先训练获得,源语言与目标语言不同。语义相同的目标文本,并获取该目标文本对应的应答内容,实现了不同语言之间知识库的共享,从而通过文本识别模型对可以快速查找其他知识库中的问答内容,扩展识别范围,提高问答效率以及准确度。
为了准确获得待处理文本对应的源语言,作为一个实施例,所述第一确定模块包括:
第一确定单元,用于确定所述待处理文本的至少一个分词;
第二确定单元,用于针对每一个分词对应的语言种类,确定所述待处理文本对应的至少一种目标语言。
本申请实施例中,通过将待处理文本进行分词,获得每一个分词的语言种类,识别待处理文本的源语言,进而可以针对包含不同和/或相同语言种类的待处理文本,分别进行处理,获得对应的语言种类,以提高文本的匹配效率。
为了准确识别待处理文本中不同领域的词语,可以将不同领域的词语替换为更容易被识别的普通词语,作为一个实施例,所述第一确定模块包括:
第三确定单元,用于确定所述待处理文本的至少一个分词。
第四确定单元,用于确定所述每一个分词是否在同义词替换表中存在同义词。
分词替换单元,用于如果存在将所述每一个分词替换为所述同义词替换表中的目标同义词,获得替换后的至少一个替换分词;
语言识别单元,用于针对所述至少一个替换分词的语言种类,确定所述待处理文本的目标语言。
本申请实施例中,对于不同领域而言,相同的词语可能有不同的意思表示,不同的词语可能有相同的意思表示,为了实现对所有词语进行更好的识别,实现词义表达的统一,可以将分词中存在同义词的替换为相应的同义词,以提高分词的识别结果。
为了实现获得目标语言中知识库的语料样本,作为又一个实施例,所述文本匹配模块包括:
第五确定单元,用于确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本。其中,每一个标准文本对应有相应的应答内容。
文本匹配单元,用于基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本。
本申请实施例中,对于目标语言的知识库而言,可能存储有大量的语料样本以及语料样本对应的应答内容,如果针对所有的语料样本均通过文本识别模型,执行待处理文本的目标文本的查找匹配计算,计算量非常庞大。如果首先针对知识库进行筛选,获得至少一个标准文本,并从至少一个标准文本中查找与待处理文本最匹配的目标文本。通过以上方式可以对知识库的初步筛选,以缩小匹配范围,降低运算量,提高匹配效率。
为了对知识库中的语料样本进行初步筛选,提高处理效率,在某些实施例中,所述第五确定单元包括:
第一提取子单元,用于提取所述待处理文本的实体词;
文本查找子单元,用于从所述至少一种目标语言对应源语言的知识库中,查找包含所述实体词的至少一个标准文本;其中,每一个标准文本对应有相应的应答内容。
其中,每一个标准文本对应有相应的应答内容。
待处理文本的实体词可以指句子中起主要作用的句子成分,句子的实体词提取之后,句子的主要意思即被破坏。
可选地,可以提取待处理文本的至少一个实体词,可以从目标语言对应源语言的知识库中,查找包含所述至少一个实体词的至少一个标准文本。
提取待处理文本中的至少一个实体词可以包括:对待处理文本进行分词;之后可以对所述待处理文本进行语法分析以及主干分析,删减待处理文本中属于预定成分和/或预定性的分词词语,以获得句子的至少一个实体词。当然,可以针对任一个实体词进行同样的分析以获得。
句子中的预定成分和/或预定性的分词词语可以指删减后不影响句子表达的词语,例如,语气词“吗”即可以被定义为一个预定成分和/或预定性的分词词语。
为了获得准确的目标文本,提高目标文本的准确度,作为又一个实施例,所述文本匹配单元包括:
第一确定子单元,用于基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量;
选择子单元,用于基于所述待处理词向量与所述至少一个标准文本分别对应的标准词向量的词向量相似程度,从所述至少一个标准文本中选择第一数量的候选文本;
转换子单元,用于基于所述文本识别模型中事先训练获得的编码器,将所述第一数量候选文本各自对应的标准词向量转换为候选句向量以及将所述待处理词向量转换为待处理句向量;
第二确定子单元,用于根据第一数量的候选句向量与所述待处理句向量的句向量相似度,确定相似度最高的候选句向量对应候选文本为所述目标文本。
为了获得使获得的匹配结果更准确,作为又一个实施例,所述第一确定子单元具体用于:
基于词向量训练模型,确定每一个标准文本对应的至少一个词向量以及所述待处理词向量对应的至少一个词向量。
计算所述每一个标准文本对应至少一个词向量的平均词向量,获得每一个标准文本的标准词向量,以确定所述至少一个标准文本分别对应的标准词向量。
计算所述待处理文本对应至少一个词向量的平均词向量,获得所述待处理文本的待处理词向量。
通过平均词向量的计算,可以将不同语言的文本进行统一处理,扩展文本的处理范围,继而将不同语言的语料样本进行交互使用,提高了处理效果。
对于上述实施例中的实现文本处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
如图11所示,所述图10中所示的文本处理装置可以实现为一种文本处理设备,该设备可以包括:存储组件1101以及处理组件1102,所述存储组件1101存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件1102调用并执行;
所述处理组件1102用于:
确定待处理文本对应的至少一种目标语言;基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获得与所述目标文本对应的应答内容。
其中,所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量。
用户可以通过输入窗口输入所述待处理文本。
待处理文本可以对应至少一个词语,待处理文本可以由一种或多种语言的词语按照一定的语法结构构成。
源语言可能有大量的语料样本,目标语言可能只有少量的语料样本,通过训练把源语言的知识迁移到目标语言上。
其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与所述任一种目标语言不同。
本申请实施例,通过识别待处理文本对应的目标内容,可以通过文本识别模型库,从目标语言对应源语言的知识库中查找与待处理文本匹配的目标文本。而文本识别模型是基于源语言的第一训练数据以及目标语言的第二训练数据事先训练获得,源语言与目标语言不同。语义相同的目标文本,并获取该目标文本对应的应答内容,实现了不同语言之间知识库的共享,从而通过文本识别模型对可以快速查找其他知识库中的问答内容,扩展识别范围,提高问答效率以及准确度。
为了准确获得待处理文本对应的源语言,作为一个实施例,所述处理组件确定所述待处理文本对应的至少一种目标语言具体是:
确定所述待处理文本的至少一个分词;
针对每一个分词对应的语言种类,确定所述待处理文本对应的至少一种目标语言。
本申请实施例中,通过将待处理文本进行分词,获得每一个分词的语言种类,识别待处理文本的源语言,进而可以针对包含不同和/或相同语言种类的待处理文本,分别进行处理,获得对应的语言种类,以提高文本的匹配效率。
为了准确识别待处理文本中不同领域的词语,可以将不同领域的词语替换为更容易被识别的普通词语,作为一个实施例,所述处理组件确定所述待处理文本对应的至少一种目标语言具体是:
确定所述待处理文本的至少一个分词;
确定所述每一个分词是否在同义词替换表中存在同义词;
如果存在将所述每一个分词替换为所述同义词替换表中的目标同义词,获得替换后的至少一个替换分词;
针对所述至少一个替换分词的语言种类,确定所述待处理文本的目标语言。
本申请实施例中,对于不同领域而言,相同的词语可能有不同的意思表示,不同的词语可能有相同的意思表示,为了实现对所有词语进行更好的识别,实现词义表达的统一,可以将分词中存在同义词的替换为相应的同义词,以提高分词的识别结果。
为了实现获得目标语言中知识库的语料样本,作为又一个实施例,所述处理组件基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本具体是:
确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本;其中,每一个标准文本对应有相应的应答内容;
基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本。
本申请实施例中,对于目标语言的知识库而言,可能存储有大量的语料样本以及语料样本对应的应答内容,如果针对所有的语料样本均通过文本识别模型,执行待处理文本的目标文本的查找匹配计算,计算量非常庞大。如果首先针对知识库进行筛选,获得至少一个标准文本,并从至少一个标准文本中查找与待处理文本最匹配的目标文本。通过以上方式可以对知识库的初步筛选,以缩小匹配范围,降低运算量,提高匹配效率。
为了对知识库中的语料样本进行初步筛选,提高处理效率,在某些实施例中,所述处理组件确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本具体是:
提取所述待处理文本的实体词;
从所述至少一种目标语言对应源语言的知识库中,查找包含所述实体词的至少一个标准文本;其中,每一个标准文本对应有相应的应答内容。
其中,每一个标准文本对应有相应的应答内容。
待处理文本的实体词可以指句子中起主要作用的句子成分,句子的实体词提取之后,句子的主要意思即被破坏。假设一个句子为“我想要买一本书”中实体词可以是“买”以及“书”。
可选地,可以提取待处理文本的至少一个实体词,可以从目标语言对应源语言的知识库中,查找包含所述至少一个实体词的至少一个标准文本。
提取待处理文本中的至少一个实体词可以包括:对待处理文本进行分词;之后可以对所述待处理文本进行语法分析以及主干分析,删减待处理文本中属于预定成分和/或预定性的分词词语,以获得句子的至少一个实体词。当然,可以针对任一个实体词进行同样的分析以获得。
句子中的预定成分和/或预定性的分词词语可以指删减后不影响句子表达的词语,例如,语气词“吗”即可以被定义为一个预定成分和/或预定性的分词词语。
为了获得准确的目标文本,提高目标文本的准确度,作为又一个实施例,所述处理组件基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本具体是:
基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量;
基于所述待处理词向量与所述至少一个标准文本分别对应的标准词向量的词向量相似程度,从所述至少一个标准文本中选择第一数量的候选文本;
基于所述文本识别模型中事先训练获得的编码器,将所述第一数量候选文本各自对应的标准词向量转换为候选句向量以及将所述待处理词向量转换为待处理句向量;
根据第一数量的候选句向量与所述待处理句向量的句向量相似度,确定相似度最高的候选句向量对应候选文本为所述目标文本。
为了获得使获得的匹配结果更准确,作为又一个实施例,所述处理组件基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量具体是:
基于词向量训练模型,确定每一个标准文本对应的至少一个词向量以及所述待处理词向量对应的至少一个词向量;
计算所述每一个标准文本对应至少一个词向量的平均词向量,获得每一个标准文本的标准词向量,以确定所述至少一个标准文本分别对应的标准词向量;
计算所述待处理文本对应至少一个词向量的平均词向量,获得所述待处理文本的待处理词向量。
通过平均词向量的计算,可以将不同语言的文本进行统一处理,扩展文本的处理范围,继而将不同语言的语料样本进行交互使用,提高了处理效果。
如图12所示,为本申请实施例提供的一种文本处理系统的一个实施例的结构示意图,该文本处理系统可以包括:用户端1201,以及服务端1202。
其中,用户端1201的具体结构可以参见图7中所示,服务端1202可以参见图6以及图8中所示。
所述用户端1201用于检测用户输入的由至少一种目标语言构成的待处理文本,并发送待处理文本至所述服务端1202。
所述服务端1202可以事先训练文本识别模型,该文本识别模型可以同时识别至少一种目标语言;并基于文本识别模型,从至少一种目标语言对应源语言的知识库中查找待处理文本匹配的目标文本,并将目标文本对应应答内容反馈给用户端1201。
之后,用户端1201可以接收服务端1202反馈的应答内容,并展示给用户。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (22)
1.一种模型训练方法,其特征在于,包括:
获取源语言构成的第一训练文本;
获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;
获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;
基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容;
所述基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型包括:
构建文本识别模型的编码器以及分类器;
利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;
将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;
基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
2.根据权利要求1所述的方法,其特征在于,所述基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同包括:
构建分类损失函数以及编码损失函数;
获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果;
将所述语义分类结果输入所述分类损失函数,获得针对所述语义分类结果的分类损失评价结果;
如果所述分类损失评价结果不满足预设的分类损失条件,重新训练所述分类器,并返回至所述获取所述分类器对所述第一句向量以及所述第二句向量的语义分类结果的步骤继续执行;
如果所述分类损失评价结果满足预设的损失条件,将所述语义分类结果输入所述编码损失函数,获得编码损失评价结果;
如果所述编码损失评价结果满足预设的编码损失条件,确定所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同,获得文本识别模型;
如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器;并返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述损失评价结果满足预设的损失条件。
3.根据权利要求2所述的方法,其特征在于,所述如果编码损失评价结果不满足预设的编码损失条件,重新训练所述编码器包括:
如果所述损失评价结果不满足预设的损失条件,将所述第一句向量翻译为至少一种目标语言各自对应的目标翻译文本,以及将所述第二句向量翻译为源语言对应的源翻译文本;
基于所述至少一种目标语言各自对应的目标翻译文本以及所述源翻译文本,重新训练所述编码器,以更新所述编码器。
4.根据权利要求1所述的方法,其特征在于,所述获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量包括:
获取所述源语言以及所述至少一种目标语言对应的词向量库;其中,所述词向量库中基于所述源语言的第三训练文本以及所述至少一种目标语言的第四训练文本事先交叉训练获得;
查询所述词向量库中与所述第一训练文本各个分词匹配的第一词向量;
查询所述词向量库中与所述第二训练文本各个分词匹配的第二词向量。
5.根据权利要求1所述的方法,其特征在于,所述获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量包括:
获取事先训练获得的权重矩阵;其中,所述权重矩阵基于源语言的第五训练数据以及至少一种目标语言的第六训练数据交叉训练获得;
计算所述第一训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第一词向量;
计算所述第二训练文本每一个词语的初始词向量与所述权重矩阵的乘积,获得第二词向量。
6.根据权利要求1所述的方法,其特征在于,所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量具体通过以下方式交叉训练获得:
获取第一训练文本对应的第一训练数据以及第二训练数据,以及所述第二训练文本对应的第三训练数据以及第四训练数据;
将所述第二训练数据翻译为至少一种目标语言各自对应的第一翻译数据,获得至少一种第一翻译数据;
将所述第四训练数据翻译为源语言对应的第二翻译数据;
基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量;
基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量;
根据所述第一训练数据的词向量以及所述第二翻译数据的词向量,确定所述第一训练文本的第一词向量;
根据所述第三训练数据的词向量以及所述至少一种第一翻译数据的词向量,确定所述第二训练文本的第二词向量。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一训练数据以及所述至少一种第一翻译数据,获得所述第一训练数据的词向量以及所述至少一种第一翻译数据的词向量包括:
确定所述第一训练数据的第一初始向量,以及所述至少一种第一翻译数据的第二初始向量;
确定第一权重矩阵以及第二权重矩阵;
基于所述第一初始向量与所述第一权重矩阵,获得第一隐层向量;
基于所述第一隐层向量与所述第二权重矩阵,获得第一预测向量;
预估所述第一预测向量与所述第二初始向量的第一向量差异;
如果所述第一向量差异满足预设的差异条件,确定所述第一初始向量为所述第一训练数据的词向量以及所述第二初始向量为所述至少一种第一翻译数据的词向量;
如果所述第一向量差异不满足预设的差异条件,更新所述第一权重矩阵、所述第二权重矩阵、所述第一初始向量以及所述第二初始向量;并返回至所述确定所述第一训练数据的第一初始向量以及所述至少一种第一翻译数据的第二初始向量的步骤继续执行。
8.根据权利要求6所述的方法,其特征在于,所述基于所述第三训练数据以及所述第二翻译数据,获得所述第三训练数据的词向量以及所述第二翻译数据的词向量包括:
确定所述第三训练数据的第三初始向量,以及所述第二翻译数据的第四初始向量;
确定第三权重矩阵以及第四权重矩阵;
基于所述第三初始向量与所述第三权重矩阵,获得第二隐层向量;
基于所述第二隐层向量与所述第四权重矩阵,获得第二预测向量;
预估所述第二预测向量与所述第四初始向量的第二向量差异;
如果所述第二向量差异满足预设的差异条件,确定所述第三初始向量为所述第三训练数据的词向量以及所述第四初始向量为所述第二翻译数据的词向量;
如果所述第二向量差异不满足预设的差异条件,更新所述第三权重矩阵、所述第四权重矩阵、所述第三初始向量以及所述第四初始向量;并返回至所述确定所述第三训练数据的第三初始向量以及所述第二翻译数据的第四初始向量的步骤继续执行。
9.一种文本处理方法,其特征在于,包括:
确定待处理文本对应的至少一种目标语言;
基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得具体是通过获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同获得;
获得与所述目标文本对应的应答内容。
10.根据权利要求9所述的方法,其特征在于,所述确定所述待处理文本对应的至少一种目标语言包括:
确定所述待处理文本的至少一个分词;
针对每一个分词对应的语言种类,确定所述待处理文本对应的至少一种目标语言。
11.根据权利要求9所述的方法,其特征在于,所述确定所述待处理文本对应的至少一种目标语言包括:
确定所述待处理文本的至少一个分词;
确定所述每一个分词是否在同义词替换表中存在同义词;
如果存在将所述每一个分词替换为所述同义词替换表中的目标同义词,获得替换后的至少一个替换分词;
针对所述至少一个替换分词的语言种类,确定所述待处理文本的目标语言。
12.根据权利要求9所述的方法,其特征在于,所述基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本包括:
确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本;其中,每一个标准文本对应有相应的应答内容;
基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本。
13.根据权利要求12所述的方法,其特征在于,所述确定所述至少一种目标语言对应所述源语言的知识库中至少一个标准文本包括:
提取所述待处理文本的实体词;
从所述至少一种目标语言对应源语言的知识库中,查找包含所述实体词的至少一个标准文本;其中,每一个标准文本对应有相应的应答内容。
14.根据权利要求12所述的方法,其特征在于,所述基于所述文本识别模型,从所述至少一个标准文本中查找与所述待处理文本最匹配的目标文本包括:
基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量;
基于所述待处理词向量与所述至少一个标准文本分别对应的标准词向量的词向量相似程度,从所述至少一个标准文本中选择第一数量的候选文本;
基于所述文本识别模型中事先训练获得的编码器,将所述第一数量候选文本各自对应的标准词向量转换为候选句向量以及将所述待处理词向量转换为待处理句向量;
根据第一数量的候选句向量与所述待处理句向量的句向量相似度,确定相似度最高的候选句向量对应候选文本为所述目标文本。
15.根据权利要求14所述的方法,其特征在于,所述基于词向量训练模型,确定所述至少一个标准文本分别对应的标准词向量以及所述待处理文本的待处理词向量包括:
基于词向量训练模型,确定每一个标准文本对应的至少一个词向量以及所述待处理词向量对应的至少一个词向量;
计算所述每一个标准文本对应至少一个词向量的平均词向量,获得每一个标准文本的标准词向量,以确定所述至少一个标准文本分别对应的标准词向量;
计算所述待处理文本对应至少一个词向量的平均词向量,获得所述待处理文本的待处理词向量。
16.一种文本处理方法,其特征在于,包括:
确定用户输入的至少一种目标语言的待处理文本;
发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端;
接收所述服务端发送的目标文本的应答内容;
输出所述应答内容,以供所述用户查看;
其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于第二训练文本的数量;
所述文本识别模型具体按照如下方式获得:获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
17.一种模型训练装置,其特征在于,包括:
第一获取模块,用于获取源语言构成的第一训练文本;
第二获取模块,用于获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;
模型训练模块,用于基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一训练文本以及所述第二训练文本训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容;
该装置还用于获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;
所述模型训练模块基于所述第一训练文本与所述第二训练文本语义相同的训练结果,利用所述第一训练文本以及所述第二训练文本训练文本识别模型具体是通过构建文本识别模型的编码器以及分类器;利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
18.一种文本处理装置,其特征在于,包括:
第一确定模块,用于确定待处理文本对应的至少一种目标语言;
文本匹配模块,用于基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得具体是通过获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同获得;
内容获取模块,用于获得与所述目标文本对应的应答内容。
19.一种文本处理装置,其特征在于,包括:
第二确定模块,用于确定用户输入的至少一种目标语言的待处理文本;
文本发送模块,用于发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端;
文本接收模块,用于接收所述服务端发送的目标文本的应答内容;
文本输出模块,用于输出所述应答内容,以供所述用户查看;
其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得具体是通过获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同获得。
20.一种模型训练设备,其特征在于,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
获取源语言构成的第一训练文本;获取至少一种目标语言构成的第二训练文本;其中,所述源语言与任一种目标语言不同,所述第一训练文本的数量大于第二训练文本的数量;获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;
基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型;
其中,所述文本识别模型用以基于至少一种目标语言的待处理文本从源语言的知识库中查找与所述待处理文本匹配的目标文本,以获得所述目标文本对应的应答内容;
所述基于所述第一词向量与所述第二词向量语义相同的训练结果,利用所述第一词向量以及所述第二词向量训练文本识别模型包括:
构建文本识别模型的编码器以及分类器;
利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;
将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;
基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同。
21.一种文本处理设备,其特征在于,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
确定待处理文本对应的至少一个目标语言;基于文本识别模型,从所述至少一个目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;其中,所述文本识别模型基于源语言的第一训练文本以及所述第一训练文本对应至少一个目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于所述第二训练文本的数量;获得与所述目标文本对应的应答内容;所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得具体是通过获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同获得。
22.一种文本处理设备,其特征在于,包括:存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
确定用户输入的至少一种目标语言的待处理文本;发送所述待处理文本至服务端,以供所述服务端确定所述待处理文本对应的至少一种目标语言,并基于文本识别模型,从所述至少一种目标语言对应源语言的知识库中查找与所述待处理文本匹配的目标文本;获取并发送所述目标文本对应应答内容至用户端; 接收所述服务端发送的目标文本的应答内容;输出所述应答内容,以供所述用户查看;其中,所述文本识别模型基于源语言的第一训练文本以及至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得,所述源语言与任一种目标语言不同且所述第一训练文本的数量大于第二训练文本的数量;所述文本识别模型基于源语言的第一训练文本以及所述至少一种目标语言的第二训练文本语义相同的训练结果事先训练获得具体是通过获取所述第一训练文本的第一词向量以及所述第二训练文本的第二词向量;构建文本识别模型的编码器以及分类器,利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量;将所述第一句向量以及所述第二句向量作为分类参数输入所述分类器;基于所述分类器对所述第一句向量以及所述第二句向量的语义分类结果,调整所述编码器以及所述分类器,返回至所述利用所述编码器,将所述第一词向量转换为第一句向量以及所述第二词向量转换为第二句向量的步骤继续执行,直至所述分类器对所述第一句向量以及所述第二句向量的语义分类结果相同获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811061901.6A CN110895559B (zh) | 2018-09-12 | 2018-09-12 | 模型训练、文本处理方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811061901.6A CN110895559B (zh) | 2018-09-12 | 2018-09-12 | 模型训练、文本处理方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895559A CN110895559A (zh) | 2020-03-20 |
CN110895559B true CN110895559B (zh) | 2023-06-20 |
Family
ID=69785489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811061901.6A Active CN110895559B (zh) | 2018-09-12 | 2018-09-12 | 模型训练、文本处理方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895559B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694826B (zh) * | 2020-05-29 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
US11694042B2 (en) * | 2020-06-16 | 2023-07-04 | Baidu Usa Llc | Cross-lingual unsupervised classification with multi-view transfer learning |
CN112749557A (zh) * | 2020-08-06 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 文本处理模型的构建方法和文本处理方法 |
CN112668345B (zh) * | 2020-12-24 | 2024-06-04 | 中国科学技术大学 | 语法缺陷数据识别模型构建方法和语法缺陷数据识别方法 |
CN112633019B (zh) * | 2020-12-29 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种双语样本生成方法、装置、电子设备及存储介质 |
CN114925660B (zh) * | 2022-05-23 | 2023-07-28 | 马上消费金融股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
CN115525743B (zh) * | 2022-08-18 | 2023-11-14 | 贝壳找房(北京)科技有限公司 | 基于自学习白化网络的人机交互方法及电子设备 |
CN115952313B (zh) * | 2023-03-07 | 2023-06-20 | 阿里巴巴(中国)有限公司 | 商品特征的处理方法、电子设备及计算机存储介质 |
CN117648410B (zh) * | 2024-01-30 | 2024-05-14 | 中国标准化研究院 | 一种多语言文本数据分析系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
CN106372241A (zh) * | 2016-09-18 | 2017-02-01 | 广西财经学院 | 基于词间加权关联模式的越英跨语言文本检索方法及系统 |
CN107704506A (zh) * | 2017-08-30 | 2018-02-16 | 华为技术有限公司 | 智能应答的方法和装置 |
CN108509411A (zh) * | 2017-10-10 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577399B (zh) * | 2013-11-05 | 2018-01-23 | 北京百度网讯科技有限公司 | 双语语料库的数据扩充方法和装置 |
-
2018
- 2018-09-12 CN CN201811061901.6A patent/CN110895559B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763402A (zh) * | 2009-12-30 | 2010-06-30 | 哈尔滨工业大学 | 多语言信息检索一体化检索方法 |
CN106372241A (zh) * | 2016-09-18 | 2017-02-01 | 广西财经学院 | 基于词间加权关联模式的越英跨语言文本检索方法及系统 |
CN107704506A (zh) * | 2017-08-30 | 2018-02-16 | 华为技术有限公司 | 智能应答的方法和装置 |
CN108509411A (zh) * | 2017-10-10 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
Non-Patent Citations (2)
Title |
---|
姚亮 ; 洪宇 ; 刘昊 ; 刘乐 ; 姚建民 ; .基于语义分布相似度的翻译模型领域自适应研究.山东大学学报(理学版).2016,(第07期),43-50. * |
臧劲松.人工智能在跨语言信息检索中的应用.计算机时代.2016,29-35. * |
Also Published As
Publication number | Publication date |
---|---|
CN110895559A (zh) | 2020-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110895559B (zh) | 模型训练、文本处理方法、装置以及设备 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108829757B (zh) | 一种聊天机器人的智能服务方法、服务器及存储介质 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
CN110097085B (zh) | 歌词文本生成方法、训练方法、装置、服务器及存储介质 | |
US20230117094A1 (en) | Generating replacement sentences for a particular sentiment | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
KR20200031154A (ko) | 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정 | |
CN105930452A (zh) | 一种识别自然语言的智能应答方法 | |
CN113011189A (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN110866093A (zh) | 机器问答方法及装置 | |
CN111984766A (zh) | 缺失语义补全方法及装置 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
KR101763407B1 (ko) | 음성 대화 시스템 및 그 시스템에서의 음성 대화 방법 | |
JP6946842B2 (ja) | モデル学習装置、変換装置、方法、及びプログラム | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN110516035A (zh) | 一种混合模块的人机交互方法和系统 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
Almiman et al. | Deep neural network approach for Arabic community question answering | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |