CN110765235B - 训练数据的生成方法、装置、终端及可读介质 - Google Patents
训练数据的生成方法、装置、终端及可读介质 Download PDFInfo
- Publication number
- CN110765235B CN110765235B CN201910846968.9A CN201910846968A CN110765235B CN 110765235 B CN110765235 B CN 110765235B CN 201910846968 A CN201910846968 A CN 201910846968A CN 110765235 B CN110765235 B CN 110765235B
- Authority
- CN
- China
- Prior art keywords
- graph
- sub
- text
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种训练数据的生成方法、装置、计算机设备及存储介质,包括:获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图;根据所述目标有向图生成目标训练数据,所述目标训练数据可用于对机器学习模型进行训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。另外,本发明实施例还公开了一种基于常识知识的语句推理方法及装置。通过上述方式,能够解析自然语言文本的文本语料中的语法及语义关系,并生成对应的目标训练数据,并根据该训练数据对机器学习模型进行训练,以实现基于文本语料中的语法语义关系的推理。
Description
技术领域
本发明涉及计算机技术领域和自然语言处理技术领域,尤其涉及一种训练数据的生成方法、装置、终端及可读介质。
背景技术
通过机器学习的方式,可以对人工或机器自动收集大量的文本语料进行统计和分析,以统计大量的文本语料中的规律、知识等并加以利用,从而实现不同应用场景下的自动判断。
在相关的对于语料的学习与训练的技术方案中,往往并未考虑自然语言文本中的常识知识,并没有深入的分析语句中包含的句法结构或者语义信息、以及各个部分之间的语义关联等。而为了提高对自然语言文本的学习的有效性和准确性,对其中的常识知识的考虑是必然的。
因此,有必要提供一种能对自然语言文本的语料中的常识知识进行提取和利用的方案。
发明内容
基于此,有必要针对上述问题,提出一种能实现常识推理的深度学习模型的训练数据的生成方法、装置、终端及计算机可读介质。
在本发明的第一方面,提供了一种训练数据的生成方法,包括:
获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图;
根据所述目标有向图生成目标训练数据,所述目标训练数据可用于对机器学习模型进行训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。
可选的,所述根据所述目标有向图生成目标训练数据的步骤,还包括:
按照预设的子图获取规则获取所述目标有向图的第一子图,将所述第一子图作为所述目标训练数据。
可选的,所述目标有向图包括多个语义结点和多个语义连接边;
所述按照预设的子图获取规则获取所述目标有向图的第一子图的步骤,还包括:
在所述目标有向图中,选取至少2个连接的语义结点以及与选取的语义结点连接的语义连接边,生成所述第一子图。
可选的,所述按照预设的子图获取规则获取所述目标有向图的第一子图的步骤之后,还包括:
根据所述目标有向图和所述第一子图生成第二子图,所述第二子图包含所述第一子图、且与所述第一子图是连接的。
可选的,所述根据所述目标有向图和所述第一子图生成第二子图的步骤,还包括:
确定所述目标有向图中与所述第一子图连接的一个或多个互相连接的语义结点作为目标子图语义结点,获取与所述目标子图语义结点连接的语义连接边,根据所述目标子图语义结点、与所述目标子图语义结点连接的语义连接边和所述第一子图生成第二子图。
可选的,所述根据所述目标有向图和所述第一子图生成第二子图的步骤之后,还包括:
按照预设的子图修改规则,对在所述第二子图中且未包含在所述第一子图中的至少一个语义结点和/或语义连接边进行修改,生成第三子图。
可选的,所述目标训练数据包括第一训练样本对;
所述根据所述目标有向图生成目标训练数据的步骤,还包括:
根据所述第一子图和所述第二子图生成第一训练样本对。
可选的,所述目标训练数据包括第二训练样本对;
所述按照预设的子图修改规则,对在所述第二子图中且未包含在所述第一子图中的至少一个语义结点和/或语义连接边进行修改,生成第三子图的步骤之后,还包括:
根据所述第一子图和所述第三子图生成第二训练样本对。
可选的,所述通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图的步骤,还包括:
对所述文本语料进行分句处理,获取多个句子;
通过语法解析和/或语义分析及处理生成与所述每一个句子对应的有向子图;
根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图。
可选的,所述根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图的步骤,还包括:
通过语法解析和/或语义分析确定所述多个句子之间的语义关联关系,根据所述每一个句子之间的语义关联关系对与所述每一个句子对应的有向子图进行合并,生成所述目标有向图。
可选的,所述通过语法解析和/或语义分析确定所述多个句子之间的语义关联关系的步骤,还包括:
对所述文本语料分句处理得到的多个句子进行指代消解,确定所述多个句子中是否存在两个或以上的句子中包括指向同一事物或同一概念对应的词;
若存在,确定包括指向同一事物或同一概念对应的词的两个或以上的句子之间存在语义关联关系。
可选的,所述通过语法解析和/或语义分析及处理生成与所述每一个句子对应的有向子图的步骤,还包括:
针对每一个句子进行分词处理、词性标注和依存句法分析,生成依存句法树;按照预设的有向图生成规则生成与所述依存句法树对应的有向子图。
可选的,所述根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图的步骤,还包括:
确定所述文本语料包含的每一个句子对应的有向子图之间的关联关系,根据该关联关系和所述每一个句子对应的有向子图,生成与所述文本语料对应的目标有向图。
可选的,所述获取文本语料的步骤之后,还包括:
对所述文本语料进行预处理,以删除所述文本语料中的非法字符、网页代码和/或重复语句。
在本发明的第二方面,提供了一种训练数据的生成装置,包括:
有向图生成模块,用于获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图;
训练数据生成模块,用于根据所述目标有向图生成目标训练数据,所述目标训练数据可用于对机器学习模型进行训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。
可选的,所述训练数据生成模块还包括第一子图获取子模块,用于按照预设的子图获取规则获取所述目标有向图的第一子图,将所述第一子图作为所述目标训练数据。
可选的,所述目标有向图包括多个语义结点和多个语义连接边;所述第一子图获取子模块还用于在所述目标有向图中,选取至少2个连接的语义结点以及与选取的语义结点连接的语义连接边,生成所述第一子图。
可选的,所述训练数据生成模块还包括第二子图获取子模块,用于根据所述目标有向图和所述第一子图生成第二子图,所述第二子图包含所述第一子图、且与所述第一子图是连接的。
可选的,第二子图获取子模块还用于确定所述目标有向图中与所述第一子图连接的一个或多个互相连接的语义结点作为目标子图语义结点,获取与所述目标子图语义结点连接的语义连接边,根据所述目标子图语义结点、与所述目标子图语义结点连接的语义连接边和所述第一子图生成第二子图。
可选的,所述训练数据生成模块还包括第三子图获取子模块,用于按照预设的子图修改规则,对在所述第二子图中且未包含在所述第一子图中的至少一个语义结点和/或语义连接边进行修改,生成第三子图。
可选的,所述目标训练数据包括第一训练样本对;
所述训练数据生成模块还包括第一训练样本对生成子模块,用于根据所述第一子图和所述第二子图生成第一训练样本对。
可选的,所述目标训练数据包括第二训练样本对;
所述训练数据生成模块还包括第二训练样本对生成子模块,用于根据所述第一子图和所述第三子图生成第二训练样本对。
可选的,所述有向图生成模块还用于对所述文本语料进行分句处理,获取多个句子;通过语法解析和/或语义分析及处理生成与所述每一个句子对应的有向子图;根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图。
可选的,所述有向图生成模块还用于通过语法解析和/或语义分析确定所述多个句子之间的语义关联关系,根据所述每一个句子之间的语义关联关系对与所述每一个句子对应的有向子图进行合并,生成所述目标有向图。
可选的,所述有向图生成模块还用于对所述文本语料分句处理得到的多个句子进行指代消解,确定所述多个句子中是否存在两个或以上的句子中包括指向同一事物或同一概念对应的词;在存在的情况下,确定包括指向同一事物或同一概念对应的词的两个或以上的句子之间存在语义关联关系。
可选的,所述有向图生成模块还用于针对每一个句子进行分词处理、词性标注和依存句法分析,生成依存句法树;按照预设的有向图生成规则生成与所述依存句法树对应的有向子图。
可选的,所述有向图生成模块还用于确定所述文本语料包含的每一个句子对应的有向子图之间的关联关系,根据该关联关系和所述每一个句子对应的有向子图,生成与所述文本语料对应的目标有向图。
可选的,所述有向图生成模块还用于对所述文本语料进行预处理,以删除所述文本语料中的非法字符、网页代码和/或重复语句。
在本发明的第三方面,提供了一种基于常识知识的语句推理方法,包括:
获取根据前述训练数据的生成方法生成的目标训练数据对作为目标训练样本集;
根据所述目标训练样本集对预设的机器学习模型进行训练;
获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图;
将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果。
可选的,所述获取根据前述训练数据的生成方法生成的目标训练数据对作为目标训练样本集的步骤,还包括:分别获取根据权利要求7和8所述的方法生成的多个第一训练样本对和与该第一训练样本对对应的第二训练样本对作为第一训练样本集和第二训练样本集,设置第一训练样本集中包含的训练样本对的标签值为1,第二训练样本集中包含的训练样本对的标签值为0;
所述根据所述目标训练样本集对预设的机器学习模型进行训练的步骤,还包括:以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练;
所述获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图的步骤,还包括:获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;通过语法解析和/或语义分析及处理分别获取与所述第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图;
所述将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果的步骤,还包括:将所述第一待测有向图和第二待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系。
可选的,所述获取根据前述训练数据的生成方法生成的目标训练数据对作为目标训练样本集的步骤,还包括:获取根据前述训练数据的生成方法生成的多个第一子图和与该第一子图对应的第二子图作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
所述根据所述目标训练样本集对预设的机器学习模型进行训练的步骤,还包括:以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
所述获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图的步骤,还包括:获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
所述将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果的步骤,还包括:将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
在本发明的第四方面,提供了一种基于常识知识的语句推理装置,包括:
训练数据获取模块,用于获取根据前述训练数据的生成装置生成的目标训练数据对作为目标训练样本集;
模型训练模块,用于根据所述目标训练样本集对预设的机器学习模型进行训练;
文本处理模块,用于获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图;
输出模块,用于将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果。
可选的,所述训练数据获取模块还用于分别获取根据前述训练数据的生成装置生成的多个第一训练样本对和与该第一训练样本对对应的第二训练样本对作为第一训练样本集和第二训练样本集,设置第一训练样本集中包含的训练样本对的标签值为1,第二训练样本集中包含的训练样本对的标签值为0;
所述模型训练模块还用于以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练;
所述文本处理模块还用于获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;通过语法解析和/或语义分析及处理分别获取与所述第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图;
所述输出模块还用于将所述第一待测有向图和第二待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系。
可选的,所述训练数据获取模块还用于分别获取根据前述训练数据的生成装置生成的多个第一子图和与该第一子图对应的第二子图作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
所述模型训练模块还用于以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
所述文本处理模块还用于获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
所述输出模块还用于将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
在本发明的第五方面,提供了一种终端,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如前所述的任一方法步骤。
在本发明的第六方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如前所述的任一方法步骤。
实施本发明实施例,将具有如下有益效果:
本发明提出了一种训练数据的生成方法、装置、终端及可读介质,对原始采集到的自然语言文本的文本语料进行语法解析和语义分析及处理,生成与文本语料对应的依存句法树,并据此生成对应的目标有向图,目标有向图中包含了相应的文本语料中的多个词以及各个词之间的语义和语法上的关联关系;然后在该目标有向图中选取相应的子图、以及对选取到的子图进行处理获取对应的训练数据作为后续对机器学习模型进行训练的训练数据。也就是说,因为该训练数据是通过文本语料对应的有向图生成的,包含了相应的文本语料在语义和语法上的关联关系,因此,该训练数据能实现对常识知识的提取和利用,以使得通过该训练数据训练完成的深度学习模型能实现基于常识知识提取和利用之后的识别和判断。
进一步的,本发明还提出了一种基于常识知识的语句推理方法及装置,对大量的原始的文本语料进行处理,获取大量的训练数据,然后通过该训练数据来对预设的机器学习模型进行训练,以使得该机器学习模型具备判断、识别和利用文本语料对应的目标有向图中的语法和语义上的关联关系,也即具备常识推理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中训练数据的生成方法的实现流程示意图;
图2为一个实施例中依存句法树的示意图;
图3为一个实施例中目标有向图的示意图;
图4为一个实施例中训练数据的生成方法的实现流程示意图;
图5为一个实施例中第一子图的示意图;
图6为一个实施例中第二子图的示意图;
图7为一个实施例中第三子图的示意图;
图8为一个实施例中一种基于常识知识的语句推理方法的流程示意图;
图9为一个实施例中一种基于常识知识的语句推理方法的流程示意图;
图10为一个实施例中一种基于常识知识的语句推理方法的流程示意图;
图11为一个实施例中训练数据的生成装置的结构框图;
图12为一个实施例中训练数据的生成装置的结构框图;
图13为一个实施例中基于常识知识的语句推理装置的结构框图;
图14为一个实施例中运行前述方法的计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种训练数据的生成方法,用于对获取的原始的自然语言文本进行处理,以生成可以对机器学习模型进行训练的训练数据。需要说明的是,本发明实施例所述的训练数据的生成方法的执行主体可以是服务器或者是其他计算机终端设备。
具体的,如图1所示,上述训练数据的生成方法包括如下步骤:
步骤S100:获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图。
在本实施例中,文本语料为从网络或者其他途径获取的原始的未经处理的自然语言文本,每一条文本语料均为语义通顺的自然语言文本。例如,一条文本语料可以对应了一句话,也可能对应多句话构成的一段话。
需要说明的是,在本实施例中,获取到的文本语料的数量是十分庞大的,例如,亿万条文本语料,这样根据该文本语料生成的训练数据的数量才能足够多,才能使得对机器学习模型进行训练并且实现训练完成的模型的计算具备一定的准确性。在实际处理的过程中,针对每一条文本语料分别进行处理以生成与该文本语料对应的一项或多项训练数据。
在本实施例中,在获取到文本语料之后,还可以对文本语料进行预处理,以删除所述文本语料中的非法字符、网页代码、重复语句或者其他不规范的语句或用词,例如,删除文本语料中反复重复的标点符号或者其他非法字符,再例如,删除文本语料中的网页代码或者网页地址等,或者删除文本语料中其他对语法语义理解无关的字符、或者词、或者句等。也就是说,经过预处理之后的文本语料,可以去掉文本语料中质量不高的部分以及无法进行语义分析和语法解析的部分,提高后续对文本语料进行语义分析和语法解析的准确性。
需要说明的是,在本实施例中,一条文本语料可能是一句话,也可能是多句话组成的一段话,因此,在进行具体的语法解析和/或语义分析及处理之前,首先需要对获取到的文本语料或者预处理之后的文本语料进行分句处理;并且,还需要对分句处理之后的文本语料包含的每一个句子进行分词处理,以将句子切割成由多个词。
在本实施例中,为了获取每一个文本语料中的语法语义关系以使后续生成的训练语料可以实现根据语法语义关系的常识推理,还需要对每一个文本语料进行语法解析和语义分析及处理。即对分句、分词处理之后的文本语料进行语法解析和语义分析。具体实施中,对每一条文本语料中的主谓关系、动宾关系等进行分析,并确定其中的每一个词对应的词性,例如名词、动词等;并据此生成与该文本语料对应的依存句法树,该依存句法树包含了文本语料中的每一个词以及相互之间的联系,该联系为语法和语义上的关联关系。
需要说明的是,在本实施例中,在一条文本语料包含了多个句子的情况下,需要分别针对每一个句子分别进行语法解析和语义分析,并生成与之对应的依存句法树,然后根据多个句子之间的关联关系,将文本语料包含的多个依存句法树之间进行关联,生成与所述文本语料对应的依存句法树。例如,如图2所示,图2展示了依存句法树的一个示例,其对应的文本语料为“院子有苹果树结满青苹果”对应的依存句法树。
依存句法树包含了多个结点和多条边,每一个结点为一个词(可以是分词处理之后的一个语料词),两个结点之间若存在关联关系,则二者之间存在一条边。
根据依存句法树即可生成与相应的文本语料对应的目标有向图,在此过程中,需要对每一条边增加相应的方向,以将依存句法树对应的边转换成有向边。如图3所示,图3展示了根据图2所示的依存句法树生成的目标有向图的示例。
目标有向图包含多个语义结点和多个语义连接边,其中语义结点与依存句法树中的结点对应,语义连接边与依存句法树中的边对应,并且语义连接边为有向边。其中,目标有向图中包含了与相应的语义结点和语义连接边对应的语义角色的标注。
在本实施例中,在根据依存句法树生成目标有向图的过程,还可以在依存句法树包含的结点和边上添加语义角色的标注,也就是说,语义结点和语义连接边上均可以在原来的基础上添加其他属性标识,并根据目标有向图添加其他语义连接边,连接目标有向图中未连接的语义结点。
在一个具体的实施例中,如果文本语料包含有多个句子,与该文本语料对应的目标有向图的生成过程如下:
对所述文本语料进行分句处理,获取多个句子;
通过语法解析和/或语义分析及处理生成与所述每一个句子对应的有向子图;
根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图。
具体的,通过语法解析和/或语义分析确定所述多个句子之间的语义关联关系,根据所述每一个句子之间的语义关联关系对与所述每一个句子对应的有向子图进行合并,生成所述目标有向图。
需要说明的是,在本实施例中,根据多个有向子图生成目标有向图的过程,是根据句子之间的语法解析的关系,对多个有向子图进行指代消解,生成一个目标有向图O。
也就是说,具体合并的过程,通过对所述文本语料分句处理得到的多个句子进行指代消解,确定所述多个句子中是否存在两个或以上的句子中包括指向同一事物或同一概念对应的词;若存在,确定包括指向同一事物或同一概念对应的词的两个或以上的句子之间存在语义关联关系。然后根据确定的指向于同一事物或者同一概念的词在多个句子之间确定指代消解,然后进行有向图的合并。
步骤S200:根据所述目标有向图生成目标训练数据,所述目标训练数据可用于对机器学习模型进行训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。
在本实施例中,在文本语料对应的目标有向图O生成以后,即可根据目标有向图O生成对应的训练数据,训练数据为根据目标有向图O生成的其他有向图或者有向图对。因为目标有向图为根据文本语料的语法分析、语义解析生成的,包含了文本语料中包含的多个词之间的语法语义上的关联关系;因此,根据目标有向图生成的训练数据能表征文本语料中的基于语法语义关系的常识知识,可用于对机器学习模型的训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。
在本实施例中,前述目标训练数据可以是根据目标有向图O生成的子图或者根据子图生成的训练样本对。下面针对每一种训练数据的生成过程分别进行描述。
具体的,在一个具体的实施例中,如图4所示,给出了生成训练数据的相关流程,上述步骤S200还包括步骤S202-206:
步骤S202:按照预设的子图获取规则获取所述目标有向图的第一子图。
第一子图A为目标有向图O的一个子图,该子图A的获取是在目标有向图O上选择多个连接的语义结点和多个语义连接边,作为第一子图A。
在一个具体的实施例中,第一子图A的获取可以是按照预设的子图获取规则获取,或在有向图O上随机选择一个子图作为第一子图A。需要说明的是,在生成第一子图A的过程中,在所述目标有向图中,至少选取2个或2个以上的互相连接的语义结点及连接的语义连接边,生成所述第一子图A。
需要说明的是,可以直接将第一子图A作为目标训练数据,直接使用第一子图对机器学习模型进行训练。
步骤S204:确定所述目标有向图中与所述第一子图连接的一个或多个互相连接的语义结点作为目标子图语义结点,获取与所述目标子图语义结点连接的语义连接边,根据所述目标子图语义结点、与所述目标子图语义结点连接的语义连接边和所述第一子图生成第二子图。
在本步骤中,根据所述目标有向图和所述第一子图生成第二子图,所述第二子图包含所述第一子图、且与所述第一子图是连接的。
在目标有向图O中选取一个或多个连接的语义结点作为目标子图语义结点M,且目标子图语义结点M不在第一子图A中,但与第一子图A是连接的。需要说明的是,上述一个或多个连接的语义结点作为目标子图语义结点M之间是连接的,不是分开来的或者离散的。也就是说,目标子图语义结点M为目标有向图O中与第一子图A相邻或连接的一个或多个语义结点。然后,将第一子图A、目标子图语义结点M以及二者之间连接的语义连接边连接,生成第二子图B。第二子图B也为目标有向图O的一个子图,且第一子图B包含了第一子图A。并且,根据前述一个或多个连接的语义结点作为目标子图语义结点M之间是连接的要求,第二子图B与第一子图A之间的差值也为一个联系的子图。需要说明的是,在本实施例中,目标子图语义结点M的选取过程可以是在目标有向图O上,根据与预先定义的过滤条件,选择一个或多个与第一子图A连接的语义结点。
需要说明的是,第二子图也可以直接作为目标训练数据。
例如,如图5所示,图5中给出了第一子图A的示例。
步骤S206:根据所述第一子图和所述第二子图生成第一训练样本对。
第一子图A和第二子图B均为目标有向图O的子图,且第二子图B为第一子图A添加目标子图语义结点M及关联的语义连接边之后生成的有向子图。
需要说明的是,由于目标有向图O为根据文本语料通过语法解析和语义分析及处理生成的有向图,也就是说,目标有向图O中相邻、或者相关的语义结点、语义连接边之间存在一定的语义上的关联关系,这种关联关系可以表现为文本语料之间的关联关系,也可以表现为目标有向图O中不同的有向子图之间的关联关系。因为目标有向图O是自然语言文本的文本语料根据语法解析和语义分析及处理生成的,能够表征文本语料中包含的各个词之间的关联关系。在语法解析和语义分析上可以认为,目标有向图O能够表征文本语料包含的各个词之间的关联关系,其体现为各个语义结点以及语义结点之间的连接边;在语义结点以及语义连接边的生成是基于对语义分析和语法解析的基础上,各个语义结点之间的连接关系可以被视为文本语料包含的词与词之间的关系,该关系可以视为常识知识(在多个文本语料对应的目标有向图中均出现相同的词与词的关系的情况下)。也就是说,目标有向图能表征文本语料中包含的可以被称为常识知识的关联关系。
因此,第一子图A和第二子图B生成第一训练样本对(A,B),第一训练样本对为根据本发明实施例生成的目标训练数据的一种,且从第一子图A到第二子图B之间存在关联关系。可以认为,从第一子图A通过常识推理和关联关系的扩展得到第二子图B可以被认为是合理的,是符合基于文本语料提取的常识知识的。
在一个具体的实施例中,如图6所示,第一子图A可以通过合理的常识推理得到第二子图B。
进一步的,在本实施例中,还给出了另外一种目标训练数据(第二训练样本对)的生成方法,具体请参见步骤S208-S210:
步骤S208:按照预设的子图修改规则,对在所述第二子图中且未包含在所述第一子图中的至少一个语义结点和/或语义连接边进行修改,生成第三子图;
步骤S210:根据所述第一子图和所述第三子图生成第二训练样本对,所述第二训练样本对于所述第一训练样本对对应。
在本实施例中,第三子图C的生成是通过对第二子图B进行修改得到的。具体的,在第二子图B中选择一个或多个未包含在第一子图A中的语义结点或语义连接边N,按照预设的子图修改规则,对语义结点或语义连接边N进行修改,以生成第三子图C。其中,对于语义结点或语义连接边N的选择可以是在第二子图B中随机选择的,也可以是按照预设的选择规则进行选择和确定的。并且,对语义结点或语义连接边N进行修改可以为替换。也就是说,通过上述方法,生成了一个与目标有向图O关联、但是不包含在目标有向图O中的第三子图C。
需要说明的是,第三子图也可以直接作为目标训练数据。
例如,如图7所示,图7给出了一种第三子图C的示例。
需要说明的是,第一子图A为目标有向图O的子图,第三子图C不是目标有向图O的子图;也即第三子图C中所表现的语法和语义之间的关联关系并不在目标有向图O中,与目标有向图O是不同的。考虑目标有向图O中相邻、或者相关的语义结点、语义连接边之间存在一定的语法和语义上的关系,这种关系可以表现为文本语料中的语法和语义上的关联关系,也可以表现为目标有向图O中不同的有向子图之间的语法和语义上的关联关系。也就是说,可以认为,第三子图C与目标有向图O以及第一子图A所体现的各个分词得到的词之间的关联关系是不同的。因此,第一子图A和第三子图C生成的第二训练样本对(A,C)中,从第一子图A到第三子图C之间不存在可以被推理的关联关系或常识关系。可以认为,从第一子图A扩展得到第三子图C是不合理的,是不符合文本语料对应的目标有向图中语义结点之间的关联关系的。
第一训练样本对(A,B)和与其对应的第二训练样本对(A,C)是对一条文本语料进行处理生成的训练语料,根据该文本语料还可以在选择其他子图的情况下,生成更多的与第一训练样本对(A,B)和第二训练样本对(A,C)类似的目标训练数据。而在实际的模型训练过程中,用于训练的从网络或者其他途径获取到的文本语料的数量是非常庞大的(例如,亿万条、千亿条文本语料),因此,对获取到的原始的自然语言文本的多条文本语料按照如前步骤S100-S200所述的方法步骤,可以生成大量的可以用于对机器模型进行训练的训练数据,对相应的机器学习模型进行训练,使得相应的机器学习模型具备有前述语法语义上的关联关系或常识关系的推理能力。其中,假定了前述文本语料均是满足一般的语法规则的,或者说是合法的,如果某一个需要进行识别的语句与前述通过(大量的)文本语料提取到的目标有向图或者对应生成的第一子图A、或第二子图B是相同的话,则该需要进行识别的语料是合法的,反之,是不合法的。
需要说明的是,在本实施例中,第一子图A和第二子图B的获取均为通过对获取到的原始的自然语言文本对应的文本语料进行语法解析之后的目标有向图O的子图来获取的,在目标有向图O包含了该文本语料包含的多个词之间的语法内在联系的情况下,第一子图A和第二子图B也可以被认为包含了语料包含的词之间的语法语义上的关联关系。也就是说,第一子图A和第二子图B包含了相应的文本语料中包含的词之间的常识关系。
而第三子图C为对目标有向图O的子图进行修改之后获得的,也就是说,其对文本语料中包含的词之间的语法语义上的关联关系进行了修改,不再具备原文本语料中的语料词之间的常识关系,或者说,其表征的语义结点之间的关联关系是错误的。
为了充分利用目标有向图O中所能体现的词之间的语法语义上的关联关系以及常识关系,在本实施例中,通过前述训练数据的生成方法生成的第一子图A和第二子图B构成的第一训练样本对(A,B)能够表征第一子图A与第二子图B之间的语法上的关联关系,也就是说,从第一子图A推理得到第二子图B是合理的。相应的,从第一子图A推理到第三子图C是不合理的。
具体的,如图7所示,图7给出了一种基于常识知识的语句推理方法,该方法通过前述训练数据的生成方法生成的目标训练数据对预设的深度学习模型进行训练,使得该模型具备有判断不同的语句之间是否存在语法语义上的关联关系或者常识关系的能力。
具体的,通过前述训练数据的生成方法生成第一训练样本对(A,B)和第二训练样本对(A,C)对预设的深度学习模型进行训练,使得该模型具备有判断不同的语句之间是否存在语法语义上的关联关系或者常识关系的能力。
具体的,上述基于常识知识的语句推理方法包括如图8所示的步骤S302-S3108:
步骤S302:获取根据训练数据的生成方法生成的目标训练数据作为目标训练样本集;
步骤S304:根据所述目标训练样本集对预设的机器学习模型进行训练;
步骤S306:获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图;
步骤S308:将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果。
前述生成的目标训练样本是根据文本语料对应的目标有向图O生成的,可以表征目标有向图O中包含的各个语义结点和语义连接边在语义和语法上的关联关系。因此,根据目标训练样本训练完成的机器学习模型具备对待处理文本中的常识知识进行推理的能力。需要说明的是,在本实施例中,前述机器学习模型可以是深度学习模型。
具体的,在一个实施例中,以深度学习模型为分类模型为例进行说明。
如图9所示,上述基于常识知识的语句推理方法还可以包括步骤S402-S410:
步骤S402:分别获取根据前述训练数据的生成方法生成的多个第一训练样本对和与该第一训练样本对对应的第二训练样本对作为第一训练样本集和第二训练样本集,设置第一训练样本集中包含的训练样本对的标签值为1,第二训练样本集中包含的训练样本对的标签值为0;
步骤S404:以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练;
步骤S406:获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;通过语法解析和/或语义分析及处理分别获取与所述第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图;
步骤S408:将所述第一待测有向图和第二待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系。
在本实施例中,第一子图A与第二子图B之间存在语法语义上的关联关系,而第一子图A与第三子图C之间不存在语法语义上的关联关系,因此,将第一子图A与第二子图B构成的第一训练样本对(A,B)作为对预设的深度学习模型(分类模型)进行训练的正样本,而将第一子图与第三子图C构成的第二训练样本对(A,C)作为对预设的深度学习模型进行训练的负样本。其中,预设的深度学习模型可以为一判别模型或分类模型,例如GCN模型(GCN,Graph Convolutional Network,图卷积神经网络模型)。
具体的,将多个第一训练样本对作为第一训练样本集,将多个第二训练样本对作为第二训练样本集,并且,设置作为正样本的第一训练样本对(A,B)对应的第一训练样本集设置标签值,其标签值为1,设置作为负样本的第二训练样本对(A,C)对应的第二训练样本集设置标签值,其标签值为0。也就是说,标签值为1的训练样本对中包含的两个有向子图之间存在语法语义上的关联关系,而标签值为0的训练样本对中包含的两个有向子图之间不存在语法语义上的关联关系。
获取大量的通过前述训练数据的生成方法生成的第一训练样本对和对应的第二训练样本对,并分别作为第一训练样本集和第二训练样本集。在本实施例中,训练样本集中包含的样本数量需要足够多的,例如,通过千亿条文本语料所得到的目标训练数据相应的分类模型进行训练,以保证训练完成后的模型的准确性。
并且,在一个可选的实施例中,在最终的训练样本中,正样本的数量多于负样本的数量,且正样本的数量:负样本的数量=5:1,也可以是其他预先设置的比例关系,例如,1:1。
在具体的模型训练过程中,以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练,从而使得该分类模型具备判断训练样本对应的标签值的能力。需要说明的是,在本实施例中,对于所有的训练样本,还可以按照9:1的比例设置训练数据和验证数据,在模型训练完成之后还需要通过验证数据来对模型的训练结果进行验证。
在模型训练完成之后,即可使用该分类模型进行具体的判断或者计算;例如,在给定一个合法的句子的情况下,判断和识别对于由该句子扩充形成的另一个句子在语义和语法上是否是合理的。
其中,需要进行识别的第一句子(第一待测文本)以及由该句子扩充的第二句子(第二待测文本)组成待测文本对。
因为分类模型处理和分析的为有向图,因此,在本实施例中,还需要分别对第一待测文本和第二待测文本进行语法解析和语义分析及处理,以获取对应的有向图(第一待测有向图、第二待测有向图)。即,通过语法解析和语义分析及处理,获取第一待测文本对应的第一待测有向图,获取第二待测文本对应第二待测有向图。需要说明的是,在本实施例中,获取第一待测有向图、第二待测有向图的过程与步骤S100中相同,对第一待测文本和第二待测文本进行预处理、分句、分词处理,并进行语法解析、语义分析及处理获取依存句法树,然后根据依存句法树生成对应的有向图。具体的有向图的生成过程在这里不再赘述。
为了对第一待测文本和第二待测文本之间是否具备常识推理的语法语义的关联关系,将与第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图作为模型输入,输入训练完成的分类模型,即可对第一待测有向图和第二待测有向图进行之间的语法语义上的关联关系进行判别,生成相应的输出结果。
需要说明的是,分类模型的输出结果为一个值,与标签值对应,为[0,1]区间内的1个值,即为目标标签值。该目标标签值即为表征第一待测文本和第二待测文本之间的语法语义关联关系的值。在目标标签值为1时,第一待测文本和第二待测文本存在语法语义上的关联关系,被认定为是可以通过合理的推理得到的;在目标标签值为0时,第一待测文本和第二待测文本不存在语法语义上的关联关系,在常识关系中被认定为是不可以通过合理的推理得到的。如果输出值为(0,1)区间内的值时,按照预设的标签值与关联关系之间的对应关系,确定与目标标签值对应的关联管理,例如,在目标标签值<0.5时,判定第一待测文本和第二待测文本存在语法语义上的关联关系,在常识关系中被认定为是可以通过合理的推理得到的。
通过上述步骤S402-S408,可以实现对于前述训练数据在实际的分类模型中的应用,实现对于不同的语句或文本之间是否存在语法语义上的关联关系或者常识关联关系的判断和识别。
在另一个实施例中,以生成模型为例,给出了另一种基于常识知识的语句推理方法。具体的,通过第一训练样本对(A,B)对预设的深度学习模型进行训练,使得该模型可实现通过常识推理来对需要进行扩充的语句进行扩充,该语句的扩充是基于语法、基于常识推理、基于从文本语料中获取的各个语料词之间的语法关联关系。
具体的,如图10所示,上述基于常识知识的语句推理方法包括如图8所示的步骤S502-S508:
步骤S502:获取前述训练数据的生成方法生成的个第一子图和与该第一子图对应的第二子图对作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
步骤S304:以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
步骤S306:获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
步骤S308:将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
在本实施例中,第一子图A与第二子图B之间存在语法语义上的关联关系,且第二子图B包含了第一子图A,为第一子图A的扩充,且该扩充包含了原始的自然语言文本中的语法语义上的关联关系。
在本实施例中,将第一子图A与第二子图B构成的第一训练样本对(A,B)作为对预设的生成模型进行训练的目标训练样本集。其中,生成模型为一深度学习模型,例如,GCN神经网络模型。并且,因为需要保证模型训练的准确性,在本实施例中,需要获取大量的通过前述训练数据的生成方法生成的第一训练样本对作为目标训练样本集,目标训练样本集包括第一样本子图集和第二样本子图集,目标训练样本集包含多个训练样本,每一个训练样本包含与第一子图A对应的第一样本子图集中的第一样本子图以及与第二子图B对应的第二样本子图集中的第二样本子图。
在具体的模型训练过程中,以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练,从而使得该生成模型具备有输入第一样本子图自动输出第二样本子图的能力,即为自动根据第一子图扩展出第二子图的能力。需要说明的是,在本实施例中,对于所有的训练数据,还可以按照9:1的比例设置训练数据和验证数据,在模型训练完成之后还需要通过验证数据来对模型的训练结果进行验证。
在模型训练完成之后,即可使用该生成模型对需要进行扩充的语料进行具体的扩充;例如,在给定一个合法的句子的情况下,对该句子进行扩充,且该扩充在语义上是合理的。
其中,需要进行扩充的语句即为待扩充文本。因为生成模型处理和分析的为有向图,因此,在本实施例中,还需要对待扩充文本进行语法解析和语义分析及处理,以获取对应的有向图,即待扩充有向图。需要说明的是,在本实施例中,获取待扩充有向图的过程与步骤S100中相同,对待扩充文本进行预处理、分句、分词处理,并进行语法解析和语义分析获取依存句法树,然后根据依存句法树生成对应的有向图,即待扩充有向图。具体的待扩充有向图的生成过程在这里不再赘述。
为了对待扩充文本进行扩充,并且是满足常识推理的语义关联关系的扩充,在本实施例中,将与待扩充文本对应的待扩充有向图输入已经训练完成的生成模型,获取相应的输出结果,该输出结果即为对待扩充有向图的扩充。因为在本实施例中,需要的是对待扩充文本的扩充,因此,在获取生成模块的输出结果之后,还需要根据生成模型输出的目标扩充有向图转换成与之对应的目标扩充文本,该目标扩充文本即为对待扩充文本扩充之后的结果。
也就是说,根据前述步骤S502-S508,可以实现基于常识推理以及语法语义的关联关系上的对需要进行的句子/文本的扩充。
进一步的,在本实施例中,如图11所示,还给出了一种训练数据的生成装置,包括:
有向图生成模块102,用于获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图;
训练数据生成模块104,用于根据所述目标有向图生成目标训练数据,所述目标训练数据可用于对机器学习模型进行训练,以使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力。
可选的,所述目标有向图包括多个语义结点和多个语义连接边。
可选的,所述目标训练数据包括第一子图。
可选的,所述目标训练数据包括第二子图。
可选的,所述目标训练数据包括第三子图。
可选的,所述目标训练数据包括第一训练样本对。
可选的,所述目标训练数据包括第二训练样本对。
如图12所示,训练数据生成模块104包括第一子图获取子模块1042,用于按照预设的子图获取规则获取所述目标有向图的第一子图,将所述第一子图作为所述目标训练数据。
可选的,第一子图获取子模块1042还用于在所述目标有向图中,选取至少2个连接的语义结点以及与选取的语义结点连接的语义连接边,生成所述第一子图。
可选的,如图12所示,训练数据生成模块104包括第二子图获取子模块1044,用于根据所述目标有向图和所述第一子图生成第二子图,所述第二子图包含所述第一子图、且与所述第一子图是连接的。
可选的,第二子图获取子模块1044还用于确定所述目标有向图中与所述第一子图连接的一个或多个互相连接的语义结点作为目标子图语义结点,获取与所述目标子图语义结点连接的语义连接边,根据所述目标子图语义结点、与所述目标子图语义结点连接的语义连接边和所述第一子图生成第二子图。
如图12所示,训练数据生成模块104包括第一训练样本对生成子模块1046,用于根据所述第一子图和所述第二子图生成第一训练样本对。
如图12所示,训练数据生成模块104还包括第三子图获取子模块1048,用于按照预设的子图修改规则,对在所述第二子图中且未包含在所述第一子图中的至少一个语义结点和/或语义连接边进行修改,生成第三子图。
如图12所示,训练数据生成模块104还包括第二训练样本对生成子模块10410,用于根据所述第一子图和所述第三子图生成第二训练样本对。
可选的,在一个实施例中,所述有向图生成模块102还用于对所述文本语料进行分句处理,获取多个句子;通过语法解析和/或语义分析及处理生成与所述每一个句子对应的有向子图;根据与所述每一个句子对应的有向子图生成与所述文本语料对应的目标有向图。
可选的,在一个实施例中,所述有向图生成模块102还用于通过语法解析和/或语义分析确定所述多个句子之间的语义关联关系,根据所述每一个句子之间的语义关联关系对与所述每一个句子对应的有向子图进行合并,生成所述目标有向图。
可选的,在一个实施例中,所述有向图生成模块102还用于对所述文本语料分句处理得到的多个句子进行指代消解,确定所述多个句子中是否存在两个或以上的句子中包括指向同一事物或同一概念对应的词;在存在的情况下,确定包括指向同一事物或同一概念对应的词的两个或以上的句子之间存在语义关联关系。
可选的,在一个实施例中,所述有向图生成模块102还用于针对每一个句子进行分词处理、词性标注和依存句法分析,生成依存句法树;按照预设的有向图生成规则生成与所述依存句法树对应的有向子图。
可选的,在一个实施例中,所述有向图生成模块102还用于确定所述文本语料包含的每一个句子对应的有向子图之间的关联关系,根据该关联关系和所述每一个句子对应的有向子图,生成与所述文本语料对应的目标有向图。
可选的,在一个实施例中,所述有向图生成模块102还用于对所述文本语料进行预处理,以删除所述文本语料中的非法字符、网页代码和/或重复语句。
如图13所示,还给出了一种基于常识知识的语句推理装置,包括:
训练数据获取模块202,用于获取根据前述训练数据的生成装置生成的目标训练数据作为目标训练样本集;
模型训练模块204,用于根据所述目标训练样本集对预设的深度学习模型进行训练;
文本处理模块206,用于获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图;
输出模块208,用于将所述待处理有向图输入所述训练完成的深度学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果。
可选的,所述训练数据获取模块202还用于分别获取根据前述训练数据的生成装置生成的多个第一训练样本对和与该第一训练样本对对应的第二训练样本对作为第一训练样本集和第二训练样本集,设置第一训练样本集中包含的训练样本对的标签值为1,第二训练样本集中包含的训练样本对的标签值为0;
所述模型训练模块204还用于以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练;
所述文本处理模块206还用于获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;通过语法解析和/或语义分析及处理分别获取与所述第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图;
所述输出模块208还用于将所述第一待测有向图和第二待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系。
可选的,所述训练数据获取模块202还用于分别获取根据前述训练数据的生成装置生成的多个第一训练样本对作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
所述模型训练模块204还用于以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
所述文本处理模块206还用于获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
所述输出模块208还用于将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
图14示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是服务器。如图14所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现训练数据的生成方法、语基于常识知识的语句推理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行训练数据的生成方法、基于常识知识的语句推理方法。本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的训练数据的生成方法可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成训练数据的生成装置的各个程序模板。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行前述训练数据的生成方法的步骤以及前述于常识知识的语句推理方法的步骤。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行前述训练数据的生成方法的步骤以及前述于常识知识的语句推理方法的步骤。
需要说明的是,上述训练数据的生成方法及生成装置、语义关联关系的识别方法及装置、基于语义关系的语料扩充方法及装置、计算机设备及计算机可读存储介质属于一个总的发明构思,训练数据的生成方法及生成装置、基于常识知识的语句推理方法及装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本发明提出了一种训练数据的生成方法、装置、终端及可读介质,对原始采集到的自然语言文本的文本语料进行语法解析和语义分析及处理,生成与文本语料对应的依存句法树,并据此生成对应的目标有向图,目标有向图中包含了相应的文本语料中的多个词以及各个词之间的语义和语法上的关联关系;然后在该目标有向图中选取相应的子图、以及对选取到的子图进行处理获取对应的训练数据作为后续对机器学习模型进行训练的训练数据。也就是说,因为该训练数据是通过文本语料对应的有向图生成的,包含了相应的文本语料在语义和语法上的关联关系,因此,该训练数据能实现对常识知识的提取和利用,以使得通过该训练数据训练完成的深度学习模型能实现基于常识知识提取和利用之后的识别和判断。
进一步的,本发明还提出了一种基于常识知识的语句推理方法及装置,对大量的原始的文本语料进行处理,获取大量的训练数据,然后通过该训练数据来对预设的机器学习模型进行训练,以使得该机器学习模型具备判断、识别和利用文本语料对应的目标有向图中的语法和语义上的关联关系,也即具备常识推理能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于常识知识的语句推理方法,其特征在于,包括:
获取文本语料,通过语法解析和/或语义分析及处理获取与所述文本语料对应的目标有向图;
根据所述目标有向图生成目标训练数据,包括:根据子图获取规则生成第一子图和第二子图,根据预设子图修改规则生成第三子图;
所述目标训练数据用于对机器学习模型进行训练,使所述机器学习模型具备基于所述文本语料中包含的常识知识进行推理的能力;
所述机器学习模型是分类模型,包括:
根据所述第一子图和所述第二子图生成第一训练样本对,根据所述第一子图和所述第三子图生成第二训练样本对;
将多个所述第一训练样本对作为第一训练样本集,将多个所述第二训练样本对作为第二训练样本集,将不同训练样本集中包含的训练样本设置不同标签值,所述标签值为1时,所述第一训练样本对或第二训练样本对中包含的两个子图之间存在语法语义上的关联关系;所述标签值为0时,所述第一训练样本对或第二训练样本对中包含的两个子图之间不存在语法语义上的关联关系;
根据目标训练样本集对预设的机器学习模型进行训练生成分类模型;
获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;
获取待测文本对应的待测有向图;
将所述待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系;
所述机器学习模型或者是生成模型,包括:
将多个第一子图和与该第一子图对应的第二子图作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
2.一种基于常识知识的语句推理装置,其特征在于,包括:
训练数据获取模块,用于获取根据权利要求1所述的方法生成的目标训练数据对作为目标训练样本集;
模型训练模块,用于根据所述目标训练样本集对预设的机器学习模型进行训练;
文本处理模块,用于获取待处理文本,通过语法解析和/或语义分析及处理获取与所述待处理文本对应的待处理有向图;
输出模块,用于将所述待处理有向图输入所述训练完成的机器学习模型,获取输出结果作为与所述待处理文本对应的常识知识推理结果。
3.根据权利要求2所述的基于常识知识的语句推理装置,其特征在于,所述训练数据获取模块还用于分别获取根据权利要求2所述的装置生成的多个第一训练样本对和与该第一训练样本对对应的第二训练样本对作为第一训练样本集和第二训练样本集,设置第一训练样本集中包含的训练样本对的标签值为1,第二训练样本集中包含的训练样本对的标签值为0;
所述模型训练模块还用于以所述第一训练样本集的部分或全部和第二训练样本集的部分或全部为输入、对应的标签值为输出,对预设的分类模型进行训练;
所述文本处理模块还用于获取待测文本对,所述待测文本对包括第一待测文本和第二待测文本;通过语法解析和/或语义分析及处理分别获取与所述第一待测文本和第二待测文本对应的第一待测有向图和第二待测有向图;
所述输出模块还用于将所述第一待测有向图和第二待测有向图输入训练完成的分类模型,获取输出结果作为目标标签值,根据所述目标标签值确定第一待测文本和第二待测文本之间的语义关联关系。
4.根据权利要求2所述的基于常识知识的语句推理装置,其特征在于,所述训练数据获取模块还用于分别获取根据权利要求2所述的装置生成的多个第一子图和与该第一子图对应的第二子图作为目标训练样本集,所述目标训练样本集包括第一样本子图集和第二样本子图集,所述第一样本子图集与所述第一子图对应,所述第二样本子图集与所述第二子图对应;
所述模型训练模块还用于以所述第一样本子图集作为输入,所述第二样本子图集作为输出,对预设的生成模型进行训练;
所述文本处理模块还用于获取待扩充文本,通过语法解析获取与所述待扩充文本对应的待扩充有向图;
所述输出模块还用于将所述待扩充有向图输入训练完成的生成模型,获取输出结果作为目标扩充有向图;根据所述目标扩充有向图生成与所述待扩充文本对应的目标扩充文本。
5.一种终端,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1所述方法的步骤。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846968.9A CN110765235B (zh) | 2019-09-09 | 2019-09-09 | 训练数据的生成方法、装置、终端及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846968.9A CN110765235B (zh) | 2019-09-09 | 2019-09-09 | 训练数据的生成方法、装置、终端及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765235A CN110765235A (zh) | 2020-02-07 |
CN110765235B true CN110765235B (zh) | 2023-09-05 |
Family
ID=69330560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846968.9A Active CN110765235B (zh) | 2019-09-09 | 2019-09-09 | 训练数据的生成方法、装置、终端及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765235B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460118B (zh) * | 2020-03-26 | 2023-10-20 | 聚好看科技股份有限公司 | 一种人工智能冲突语义识别方法及装置 |
CN111885000B (zh) * | 2020-06-22 | 2022-06-21 | 网宿科技股份有限公司 | 一种基于图神经网络的网络攻击检测方法、系统及装置 |
CN111814461B (zh) * | 2020-07-09 | 2024-05-31 | 科大讯飞股份有限公司 | 文本处理方法、相关设备及可读存储介质 |
CN112001190B (zh) * | 2020-07-20 | 2024-09-20 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、装置、设备及存储介质 |
CN112036171B (zh) * | 2020-09-04 | 2024-06-25 | 平安科技(深圳)有限公司 | 医学特定指称及其关系的抽取方法、系统及装置 |
CN112507040B (zh) * | 2020-12-21 | 2023-08-08 | 北京百度网讯科技有限公司 | 多元关系生成模型的训练方法、装置、电子设备及介质 |
CN113806489A (zh) * | 2021-09-26 | 2021-12-17 | 北京有竹居网络技术有限公司 | 用于数据集创建的方法、电子设备和计算机程序产品 |
CN114492370B (zh) * | 2022-01-29 | 2023-09-01 | 北京百度网讯科技有限公司 | 网页识别方法、装置、电子设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332009A (zh) * | 2011-09-02 | 2012-01-25 | 北京大学 | 一种大规模数据集上的关系查询方法 |
CN104462064A (zh) * | 2014-12-15 | 2015-03-25 | 陈包容 | 一种移动终端信息通讯提示输入内容的方法和系统 |
WO2016196320A1 (en) * | 2015-05-29 | 2016-12-08 | Microsoft Technology Licensing, Llc | Language modeling for speech recognition leveraging knowledge graph |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108681544A (zh) * | 2018-03-07 | 2018-10-19 | 中山大学 | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 |
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN109460477A (zh) * | 2018-10-26 | 2019-03-12 | 海南鑫镁科技有限公司 | 信息收集分类系统和方法及其检索和集成方法 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278362A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Entity Recognition in Natural Language Processing Systems |
US10380187B2 (en) * | 2015-10-30 | 2019-08-13 | International Business Machines Corporation | System, method, and recording medium for knowledge graph augmentation through schema extension |
US10606958B2 (en) * | 2018-01-10 | 2020-03-31 | International Business Machines Corporation | Machine learning modification and natural language processing |
-
2019
- 2019-09-09 CN CN201910846968.9A patent/CN110765235B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332009A (zh) * | 2011-09-02 | 2012-01-25 | 北京大学 | 一种大规模数据集上的关系查询方法 |
CN104462064A (zh) * | 2014-12-15 | 2015-03-25 | 陈包容 | 一种移动终端信息通讯提示输入内容的方法和系统 |
WO2016196320A1 (en) * | 2015-05-29 | 2016-12-08 | Microsoft Technology Licensing, Llc | Language modeling for speech recognition leveraging knowledge graph |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108681544A (zh) * | 2018-03-07 | 2018-10-19 | 中山大学 | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 |
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN109460477A (zh) * | 2018-10-26 | 2019-03-12 | 海南鑫镁科技有限公司 | 信息收集分类系统和方法及其检索和集成方法 |
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
Non-Patent Citations (1)
Title |
---|
融合知识图谱与深度学习的疾病诊断方法研究;董丽丽;程炯;张翔;叶娜;;计算机科学与探索(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110765235A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
CN109791569B (zh) | 因果关系识别装置及存储介质 | |
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
US8407253B2 (en) | Apparatus and method for knowledge graph stabilization | |
CN104850554B (zh) | 一种搜索方法和系统 | |
CN113486189B (zh) | 一种开放性知识图谱挖掘方法及系统 | |
CN109471889B (zh) | 报表加速方法、系统、计算机设备和存储介质 | |
KR20210106372A (ko) | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 | |
CN111782800B (zh) | 一种面向事件追溯的智能会议分析方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
KR101499571B1 (ko) | 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
KR102203895B1 (ko) | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
CN114416938A (zh) | 一种支持约束信息的图谱查询方法和装置 | |
CN113448982A (zh) | Ddl语句的解析方法、装置、计算机设备及存储介质 | |
Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
CN113869043A (zh) | 内容标注方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |