CN112765992A

CN112765992A - 训练数据的构建方法、装置、计算机设备及存储介质

Info

Publication number: CN112765992A
Application number: CN202110050147.1A
Authority: CN
Inventors: 胡上峰
Original assignee: Shenzhen Renma Interactive Technology Co Ltd
Current assignee: Shenzhen Renma Interactive Technology Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-07

Abstract

本发明实施例公开了一种训练数据的构建方法，包括:获取待识别的图像；对所述待识别的图像进行内容识别，得到图像内容识别结果；根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。上述方法中基于图像内容识别结果构建的目标训练数据在语义内容分布上弥补了文本数据的不足，使整体训练数据更加均衡，从而使得得到的语义模型或构建的语义知识网络更加全面和准确。此外，还提出了一种训练数据的构建装置、计算机设备及存储介质。

Description

训练数据的构建方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域和自然语言处理技术领域，尤其涉及一种训练数据的构建方法、装置、计算机设备及存储介质。

背景技术

通过机器学习的方式，可以对人工或机器自动收集大量的文本语料进行统计和分析，以学习大量的文本语料中的规律、知识等并加以利用，从而实现不同应用场景下的自动判断。

目前可收集到的文本数据，在语义内容分布上不均衡，日常基本常识相关的内容相对缺乏，导致训练得到的语义模型及语义知识网络不够全面不够准确。

发明内容

基于此，有必要针对上述问题，提出一种能实现语义内容分布均衡的训练数据的构建方法、装置、计算机设备及存储介质。

在本发明的第一方面，提供了一种训练数据的构建方法，包括：

获取待识别的图像；

对所述待识别的图像进行内容识别，得到图像内容识别结果；

根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在本发明的第二方面，提供了一种训练数据的构建装置，包括：

获取模块，用于获取待识别的图像；

识别模块，用于对所述待识别的图像进行内容识别，得到图像内容识别结果；

构建模块，用于根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在本发明的第三方面，提供了一种计算机设备，包括：

获取待识别的图像；

在本发明的第四方面，提供了一种计算机可读存储介质，包括：

获取待识别的图像；

上述训练数据的构建方法、装置、计算机设备及计算机可读存储介质，首先获取待识别的图像，然后对待识别的图像进行内容识别，得到图像内容识别结果，根据图像内容识别结果构建目标训练数据，该目标训练数据用于对语义模型进行训练或者用于构建语义知识网络。上述训练数据的构建方法中，由于图像内容比较丰富且广泛，而且包含更多日常基本常识知识，在语义内容分布上更加的均匀，可以弥补文本数据知识分布的缺陷，所以结合现有的文本数据和基于图像内容识别结果构建的目标训练数据在语义内容分布上更加均衡，从而使得得到的语义模型或构建的语义知识网络更加全面和准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中训练数据的构建方法的流程示意图；

图2为一个实施例中待识别图像的示意图；

图3为一个实施例中依存句法树的示意图；

图4为一个实施例中目标有向图的示意图；

图5为一个实施例中训练数据的构建装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种训练数据的构建方法，该训练数据的构建方法可以应用于终端，本实施例以应用于终端举例说明。该训练数据的构建方法具体包括以下步骤：

步骤102，获取待识别的图像。

其中，待识别的图像为从网络或其他途径获取到的图像。需要说明的是，在本实施例中，待识别的图像的数量是十分庞大的，例如，千万张图像、甚至是亿万张图像，包括视频、电影等，这样后续得到的目标训练数据才能足够多，才能基于目标训练数据对语义模型进行训练，使得训练得到的语义模型准确性较高，或者基于目标训练数据构建语义知识网络，使得构建的语义知识网络具有更丰富的知识和更强的表达能力，其中，语义知识网络可以理解为是一个知识表达模型，在这个语义知识网络上，具有理解、记忆、归纳、推理以及问答等算法。

步骤104，对待识别的图像进行内容识别，得到图像内容识别结果。

其中，通过对图像中的内容进行识别，得到可以描述图像内容的文本数据或逻辑关系图。文本数据是指将图像内容以文字的形式进行描述。逻辑关系图是指将识别的内容用关系图来表示。比如，参考图2，图中有一个小女孩和成年女人，两人应该是母女关系，那么逻辑图中，就可以将小女孩和成年女人分别作为一个目标，然后两者的关系-母女用连接线表示，并标注为母女。

图像内容识别结果包括但不限于：图像中的目标，目标与目标的关系，目标的属性、目标的状态、目标的意图等中一个或多个。其中，目标可以是图像中的人、物或场景等；目标与目标的关系，包括：目标与目标的位置关系，以及目标与目标的交互关系等。目标的属性是指目标所属的种类，比如，是动物还是植物。

举个例子，如图2所示，为一张待识别的图像，识别得到的目标有两个，分别为小女孩和成年女人，小女孩与成年女人为母女关系，小女孩和成年女人正在手拉着手，另外，还可以识别出该图像中的人物为卡通人物。

步骤106，根据图像内容识别结果构建目标训练数据，目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在一个实施例中，将图像内容识别结果进行整理，将整理得到的文本语句或逻辑关系图作为目标训练数据。以图2为例，可以将其整理为文本语句：“小女孩和成年女人正在手拉着手，小女孩和成年女子为母女关系”，或者整理成逻辑关系图，表明小女孩与成年女人的关系，以及状态，比如，将小女孩和成年女人分别作为一个节点，两个节点之间的关系标注为母女，两个节点的状态标注为手拉手。

传统的是直接从网上获取到文本数据，将文本数据作为目标训练数据来对语义模型进行训练，文本数据大多都来自于网络上的微博内容以及新闻内容等，这些微博内容以及新闻内容中往往是在一定背景下的文字内容，这些文字内容往往不会包括背景的介绍，所以导致得到的训练数据往往缺乏一些基础信息，即导致语义内容上分布不均衡，从而使得训练得到的语义模型或构建的语义知识网络不够全面准确。本实施例中创新性地提出了基于图像内容识别结果来构建目标训练数据，通过对图像内容识别能够学习到一些基础的信息，基础的信息包括：目标与目标之间的关系，目标的状态以及目标的属性和目标意图等信息。举个例子，比如，当一个人被采访时，采访文稿中只会写“对谁谁进行了采访”，而如果拍摄到采访过程的图像，那么通过对图像内容识别，可以得到采访者与被采访者的位置关系，以及他们现在所处的环境等一些基础信息。而且互联网上的图像数据很丰富，而且种类多样，所以采用图像内容识别来构建目标训练数据不仅方便而且能够得到更加丰富多样的信息。采用基于图像内容识别构建的目标训练数据能够提高语义识别模型的准确度或者构建表达能力更强的语义知识网络。

在一个实施例中，图像内容识别结果为文本数据，可以直接用识别得到的文本数据作为语义模型的目标训练数据对语义模型进行训练。在另一个实施例中，当图像内容识别结果为文本数据时，需要对图像内容识别结果进行预处理得到目标训练数据，预处理包括但不限于语法解析方法、语义解析方法中的至少一种。

在一个实施例中，图像内容识别结果为逻辑关系图(图结构)，将逻辑关系图作为目标训练数据对语义模型进行训练。

上述训练数据的构建方法，首先获取待识别的图像，然后对待识别的图像进行内容识别，得到图像内容识别结果，根据图像内容识别结果构建目标训练数据，该目标训练数据用于对语义模型进行训练或者用于构建语义知识网络。上述训练数据的构建方法中，由于图像内容比较丰富且广泛，而且包含更多日常基本常识知识，在语义内容分布上更加的均匀，可以弥补文本数据知识分布的缺陷，所以结合现有的文本数据和基于图像内容识别结果构建的目标训练数据在语义内容分布上更加均衡，从而使得得到的语义模型或构建的语义知识网络更加全面和准确。

在一个实施例中，在所述根据所述图像内容识别结果构建目标训练数据之前，还包括：获取文本数据；所述根据所述图像内容识别结果构建目标训练数据，包括：将所述文本数据与所述图像内容识别结果进行结合，构建目标训练数据。

其中，文本数据是指获取到的已有的用于训练语义模型或构建语义知识网络的训练数据。为了使得目标训练数据更加全面且语义更加平衡，将已有的文本数据和基于图像内容识别结果得到的文本数据进行结合，共同来构建目标训练数据。利用目标训练数据对语义模型进行训练，可以使得语义模型的准确度更高，或者利用目标训练数据构建语义知识网络，可以使得语义知识网络能够具有更准确的表达能力。文本数据可以是从网络上提取到的文字内容，也可以是通过扫描带有文字信息的纸质文件得到的文字内容。其中，从网络上提取到的文字内容包括但不限于新闻、小说、诗歌、对话、社交平台发布的帖子、即时通讯消息等等。

在一个实施例中，所述文本数据为从网络上提取到的文字信息，包括且不仅限于新闻、小说、故事、剧本、论文、诗歌、对话、说明、信件、帖子、消息中的至少一种。

其中，从网络上提取的文字信息除了以上来源，还可以包括词典、博客等。凡是可以从网络上提取到的文字内容都可以作为文本数据。其中，信件是指电子邮件，帖子是指社交平台上发布的内容，消息包括：即时通讯消息和网络公布消息。

在一个实施例中，所述图像内容识别结果包括：图像中的目标，目标与目标之间的关系、目标的属性、目标的状态和目标的意图中的至少一种，所述目标为识别到的实体或抽象的对象。

其中，实体是指客观存在的物以及物的名称，比如，一根笔、一个电脑、一片雪花、一只猫、人名、地名、机构名等。而抽象的对象是指人为定义的抽象事物，比如，股价、学习成绩、士气、亲情等。

基于图像内容识别可以识别出的目标可能有多个，当识别到的目标有多个时，还需要识别目标之间的关系，目标之间的关系可以是每两个目标之间的关系，也可以是多个目标之间的关系，以及每个目标的属性、状态和意图等。目标的属性是指目标本身的类别，比如，目标是人还是物，还是抽象的对象。状态是指目标当前的状态，比如，如果目标是人，那么这个人的当前状态是在干什么，比如，是在运动，还是在看书等；意图是指目标的指向，即该目标的目的是什么，比如，如果是人在运动，那么其意图为锻炼身体。

在一个实施例中，所述图像内容识别结果的形态为文本形态或逻辑关系图形态。

其中，文本形态是指以文本形式存在的数据，即图像内容识别结果采用文本数据表达。逻辑关系图是由关系和节点组成，关系可以是有向边，或无向，可以连接两个节点或多于两个节点，关系可以有名称/标注/类型或无名称/标注/类型。节点可以表示包括且不仅限于实体、抽象对象、属性、状态、意图、词、词组的实例或概念。

在一个实施例中，所述根据所述图像内容识别结果构建目标训练数据，包括：对所述图像内容识别结果按照预设的方法进行处理，得到与所述图像内容识别结果对应的目标有向图，预设的方法包括：语法解析方法、语义解析方法中的至少一种；根据所述目标有向图生成目标训练数据。

其中，图像内容识别结果为文本数据时，对得到的文本数据进行语法解析或/和语义解析。具体地，对文本数据中的主谓关系、动宾关系等进行分析，并确定其中的每一个词对应的词性，例如名词、动词等；并据此生成与该文本数据对应的依存句法树，该依存句法树包含了文本数据中的每一个词以及相互之间的联系，该联系为语法和语义上的关联关系。

需要说明的是，在本实施例中，当文本数据包含了多个句子时，需要分别针对每一个句子分别进行语法解析和语义分析，并生成与之对应的依存句法树，然后根据多个句子之间的关联关系，将文本数据包含的多个依存句法树之间进行关联，生成与所述文本数据对应的依存句法树。

例如，如图3所示，图3展示了依存句法树的一个示例，其对应的文本数据为“院子有苹果树结满青苹果”对应的依存句法树。

依存句法树包含了多个结点和多条边，每一个结点为一个词(可以是分词处理之后的一个语料词)，两个结点之间若存在关联关系，则二者之间存在一条边。根据依存句法树即可生成与相应的文本数据对应的目标有向图，在此过程中，需要对每一条边增加相应的方向，以将依存句法树对应的边转换成有向边。如图4所示，图4展示了根据图3所示的依存句法树生成的目标有向图的示例。

目标有向图包含多个语义结点和多个语义连接边，其中语义结点与依存句法树中的结点对应，语义连接边与依存句法树中的边对应，并且语义连接边为有向边。其中，目标有向图中包含了与相应的语义结点和语义连接边对应的语义角色的标注。

在本实施例中，在根据依存句法树生成目标有向图的过程，还可以在依存句法树包含的结点和边上添加语义角色的标注，也就是说，语义结点和语义连接边上均可以在原来的基础上添加其他属性标识，并根据目标有向图添加其他语义连接边，连接目标有向图中未连接的语义结点。在文本数据对应的目标有向图生成以后，即可根据目标有向图生成对应的目标训练数据，目标训练数据为根据目标有向图生成的其他有向图或者有向图对。因为目标有向图为根据文本数据的语法分析、语义解析生成的，包含了文本语料中包含的多个词之间的语法语义上的关联关系；因此，根据目标有向图生成的训练数据能表征文本数据中的基于语法语义关系的常识知识，可使得训练得到的语义模型具有处理自然语言的能力。

在一个实施例中，由于图像内容识别得到的文本数据可能是一句话，也可能是多句话，在进行具体的语法解析和/或语义分析及处理之前，首先需要对获取到的文本数据进行分句处理；并且，还需要对分句处理之后的文本数据包含的每一个句子进行分词处理，以将句子切割成由多个词。

在一个实施例中，所述待识别的图像为静态图像或动态图像，所述静态图像包括且不仅限于图画、照片中的至少一种，所述动态图像包括且不仅限于视频、动画图像中的至少一种。

其中，待识别的图像可以是静态图像，也可以是动态图像。静态图像是指画面不动的图像，其是由一张图像构成的。而动态图像是指画面可以动态变化的图像，其是由多张连续的视频图像组成的。动态图像常见的有视频或动画图像。

当待识别的图像为动态图像时，其基于多张连续的图像可以识别得到更加丰富的信息，比如，可以识别得到目标的一系列动作。从而可以达到更加丰富的识别效果。

在一个实施例中，所述图像内容识别结果为文本数据；所述根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，包括：对所述文本数据进行标准化处理，得到目标训练数据；采用所述目标训练数据对语义模型进行训练。

其中，标准化处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。语义模型为神经网络模型，基于目标训练数据对该语义模型进行训练。语义模型是指关系模型基础上增加全新的数据构造器和数据处理原语，用来表达复杂的结构和丰富的语义的一类新的数据模型。语义模型用于对自然语言进行处理。

在一个实施例中，所述语义模型为人工神经网络模型。语义模型的训练可以采用无监督的，也可以采用半监督的，还可以采用有监督的，具体可以根据实际需求来选择。

在一个实施例中，根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于构建语义知识网络，包括：对所述图像内容识别结果进行预处理，得到目标训练数据；根据所述目标训练数据构建语义知识网络。

其中，所述预处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。具体构建语义知识网络的方法可以采用现有的方法，比如，采用本人另一个专利里面的构建方法，专利号为：US9639523B2，该专利中详细介绍了如何基于目标训练数据构建语义知识网络。

在一个实施例中，根据所述目标训练数据构建语义知识网络，包括：将所述目标训练数据解析成一个或多个语法/语义关系图，所述一个或多个语法/语义关系图是由多个语法/语义关系和实例节点构成；基于所述一个或多个语法/语义关系图构建语义知识网络。

其中，实例节点用于表示目标数据集中的一个要素，该要素可以自定义，比如，该要素可以是一个词或词组、也可以是实体、还可以是抽象的对象，以及还可以是属性、状态、意图等。每个语法/语义关系图中包括一个或多个实例语法或语义关系，一个或多个实例语法或语义关系被设置为链接每个图中具有语法或语义关系的两个或多个实例节点。

在一个实施例中，构建的语义知识网络有多层，多层中的第一层包括多个词节点，每个词节点布置成词或实体名称。第二层包括一个或多个实例节点，每个实例节点被设置为目标训练数据集中的词或实体，其中一个或多个实例节点中的每一个通过一个或多个语义或语法关系链接以形成一个或多个子图，以及当由每个词节点表示的词或实体名称被关联时，通过每个词节点和每个实例节点之间建立引用，将多层知识网络的第一层与第二层进行引用具有由实例节点表示的词或实体。

在一个实施例中，每个所述实例节点表示目标训练数据中一个要素，所述要素包括：词、词组、实体、抽象的对象、属性、状态、意图中的至少一个。

如图5所示，在一个实施例中，提出了一种训练数据的构建装置，包括：

获取模块502，用于获取待识别的图像；

识别模块504，用于对所述待识别的图像进行内容识别，得到图像内容识别结果；

构建模块506，用于根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在一个实施例中，构建模块还用于对所述图像内容识别结果按照预设的方法进行处理，得到与所述图像内容识别结果对应的目标有向图，预设的方法包括：语法解析方法、语义解析方法中的至少一种，根据所述目标有向图生成目标训练数据。

在一个实施例中，所述图像内容识别结果为文本数据；构建模块还用于对所述文本数据进行标准化处理，得到目标训练数据；采用所述目标训练数据对语义模型进行训练。

在一个实施例中，所述标准化处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。

在一个实施例中，所述语义模型为人工神经网络模型。

在一个实施例中，构建模块还用于对所述图像内容识别结果进行预处理，得到目标训练数据；根据所述目标训练数据构建语义知识网络。

在一个实施例中，所述预处理包括：所述标准化处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。

在一个实施例中，构建模块还用于将所述目标训练数据解析成一个或多个语法/语义关系图，所述一个或多个语法/语义关系图是由多个语法/语义关系和实例节点构成；基于所述一个或多个语法/语义关系图构建语义知识网络。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述的训练数据的构建方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述的训练数据的构建方法。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取待识别的图像；对所述待识别的图像进行内容识别，得到图像内容识别结果；根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在一个实施例中，所述语义模型为人工神经网络模型。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：获取待识别的图像；对所述待识别的图像进行内容识别，得到图像内容识别结果；根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，或用于构建语义知识网络。

在一个实施例中，所述语义模型为人工神经网络模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种训练数据的构建方法，包括：

获取待识别的图像；

2.根据权利要求1所述的方法，其特征在于，在所述根据所述图像内容识别结果构建目标训练数据之前，还包括：

获取文本数据；

所述根据所述图像内容识别结果构建目标训练数据，包括：

将所述文本数据与所述图像内容识别结果进行结合，构建目标训练数据。

3.根据权利要求2所述的方法，其特征在于，所述文本数据为从网络上提取到的文字信息，包括：新闻、小说、故事、剧本、论文、诗歌、对话、说明、信件、帖子、消息中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述图像内容识别结果包括：图像中的目标，目标与目标之间的关系、目标的属性、目标的状态和目标的意图中的至少一种，所述目标为识别到的实体或抽象的对象。

5.根据权利要求1所述的方法，其特征在于，所述图像内容识别结果的形态为文本形态或逻辑关系图形态。

6.根据权利要求1所述的方法，其特征在于，所述根据所述图像内容识别结果构建目标训练数据，包括：

对所述图像内容识别结果按照预设的方法进行处理，得到与所述图像内容识别结果对应的目标有向图，预设的方法包括：语法解析方法、语义解析方法中的至少一种；

根据所述目标有向图生成目标训练数据。

7.根据权利要求1所述的方法，其特征在于，所述待识别的图像为静态图像或动态图像，所述静态图像包括：图画、照片中的至少一种，所述动态图像包括：视频、动画图像中的至少一种。

8.根据权利要求1所述的方法，其特征在于，所述图像内容识别结果为文本数据；

所述根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于对语义模型进行训练，包括：

对所述文本数据进行标准化处理，得到目标训练数据；

采用所述目标训练数据对语义模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述标准化处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。

10.根据权利要求8所述的方法，所述语义模型为人工神经网络模型。

11.根据权利要求1所述的方法，其特征在于，根据所述图像内容识别结果构建目标训练数据，所述目标训练数据用于构建语义知识网络，包括：

对所述图像内容识别结果进行预处理，得到目标训练数据；

根据所述目标训练数据构建语义知识网络。

12.根据权利要求11所述的方法，其特征在于，所述预处理包括：所述标准化处理包括：分句处理、分词处理、词性标注和依存句法分析中的至少一种。

13.根据权利要求11所述的方法，其特征在于，根据所述目标训练数据构建语义知识网络，包括：

将所述目标训练数据解析成一个或多个语法/语义关系图，所述一个或多个语法/语义关系图是由多个语法/语义关系和实例节点构成；

基于所述一个或多个语法/语义关系图构建语义知识网络。

14.根据权利要求13所述的方法，其特征在于，每个所述实例节点表示目标训练数据中一个要素，所述要素包括：词、词组、实体、抽象的对象、属性、状态、意图中的至少一个。

15.一种训练数据的构建装置，其特征在于，包括：

获取模块，用于获取待识别的图像；

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至14中任一项所述方法的步骤。

17.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至14中任一项所述方法的步骤。