CN114782028B

CN114782028B - 一种智能查验方法和平台

Info

Publication number: CN114782028B
Application number: CN202210694312.1A
Authority: CN
Inventors: 张晓天; 黄俊维; 吴保荣; 梁振兴; 梁斌; 黄榕佳
Original assignee: Guangzhou Zhijianyun Information Technology Co ltd
Current assignee: Guangzhou Zhijianyun Information Technology Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-02
Anticipated expiration: 2042-06-20
Also published as: CN114782028A

Abstract

本申请公开了一种智能查验方法和平台，方法包括：获取人员查验目标工程时拍摄视频的图像数据和音频数据；基于所述图像数据，得到对所述目标工程的第一查验结果；将所述音频数据转换生成对应的文本数据；基于所述文本数据，得到对所述目标工程的第二查验结果；结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果。本申请可通过视频自动生成对目标工程的查验结果，大大提高了查验结果的记录效率和准确度，同时通过视频录制的方式，可通过回放视频对查验结果进行复核。

Description

一种智能查验方法和平台

技术领域

本申请涉及智能管理领域，更具体地说，涉及智能查验方法和平台。

背景技术

工程监理是指对建设工程质量、造价、进度进行全面控制和管理，其中需要专职人员对工程项目进行监督和管理，阶段性对工程项目进行审核、验证，以确保施工安全、工程项目质量和时效等指标。

针对于建筑行业，施工方按照施工图纸、施工要求等进行施工，监理方按照施工图纸、施工要求等对施工方进行监督和管理，并对人力、设备、物资等进行清点排查，并进行取样和数据复核，对施工品质等问题进行及时得记录和指正。

但现如今，对于工程项目的审核、验证还是由专职人员前往工地查验，并将查验得到的情况手动记录在记录表中，这一传统工程查验方式，存在许多弊端：

其一，当面对工程量较大的工程项目时，需要查验的查验项较多，手动记录查验情况将耗费人员大量的时间精力；

其二，由于是在查验过程中或在查验结束后统一进行工程情况的记录，容易导致记录遗漏和记录错误的情况出现；

其三，为保证查验结果的公正性，往往需要同时派遣多名专职人员共同前往工程现场进行查验，浪费大量的人力资源，且无法对得到的查验结果进行复核。

考虑到上述情况，亟需一种智能查验方案，以解决上述弊端。

发明内容

有鉴于此，本申请提供了一种智能查验方法和平台，可提高查验结果的记录效率和准确度，同时可实现对查验结果的复核。

为了实现上述目的，现提出的方案如下：

一种智能查验方法，包括：

获取人员查验目标工程时拍摄视频的图像数据和音频数据；

基于所述图像数据，得到对所述目标工程的第一查验结果；

将所述音频数据转换生成对应的文本数据；

基于所述文本数据，得到对所述目标工程的第二查验结果；

结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果。

优选的，所述基于所述图像数据，得到对所述目标工程的第一查验结果，包括：

对所述图像数据进行预处理；

将预处理后的图像数据送入训练完成的查验识别模型，得到所述查验识别模型输出的图像数据对应的场景信息和第一查验结果，所述查验识别模型以标注有对应的样本场景信息和样本查验结果的样本图像数据作为样本数据训练得到。

优选的，所述基于所述文本数据，得到对所述目标工程的第二查验结果，包括：

确定所述文本数据的各查验项关键词和与每一所述查验项关键词对应的内容关键词，所述查验项关键词为所述人员查验的所述目标工程的查验项名称，所述内容关键词为所述人员对所述目标工程的查验项的建设情况描述；

根据所述查验项关键词和所述内容关键词，确定对所述目标工程的第二查验结果。

优选的，结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果，包括：

根据所述第一查验结果对所述第二查验结果进行第一调整，生成调整查验结果；

获取预置的检查项数据库，所述检查项数据库中记录有所述目标工程的各查验项的标准查验项名称和口语化名称的对应关系，及与每一标准查验项名称对应的每一标准描述集，所述标准描述集中包含与对应查验项匹配的表征各类建设情况的各条标准描述；

针对所述调整查验结果中的每一条结果信息：

在所述检查项数据库中查找与结果信息中的查验项名称相似度最高的预设数量的目标标准查验项名称及对应的目标标准描述集；

将所述目标标准描述集中，与所述结果信息中的建设情况描述相似度最高的标准描述，以及，与所述相似度最高的标准描述对应的标准查验项名称作为对所述目标工程的一条目标查验结果。

优选的，将所述音频数据转换生成对应的文本数据，包括：

结合预置的与目标工程类型匹配的专业词库，将所述音频数据转换生成初始文本数据；

结合所述图像数据对应的场景信息，对初始文本数据进行调整，生成所述音频数据对应的文本数据。

优选的，在将所述音频数据转换生成对应的文本数据之前，还包括：

获取白名单人员的声纹曲线；

提取所述音频数据中的与所述白名单人员的声纹曲线匹配的数据，作为转换生成文本数据的音频数据。

优选的，确定所述文本数据的各查验项关键词和各内容关键词，包括：

确定所述文本数据中各词的词性；

依据预设的词性权重，确定所述文本数据的关键词；

对所述关键词进行内容分析，将表征查验项名称的关键词作为所述文本数据的查验项关键词，将表征建设情况描述的关键词作为所述文本数据的内容关键词。

优选的，在所述生成调整查验结果之前，还包括：

获取人员查验所述目标工程时拍摄设备的空间位置信息；

结合所述目标工程的建设规划，确定与所述空间位置信息存在位置关联的查验项；

根据所述存在位置关联的查验项对所述调整查验结果进行第二调整，并将二次调整结果作为所述调整查验结果。

优选的，在确定所述目标工程的目标查验结果之后，还包括：

根据所述目标查验结果，生成所述目标工程的建设情况记录，所述建设情况记录中包括查验的所述目标工程的各查验项的查验项名称及对应的查验结果，以及对应的图像数据和音频数据。

一种智能查验平台，包括：

数据获取模块，用于获取人员查验目标工程时拍摄视频的图像数据和音频数据；

第一查验模块，用于基于所述图像数据，得到对所述目标工程的第一查验结果；

文本转换模块，用于将所述音频数据转换生成对应的文本数据；

第二查验模块，用于基于所述文本数据，得到对所述目标工程的第二查验结果；

结果分析模块，用于结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果。

从上述的技术方案可以看出，本申请实施例提供的一种智能查验方法和平台，通过让专职人员在查验目标工程时拍摄视频，对视频的图像数据和音频数据进行分析。首先对所述图像数据进行分析，得到对所述目标工程的第一查验结果。再将所述音频数据转换生成对应的文本数据，并对转换得到的文本数据进行分析，得到对所述目标工程的第二查验结果。结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，最终确定所述目标工程的目标查验结果。人员仅需在查验目标工程时，携带视频拍摄设备，以视频形式记录人员观察到的目标工程的画面，以及人员对建设情况的语言描述，即可基于视频的图像数据和音频数据，生成所述目标工程的目标查验结果。

本申请可通过视频自动生成对目标工程的查验结果，无需手动记录查验情况，相较于现有技术，本申请大大提高了查验结果的记录效率和准确度，避免了耗费人员大量的时间精力，以及减少了记录遗漏和错误的情况发生。同时通过视频录制的方式，可通过回放视频对查验结果进行复核。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种智能查验方法的流程图；

图2为本申请公开的图像数据中的某一画面的示意图；

图3为本申请公开的一种可选的智能查验平台的显示界面的示意图；

图4为本申请公开的一种智能查验平台的结构框图；

图5为本申请公开的一种智能查验设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来介绍本申请方案，本申请提出如下技术方案，具体参见下文。

图1为本申请实施例公开的一种智能查验方法流程图，如图1所示，该方法可以包括：

步骤S1、获取人员查验目标工程时拍摄视频的图像数据和音频数据。

具体的，专职人员前往目标工程现场进行现场查验，在查验过程中，通过手机、照相机、拍摄记录仪等移动拍摄设备对整个查验过程进行记录，本申请不对拍摄或录制视频的设备进行具体限定。

拍摄得到的视频可实时上传到智能查验平台，以同步实时生成对所述目标工程的目标查验结果，也可以在查验结束后，整体上传到智能查验平台，生成目标查验结果。若使用的是可进行实时联网上传的移动拍摄设备，则视频将在拍摄的同时上传到对应的智能查验平台，智能查验平台立刻对视频的图像数据和音频数据进行分析，生成分析结果。

人员在查验目标工程各处是否符合建设要求的过程中，一边利用移动拍摄设备将其观察到的情况进行拍摄记录，一边对查验得到的情况进行描述说明，整个查验过程都将录制在视频中，此时视频的画面部分为当前人员查验目标工程时拍摄视频的图像数据，录制下来的与画面部分同步的声音部分为当前人员查验目标工程时拍摄视频的音频数据。

示例如，人员在查验某房间墙面过程中，观察到墙面发生开裂，指出开裂位置并说明“这个墙面开裂了”。此时，移动拍摄设备将拍摄下人员查墙面并指出说明的全过程。其中拍摄得到的人员指出墙面发生开裂位置的画面属于本次查验的图像数据，录制下的人员说出的“这个墙面开裂了”这句话的声音属于本次查验的音频数据。

步骤S2、基于所述图像数据，得到对所述目标工程的第一查验结果。

具体的，可利用模型对图像数据进行特征提取分析，识别所述图像数据中各画面的特征，并根据特征分析得到当前对应的场景信息以及对目标工程的第一查验结果，第一查验结果中包括查验项名称和对应的查验情况。由于图像数据中每一画面整体范围较大，特征较多，且可结合前后画面进行综合分析，得到的对所述目标工程的第一查验结果将与当前画面对应的场景信息和位置相匹配。

如图2所示，图2为图像数据中的某一帧画面，其中人员所处房间，手指墙角位置，墙角处存在漏水现象。在对该画面进行特征提取识别，综合分析得到与该画面对应的场景信息应为房间，可得到的与之对应的第一查验结果为：查验项名称为“房间墙角”，查验情况为“房间墙角漏水”。

步骤S3、将所述音频数据转换生成对应的文本数据。

具体的，在音频数据转换为对应的文本数据的过程中，可对音频数据进行降噪、回声消除、混响消除和数据过滤等预处理，预处理除了音频数据中数据传输过程中产生杂质数据，以及工程现场的其他干扰噪音后，可在一定程度上提升文本转换的效率和准确性。所述音频数据转换生成对应的文本数据应为句式的文本数据。

下面例举几种可选的预处理的方式，包括语音活动检测、降噪、回声消除和混响消除，其中，对于语音活动检测，可以通过检测出语音信号的起始位置，分离出语音段和非语音（静音或噪声）段；降噪在于降低环境中存在的噪声，提高信噪比，进一步提升识别效果；回声消除采用自适应方法估计回波信号的大小，然后在接收信号中减去此估计值以抵消回波；混响消除避免了语音信号在室内经过多次反射之后，被麦克风采集，得到的混响信号容易产生掩蔽效应，会导致识别率急剧恶化的问题，减少混响对声音接收系统的影响，降低混响对信号的掩蔽效应，提高语音识别率。可以理解的是，本申请的预处理过程应包括但不限于上述方式。

步骤S4、基于所述文本数据，得到对所述目标工程的第二查验结果。

具体的，在得到句式的文本数据，即为句子的组合后，通过分词算法来对文本数据的词汇进行确认。分词算法是指将一个汉字序列切分成一个一个单独的词，分词算法分为三大类，第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词典中的词相同，就算匹配，比如机械分词方法。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等。第二类是基于统计以及机器学习的分词方法，首先需要基于人工标注的词性和统计特征，对词汇进行建模，即根据观测到的数据(标注好的语料)对模型参数进行训练，在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果，常见的序列标注模型如HMM和CRF，这类分词算法能很好处理歧义和未登录词问题，但是需要大量的人工标注数据，分词速度较慢。第三类是通过让计算机模拟人对句子的理解，达到识别词的效果。

在对文本数据的词汇进行识别确定后，可以利用词性标注、匹配检查项等方式对文本数据进行分析，得到对目标工程的第二查验结果，第二查验结果中包括查验项名称和对应的查验情况。

示例如，若转换得到的文本数据为“这个墙面开裂了”和“房间门门套有破损”，则可以提取得到其中包括两个查验项，查验项名称分别为“墙面”和“门套”，与之对应的查验情况分别为“墙面开裂”和“房间门门套破损”。

但是，在实际应用中，仅基于语音转换得到的文本数据，分析得到的对所述目标工程的查验结果并不够全面和准确，当人员语言描述存在地方口音或使用了非常用词语时，识别得到的第二查验结果将存在偏差，如当人员存在地方口音时描述“大门启闭异常”，可能在语音转换后得到的文本为“他们起兵宜昌”，或者人员使用口语化词汇描述，转换得到的文本为“顶部墙面没有批荡”，此时将难以识别得到符合人员本意所指的查验项名称和对应的查验结果。因此，在本申请中，还需将第一查验数据结合对图像数据分析得到的第二查验数据，生成最终的目标查验结果。

步骤S5、结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果。

具体的，结合第二查验结果更符合当前画面所处的环境和位置的特点和第一查验结果更为直接的体现人员指的查验项的优势，将能够得到一个相较前述二者都更接近人员本意的查验结果。但依然可能存在查验结果中的查验项名称和查验内容为一个口语化描述的问题，为便于统一管理，生成一个对目标工程的标准化、具体化的目标查验结果，还可结合预置的查验项数据库得到最终的目标查验结果。所述第一查验结果、第二查验结果和预置的检查项数据库三者可利用各自的信息对查验结果进行补充和确认，对于第二查验结果未提及，但第一查验结果中存在且符合查验项数据库的信息，可在第二查验结果的基础上进行补充，对于第二查验结果和第一查验结果均存在的相同信息，可利用检查项数据库进行更加具体化的确认。

示例如，对于“抹灰”这一标准查验项名称，工程领域技术人员常用“批荡”、“批碳”等口语化词汇进行描述。在检查项数据库中将记录有“批荡”、“批碳”对应“抹灰”这一标准查验项名称。当人员使用口语化词汇描述，音频数据转换得到的文本数据为“批荡过于粗糙”，得到的第二查验结果为查验项名称为“批荡”，查验情况为“批荡粗糙”，分析图像数据后得到的第一查验结果为场景信息为“室内房间”，查验项名称为“墙面”，查验情况为“墙面颜色不均”，此时将第一查验结果、第二查验结果和预置的检查项数据库结合，可得到最终的目标查验结果为查验项名称为“抹灰”，查验情况为“墙面抹灰粗糙”。

从上述的技术方案可以看出，本申请实施例提供的一种智能查验方法，通过让专职人员在查验目标工程时拍摄视频，对视频的图像数据和音频数据进行分析。首先对所述图像数据进行分析，得到对所述目标工程的第一查验结果。再将所述音频数据转换生成对应的文本数据，并对转换得到的文本数据进行分析，得到对所述目标工程的第二查验结果。结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，最终确定所述目标工程的目标查验结果。人员仅需在查验目标工程时，携带视频拍摄设备，以视频形式记录人员观察到的目标工程的画面，以及人员对建设情况的语言描述，即可基于视频的图像数据和音频数据，生成所述目标工程的目标查验结果。

可选的，在步骤S5、结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果之后，还可以包括：

步骤S6、根据所述目标查验结果，生成所述目标工程的建设情况记录。

具体的，所述建设情况记录中包括查验的所述目标工程的各查验项的查验项名称及对应的查验结果，以及对应的图像数据和音频数据。如图3所示为一种可选的智能查验平台的显示界面。在生成目标查验结果之后，还可以根据所述目标查验结果，生成所述目标工程的建设情况记录，并进行显示，图3中的建设情况记录中包括3条记录，记录的查验项名称分别为“户内门门套”、“墙体”、“防护栏”，查验情况分别为“A门门套破损”、“B处墙角漏水”、“C处未设置防护栏”。同时还可根据查验项名称和查验情况分析得到对应的查验项类型、情况类型和紧急程度。对于每一条记录，都对应有分析得到该条记录的图像数据和文本数据，可随时对该条记录进行复查。

因此，利用本申请，在进行工程项目查验时，仅需派遣至少一名专职人员前往工程现场进行查验，在后续通过图像数据和文本数据对查验结果进行复核即可，解决了查验过程浪费大量的人力资源，且无法对得到的查验结果进行复核的问题。

在本申请的一些实施例中，对步骤S4、基于所述文本数据，得到对所述目标工程的第二查验结果的过程进行介绍，具体可以包括：

步骤S41、确定所述文本数据的各查验项关键词和与每一所述查验项关键词对应的内容关键词。

具体的，所述查验项关键词为所述人员查验的所述目标工程的查验项名称，所述内容关键词为所述人员对所述目标工程的查验项的建设情况描述。示例如，对于文本数据“这个门套破损了”，其中“门套”为确定的查验项关键词，“破损”为内容关键词。

下面提供了一种可选的确定查验项关键词和内容关键词的方式，具体可以包括以下三步：

①确定所述文本数据中各词的词性。

②依据预设的词性权重，确定所述文本数据的关键词。

③对所述关键词进行内容分析，将表征查验项名称的关键词作为所述文本数据的查验项关键词，将表征建设情况描述的关键词作为所述文本数据的内容关键词。

具体的，所述关键词为在整个语句中对查验项名称和查验情况分析起到关键作用的词汇。通过词性标注的方式可以首先在文本数据的各词汇中确定出关键词，再进一步通过对关键词进行内容分析得到其中表征查验项名称的关键词和表征建设情况描述的关键词，将表征查验项名称的关键词作为所述文本数据的查验项关键词，将表征建设情况描述的关键词作为所述文本数据的内容关键词。

首先需要确定文本数据中各词的词性，即确定每个词是名词、动词、介词、形容词、语气词或者其他词的过程，词性标注方法可以为基于最大熵的词性标注、基于统计最大概率输出的词性、基于HMM的词性标注等。在得到文本数据中各词的词性后，基于预设的词性权重，分析确定每一语句的各个词汇中，对分析查验项名称和查验情况起到关键作用的词汇，并将这些词作为该句的关键词。在一般情况下，名词、动词、形容词等往往更能体现查验项和建设情况，对分析确定查验项名称和查验情况的作用更大，因此对名词、动词、形容词等设置的权重往往较高，对于介词和语气词等对分析确定查验项名称和查验情况的作用稍弱的词汇，则设置的权重较低，因此在词性标注方法是使用过程中，需要预先规定好各类词汇设置词性权重，其中权重高词汇将作为文本数据的关键词，通过权重确定每一句的关键词后，对关键词进行内容分析，可进一步将表征查验项名称的关键词作为所述文本数据的查验项关键词，将表征建设情况描述的关键词作为所述文本数据的内容关键词。

示例如，文本数据“这个门套破损了”，其中“门套”为名词，“破损”为形容词，“这个”为代词，“了”为语气词，依据预设的词性权重，将名词“门套”和形容词“破损”确定为文本数据的关键词。对关键词的内容进行分析，将表征查验项名称的关键词“门套”作为所述文本数据的查验项关键词，将表征建设情况描述的关键词“破损”作为所述文本数据的内容关键词。

步骤S42、根据所述查验项关键词和所述内容关键词，确定对所述目标工程的第二查验结果。

具体的，可以理解的是，在实际应用中，文本数据的关键词往往将有多个，因此在进行查验项关键词和内容关键词的确定时，还需结合文本断句，考虑词语间的先后顺序和关联关系，通过共指消解技术确定所述查验项关键词和所述内容关键词的对应关系。共指消解技术可解决多个指称对应同一实体对象的问题，即在一次会话中，多个指称可能指向的是同一实体对象，利用共指消解技术，可以将这些指称项关联（合并）到正确的实体对象中。在本申请中，利用共指消解技术可确定与每一个查验项关键词对应的一个或多个内容关键词。

一个查验项关键词往往存在一个或多个与之对应的内容关键词，在确定了文本数据的查验项关键词和所述内容关键词后，可以进一步依据内容关键词之间的词汇共性，确定最终对所述目标工程的第二查验结果。

示例如，文本数据“这个天花开裂了，并且它还出现渗水了”，其中，关键词“天花”为所述文本数据的查验项关键词，与之对应的表征建设情况描述的关键词“开裂”和“渗水”为所述文本数据的内容关键词，这里的“它”所指代的是“天花”，通过共指消解技术可以将“它”替换成“天花”。所以，可根据其中代词之间的关联性，以及内容关键词的共性，最终分析得到第二查验结果为查验项名称为“天花”，查验情况为“天花开裂”和“天花渗水”。

在本申请的一些实施例中，对步骤S2、基于所述图像数据，得到对所述目标工程的第一查验结果的过程进行介绍，具体可以包括：

步骤S21、对所述图像数据进行预处理。

具体的，由于不同拍摄设备产生的图像数据的大小尺寸都不完全相同，所以需要先将图像数据进行预处理，使得图像数据规格统一化。

步骤S22、将预处理后的图像数据送入训练完成的查验识别模型，得到所述查验识别模型输出的图像数据对应的场景信息和第一查验结果。

具体的，所述查验识别模型以标注有对应的样本场景信息和样本查验结果的样本图像数据作为样本数据训练得到。利用图像目标检测技术对图像数据进行场景预测，确定与当前图像数据对应的场景信息，对于图像数据中的若干画面，对应其中的某一画面，可通过画面整体进行识别，并结合前后画面进行综合分析，确定与该画面对应的场景信息，示例如场景为房间、停车场、庭院等。对于场景为房间的图像数据，一般多包括有墙面，门和窗等图像画面；对于场景为停车场的图像数据，一般多包括有车位划线，通风管道和消防设施等图像画面；对于场景为庭院的图像数据，一般多包括有篱笆，凉亭和绿植等图像画面。

基于不同场景信息，可以采用不同的一个或多个图像训练模型，对所述图像数据进行特征构建和提取，构建提取得到的特征将更加准确，更加能够体现其中查验项的特点。分析得到的第一查验结果也将更为准确，符合该场景信息下的实际情况。

对所述图像数据进行推理预测，可通过图像分类网络实现，其中，图像分类网络可以选择R-CNN（Region with CNN Feature）、Faster R-CNN（Faster Region with CNNFeature）、Mask R-CNN（Mask Region with CNN Feature）、SSD (Single Shot MultiBoxDetector)、YOLO等网络结构中的任意一个模型作为预设的图像分类网络进行改进和训练得到，本实施例对此不作限定。

推理预测得到的所述场景信息，可以进一步对所述音频数据转换生成对应的文本数据进行调整，从而得到更为准确的基于所述场景信息的文本数据。同时推理预测得到第一查验结果，可以作为所述第二查验结果的辅助校验信息，特别是当查验人员的文字描述内容与视频拍摄内容严重不符的时候，可以起到监督提醒的作用。因为查验项分类较多，也可能存在推理预测得到的所述查验项名称和所述查验情况不够准确或者无法预测的情况，此时所述第一查验结果仅仅作为辅助校验信息而存在。

在上述实施例的基础上，为提高音频数据转换生成对应的文本数据的准确度，还可结合专业词库，并利用所述图像数据对应的场景信息辅助进行文本转换。下面对步骤S3、将所述音频数据转换生成对应的文本数据的过程进行介绍，具体可以包括：

步骤S31、结合预置的与目标工程类型匹配的专业词库，将所述音频数据转换生成初始文本数据。

具体的，考虑工程项目属于强专业领域，其中会使用到较多本领域技术的专业术语，且对于不同的工程项目类型，使用的专业术语和名词往往也存在不同，为使得转换得到的文字数据更为准确，尽力使之与查验时人员所表述的词语一致，在将所述音频数据转换生成初始文本数据的过程中，还可以结合预置的与目标工程类型匹配的专业词库进行文本转换，得到初始文本数据。

所述预置的与目标工程类型匹配的专业词库包括专业术语库、近义词库和关联词库等，其中，专业词库中记载了比较容易出现转换错误的专业术语，避免行业专业名词和同音、近音词的影响识别，近义词库记载了与常用口语描述为直接近义关联的标准词汇，用以提升识别召回率，关联词库中记载了并不完全匹配或没有文字相似性，但两者其实在含义概念中有关联的词汇，例如描述文字中的部分是某一检查项中的一种子类，或是检查项对象中的一个子部件，通过关联人工记录时用语和检查项进行确定。

如表一所示，表一记录了部分通过专业术语库后进行初始文本转换的示例，加入专业术语库后，转换结果将更为准确。

表一

表二展示了近义词库中记载的部分内容，表三展示了关联词库中记载的部分内容，在进行初始文本转换时，可结合近义词库和/或关联词库，进行词汇替换，得到的初始转换文本将更为标准和专业化，可便于后续的检查项名称和查验情况的识别确认过程。

表二

表三

步骤S32、结合所述图像数据对应的场景信息，对初始文本数据进行调整，生成所述音频数据对应的文本数据。

具体的，除了结合上述专业词库提高文本转换准确度外，还可通过结合前述步骤S22中识别得到所述图像数据对应的场景信息，并利用本领域的特有数据，基于多模态预训练模型（如ViLBERT等），通过领域的标注数据对多模态预训练模型进行微调，学习模态匹配任务。基于微调后的多模态预训练模型，将步骤S31得到的文本数据的关键词进行掩盖（mask），并将掩盖后的文本数据和图像场景一起输入到微调后的多模态预训练模型中，从而对文本数据的关键词语进行校对和纠正。

示例如，若转换得到的文本数据为“门”，而场景信息为房间，利用微调后的多模态预训练模型进行对齐预测，可以得到更符合图像场景信息的文本描述数据，即将文本数据“门”调整为符合实际情况的“户内门”。如果场景信息为楼道、户外或地下停车场等，则可能调整为“入户门”、“大楼门”、“安全门”等。

上述结合专业词库以及结合所述图像数据对应的场景信息的方式，其作用均为提高文本转换的准确度，使得转换得到的文本术语尽可能与查验人员所表述的内容一致。结合专业词库以及结合所述图像数据对应的场景信息这两种方式，其本身均可独立实施，可仅使用其中之一或二者结合，同时在二者结合的情况下，其先后顺序也并不影响实施和效果，无需做进一步限定。

在实际应用中，考虑到建筑工程场所的噪音干扰较大，人员情况复杂，为避免噪音干扰和其他无关人员的言语干扰，还可通过设置白名单人员的方式，对音频数据进行提取处理。在步骤S3、将所述音频数据转换生成对应的文本数据的过程之前，还可以包括：

步骤S71、获取白名单人员的声纹曲线。

具体的，白名单人员为其语音需要进行文本转换的人员。由于工程项目现场往往人员密集，情况复杂，录制的音频数据中将存在大量混杂的人声以及工程机械设备的声音，因此在转换文本数据之前，为避免混杂的无效人声和工程机械设备声音的干扰，需要首先获取白名单人员的声纹曲线。

同时，通过设置白名单人员还可保证查验过程的有效性，考虑到查验结果可能影响工程项目汇报和项目验收，通过设置白名单人员可保证仅有白名单人员才可利用智能查验平台进行分析生成对目标工程的目标查验结果，智能查验平台将不会对非白名单人员的音频数据进行文本转换和分析，可保证查验结果的有效性和安全性。

此外，还可通过设置声纹验证登录，保障查验系统设备的安全性，通过设置声纹验证登录，即识别到白名单人员的表征登录的语句后，才可登录智能查验平台，开启查验记录过程，并利用智能查验平台进行分析生成对目标工程的目标查验结果。若当前人员非白名单人员，即不符合白名单人员的声纹曲线，则不开启查验记录过程，无法使用智能查验平台完成后续查验操作，也无法通过智能查验平台查看或修改之前的查验记录。

步骤S72、提取所述音频数据中的与所述白名单人员的声纹曲线匹配的数据，作为转换生成文本数据的音频数据。

具体的，基于获取的白名单人员的声纹曲线，提取所述音频数据与所述白名单人员的声纹曲线匹配的数据，并将提取得到是数据作为转换生成文本数据的音频数据。此时，转换生成文本数据的音频数据中仅包含有与白名单人员的语音。

在本申请的一些实施例中，对步骤S5、结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果的过程进行介绍，具体可以包括：

步骤S51、根据所述第一查验结果对所述第二查验结果进行第一调整，生成调整查验结果。

具体的，基于所述图像数据，得到的对所述目标工程的第一查验结果，将更能体现当前画面所处的环境和位置，但同一画面中可能同时存在多个可以作为查验项的特征，难以确定人员具体指画面中的哪一个查验项，而基于所述文字数据，得到的对所述目标工程的第二查验结果，将更为直接的体现人员指的查验项，但是由于文字转换过程中的不准确性，导致将难以确定符合人员本意所指的查验项名称和对应的查验结果。因此将第一查验结果结合第二查验结果，对第二查验结果进行调整，将能够得到一个相较前述二者都更接近人员本意的查验结果。

示例如，如当人员存在地方口音时描述“这个门套破损了”，语音转换后得到的文本为“这个孟涛破损了”，即得到的第二查验结果为查验项名称为“孟涛”，查验情况为“孟涛破损”。而根据图像数据，通过图像目标检测和图像描述技术，可分析得到所处的环境为门附近，并结合视频拍摄的破损位置，分析识别得到第一查验结果为查验项名称为“门”，查验情况为“门破损”。结合第二查验结果和第一查验结果，输入到微调后的多模态预训练模型结合图像场景特征对文本描述进行校正调整，可最终调整得到一个更准确的查验结果为查验项名称为“门套”，查验情况为“门套破损”。

步骤S52、获取预置的检查项数据库。

具体的，所述检查项数据库中记录有所述目标工程的各查验项的标准查验项名称和口语化名称的对应关系，及与每一标准查验项名称对应的每一标准描述集，所述标准描述集中包含与对应查验项匹配的表征各类建设情况的各条标准描述。

示例如，检查项数据库中记录有“批荡”、“批碳”对应“抹灰”这一标准查验项名称。对于“抹灰”这一标准查验项名称，其对应的标准描述集中可以存在的标准描述包括：“抹灰光滑”、“抹灰粗糙”、“未抹灰”等。

步骤S53、在所述检查项数据库中查找与结果信息中的查验项名称相似度最高的预设数量的目标标准查验项名称及对应的目标标准描述集。

具体的，针对所述调整查验结果中的每一条结果信息，在所述检查项数据库中查找与结果信息中的查验项名称相似度最高的预设数量的目标标准查验项名称及对应的目标标准描述集。首先需要计算结果信息中的查验项名称与所述检查项数据库中记录的各标准查验项名称的相似度，将其中相似度最高的预设数量的标准查验项名称，作为目标标准查验项名称，并确定与目标标准查验项名称对应的目标标准描述集。相似度计算方法可以为基于 Ontology 或 Taxonomy 来计算，或是基于大规模语料进行统计得到。

示例如，某一结果信息中的查验项名称为“内门套”，预设数量为3，则可以在检查项数据库中查找与结果信息中的查验项名称相似度最高的3条目标标准查验项名称，分别为“内门套”、“外门套”、“门”，之后确定与这3个目标标准查验项名称一一对应的3个目标标准描述集。

此外，考虑到在实际应用中，现有的检查项数据库均为预先设置的，其中包括的标准查验项名称及对应的标准描述集可能无法囊括全部可能出现的检查项和对应的查验情况，因此在实际使用中可能出现查验项数据库中查询不到对应的标准查验项名称的情况。

因此，在所述检查项数据库中查找与结果信息中的查验项名称相似度最高目标标准查验项名称时，发现最高相似度也较低，低于预设值，可认定为当前检查项数据库中查询不到对应的标准查验项名称。在这种情况下，可以通过人为补充的方式，人为操作新增对应的标准查验项名称和对应的标准描述集。

通过此种方式，一方面可以避免了相似度较低时进行强行匹配识别，另一方面后续每次的补充都相当于对检查项数据库进行了一次更新，在后续不断的使用过程中，检查项数据库将会不断得到更新完善，不断降低之后查询不到情况的发生概率。

步骤S54、将所述目标标准描述集中，与所述结果信息中的建设情况描述相似度最高的标准描述，以及，与所述相似度最高的标准描述对应的标准查验项名称作为对所述目标工程的一条目标查验结果。

具体的，所述结果信息中的建设情况描述即为结果信息的查验情况。每一目标标准描述集中都存在若干条标准描述，分别计算其与所述结果信息中的建设情况描述，即查验情况的相似度，将其中相似度最高的标准描述，以及，与所述相似度最高的标准描述对应的标准查验项名称作为对所述目标工程的一条目标查验结果。

示例如，若计算得到相似度最高的3条目标标准查验项名称，分别为“内门套”、“外门套”、“门”，其中每一对应的目标标准描述集中都包含3条标准描述，则共需要计算9条标准描述与所述结果信息中的建设情况描述的相似度，其中“内门套破损”为与所述结果信息中的建设情况描述相似度最高的标准描述，与该标准描述对应的标准查验项名称为“内门套”，则可以确定该条目标查验结果包含：查验项名称为“内门套”、查验情况为“内门套破损”。

可选的，对于步骤S51，在所述生成调整查验结果之前，还可增设结合拍摄设备的空间位置信息进行二次调整的过程，具体可以包括：

步骤S55、获取人员查验所述目标工程时拍摄设备的空间位置信息。

具体的，对于建筑工程项目，建设规划往往是预先设定好的，之后按照建设规划进行逐步施工，即对于一个固定的空间位置坐标，其对应的查验项只可能为该空间位置坐标附近的，与该空间位置坐标存在位置关联的查验项，因此，为加强调整查验结果的准确性，还可通过结合拍摄设备的空间位置信息对之前调整后的查验结果进行二次调整。

步骤S56、结合所述目标工程的建设规划，确定与所述空间位置信息存在位置关联的查验项。

具体的，存在位置关联可以为对于当前空间位置坐标，建设规划中与该空间位置坐标在预设范围内的检查项。示例如，若某一空间位置信息确定其在建设规划中的位置为二楼某一门A的门口，则与所述空间位置信息存在位置关联的查验项可以为“门”、“内门套”、“外门套”。

步骤S57、根据所述存在位置关联的查验项对所述调整查验结果进行第二调整，并将二次调整结果作为所述调整查验结果。

具体的，基于该空间位置信息，可将对应的查验项名称限定在存在位置关联的查验项名称中，因此可根据所述存在位置关联的查验项对所述调整查验结果进行第二调整，并将二次调整结果作为所述调整查验结果。

同时空间位置信息可对上次调整后得到的查验结果进行信息补充，可明确是哪个位置的具体的一个查验项的查验情况。

示例如，根据所述第一查验结果对所述第二查验结果进行第一调整后，得到的查验情况为“门套破损”，但无法具体到是哪个门发生该情况，通过空间位置信息，结合建设规划确定该空间位置信息附近为门A，那么调整后可得到查验情况为“A门门套破损”。

此外，还需要说明的是，在上述实施例中，对于图像数据和音频数据，由于数据本身为连贯的画面以及声音，在实际操作过程中，还可以根据需要对图像数据和音频数据进行对应的分段裁剪，如对每一查验项的查验过程都可以生成一个小的图像数据片段和音频数据片段，以便于进行后续分析，以及最后的建设情况记录生成。对于图像数据截取的方法，可以根据音频数据的信息而定，例如基于声纹曲线提取得到的文本数据所对应的时间轴坐标，或自然语言语义信息等，确定图像数据的提取方式，以能够从连续产生的图像数据中截取到具有明确指示意义的图像数据片段。

下面对本申请实施例提供的智能查验平台进行描述，下文描述的智能查验平台与上文描述的智能查验方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种智能查验平台的结构框图。

如图4所示，所述智能查验平台可以包括：

数据获取模块110，用于获取人员查验目标工程时拍摄视频的图像数据和音频数据；

第一查验模块120，用于基于所述图像数据，得到对所述目标工程的第一查验结果；

文本转换模块130，用于将所述音频数据转换生成对应的文本数据；

第二查验模块140，用于基于所述文本数据，得到对所述目标工程的第二查验结果；

结果分析模块150，用于结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果。

从上述的技术方案可以看出，本申请实施例提供的一种智能查验平台，通过让专职人员在查验目标工程时拍摄视频，对视频的图像数据和音频数据进行分析。首先对所述图像数据进行分析，得到对所述目标工程的第一查验结果。再将所述音频数据转换生成对应的文本数据，并对转换得到的文本数据进行分析，得到对所述目标工程的第二查验结果。结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，最终确定所述目标工程的目标查验结果。人员仅需在查验目标工程时，携带视频拍摄设备，以视频形式记录人员观察到的目标工程的画面，以及人员对建设情况的语言描述，即可基于视频的图像数据和音频数据，生成所述目标工程的目标查验结果。

上述第一查验模块，执行所述基于所述图像数据，得到对所述目标工程的第一查验结果的过程，可以包括：

对所述图像数据进行预处理；

上述第二查验模块，执行所述基于所述文本数据，得到对所述目标工程的第二查验结果的过程，可以包括：

上述结果分析模块，执行结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果的过程，可以包括：

针对所述调整查验结果中的每一条结果信息：

上述文本转换模块，执行将所述音频数据转换生成对应的文本数据的过程，可以包括：

上述智能查验平台还可以包括声纹识别模块，用于在将所述音频数据转换生成对应的文本数据之前执行：

获取白名单人员的声纹曲线；

上述第二查验模块，执行确定所述文本数据的各查验项关键词和各内容关键词的过程，可以包括：

确定所述文本数据中各词的词性；

依据预设的词性权重，确定所述文本数据的关键词；

上述结果分析模块，在执行生成调整查验结果之前，还可以执行：

获取人员查验所述目标工程时拍摄设备的空间位置信息；

上述智能查验平台还可以包括记录生成模块，用于在确定所述目标工程的目标查验结果之后，根据所述目标查验结果，生成所述目标工程的建设情况记录，所述建设情况记录中包括查验的所述目标工程的各查验项的查验项名称及对应的查验结果，以及对应的图像数据和音频数据。

本申请实施例提供的智能查验平台可应用于智能查验设备。图5示出了智能查验设备的硬件结构框图，参照图5，智能查验设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取人员查验目标工程时拍摄视频的图像数据和音频数据；

基于所述图像数据，得到对所述目标工程的第一查验结果；

将所述音频数据转换生成对应的文本数据；

基于所述文本数据，得到对所述目标工程的第二查验结果；

可选地，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取人员查验目标工程时拍摄视频的图像数据和音频数据；

基于所述图像数据，得到对所述目标工程的第一查验结果；

将所述音频数据转换生成对应的文本数据；

基于所述文本数据，得到对所述目标工程的第二查验结果；

可选地，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种智能查验方法，其特征在于，包括：

获取人员查验目标工程时拍摄视频的图像数据和音频数据；

基于所述图像数据，得到对所述目标工程的第一查验结果；

将所述音频数据转换生成对应的文本数据；

基于所述文本数据，得到对所述目标工程的第二查验结果；

结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果；

结合所述第一查验结果、所述第二查验结果和预置的检查项数据库，确定所述目标工程的目标查验结果，包括：

获取预置的检查项数据库，所述检查项数据库中记录有所述目标工程的各查验项的标准查验项名称，及与每一标准查验项名称对应的每一标准描述集，所述标准描述集中包含与对应查验项匹配的表征各类建设情况的各条标准描述；

针对所述调整查验结果中的每一条结果信息：

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像数据，得到对所述目标工程的第一查验结果，包括：

对所述图像数据进行预处理；

3.根据权利要求1所述的方法，其特征在于，所述基于所述文本数据，得到对所述目标工程的第二查验结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述检查项数据库中还记录有所述目标工程的各查验项的标准查验项名称和口语化名称的对应关系。

5.根据权利要求2所述的方法，其特征在于，将所述音频数据转换生成对应的文本数据，包括：

6.根据权利要求1所述的方法，其特征在于，在将所述音频数据转换生成对应的文本数据之前，还包括：

获取白名单人员的声纹曲线；

7.根据权利要求3所述的方法，其特征在于，确定所述文本数据的各查验项关键词和各内容关键词，包括：

确定所述文本数据中各词的词性；

依据预设的词性权重，确定所述文本数据的关键词；

8.根据权利要求4所述的方法，其特征在于，在所述生成调整查验结果之前，还包括：

获取人员查验所述目标工程时拍摄设备的空间位置信息；

9.根据权利要求1所述的方法，其特征在于，在确定所述目标工程的目标查验结果之后，还包括：

10.一种智能查验平台，其特征在于，包括：

结果分析模块，用于根据所述第一查验结果对所述第二查验结果进行第一调整，生成调整查验结果；获取预置的检查项数据库，所述检查项数据库中记录有所述目标工程的各查验项的标准查验项名称，及与每一标准查验项名称对应的每一标准描述集，所述标准描述集中包含与对应查验项匹配的表征各类建设情况的各条标准描述；针对所述调整查验结果中的每一条结果信息，在所述检查项数据库中查找与结果信息中的查验项名称相似度最高的预设数量的目标标准查验项名称及对应的目标标准描述集；将所述目标标准描述集中，与所述结果信息中的建设情况描述相似度最高的标准描述，以及，与所述相似度最高的标准描述对应的标准查验项名称作为对所述目标工程的一条目标查验结果。