CN117615223A - 通过分析采集的图像和其他建筑物信息自动化生成和使用具有伴随叙述的建筑物视频 - Google Patents

通过分析采集的图像和其他建筑物信息自动化生成和使用具有伴随叙述的建筑物视频 Download PDF

Info

Publication number
CN117615223A
CN117615223A CN202310180912.0A CN202310180912A CN117615223A CN 117615223 A CN117615223 A CN 117615223A CN 202310180912 A CN202310180912 A CN 202310180912A CN 117615223 A CN117615223 A CN 117615223A
Authority
CN
China
Prior art keywords
building
images
information
video
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310180912.0A
Other languages
English (en)
Inventor
埃里克·M·彭纳
伊瓦伊洛·博亚吉耶夫
江胜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mftb Co ltd
Original Assignee
Mftb Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mftb Co ltd filed Critical Mftb Co ltd
Publication of CN117615223A publication Critical patent/CN117615223A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

描述了一种用于使用计算装置来执行自动化操作用于对包括楼层平面图和采集的建筑物图像的建筑物信息的自动分析中自动生成关于建筑物的属性的信息并且随后以一种或多种进一步的自动化方式使用所生成的建筑物信息的技术。在一些情况下,这种建筑物信息的自动化生成包括自动确定建筑物中的对象和建筑物的其他属性,并且自动生成关于所确定的建筑物属性的描述。关于这种确定的属性和生成的描述的信息可以以各种自动方式使用,包括用于更新和/或验证现有建筑物描述中的信息,以用于确定与指示的建筑物描述或其他指示标准有相似之处的匹配建筑物,以用于控制装置导航(例如,自主车辆),以用于在客户端装置上在对应的图形用户界面中显示等等。

Description

通过分析采集的图像和其他建筑物信息自动化生成和使用具 有伴随叙述的建筑物视频
技术领域
以下公开总体上涉及用于基于对包括建筑物图像的所采集的建筑物信息的自动化分析来自动地生成具有自动地生成的叙述描述的建筑物视频,并且以其他方式自动地使用这种生成的建筑物视频的技术,诸如以改善对建筑物的识别和导航。
背景技术
在各种情况(诸如建筑分析、财产清查、不动产购置和开发、总承包、改造成本估算等)下,可能期望了解房屋或其他建筑物的内部而无需亲自前往并进入建筑物。然而,可能难以有效地捕获、表示和使用这种建筑物内部信息,包括识别满足感兴趣标准的建筑物,并且向位于远程位置处的用户显示在建筑物内部内捕获的视觉信息(例如,使得用户能够理解内部的布局和其他细节,包括以用户选择的方式控制显示)。此外,尽管建筑物的楼层平面图可以提供关于布局的一些信息和建筑物内部的其他细节,但是这样使用楼层平面图具有一些缺点,包括楼层平面图可能难以建造和维护、难以精确地缩放和填充关于房间内部的信息、难以可视化和以其他方式使用等。此外,尽管有时可能存在建筑物的文本描述,但它们通常是不准确和/或不完整的(例如,缺少关于各种建筑物属性的细节,包括不正确或误导信息等)。
附图说明
图1A包括描绘用于本公开的实施方式的示例性建筑物内部环境和(多个)计算系统的图,包括生成和使用代表建筑物的信息,诸如基于采集的建筑物图像和基于建筑物的确定的属性的视频。
图1B示出了建筑物描述信息的类型的示例。
图2A至图2P示出了从对建筑物图像和其他建筑物信息的自动分析中自动地生成具有关于建筑物的信息的视频以便随后以一种或多种自动方式使用的示例。
图3是示出了适用于执行系统的实施方式的计算系统的框图,该系统执行本公开中所描述的技术中的至少一些。
图4A至图4B示出了根据本公开的实施方式的用于建筑物视频生成和使用管理器(BVGUM)系统例程的流程图的示例性实施方式。
图5示出了根据本公开的实施方式的图像捕获和分析(ICA)系统例程的流程图的示例性实施方式。
图6A至图6B示出了根据本公开的实施方式的测绘信息生成管理器(MIGM)系统例程的流程图的示例性实施方式。
图7示出了根据本公开的实施方式的建筑物信息访问系统例程的流程图的示例性实施方式。
具体实施方式
本公开描述了用于使用计算装置来执行自动化操作的技术,该自动化操作涉及从对采集的建筑物图像和可选地其他建筑物信息(例如,楼层平面图)的分析中生成关于建筑物的信息,诸如自动地生成伴随自动地生成的叙述的视频,以描述所选择的建筑物对象和在视频的视觉数据中示出的其他属性,并且随后以一种或多种进一步自动化方式使用所生成的建筑物信息,诸如以改善对建筑物的识别和导航。自动化技术可以包括从对关于建筑物的信息(例如,建筑物的采集的图像、楼层平面图等)的自动化分析中自动地确定建筑物的对象(例如,结构元素)和其他属性,诸如通过使用一个或多个经训练的机器学习模型(例如,经训练的神经网络),并且自动地生成关于所确定的建筑物属性的文本描述,诸如通过使用一个或多个经训练的语言模型。在至少一些实施方式中,这种建筑物信息可以是针对完工的多房间建筑物(例如,房屋、办公大楼等)并且包括全景图像(例如,具有360°水平视频覆盖范围)和/或在建筑物内和周围的采集位置处采集的其他图像(例如,直线立体图像)(例如,不具有或不使用来自任何深度传感器或其他距离测量装置的关于从图像的采集位置到周围建筑物的墙壁或其他对象的距离的信息)。自动化技术还可以包括选择建筑物的一组或多组图像,并且针对每个这种图像组,生成视频,该视频包括与所选择的感兴趣建筑物属性对应的视觉覆盖范围,并且还包括基于关于建筑物属性的自动地生成的文本描述且可选地基于附加信息(例如,关于作为整体的建筑物、关于一组的多个图像之间的转变等)的可听叙述。在一些情况下,自动化技术还可以包括以各种方式使用所生成的视频,从而帮助确定匹配指定标准的建筑物、用于控制移动装置(例如,自主车辆)的导航、用于在(多个)客户端装置上的对应GUI(图形用户界面)中显示或其他呈现以实现对建筑物的虚拟导航等。下面包括有关从对建筑物信息的自动分析中自动地生成和使用视频信息的附加细节,并且在至少一些实施方式中,本文描述的一些或所有技术可以经由建筑物视频生成和使用管理器(“BVGUM”)系统的自动化操作来执行,如下面进一步讨论。
如上所述,BVGUM系统的自动化操作在至少一些实施方式中可以包括自动分析在建筑物内和周围采集的图像的视觉数据以及可选的相关联的图像采集元数据(例如,图像的取向信息,诸如使用来自罗盘传感器的航向信息、来自GPS传感器的位置信息等),以生成描述建筑物的一个或多个视频。在至少一些这种实施方式中,自动化操作包括选择一个或多个建筑物图像以用于生成建筑物的视频,包括如果选择了多个图像,则确定图像的序列。这种图像选择可以包括例如选择与特定房间或其他区域相对应、突出特定类型的建筑物属性、具有特定类型的特性等的图像。在给定一组一个或多个所选择的图像的情况下,得到的视频的视觉部分可以基于对这种图像的视觉数据的各种类型的操纵,其中非排他性示例包括变焦、平移(例如,在全景图像内)、倾斜等,包括突出或强调建筑物的有兴趣描述的特定属性,以及使用序列中的不同图像的视觉数据之间的各种类型的转变。伴随视频的叙述可以进一步自动地生成并与视频同步,包括提供所选择的建筑物属性的叙述性描述,如下面进一步讨论。在至少一些这种实施方式中,一个或多个机器学习模型(例如,一个或多个神经网络)可以由BVGUM系统用来执行这种图像选择和序列确定,并且可以经由监督学习进行训练(例如,使用用户生成的视频的标记版本,诸如由专业摄影师或摄像师生成的视频房屋游览),而在其他实施方式中,可以改为以无监督方式(例如,使用无监督聚类)来训练这种机器学习模型。关于在视频生成中使用的建筑物图像,在至少一些实施方式和情形中,为建筑物采集并在视频生成中使用的图像中的一些或全部可以是全景图像,全景图像各自在建筑物内或建筑物周围的多个采集位置之一处进行采集,从而生成来自在所述采集位置处的视频的一个或多个的每个这种采集位置的全景图像(例如,从在所述采集位置处转动的用户持有的智能手机或其他移动装置拍摄的360°视频),或在从采集位置在多个方向上采集的多个图像(例如,来自在所述采集位置处转动的用户持有的智能手机或其他移动装置),或同时采集所有图像信息(例如,使用一个或多个鱼眼镜头)等。将理解,在一些情形下,这样的全景图像可以用球面坐标系表示,并且围绕水平和/或竖直轴提供高达360°的覆盖范围,使得查看起始全景图像的用户可以在起始全景图像内将观察方向移动到不同取向,以致使在起始全景图像内呈现不同图像(或“视图”)(包括如果用球面坐标系表示全景图像,则将正在呈现的图像转换成平面坐标系)。此外,可以以各种方式获得并使用与捕获这种全景图像有关的采集元数据,诸如在移动装置被用户携带或以其他方式在采集位置之间移动时,从移动装置的IMU(惯性测量单元)传感器或其他传感器采集的数据。下面包括有关从建筑物图像中自动地生成建筑物视频的附加细节,包括关于图2D至图2P的示例的细节及其相关联的描述。
如上所述,在至少一些实施方式中,BVGUM系统的自动化操作可以包括至少部分地基于分析在建筑物中和周围采集的图像的视觉数据和可选地相关联的图像采集元数据来自动地确定建筑物的感兴趣属性,包括在至少一些情况下使用一个或多个经训练的机器学习模型(无论是用于选择要在视频生成中使用和/或用以执行视频生成的图像的相同机器学习模型还是不同机器学习模型)。在其他实施方式中,可以改为以其他方式确定关于建筑物属性中的一些或全部的信息,诸如部分地根据现有的文本建筑物描述。这种确定的属性可以反映建筑物的各个房间或其他区域的特性,诸如与在房间中识别的结构元素和其他对象和/或对象和房间的可见特性或其他属性对应。特别地,在至少一些实施方式和情形下,BVGUM系统对建筑物图像的自动化分析可以包括识别建筑物的房间或以其他方式与建筑物相关联的区域(例如,外部区域、附加的附属建筑物或其他结构等)中的结构元素或其他各种类型的对象,这种对象的非排他性示例包括地板、墙壁、天花板、窗户、门道、非门道的墙壁开口、楼梯组、灯具(例如,照明或管道)、电器、橱柜、岛、壁炉、台面、其他内置结构元素、家具等等。BVGUM系统对采集的建筑物图像的自动分析还可以包括确定一些或所有这种识别对象中的每个的特定属性,诸如,例如颜色、材料类型(例如,表面材料)、估计年龄等以及在一些实施方式中的附加类型的属性,诸如建筑物对象(例如,窗户、门道等)面向的方向、特定位置处的自然光照(例如,基于建筑物的地理位置和取向以及特定时间的太阳位置,诸如某天某时、某月某日、某年某月、某年某季等,并且可选择地对应于特定对象)、来自特定窗户或其他位置的视图等等。从房间中采集的一个或多个图像(或以其他方式从可以看到至少部分房间的位置处采集的一个或多个图像)为特定房间确定的属性可以包括例如以下一个或多个非排他性示例:房间类型、房间尺寸、房间形状(例如,二维或“2D”,诸如墙壁的相对位置;三维或“3D”,诸如3D点云和/或墙壁、地板和天花板的平面表面;等等)、房间的使用类型(例如,公共与私人空间)和/或功能(例如,娱乐)、房间内的窗户和门道以及其他房间间(inter-room)开口的位置、房间间连接的类型、房间间连接的尺寸等等。在至少一些这种实施方式中,针对图像进行这种自动分析,BVGUM系统可以使用一个或多个机器学习模型(例如,分类神经网络模型),机器学习模型经由监督学习(例如,使用识别具有每个可能对象和属性的图像的标记数据)进行训练,而在其他实施方式中,这种机器学习模型可以改为以无监督的方式(例如,使用无监督的聚类)来训练。下文包括关于自动分析采集的图像和/或与建筑物相关联的其他环境数据以确定建筑物及其房间的属性的附加细节,包括关于图2D至图2P的示例及其相关联的描述。
如上所述,在至少一些实施方式中,BVGUM系统的自动化操作还可以包括自动地分析除了采集的建筑物图像以外的建筑物的类型的信息以确定建筑物的附加属性,包括在至少一些情形下使用一个或多个经训练的机器学习模型(例如,一个或多个经训练的神经网络,并且是否与用于分析图像和/或选择用于视频的图像和/或从所选择的图像中生成视频的机器学习模型相同或不同)以确定反映建筑物(例如,建筑物的两个或更多个房间)的一些或全部的特性的属性,诸如与建筑物的一些或全部房间的布局中的一些或全部(例如,至少部分地基于房间之间的相互连接和/或其他房间间的邻接关系)对应。这种其他类型的建筑物信息可以包括例如以下项中的一个或多个:楼层平面图;一组相互链接的图像,诸如以用于在虚拟游览中使用;建筑物的现有文本描述(例如,建筑物的上市信息,诸如被包括在多重上市服务或MLS上);等等。这种建筑物的平面图可以包括关于建筑物的各种信息(例如,房间、房间之间的门道和其他房间间的连接、外部门道、窗户等)的2D(二维)表示,并且可以进一步与关于建筑物的各种类型的补充信息或其他附加信息(例如,多个其他建筑物相关属性的数据)相关联,这种附加建筑物信息可以例如包括以下一个或多个:建筑物的3D或三维模型,其包括高度信息(例如,针对建筑物墙壁和房间间的开口和其他竖直区域);建筑物的2.5D或二维半模型,其在渲染时包括墙壁和/或其他竖直表面的视觉表示,而没有明确地对这些墙壁和/或其他竖直表面的测量高度进行建模;在建筑物的房间中捕获的图像和/或其他类型的数据,包括全景图像(例如,360°全景图像);等等,如下文更详细地讨论的。在一些实施方式和情况下,楼层平面图和/或其相关联信息可以进一步表示建筑物外部的至少一些信息(例如,对于其上定位建筑物地产的一些或全部),诸如与门道或建筑物与外部之间的其他墙壁开口相邻的外部区域,或更一般地包括一个或多个建筑物或其他结构的地产的一些或全部外部区域(例如,房屋和一个或多个附属建筑物或其他附属结构,诸如车库、棚子、游泳池、独立的客房、岳母(mother-in-law)单元或其他附属住宅单元、游泳池、天井、平台、人行道等等)。
在至少一些实施方式和情况下,BVGUM系统对建筑物楼层平面图和/或其他建筑物信息的自动分析可以包括确定基于关于建筑物整体的信息的建筑物属性,诸如可以独立验证和/或复制的客观属性(例如,卧室数量、浴室数量、平方英寸、房间之间的连接性等等)和/或具有相关联的不确定性的主观属性(例如,建筑物是否有开放的楼层平面图;典型/正常布局相对非典型/奇怪/不正常的布局;标准与非标准的楼层平面图;对无障碍设施友好的、诸如关于诸如轮椅或其他残疾和/或高龄的一个或多个特征无障碍的楼层平面图;等等)。在至少一些实施方式和情况下,BVGUM系统对建筑物楼层平面图的自动分析还可以包括确定建筑物属性,建筑物属性至少部分地基于关于房间间邻接关系的信息(例如,两个或多个房间或其他区域之间的房间间连接),诸如至少部分地基于建筑物的一些或所有房间的布局(例如,同一楼层的所有房间或房间分组的另外情况下的部分),包括一些或所有这种主观属性以及其他类型的属性,诸如人们通过房间的移动流动型态。至少一些这样确定的建筑物属性可以进一步基于关于建筑的位置和/或取向的信息(例如,关于从建筑的窗户或其他外部开口可获得的视图、关于建筑物的窗户或其他结构元素或其他对象的方向、关于在特定的日子和/或季节和/或时间可获得的自然光照信息,等等)。在至少一些这种实施方式中,BVGUM系统可以针对这种建筑物楼层平面图的自动分析,使用一个或多个机器学习模型(例如,分类神经网络模型),该机器学习模型经由监督学习(例如,使用识别具有每个可能特征或其他属性的房间或其他区域的楼层平面图或其他组的标记数据)来训练,而在其他实施方式中,这种机器学习模型可以改为以无监督的方式(例如,使用无监督的聚类)来训练。下文包括关于自动分析与建筑物的楼层平面图以确定建筑物的属性的附加细节,包括关于图2D至图2P的示例及其相关联的描述。
如上所述,BVGUM系统的自动化操作还可以在至少一些实施方式中包括基于自动确定的特征和其他属性来自动生成关于建筑物的描述,在至少一些实施方式和情况下包括使用一个或多个经训练的语言模型来为一些或所有这样确定的属性中的每个生成描述。在各种实施方式中,可以以各种方式进一步组合针对单个属性的生成的描述,诸如通过以各种方式对属性及其相关联描述进行分组(例如,按房间或其他区域;按属性的类型,诸如按对象类型和/或颜色和/或表面材料;按具体程度或一般程度,从而对整个建筑物的属性进行分组并包括其生成的描述,随后对按房间分组的属性进行生成的描述,随后对与单个结构元素和其他对象对应的属性进行生成描述;等等)。在诸如基于分析建筑物的信息(例如,建筑物的图像、楼层平面图以及可选地其他相关联信息),生成或以其他方式获得建筑物的属性和/或建筑物描述之后,该生成的建筑物信息可以由BVGUM系统以各种方式使用,包括在一些实施方式中作为生成伴随所生成的视频的视觉数据并描述视觉数据中示出的信息的叙述的部分。这种生成视频叙述可以包括例如使用一个或多个经训练的语言模型,该经训练的语言模型模型接收诸如对象和/或其他属性、相关联的位置信息(例如,一个或多个房间、一个或多个楼层或其他房间组等)、时间和/或顺序信息(例如,将在视频中突出显示或以其他方式显示的一系列对象和/或其他属性)等的输入,并生成对应的文本描述。下文包括关于自动生成确定的建筑物属性的描述并且将这种生成的描述用作视频叙述的部分的附加细节,包括关于图2D至图2P的示例及其相关联描述。
在基于对建筑物的图像和可选地其他相关联信息的分析自动地为建筑物生成视频之后,在一些实施方式中,该生成的建筑物信息也可以由BVGUM系统用于在各种实施方式中以各种方式自动确定该建筑物与一个或多个指示标准(例如,搜索标准)相匹配,包括基于其对应的视频或其他建筑物信息来识别建筑物与一个或多个其他建筑物相似或以其他方式相匹配。这种标准可以包括任何一个或多个属性或它们的特定组合,和/或更普遍地可以与建筑物视频叙述的内容相匹配,其示例包括基于特定对象和/或其他的属性,基于关于哪些房间是相互连接的相邻信息和相关的房间间关系信息(例如,关于整体建筑物布局),基于特定房间或其他区域和/或这些房间或其他区域的属性等等。标准的非排他性和非限制性说明性示例可以包括:具有瓷砖覆盖的岛和深色木地板以及朝北的景观的厨房;具有与卧室相邻的浴室(即,没有中间的大厅或其他房间)的建筑物;与家庭房间相邻的平台(可选地具有它们之间的特定类型的连接,诸如法式对开门);2个朝南的卧室;位于二楼的主卧室,可以看到大海或更普遍的水景;这种特定标准的任何组合;等等。下文包括关于使用建筑物的生成信息来帮助进一步识别建筑物匹配指示标准或以其他方式有用的附加细节,包括关于图2D至图2P的示例及其相关联描述。
所描述的技术在各种实施方式中提供了各种益处,包括允许以先前不可用的方式更有效和快速地识别和使用关于多房间建筑物和其他结构的信息,包括至少部分地基于对各种类型的建筑物信息(例如,图像、楼层平面图等)的自动分析来自动识别与指示标准相匹配的建筑物,这种标准可以例如基于以下各项中的一项或多项:建筑物内的特定对象的属性(例如,在特定的房间或其他区域中,或更普遍的这些房间或其他区域的属性),诸如通过分析在建筑物处采集的一个或多个图像来确定;与一个或多个其他建筑物的相似性;关于哪些房间是相互连接的邻接信息和相关的房间间关系信息,诸如关于整体建筑物布局;与特定建筑物或其他区域特征或其他属性的相似性;与关于楼层平面图的特征的主观属性的相似性,等等。此外,这种自动化技术允许通过使用从实际建筑物环境(而不是从关于理论上应该如何建造建筑物的楼层平面图)采集的信息来确定匹配的建筑物的这种识别,以及使得能够捕获在建筑物最初建造后发生的结构元素和/或视觉外观元素的变化。这种所描述的技术进一步提供了至少部分地基于与特定标准相匹配的建筑物的识别来允许改进由移动装置(例如,半自主或全自主车辆)对建筑物的自动导航方面的益处,包括显著减少用于尝试以其他方式获悉建筑物的布局的计算能力和时间。此外,在一些实施方式中,描述的技术可以用于提供改进的图形用户界面(GUI),其中用户可以更准确和快速地识别与指示标准相匹配的一个或多个建筑物,并且获得关于指示的建筑物的信息(例如,用于在一个或多个建筑物的内部导航),包括响应于搜索请求,作为向用户提供个性化信息的部分,作为向用户提供关于建筑物的价值估计和/或其他信息的部分(例如,在分析了关于与一个或多个初始楼层平面图相似或以其他方式匹配特定标准的一个或多个目标建筑物楼层平面图的信息之后),等等。所描述的技术还提供了各种其他益处,其中一些在本文别处进一步描述。
此外,在一些实施方式中,识别一个或多个目标建筑物,这些目标建筑物与和特定最终用户相关联的指示标准相似(例如,基于由最终用户选择的一个或多个初始建筑物和/或被识别为最终用户先前感兴趣的建筑物,无论是基于最终用户的明确和/或隐含的活动来指定这种建筑物;还是基于由最终用户指定的一个或多个搜索标准,无论是明确和/或隐含的;等等),并且在进一步的自动化活动中用于与最终用户进行个性化交互。这种进一步的自动个性化交互在不同的实施方式中可以是各种类型的,并且在一些实施方式中可以包括向最终用户显示或以其他方式呈现关于(多个)目标建筑物的信息和/或与这些建筑物相关联的附加信息。此外,在至少一些实施方式中,生成或以其他方式呈现给最终用户的视频可以以各种方式对该最终用户个性化,诸如基于视频长度、所示房间的类型、所示属性的类型等,包括在一些实施方式中基于特定于最终用户接收方的信息动态地为该最终用户接收方生成新的建筑物视频、基于特定于最终用户接收方的信息来选择建筑物的多个可用视频中的一个以呈现给该最终用户接收方、基于特定于最终用户接收方的信息来为该最终用户接收方定制现有的建筑物视频(例如,以去除现有视频的部分)等等。下面包括有关相对于指示的建筑物的最终用户个性化和/或呈现的附加细节,包括关于图2D至图2P的示例及其相关联的描述。
如上所述,BVGUM系统的自动化操作可以包括使用采集的建筑物图像和/或其他建筑物信息,诸如楼层平面图。在至少一些实施方式中,这种BVGUM系统可以与一个或多个单独的ICA(图像捕获和分析)系统和/或一个或多个单独的MIGM(测绘信息和生成管理器)系统结合操作,从而获得和使用来自ICA和/或MIGM系统的建筑物的图像和楼层平面图和其他关联信息,而在其他实施方式中,这种BVGUM系统可以将这种ICA和/或MIGM系统的一些或全部功能并入作为BVGUM系统的部分。在又一其他实施方式中,BVGUM系统可以在不使用ICA和/或MIGM系统的一些或全部功能的情况下操作,诸如如果BVGUM系统从其他来源(例如,从由一个或多个用户进行的手动创建或这种建筑物图像、楼层平面图和/或相关联信息的提供)获得建筑物图像、楼层平面图和/或其他相关联信息。
关于这种ICA系统的功能,它可以在至少一些实施方式中执行自动化操作,以在与建筑物相关联的各种采集位置处(例如,在建筑物的多个房间的内部)采集图像(例如,全景图像),并且可选地进一步采集与图像采集过程相关的元数据(例如,图像姿态信息,诸如使用罗盘航向和/或基于GPS的位置)和/或捕获装置在采集位置之间的移动。在至少一些实施方式中,这种采集和随后采集的信息的使用可以在没有或不使用来自深度传感器或其他距离测量装置的关于从图像的采集位置到周围建筑或其他结构中的墙壁或其他对象的距离的信息的情况下发生。例如,在至少一些这种实施方式中,这种技术可以包括:使用一个或多个移动装置(例如,具有一个或多个鱼眼镜头并安装在可旋转三脚架上或以其他方式具有自动化旋转机构的相机;具有足以在不旋转的情况下水平地捕获360°的一个或多个鱼眼镜头的相机;由用户握持和移动的智能手机,从而以围绕竖直轴的360°圆旋转用户的身体并握持智能手机;由用户握持或安装在用户身上或用户衣服上的相机;安装在以空中和/或地面为基础的无人机或其他机器人装置上的相机;等)以从房屋(或其他建筑物)的多个房间中的一系列多个采集位置捕获视觉数据。本文的其他地方包括关于实施ICA系统的装置的操作的附加细节,从而执行这种自动化操作、以及在一些情况下以一种或多种方式进一步与一个或多个ICA系统操作员用户交互以提供进一步的功能。
关于这种MIGM系统的功能,在至少一些实施方式中,它可以执行自动化操作,以分析已针对建筑物内部(和可选地建筑物外部)采集的多个360°全景图像(和可选地其他图像)并生成建筑物的对应的楼层平面图,诸如通过针对那些全景图像中的一些或全部确定房间形状和连接房间的通道的位置,以及在至少一些实施方式和情形中通过确定建筑物的一些或全部房间中的结构墙壁元素和可选的其他对象。与两个或更多个房间之间的连接通道对应的结构墙壁元素的类型可以包括以下各项中的一个或多个:门道开口和其他房间间非门道墙壁开口、窗户、楼梯、非房间走廊等,并且对图像的自动化分析可以至少部分基于识别通道的轮廓、识别通道内的与它们外部不同的内容(例如,不同的颜色或阴影)等来识别这种元素。自动化操作还可以包括:使用所确定的信息来生成建筑物的楼层平面图和可选地生成建筑物的其他测绘信息(诸如,通过使用房间间通道信息和其他信息来确定关联的房间形状彼此的相对位置),以及可选地将距离缩放信息和/或各种其他类型的信息添加到所生成的楼层平面图。另外,在至少一些实施方式中,MIGM系统可以执行进一步的自动化操作,以确定附加信息并将附加信息与建筑物楼层平面图和/或楼层平面图内的特定房间或位置相关联,从而分析在建筑物内部捕获的图像和/或其他环境信息(例如,音频)以确定特定对象和属性(例如,特定结构元素或其他对象(地板、墙壁、天花板、台面、家具、灯具、电器、橱柜、岛、壁炉等)的颜色和/或材料类型和/或其他特征;特定对象或其他元素的存在和/或不存在;等等),或以其他方式确定相关属性(例如,诸如为窗户的建筑物对象面向的方向;来自特定窗户或其他位置的视图;等等)。下面包括关于实施MIGM系统的(多个)计算装置的操作的附加细节,从而执行这种自动化操作、以及在一些情况下以一种或多种方式进一步与MIGM系统操作员用户交互以提供进一步的功能。
出于说明性目的,下面描述一些实施方式,其中针对特定类型的结构以特定方式并通过使用特定类型的装置来采集、使用和/或呈现特定类型的信息。然而,将理解,所描述的技术可以在其他实施方式中以其他方式使用,并且因此本发明不限于所提供的示例性细节。作为一个非排他性示例,尽管在一些实施方式中以特定方式生成并使用特定类型的数据结构(例如,视频、楼层平面图、相互链接的图像的虚拟游览、生成的建筑物描述等),但将了解,可以在其他实施方式中类似地生成并使用用于描述建筑物的其他类型的信息,包括针对与房屋分离的建筑物(或其他结构或布局),并且可以在其他实施方式中以其他方式使用被识别为与指示标准相匹配的建筑物。另外,术语“建筑物”在本文中是指任何部分地或完全地封闭的结构,通常但不一定涵盖在视觉上或以其他方式划分结构的内部空间的一个或多个房间。这种建筑物的非限制性示例包括房屋、公寓大楼或其中的个人公寓、共管公寓、办公楼、商业建筑物或其他批发和零售结构(例如,购物中心、百货公司、仓库等)、带有另一个主建筑物的地产上的补充结构(例如,带房屋的地产上的独立车库或棚屋)。如本文参考建筑物内部、采集位置或其他位置(除非上下文另有明确指示)使用的术语“采集”或“捕获”可以是指对与建筑物内部的空间特性和/或视觉特性和/或以其他方式可感知的特性或其子集有关的媒体、传感器数据和/或其他信息的任何记录、存储或录入,诸如通过记录装置或通过从记录装置接收信息的另一个装置。如本文所使用,术语“全景图像”可以是指基于、包括或可分成源于不同方向上的基本上类似物理位置的多个离散分量图像并且描绘比离散分量图像中的任一个单独描绘的更大视野的视觉表示,包括来自物理位置的具有足够宽的视角以包括超出人凝视单个方向可感知到的角度的图像。如本文所使用,术语“一系列”采集位置通常是指两个或更多个采集位置,每个采集位置按对应的顺序被访问至少一次,而无论在它们之间是否访问过其他非采集位置,以及无论对所述采集位置的访问是在单个连续时间段期间还是在多个不同时间发生、或是由单个用户和/或装置还是由多个不同用户和/或装置进行。另外,出于示例性目的,在附图和文本中提供了各种细节,但这些细节并不旨在限制本发明的范围。例如,附图中元件的尺寸和相对位置未必按比例绘制,一些细节被省略和/或更突出地提供(例如,经由尺寸和定位)以增强易读性和/或清晰度,并且在附图中可以使用相同的附图标记来识别相同或类似的元件或动作。
图1A包括在一些实施方式中可以参与所描述的技术的各种计算装置和系统的示例框图,诸如在此示例性实施方式中,关于示出的示例性建筑物198(在此示例中为房屋)和在一个或多个服务器计算系统180上执行的示例建筑物视频生成和使用管理器(“BVGUM”)系统140。在示出的实施方式中,BVGUM系统140分析所获得的建筑物信息142(例如,图像,诸如由ICA系统采集的图像165;楼层平面图,诸如由MIGM系统生成的楼层平面图155;等等),并且使用该建筑物信息和从其分析中生成的信息来生成具有伴随叙述的建筑物视频141,可选地使用由系统操作者用户经由计算装置105通过(多个)中间计算机网络170来供应的支持信息,并且在一些实施方式和情形中,通过使用一个或多个经训练的机器学习和/或语言模型144作为建筑物信息142的分析和/或视频141的生成的部分。在其他实施方式中,由BVGUM系统分析的建筑物信息142可以以除了经由ICA和/或MIGM系统以外的方式获得(例如,如果这种ICA和/或MIGM系统不是BVGUM系统的部分),诸如从其他来源接收建筑物图像和/或楼层平面图。BVGUM系统还可以以一种或多种进一步的自动化方式使用这种生成的建筑物信息,包括在一些实施方式中作为识别彼此匹配的建筑物或其他指示的标准的部分。在一些实施方式和情形中,这种标准可以由特定用户供应或以其他方式与特定用户相关联(例如,由用户指定的对象或其他属性、由这些用户指示的楼层平面图或其他建筑物信息、先前被识别为用户感兴趣的其他建筑物视频等),并且关于各种用户的对应信息143可以进一步可选地被存储并用于识别满足这种标准的建筑物并且随后以一种或多种进一步的自动化方式使用所识别的建筑物的信息(例如,使用建筑物的生成的视频)。另外,在至少一些实施方式和情形中,客户端计算装置105的一个或多个用户可以通过(多个)网络170与BVGUM系统140进一步交互,从而协助BVGUM系统的自动化操作中的一些,用于识别满足标准的建筑物和/或随后以一个或多个进一步的自动化方式使用所识别的楼层平面图。在本文的其他地方包括与BVGUM系统的自动化操作有关的附加细节,包括关于图2D至图2P和图4A至图4B的附加细节。
另外,在此示例中,内部捕获和分析(“ICA”)系统(例如,在一个或多个服务器计算系统180上执行的ICA系统160,诸如BVGUM系统的部分;在图像采集移动装置185上执行的ICA系统应用程序154;等等)捕获关于一个或多个建筑物或其他结构的信息165(例如,通过在示例房屋198中的多个采集位置210捕获一个或多个360°全景图像和/或其他图像),并且在一个或多个服务器计算系统180上执行的MIGM(测绘信息生成管理器)系统160(例如,作为BVGUM系统的部分)进一步使用所捕获的建筑物信息和可选地附加的支持信息(例如,由系统操作者用户经由计算装置105通过(多个)中间计算机网络170来供应)以生成并提供(多个)建筑物或其他结构的建筑物楼层平面图155和/或其他测绘相关信息(未示出)。尽管在此示例性实施方式中,ICA和MIGM系统160被示出为在与BVGUM系统相同的服务器计算系统180上执行(例如,其中所有系统都由单个实体操作或以其他方式彼此协调地执行,诸如其中所有系统的一些或全部功能集成在一起),但在其他实施方式中,ICA系统160和/或MIGM系统160和/或BVGUM系统140可以在与(多个)系统180分开的一个或多个其他系统上(例如,在移动装置185上;在一个或多个其他计算系统(未示出)上;等)操作,无论是代替还是补充在(多个)系统180上执行的那些系统的副本(例如,具有在装置185上执行的MIGM系统160的副本以在由在装置185上执行的ICA系统160和/或由MIGM系统的那个副本采集建筑物图像时递增地生成至少部分建筑物楼层平面图,而MIGM系统的另一个副本可选地在一个或多个服务器计算系统上执行以在采集所有图像之后生成最终的完整的建筑物楼层平面图),并且在另外的其他实施方式中,BVGUM可以改为在没有ICA系统和/或MIGM系统的情况下操作并且改为从一个或多个外部源获得全景图像(或其他图像)和/或建筑物楼层平面图。在本文的其他地方包括与ICA和MIGM系统的自动化操作相关的附加细节,包括分别关于图2A至图2D以及关于图5和图6A至图6B的附加细节。
图1A中还示出了移动图像采集计算装置185的各种部件,包括使用存储和/或加载在装置185的一个或多个存储器/存储部件152上的可执行指令来执行软件(例如,ICA应用程序154、可选的浏览器162等)的一个或多个硬件处理器132(例如,CPU、GPU等),以及可选地用于采集一个或多个全景图像165和/或其他图像(未示出,诸如直线立体图像)的视觉数据的一种或多种类型的一个或多个成像系统135。在一些实施方式中,一些或全部的这种图像165可以由一个或多个分开的相关联相机装置184供应(例如,经由有线/电缆连接、经由蓝牙或其他装置间无线通信等),无论是补充还是代替由移动装置185捕获的图像。移动装置185的所示出的实施方式还包括:一个或多个传感器模块148,在此示例中,该一个或多个传感器模块148包括陀螺仪148a、加速度计148b和指南针148c(例如,作为移动装置上的一个或多个IMU单元(未单独地示出)的部分);一个或多个控制系统147,该一个或多个控制系统147管理装置185的I/O(输入/输出)和/或通信和/或联网(例如,以从用户接收指令和将信息呈现给用户)诸如用于其他装置I/O和通信部件143(例如,网络接口或其他连接、键盘、鼠标或其他指示装置、麦克风、扬声器、GPS接收器等)、显示系统149(例如,具有触摸屏)、可选地一种或多种类型的一个或多个深度感测传感器或其他距离测量部件136、可选地GPS(或全球定位系统)传感器134或其他位置确定传感器(在此示例中未示出)、可选地其他部件(例如,一个或多个照明部件)等等。其他计算装置/系统105、175和180和/或相机装置184可以以与移动装置185类似的方式包括各种硬件部件和存储的信息,为了简洁起见,在此示例中未示出,并且在下文关于图3更详细地讨论。
一个或多个客户端计算装置175的一个或多个用户(例如,最终用户,未示出)可以通过一个或多个计算机网络170与BVGUM系统140(以及可选地ICA系统160和/或MIGM系统160)进一步交互,从而参与识别满足目标标准的建筑物和/或建筑物视频,以及随后以一种或多种进一步的自动化方式使用关于所识别的建筑物的信息(例如,所生成的建筑物视频)。这种客户端计算装置可以各自执行由用户在交互中使用的建筑物信息访问系统(未示出),如在本文其他地方(包括关于图7)更详细地讨论的。(多个)用户的这种交互可以包括,例如指定用于搜索对应建筑物或建筑物视频的标准,或以其他方式提供关于用户感兴趣的标准的建筑物信息,或获得和可选地请求一个或多个指示的建筑物的信息(例如,以播放或以其他方式呈现一个或多个建筑物的多个视频序列,诸如在播放列表中和/或通过使用自动播放功能),并且与对应提供的建筑物信息进行交互(例如,以在楼层平面图视图与楼层平面图内或附近的采集位置处的特定图像的视图之间进行改变;改变显示全景图像的对应视图的水平和/或竖直观察方向,从而确定当前用户观察方向所指向的全景图像的部分;查看生成的文本建筑物信息或其他生成的建筑物信息;等等)。此外,楼层平面图(或其部分)可以链接到一个或多个其他类型的信息或以其他方式与一个或多个其他类型的信息相关联,包括多层楼或其他多层建筑物的楼层平面图具有相互连接(例如,经由连接的楼梯通道)的不同楼或楼层的多个相关联子楼层平面图、建筑物的二维(“2D”)楼层平面图链接到建筑物的三维(“3D”)渲染或以其他方式与建筑物的三维(“3D”)渲染相关联等。另外,虽然在图1A中未示出,但是在一些实施方式中,客户端计算装置175(或其他装置,未示出)可以以附加方式接收并使用关于建筑物的信息(例如,所识别的楼层平面图和/或其他测绘相关信息,从而控制或辅助这些装置(例如,自主车辆或其他装置)的自动化导航活动,而无论是代替还是补充所识别的信息的显示。
在图1A的所描绘的计算环境中,网络170可以是可能由各种不同的方操作的一个或多个公共可访问的链接网络,诸如互联网。在其他实施方式中,网络170可以具有其他形式。例如,网络170反而可以是专用网络,诸如非特权用户完全或部分无法访问的公司或大学网络。在其他实施方式中,网络170可以包括专用网络和公共网络两者,其中专用网络中的一个或多个可访问公共网络中的一个或多个和/或从公共网络中的一个或多个访问专用网络中的一个或多个。此外,在各种情形中,网络170可以包括各种类型的有线和/或无线网络。另外,客户端计算装置175和服务器计算系统180可以包括各种硬件部件和存储的信息,如下面关于图3更详细地讨论的。
在图1A的示例中,ICA系统可以执行在多个关联的采集位置处(例如,在建筑物或其他结构内的多个房间或其他位置中以及可选地在建筑物或其他结构的外部的一些或全部的周围)生成多个360°全景图像中所涉及的自动化操作,诸如使用经由移动装置185和/或相关联的相机装置184采集的视觉数据,并且用于生成并提供建筑物或其他结构的内部的表示。例如,在至少一些这种实施方式中,这种技术可以包括使用一个或多个移动装置(例如,具有一个或多个鱼眼镜头并安装在可旋转三脚架上或以其他方式具有自动化旋转机构的相机、具有足以在不旋转的情况下水平地捕获360°的鱼眼镜头的相机、由用户握持和移动的智能电话;由用户握持或安装在用户身上或用户衣服上的相机等)以从房屋(或其他建筑物)的多个房间内的一系列多个采集位置捕获数据,并且可选地进一步捕获在采集装置的移动中所涉及的数据(例如,在采集位置处的移动,诸如旋转;在采集位置的一些或全部之间的移动,诸如用于将多个采集位置链接在一起;等),在至少一些情况下,不测量采集位置之间的距离或不具有到采集位置周围的环境中的对象的其他测量的深度信息(例如,不使用任何深度感测传感器)。在捕获了采集位置的信息之后,技术可以包括从该采集位置以围绕竖直轴的360°水平信息产生360°全景图像(例如,以等量矩形格式示出周围房间的360°全景图像),并且然后提供全景图像以供MIGM和/或BVGUM系统后续使用。
另外,尽管图1A中未示出,楼层平面图(或其部分)可以链接到一种或多种附加类型的信息或以其他方式与一种或多种附加类型的信息相关联,诸如一个或多个相关联和链接的图像或其他相关联和链接的信息,包括建筑物的二维(“2D”)楼层平面图链接到建筑物的单独2.5D模型楼层平面图渲染和/或建筑物的3D模型楼层平面图渲染等或以其他方式与建筑物的单独2.5D模型楼层平面图渲染和/或建筑物的3D模型楼层平面图渲染相关联,并且包括多层楼或其他多层建筑物的楼层平面图以具有相互链接(例如,经由连接的楼梯通道)或作为共同2.5D和/或3D模型的部分的不同楼或楼层的多个相关联子楼层平面图。因此,最终用户与建筑物的所显示或以其他方式生成的2D楼层平面图的交互的非排他性示例可以包括以下各项中的一个或多个:在楼层平面图视图与楼层平面图内或附近的采集位置处的特定图像的视图之间改变;在2D楼层平面图视图与可选地包括纹理映射到所显示的模型的墙壁的图像的2.5D或3D模型视图之间改变;改变从其显示全景图像(或正门进入)的对应子集视图的水平和/或竖直查看方向,从而确定当前用户查看方向指向的3D坐标系中的全景图像的部分,并且渲染说明全景图像的那个部分的对应平面图像,其中原始全景图像中不存在弯曲或其他变形;等。另外,虽然在图1A中未说明,但是在一些实施方式中,客户端计算装置175(或其他装置,未示出)可以以附加方式接收并使用所生成的楼层平面图和/或其他所生成的测绘相关信息,从而控制或辅助这些装置(例如,自主车辆或其他装置)的自动化导航活动,而无论是代替还是补充所生成的信息的显示。
图1A进一步描绘了示例性建筑物内部环境,其中采集360°全景图像和/或其他图像,诸如由ICA系统采集并且由MIGM系统(例如,在BVGUM系统的控制下)用来生成并提供一个或多个对应的建筑物楼层平面图(例如,多个增量局部建筑物楼层平面图)和/或通过BVGUM系统以进一步使用这种建筑物信息作为自动建筑物信息生成操作的部分。特别地,图1A示出了多层房屋(或其他建筑物)198的一层,其中至少部分地经由多个全景图像来捕获内部,诸如由具有图像采集能力的图像采集移动装置185和/或一个或多个相关联的相机装置184在穿过建筑物内部移动到一系列多个采集位置210时捕获(例如,以采集位置210A开始、沿着行进路径115移动到采集位置210B等,并且以在建筑物外部的采集位置210-O或210P结束)。ICA系统的实施方式可以自动执行或协助捕获代表建筑物内部的数据(以及进一步分析捕获的数据以生成360°全景图像,以提供建筑物内部的视觉表示),并且MIGM系统的实施方式可以分析所采集的图像的视觉数据,以生成房屋198的一个或多个建筑物楼层平面图(例如,多个增量建筑物楼层平面图)。尽管这种图像采集移动装置可以包括各种硬件部件,诸如相机、一个或多个传感器(例如,陀螺仪、加速度计、指南针等,诸如移动装置的一个或多个IMU或惯性测量单元的部分;测高仪;光检测器;等)、GPS接收器、一个或多个硬件处理器、存储器、显示器、传声器等,但在至少一些实施方式中,移动装置可能无法访问或使用设备来测量建筑物中的对象相对于移动装置的位置的深度,使得在这种实施方式中,可以部分地或完全地基于不同图像中的元素但不使用来自这种深度传感器的任何数据来确定不同全景图像与其采集位置之间的关系,而在其他实施方式中,可以使用这种深度数据。此外,尽管在图1A中提供了方向指示符109以供读者相对于示例性房屋198进行参考,但在至少一些实施方式中,移动装置和/或ICA系统可以不使用这种绝对方向信息和/或绝对位置,从而在这种实施方式中代替确定采集位置210之间的相对方向和距离而不考虑实际地理位置或方向,而在其他实施方式中,可以获得并使用这种绝对方向信息和/或绝对位置。
在操作中,移动装置185和/或相机装置184到达建筑物内部的第一房间内的第一采集位置210A(在此示例中,在可经由外门190-1进入的客厅),并且捕获或采集从该采集位置210A可见的建筑物内部的部分的视图(例如,第一房间中的一些或全部,以及可选地一个或多个其他相邻或附近房间的小部分,诸如穿过来自第一房间的门道墙壁开口、非门道墙壁开口、走廊、楼梯或其他连接通道)。视图捕获可以以如本文所讨论的各种方式执行,并且可以包括在从采集位置捕获的图像中可见的许多结构元素或其他对象。在图1A的示例中,建筑物198内的这种对象包括墙壁、地板、天花板、门道190(包括190-1至190-6,诸如带有旋转门和/或滑动门)、窗户196(包括196-1至196-8)、墙壁与其他墙壁/天花板/地板之间的边界诸如用于墙壁间拐角或边缘195(包括在建筑物198的西北角的拐角195-1、在第一房间的东北角的拐角195-2、在第一房间的西南角的拐角195-3、在第一房间的东南角的拐角195-4、在第一房间与走廊之间的房间间通道的北边缘处的拐角195-5等)、家具191至193(例如,沙发191;椅子192;桌子193;等)、悬挂在墙壁上的图片或绘画或电视或其他悬挂的对象194(诸如194-1和194-2)、照明灯具(图1A中未示出)、各种内置家电或其他灯具或其他结构元素(图1A中未示出)等。用户还可以可选地提供与采集位置和/或周围房间相关联的文本或听觉标识符,诸如用于采集位置210A或210B中的一者或用于包括采集位置210A和/或210B的房间的“客厅”,和/或具有关于房间和/或房间中的一个或多个对象的一个或多个短语或语句的描述性注释,而在其他实施方式中,ICA和/或MIGM系统可以自动地生成这种标识符和/或注释(例如,通过自动地分析建筑物的图像和/或视频和/或其他记录信息来执行对应的自动化确定,诸如通过使用机器学习来执行;至少部分地基于来自ICA和/或MIGM系统操作者用户的输入;等),或可以不使用标识符。
在已经捕获第一采集位置210A之后,移动装置185和/或相机装置184可以被移动或在其自己的力量下移动到下一采集位置(诸如采集位置210B),从而可选地在采集位置之间移动期间记录图像和/或视频和/或来自硬件部件(例如,来自一个或多个IMU、来自相机等)的其他数据。在下一采集位置,移动装置185和/或相机装置184可以类似地从该采集位置捕获360°全景图像和/或其他类型的图像。可以对建筑物的一些或所有房间并且在一些情况下在建筑物外部重复这个过程,如在此示例中针对附加的采集位置210C至210P所说明,其中在此示例中,在单个图像采集会话中捕获来自采集位置210A至210-O的图像(例如,以基本上连续的方式,诸如在总共5分钟或15分钟内),并且其中可选地在不同的时间捕获来自采集位置210P的图像(例如,从与建筑物或建筑物的前院相邻的街道捕获)。在此示例中,多个采集位置210K至210P在周围房产241上的建筑物198的外部但与其相关联,包括在相同房产上的一个或多个附加结构(例如,ADU或附属住所单元;车库;棚屋;等)中的采集位置210L和210M、在外平台或露台186上的采集位置210K以及在房产241上的多个院子位置处的采集位置210N至210P(例如,包括采集位置210P的后院187、侧院188、前院等)。可以进一步分析针对每个采集位置采集的图像,包括在一些实施方式中无论是在图像采集时还是稍后以等量矩形格式渲染或以其他方式放置每个全景图像,并且由MIGM和/或BVGUM系统以本文描述的方式进一步分析。
图1B示出了在一些实施方式中可获得的建筑物描述信息110b的类型的示例,诸如现有的建筑物信息,该建筑物信息随后被BVGUM系统分析和使用。在图1B的示例中,建筑物描述信息110b包括概述文本描述,以及各种属性数据,诸如可以部分地或完全地用作MLS系统的上市信息。在这个示例中,属性数据被分组为几个部分(例如,概述属性、进一步的内部细节属性、进一步的房产细节属性等),但在其他实施方式中,属性数据可以不被分组,或可以以其他方式分组,或更一般地,建筑物描述信息可以不被分成属性列表和单独的文本概述描述。在这个示例中,单独的文本概述描述强调了浏览者可能感兴趣的特征,诸如房屋风格类型、关于房间和其他建筑特征的感兴趣的信息(例如,最近被更新或具有其他感兴趣的特征)、关于房产和周围邻居或其他环境的感兴趣的信息等。此外,在这个示例中,属性数据包括关于房间和建筑的各种类型的客观属性以及关于电器的有限信息,但可以缺乏在此示例中用斜体示出的各种类型的细节(例如,关于主观属性、关于房间间的连接和其他邻接关系、关于其他特定的结构元素或对象以及关于这些对象的属性,等等),诸如可以改为由BVGUM系统经由分析建筑物图像和/或其他建筑物信息(例如,楼层平面图)来确定。
关于图1A和图1B提供了各种细节,但是将理解,所提供的细节是出于说明性目的而包括的非排他性示例,并且可以在没有一些或全部这种细节的情况下以其他方式执行其他实施方式。
图2A至图2P示出了从自动分析(诸如建筑物198的)建筑物图像和其他建筑物信息自动地生成具有关于建筑物的信息的视频,用于随后以一种或多种自动方式使用的示例。
特别地,图2A示出了示例性图像250a,诸如在图1A的房屋198客厅中从采集位置210B在向东北方向上拍摄的非全景立体图像(或从该采集位置拍摄并以直线方式格式化的360°全景图像的面向东北的子集视图)。在此示例中进一步显示方向指示符109a以示出拍摄图像的向东北方向)。在所示出的示例中,所显示的图像包括内置元素(例如,照明灯具130a、两个窗户196-1等)、家具(例如,椅子192-1)、和挂在客厅的北墙壁上的图片194-1。进出客厅的房间间通道(例如,门道或其他墙壁开口)在此图像中不可见。然而,在图像250a中可见多个房间边界,包括客厅北墙壁的可见部分与客厅的天花板及地板之间的水平墙壁-天花板和墙壁-地板边界、客厅东墙壁的可见部分与客厅天花板及地板之间的水平墙壁-天花板和墙壁-地板边界、以及北墙壁与东墙壁之间的墙壁间竖直边界195-2。
图2B继续图2A的示例,并且示出了在图1A的房屋198客厅中从采集位置210B在向西北方向上拍摄的附加立体图像250b。进一步显示方向指示符109b以说明拍摄图像的向西北方向。在此示例性图像中,窗户196-1中的一个的一小部分连同窗户196-2的部分以及新的照明灯具130b继续可见。另外,水平和竖直房间边界以与图2A的方式类似的方式在图像250b中可见。
图2C继续图2A至图2B的示例,并且示出了在图1A的房屋198客厅中诸如从采集位置210B在向西南方向上拍摄的第三立体图像250c。进一步显示方向指示符109c以说明拍摄图像的向西南方向。在此示例性图像中,窗户196-2的部分继续可见,正如沙发191以及视觉水平和竖直房间边界以与图2A和图2B的方式类似的方式也继续可见。该示例性图像进一步示出了客厅的两个房间间通道,在该示例中包括带有转门的门道190-1以进入和离开客厅(图1A将其识别为通往房屋外部(诸如前院)的门),以及带滑门的门道190-6以在客厅与侧院188之间移动。如图1A中的信息所示,在客厅的东墙存在附加的非门道墙面开口263a,以在客厅与走廊之间移动,但在图像250a至250c中不可见。将了解,可以从采集位置210B和/或其他采集位置拍摄并以类似方式显示多种其他立体图像。
图2D继续图2A至图2C的示例,并且示出了以等量矩形格式显示整个客厅的360°全景图像255d(例如,从采集位置210B拍摄)。由于全景图像不具有与图2A至图2C的立体图像相同方式的方向,因此图2D中没有显示方向指示符109,但是全景图像的姿势信息可以包括一个或多个相关联的方向(例如,全景图像的起始和/或结束方向,诸如如果经由旋转来采集的话)。全景图像255d的视觉数据的部分对应于第一立体图像250a(大约在图像250d的中心部分示出),而图像255d的左部分和图像255d的最右部分包含与立体图像250b和250c的那些部分对应的视觉数据。因此,例如,从图像255d开始,可以渲染一系列立体图像(例如,用于视频中),该一系列立体图像包括图像250a至250c中的一些或全部(和可选地大量中间图像,诸如如果得到的视频使用每秒30帧,则渲染例如150个立体图像以对应于图像255d内的5秒平移和/或倾斜)。此示例性全景图像255d包括窗户196-1、196-2和196-3、家具191至193、门道190-1至190-6以及通向走廊房间的非门道墙壁开口263a(其中开口示出了在相邻的走廊中可见的门道190-3的部分)。图像255d进一步以与立体图像类似的方式示出了多种房间边界,但其中水平边界以离图像的水平中线越远越弯曲的方式显示。可见边界包括竖直墙壁间边界195-1至195-4、在走廊开口的北/左侧的竖直边界195-5、在走廊开口的南/右侧的竖直边界,以及在墙壁与地板之间和在墙壁与天花板之间的水平边界。
图2D进一步示出了包括房屋198的2D楼层平面图的部分的一个示例230d的信息260d(例如,与房屋的1楼对应),诸如可以在GUI 260d中呈现给最终用户,其中客厅是房屋的最向西房间(如由方向指示符209所反映的)。将了解,在一些实施方式中,可以类似地生成和显示具有渲染的墙壁高度信息的3D或2.5D楼层平面图,无论是补充还是代替这种2D楼层平面图。在此示例中,在2D楼层平面图230d上还示出了各种类型的信息。例如,这种类型的信息可以包括以下各项中的一个或多个:添加到一些或所有房间的房间标签(例如,用于客厅的“客厅”);针对一些或所有房间添加的房间尺寸;针对一些或所有房间添加的对象(诸如安装的灯具或电器(例如,厨房电器、浴室物品等)或其他内置元件(例如,厨房岛))的视觉指示,可选地具有相关联的标签和/或描述性注释(例如,双钢厨房水槽、具有红色可丽耐表面的厨房岛、LED轨道照明、白色瓷砖地板等);针对具有附加类型的相关联和链接信息(例如,最终用户可以选择用于进一步显示的其他全景图像和/或立体图像;最终用户可以选择用于进一步呈现的音频或非音频注释,诸如“厨房包括具有特征Y的品牌X冰箱、品牌Z的内置炉/烤炉等”;最终用户可以选择用于进一步呈现的录音,诸如从卧室1听到街道噪声的级别;等等)的位置的一些或所有房间添加的视觉指示;针对诸如门和窗户的结构元素的一些或所有房间添加的视觉指示;视觉外观信息(例如,所安装的物品诸如地板覆盖物或墙壁覆盖物或表面覆盖物的颜色和/或材料类型和/或纹理)的视觉指示;来自特定窗户或其他建筑物位置的视图和/或建筑物外部的其他信息(例如,外部空间的类型;外部空间中存在的物品;其他相关联的建筑物或结构,诸如棚屋、车库、池、平台、露台、走道、花园等)的视觉指示;识别用于一种或多种类型的信息的视觉指示符的键或图例269;等等。当作为GUI(诸如260d)的部分显示时,一些或所有这种所示出的信息可以是用户可选择控件(或与这种控件相关联),该用户可选择控件允许最终用户选择并显示相关联信息中的一些或全部(例如,选择用于采集位置210B的360°全景图像指示符以查看该全景图像中的一些或全部(例如,以类似于图2A至图2D的方式)。此外,在此示例中,添加用户可选择控件228以指示针对楼层平面图显示的当前楼层,并允许最终用户选择要显示的不同楼层。在一些实施方式中,楼层或其他层的改变也可以直接从楼层平面图进行,诸如经由选择所示出的楼层平面图中的对应连接通道(例如,通往楼层2的楼梯)。将了解,在一些实施方式中可以添加各种其他类型的信息,在一些实施方式中可以不提供所示出类型的信息中的一些,并且在其他实施方式中可以以其他方式显示并选择链接和相关联信息的视觉指示及对其的用户选择。
图2E和图2F继续图2A至图2D的示例,其中图2E示出了包括客厅的西南部分的图像250e1的信息255e(以类似于图2C的图像250c的部分的方式),但其中附加信息叠加在图像上以示出关于在房间的所述部分中的对象和其他属性从对图像的视觉数据的自动化分析确定的信息,以及关于那些对象的位置的信息。特别地,在此示例中,西边窗户(图像250c的元素196-2)已被标识为房间中的对象,其中已经为该对象确定了对应的“西边窗户”标签246p2(无论是自动地还是至少部分地基于由一个或多个相关联的用户提供的信息),并且示出了图像中的对象的自动地确定的位置199b(在此示例中,该位置是对象的边界框)。信息255e进一步示出了至少部分地基于图像250e1的视觉数据而识别的感兴趣的对象和附加属性的列表248p,该列表指示西边窗户的视觉特性包括其类型(例如,落地窗户)、闩锁五金的类型、关于通过窗户的风景的信息、以及可选地各种其他属性(例如,大小、其面向的取向/方向,等等)。图像250e1进一步指示门道190-1已经被标识为房间中的对象,其中示出了“前门”标签246p1(无论是自动地还是至少部分地基于由一个或多个相关联的用户提供的信息确定)和自动地确定的边界框位置199a。另外,信息248p指示进一步属性包括门的确定视觉特性,诸如门的类型以及关于在图像250p上进一步在视觉上指示为131p的门的门把手和门铰链的信息。图2F示出了可以从图2E的图像250e1和/或250e2中提取的附加视觉数据,作为确定房间的对象和其他属性的部分,并且特别地包括与门道190-1的前门及其五金131p对应的特写示例性图像250f1、250f2和250f3,诸如以用于确定前门的对应属性。在一些实施方式和情形中,如果图像250e1被选择在房屋198的视频中使用并且前门及其视觉特性被确定为感兴趣,则可以选择显示图像250e1(或客厅中的另一图像)的视觉数据,该视觉数据包括这种图像250f1、250f2和250f3(例如,经由变焦、平移、倾斜等)以突出视频中的这些对象和其他属性,而对应的叙述提供这些对象和其他属性的描述。可以类似地识别其他对象,诸如一个或多个天花板灯具、家具、墙壁和其他表面等(例如,至少部分地基于具有类型“客厅”的房间预期或典型的定义类型的对象的列表),并且可选地经由所生成的视频中的相关联叙述进行描述,并且其中(多个)对应的图像中的所选择的视觉数据示出了这种对象,可选地以突出或以其他方式强调这种对象的方式(例如,通过放大以显著地示出对象)。另外,还确定(无论是自动地还是至少部分地基于由一个或多个相关联的用户提供的信息)并示出了用于房间的“客厅”标签246p3。图2E进一步提供了替代的或附加的图像250e2,在这个示例中,它是具有客厅的360°视觉覆盖范围的全景图像(以类似于图2D的图像255d的方式)。这种全景图像可以代替或补充诸如图像250e1的立体图像来使用,以用于确定对象和其他属性以及附加的相关信息(例如,位置、标签、注释等),以及用于评估房间内物品的整体布局和/或房间的预期交通流量,其中示例性全景图像250e2类似地示出了前门和西边窗户对象的位置边界框199a和199b,以及桌子193的附加位置边界框199c、天花板灯130b的199d和东边墙壁的199e。将理解的是,在其他实施方式中可以确定各种其他类型的对象和/或其他属性,包括其他墙壁和表面(例如,天花板和地板)和其他结构元素(例如,窗户196-1和193、门道190-6、非门道墙壁开口263a等)、其他家具(例如,沙发191、椅子192等)等等。
图2G继续图2A至图2F的示例,并且提供了可以至少部分地基于对建筑物的其他房间的一个或多个初始房间级图像的分析关于建筑物的其他房间的对象和其他属性确定的附加数据的示例。特别地,图2G示出了包括图像250g1的信息255g,诸如用于浴室1。以类似于图2E的图像的方式,图像250g1包括浴室中的被识别并针对其确定对应属性数据的对象的指示131v(例如,与对象的视觉特性对应),在此示例中,包括瓷砖地板、水槽台面、水槽水龙头和/或其他水槽五金、浴缸水龙头和/或其他浴缸五金、坐便器等。然而,在此示例中未示出位置信息、标签和所提供的指令。以类似的方式,厨房的图像250g2包括厨房中的对象的指示131w,这些对象被识别并针对其确定对应属性数据(例如,与对象的视觉特性对应),在此示例中,包括冰箱、厨房岛上的炉子、水槽水龙头和/或其他水槽五金、水槽旁边的台面和/或背板等。然而,在此示例中未示出位置信息、标签和所提供的指令。将理解的是,可以在这些和其他房间中确定各种其他类型的对象和其他属性,并且进一步用于生成对应的建筑物描述信息,并且图2E至图2G中示出的这些类型的数据是为说明目的而提供的非排他性示例。
图2H至图2K继续图2A至图2G的示例,并且提供与分析楼层平面图信息以确定建筑物的附加属性有关的附加信息。特别地,图2H示出了包括建筑物的示例2D楼层平面图230h的信息260h,该信息260h包括关于通过建筑物的预期移动流动型态属性的确定信息222h,如使用对应的标签221h指示,并且这种信息222h可选地显示在楼层平面图上(例如,叠加在楼层平面图上)。以类似的方式,图2I提供了与分析楼层平面图230i有关的附加信息260i,以确定关于建筑物的各种类型的主观属性的信息(例如,轮椅无障碍性、步行能力有限的人的无障碍性、开放式楼层平面图、典型布局、现代风格等),如使用对应的标签221i指示,但在此示例中未在楼层平面图上示出对应的位置或其他指示,但在其他实施方式和情形中可以确定并指示这种对应位置。图2J类似地提供了与分析楼层平面图230j有关的附加信息260j,以确定与公共和私人空间属性222j对应的建筑物的区域的信息,如使用对应的标签221j指示,并且其中这种信息222j可选地显示在楼层平面上(例如,叠加在楼层平面图上)。另外,图2K提供了与分析楼层平面图230k有关的附加信息260k,以确定关于房间类型和/或建筑物(例如,卧室、浴室、厨房、餐厅、家庭室、壁橱等)的功能属性222k的信息,如使用对应的标签221k指示,并且其中这种信息222k可选地显示在楼层平面图上(例如,叠加在楼层平面图上)。将理解的是,关于房间和/或建筑物整体的特定属性可以通过分析这种楼层平面图以各种方式确定,并且图2H至图2K中示出的信息类型是为说明目的而提供的非排他性示例,使得类似和/或其他类型的信息可以在其他实施方式中以其他方式来确定。
图2L继续图2A至图2K的示例,并且示出了与建筑物198对应的图像260l。特别地,尽管路径115示出了在建筑物的位置210A至210-O处采集图像的序列,但是BVGUM系统可以确定其视觉数据将按对应顺序被包括在要生成的视频中的图像的不同序列225,可选地所采集的图像的被选择的子集。在此示例中,选择在采集位置210A、210C、210G、210J、210K等处采集的全景图像的序列,从而对应于在房屋的入口处开始但快速地前进到示出关于厨房的信息(例如,因为厨房被确定为一般高度感兴趣、正在为其生成视频的特定接收方高度感兴趣、对应于配置设置或关于视频的生成的其他指令、基于一个或多个用户采集建筑物的房间中的非全景图像和/或其他信息的顺序等)。尽管未在图2L中示出,但可以选择在附加采集位置处采集的图像以用于房屋198的相同或不同视频,从而具有不同视频或在相同视频内的稍后片段以显示其他类型的信息(例如,一个或多个特定房间,诸如浴室和/或卧室;一组或多组房间,诸如与不同楼层或公共或私人空间对应;等等)。在至少一些实施方式中,可以使用一个或多个经训练的机器学习模型(例如,一个或多个神经网络模型)确定被选择用于视频的一组一个或多个图像和/或多个这种选择的图像的确定序列。
图2M和图2N继续图2A至图2L的示例,并且示出了关于选择图像的视觉数据以包括在正生成的视频的视觉部分中的信息。特别地,图2M以类似于图像255d的方式示出了图像255m,但其中在视频中指出所指示的各种对象,包括选择图像255m的视觉数据以包括在显示这些对象的视频中。在此示例中,所选择的对象包括指示为299f的拱形天花板、指示为299d的轨道照明130b、指示为299a的前门190-1、指示为299b的西边落地窗户196-2、指示为299g的南边窗户196-3、指示为299h的滑动门190-6、指示为299e的东墙壁、指示为299c的桌子193等,这些选择的对象之间的箭头流可以例如指示在视频中相继地示出图像255m的视觉数据的对应子集以便突出这些对象的顺序(例如,以DAG或有向非循环图的形式)。图2M进一步示出了可以作为叙述包括在关于这个房间和所选择的对象的视频内的示例文本信息265m(例如,视频的音频部分中的可听叙述;文本叙述,诸如用于隐藏字幕;等等),从而描述与对象对应的属性,这些对象诸如是拱形天花板、轨道照明130b、前门190-1(例如,门类型、门五金、门通向哪里的描述等)、西边落地窗户196-2(例如,窗户类型、五金、风景、方向等)、南边窗户196-3、滑动门190-6、东墙壁(例如,颜色、表面材料的类型等)、桌子193(例如,材料、大小等)等。图2N进一步示出了从全景图像255m渲染的视觉数据子集(例如,视频帧)的序列242,全景图像255m可以被包括在将要生成的视频内,从而与全景图像内的平移和/或倾斜对应。在至少一些实施方式中,使用一个或多个经训练的语言模型来生成对象和其他属性的描述。
作为一个非排他性示例,来自所选择的图像的所选择的视觉数据子集可以来自单个视角和一个或多个查看角度(例如,该图像的采集位置并在具有确定的零或更多变焦水平的确定方向上,诸如视频的每个帧对应于与该查看角度对应的所选择的图像的立体图像子集),而无论是连续的还是不连续的。如果选择了多个图像以用于视频中(例如,按确定的序列),则来自那些多个图像的所选择的视觉数据可以与多个视角和每个这种视角的一个或多个查看角度对应(例如,从图像的采集位置并在一个或多个查看角度上选择来自每个图像的视觉数据,诸如视频的每个帧与所选择的图像的立体图像部分对应,并且一个或多个立体图像部分用于每个所选择的图像),而无论是连续的还是不连续的。关于识别要在视频中描述的对象,在至少一些实施方式和情形中,BVGUM系统可以创建图(例如,用于学习具有带方向和顺序的边的DAG的GCN或图卷积网络),该图包括关于以下各项中的一个或多个的信息:要描述哪些对象和/或其他属性以及可选地多长时间;要在图像内描述的对象和/或其他属性的序列;要使用的多个图像的确定序列;所确定的序列中的相邻图像的视觉数据之间的电影转变或其他类型的转变;等等。
关于生成用于视频叙述的文本描述,在至少一些实施方式和情形中,BVGUM系统可以使用一个或多个经训练的语言模型来进行视觉讲故事、图像配字幕和文本图像检索,其中在至少一些实施方式和情形中,从图像或图像序列生成的文本进行组合和/或总结(例如,以控制风格、语法和/或形式,从而递送丰富且有影响力的接收方体验;产生多个生成的文本;等等),无论是使用多个离散模型还是单个端对端模型。在至少一些实施方式和情形中,一个或多个经训练的语言模型可以包括一个或多个经训练的视觉和语言(VLM)模型,诸如被训练来使用训练元组(例如,图像、字幕元组)的大语料库为输入图像生成描述/字幕的大型模型。VLM模型的一些益处包括,不需要明确提示模型关于你希望它描述的实体,这通常导致描述更加抽象和引人注目。在至少一些实施方式和情况下,一个或多个经过训练的语言模型还可以包括预训练的语言模型、知识增强的语言模型、解析和/或标记和/或分类模型(例如,依存语法分析器、选区分析器、情感分类器、语义角色标签器等)、用于控制语言质量的算法(例如,分词器、词形还原器、正则表达式匹配等)、多模态视觉和能够自动回归或屏蔽解码的语言模型等中的至少一个。这种标记和/或分类模型可以包括例如语义角色标记器、情感分类器和语义分类器,以识别与单词和口令或其任何组成部分的整个序列相关的语义概念(例如,识别序列中的实体的语义角色,诸如病人或代理人,以及对序列的整体情感或语义进行分类,诸如它关于主体的积极或消极程度、序列的流畅程度、或它鼓励读者采取某种行动的程度)。例如,一个或多个经训练的语言模型可以根据提示、前缀、控制代码和上下文信息的表示,诸如从视觉/传感器信息、知识库和/或图形中导出的特征来执行单词、子词和口令的迭代生成(解码)。解析模型可以进一步执行操作,包括分析单词和口令的序列的内部结构,以根据一个或多个语法(例如,依存性、上下文自由语法、头部驱动的短语结构语法等)来识别其组成部分,从而识别可以对单词、子词和/或口令的序列进行的修改,以进一步发展所需的语言质量。例如,一个或多个经训练的语言模型可以被组织成有向无环图,从而提供其中输入、输出、数据源和模型相互作用的结构,其中该结构与数据源对准,诸如关于以下中的一个或多个:空间性,其中文本生成的背景与建筑物中的特定点有关,诸如拍摄全景图的位置或房间,以便生成的文本将与该位置对准;时间性,其中文本生成的背景是视频序列或幻灯片中的帧的时间序列,以便生成的文本将与帧的该序列对准;等等。对一个或多个经训练的语言模型的输入可以包括,例如,以下中的一个或多个:结构化和/或非结构化的数据源(例如,公开或私人可获得的,诸如房产记录、税务记录、MLS记录、维基百科文章、房主协会和/或契约文件、新闻文章、附近或可见的地标等),它们提供关于被分析的建筑物和/或相关联的物理空间及其周围的信息和/或提供关于建筑物和房地产市场的一般和常识信息(例如,房屋和相关联元素、整体房屋市场信息、与公平房屋措施有关的信息、与可能有助于语言生成的术语和短语有关的偏好等);关于对象和/或其他属性的信息(例如,灯具类型和位置、表面材料、表面颜色、表面纹理、房间大小、房间内自然光的程度、步行分数、预期通勤时间等);捕获和/或合成的视觉和/或传感器信息以及任何衍生物,诸如结构化和非结构化的图像序列(包括单例)、全景图、视频、深度图、点云和分割图;等等。一个或多个经训练的语言模型可以进一步被设计和/或配置为,例如,实现以下中的一个或多个:模式,反映语言可以表达与现实和真理的关系的方式(例如,禁止的东西,诸如“你不应当去学校”;通过主语助词倒置提供的建议,诸如“你不应当去学校?”;等等);流畅性,反映相对于语法规则集的语言的自然质量的措施(例如,“大臭棕色狗”而不是“臭棕色大狗”);风格,反映词语和语法结构选择的模式(例如,使用有趣和吸引人的语言的简短描述;非正式风格,诸如用于发短信;正式风格,诸如用于英语论文或会议提交;语音,反映主语和宾语相对于动词的组织方式(例如,主动和被动语音);等等。
作为生成图2M的文本265m的一个非排他性示例,BVGUM系统可以使用语言模型和算法的流水线,包括来自被称为“知识增强自然语言生成模型”(KENLG)的类的一个或多个语言模型。KENLG模型被提供知识源和关于模型应注意的知识源内的实体的提示,其中KENLG模型摄入这些输入并相应地生成这些实体的描述。KENLG模型可以注意的知识源有多个,包括知识库(KB)、知识图(KG)和非结构化文本,比如维基百科页面,其中知识库是表达实体(例如,客厅,具有,壁炉;壁炉,由……制成,灰泥;厨房柜台,具有……性质,宽敞;等等)之间的谓语关系的主-谓-宾元组的集合,知识图是知识库到图结构的转译,其中图的节点表示实体并且图的边表示谓语关系,并且其中提示是将为其生成描述的实体序列。例如,使用以上示例元组,如果模型被给予提示(客厅),则模型的预期输出将是“客厅具有可爱的灰泥壁炉”。以此方式,通过任何数量的一个或多个上游特征提取模型和数据收集过程生成的关于房屋或其他建筑物的信息可以聚合到知识库中,并且然后聚合到KENLG模型可以注意的知识图中。以这种方式用知识图表示建筑物的益处包括它以自然方式将建筑物表示为具有(在与KENLG模型结合时)可以用于根据所提供的提示生成各种描述的属性的相关空间、视角和对象的组成。对于如265m的多语句描述,该多语句描述的生成可以包括(部分)确定要提供到模型的提示序列以用于根据这些实体生成其组成子句,并且然后使用KENLG模型来生成那些提示的文本。例如,提示序列可以被标识为在视角序列(例如,图2M的299a至299h)内可见的实体和/或关于房间和建筑物布局的信息,如关于图2O的文本265o进一步讨论。在生成与提示序列(例如,如从视角299a至299h导出)对应的子句序列后,用于组成引人注目的叙述的目的,可以应用一种或多种类型的算法以执行语言修改,诸如包括构建介词短语来平滑地连接组成子句(例如,“当你进入客厅时……”)、对每个子句的风格和形式作改变(例如,表达能力,诸如“你将注意到……”;表达义务,诸如“你必须看到……”;等等)。
关于选择对象和属性以在生成的视频中讨论,诸如示出那些对象或其他属性的图像的视觉数据,在各种实施方式中可以以各种方式选择对象和属性。作为一个非排他性示例,可以预定义一组对象和其他属性,诸如基于来自用户的输入(例如,对购买或以其他方式获取建筑物或接近建筑物的一些或全部(诸如租用或租赁)感兴趣的人;基于请求或查看关于建筑物的信息的用户的跟踪活动,诸如查看关于建筑物的图像和/或其他信息;基于购买或改变建筑物中的对象的用户的跟踪活动,诸如在改造期间;等等)。关于这一组对象和其他属性的信息可以以各种方式存储(例如,存储在数据库中),并且可以用于训练一个或多个模型(例如,用于选择图像和/或图像的部分的一个或多个机器学习模型、用于生成文本描述的一个或多个语言模型等)。在其他实施方式和情形中,可以以其他方式确定一组对象和其他属性,无论是代替还是补充这种预定义,从而进行学习(例如,至少部分地基于分析建筑物的专业照片或其他图像来识别作为那些图像的焦点或以其他方式包括在那些图像中的对象)。
图2N进一步示出了关于将视频的所生成的叙述(例如,在视频的音频部分中)与视频的视觉部分中的对应视觉数据进行同步的示例的信息,诸如使叙述与对应的视觉数据同时地出现或以其他方式伴随视觉数据(例如,在示出视觉数据之前介绍视觉数据)。如先前所述,示出了可以被包括在将要生成的视频中的视觉数据子集(例如,视频帧)的序列242,从而在出现关于拱形天花板的伴随叙述时显示图像250b(例如,在叙述中大约时间4.2秒)、在出现关于内置轨道照明的伴随描述时显示图像250b和/或250n1(例如,大约时间8.3秒,从而在一个或多个图像250n1中放大照明)、在一个或多个中间图像250n2中朝向前门逆时针平移(例如,在大约时间10秒和15秒之间)、在出现关于前门的伴随叙述时显示图像250n3(例如,大约时间15.6秒,从而放大门的一些或全部,未示出)、在出现关于西边落地窗户的伴随描述时显示图像250n4(例如,约时间20.4秒,从而放大门的一些或全部,等)。
关于同步所生成的视频的叙述,在各种实施方式中,可以以各种方式执行同步。作为一个非排他性示例,当在视频中示出视觉数据时,可以为视觉数据中示出的一个或多个对象和其他属性呈现叙述。在其他实施方式和情形中,可以执行附加活动以生成随时间平滑流动的叙述,从而在视觉连续性和叙述主体的变化平滑度的组合上进行优化(例如,至少部分地基于从一组叙述的家庭游览视频中学习)。
图2O(为清楚起见,在本文中称为“2-O”)进一步示出了关于在与两个选择的图像(在此示例中,在采集位置210A处采集的图像255m和在采集位置210C处采集的附加图像,未示出)的视觉数据之间的转变对应的视频中包括视觉数据的示例的信息。在图2-O的示例中,针对转变添加的视觉数据可以包括从帧250o1中示出的视觉数据变焦到在帧250o2中示出的视觉数据结束,诸如使用一个或多个中间帧(未示出)以与用箭头227示出而说明的变焦对应(其中在至少一些实施方式和情形中,为了读者的利益而包括箭头,但在所生成的视频中未示出),并且然后进一步转变(未示出)到在采集位置210C处采集的附加图像,诸如使用一个或多个中间帧(未示出)来将帧250o2的视觉数据与仅包括来自在采集位置210C处采集的附加图像的视觉数据的帧进行混合。图2-O进一步示出了与视频中的(多个)转变的视觉数据同步的附加叙述265o(例如,将被包括在视频的音频部分中)的示例,诸如自动地生成以描述图像的采集位置之间的转变。在其他实施方式中,叙述265o可以被包括在视频中而没有与转变对应的任何附加的视觉数据(例如,以相同的大小显示帧250o1,紧接着是帧250o2),或可以在视频的视觉部分中示出(多个)转变的视觉数据而没有任何伴随的叙述。
关于选择要包括在视频中的图像序列的顺序,在各种实施方式中可以以各种方式确定该顺序。作为一个非排他性示例,可以按与采集图像的顺序对应的顺序为该序列选择在建筑物中采集的一些或所有这种图像,诸如沿着图1A中示出的路径115的一些或所有图像(例如,如可以至少部分地基于时间戳、重叠的视觉数据、IMU数据等来确定)。作为另一个非排他性示例,可以确定不同的顺序225,诸如以关于图2L讨论的方式。在其中在实质上不同的时间(例如,在多个图像采集会话期间)采集不同图像的情形下,可以在逐个房间基础上为一些或所有房间选择图像(例如,在图像在房间内本地化之后,诸如可以在楼层平面图或其他建筑物模型上反映),而无论是代替还是补充采集图像的顺序和/或使用如上所述的不同顺序。房间的顺序可以例如按在房间中采集图像的顺序和/或以不同方式确定(例如,如关于图2L所讨论)。当在房间内选择多个图像时,在一些实施方式中,可以按例如与以下各项中的一个或多个对应的顺序选择图像:图像中示出的特征或其他信息的类型优先级的顺序;最小化房间内的图像之间的视觉跳跃(并改善视觉转变)等。
图2P继续图2A至图2-O的示例,并且示出了显示BVGUM系统的至少一些自动化操作的示例性数据流交互的信息290p。特别地,示出了BVGUM系统140的实施方式在一个或多个计算系统180上执行,并且在该示例实施方式中,接收关于要分析的建筑物的信息,该信息包括来自存储装置或数据库295的存储图像、来自存储装置或数据库296的楼层平面图,以及可选地其他建筑物描述信息297(例如,上市)和/或其他信息298(例如,其他建筑物信息,诸如标签、注释等;用于控制生成视频的其他配置设置或指令,诸如长度、要包括的信息类型等;关于要生成的视频的预期接收方的信息,诸如用于使所生成的视频对接收方个性化;等等)。在步骤281中接收输入信息,其中接收到的图像信息可选地转发到BVGUM图像分析器部件282以供分析(例如,识别对象和可选地其他属性,诸如特定于特定图像和/或房间的局部属性),其中接收到的楼层平面图信息可选地转发到BVGUM楼层平面图分析器部件283以供分析(例如,确定其他建筑物属性,诸如与作为整体的建筑物的一些或全部对应的全局属性),并且其中其他接收到的建筑物信息可选地转发到BVGUM其他信息分析器部件284以供分析(例如,确定其他建筑物属性,诸如来自建筑物的文本描述),并且其中部件282和/或部件283和/或部件284的输出形成建筑物的所确定的建筑物属性274中的一些或全部。在其他实施方式中,关于一些或所有这种对象和/或其他属性的信息可以改为被接收(例如,作为其他信息298的部分)并被直接包括在建筑物属性信息274中,并且如本文中其他地方更详细地讨论,这种部件282和/或部件283和/或部件284的操作可以包括或使用一个或多个经训练的机器学习模型。
另外,将接收到的图像转发到BVGUM图像选择器和可选地序列确定器部件285以供分析(例如,确定一个或多个图像组,一个或多个图像组各自具有一个或多个选择的图像以用于要生成的对应视频中,可选地如果为图像组选择多个图像,则是确定的图像序列),其中部件285的输出是一个或多个这种图像组275。如本文中其他地方更详细地讨论,这种部件285的操作可以包括或使用一个或多个经训练的机器学习模型。然后将图像组275和确定的建筑物属性274提供到BVGUM属性选择器和文本描述生成器部件286,其中部件286的输出是生成的建筑物文本描述信息276。如本文的其他地方更详细地讨论,这种部件286的操作可以包括或使用一个或多个经训练的语言模型作为生成文本描述信息的部分。在至少一些实施方式中,部件286可以针对每个图像组,选择在该图像组的所选择的(多个)图像中可见的一些或全部对象(例如,使用来自BVGUM部件282和/或在其他信息298中接收到的信息)以用作建筑物的属性,并且可选地进一步选择其他建筑物属性(例如,与所选择的对象中的一些或全部的视觉特性对应的属性,诸如使用来自BVGUM部件282和/或在其他信息298中接收到的信息;与关于多个房间的信息对应的属性,可选地作为整体的建筑物或楼层或建筑物的其他子集,包括关于建筑物或建筑物子集的房间布局,并且诸如使用来自BVGUM部件283和/或在其他信息298中接收到的信息;从建筑物的文本描述或其他建筑物信息的分析中获得的其他属性,诸如使用来自BVGUM部件284和/或在其他信息298中接收到的信息;等等)。对于图像组的选择的属性,BVGUM部件286然后可以生成每个这种属性的文本描述,并且然后将属性描述进行组合以形成建筑物的总体文本描述以用于该图像组。
(多个)图像组275和所生成的建筑物文本描述信息276然后提供到BVGUM建筑物视频生成部件287,其中部件287的输出是具有用于每个图像组的伴随叙述性描述277的生成的建筑物视频。在至少一些实施方式中,部件287可以为图像组选择该组的(多个)图像的视觉数据以包括在视频中(例如,包括根据伴随的确定序列,如果有的话),从而在其文本描述是该图像组的信息276的部分的所选择的属性中显示对象的视觉数据,并且可选地以其他方式显示(例如,突出)与其他这种选择的属性对应的视觉数据。如在本文的其他地方更详细地讨论,为选择的全景图像或立体图像选择的视觉数据可以在生成的视频的一个或多个帧中使用,包括可选地使用诸如平移、倾斜、变焦等技术,并且具有在连续帧中使用的对应系列的视觉数据组,以及在一些情况下在多个连续视频帧中(例如,在一秒或多秒内示出相同的场景)示出来自图像(例如,所选择的立体图像的一些或全部、所选择的全景图像的子集等)的单组视觉数据。部件287可以进一步选择和使用来自该图像组的信息276的文本描述信息以生成叙述来以同步方式伴随视频的所选择的视觉数据,诸如视频的音频部分的可听叙述(例如,使用自动化文本到语音生成、获得并使用叙述的信息的手动地供应的记录等)和/或在视觉上要示出的文本叙述(例如,以类似于隐藏字幕的方式)。另外,部件287可以为具有多个选择的图像的图像组添加与不同图像的视觉数据之间的转变对应的附加信息,诸如使用一种或多种类型的电影转变的附加视觉数据和/或描述该转变的附加叙述。
在一些实施方式中,BVGUM系统可以还包括BVGUM建筑物匹配器部件288,从而接收确定的建筑物属性274和/或生成的建筑物描述信息276和/或关于图像组275的所选择的图像的信息,并且使用该信息来识别当前建筑物和/或建筑物的一个或多个生成的视频与一个或多个指定的标准相匹配(例如,在生成信息274至276和可选地277之后的稍后时间,诸如在通过一个或多个网络170从一个或多个客户端计算系统182接收到对应的标准时)。如果是这样,部件288产生匹配的建筑物信息279,该建筑物信息279可以包括关于建筑物的信息,诸如所生成的建筑物视频277中的一些或全部以及可选地建筑物信息274和/或276中的一些或全部。在生成这些类型的信息277、274和/或276中的一个或多个之后,BVGUM系统可以进一步执行步骤289,以显示或以其他方式提供所生成和/或确定的信息中的一些或全部,从而通过网络170将这些信息传输到一个或多个客户端计算系统182来进行显示(例如,呈现视频277,诸如显示视频的视觉部分和可选地播放视频的同步音频部分),传输到一个或多个远程存储系统181来进行存储,或以其他方式传输到一个或多个其他接收方来进一步使用。在本文的其他地方包括关于各种BVGUM系统部件的操作以及被分析和生成的对应类型的信息的附加细节。
关于图2A至图2P已经提供了各种细节,但将了解,所提供的细节是出于说明性目的而包括的非排他性示例,并且可以在没有一些或全部这种细节的情况下以其他方式执行其他实施方式。
图3是示出了执行BVGUM系统340的实现(例如,以类似于图1A的(多个)服务器计算系统180和BVGUM系统140的方式)的一个或多个服务器计算系统300、以及执行ICA系统388和MIGM系统389的实施方式的一个或多个服务器计算系统380的实施方式的框图。该(多个)服务器计算系统和BVGUM和/或ICA和/或MIGM系统可以使用多个硬件部件来实施,该多个硬件部件形成适合于且被配置为在联合操作时执行本文描述的技术中的至少一些的电子电路。一个或多个计算系统和装置也可以选择性地执行建筑物信息访问系统(诸如(多个)服务器计算系统300)和/或可选的其他程序335和383(在该示例中,诸如分别(多个)服务器计算系统300和380),尽管本示例中没有示出这种建筑物信息访问系统。在所示出的实施方式中,每个服务器计算系统300包括一个或多个硬件中央处理单元(“CPU”)或其他硬件处理器305、各种输入/输出(“I/O”)部件310、存储装置320以及存储器330,其中所示的I/O部件包括显示器311、网络连接件312、计算机可读介质驱动器313以及其他I/O装置315(例如,键盘、鼠标或其他指示装置、麦克风、扬声器、GPS接收器等)。每个服务器计算系统380可以具有类似的部件,尽管为了简洁起见,在该示例中只示出了一个或多个硬件处理器381、存储器387、存储装置384和I/O部件382。
服务器计算系统300和执行BVGUM系统340、服务器计算系统380和执行ICA和MIGM系统388至389、以及可选地执行建筑物信息访问系统(未示出)可以在该示出的实施方式中诸如经由一个或多个网络399(例如,互联网、一个或多个蜂窝电话网络等)相互通信以及与其他计算系统和装置通信,包括与用户客户端计算装置390交互(例如,用于查看建筑物信息,诸如生成的建筑物视频、建筑物描述、楼层平面图、图像和/或其他相关信息,诸如通过与建筑物信息访问系统的副本交互或执行该副本),和/或移动图像采集装置360(例如,用于采集待建模的建筑物或其他环境的图像和/或其他信息,诸如以类似于图1A的计算装置185的方式),和/或可选地接收和使用楼层平面图和可选地其他生成的信息用于导航目的的其他可导航装置395(例如,用于由半自主或完全自主的车辆或其他装置使用)。在其他实施方式中,所描述的功能的一些可以在较少的计算系统中结合,从而将BVGUM系统340和建筑物信息访问系统结合在单个系统或装置中,将BVGUM系统340和装置360的图像采集功能结合在单个系统或装置中,以将ICA和MIGM系统388至389与(多个)装置360的图像采集功能结合在单个系统或装置中,以将BVGUM系统340与ICA和MIGM系统388至389中的一个或两个结合在单个系统或装置中,将BVGUM系统340与ICA和MIGM系统388至389以及装置360的图像采集功能结合在单个系统或装置中,等等。
在所示出的实施方式中,BVGUM系统340的实施方式在服务器计算系统300的存储器330中执行以便执行所描述的技术中的至少一些,诸如以将处理器305和计算系统300配置为执行实施那些描述的技术的自动化操作的方式,通过使用(多个)处理器305来执行系统340的软件指令。BVGUM系统的所示出的实施方式可以包括一个或多个部件(未示出)以各自执行BVGUM系统的功能的部分,诸如以本文其他地方讨论的方式,并且存储器可以进一步可选地执行一个或多个其他程序335。作为一个具体示例,在至少一些实施方式中,ICA和/或MIGM系统的副本可以作为其他程序335中的一个执行,诸如代替或补充(多个)服务器计算系统380上的ICA和/或MIGM系统388至389,和/或建筑物信息访问系统的副本可以作为其他程序335中的一个执行。BVGUM系统340在其操作期间可以进一步在存储装置320上存储和/或检索各种类型的数据(例如,在一个或多个数据库或其他数据结构中),诸如各种类型的用户信息322、楼层平面图和其他相关联信息324(例如,生成和保存的2.5D和/或3D模型、用于相关联楼层平面图的建筑物和房间尺寸、附加图像和/或注释信息等)、图像和相关联信息326、具有叙述性描述328和其他生成的建筑物信息(例如,确定的建筑物属性、生成的属性描述、生成的建筑物描述等)的生成的建筑物视频,和/或各种类型的可选附加信息329(例如,与一个或多个建筑物内部或其他环境的呈现或其他用途有关的各种分析信息)。
另外,在所示出的实施方式中,ICA和MIGM系统388至389的实施方式在服务器计算系统380的存储器387中执行,以便执行与生成建筑物的全景图像和楼层平面图有关的技术,诸如通过使用(多个)处理器381来以将(多个)处理器381和(多个)计算系统380配置来执行实施那些技术的自动化操作的方式来执行系统388和/或389的软件指令。ICA和MIGM系统的所示出的实施方式可以包括一个或多个部件(未示出)以各自分别执行ICA和MIGM系统的功能的部分,并且存储器可以进一步可选地执行一个或多个其他程序383。ICA和/或MIGM系统388至389在操作期间可以进一步在存储装置384上存储和/或检索各种类型的数据(例如,在一个或多个数据库或其他数据结构中),诸如为一个或多个建筑物采集的视频和/或图像信息386(例如,用于分析以生成楼层平面图的360°视频或图像,以提供给客户端计算装置390的用户来进行显示,等等)、楼层平面图和/或其他生成的测绘信息387、以及可选的其他信息385(例如,用于相关联的楼层平面图的附加图像和/或注释信息、用于相关联的楼层平面图的建筑物和房间尺寸、与一个或多个建筑物内部或其他环境的呈现或其他用途有关的各种分析信息等等)。虽然在图3中未示出,但ICA和/或MIGM系统可以进一步存储和使用附加类型的信息,诸如关于要分析和/或提供给BVGUM系统的其他类型的建筑物信息、关于ICA和/或MIGM系统操作员用户和/或最终用户等的信息。
用户客户端计算装置390(例如,移动装置)、图像采集移动装置360、任选的其他可导航装置395和其他计算系统(未示出)中的一些或全部可以类似地包括针对服务器计算系统300所示出的相同类型部件中的一些或全部。作为一个非限制性示例,移动图像采集装置360各自示出为包括一个或多个硬件CPU 361、I/O部件362、存储器和/或存储装置367、一个或多个成像系统365、IMU硬件传感器369(例如,用于采集视频和/或图像、相关联的装置移动数据等)、以及可选的其他部件。在示出的示例中,浏览器和一个或多个客户端应用程序368(例如,BVGUM系统和/或ICA系统和/或MIGM系统特定的应用程序)中的一个或两个在存储器367中执行,从而参与和BVGUM系统340、ICA系统388、MIGM系统389和/或其他计算系统的通信。尽管针对其他可导航装置395或其他计算装置/系统390未示出特定部件,但是将了解,它们可以包括类似和/或附加的部件。
还将了解,计算系统300和380以及图3内所包括的其他系统和装置仅仅是说明性的,并且不旨在限制本发明的范围。系统和/或装置可以改为各自包括多个交互的计算系统或装置,并且可以连接到未具体说明的其他装置,包括经由蓝牙通信或其他直接通信、通过一个或多个网络(诸如,互联网)、经由Web或经由一个或多个专用网络(例如,移动通信网络等)进行连接。更一般地,装置或其他计算系统可以包括可选地在被编程或以其他方式配置有特定软件指令和/或数据结构时,可以交互并执行所描述类型的功能的硬件的任何组合,该硬件包括但不限于台式计算机或其他计算机(例如,平板计算机、平板电脑等)、数据库服务器、网络存储装置和其他网络装置、智能手机和其他蜂窝电话、消费者电子装置、可穿戴装置、数字音乐播放器装置、手持式游戏装置、PDA、无线电话、互联网电器、以及包括适当通信能力的各种其他消费者产品。此外,在一些实施方式中,由所示的BVGUM系统340提供的功能可以分布在各种部件中,可以不提供BVGUM系统340的所描述的功能中的一些,并且/或可以提供其他附加的功能。
还将了解,尽管各种条目被说明为在使用时存储在存储器中或在存储装置上,但是出于存储器管理和数据完整性的目的,这些条目或其部分可以在存储器和其他存储装置之间转移。可选地,在其他实施方式中,软件部件和/或系统中的一些或全部可以在另一个装置上的存储器中执行并且经由计算机间通信与所示出的计算系统通信。因此,在一些实施方式中,当被一个或多个软件程序(例如,被在服务器计算系统300上执行的BVGUM系统340、被在服务器计算系统300上执行的建筑物信息访问系统或其他计算系统/装置等)和/或数据结构配置时,所描述的技术中的一些或全部可以由包括一个或多个处理器和/或存储器和/或存储装置的硬件装置执行,诸如通过执行一个或多个软件程序的软件指令和/或通过存储这种软件指令和/或数据结构,并且从而执行如在本文中的流程图和其他公开内容中描述的算法。此外,在一些实施方式中,可以以其他方式实施或提供系统和/或部件中的一些或全部,诸如通过由部分地或完全地在固件和/或硬件中实施(例如,而不是作为由配置特定CPU或其他处理器的软件指令全部或部分地实施的装置)的一个或多个装置组成,包括但不限于一个或多个专用集成电路(ASIC)、标准集成电路、控制器(例如,通过执行适当的指令,并且包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)等。部件、系统和数据结构中的一些或全部还可以(例如,作为软件指令或结构化数据)存储在非暂时性计算机可读存储介质上,诸如硬盘或闪存驱动器或其他非易失性存储装置、易失性或非易失性存储器(例如,RAM或闪存RAM)、网络存储装置或便携式媒体制品(例如,DVD盘、CD盘、光盘、快闪存储器装置等),以便由适当的驱动器或经由适当的连接来读取。在一些实施方式中,系统、部件和数据结构还可以经由所生成的数据信号(例如,作为载波或其他模拟或数字传播信号的部分)在各种计算机可读传输介质上传输,该计算机可读传输介质包括基于无线和基于有线/电缆的介质,并且可以采取多种形式(例如,作为单个或多路模拟信号的部分,或作为多个离散数字包或帧)。在其他实施方式中,这种计算机程序产品还可以采取其他形式。因此,可以利用其他计算机系统配置来实践本公开的实施方式。
图4A至图4B示出了用于建筑物视频生成和使用管理器(BVGUM)系统例程400的流程图的示例实施方式。该例程可以通过例如执行图1A的BVGUM系统140、图3的BVGUM系统340和/或如关于图2D至图2P并且在本文的其他地方所描述的BVGUM系统来执行,从而执行与自动地生成伴随自动地生成的叙述以描述所选择的建筑物对象的建筑物视频和可选地在从建筑物图像选择的视频的视觉数据中示出的其他属性有关的自动化操作,并且随后以一种或多种自动化方式使用所生成的建筑物视频。在图4A至图4B的示例实施方式中,指示的建筑物可以是房屋或其他建筑物,并且生成建筑物视频包括生成所选择的建筑物属性的描述信息并将它们用于包括针对建筑物采集的图像的视觉数据的视频的叙述,但在其他实施方式中,其他类型的数据结构和分析可以用于其他类型的结构或非结构位置,并且生成的建筑物信息可以以除了在本文其他地方讨论的关于例程400讨论的那些方式以外的其他方式使用。
例程的所示出的实施方式在框405处开始,在框405处接收信息或指令。例程继续到框410以确定在框405中接收到的指令或其他信息是否指示至少部分地基于所指示的建筑物的图像来生成所指示的建筑物的一个或多个视频,并且如果是的话,则例程继续执行至少框415至475以这样做,否则继续到框478。在框415中,例程可选地获得特定于接收方的配置设置和/或信息以用于视频生成(例如,在框405中接收到的信息、存储的信息等),诸如对应于视频长度、要包括在视频中的信息的类型(例如,房间类型、对象类型、其他属性类型等)。在框420中,例程然后确定现有的建筑物信息(例如,图像、具有相对于彼此定位的至少房间形状的楼层平面图、文本建筑物描述、建筑物对象和/或其他建筑物属性的列表或其他指示、与图像和/或房间和/或对象相关联的标签和/或描述性注释等)是否可用于建筑物,并且如果是的话,则前进到框422以检索这种现有的建筑物信息。如果改为在框420中确定建筑物信息不可用,则例程改为前进到执行框425至440,以生成这种图像和楼层平面图及相关联的信息,包括在框425中可选地获得关于建筑物的可用信息(例如,建筑物尺寸和/或关于建筑物的大小和/或结构的其他信息;建筑物的外部图像,诸如来自头顶上方和/或来自附近街道;等等,诸如来自公共来源),以在框430中启动ICA系统例程的执行,以采集建筑物的图像和可选地附加数据(其中在图5中示出了这种例程的一个示例),并且在框440中启动MIGM系统例程的执行以使用来自框430采集的图像来生成楼层平面图和可选地附加测绘相关建筑物数据(其中在图6A至图6B中示出了这种例程的一个示例)。
在框442至475中,作为使用来自框430和440或来自框422的图像和可选地其他建筑物信息以生成建筑物的一个或多个视频,该例程执行若干活动。特别地,在框442中,如果已经不可从框422和/或430获得这种信息,则例程包括使用一个或多个经训练的机器学习模型(例如,一个或多个经训练的分类神经网络)分析每个图像以识别结构元素和其他对象,并且进一步确定与这种对象相关联的属性(例如,颜色、表面材料、风格、位置、取向、描述性标签等)。在框444中,例程然后可选地分析建筑物信息(例如,楼层平面图、文本描述等),以使用一个或多个经训练的机器学习模型(例如,一个或多个经训练的分类神经网络)确定建筑物的另外的属性,诸如至少部分地基于布局信息(例如,两个或更多个房间组的相互连接性和其他邻接信息)。确定的属性可以例如包括各自根据一个或多个主观因素(例如,无障碍环境友好型、开放式楼层平面图、非典型楼层平面图等)对建筑物楼层平面图各自进行分类的属性、建筑物中的一些或所有房间的房间类型、一些或所有房间之间的房间间连接和其他邻接(例如,通过门或其他开口连接、与中间的墙壁相邻但没有以其他方式连接、不相邻等)的类型、一个或多个客观属性,等等。
在框446中,例程然后分析图像和可选地其他建筑物信息以确定一个或多个图像组,一个或多个图像组各自包括一个或多个选择的视频和可选地多个选择的图像的确定序列,诸如使用一个或多个经训练的机器学习模型(例如,一个或多个神经网络)并根据来自框415的任何配置设置和/或接收方信息。在框446之后,例程继续到框450以选择与所选择的图像对应的对象和可选地其他属性以在生成的一个或多个视频中描述(例如,针对所选择的图像中的一些或全部中的每个,确定在图像中可见的对象和可选地对象在图像内的位置,并且可选地选择在框444确定和/或在框422中获得的其他建筑物属性),诸如根据来自框415的任何配置设置和/或接收方信息,并且可选地使用一个或多个经训练的机器学习模型(例如,一个或多个神经网络),而无论是在框446中使用的相同还是不同经训练的机器学习模型。在一些实施方式和情形中,对象和可选地其他属性选择可以改为在框446中作为图像选择的部分执行。例程在框450中还包括为所选择的对象和其他属性中的每个生成文本描述,诸如根据来自框415的任何配置设置和/或接收方信息,以及可选地使用一个或多个经训练的语言模型(例如,一个或多个经训练的基于转换器的机器学习模型),并且可选地将所生成的描述进行组合以生成总体建筑物文本描述。
在框450之后,例程继续到框455以针对每个图像组,根据来自框415的任何配置设置和/或接收方信息,使用包括来自图像中的每个的视觉数据的图像组的一个或多个所选择的图像(例如,按对应于确定的图像序列的顺序)来生成视频的视觉部分,并且诸如其中每个图像的一个或多个帧与来自该图像的一个或多个所选择的视觉数据组(例如,来自图像的对应于该图像内的平移、倾斜、变焦等中的一个或多个的多个视觉数据组,并且包括对应于一个或多个所选择的对象或其他所选择的属性的视觉数据)对应,并且可选地进一步的视觉数据对应于不同图像的视觉数据之间的一个或多个转变。在其他实施方式中,所生成的视频中包括的视觉数据可以包括来自视频内的不同位置的所选择的图像的所选择的视觉数据组,诸如来自一个或多个其他选择的图像的中间视觉数据组。在框475中,针对每个图像组,例程然后至少部分地基于来自框450的图像组的所选择的对象或其他选择的属性的生成的文本描述来生成该图像组的视频的同步叙述(例如,对于视频的可听部分),并且可选地包括根据来自框415的任何配置设置和/或接收方信息并诸如使用一个或多个经训练的语言模型的进一步描述性信息(例如,与不同图像的视觉数据之间的一个或多个转变对应、提供介绍和/或概述等)。在其他实施方式中,在生成视频的视觉部分之前,改为生成视频的叙述,其中视觉部分中包括的视觉数据改为被选择以与叙述同步。在框475之后,例程继续到框489以存储(多个)所生成的视频和可选地来自框420至487的其他生成的建筑物信息中的一些或全部,并且可选地将一个或多个生成的视频和/或其他生成的建筑物信息中的至少一些提供给一个或多个对应的接收方(例如,在框405中从其接收到信息和/或指令或以其他方式在这种信息和/或指令中指定的用户或其他实体接收方)。
如果改为在框410中确定在框405中接收到的指令或其他信息不是生成一个或多个建筑物视频,则例程改为继续到框476以确定在框405中接收的指令或其他信息是不是修改现有的建筑物视频。如果是的话,则例程前进到框478以获得与如何执行修改相关的修改指令或其他标准以及指示要修改的视频的信息(例如,特定建筑物的指示),从而在框405中接收、检索视频以及通过根据修改指令或其他标准修改检索到的视频来生成新的视频。这种修改标准可以包括例如以下各项中的一个或多个:一个或多个指示的时间长度(例如,最小时间、最大时间、视频的子集的起始时间和结束时间等),其中检索到的视频被相应地修改(例如,以去除片段,诸如基于相关联的优先级;以去除开始部分和/或结束部分;等);一个或多个房间的指示(例如,基于一个或多个房间类型),其中检索到的视频被修改以排除关于这种一个或多个房间的信息或仅包括关于这种一个或多个房间的信息;一个或多个对象的指示(例如,基于一个或多个对象类型),其中检索到的视频被修改以排除关于这种一个或多个对象的信息或仅包括关于这种一个或多个对象的信息;一个或多个房间分组的指示(例如,大建筑物的楼层、多房间公寓或共管公寓或城市住房、多用途住在的单元等),其中检索到的视频被修改以排除关于这种一个或多个房间分组的信息或仅包括关于这种一个或多个房间分组的信息;等等。在一些实施方式和情形中,修改标准可以进一步基于特定接收方,从而使修改的视频对该接收方个性化,其中接收或检索特定于接收方的对应标准(例如,来自接收方的存储的偏好信息)。在框478之后,例程继续到框489以存储所生成的修改的视频,并且可选地将所生成的修改的视频提供给一个或多个对应的接收方(例如,在框405中从其接收到信息和/或指令或以其他方式在这种信息和/或指令中指定的用户或其他实体接收方)。
如果改为在框476中确定在框405中接收到的指令或其他信息不是修改现有的建筑物视频,则例程继续到框482以确定在框405中接收到的指令或其他信息是否是识别满足指示的标准的一个或多个生成的建筑物视频(例如,基于关于视频中描述的房间和/或对象和/或其他属性的信息,诸如至少部分地基于伴随视频的叙述)和/或识别具有这种生成的建筑物视频的一个或多个建筑物,并且如果不是的话,则继续到框490。否则,例程继续到框484以检索候选建筑物视频(例如,针对一个或多个指示的建筑物先前在框442至478中生成的建筑物视频),并且比较关于这种视频的信息与指定的标准。在框486中,针对每个候选视频和/或相关联的建筑物,例程然后确定候选视频/建筑物的信息与标准的匹配程度。如果有多个指示的标准,则确定匹配程度可以包括以一种或多种方式(例如,平均值、累加总数等)组合多个标准的信息。例程进一步可选地基于其匹配程度对多个候选视频/建筑物进行等级排序,并且选择一个或多个最佳匹配用作识别的目标视频或建筑物(例如,高于定义阈值的所有匹配、单个最佳匹配等,并且可选地基于在框405中接收的指令或其他信息),其中那些选定的一个或多个最佳匹配具有与指定标准的最高匹配程度。在框488中,例程然后呈现或以其他方式提供(多个)选择的候选视频/建筑物的信息(例如,提供一个或多个选择的候选视频进行呈现,诸如以基于匹配程度的序列;提供关于一个或多个选择的候选建筑物的信息进行呈现;等),诸如经由建筑物信息访问例程,其中关于图7讨论这种例程的一个示例。
如果改为在框482中确定在框405中接收的信息或指令不是使用一个或多个指定标准来识别一个或多个其他目标生成的视频和/或相关联的建筑物,则例程改为继续到框490以视情况执行一个或多个其他指示的操作。这种其他操作可以包括,例如接收和响应于对先前生成的视频和/或其他建筑物信息的请求(例如,对这种信息的请求以便在一个或多个客户端装置上显示或其他呈现、对这种信息的请求以将其提供给一个或多个其他装置以用于自动化导航,等等),训练一个或多个神经网络或其他机器学习模型(例如,分类神经网络)以从对图像的视觉数据和/或其他采集的环境数据的分析中确定对象和相关联的属性,训练一个或多个神经网络(例如,分类神经网络)或其他机器学习模型,以从对建筑物楼层平面图的分析中确定建筑物属性(例如,根据一个或多个主观因素,诸如无障碍环境友好型、开放式楼层平面图、非典型楼层平面图、非标准楼层平面图等),训练一个或多个机器学习模型(例如,语言模型)以为确定的对象和可选地其他指示的建筑物属性生成属性描述信息和/或为具有多个这种对象和可选地其他指示的建筑物属性的建筑物生成建筑物描述信息,获得并存储关于例程的用户的信息(例如,当前用户的搜索和/或选择偏好),等等。
在框488或489或490之后,例程继续到框495以确定是否继续,诸如直到接收到明确的终止指示为止,或改为只有在接收到明确的继续指示的情况下才继续。如果确定继续,则例程返回框405以等待附加指令或信息,否则继续到框499并结束。
尽管未相对于在图4A至图4B的示例实施方式中所示的自动化操作说明,但在一些实施方式中,人类用户可以进一步帮助促进BVGUM系统的一些操作,诸如BVGUM系统的操作者用户和/或最终用户提供进一步用于后续自动化操作的一种或多种类型的输入。作为非排他性示例,这种人类用户可以提供如下一种或多种类型的输入:提供输入以帮助从分析图像、楼层平面图和/或其他建筑物信息中识别对象和/或其他属性,从而在框442和/或444中提供被用作(多个)框的自动化操作的部分的输入;在框446中提供被用作后续自动化操作的部分的输入,从而帮助选择图像组的图像和/或确定所选择的图像的序列;在框450中提供被用作后续自动化操作的部分的输入,从而帮助选择对象和/或其他属性以在视频中描述,和/或帮助生成对象和/或其他属性的文本描述,和/或帮助至少部分地基于对象和/或其他属性的生成的文本描述来生成建筑物的文本描述;在框455中提供被用作后续自动化操作的部分的输入,从而帮助从所选择的图像中选择一个或多个视觉数据组,和/或帮助指定要在图像之间使用的转变;在框475中提供被用作后续自动化操作的部分的输入,从而帮助基于所生成的文本描述来确定用于视频的叙述,和/或产生叙述的可听版本;等等。在本文的其他地方包括关于其中(多个)人类用户提供用于BVGUM系统的附加自动化操作的输入的实施方式的附加细节。
图5示出了ICA(图像捕获和分析)系统例程500的实施方式的示例性流程图。该例程可以由例如图1的ICA系统160、图3的ICA系统388和/或如关于图2A至图2P和本文的其他方式描述的ICA系统执行,从而在建筑物或其他结构内的采集位置处采集360°全景图像和/或其他图像,诸如用于后续生成相关楼层平面图和/或其他测绘信息。尽管关于在特定采集位置处采集特定类型的图像讨论了示例例程500的部分,但是将了解,这个或类似的例程可以用于采集视频(具有视频帧图像)和/或其他数据(例如,音频),无论是代替还是补充这种全景图像或其他立体图像。另外,尽管所说明的实施方式采集并使用来自目标建筑物的内部的信息,但是将了解,其他实施方式可以针对其他类型的数据(包括针对非建筑物结构和/或针对一个或多个感兴趣的目标建筑物外部的信息)执行类似的技术(例如,在目标建筑物所在的房产上,从而示出院子、平台、露台、附属结构等)。此外,例程中的一些或全部可以在用户所使用的移动装置上执行以采集图像信息,和/或由远离这种移动装置的系统执行。在至少一些实施方式中,可以从图4A至图4B的例程400的框430调用例程500,其中作为该框430的实施方式的部分,将来自例程500的对应信息提供到例程400,并且其中在这种情形中,处理控制在框577和/或599之后返回到例程400。在其他实施方式中,例程400可以以异步方式继续附加操作,无需等待返回这种处理控制(例如,在等待将来自例程500的对应信息提供到例程400时继续其他处理活动)。
例程的所示出的实施方式在框505处开始,在框505处接收指令或信息。在框510处,例程确定接收到的指令或信息是否指示采集表示建筑物内部的视觉数据和/或其他数据(可选地根据关于一个或多个附加采集位置和/或其他指引采集指令的供应信息),并且如果否的话,则继续到框590。否则,例程前进到框512以接收在第一采集位置开始图像采集过程的指示(例如,从将执行采集过程的图像采集移动装置的用户接收)。在框512之后,例程前进到框515以便执行用于采集在感兴趣的目标建筑物的内部中的采集位置的360°全景图像的采集位置图像采集活动,诸如经由移动装置上的一个或多个鱼眼镜头和/或非鱼眼直线镜头并且提供围绕竖直轴的至少360°的水平覆盖范围,但在其他实施方式中,可以采集其他类型的图像和/或其他类型的数据。作为一个非排他性示例,图像采集移动装置可以是配备有鱼眼镜头(例如,具有180°的水平覆盖范围)和/或其他镜头(例如,具有少于180°的水平覆盖范围,诸如常规的镜头或广角镜头或超广镜头)的旋转(扫描)全景相机。例程还可以可选地从用户获得关于采集位置和/或周围环境的注释和/或其他信息,诸如供稍后用于呈现关于该采集位置和/或周围环境的信息。
在完成框515之后,例程继续到框520以确定是否存在要在其处采集图像的更多采集位置,诸如基于由移动装置的用户提供和/或在框505中接收到的对应信息。在一些实施方式中,ICA例程将仅采集单个图像并且然后前进到框577以提供该图像和对应的信息(例如,以将图像和对应的信息返回到BVGUM系统和/或MIGM系统以在接收到附加指令或信息之前进一步使用,以便在一个或多个下一采集位置采集一个或多个下一图像)。如果在当前时间存在要在其处采集附加图像的更多采集位置,例程继续到框522以可选地在移动装置沿着远离当前采集位置而朝向建筑物内部内的下一个采集位置的行进路径移动期间,发起捕获链接信息(例如,加速度数据)。所捕获的链接信息可以包括在这种移动期间记录的附加传感器数据(例如,来自移动装置上或以其他方式由用户携带的一个或多个IMU或惯性测量单元)和/或附加视觉信息(例如,图像、视频等)。可以响应于来自移动装置的用户的明确指示或基于从移动装置记录的信息的一个或多个自动化分析来执行发起对这种链接信息的捕获。此外,在一些实施方式中,例程可以进一步可选地在移动到下一采集位置期间监测移动装置的运动,并且(例如,向用户)提供关于以下各项的一个或多个引导暗示:移动装置的运动、正被捕获的传感器数据和/或视频信息的质量、相关联的照明/环境条件、捕获下一采集位置的可取性、以及捕获链接信息的任何其他合适方面。类似地,例程可以可选地从用户获得关于行进路径的注释和/或其他信息,诸如供稍后用于呈现关于该行进路径或得到的全景间图像连接链路的信息。在框524中,例程确定移动装置已到达下一采集位置(例如,基于来自用户的指示、基于移动装置的向前移动在至少预定义的时间量内停止等)以用作新的当前采集位置,并且返回到框515针对该新的当前采集位置执行采集位置图像采集活动。
如果改为在框520中确定在当前时间不存在要在其处采集当前建筑物或其他结构的图像信息的任何更多采集位置,则例程前进到框545以可选地先预处理所采集的360°全景图像,然后随后将其用于(例如生成相关的测绘信息、用于提供关于房间或其他封闭区域的结构元素或其他对象的信息等),从而产生特定类型和/或呈特定格式的图像(例如,以对每个这种图像执行等量矩形投影,其中诸如典型的矩形门框或在2个相邻墙壁之间的典型边界的侧面的平直竖直数据保持平直,并且其中诸如典型的矩形门框或墙壁与地板之间的边界的顶部的平直水平数据在图像的水平中线处保持平直但在等量矩形投影图像中随着在图像中距水平中线的距离增加而以相对于水平中线凸出的方式逐渐地弯曲)。在框577中,存储这些图像和任何相关联的所生成或获得的信息以供稍后使用,并且可选地提供给一个或多个接收方(例如,提供到例程400的框430,如果从该框调用的话)。图6A至图6B示出了用于从这种所生成的全景信息生成建筑物内部的楼层平面图表示的例程的一个示例。
如果在框510中改为确定在框505中接收的指令或其他信息不是采集表示建筑物内部的图像和其他数据,但例程改为继续到框590以视情况执行任何其他所指示的操作,从而将参数配置为在系统的各种操作中使用(例如,至少部分地基于由系统的用户指定的信息,诸如捕获一个或多个建筑物内部的移动装置的用户、ICA系统的操作者用户,等)、响应于对所产生和存储的信息的请求(例如,以识别匹配一个或多个指定的搜索标准的各自表示建筑物或建筑物的部分的一组或多组互连的链接全景图像、匹配一个或多个指定的搜索标准的一个或多个全景图像等)、生成并存储建筑物或其他结构的全景图像之间的全景图像间连接(例如,对于每个全景图像,确定该全景图像内的朝向一个或多个其他全景图像的一个或多个其他采集位置的方向,从而使得对于来自全景图像的每个这种确定的方向,该全景图像能够稍后显示箭头或其他视觉表示,以便使得最终用户能够选择所显示的视觉表示中的一个以切换到与所选择的视觉表示对应的另一采集位置处的另一全景图像的显示)以获得并存储关于系统的用户的其他信息、执行任何家政任务等。
在框577或590之后,例程前进到框595以确定是否继续,诸如直到接收到明确的终止指示为止,或改为只有在接收到明确的继续指示的情况下。如果确定继续,则例程返回到框505以等待附加的指令或信息,并且如果否的话,则前进到步骤599并结束。
尽管未相对于在图5的示例实施方式中所示的自动化操作说明,但在一些实施方式中,人类用户可以进一步帮助促进ICA系统的操作中的一些,诸如ICA系统的操作者用户和/或最终用户以提供进一步用于后续自动化操作的一种或多种类型的输入。作为非排他性示例,这种人类用户可以提供如下一种或多种类型的输入:提供输入以帮助确定采集位置,从而在框512和/或524中提供被用作该框的自动化操作的部分的输入;执行框515中的与图像采集相关的活动(例如,参与图像采集,诸如激活快门、实施相机和/或相关联的传感器或部件上的设置、旋转相机作为捕获全景图像的部分等;设置一个或多个相机装置和/或相关联的传感器或部件的位置和/或取向;等等);在框515和/或522中提供被用作后续自动化操作的部分的输入,诸如关于特定图像、周围房间和/或房间中的对象的标签、注释或其他描述性信息;等等。在本文的其他地方包括关于其中一个或多个人类用户提供被进一步用于ICA系统的附加自动化操作的输入的实施方式的附加细节。
图6A至图6B示出了用于MIGM(测绘信息生成管理器)系统例程600的流程图的示例性实施方式。该例程可以通过例如执行图1A的MIGM系统160、图3的MIGM系统389和/或如关于图2A至图2P和在本文的其他地方描述的MIGM系统来执行,从而通过分析来自在房间中采集的一个或多个图像的信息(例如,一个或多个360°全景图像)来确定房间(或其他限定的区域)的房间形状、至少部分地基于区域的一个或多个图像和可选地由移动计算装置捕获的附加数据并且使用确定的房间形状来生成建筑物或其他限定区域的局部或完整的楼层平面图,和/或至少部分地基于区域的一个或多个图像和可选地由移动计算装置捕获的附加数据来生成建筑物或其他限定区域的其他测绘信息。在图6A至图6B的示例中,为房间确定的房间形状可以是表示房间的墙壁的位置的2D房间形状或表示房间的墙壁和天花板和地板的位置的平面表面的3D全封闭组合,以表示房间的墙壁和天花板和地板的位置,并且为建筑物(例如,房屋)生成的测绘信息可以包括2D楼层平面图和/或3D计算机模型楼层平面图,但在其他实施方式中,可以以其他方式生成和使用其他类型的房间形状和/或测绘信息,包括用于其他类型的结构和定义的区域,如在本文的其他地方讨论。在至少一些实施方式中,可以从图4A至图4B的例程400的框440调用例程600,其中作为该框440的实施方式的部分,将来自例程600的对应信息提供到例程400,并且其中在这种情形中,处理控制在框688和/或699之后返回到例程400。在其他实施方式中,例程400可以以异步方式继续附加操作而无需等待要返回的这种处理控制(例如,一旦将来自例程600的对应信息提供到例程400就前进到框445、在等待将来自例程600的对应信息提供到例程400时继续其他处理活动等)。
例程的所示出的实施方式在框605处开始,其中接收信息或指令。例程继续到框610以确定图像信息是当前可用于针对一个或多个房间(例如,针对所指示的建筑物的一些或全部,诸如基于在框605中接收的一个或多个这种图像,如先前由ICA例程生成)进行分析,还是改为在当前采集这种图像信息。如果在框610中确定当前采集图像信息中的一些或全部,则例程继续到框612以采集这种信息,可选地等待一个或多个用户或装置移动穿过建筑物的一个或多个房间并在房间中的一个或多个中的一个或多个采集位置(例如,在建筑物的每个房间中的多个采集位置)处采集全景图或其他图像,可选地连同关于采集的元数据信息和/或与采集位置之间的移动相关的互连信息,如在本文的其他地方更详细地讨论。框612的实施方式可以例如包括调用ICA系统例程来执行这种活动,其中图5提供了用于执行这种图像采集的ICA系统例程的一个示例实施方式。如果改为在框610中确定当前不采集图像,则例程改为继续到框615以从一个或多个房间中的一个或多个采集位置获得一个或多个现有的全景或其他图像(例如,在包括至少一个图像的多个采集位置和建筑物的每个房间中的采集位置处采集的多个图像),可选地连同关于采集的元数据信息和/或与采集位置之间的移动相关的互连信息,诸如在一些情形中可能已连同对应的指令在框605中被供应。
在框612或615之后,例程继续到框620,其中确定是否生成包括建筑物或其他组房间的目标全景图像(或其他图像)的相互链接集的测绘信息(有时被称为“虚拟巡视”,从而使得最终用户能够从链接集的图像中的任一者移动到与起始当前图像链接的一个或多个其他图像,包括在一些实施方式中,经由针对连同当前图像一起显示的每个这种其他链接图像来选择用户可选择控件,可选地通过将这种用户可选择控件和对应的图像间方向的视觉表示叠加在当前图像的视觉数据上,并且类似地从下一图像移动到与下一图像链接到的一个或多个附加图像等),并且如果是的话,则继续到框625。在框625中,例程选择图像中的至少一些的对(例如,基于具有重叠的视觉内容的一对的图像),并且针对每一对,基于共享的视觉内容和/或与该对的图像相关的其他捕获的链接互连信息(例如,移动信息),确定该对的图像之间的相对方向(无论是从该对的一个图像的采集位置直接到该对的另一个图像的采集位置的移动,还是改为经由其他图像的一个或多个其他中间采集位置的那些起始和结束采集位置之间的移动)。在框625中,例程可以进一步可选地至少使用图像对的相对方向信息来确定在共同坐标系中一些或全部的图像相对于彼此的全局相对位置,和/或生成图像间链接和对应的用户可选择控件,如上所述。在本文的其他地方包括关于创建这种图像的链接集的附加细节。
在框625之后,或如果改为在框620中确定在框605中接收的指令或其他信息不是确定图像的链接集,则例程继续到框635以确定在框605中接收的指令是否指示生成所指示的建筑物的其他测绘信息(例如,楼层平面图),并且如果是的话,则例程继续执行框637至685中的一些或全部以这样做,并且否则继续到框690。在框637中,例程可选地获得关于建筑物的附加信息,诸如来自在图像的采集和可选地分析图像期间所执行的活动、和/或来自一个或多个外部来源(例如,在线数据库、由一个或多个最终用户提供的信息等)。这种附加信息可以包括例如建筑物的外部尺寸和/或形状、对应于建筑物外部的特定位置(例如,建筑物周围和/或针对相同房产上的其他结构、从一个或多个俯视位置等)所采集的附加图像和/或注释信息、对应于建筑物内的特定位置(可选地针对不同于所采集的全景图像或其他图像的采集位置的位置)所采集的附加图像和/或注释信息等。
在框637之后,例程继续到框640以选择可获得在房间中采集的一个或多个图像(例如,360°全景图像)的下一房间(以第一房间开始),并且分析房间的图像的视觉数据以确定房间形状(例如,通过至少确定墙壁位置),可选地连同确定关于房间形状的墙壁和/或其他部分的不确定性信息,并且可选地包括识别其他墙壁和地板和天花板元素(例如,墙壁结构元素/对象,诸如窗户、门道和楼梯以及其他房间间墙壁开口和连接通道、墙壁与另一个墙壁和/或天花板和/或地板之间的墙壁边界等)以及它们在房间的所确定的房间形状内的位置。在一些实施方式中,房间形状确定可以包括使用墙壁与彼此以及地板或天花板中的至少一个的边界以确定2D房间形状(例如,使用一个或经训练的机器学习模型),而在其他实施方式中,可以以其他方式执行房间形状确定(例如,生成房间墙壁和可选地天花板和/或地板中的一些或全部的3D点云,诸如至少分析全景图像的视觉数据和可选地由图像采集装置或关联的移动计算装置捕获的附加数据,可选地使用SfM(运动恢复结构)或SLAM(同时定位和测绘)或MVS(多视角立体观察)分析中的一个或多个)。另外,框645的活动还可以可选地确定和使用那些全景图像中的每个的初始姿势信息(例如,如提供了全景图像的采集元数据),和/或获得并使用每个全景图像的附加元数据(例如,用于采集相对于地板和/或天花板的全景图像的相机装置或其他图像采集装置的采集高度信息)。在本文的其他地方包括关于确定房间形状和识别房间的附加信息的附加细节。在框640之后,例程继续到框645,其中确定是否有更多的房间可以基于在这些房间中采集的图像来确定房间形状,并且如果是的话,则返回到框640以选择用于确定房间形状的下一个这种房间。
如果在框645中改为确定没有更多房间可以为其生成房间形状,则例程继续到框660以确定是否进一步生成建筑物的至少局部楼层平面图(例如,至少部分地基于从框640确定的房间形状,以及可选地关于如何相对于彼此定位确定的房间形状的另外信息)。如果否的话,诸如当仅确定一个或多个房间形状而不生成建筑物的另外测绘信息时(例如,以基于由ICA系统在房间中采集的一个或多个图像来确定单个房间的房间形状),则例程继续到框688。否则,例程继续到框665以检索一个或多个房间形状(例如,在框645中生成的房间形状)或以其他方式获得建筑物的房间的一个或多个房间形状(例如,基于人类供应的输入),无论是2D还是3D房间形状,并且然后继续到框670。在框670中,例程使用一个或多个房间形状来创建初始楼层平面图(例如,使用2D房间形状的初始2D楼层平面图和/或使用3D房间形状的初始3D楼层平面图),诸如包括一个或多个房间形状但少于建筑物的所有房间形状的局部楼层平面图,或包括建筑物的所有房间形状的完整楼层平面图。如果存在多个房间形状,则在框670中,例程进一步确定房间形状相对于彼此的定位,诸如使用来自多个采集位置的图像之间的视觉重叠以确定那些采集位置和包围那些采集位置的房间形状的相对位置,和/或使用其他类型的信息(例如,使用房间之间的房间间连接通道、可选地应用一个或多个约束或优化等)。在至少一些实施方式中,在框670中,例程通过生成覆盖相对定位的(多个)房间形状的二元分割掩模、提取表示分割掩模的廓线或轮廓的多边形并且将多边形分成细化房间形状来进一步细化的(多个)房间形状中的一些或全部。这种楼层平面图可以包括例如各种房间的相对位置和形状信息,而没有提供单独房间或作为整体的建筑物的任何实际尺寸信息,并且还可以包括建筑物的多个链接或关联的子地图(例如,以反映不同的楼层、水平、区段等)。例程可选地进一步关联门、墙壁开口和其他所识别的墙壁元素在楼层平面图上的位置。
在框670之后,例程可选地执行一个或多个步骤680至685,以确定附加信息并将其与楼层平面图相关联。在框680中,例程可选地估计房间中的一些或全部的尺寸,诸如根据对图像和/或其采集元数据的分析或根据针对建筑物的外部获得的整体尺寸信息,并且将所估计的尺寸与楼层平面图相关联。将了解,如果可获得足够详细的尺寸信息,则可以从楼层平面图生成建筑绘图、工程图纸等。在框680之后,例程继续到框683以可选地将进一步信息与楼层平面图(例如,具有在建筑物内的特定房间或其他位置)相关联,该进一步信息诸如为指定的位置的附加现有图像和/或注释信息。在框685中,如果来自框645的房间形状不是3D房间形状,例程进一步可选地估计一些或全部房间中的墙壁的高度,诸如根据对图像的分析和可选地图像中的已知对象的大小、以及关于在采集图像时的相机的高度信息,并且使用该高度信息来生成房间的3D房间形状。例程可选地进一步使用3D房间形状(无论来自框640还是框685)来生成建筑物的3D计算机模型楼层平面图,其中2D和3D楼层平面图彼此关联。在其他实施方式中,可能只生成并使用3D计算机模型楼层平面图(包括如果需要,通过使用3D计算机模型楼层平面图的水平切片来提供2D楼层平面图的视觉表示)。
在框685之后,或如果改为在框660中确定不确定楼层平面图,则例程继续到框688以存储确定的(多个)房间形状和/或生成的测绘信息和/或其他生成的信息,以可选地将该信息中的一些或全部提供给一个或多个接收方(例如,提供到例程400的框440,如果从该框调用的话),并且可选地进一步使用所确定和生成的信息中的一些或全部,从而提供所生成的2D楼层平面图和/或3D计算机模型楼层平面图来显示在一个或多个客户端装置上和/或提供到一个或多个其他装置以用于那些装置和/或关联车辆或其他实体的自动化导航、以类似地提供和使用关于所确定的房间形状和/或图像的链接集和/或关于根据房间的内容和/或房间之间的通道确定的附加信息的信息等。
如果改为在框635中确定在框605中接收到的信息或指令不是生成所指示的建筑物的测绘信息,则例程改为继续到框690以视情况执行一个或多个其他所指示的操作。这种其他操作可以包括例如接收并响应针对先前生成的楼层平面图和/或先前确定的房间形状和/或其他生成的信息的请求(例如,针对在一个或多个客户端装置上显示这种信息的请求、针对这种信息提供到一个或多个其他装置以用于自动化导航的请求等)、获得和存储关于建筑物的信息以供在稍后操作中使用(例如,关于房间的尺寸、数量或类型、总建筑面积、相邻或附近的其他建筑物、相邻或附近的植被、外部图像等的信息)等。
在框688或690之后,例程继续到框695以确定是否继续,诸如直到接收到明确的终止指示为止,或改为只有在接收到明确的继续指示的情况下。如果确定继续,则例程返回框605以等待并接收附加指令或信息,并且否则继续到框699并结束。
尽管未相对于在图6A至图6B的示例性实施方式中所示的自动化操作说明,但在一些实施方式中,人类用户可以进一步帮助促进MIGM系统的操作中的一些,诸如MIGM系统的操作者用户和/或最终用户提供进一步用于后续自动化操作的一种或多种类型的输入。作为非排他性示例,这种人类用户可以提供如下一种或多种类型的输入:提供输入以帮助链接图像集,从而在框625中提供被用作该框的自动化操作的部分的输入(例如,以指定或调整一个或多个图像对之间的初始自动地确定的方向、以指定或调整图像中的一些或全部相对于彼此的初始自动地确定的最终全局位置等);在框637中提供被用作后续自动化操作的部分的输入,诸如关于建筑物的所说明的类型的信息中的一个或多个;相对于框640提供被用作后续自动化操作的部分的输入,从而指定或调整初始自动地确定的元素位置和/或估计的房间形状,和/或手动地组合来自房间的多个估计房间形状的信息(例如,来自在房间中采集的不同图像的单独房间形状估计)以创建房间的最终房间形状,和/或指定或调整关于最终房间形状的初始自动地确定的信息;相对于框670提供被用作后续操作的部分的输入,从而指定或调整正在生成的楼层平面图内的房间形状的初始自动地确定的位置和/或指定或调整这种楼层平面图内的初始自动地确定的房间形状本身;相对于框680和683和685中的一个或多个提供被用作后续操作的部分的输入,从而指定或调整相对于那些框讨论的一种或多种类型的初始自动地确定的信息;和/或指定或调整全景图像中的一个或多个的初始自动地确定的姿势信息(无论是初始姿势信息还是后续更新的姿势信息)等。在本文的其他地方包括关于其中(多个)人类用户提供被进一步用于MIGM系统的附加自动化操作的输入的实施方式的附加细节。
图7示出了建筑物信息访问系统例程700的流程图的示例性实施方式。该例程可以通过例如执行图1的建筑物信息访问客户端计算装置175及其(多个)软件系统(未示出)、图3的客户端计算装置390和/或如在本文的其他地方所描述的建筑物信息访问查看器或呈现系统来执行,从而接收和呈现建筑物信息(例如,视频;个别图像;楼层平面图和/或其他测绘相关信息,诸如所确定的房间结构布局/形状、相互链接的图像的虚拟游览等;生成的建筑物描述信息等),以获得和显示关于与一个或多个指示的目标图像匹配的图像的信息,以获得和显示指引采集指令(例如,关于在采集会话期间采集的其他图像和/或针对相关联的建筑物,诸如所显示的GUI的部分)等。在图7的示例中,所呈现的信息是针对一个或多个建筑物(诸如房屋的内部),但是在其他实施方式中,可以针对其他类型的建筑物或环境呈现其他类型的测绘信息并以其他方式使用,如本文其他地方所述。
例程的所示出的实施方式在框705处开始,在框705处接收指令或信息。在框710处,例程确定在框705中接收的指令或其他信息是否将呈现一个或多个目标建筑物的确定信息,并且如果是的话,则继续到框715,以确定在框705中接收到的指令或信息是否是使用指定标准(例如,至少部分地基于指示的建筑物)来选择一个或多个目标建筑物,并且如果不是的话,则继续到框720以从用户获得要使用的目标建筑物的指示(例如,基于当前用户选择,诸如来自显示列表或其他用户选择机制;基于在框705中接收的信息;等)。否则,如果在框715中确定从指定的标准中选择一个或多个目标建筑物,则例程改为继续到框725,其中获得要使用的一个或多个搜索标准的指示,诸如从当前用户的选择或如在框705中接收到的信息或指令中指示,并且然后搜索存储的关于建筑物的信息(例如,楼层平面图、视频、生成的文本描述等),以确定满足搜索标准的一个或多个建筑物,或以其他方式获得一个或多个这种匹配目标建筑物的指示,诸如由BVGUM系统当前或先前生成的信息(其中这种系统的操作的一个示例进一步关于图4A至图4B讨论,并且其中在框720中可选地调用BVGUM系统以获得这种信息)。在所示出的实施方式中,例程然后进一步可选地从一个或多个确定的目标建筑物中选择最佳匹配目标建筑物(例如,对于指定的标准具有最高相似性或其他匹配率的目标建筑物,或使用在框705中接收的指令或其他信息中指示的另一种选择技术),而在其他实施方式中,例程可以改为呈现满足搜索标准的多个目标建筑物的信息(例如,基于匹配程度按排名次序;按顺序方式,从而按顺序呈现多个建筑物中的每个的一个或多个视频),并且从多个候选目标建筑物接收最佳匹配目标建筑物的用户选择。
在框720或725之后,例程继续到框730以确定在框705接收的指令或其他信息是否指示呈现一个或多个目标建筑物中的每个的一个或多个生成的视频,并且如果是的话,则继续到框732以这样做,包括检索每个目标建筑物的一个或多个现有生成的视频(例如,与在框705的信息中指定的标准匹配或以其他方式确定的一个或多个现有生成的视频,诸如使用特定于接收方的偏好信息或其他信息),或可选地在一些实施方式和情形中,请求动态地生成的视频(例如,与BVGUM系统交互以导致这种生成,无论是新生成视频还是修改现有的视频,以及可选地供应一个或多个标准以用于这种生成,诸如使用特定于接收方的偏好信息或其他信息),并且发起呈现所检索和/或动态地生成的(多个)视频(例如,将(多个)视频传输到(多个)客户端装置以在这些装置上呈现)。在框732之后,例程继续到框795。
如果改为在框730确定在框705中接收到的指令或其他信息不指示呈现一个或多个生成的视频,则例程继续到框735以检索目标建筑物的信息用于显示(例如,楼层平面图;建筑物的其他生成的测绘信息,诸如用于用作虚拟游览的部分的一组相互链接的图像;生成的建筑物描述信息;等等),以及可选地建筑物内部和/或建筑物外部的周围位置的相关联的链接信息的指示,和/或关于目标建筑物的一个或多个生成的解释或其他描述的信息,并且选择检索信息的初始视图(例如,楼层平面图的视图、特定的房间形状、特定的图像、部分或全部生成的建筑物描述信息等)。在框740中,例程然后显示或以其他方式呈现检索到的信息的当前视图,并且在框745中等待用户选择。在框745中的用户选择之后,如果在框750中确定用户选择对应于调整当前目标建筑物的当前视图(例如,改变当前视图的一个或多个方面),则例程继续到框755以根据用户选择来更新当前视图,并且然后返回到框740以相应地更新所显示的或以其他方式呈现的信息。对当前视图的用户选择和对应更新可以包括例如显示或以其他方式呈现用户选择的一条相关联的链接信息(例如,与所确定的采集位置的所显示的视觉指示相关联的特定图像,从而将相关联的链接信息重叠在先前的显示的至少一些之上;与当前图像链接并使用重叠在当前图像上的用户可选择的控件从当前图像中选择的特定其他图像,以代表该其他图像;等等)、和/或改变当前视图的显示方式(例如,放大或缩小;在适当时旋转信息;选择要显示或以其他方式呈现的楼层平面图的新部分,诸如其中该新部分中的一些或全部先前不可见,或改为其中该新部分是先前可见信息的子集;等)。如果改为在框750中确定用户选择不显示当前目标建筑物的另外信息(例如,显示另一个建筑物的信息、结束当前显示操作等),则例程改为继续至框795,并且如果用户选择涉及这样的另外操作,则返回框705以执行用户选择的操作。
如果改为在框710中确定在框705中接收的指令或其他信息不呈现表示建筑物的信息,则例程改为继续到框760以确定在框705中接收的指令或其他信息是否指示识别与一个或多个指示的目标图像对应的其他图像(如果有的话),并且如果是这样则继续到框765至770以执行这种活动。特别地,框765中的例程接收用于匹配的一个或多个目标图像的指示(诸如来自在框705中接收的信息或基于与用户的一个或多个当前交互)连同一个或多个匹配标准(例如,视觉重叠的量),并且在框770中识别与指示的目标图像匹配的一个或多个其他图像(如果有的话),诸如通过与ICA和/或MIGM系统交互以获得(多个)其他图像。该例程然后在框770中显示或以其他方式提供关于所识别的(多个)其他图像的信息,从而提供关于它们的信息作为搜索结果的部分,以显示识别的(多个)其他图像中的一个或多个等。如果在框760中改为确定在框705中接收到的指令或其他信息不用于识别与一个或多个指示的目标图像对应的其他图像,则例程改为继续到框775以确定在框705中接收到的指令或其他信息是否对应于在图像采集会话期间获得和提供关于一个或多个指示的目标图像(例如,最近采集的图像)的指引采集指令,并且如果是的话,则继续到框780,否则继续到框790。在框780中,例程获得关于一种或多种类型的指引采集指令的信息,诸如与ICA系统交互,并且在框780中显示或以其他方式提供关于指引采集指令的信息,诸如以在本文的其他地方更详细地讨论的方式将指引采集指令叠加在局部楼层平面图和/或最近采集的图像上。
在框790中,例程改为继续以视情况执行其他所指示的操作,从而将参数配置为在系统的各种操作中使用(例如,至少部分地基于由系统的用户(诸如采集一个或多个建筑物内部的移动装置用户、BVGUM和/或MIGM系统的操作者用户等)指定的信息,包括用于针对特定接收方用户根据他/她的偏好或特定于该接收方的其他信息将信息显示个性化)、获得和存储关于系统用户的其他信息、响应于针对所生成和存储的信息的请求、执行任何家政任务等。
在框732或780或790之后,或如果在框750中确定用户选择不对应于当前建筑物,则例程前进到框795以确定是否继续,诸如直到接收到明确的终止指示为止,或改为只有在接收到明确的继续指示的情况下。如果确定继续(包括如果用户在框745中做出与要呈现的新建筑物有关的选择),则例程返回到框705以等待附加的指令或信息(或如果用户在框745中做出与要呈现的新建筑物有关的选择,则直接继续到框735),并且如果不是的话,则前进到步骤799并结束。
在以下条款中进一步描述本文所描述的非排他性示例性实施方式。
A01.一种用于一个或多个计算装置执行自动化操作的计算机实施的方法,所述自动化操作包括:
通过所述一个或多个计算装置,获得关于具有多个房间的房屋的数据,所述数据包括在所述房屋处采集的多个图像和所述房屋的楼层平面图,所述楼层平面图包括具有所述多个房间的至少二维房间形状和相对位置的房间布局;
通过所述一个或多个计算装置,基于所获得的数据来生成所述房屋的描述信息,包括:
通过所述一个或多个计算装置,并且使用一个或多个经训练的第一神经网络模型,分析所述多个图像,以识别所述房屋内部的多个对象,并且确定所述多个对象的属性;
通过所述一个或多个计算装置,并且使用一个或多个经训练的第二神经网络模型,分析所述楼层平面图,以确定所述房屋的进一步属性,所述进一步属性各自与所述房间布局的特性对应;
以及
通过所述一个或多个计算装置,并且使用一个或多个经训练的语言模型,生成所述属性和所述进一步属性中的每个的文本描述,并且组合所生成的文本描述以创建所述房屋的属性描述信息;
通过所述一个或多个计算装置,基于所生成的描述信息,生成使用叙述描述所述房屋的视频,包括:
通过所述一个或多个计算装置,并且使用一个或多个经训练的第三神经网络模型,确定多个图像的组以按确定序列用于所述视频,所述多个图像是所述多个图像的子集,其中,所述多个图像包括在所述多个房间中的每个中的至少一个图像,并且还包括
一个或多个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述多个图像中的每个,选择所述图像的至少一些视觉数据,以包括在所述视觉部分中与所确定的序列对应的位置,并且还包括:将附加视觉数据插入所述视觉部分中,以提供所确定的序列中的相邻图像的选择的视觉数据之间的一个或多个转变,其中,选择所述一个或多个全景图像中的每个的所述至少一些视觉数据包括:选择所述全景图像的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;以及
通过所述一个或多个计算装置,生成所述视频的音频部分,包括:
针对所述多个图像中的每个,确定所述对象中的在所述图像中可见的一个或多个,并且使用一个或多个对象的所述属性中的一个或多个的所述文本描述,以在所述音频部分中包括可听叙述信息,所述可听叙述信息是关于一个或多个属性,并且与所述视觉部分中的所述图像的选择的视觉数据同时出现;
针对所述一个或多个转变中的每个,在所述音频部分中添加关于所述转变并且与所述转变的所述视觉部分中的所述附加视觉数据同时出现的附加可听叙述信息,以及
与所述视频的所述视觉部分的开始或结束中的至少一个同时,基于与所述房间布局的特性对应的所述进一步属性中的每个的所述文本描述,在所述音频部分中添加进一步可听叙述信息;
通过所述一个或多个计算装置,接收一个或多个搜索标准;以及
通过所述一个或多个计算装置,并且响应于至少部分地基于所述视频的所述叙述而确定所述房屋与所述一个或多个搜索标准匹配,呈现搜索结果,所述搜索结果指示所述房屋,并且包括描述所述房屋的所生成的视频。
A02.一种用于一个或多个计算装置执行自动化操作的计算机实施的方法,所述自动化操作包括:
通过一个或多个计算装置,获得具有多个房间的指示的建筑物的数据,所述数据包括在所述指示的建筑物处采集的多个图像;
通过所述一个或多个计算装置并且基于所获得的数据,生成所述指示的建筑物的视频,所述视频描述所述多个房间中的至少一些,包括:
通过所述一个或多个计算装置,基于所述指示的建筑物中的对象和所述对象的可见特性,确定所述指示的建筑物的多个属性,包括分析所述多个图像,以识别所述对象并且确定所述可见特性;
通过所述一个或多个计算装置,选择用于所述视频的至少两个图像的组,所述至少两个图像是所述多个图像的子集,并且确定将所述至少两个图像的视觉数据包括在所述视频中的序列,其中,所述至少两个图像包括在至少一些房间中的每个中的至少一个图像,并且还包括一个或多个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述至少两个图像中的每个,选择所述图像的至少一些视觉数据,以包括在所述视觉部分中基于所确定的序列的位置,其中,选择所述一个或多个全景图像中的每个的所述至少一些视觉数据包括:选择所述全景图像的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;
通过所述一个或多个计算装置,并且针对所述至少两个图像中的每个,生成所述多个属性中的至少一个的、在所述图像的所述视觉数据中可见的文本描述;
通过所述一个或多个计算装置,生成所述视频的音频部分,包括:针对所述至少两个图像中的每个,使用至少一个属性的在所述图像的所述视觉数据中可见的所述文本描述,以在所述视觉部分中产生可听叙述信息,所述可听叙述信息是关于所述至少一个属性,并且与所述视觉部分中的所述图像的选择的视觉数据同时出现;以及
通过所述一个或多个计算装置,呈现关于所述指示的建筑物的所生成的视频中的至少一些。
A03.一种用于一个或多个计算装置执行自动化操作的计算机实施的方法,所述自动化操作包括:
获得具有多个房间的指示的建筑物的数据,包括在所述指示的建筑物处采集的多个图像、以及关于所述指示的建筑物的至少部分地基于所述指示的建筑物中的对象的多个属性的信息;
针对所述多个属性中的至少一些中的每个,生成所述属性的文本描述;
生成所述指示的建筑物的视频,所述视频基于所获得的数
据,并且描述所述多个房间中的至少一些,包括:
选择具有至少一些房间的视觉数据的至少两个图像的组;
生成所述视频的视觉部分,包括:针对所述至少两个图像中的每个,选择所述图像的至少一些视觉数据以包括在所述视觉部分中;以及
生成所述视频的音频部分,包括:针对所述至少两个图像中的每个,并且针对至少一些属性中的在所述图像中可见的至少一个属性,使用所述至少一个属性的所生成的文本描述,以在所述音频部分中产生关于所述至少一个属性并且与所述视觉部分中的所述图像的选择的视觉数据同步的叙述信息;以及
提供关于所述指示的建筑物的信息,所述信息包括所生成的视频。
A04.一种用于一个或多个计算装置执行自动化操作的计算机实施的方法,所述自动化操作包括:
通过所述一个或多个计算装置,获得具有多个房间的指示的建筑物的数据,所述数据包括在所述指示的建筑物处采集的多个图像;
通过所述一个或多个计算装置并且基于所获得的数据,生成所述指示的建筑物的视频,包括:
通过所述一个或多个计算装置,确定所述指示的建筑物的包括所述指示的建筑物中的对象的多个属性,包括分析所述多个图像以识别所述对象;
通过所述一个或多个计算装置,选择用于所述视频的一个或多个图像的组,所述一个或多个图像是所述多个图像的子集,并且包括至少一个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述一个或多个图像中的每个,选择所述图像的至少一些视觉数据以包括在所述视觉部分中,包括选择所述至少一个全景图像中的每个的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;
通过所述一个或多个计算装置,生成所述多个属性中的在所述一个或多个图像的所述视觉数据中可见的两个或更多个属性的文本描述;
通过所述一个或多个计算装置,生成所述视频的音频部分,包括使用所述两个或更多个属性的所生成的文本描述,以在所述音频部分中产生可听叙述信息,所述可听叙述信息是关于所述两个或更多个属性并且伴随所述视觉部分中的选择的视觉数据,所述两个或更多个属性在所述选择的视觉数据中是可见的;
通过所述一个或多个计算装置,提供所述指示的建筑物的所生成的视频。
A05.根据条款A01至A04中任一项所述的计算机实施的方法,其中,分析所述多个图像还包括:确定所述多个对象在所述多个房间内的位置,其中,选择所述多个图像的所述至少一些视觉数据包括:选择视觉数据以示出所述多个对象的所确定的位置,其中,在所述音频部分中包括关于对象的属性的可听叙述信息还包括:指示所述对象和所述对象的所确定的位置,其中,所述搜索标准还包括所述一种或多种类型的对象的一个或多个位置的指示,其中,确定所述房屋与所述一个或多个搜索标准匹配是进一步基于所述一种或多种类型的一个或多个识别的对象的所确定的位置,并且其中,呈现所述搜索结果还包括:通过所述一个或多个计算装置通过一个或多个计算机网络向从其接收所述搜索标准的客户端装置传输所述搜索结果,以致使所述客户端装置显示所生成的视频的所述视觉部分并且可听地播放所生成的视频的所述音频部分。
A06.如条款A01至A05中任一项所述的计算机实施的方法,其中,所述房屋中的所识别的多个对象包括至少电器和灯具以及结构元素,其中,所述多个对象的确定属性包括颜色和表面材料的类型,其中,所述房屋的确定的另外的属性包括关于所述房屋的能够被独立验证的客观属性以及所述房屋的由所述一个或多个经训练的第二神经网络模型预测的主观属性两者,其中,所述搜索标准包括一种或多种颜色和一种或多种表面材料的类型以及一种或多种类型的对象的指示,并且其中,确定所述房屋与所述一个或多个搜索标准匹配是基于所识别的多个对象中的一个或多个,以及基于所述多个对象的所确定的属性中的一个或多个,以及基于所确定的另外的属性中的一个或多个主观属性。
A07.根据条款A06所述的计算机实施的方法,其中,分析所述多个图像以识别所述对象并且确定所述可见特性包括:使用一个或多个经训练的第一神经网络,其中,选择所述至少两个图像的组并且确定所述序列包括:使用一个或多个经训练的第二神经网络,所述经训练的第二神经网络进一步拒绝将所述多个图像中的至少一个包括在所述至少两个图像的所述子集中,其中,针对所述至少两个图像中的每个生成所述至少一个属性的所述文本描述包括:使用一个或多个经训练的语言模型,并且其中,所述方法还包括:在生成所述视频之前,训练所述一个或多个第一神经网络,以识别图像中的对象,并且确定这些对象的视觉特性;训练所述一个或多个第二神经网络,以选择要包括在视频中的图像,并且确定这些图像的序列;以及训练一个或多个语言模型,以生成建筑物的属性的文本描述。
A08.根据条款A01至A07中任一项所述的计算机实施的方法,还包括:接收一个或多个搜索标准,并且至少部分地基于所生成的视频的所述叙述信息,确定所述指示的建筑物与所述一个或多个搜索标准相匹配,并且其中,呈现所生成的视频中的所述至少一些包括:通过所述一个或多个计算装置,并且通过一个或多个计算机网络,向一个或多个客户端装置传输包括所生成的视频的搜索结果,用于在所述一个或多个客户端装置上呈现。
A09.根据条款A01至A08中任一项所述的计算机实施的方法,其中,所获得的数据还包括所述指示的建筑物的楼层平面图,所述楼层平面图指示具有所述多个房间的至少二维房间形状和相对位置的房间布局,其中,所述指示的建筑物的所述多个属性还包括一个或多个建筑物属性,所述一个或多个建筑物属性通过分析所述楼层平面图来识别,并且各自与所述房间布局的特性对应,并且其中,生成所述视频的所述音频部分还包括:基于生成为描述所述一个或多个建筑物属性的附加文本描述,在所述音频部分中产生附加可听叙述信息。
A10.根据条款A01至A09中任一项所述的计算机实施的方法,其中,所述一个或多个计算装置包括服务器计算装置并且还包括用户的客户端计算装置,并且其中,所述方法还包括:
通过所述服务器计算装置,接收来自所述客户端计算装置的一个或多个搜索标准;
通过所述服务器计算装置,至少部分地基于所生成的视频,确定包括所述指示的建筑物的所述搜索标准的搜索结果;
通过所述服务器计算装置,通过在一个或多个计算机网络上向所述客户端计算装置传送关于所述指示的建筑物的所述信息,执行提供关于所述指示的建筑物的所述信息,所传送的信息包括所确定的搜索结果;以及
通过所述客户端计算装置,接收包括所确定的搜索结果的所传送的信息,并且在所述客户端计算装置上显示所确定的搜索结果,以使得能够在所述客户端计算装置上呈现所生成的视频。
A11.根据条款A01至A10中任一项所述的计算机实施的方法,其中,获得关于所述多个属性的所述信息包括:分析所述多个图像的视觉数据,以识别所述指示的建筑物中的所述对象,其中,所述多个属性中的所述至少一些是所述对象中的至少一些。
A12.根据条款A01至A11中任一项所述的计算机实施的方法,选择所述至少两个图像的组包括:至少部分地基于在所述至少一些房间中采集所述多个图像的子集的图像,选择所述多个图像的所述子集以包括在所述组中,并且还包括从所述子集排除所述多个图像中的至少一个。
A13.根据条款A01至A12中任一项所述的计算机实施的方法,其中,所述至少两个图像中的一个或多个图像是全景图像,并且其中,选择所述至少两个图像中的每个的至少一些视觉数据包括:针对所述一个或多个图像中的每个,选择所述图像的所述视觉数据的、将连续示出并且与所述图像内的平移或倾斜中的至少一个对应的多个子集。
A14.根据条款A01至A13中任一项所述的计算机实施的方法,其中,选择所述至少两个图像中的每个的至少一些视觉数据包括:针对所述至少两个图像中的一个,在所述一个图像内执行变焦,以示出与在所述一个图像中可见的所述至少一个属性中的一个或多个对应的信息。
A15.根据条款A01至A14中任一项所述的计算机实施的方法,其中,生成所述视频的所述视觉部分还包括:在所述视觉部分中添加进一步视觉数据,以提供在所述至少两个图像的选择的视觉数据之间的一个或多个转变,并且其中,生成所述视频的所述音频部分还包括:针对所述一个或多个转变中的每个,在所述音频部分中产生描述所述转变并且与所述转变的进一步视觉数据同步的附加叙述信息。
A16.根据条款A01至A15中任一项所述的计算机实施的方法,其中,所述至少两个图像的组包括在所有的所述多个房间中的图像,并且所生成的视频进一步描述所有的所述多个房间,其中,所述自动化操作还包括:在生成所述视频之后,通过去除所述视觉部分和所述音频部分中的一些来修改所述视频以满足一个或多个指示的标准,并且其中,提供关于所述指示的建筑物的所述信息包括:提供所修改的视频。
A17.根据条款A16所述的计算机实施的方法,其中生成所述视频还包括:在所述视频内生成多个视频片段,所述多个视频片段各自与所述多个房间中的一个或多个、所述对象中的一个或多个中的至少一个对应,其中,所述指示的标准包括视频长度的指示、与所述多个房间中的至少一个房间对应的指示、与所述对象中的至少一个对象对应的指示中的至少一个,并且其中,修改所述视频包括去除所述多个视频片段中的至少一个。
A18.根据条款A16所述的计算机实施的方法,其中,所述指示的标准特定于指示的接收方,其中,执行修改所述视频以使所修改的视频对所述指示的接收方个性化,并且其中,提供所修改的视频包括:将所修改的视频呈现给指示的接收方。
A19.根据条款A01至A18中任一项所述的计算机实施的方法,其中,生成所述视频还包括:生成多个视频,所述多个视频各自与所述多个房间中的一个或多个、所述对象中的一个或多个中的至少一个对应,并且其中,提供关于所述指示的建筑物的所述信息包括:选择并且提供所述多个视频中的满足一个或多个指示的标准中的一个。
A20.根据条款A01至A19中任一项所述的计算机实施的方法,其中,所述自动化操作还包括接收特定于指示的用户的一个或多个标准,其中,进一步执行生成所述视频,以通过满足所述一个或多个标准来使所生成的视频对所述指示的用户个性化,并且其中,提供关于所述指示的建筑物的所述信息包括向所述指示的用户提供所述视频。
A21.根据条款A01至A20中任一项所述的计算机实施的方法,其中,生成所述至少一些属性中的每个的所述文本描述使用一个或多个经训练的语言模型,其中,选择所述至少两个图像的组包括使用一个或多个经训练的神经网络,所述经训练的神经网络进一步拒绝将所述多个图像中的至少一个包括在所述组中,并且其中,所述自动化操作还包括:在生成所述视频之前,训练所述一个或多个语言模型以生成所述建筑物的所述属性的文本描述,并且训练一个或多个神经网络以选择要包括在视频中的图像。
A22.根据条款A01至A21中任一项所述的计算机实施的方法,其中,所获得的数据还包括所述指示的建筑物的楼层平面图,所述楼层平面图指示具有所述多个房间的至少二维房间形状和相对位置的房间布局,其中,所述指示的建筑物的所述多个属性还包括一个或多个建筑物属性,所述一个或多个建筑物属性通过分析所述楼层平面图来识别,并且各自与所述房间布局的特性对应,并且其中,生成所述视频的所述音频部分还包括:在所述音频部分中产生被生成为描述所述一个或多个建筑物属性的附加叙述信息。
A23.根据条款A01至A22中任一项所述的计算机实施的方法,其中,所获得的数据包括所述指示的建筑物的楼层平面图,其中,所述至少一些属性包括以下至少一个:通过分析所述楼层平面图来生成的一个或多个主观属性,所述一个或多个主观属性包括开放式楼层平面图、无障碍楼层平面图、非标准楼层平面中的至少一个;通过分析所述楼层平面图来生成的一个或多个全局属性,并且所述一个或多个全局属性与所有的所述指示的建筑物相关联;以及通过分析所述多个图像来生成的一个或多个局部属性,并且所述一个或多个局部属性各自与所述多个房间中的一个相关联。
A24.根据条款A01至A23中任一项所述的计算机实施的方法,其中,所述对象包括通过分析所述多个图像确定的至少电器、家具和结构元素,并且其中,所述至少一些属性包括通过所述分析所述多个图像确定的所述对象的表面材料的颜色和类型。
A25.根据条款A01至A24中任一项所述的计算机实施的方法,其中,所获得的数据还包括附加建筑物信息,所述附加建筑物信息包括所述建筑物的文本描述、与所述对象相关联的标签、与所述房间相关联的标签、与所述对象相关联的描述性文本注释、与所述房间相关联的描述性文本注释、链接所述多个图像中的至少一些的相互连接的组中的至少一个,并且其中,所述自动化操作还包括:分析所述附加建筑物信息,以确定所述至少一些属性中的一些或全部。
A26.根据条款A01至A25中任一项所述的计算机实施的方法,其中,生成所述视频的所述音频部分包括:使用一个或多个语言模型,所述一个或多个语言模型被训练为使用关于所述至少一些属性、关于所述建筑物中与所述至少一些属性对应的位置以及关于所述至少一些属性的时间和/或序列的信息作为输入,其中,所述一个或多个语言模型包括使用图像/字幕元组训练的视觉和语言模型(VLM)、使用一个或多个定义的知识源训练的知识增强自然语言生成(VENLG)模型、使用其中节点表示实体并且边表示谓语关系的知识图的语言模型中的至少一个。
A27.根据条款A01至A26中任一项所述的计算机实施的方法,其中,所述方法还包括:
通过所述一个或多个计算装置,接收来自客户端计算装置的一个或多个搜索标准;
通过所述一个或多个计算装置,至少部分地基于所生成的视频,确定所述搜索标准的、包括所述指示的建筑物的搜索结果;以及
通过所述一个或多个计算装置,执行提供所生成的视频作为通过一个或多个计算机网络向所述客户端计算装置传输所确定的搜索结果的部分,以能够在所述客户端计算装置上呈现所生成的视频。
A28.根据条款A01至A27中任一项所述的计算机实施的方法,其中,所述方法还包括:在所述指示的建筑物内的多个采集位置处采集所述多个图像,其中,选择所述一个或多个图像的组以用于所述视频包括:选择两个或更多个图像,以按确定序列用于所述视频中,并且其中,生成所述视频的所述音频部分还包括:针对所述两个或更多个图像中的每个,并且针对所述两个或更多个属性中的在所述图像中可见的至少一个中的每个,使用所述属性的生成的文本描述,以在所述视觉部分中产生与所述图像的选择的视觉数据同时出现的所述可听叙述信息的部分。
A29.根据条款A28所述的计算机实施的方法,其中,生成所述视频的所述视觉部分还包括:在所述视觉部分中添加进一步视觉数据,以提供在所确定的序列中的相邻图像的选择的视觉数据之间的一个或多个转变,并且其中,生成所述视频的所述音频部分还包括:针对所述一个或多个转变中的每个,在所述音频部分中产生描述所述转变并且与所述转变的进一步视觉数据同时出现的附加可听叙述信息。
A30.根据条款A01至A29中任一项所述的计算机实施的方法,其中,所获得的数据还包括所述指示的建筑物的楼层平面图,所述楼层平面图指示具有所述多个房间的至少二维房间形状和相对位置的房间布局,其中,所述指示的建筑物的所述多个属性还包括一个或多个建筑物属性。所述一个或多个建筑物属性通过分析所述楼层平面图来识别并且各自与所述房间布局的特性对应,并且其中,生成所述视频的所述音频部分还包括:在所述音频部分中产生被生成来描述所述一个或多个建筑物属性的附加可听叙述信息。
A31.根据条款A01至A30中任一项所述的计算机实施的方法,还包括:使用一个或多个数据结构,所述一个或多个数据结构包括以下至少一个:一个或多个第一经训练的机器学习模型,用于分析所述多个图像以识别所述对象;或一个或多个第二经训练的机器学习模型,用于选择所述一个或多个图像的组以用于所述视频;或一个或多个经训练的语言模型,用于生成所述两个或更多个属性的所述文本描述。
A32.一种计算机实施的方法,包括多个步骤以执行自动化操作,所述自动化操作实施基本上如本文中公开的所描述的技术。
B01.一种非暂时性计算机可读介质,其存储有可执行软件指令和/或其他存储的内容,所述可执行软件指令和/或所述其他存储的内容致使一个或多个计算系统执行实施条款A01至A32中任一项所述的方法的自动化操作。
B02.一种非暂时性计算机可读介质,其存储有可执行软件指令和/或其他存储的内容,所述可执行软件指令和/或所述其他存储的内容致使一个或多个计算系统执行实施基本上如本文中公开的所描述的技术的自动化操作。
C01.一种或多种计算系统,包括一个或多个硬件处理器和具有存储的指令的一个或多个存储器,所述指令在由所述一个或多个硬件处理器中的至少一个执行时,致使所述一种或多种计算系统执行实施条款A01至A32中任一项所述的方法的自动化操作。
C02.一种或多种计算系统,包括一个或多个硬件处理器和具有存储的指令的一个或多个存储器,所述指令在由所述一个或多个硬件处理器中的至少一个执行时,致使所述一种或多种计算系统执行实施基本上如本文中公开的所描述的技术的自动化操作。
D01.一种计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序适于执行条款A01至A32中任一项所述的方法。
本文参考根据本公开的实施方式的方法、设备(系统)和计算机程序产品的流程图说明和/或框图来描述本公开的方面。将了解,可以通过计算机可读程序指令来实施流程图说明和/或框图的每个框以及流程图说明和/或框图中的框的组合。将进一步了解,在一些实施方式中,可以以替代性方式提供由上文讨论的例程提供的功能,诸如划分到更多的例程当中或合并到更少的例程中。类似地,在一些实施方式中,所说明的例程可以提供比所描述的功能更多或更少的功能,诸如在其他所说明的例程相应地改为缺少或包括这种功能时,或在所提供的功能的量变更时。另外,尽管各种操作可以被说明为按特定方式(例如,串行或并行或同步或异步)和/或按特定顺序执行,但在其他实施方式中,可以按其他顺序和其他方式执行操作。上文讨论的任何数据结构也可以按不同方式结构化,诸如通过将单个数据结构划分成多个数据结构和/或通过使多个数据结构合并成单个数据结构。类似地,在一些实施方式中,所说明的数据结构可以存储比所描述的信息更多或更少的信息,诸如在其他所说明的数据结构相应地改为缺少或包括这种信息时,或在所存储的信息的量或类型变更时。
根据上述内容,将了解,尽管出于说明的目的在本文中已描述了具体实施方式,但是在不脱离本发明的精神和范围的情况下,可以做出各种修改。因此,除了受对应的权利要求和那些权利要求所叙述的元素的限制外,本发明不受限制。此外,尽管在某些时候可以以某些权利要求形式呈现本发明的某些方面,但是本发明人设想以任何可用权利要求形式的本发明的各种方面。例如,尽管在特定时候仅本发明的一些方面可以被叙述为体现在计算机可读存储介质中,但是同样可以这样体现其他方面。

Claims (20)

1.一种计算机实施的方法,包括:
通过一个或多个计算装置,获得具有多个房间的指示的建筑物的数据,所述数据包括在所述指示的建筑物处采集的多个图像;
通过所述一个或多个计算装置并且基于所获得的数据,生成所述指示的建筑物的视频,所述视频描述所述多个房间中的至少一些,包括:
通过所述一个或多个计算装置,基于所述指示的建筑物中的对象和所述对象的可见特性,确定所述指示的建筑物的多个属性,包括分析所述多个图像,以识别所述对象并且确定所述可见特性;
通过所述一个或多个计算装置,选择用于所述视频的至少两个图像的组,所述至少两个图像是所述多个图像的子集,并且确定将所述至少两个图像的视觉数据包括在所述视频中的序列,其中,所述至少两个图像包括在至少一些房间中的每个中的至少一个图像,并且还包括一个或多个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述至少两个图像中的每个,选择所述图像的至少一些视觉数据,以包括在所述视觉部分中基于所确定的序列的位置,其中,选择所述一个或多个全景图像中的每个的所述至少一些视觉数据包括:选择所述全景图像的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;
通过所述一个或多个计算装置,并且针对所述至少两个图像中的每个,生成所述多个属性中的至少一个的、在所述图像的所述视觉数据中可见的文本描述;
通过所述一个或多个计算装置,生成所述视频的音频部分,包括:针对所述至少两个图像中的每个,使用至少一个属性的在所述图像的所述视觉数据中可见的所述文本描述,以在所述视觉部分中产生可听叙述信息,所述可听叙述信息是关于所述至少一个属性,并且与所述视觉部分中的所述图像的选择的视觉数据同时出现;以及
通过所述一个或多个计算装置,呈现关于所述指示的建筑物的所生成的视频中的至少一些。
2.根据权利要求1所述的计算机实施的方法,其中,分析所述多个图像以识别所述对象并且确定所述可见特性包括:使用一个或多个经训练的第一神经网络,其中,选择所述至少两个图像的组并且确定所述序列包括:使用一个或多个经训练的第二神经网络,所述经训练的第二神经网络进一步拒绝将所述多个图像中的至少一个包括在所述至少两个图像的所述子集中,其中,针对所述至少两个图像中的每个生成所述至少一个属性的所述文本描述包括:使用一个或多个经训练的语言模型,并且其中,所述方法还包括:在生成所述视频之前,训练所述一个或多个第一神经网络,以识别图像中的对象,并且确定这些对象的视觉特性;训练所述一个或多个第二神经网络,以选择要包括在视频中的图像,并且确定这些图像的序列;以及训练一个或多个语言模型,以生成建筑物的属性的文本描述。
3.根据权利要求1所述的计算机实施的方法,还包括:接收一个或多个搜索标准,并且至少部分地基于所生成的视频的所述叙述信息,确定所述指示的建筑物与所述一个或多个搜索标准相匹配,并且其中,呈现所生成的视频中的所述至少一些包括:通过所述一个或多个计算装置,并且通过一个或多个计算机网络,向一个或多个客户端装置传输包括所生成的视频的搜索结果,用于在所述一个或多个客户端装置上呈现。
4.根据权利要求1所述的计算机实施的方法,其中,所获得的数据还包括所述指示的建筑物的楼层平面图,所述楼层平面图指示具有所述多个房间的至少二维房间形状和相对位置的房间布局,其中,所述指示的建筑物的所述多个属性还包括一个或多个建筑物属性,所述一个或多个建筑物属性通过分析所述楼层平面图来识别,并且各自与所述房间布局的特性对应,并且其中,生成所述视频的所述音频部分还包括:基于生成为描述所述一个或多个建筑物属性的附加文本描述,在所述音频部分中产生附加可听叙述信息。
5.一种系统,包括:
一个或多个计算装置的一个或多个硬件处理器;以及
一个或多个存储器,具有存储的指令,所述存储的指令在由所述一个或多个硬件处理器中的至少一个执行时,致使所述一个或多个计算装置中的至少一个执行自动化操作,所述自动化操作至少包括:
获得具有多个房间的指示的建筑物的数据,包括在所述指示的建筑物处采集的多个图像、以及关于所述指示的建筑物的至少部分地基于所述指示的建筑物中的对象的多个属性的信息;
针对所述多个属性中的至少一些中的每个,生成所述属性的文本描述;
生成所述指示的建筑物的视频,所述视频基于所获得的数据,并且描述所述多个房间中的至少一些,包括:
选择具有至少一些房间的视觉数据的至少两个图像的组;
生成所述视频的视觉部分,包括:针对所述至少两个图像中的每个,选择所述图像的至少一些视觉数据以包括在所述视觉部分中;以及
生成所述视频的音频部分,包括:针对所述至少两个图像中的每个,并且针对至少一些属性中的在所述图像中可见的至少一个属性,使用所述至少一个属性的所生成的文本描述,以在所述音频部分中产生关于所述至少一个属性并且与所述视觉部分中的所述图像的选择的视觉数据同步的叙述信息;以及
提供关于所述指示的建筑物的信息,所述信息包括所生成的视频。
6.根据权利要求5所述的系统,其中,所述至少一个计算装置包括服务器计算装置,并且其中,所述一个或多个计算装置还包括用户的客户端计算装置,并且其中,所述存储的指令包括软件指令,所述软件指令由所述一个或多个计算装置执行时,致使所述一个或多个计算装置进一步执行自动化操作,所述自动化操作包括:
通过所述服务器计算装置,接收来自所述客户端计算装置的一个或多个搜索标准;
通过所述服务器计算装置,至少部分地基于所生成的视频,确定包括所述指示的建筑物的所述搜索标准的搜索结果;
通过所述服务器计算装置,通过在一个或多个计算机网络上向所述客户端计算装置传送关于所述指示的建筑物的所述信息,执行提供关于所述指示的建筑物的所述信息,所传送的信息包括所确定的搜索结果;以及
通过所述客户端计算装置,接收包括所确定的搜索结果的所传送的信息,并且在所述客户端计算装置上显示所确定的搜索结果,以使得能够在所述客户端计算装置上呈现所生成的视频。
7.根据权利要求5所述的系统,其中,获得关于所述多个属性的所述信息包括:分析所述多个图像的视觉数据,以识别所述指示的建筑物中的所述对象,其中,所述多个属性中的所述至少一些是所述对象中的至少一些,并且其中,选择所述至少两个图像的组包括:至少部分地基于在所述至少一些房间中采集所述多个图像的子集的图像,选择所述多个图像的所述子集以包括在所述组中,并且还包括从所述子集排除所述多个图像中的至少一个。
8.根据权利要求5所述的系统,其中,选择所述至少两个图像中的每个的至少一些视觉数据包括以下至少一个:
针对各自是全景图像的所述至少两个图像中的一个或多个中的每个,选择所述图像的所述视觉数据的、将连续示出并且与所述图像内的平移或倾斜中的至少一个对应的多个子集;以及
针对所述至少两个图像中的一个或多个中的每个,选择在所述图像内执行变焦,以示出与在所述一个图像中可见的所述至少一个属性中的一个或多个对应的信息。
9.根据权利要求5所述的系统,其中,生成所述视频的所述视觉部分还包括:在所述视觉部分中添加进一步视觉数据,以提供在所述至少两个图像的选择的视觉数据之间的一个或多个转变,并且其中,生成所述视频的所述音频部分还包括:针对所述一个或多个转变中的每个,在所述音频部分中产生描述所述转变并且与所述转变的进一步视觉数据同步的附加叙述信息。
10.根据权利要求5所述的系统,其中,所述至少两个图像的组包括在所有的所述多个房间中的图像,并且所生成的视频进一步描述所有的所述多个房间,并且其中,所述自动化操作还包括:接收一个或多个指示的标准,并且其中,至少部分地基于所述一个或多个指示的标准来执行提供关于所述指示的建筑物的所述信息。
11.根据权利要求10所述的系统,其中,生成所述视频还包括以下至少一个:
在所述视频内生成多个视频片段,所述多个视频片段各自与所述多个房间中的一个或多个、所述对象中的一个或多个中的至少一个对应,并且通过去除所述多个视频片段中的至少一个来修改所述视频以满足所述一个或多个指示的标准,其中,所述一个或多个指示的标准包括视频长度的指示、与所述多个房间中的至少一个房间对应的指示、与所述对象中的至少一个对象对应的指示中的至少一个,并且其中,提供所述信息包括提供所修改的视频;以及
生成多个视频,所述多个视频各自与所述多个房间中的一个或多个、所述对象中的一个或多个中的至少一个对应,并且其中,提供关于所述指示的建筑物的所述信息包括:选择并且提供所述多个视频中的满足所述一个或多个指示的标准中的一个。
12.根据权利要求5所述的系统,其中,所述自动化操作还包括接收特定于指示的用户的一个或多个标准,其中,进一步执行生成所述视频,以通过满足所述一个或多个标准来使所生成的视频对所述指示的用户个性化,并且其中,提供关于所述指示的建筑物的所述信息包括向所述指示的用户提供所述视频。
13.根据权利要求5所述的系统,其中,生成所述至少一些属性中的每个的所述文本描述使用一个或多个经训练的语言模型,其中,选择所述至少两个图像的组包括使用一个或多个经训练的神经网络,所述经训练的神经网络进一步拒绝将所述多个图像中的至少一个包括在所述组中,并且其中,所述自动化操作还包括:在生成所述视频之前,训练所述一个或多个语言模型以生成所述建筑物的所述属性的文本描述,并且训练一个或多个神经网络以选择要包括在视频中的图像。
14.根据权利要求5所述的系统,其中,所获得的数据还包括所述指示的建筑物的楼层平面图,所述楼层平面图指示具有所述多个房间的至少二维房间形状和相对位置的房间布局,其中,所述指示的建筑物的所述多个属性还包括一个或多个建筑物属性,所述一个或多个建筑物属性通过分析所述楼层平面图来识别,并且各自与所述房间布局的特性对应,并且其中,生成所述视频的所述音频部分还包括:在所述音频部分中产生被生成为描述所述一个或多个建筑物属性的附加叙述信息。
15.根据权利要求5所述的系统,其中,所述至少一些属性包括以下至少一个:
通过分析所述指示的建筑物的楼层平面图来生成的一个或多个主观属性,所述一个或多个主观属性包括开放式楼层平面图、无障碍楼层平面图、非标准楼层平面中的至少一个;
通过分析所述楼层平面图来生成的一个或多个全局属性,并且所述一个或多个全局属性与所有的所述指示的建筑物相关联;
通过分析所述多个图像来生成的一个或多个局部属性,并且所述一个或多个局部属性各自与所述多个房间中的一个相关联;以及
通过分析所述多个图像来确定的对象的表面材料的颜色和类型,其中,所述对象包括至少电器、家具和结构元素。
16.根据权利要求5所述的系统,其中,所获得的数据还包括附加建筑物信息,所述附加建筑物信息包括所述建筑物的文本描述、与所述对象相关联的标签、与所述房间相关联的标签、与所述对象相关联的描述性文本注释、与所述房间相关联的描述性文本注释、链接所述多个图像中的至少一些的相互连接的组中的至少一个,并且其中,所述自动化操作还包括:分析所述附加建筑物信息,以确定所述至少一些属性中的一些或全部。
17.根据权利要求5所述的系统,其中,生成所述视频的所述音频部分包括:使用一个或多个语言模型,所述一个或多个语言模型被训练为使用关于所述至少一些属性、关于所述建筑物中与所述至少一些属性对应的位置以及关于所述至少一些属性的时间和/或序列的信息作为输入,其中,所述一个或多个语言模型包括使用图像/字幕元组训练的视觉和语言模型(VLM)、使用一个或多个定义的知识源训练的知识增强自然语言生成(VENLG)模型、使用其中节点表示实体并且边表示谓语关系的知识图的语言模型中的至少一个。
18.一种非暂时性计算机可读介质,具有存储的内容,所述存储的内容致使一个或多个计算装置执行自动化操作,所述自动化操作至少包括:
通过所述一个或多个计算装置,获得具有多个房间的指示的建筑物的数据,所述数据包括在所述指示的建筑物处采集的多个图像;
通过所述一个或多个计算装置并且基于所获得的数据,生成所述指示的建筑物的视频,包括:
通过所述一个或多个计算装置,确定所述指示的建筑物的包括所述指示的建筑物中的对象的多个属性,包括分析所述多个图像以识别所述对象;
通过所述一个或多个计算装置,选择用于所述视频的一个或多个图像的组,所述一个或多个图像是所述多个图像的子集,并且包括至少一个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述一个或多个图像中的每个,选择所述图像的至少一些视觉数据以包括在所述视觉部分中,包括选择所述至少一个全景图像中的每个的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;
通过所述一个或多个计算装置,生成所述多个属性中的在所述一个或多个图像的所述视觉数据中可见的两个或更多个属性的文本描述;
通过所述一个或多个计算装置,生成所述视频的音频部分,包括使用所述两个或更多个属性的所生成的文本描述,以在所述音频部分中产生可听叙述信息,所述可听叙述信息是关于所述两个或更多个属性并且伴随所述视觉部分中的选择的视觉数据,所述两个或更多个属性在所述选择的视觉数据中是可见的;
通过所述一个或多个计算装置,提供所述指示的建筑物的所生成的视频。
19.根据权利要求18所述的非暂时性计算机可读介质,其中,选择所述一个或多个图像的组以用于所述视频包括:选择两个或更多个图像,以按确定序列在所述视频中使用,
其中,生成所述视频的所述音频部分还包括:针对所述两个或更多个图像中的每个,并且针对所述两个或更多个属性中的在所述图像中可见的至少一个中的每个,使用所述属性的生成的文本描述,以在所述视觉部分中产生与所述图像的选择的视觉数据同时出现的所述可听叙述信息的部分,以及
其中,所述存储的内容包括软件指令,所述软件指令在由所述一个或多个计算装置执行时,致使所述一个或多个计算装置执行进一步自动化操作,所述进一步自动化操作包括:
在所述指示的建筑物内的多个采集位置处采集所述多个图像;
通过所述一个或多个计算装置,接收来自客户端计算装置的一个或多个搜索标准;
通过所述一个或多个计算装置,至少部分地基于所生成的视频,确定所述搜索标准的、包括所述指示的建筑物的搜索结果;以及
通过所述一个或多个计算装置,执行提供所生成的视频作为通过一个或多个计算机网络向所述客户端计算装置传输所确定的搜索结果的部分,以能够在所述客户端计算装置上呈现所生成的视频。
20.一种计算机实施的方法,包括:
通过一个或多个计算装置,获得关于具有多个房间的房屋的数据,包括在所述房屋处采集的多个图像和所述房屋的楼层平面图,所述楼层平面图包括具有所述多个房间的至少二维房间形状和相对位置的房间布局;
通过所述一个或多个计算装置,基于所获得的数据来生成所述房屋的描述信息,包括:
通过所述一个或多个计算装置,并且使用一个或多个经训练的第一神经网络模型,分析所述多个图像,以识别所述房屋内部的多个对象,并且确定所述多个对象的属性;
通过所述一个或多个计算装置,并且使用一个或多个经训练的第二神经网络模型,分析所述楼层平面图,以确定所述房屋的进一步属性,所述进一步属性各自与所述房间布局的特性对应;以及
通过所述一个或多个计算装置,并且使用一个或多个经训练的语言模型,生成所述属性和所述进一步属性中的每个的文本描述,并且组合所生成的文本描述以创建所述房屋的属性描述信息;
通过所述一个或多个计算装置,基于所生成的描述信息,生成使用叙述描述所述房屋的视频,包括:
通过所述一个或多个计算装置,并且使用一个或多个经训练的第三神经网络模型,确定多个图像的组以按确定序列用于所述视频,所述多个图像是所述多个图像的子集,其中,所述多个图像包括在所述多个房间中的每个中的至少一个图像,并且还包括一个或多个全景图像;
通过所述一个或多个计算装置,生成所述视频的视觉部分,包括:针对所述多个图像中的每个,选择所述图像的至少一些视觉数据,以包括在所述视觉部分中与所确定的序列对应的位置,并且还包括:将附加视觉数据插入所述视觉部分中,以提供所确定的序列中的相邻图像的选择的视觉数据之间的一个或多个转变,其中,选择所述一个或多个全景图像中的每个的所述至少一些视觉数据包括:选择所述全景图像的所述视觉数据的、将连续示出并且与所述全景图像内的平移或倾斜中的至少一个对应的多个子集;以及
通过所述一个或多个计算装置,生成所述视频的音频部分,包括:
针对所述多个图像中的每个,确定所述对象中的在所述图像中可见的一个或多个,并且使用一个或多个对象的所述属性中的一个或多个的所述文本描述,以在所述音频部分中包括可听叙述信息,所述可听叙述信息是关于一个或多个属性,并且与所述视觉部分中的所述图像的选择的视觉数据同时出现;
针对所述一个或多个转变中的每个,在所述音频部分中添加关于所述转变并且与所述转变的所述视觉部分中的所述附加视觉数据同时出现的附加可听叙述信息,以及
与所述视频的所述视觉部分的开始或结束中的至少一个同时,基于与所述房间布局的特性对应的所述进一步属性中的每个的所述文本描述,在所述音频部分中添加进一步可听叙述信息;
通过所述一个或多个计算装置,接收一个或多个搜索标准;以及
通过所述一个或多个计算装置,并且响应于至少部分地基于所述视频的所述叙述而确定所述房屋与所述一个或多个搜索标准匹配,呈现搜索结果,所述搜索结果指示所述房屋,并且包括描述所述房屋的所生成的视频。
CN202310180912.0A 2022-08-22 2023-02-28 通过分析采集的图像和其他建筑物信息自动化生成和使用具有伴随叙述的建筑物视频 Pending CN117615223A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202217892427A 2022-08-22 2022-08-22
US17/892,427 2022-08-22

Publications (1)

Publication Number Publication Date
CN117615223A true CN117615223A (zh) 2024-02-27

Family

ID=85410229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310180912.0A Pending CN117615223A (zh) 2022-08-22 2023-02-28 通过分析采集的图像和其他建筑物信息自动化生成和使用具有伴随叙述的建筑物视频

Country Status (4)

Country Link
EP (1) EP4328866A1 (zh)
CN (1) CN117615223A (zh)
AU (1) AU2023201129A1 (zh)
CA (1) CA3188628A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120162253A1 (en) * 2012-03-05 2012-06-28 David Collins Systems and methods of integrating virtual flyovers and virtual tours
US10708507B1 (en) * 2018-10-11 2020-07-07 Zillow Group, Inc. Automated control of image acquisition via use of acquisition device sensors
US11714518B2 (en) * 2019-10-17 2023-08-01 Rishi M Gharpuray Method and system for virtual real estate tours and virtual shopping
US10825247B1 (en) * 2019-11-12 2020-11-03 Zillow Group, Inc. Presenting integrated building information using three-dimensional building models

Also Published As

Publication number Publication date
EP4328866A1 (en) 2024-02-28
AU2023201129A1 (en) 2024-03-07
CA3188628A1 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
AU2021240285B2 (en) Automated tools for generating building mapping information
AU2021272244B2 (en) Automated determination of image acquisition locations in building interiors using determined room shapes
AU2022200299B2 (en) Automated direction of capturing in-room information for use in usability assessment of buildings
AU2022200297B2 (en) Automated usability assessment of buildings using visual data of captured in-room images
CA3145605C (en) Automated exchange and use of attribute information between building images of multiple types
EP4307199A1 (en) Automated building identification using floor plans and acquired building images
CN117456040A (zh) 用于建筑物测绘信息的增量生成的自动化工具
CN117253139A (zh) 用于评估建筑物测绘信息生成的自动化工具
EP4328866A1 (en) Automated generation and use of building videos with accompanying narration from analysis of acquired images and other building information
EP4343582A1 (en) Automated generation and presentation of visual data enhancements on camera view images captured in a building
US20240160797A1 (en) Automated Generation And Use Of Building Videos Based On Analysis Of Building Floor Plan Information
EP4328868A1 (en) Automated generation and use of building information from analysis of floor plans and acquired building images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination