CN110471886A - 用于基于检测桌子周围的文件和人来搜索文件和人的系统 - Google Patents

用于基于检测桌子周围的文件和人来搜索文件和人的系统 Download PDF

Info

Publication number
CN110471886A
CN110471886A CN201910170670.0A CN201910170670A CN110471886A CN 110471886 A CN110471886 A CN 110471886A CN 201910170670 A CN201910170670 A CN 201910170670A CN 110471886 A CN110471886 A CN 110471886A
Authority
CN
China
Prior art keywords
ranked list
file
personage
files
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910170670.0A
Other languages
English (en)
Inventor
P·邱
金哲暄
上野肇
Y·贾亚迪
安东尼·邓尼根
S·卡特
弗朗辛·陈
赵健
B·Y·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Applied Co Ltd
Fujifilm Business Innovation Corp
Original Assignee
Fuji Applied Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Applied Co Ltd filed Critical Fuji Applied Co Ltd
Publication of CN110471886A publication Critical patent/CN110471886A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B13/00Optical objectives specially designed for the purposes specified below
    • G02B13/06Panoramic objectives; So-called "sky lenses" including panoramic objectives having reflecting surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

用于基于检测桌子周围的文件和人来搜索文件和人的系统。系统和方法致力于使用第一摄像头系统来拍摄靠近桌面的一个或更多个人的第一图像;使用第二摄像头系统来拍摄靠近桌面的一个或更多个文件的第二图像;生成对数据库的查询,该数据库是从对第一图像进行的人物识别和对第二图像进行的文本提取得到的;基于查询结果来确定第一人物排名列表和第二文件排名列表,该结果基于所计算的双模网络排名列表;并且在显示器上提供用于访问与来自第一人物排名列表中的一个或更多个人和来自第二文件排名列表中的一个或更多个文件有关的信息的接口。

Description

用于基于检测桌子周围的文件和人来搜索文件和人的系统
技术领域
本公开总体涉及文件管理系统,具体地涉及会议或办公环境中的文件和人物识别和取得。
背景技术
在相关技术实施方案中,虽然存在基于搜索相关文件来搜索相关人物的搜索系统,但这种实施方案没有将可能同时发生的会议或办公环境的背景考虑在内。
在相关技术实施方案中,存在深度学习面部检测和识别算法,这些深度学习面部检测和识别算法对可能难以检测并识别未在两只眼睛可见的情况下面向摄像头的面部的之前算法进行了改进。使用这种相关技术实施方案,可以在不同的姿势并在来自覆盖180°视野的鱼眼镜头或覆盖360°视野的全景摄像头的失真的情况下检测并识别面部。
发明内容
在相关技术实施方案中,虽然存在可以从数据库取得组织内的相关人物(例如,基于相关文件的作者)的系统,但不存在使用与可以是围绕桌子或办公桌开会的会议或办公环境中的参加者有关的信息的系统。在各种会议情况下,可能需要这种信息以基于会议参加者来容易地访问并打印或取得用于呈现的相关文件。
例如,如果对于会议或桌面讨论未制作文件的足够实体拷贝,则通常麻烦的是会议成员取得文件来进行另一次实体打印输出,因为这些成员将必须访问计算机和文件管理系统来打印输出文件。或者,如果会议的特定成员请求文件的软拷贝,则文件的作者通常将必须返回到他们的办公桌来访问计算机,以经由电子邮件或其他方法来转发这种文件。进一步地,如果在会议讨论期间存在特定主题而会议的其他成员具有相关的出版论文,则这些成员可能希望访问他们的相关文件,但无法访问计算机或其他装置来取得这些文件并向会议成员提供。
这里描述的示例实施方案通过以下方案来解决上述问题:识别由鱼眼镜头拍摄的桌子周围的人,并且使用这种信息来制定查询并处理所取得的结果,以生成相关人物和文件的交互可视化。
本公开的方面包括一种系统,该系统涉及处理器,该处理器被配置为:使用第一摄像头系统来拍摄靠近桌面的一个或更多个人的第一图像;使用第二摄像头系统来拍摄靠近桌面的一个或更多个文件的第二图像;生成对数据库的查询,该数据库是根据对第一图像进行的人物识别和对第二图像进行的文本提取得到的;基于查询结果来确定第一人物排名列表和第二文件排名列表,该结果基于所计算的双模网络排名列表;并且在显示器上提供用于访问来自第二文件排名列表中的一个或更多个文件的接口。
本公开的方面还包括一种方法,该方法涉及:使用第一摄像头系统来拍摄靠近桌面的一个或更多个人的第一图像;使用第二摄像头系统来拍摄靠近桌面的一个或更多个文件的第二图像;生成对数据库的查询,该查询是根据对第一图像进行的人物识别和对第二图像进行的文本提取得到的;基于查询结果来确定第一人物排名列表和第二文件排名列表,该结果基于所计算的双模网络排名列表;以及在显示器上提供用于访问来自第二文件排名列表中的一个或更多个文件的接口。
本公开的方面还包括一种存储用于执行处理的指令的永久计算机可读介质,该处理涉及:使用第一摄像头系统来拍摄靠近桌面的一个或更多个人的第一图像;使用第二摄像头系统来拍摄靠近桌面的一个或更多个文件的第二图像;生成对数据库的查询,该数据库是根据对第一图像进行的人物识别和对第二图像进行的文本提取得到的;基于查询结果来确定第一人物排名列表和第二文件排名列表,该结果基于所计算的双模网络排名列表;以及在显示器上提供用于访问来自第二文件排名列表中的一个或更多个文件的接口。
借助这里描述的示例实施方案,可以对于在桌面讨论周围的参加者取得相关文件,以在呈现应用上执行以进行显示,以在需要拷贝的另外打印输出时进行打印输出,或者用于在无需找到对计算机终端的访问来访问这些文件的情况下向其他用户装置提供软拷贝。进一步地,还可以通过以下操作来向桌面讨论的成员提供与手边主题有关的文件:使用人物识别和双模网络来取得与手边讨论相关的由桌面讨论的成员写作的文件。
附图说明
图1例示了根据示例实施方案的系统的示例概述。
图2(a)至图2(d)例示了根据示例实施方案的搜索结果的交互可视化。
图3例示了根据示例实施方案的系统的示例硬件图。
图4例示了根据示例实施方案的用于从输入计算输出的示例处理流水线。
图5例示了根据示例实施方案的用于基于主题分析计算双模网络的示例处理流水线。
具体实施方式
以下具体实施方式提供了本申请的附图和示例实施方案的另外细节。为了清楚起见,省略附图之间的冗余元件的附图标记和描述。贯穿说明书使用的术语作为示例来提供且不旨在限制。例如,措辞“自动的”的使用依赖于实践本申请的实施方案的本领域一个普通技术人员的期望实施方案而可以涉及完全自动或半自动实施方案,这些实施方案涉及在实施方案的特定方面上的用户或管理员控制。
图1例示了根据示例实施方案的系统的示例概述。在系统的示例实施方案中,对于会议或办公环境一前一后地进行人物识别101和文件拍摄102,搜索引擎103和处理结果104处理该人物识别和文件拍摄,以产生可视化105。这里描述的示例实施方案致力于一种系统,该系统搜索在会议或办公环境的背景下的相关文件和人,诸如围绕桌子的小组会议(但不限于此)、或坐在智能办公桌处的人物。基于来自桌子上的文件的文本连同参加者的姓名制定搜索查询。文件文本使用高分辨率摄像头和光学字符识别(OCR)来获得。参加者的姓名使用鱼眼镜头和基于深度学习的面部识别算法来获得。处理搜索结果,以生成相关文件和参加者的不同排名列表(例如,关注于所识别的参加者及其文件或滤除所识别的参加者及其文件)。基于主题分析来计算双模网络排名列表,以使用交互应用可视化。
图2(a)至图2(d)例示了根据示例实施方案的搜索结果的交互可视化。在图2(a)的示例实施方案中,所识别人物被“定”在中心列附近。中心列中的各项表示主题(例如,具有三个主题术语),并且各行包含用于该主题的相关人物和文件(例如,排名越高的项越大且越接近中心列)。然而,还可以实施用于搜索结果的可视化的其他实施方案,并且本公开不限于此。例如,交互可视化可以基于提高如这里描述的所识别人物及其文件的排名分数来提供视图。还可以依赖于期望的实施方案以及会议或交互的背景来基于滤除所识别人物及其文件来提供视图,或者基于所有相关文件和人物来提供视图。如这里描述的,图2(b)例示了基于提高所识别人物及其文件的排名分数的示例交互视图。图2(c)例示了基于滤除所识别人物及其文件的示例交互视图。图2(d)例示了基于所有相关文件和人物的示例交互视图。根据期望实施方案,还可以构建其他交互视图。
图3例示了根据示例实施方案的系统的示例硬件图。系统300可以包括用于人拍摄的摄像头系统301、用于文件拍摄的单独摄像头系统302、处理器303、存储器304、显示器305、以及接口(I/F)306。系统300被配置为监测桌面310,该桌面可以具有被放置在桌面上的一个或更多个文件311。桌面310可以为智能办公桌、会议桌或上面可以放置一个或更多个文件311的其他实体表面的形式。一个或更多个文件311可以为纸质文件的形式,或者可以为根据期望实施方案的其他形式,诸如平板电脑、电子阅读器等。
用于人拍摄的摄像头系统301可以为被配置为人检测的180度鱼眼镜头摄像头的形式。因为许多会议室、智能办公桌以及其他办公环境通常可以为了视频会议或其他目的而具有180°鱼眼镜头摄像头,从而,在包含180°鱼眼镜头摄像头的这种环境中可以无缝实施示例实施方案。另一选项是使用在桌子中心处放置的360°全景摄像头。在示例实施方案中,处理器303可以使用用于人拍摄的摄像头系统301来拍摄靠近桌面310的一个或更多个人的图像(例如,适用于坐在桌面310附近的人,适用于在桌面310的特定距离内的人,仅适用于站立的说话者等)。接近性可以是如根据期望实施方案定义的预设阈值。
用于文件拍摄的摄像头系统302可以为可以被配置为检测来自一个或更多个文件311的文本的高分辨率摄像机的形式,并且操作为以比用于人拍摄的摄像头系统301高的像素密度来拍摄。在示例实施方案中,高分辨率摄像机还可以被配置为对文件内的人的照片进行人物识别,如果一个或更多个文件311包含这种信息。依赖于期望的实施方案,一个摄像头系统可以用于文件拍摄和面部拍摄这两者,如果会议设施或办公环境实现这种实施方案。处理器303可以使用用于文件拍摄的摄像头系统302来拍摄靠近桌面(例如,在桌面310的边界内等)的一个或更多个文件的图像。接近性可以基于根据期望实施方案设置的阈值。
显示器305依赖于期望实施方案可以为用于可视化和与搜索结果交互的触摸屏的形式。显示器305还可以包括具有中央控制器的一组显示器,这些显示器示出如从图2(a)至图2(d)例示的全尺寸版本的独立文件。I/F 306依赖于期望实施方案可以包括接口装置,诸如键盘、鼠标、触摸板或用于显示器305的其他输入装置。
在示例实施方案中,处理器303可以为中央处理单元(CPU)的形式,该CPU包括实体硬件处理器或硬件和软件处理器的组合。处理器303被配置为接受用于系统的输入,该输入可以包括来自用于文件拍摄的摄像头302和来自具有用于面部检测和识别的180°鱼眼镜头的摄像头301的摄像头图像。处理器303可以生成数据结构,作为包括双模网络排名列表的输出,在该列表中,各网络具有由文件排名列表和人物排名列表指定的两组顶点。这种排名列表然后可以以如图2(a)至图2(d)例示的形式提供给显示器305。处理器303还可以被配置为执行如图4和图5例示的流程图,以实现这里描述的实施方案,这些实施方案用于:生成对数据库的查询,该数据库是从摄像头系统301和302对图像进行的人物识别和文本提取得到的;基于查询结果来确定第一人物排名列表和第二文件排名列表,该结果基于所计算的双模网络排名列表;并且在显示器305上提供用于访问来自第二文件排名列表中的一个或更多个文件的接口。
借助I/F 306或借助显示器305(如果将显示器实施为触摸屏),用户访问一个或更多个文件,其中,依赖于期望的实施方案,处理器303可以被配置为进行以下中的至少一项:执行用于所访问的一个或更多个文件的呈现应用;和通过将文件传输到实体打印机来打印输出所访问的一个或更多个文件。
在另外的示例实施方案中,借助I/F 306或借助显示器305(如果显示器被实施为触摸屏),用户还可以访问与来自所显示的人物排名列表中的一个或更多个人有关的信息,其中,处理器303被配置为进行以下中的至少一项:访问来自排名列表中的一个或更多个人的联系信息(例如,电子邮件地址、办公电话号码、地址、手机号码、聊天应用句柄等);和执行通信应用以根据联系信息联系所访问的一个或更多个人。例如,在访问了来自排名列表中的一个或更多个人的联系信息时,可以开启电子邮件应用,或者响应于手机号码或聊天应用句柄的选择,可以开始发短信/聊天应用。进一步地,响应于选择办公电话号码或手机号码,可以通过互联网协议电话(VoIP)或借助语音应用或其他方法来进行电话呼叫。用于根据期望实施方案开始适当应用或联系所选人物的其他实施方案也是可行的,并且本公开不受任何特定实施方案限制。
图4例示了根据示例实施方案的用于从输入计算输出的示例处理流水线。具体地,图4例示了图1所例示的整个系统的示例实施方案。系统检测并拍摄在桌面401上的文件,而且检测并识别在桌面402周围的面部。在示例实施方案中,文件和人物的搜索可以基于所制定的查询字符串405通过使用如本领域中已知的基于标准文本的搜索引擎从文件元数据(例如,涉及诸如“标题”、“摘要”、“作者”等的字段)的数据集来进行。如这里描述的文件拍摄实施方案提供页面内容的OCR文本403。如这里描述的面部检测和识别实施方案提供在桌子周围的所识别人物的姓名404。
在制定查询405的示例实施方案中,可以使用具有页面内容(去除停用词)和姓名的词库。然而,在一些实施方案中,如果页面上的词的数量远大于来自姓名的词的数量,则会存在问题。为了解决这种潜在问题,在示例实施方案中,可以执行关于页面文本和关于姓名的两次单独查询,并且将结果组合。另一示例实施方案可以通过将具有来自姓名的词的“作者”字段作为目标来指定查询。还可以根据期望实施方案使用其他方法来制定查询405。
根据搜索引擎的输出,由文件元数据项排名列表连同文件元数据项的相关分数来描述结果407。为了计算双模网络,可以使用不同模型(例如,双聚类、联合聚类、主题建模等)。下面描述涉及主题建模和对应计算的示例实施方案。
从所计算的双模网络,产生可视化,以显示结果409,使得由缩略图的行表示各双模网络,人物在左边,文件在右边。根据期望实施方案,可以使用任意照片检测方法或可视文件概括方法来确定文件缩略图。另外,该输出针对各双模网络提供了描述或标签,其依赖于网络是如何建模的。
文件拍摄和OCR
为了拍摄用于查询的文件,对于实体纸质文件,系统300借助高分辨率摄像头系统302拍摄并重构高分辨率文件图像。文件不是必须为纸质形式;例如,根据期望实施方案,还可以使用显示数字文件的平板电脑或电子阅读器。OCR实施方案可以借助任意期望的实施方案来进行,诸如四维超正方体(Tesseract)开源OCR引擎。
人检测和识别
在示例实施方案中,因为办公环境和会议室通常涉及180°鱼眼镜头摄像头,所以由于在桌子周围的人的姿势以及来自180°鱼眼镜头的失真而在检测并识别人方面存在问题。采用相关技术人物识别技术导致用于这种实施方案的不良结果,特别是对于诸如面部的两只眼睛不可见时的面部识别的技术。为了克服上述问题,示例实施方案使用基于深度学习的方法来进行面部识别,其可以应对具有一只眼睛的头部姿势和鱼眼失真。
除了优秀的准确性,用于面部识别的深度学习实施方案还可以涉及“面部嵌入”表示的预计算,在这些实施方案应用于新的面部时,可以需要每个人的较少的面部图像来用于学习和识别。这种实施方案使得数据采集对于公司或组织较可行。
在示例实施方案中,面部识别利用具有“面部嵌入”表示的预训练面部识别模型,其提供从面部图像到欧几里德(Euclidean)空间的映射,其中,同一个人物的面部具有小的距离,而不同人的面部具有大的距离。一旦采集了人物的面部图像,则可以使用预训练的面部识别实施方案将面部图像嵌入到欧几里德空间中,并且将图像连通人的对应姓名或标识符存储在存储器304中。每当系统在所拍摄的图像中检测到面部时,将通过预训练面部识别而计算出的嵌入体与已存储的嵌入体进行比较。然后,系统300将该面部识别为与已存储的嵌入体当中最接近的一个嵌入体对应的人物。
另外,由于环境(例如,涉及靠近桌面310的人的环境)的性质,可以使用在相关技术实施方案中将不可用的用于人物识别的其他技术。这种实施方案涉及感测由靠近桌面310的人佩戴的徽章并基于所检测的徽章来得到用于人物的面部识别,或检查用于通过电话会议而连接到会议的远程参加者的用户名。用于进行靠近桌面310的人的识别的其他实施方案也可以进行,并且本公开不限于任何特定实施方案。
基于主题分析来计算双模网络
图5例示了根据示例实施方案的用于基于主题分析计算双模网络的示例处理流水线。
上面描述了用于搜索文件元数据的查询制定。将查询输入到搜索引擎502中提供相关文件元数据项排名列表以及其搜索排名分数503。阈值(例如,100)确定被返回的排名靠前的文件的数量。
单独地,对文件元数据506执行主题分析507,以获得主题508的列表。各主题由一组术语及其关联的概率来表示。对于各文件,针对各主题,基于使主题术语与文件元数据文本的匹配来在509处计算主题相似性分数:
sim(doc,topic)=∑wordp(word|doc)p(word|topic)
对于各作者,还通过在该作者的一组文件上对sim(doc,topic)取平均来在510处计算主题相似性分数。该主题分析步骤可以是预计算的(或随着更新数据集而定期计算)。
为了计算相关主题排名列表,可以如下计算主题排名分数:对于各主题ti,在相关文件{dj}上迭代,并且对关于dj的主题相似性分数sji与dj的搜索排名分数的乘积进行总计。然后,按照这些主题排名分数对主题分类。
对于各相关主题,针对该主题寻找最相关的文件和人物。这些项形成双模网络。在图2(a)的示例中,项连同中心列中的主题的顶部术语一起显示为行。为了计算针对主题ti的最相关的文件,使用第j个文件的主题分数sji。如果文件具有与所识别的人物(来自面部检测)匹配的多个作者,则可以提高该分数sji(例如,通过乘以匹配计数)。
类似地,为了计算针对主题ti的最相关的人物,使用第j位作者的主题分数Sji。如果作者与所识别的人物(来自面部检测)具有匹配,则可以提高该分数Sji(例如,通过乘以权重,诸如10.0)。
不同的视图和个性化
基于个性化原理,可以生成不同的视图。执行搜索个性化的示例实施方案包括查询增强和结果处理。系统通过使用所识别的人物(来自面部检测)姓名制定查询来执行查询增强。通过使用结果处理的不同变化,可以生成如在图2(a)至图2(c)中描述的不同视图。可以通过在用户界面中将多个视图组织为标签来支持多个视图。通过提高搜索结果中的所识别的人物及其文件的相关分数,可视化可以关注于这些人物。使用该视图的示例是在会议期间,用户可以容易地访问并讨论某一相关项目或要联系的同事。这对于以下常见情况可以是优选的:会议参加者说他们将在会议之后发送文件和联系信息,而在讨论的背景已丢失(或有时信息后来未能共享)时。
通过滤除搜索结果中的所识别人物及其文件,可视化可以关注于其他人物和文件。使用该视图的示例是单个用户,该单个用户坐在她的办公桌处。用户知道他们自己的文件,并且不需要通过拿起贵重的屏幕不动产来看文件。
在没有任何个性化结果处理(但仍然具有查询增强)的情况下,示例实施方案可以产生基于所有相关文件和人物的视图。这种实施方案提供一组相关项,而该组相关项是用户将从标准搜索应用预期的,因此可以是有用的选项。
具体实施方式的一些部分鉴于计算机内的运算的算法以及符号表示来呈现。这些算法描述以及符号表示是由数据处理本领域技术人员用于向本领域其他技术人员传达他们创新的本质的手段。算法是引起期望结束状态或结果的一系列已定义步骤。在示例实施方案中,所进行的步骤需要用于实现有形结果的有形量的物理操纵。
除非另外特别陈述,否则如从讨论明显的是应理解:在整个说明书中,使用诸如“处理”、“计算”、“确定”、“显示”等的术语的讨论可以包括计算机系统或其他信息处理装置的动作和处理,计算机系统或其他信息处理装置操纵并将被表示为计算机系统的寄存器和存储器内的物理(电子)量的数据变换成类似地被表示为计算机系统的存储器或寄存器或其他这种信息存储、传输或显示装置内的物理量的其他数据。
示例实施方案还可以涉及一种用于执行这里的运算的设备。该设备可以为了所需目的而专门构建,或者它可以包括由一个或更多个计算机程序选择性地启动或重构的一个或更多个通用计算机。这种计算机程序可以存储在计算机可读介质中,诸如计算机可读存储介质或计算机可读信号介质。计算机可读存储介质可以涉及有形介质,诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器、或适于存储电子信息的任意其他类型的有形或永久介质。计算机可读信号介质可以包括诸如载波的介质。此处所呈现的算法和显示不与任何特定计算机或其他设备固有地相关。计算机程序可以涉及纯软件实施方案,这些纯软件实施方案涉及执行期望实施方案的运算的指令。
各种通用系统可以与根据这里的示例的程序和模块一起使用,或者它可以证明便于构建执行期望方法步骤的更专用设备。另外,示例实施方案不参照任何特定编程语言来描述。将理解,可以使用各种编程语言来实施如这里描述的示例实施方案的示教。编程语言的指令可以由一个或更多个处理装置(例如,中央处理单元(CPU)、处理器或控制器)来执行。
如本领域中已知的,上述运算可以由硬件、软件、或软件和硬件的某一组合来执行。示例实施方案的各种方面可以使用电路和逻辑装置(硬件)来实施,而其他方面可以使用在机器可读介质上存储的指令(软件)来实施,这些指令在由处理器执行时,将使得处理器执行进行本申请的实施方案的方法。进一步地,本申请的一些示例实施方案可以单独在硬件中执行,而其他示例实施方案可以单独在软件中执行。而且,所描述的各种功能可以在单个单元中执行,或者可以以任意数量的方式遍布若干部件。在由软件执行时,方法可以基于在计算机可读介质上存储的指令由处理器(诸如通用计算机)来执行。如果期望,则指令可以以压缩和/或加密格式存储在介质上。
而且,本申请的其他实施方案从本申请的示教的规范和实践的考虑将对本领域技术人物明显。所述示例实施方案的各种方面和/或组成部分可以单个或以任意组合使用。预期的是规范和示例实施方案仅被认为是示例,本申请的真实范围和精神由以下权利要求来指示。

Claims (20)

1.一种系统,该系统包括:
处理器,该处理器被配置为:
生成查询,该查询是根据对第一摄像头系统拍摄的第一图像进行的人物识别和对第二摄像头系统拍摄的第二图像进行的文本提取而得到的;
基于从所计算的双模网络排名列表得到的查询结果,确定第一人物排名列表和第二文件排名列表;并且
提供用于访问与来自所述第一人物排名列表的一个或更多个人和来自所述第二文件排名列表的一个或更多个文件有关的信息的接口。
2.根据权利要求1所述的系统,其中,所述第一摄像头系统包括鱼眼镜头摄像头,并且所述第二摄像头系统包括被配置为以比所述鱼眼镜头摄像头高的像素密度进行拍摄的摄像头。
3.根据权利要求1所述的系统,其中,所述结果是从以下操作得到的:基于由人物识别以及OCR文本提取得到的姓名,在数据库中搜索文件元数据来取得一个或更多个数据库文件,并且关于所取得的一个或更多个数据库文件计算所述双模网络排名列表。
4.根据权利要求3所述的系统,其中,所述处理器被配置为通过以下操作来基于所述查询结果确定第一人物排名列表和第二文件排名列表:对于所述排名列表中的各个双模网络,计算第一人物排名列表和第二文件排名列表。
5.根据权利要求3所述的系统,其中,所述处理器被配置为通过以下操作进行所述双模网络排名列表的计算:
基于对文件元数据执行的主题分析来计算相关主题排名列表,以对于相关主题排名列表中的各主题,产生所取得的一个或更多个数据库文件中的每一个的第一主题分数和与所述一个或更多个数据库文件关联的各作者的第二主题分数;
对于所述相关主题排名列表中的各主题,基于该第一主题分数和该第二主题分数,对所述双模网络中的每一个进行计算。
6.根据权利要求1所述的系统,其中,用于访问来自所述第二文件排名列表的一个或更多个文件的所述接口被配置为进行以下中的至少一项:执行针对所访问的一个或更多个文件的呈现应用;和打印所访问的一个或更多个文件。
7.根据权利要求1所述的系统,其中,用于访问与来自所述第一人物排名列表的一个或更多个人有关的信息的所述接口被配置为进行以下中的至少一项:访问来自所述第一人物排名列表的一个或更多个人的联系信息;和根据该联系信息执行通信应用来联系所访问的一个或更多个人。
8.一种方法,该方法包括:
生成查询,该查询是根据对第一摄像头系统拍摄的第一图像进行的人物识别和对第二摄像头系统拍摄的第二图像进行的文本提取而得到的;
基于从所计算的双模网络排名列表得到的查询结果,确定第一人物排名列表和第二文件排名列表;以及
提供用于访问与来自所述第一人物排名列表的一个或更多个人和来自所述第二文件排名列表的一个或更多个文件有关的信息的接口。
9.根据权利要求8所述的方法,其中,所述第一摄像头系统包括鱼眼镜头摄像头,并且所述第二摄像头系统包括被配置为以比所述鱼眼镜头摄像头高的像素密度进行拍摄的摄像头。
10.根据权利要求8所述的方法,其中,所述结果是从以下操作得到的:基于由人物识别以及OCR文本提取得到的姓名,在数据库中搜索文件元数据来取得一个或更多个数据库文件,并且关于所取得的一个或更多个数据库文件计算所述双模网络排名列表。
11.根据权利要求10所述的方法,其中,基于所述查询结果确定人的第一排名列表第一人物排名列表和第二文件排名列表的步骤还包括:对于所述排名列表中的各个双模网络,计算第一人物排名列表和第二文件排名列表。
12.根据权利要求10所述的方法,其中,计算双模网络排名列表的步骤包括:
基于对文件元数据执行的主题分析来计算相关主题排名列表,以对于相关主题排名列表中的各主题,产生针对所取得的一个或更多个数据库文件中的每一个的第一主题分数和针对与所述一个或更多个数据库文件关联的各作者的第二主题分数;
对于所述相关主题排名列表中的各主题,基于该第一主题分数和该第二主题分数,对所述双模网络中的每一个进行计算。
13.根据权利要求8所述的方法,其中,用于访问来自所述第二文件排名列表的一个或更多个文件的所述接口被配置为进行以下中的至少一项:执行针对所访问的一个或更多个文件的呈现应用;和打印所访问的一个或更多个文件。
14.根据权利要求8所述的方法,其中,用于访问与来自所述第一人物排名列表的一个或更多个人有关的信息的所述接口被配置为进行以下中的至少一项:访问来自所述第一排名列表的所述一个或更多个人的联系信息;和根据该联系信息执行通信应用来联系所访问的一个或更多个人。
15.一种存储了执行处理的指令的非易失性计算机可读介质,所述指令包括:
生成查询,该查询是根据对第一摄像头系统拍摄的第一图像进行的人物识别和对第二摄像头系统拍摄的第二图像进行的文本提取而得到的;
基于从所计算的双模网络排名列表得到的查询结果,确定第一人物排名列表和第二文件排名列表;以及
提供用于访问与来自所述第一人物排名列表的一个或更多个人和来自所述第二文件排名列表的一个或更多个文件有关的信息的接口。
16.根据权利要求15所述的非易失性计算机可读介质,其中,所述第一摄像头系统包括鱼眼镜头摄像头,并且所述第二摄像头系统包括被配置为以比所述鱼眼镜头摄像头高的像素密度进行拍摄的摄像头。
17.根据权利要求15所述的非易失性计算机可读介质,其中,所述结果是从以下操作得到的:基于由人物识别以及OCR文本提取得到的姓名,在数据库中搜索文件元数据来取得一个或更多个数据库文件,并且关于所取得的一个或更多个数据库文件计算所述双模网络排名列表。
18.根据权利要求17所述的非易失性计算机可读介质,其中,基于所述查询结果来确定第一人物排名列表和第二文件排名列表的处理还包括:对于所述排名列表中的各个所述双模网络,计算第一人物排名列表和第二文件排名列表。
19.根据权利要求17所述的非易失性计算机可读介质,其中,计算所述双模网络排名列表的处理包括:
基于对文件元数据执行的主题分析来计算相关主题排名列表,以对于相关主题排名列表中的各主题,产生针对所取得的一个或更多个数据库文件中的每一个的第一主题分数和针对与所述一个或更多个数据库文件关联的各作者的第二主题分数;
对于所述相关主题排名列表中的各主题,基于该第一主题分数和该第二主题分数,对所述双模网络中的每一个进行计算。
20.根据权利要求15所述的非易失性计算机可读介质,其中,用于访问来自所述第二文件排名列表的一个或更多个文件的所述接口被配置为进行以下中的至少一项:执行针对所访问的一个或更多个文件的呈现应用;和打印所访问的一个或更多个文件。
CN201910170670.0A 2018-05-09 2019-03-07 用于基于检测桌子周围的文件和人来搜索文件和人的系统 Pending CN110471886A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/975,682 US10810457B2 (en) 2018-05-09 2018-05-09 System for searching documents and people based on detecting documents and people around a table
US15/975,682 2018-05-09

Publications (1)

Publication Number Publication Date
CN110471886A true CN110471886A (zh) 2019-11-19

Family

ID=68464850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910170670.0A Pending CN110471886A (zh) 2018-05-09 2019-03-07 用于基于检测桌子周围的文件和人来搜索文件和人的系统

Country Status (3)

Country Link
US (1) US10810457B2 (zh)
JP (1) JP7293735B2 (zh)
CN (1) CN110471886A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210133262A1 (en) * 2019-10-31 2021-05-06 The Goodyear Tire & Rubber Company Tire purchase method
US11496897B2 (en) * 2020-02-24 2022-11-08 Citrix Systems, Inc. Biometric identification of information recipients
CN111368101B (zh) * 2020-03-05 2021-06-18 腾讯科技(深圳)有限公司 多媒体资源信息的展示方法、装置、设备以及存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
US20030123712A1 (en) * 2001-12-27 2003-07-03 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
US20080243820A1 (en) * 2007-03-27 2008-10-02 Walter Chang Semantic analysis documents to rank terms
US20110270845A1 (en) * 2010-04-29 2011-11-03 International Business Machines Corporation Ranking Information Content Based on Performance Data of Prior Users of the Information Content
US20120114197A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Building a person profile database
CN102667763A (zh) * 2009-08-07 2012-09-12 谷歌公司 带有社交网络辅助的面部识别
CN102999560A (zh) * 2011-10-26 2013-03-27 微软公司 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性
US20130166282A1 (en) * 2011-12-21 2013-06-27 Federated Media Publishing, Llc Method and apparatus for rating documents and authors
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
US8892549B1 (en) * 2007-06-29 2014-11-18 Google Inc. Ranking expertise
US20150199379A1 (en) * 2012-10-30 2015-07-16 Google Inc. Sorting and searching of related content based on underlying file metadata
US20150363405A1 (en) * 2014-06-17 2015-12-17 Adobe Systems Incorporated Method and apparatus for generating ordered user expert lists for a shared digital document
CN106131704A (zh) * 2016-08-30 2016-11-16 天脉聚源(北京)传媒科技有限公司 一种节目搜索的方法和装置
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法
CN106716399A (zh) * 2014-07-25 2017-05-24 脸谱公司 排序在线社交网络上的外部内容
US20170351909A1 (en) * 2016-06-03 2017-12-07 Magic Leap, Inc. Augmented reality identity verification
CN107636651A (zh) * 2015-08-24 2018-01-26 谷歌有限责任公司 使用自然语言处理生成主题索引
US20180060325A1 (en) * 2016-08-26 2018-03-01 Microsoft Technology Licensing, Llc Rank query results for relevance utilizing external context
US20180095966A1 (en) * 2016-10-04 2018-04-05 Microsoft Technology Licensing, Llc Presenting ranked search results based on accessibility scores

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312734A1 (en) * 2005-10-07 2010-12-09 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
JP2007293454A (ja) * 2006-04-21 2007-11-08 Fuji Xerox Co Ltd 資料提示システム及び資料提示方法
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US9098758B2 (en) * 2009-10-05 2015-08-04 Adobe Systems Incorporated Framework for combining content intelligence modules
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
US20110191336A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Contextual image search
US20140280296A1 (en) * 2013-03-14 2014-09-18 Google Inc. Providing help information based on emotion detection
US20170308550A1 (en) * 2016-04-25 2017-10-26 Fuji Xerox Co., Ltd. Visualizing relevant documents and people while viewing a document on a camera-projector tabletop system
US10204274B2 (en) * 2016-06-29 2019-02-12 Cellular South, Inc. Video to data
US10572858B2 (en) * 2016-10-11 2020-02-25 Ricoh Company, Ltd. Managing electronic meetings using artificial intelligence and meeting rules templates
US11103773B2 (en) * 2018-07-27 2021-08-31 Yogesh Rathod Displaying virtual objects based on recognition of real world object and identification of real world object associated location or geofence

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
US20030123712A1 (en) * 2001-12-27 2003-07-03 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
US20080243820A1 (en) * 2007-03-27 2008-10-02 Walter Chang Semantic analysis documents to rank terms
US8892549B1 (en) * 2007-06-29 2014-11-18 Google Inc. Ranking expertise
CN102667763A (zh) * 2009-08-07 2012-09-12 谷歌公司 带有社交网络辅助的面部识别
US20110270845A1 (en) * 2010-04-29 2011-11-03 International Business Machines Corporation Ranking Information Content Based on Performance Data of Prior Users of the Information Content
US20120114197A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Building a person profile database
CN102999560A (zh) * 2011-10-26 2013-03-27 微软公司 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性
US20130166282A1 (en) * 2011-12-21 2013-06-27 Federated Media Publishing, Llc Method and apparatus for rating documents and authors
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
US20150199379A1 (en) * 2012-10-30 2015-07-16 Google Inc. Sorting and searching of related content based on underlying file metadata
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法
US20150363405A1 (en) * 2014-06-17 2015-12-17 Adobe Systems Incorporated Method and apparatus for generating ordered user expert lists for a shared digital document
CN106716399A (zh) * 2014-07-25 2017-05-24 脸谱公司 排序在线社交网络上的外部内容
CN107636651A (zh) * 2015-08-24 2018-01-26 谷歌有限责任公司 使用自然语言处理生成主题索引
US20170351909A1 (en) * 2016-06-03 2017-12-07 Magic Leap, Inc. Augmented reality identity verification
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20180060325A1 (en) * 2016-08-26 2018-03-01 Microsoft Technology Licensing, Llc Rank query results for relevance utilizing external context
CN106131704A (zh) * 2016-08-30 2016-11-16 天脉聚源(北京)传媒科技有限公司 一种节目搜索的方法和装置
US20180095966A1 (en) * 2016-10-04 2018-04-05 Microsoft Technology Licensing, Llc Presenting ranked search results based on accessibility scores

Also Published As

Publication number Publication date
JP2019197534A (ja) 2019-11-14
US10810457B2 (en) 2020-10-20
US20190347509A1 (en) 2019-11-14
JP7293735B2 (ja) 2023-06-20

Similar Documents

Publication Publication Date Title
Bernardi et al. Automatic description generation from images: A survey of models, datasets, and evaluation measures
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
Chum et al. Total recall: Automatic query expansion with a generative feature model for object retrieval
CN104021150B (zh) 带有社交网络辅助的面部识别
US8649572B2 (en) System and method for enabling the use of captured images through recognition
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
US7809722B2 (en) System and method for enabling search and retrieval from image files based on recognized information
JP2018170019A (ja) 画像に表されたオブジェクトの認識及び照合のための方法及び装置
CN110276366A (zh) 使用弱监督模型来检测对象
US20140164927A1 (en) Talk Tags
US20130077835A1 (en) Searching with face recognition and social networking profiles
EP2531913A2 (en) Image tagging based upon cross domain context
JPH11296674A (ja) 人物識別管理システム
JP2018045350A (ja) 所定対象のうちの特定対象における状態を識別する装置、プログラム及び方法
CN110471886A (zh) 用于基于检测桌子周围的文件和人来搜索文件和人的系统
CN105631051A (zh) 基于文字识别的移动增强现实阅读方法及其阅读系统
CN110377789A (zh) 用于将文本概要与内容媒体关联的系统和方法
Kezebou et al. TR-GAN: Thermal to RGB face synthesis with generative adversarial network for cross-modal face recognition
Ye et al. 3D question answering
Wang et al. Real-world image annotation and retrieval: An introduction to the special section
O'Connor Machine analysis and recognition of social contexts
Stylianou Learning about Large Scale Image Search: Lessons from Global Scale Hotel Recognition to Fight Sex Trafficking
Stylianou Indoor Scene Localization to Fight Sex Trafficking in Hotels
Nebel How genomes could transform surveillance and facial recognition
Pavitra et al. Review on Smart Music Player and Algorithm for Recommending Music Based on Facial Micro-Expressions with Multi Cultural Facial Expression Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.