CN108921096A - 时间跟踪方法、装置、设备及计算机可读介质 - Google Patents

时间跟踪方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN108921096A
CN108921096A CN201810714499.0A CN201810714499A CN108921096A CN 108921096 A CN108921096 A CN 108921096A CN 201810714499 A CN201810714499 A CN 201810714499A CN 108921096 A CN108921096 A CN 108921096A
Authority
CN
China
Prior art keywords
scene type
probability
terminal device
image
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810714499.0A
Other languages
English (en)
Inventor
徐伟
刘家辰
肖欣延
吕雅娟
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810714499.0A priority Critical patent/CN108921096A/zh
Publication of CN108921096A publication Critical patent/CN108921096A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出一种时间跟踪方法、装置、设备及计算机可读介质,时间跟踪方法包括:获取终端设备在预设时间范围内采集的图像和语音;对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。上述技术方案可扩大时间跟踪的范围,帮助用户掌握更精准的时间消耗分布。

Description

时间跟踪方法、装置、设备及计算机可读介质
技术领域
本发明涉及信息处理技术,尤其涉及一种时间跟踪方法、装置、设备及计算机可读介质。
背景技术
时间跟踪是指对用户在每件事上花费的时间的统计,可以用于时间管理。例如,我们可能希望纪录一天中查看手机、与同事讨论、网上购物等花费的时间、具体时间段,以便经过分析后在后续的工作生活中优化时间管理。目前,在PC、智能手机等设备上有一些基于应用程序进程信息来进行时间跟踪的工具,其一般是通过对进程的监控和对应用功能的映射来得到时间花费统计,因此仅能统计用户在设备上的耗时,不能记录用户在远离设备上的时间消耗。综上,我们希望能够扩大用户时间的跟踪范围,增加对生活、工作场景的自动跟踪。
发明内容
本发明实施例提供一种时间跟踪方法、装置、设备及计算机可读介质,以至少解决现有技术中的一项或多项技术问题。
第一方面,本发明实施例提供一种时间跟踪方法,包括:
获取终端设备在预设时间范围内采集的图像和语音;
对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;
根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别的步骤包括:
采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
采用语音分类模型对一个或多个所述语音进行语音识别,以获得各场景类别的第二概率;
根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率;
将综合分布概率最高的场景类别,确定为所述终端设备所处的场景类别。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率的步骤包括:
对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率。
结合第一方面,本发明实施例在第一方面的第三种实现方式中,所述对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别的步骤包括:
采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
按照各所述第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别;
采用语音分类模型对一个或多个所述语音进行语音识别,以获得各候选场景类别的第二概率;
根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率;
将综合分布概率最高的候选场景类别,确定为所述终端设备所处的场景类别。
结合第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,所述根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率的步骤包括:
对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率。
结合第一方面,本发明实施例在第一方面的第五种实现方式中,所述确定所述终端设备所处的场景类别关联的时间信息的步骤包括:
记录所述终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内;
以时间分布的形式展示所述终端设备所处的各场景类别以及各场景类别所对应的时间戳。
结合第一方面或第一方面的以上任一实现方式,本发明实施例在第一方面的第六种实现方式中,所述方法还包括:
预定义各场景类别,所述场景类别包括用户行为信息。
第二方面,本发明实施例提供一种时间跟踪装置,包括:
采集模块,用于在预设时间范围内,获取终端设备采集的图像和语音;
场景类别确定模块,用于对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;
关联模块,用于根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述场景类别确定模块包括:
图像识别单元,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
语音识别单元,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各场景类别的第二概率;
综合分布概率计算单元,用于根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率;
场景类别确定单元,用于将综合分布概率最高的场景类别,确定为所述终端设备所处的场景类别。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述综合分布概率计算单元用于
对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率。
结合第二方面,本发明实施例在第二方面的第三种实现方式中,所述场景类别确定模块包括:
图像识别单元,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
候选场景类别选取单元,用于按照各所述第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别;
语音识别单元,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各候选场景类别的第二概率;
综合分布概率计算单元,用于根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率;
场景类别确定单元,用于将综合分布概率最高的候选场景类别,确定为所述终端设备所处的场景类别。
结合第二方面的第三种实现方式,本发明实施例在第二方面的第四种实现方式中,所述综合分布概率计算单元用于
对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率。
结合第二方面,本发明实施例在第二方面的第五种实现方式中,所述关联模块包括:
时间戳记录单元,用于记录所述终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内;
展示单元,用于以时间分布的形式展示所述终端设备所处的各场景类别以及各场景类别所对应的时间戳。
结合第二方面或第二方面的以上任一实现方式,本发明实施例在第二方面的第六种实现方式中,所述装置还包括:
场景类别预定义模块,用于预定义各场景类别,所述场景类别包括用户行为信息。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,时间跟踪装置的结构中包括处理器和存储器,所述存储器用于存储支持时间跟踪装置执行上述第一方面中时间跟踪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述时间跟踪装置还可以包括通信接口,用于时间跟踪装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储时间跟踪装置所用的计算机软件指令,其包括用于执行上述第一方面中时间跟踪方法为时间跟踪装置所涉及的程序。
上述技术方案可扩大时间跟踪的范围,帮助用户掌握更精准的时间消耗分布。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的时间跟踪方法的流程图。
图2为本发明实施例的时间跟踪方法的第一种实施方式的流程图。
图3为本发明实施例的时间跟踪方法的第二种实施方式的流程图。
图4为本发明实施例的时间跟踪方法的第三种实施方式的流程图。
图5为本发明实施例的时间跟踪方法的第四种实施方式的流程图。
图6为本发明实施例的时间跟踪方法的第五种实施方式的流程图。
图7为本发明实施例的时间跟踪装置的结构图。
图8为本发明实施例的时间跟踪装置的第一种实施方式的结构图。
图9为本发明实施例的时间跟踪装置的第二种实施方式的结构图。
图10为本发明实施例的时间跟踪装置的第三种实施方式的结构图。
图11为本发明实施例的时间跟踪装置的第四种实施方式的结构图。
图12为本发明实施例的时间跟踪设备的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例旨在提供一种时间跟踪的方法和装置,基于图像识别和语音识别确定场景类别,并将场景类别与时间信息进行关联,以实现时间跟踪。
在一个实施例中,本发明提供一种时间跟踪方法,如图1所示,包括:
步骤S110,获取终端设备在预设时间范围内采集的图像和语音。
其中,终端设备可以是可穿戴设备,其可以采集图像,可以采集语音。预设时间范围可以是当天,也可以是当月,还可以是某个时间区间;可以获取终端设备在预设时间范围内以预设时间间隔采集的多个图像,例如,获取终端设备在15:00到16:00内每分钟所采集的多个图像;可以获取终端设备在预设时间范围内以预设时间间隔采集的一个或多个语音,例如,获取终端设备在15:00到16:00内所采集的一个语音,或者获取终端设备在15:00到16:00内每5分钟所采集的多个语音。
步骤S120,对图像进行图像识别,对语音进行语音识别,并根据图像识别和语音识别的结果,确定终端设备所处的场景类别。
步骤S130,根据预设时间范围,确定终端设备所处的场景类别关联的时间信息。
在第一种实施方式中,如图2所示,在步骤S120之前,还可以包括:
步骤S140,预定义各场景类别。
其中,所述场景类别包括用户行为信息。如下表所示是各场景类别的示例:
一级场景标签 二级场景标签(场景类别)
工作 听报告
做报告
写代码
写文档
...
出行 坐地铁
坐公交
坐出租
开车
步行
...
娱乐 玩游戏
KTV
看电影
看电视
看比赛
...
杂项 网络购物
其中,同一级的各场景标签之间可以互斥,但用户可以在同一时间范围内做多个场景标签所表示的行为。
在第二种实施方式中,如图3所示,步骤S120可以包括:
步骤S121,采用图像分类模型对一个或多个图像进行图像识别,以获得各场景类别的第一概率。
图像分类模型可以采用深度神经网络构建,如VGG(Visual Geometry Group,牛津大学计算机视觉组)网络,对每一个图像采用图像分类模型在预定义的场景类别下进行分类,进而得到各场景类别作为最终结果的第一概率,将第i个场景类别的第一概率标记为P1i
步骤S122,采用语音分类模型对一个或多个语音进行语音识别,以获得各场景类别的第二概率。
语音分类模型可以采用深度神经网络构建,对每一个语音采用语音分类模型在预定义的场景类别下进行分类,进而得到各场景类别作为最终结果的第二概率,将第i个场景类别的第二概率标记为P2i
步骤S123,根据各第一概率和各第二概率计算各场景类别的综合分布概率。
可以对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率,例如,第i个场景类别的综合分布概率P3i是对第一概率P1i和第二概率P2i加权求和得到。
步骤S124,将综合分布概率最高的场景类别,确定为终端设备所处的场景类别。
例如,如果第j个场景类别的综合分布概率P3j最高,就将第j个场景类别作为最终结果,即终端设备所处的场景类别为第j个场景类别。
在第三种实施方式中,如图4所示,步骤S120可以包括:
步骤S121,采用图像分类模型对一个或多个图像进行图像识别,以获得各场景类别的第一概率。
步骤S221,按照各第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别。
步骤S222,采用语音分类模型对一个或多个语音进行语音识别,以获得各候选场景类别的第二概率。
可以采用步骤S122中的方法进行第二概率的获得,并将步骤S222中获得的第二概率标记为P4m,即第m个候选场景类别在第三种实施方式中的第一概率为P1m,第m个候选场景类别在第三种实施方式中的第二概率为P4m
步骤S223,根据各第一概率和各第二概率计算各候选场景类别的综合分布概率。
可以对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率,例如,第m个候选场景类别在第三种实施方式中的综合分布概率P5i是对第一概率P1m和第二概率P4m加权求和得到。
步骤S224,将综合分布概率最高的候选场景类别,确定为终端设备所处的场景类别。
例如,如果第w个候选场景类别的综合分布概率P5w最高,就将第w个候选场景类别作为最终结果,即终端设备所处的场景类别为第w个候选场景类别。
在第四种实施方式中,如图5所示,步骤S130可以包括:
步骤S131,记录终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内。
其中,时间戳可以包括图像和语音被采集的预设时间范围,例如时间戳是15:00到16:00;时间戳也可以是预设时间范围内的某一个时刻,例如时间戳是15:30。
步骤S132,以时间分布的形式展示终端设备所处的各场景类别以及各场景类别所对应的时间戳。
经过上述方法,可以获得终端设备在多个预设时间范围内的场景类别,例如终端设备在15:00到16:00处在“看电视”的场景类别中;终端设备在16:00到17:00处在“玩游戏”的场景类别中。进而,以时间分布的形式展示各场景类别及对应的时间戳,如下表所示:
时间戳 场景类别
00:00~7:00 睡觉
7:00~7:30 做早操
7:30~8:00 吃早饭
8:00~9:00 坐地铁
... ...
需要说明的是,上表只是一种示例,本实施例不对显示样式做限定。例如,显示语言可以有所不同。
另外,显示设备可以与图像采集的设备为同一个终端设备,如可穿戴设备;显示设备也可以与图像采集的设备不同,例如显示设备可以是手机设备,可穿戴设备可用来采集图像和语音,由手机设备获取图像和语音,并存储时间戳和场景类别,进而在手机设备上显示;或者,由可穿戴设备采集图像和语音,并存储和显示时间戳及场景类别;或者,由可穿戴设备采集图像和语音,并存储和显示时间戳及场景类别,并通过网络传输至手机设备或其他终端设备,进而在手机设备或其他终端设备上显示时间戳和场景类别。
如图6所示,在第五种实施方式中,用于图像采集和用于语音采集的终端设备可以不同,在S411中获取成像设备11采集的图像序列,并在S421中基于图像识别进行场景分类,获得图像分类结果;在S412中获取收音设备12采集的声音流,并在S422中基于语音识别进行场景分类,获得语音分类结果;然后在S420中,将图像分类结果和语音分类结果进行综合,以在S450中获得场景类别。
本实施例还提供一种时间跟踪装置,如图7所示,包括:
采集模块110,用于在预设时间范围内,获取终端设备采集的图像和语音;
场景类别确定模块120,用于对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;
关联模块130,用于根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。
在第一种实施方式中,如图8所示,所述装置还包括:
场景类别预定义模块140,用于预定义各场景类别,所述场景类别包括用户行为信息。
在第二种实施方式中,如图9所示,场景类别确定模块120包括:
图像识别单元121,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
语音识别单元122,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各场景类别的第二概率;
综合分布概率计算单元123,用于根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率;
场景类别确定单元124,用于将综合分布概率最高的场景类别,确定为所述终端设备所处的场景类别。
优选地,综合分布概率计算单元123用于对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率。
如图10所示,在第三种实施方式中,场景类别确定模块120包括:
图像识别单元121,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
候选场景类别选取单元221,用于按照各所述第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别;
语音识别单元222,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各候选场景类别的第二概率;
综合分布概率计算单元223,用于根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率;
场景类别确定单元224,用于将综合分布概率最高的候选场景类别,确定为所述终端设备所处的场景类别。
优选地,综合分布概率计算单元224用于对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率。
如图11所示,在第四中实施方式中,关联模块130包括:
时间戳记录单元131,用于记录所述终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内;
展示单元132,用于以时间分布的形式展示所述终端设备所处的各场景类别以及各场景类别所对应的时间戳。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
本实施例还提供一种时间跟踪设备,如图12所示,该设备包括:存储器510和处理器520,存储器510内存储有可在处理器520上运行的计算机程序。处理器520执行所述计算机程序时实现上述实施例中的时间跟踪方法。所述存储器510和处理器520的数量可以为一个或多个。
该设备还包括:
通信接口530,用于与外界设备进行通信,进行数据交互传输。
存储器510可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器510、处理器520和通信接口530独立实现,则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器510、处理器520及通信接口530集成在一块芯片上,则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。
综上所示,本实施例的技术方案利用图像领域和语音领域的分类算法在预定义场景类比下进行场景识别,可以自动构成和实际生活对应程度极高的时间追踪记录;可显著扩大个人时间追踪的范围,帮助用户掌握更精准的时间消耗分布。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种时间跟踪方法,其特征在于,包括:
获取终端设备在预设时间范围内采集的图像和语音;
对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;
根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别的步骤包括:
采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
采用语音分类模型对一个或多个所述语音进行语音识别,以获得各场景类别的第二概率;
根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率;
将综合分布概率最高的场景类别,确定为所述终端设备所处的场景类别。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率的步骤包括:
对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率。
4.根据权利要求1所述的方法,其特征在于,所述对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别的步骤包括:
采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
按照各所述第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别;
采用语音分类模型对一个或多个所述语音进行语音识别,以获得各候选场景类别的第二概率;
根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率;
将综合分布概率最高的候选场景类别,确定为所述终端设备所处的场景类别。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率的步骤包括:
对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率。
6.根据权利要求1所述的方法,其特征在于,所述确定所述终端设备所处的场景类别关联的时间信息的步骤包括:
记录所述终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内;
以时间分布的形式展示所述终端设备所处的各场景类别以及各场景类别所对应的时间戳。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
预定义各场景类别,所述场景类别包括用户行为信息。
8.一种时间跟踪装置,其特征在于,包括:
采集模块,用于在预设时间范围内,获取终端设备采集的图像和语音;
场景类别确定模块,用于对所述图像进行图像识别,对所述语音进行语音识别,并根据所述图像识别和所述语音识别的结果,确定所述终端设备所处的场景类别;
关联模块,用于根据所述预设时间范围,确定所述终端设备所处的场景类别关联的时间信息。
9.根据权利要求8所述的装置,其特征在于,所述场景类别确定模块包括:
图像识别单元,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
语音识别单元,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各场景类别的第二概率;
综合分布概率计算单元,用于根据各所述第一概率和各所述第二概率计算各场景类别的综合分布概率;
场景类别确定单元,用于将综合分布概率最高的场景类别,确定为所述终端设备所处的场景类别。
10.根据权利要求9所述的装置,其特征在于,所述综合分布概率计算单元用于
对各场景类别的第一概率和第二概率进行加权求和,得到各场景类别的综合分布概率。
11.根据权利要求8所述的装置,其特征在于,所述场景类别确定模块包括:
图像识别单元,用于采用图像分类模型对一个或多个所述图像进行图像识别,以获得各场景类别的第一概率;
候选场景类别选取单元,用于按照各所述第一概率由大到小对各场景类别进行排序,并选取前K个场景类别作为候选场景类别;
语音识别单元,用于采用语音分类模型对一个或多个所述语音进行语音识别,以获得各候选场景类别的第二概率;
综合分布概率计算单元,用于根据各所述第一概率和各所述第二概率计算各候选场景类别的综合分布概率;
场景类别确定单元,用于将综合分布概率最高的候选场景类别,确定为所述终端设备所处的场景类别。
12.根据权利要求11所述的装置,其特征在于,所述综合分布概率计算单元用于
对各候选场景类别的第一概率和第二概率进行加权求和,得到各候选场景类别的综合分布概率。
13.根据权利要求8所述的装置,其特征在于,所述关联模块包括:
时间戳记录单元,用于记录所述终端设备所处的场景类别对应的时间戳,所述时间戳包括的时刻处于所述预设时间范围内;
展示单元,用于以时间分布的形式展示所述终端设备所处的各场景类别以及各场景类别所对应的时间戳。
14.根据权利要求8至13任一项所述的方法,其特征在于,所述装置还包括:
场景类别预定义模块,用于预定义各场景类别,所述场景类别包括用户行为信息。
15.一种时间跟踪设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201810714499.0A 2018-06-29 2018-06-29 时间跟踪方法、装置、设备及计算机可读介质 Pending CN108921096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810714499.0A CN108921096A (zh) 2018-06-29 2018-06-29 时间跟踪方法、装置、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810714499.0A CN108921096A (zh) 2018-06-29 2018-06-29 时间跟踪方法、装置、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN108921096A true CN108921096A (zh) 2018-11-30

Family

ID=64425215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810714499.0A Pending CN108921096A (zh) 2018-06-29 2018-06-29 时间跟踪方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN108921096A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139070A (zh) * 2019-04-11 2019-08-16 泉州信息工程学院 一种基于深度学习的智能环境监控方法和系统以及设备
CN111414900A (zh) * 2020-04-30 2020-07-14 Oppo广东移动通信有限公司 场景识别方法、场景识别装置、终端设备及可读存储介质
CN112115325A (zh) * 2019-06-20 2020-12-22 北京地平线机器人技术研发有限公司 场景类别的确定方法和场景分析模型的训练方法、装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164315A (zh) * 2011-12-15 2013-06-19 无锡中星微电子有限公司 基于智能视频分析的电脑使用时间提示方法及系统
CN104065928A (zh) * 2014-06-26 2014-09-24 北京小鱼儿科技有限公司 一种行为模式统计装置与方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107171872A (zh) * 2017-07-19 2017-09-15 上海百芝龙网络科技有限公司 一种智能家居中用户行为预测方法
CN107515900A (zh) * 2017-07-24 2017-12-26 宗晖(上海)机器人有限公司 智能机器人及其事件备忘系统和方法
CN108108766A (zh) * 2017-12-28 2018-06-01 东南大学 基于多传感器数据融合的驾驶行为识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164315A (zh) * 2011-12-15 2013-06-19 无锡中星微电子有限公司 基于智能视频分析的电脑使用时间提示方法及系统
CN104065928A (zh) * 2014-06-26 2014-09-24 北京小鱼儿科技有限公司 一种行为模式统计装置与方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107171872A (zh) * 2017-07-19 2017-09-15 上海百芝龙网络科技有限公司 一种智能家居中用户行为预测方法
CN107515900A (zh) * 2017-07-24 2017-12-26 宗晖(上海)机器人有限公司 智能机器人及其事件备忘系统和方法
CN108108766A (zh) * 2017-12-28 2018-06-01 东南大学 基于多传感器数据融合的驾驶行为识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUSUF AYTAR,ET AL.: "SoundNet: Learning Sound Representations from Unlabeled Video", 《ARXIV》 *
谭蔚,等: "《高中生生涯发展指导》", 31 July 2014, 厦门大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139070A (zh) * 2019-04-11 2019-08-16 泉州信息工程学院 一种基于深度学习的智能环境监控方法和系统以及设备
CN110139070B (zh) * 2019-04-11 2021-08-17 泉州信息工程学院 一种基于深度学习的智能环境监控方法和系统以及设备
CN112115325A (zh) * 2019-06-20 2020-12-22 北京地平线机器人技术研发有限公司 场景类别的确定方法和场景分析模型的训练方法、装置
CN112115325B (zh) * 2019-06-20 2024-05-10 北京地平线机器人技术研发有限公司 场景类别的确定方法和场景分析模型的训练方法、装置
CN111414900A (zh) * 2020-04-30 2020-07-14 Oppo广东移动通信有限公司 场景识别方法、场景识别装置、终端设备及可读存储介质
CN111414900B (zh) * 2020-04-30 2023-11-28 Oppo广东移动通信有限公司 场景识别方法、场景识别装置、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN112346567B (zh) 基于ai的虚拟交互模型生成方法、装置及计算机设备
CN106611447A (zh) 一种考勤方法和装置
CN111182358B (zh) 视频处理方法、视频播放方法、装置、设备和存储介质
JP2004502222A (ja) 提示される情報のコンテンツを観客に合わせる方法及び装置
CN112818674A (zh) 带货直播的信息处理方法、装置、设备及介质
JP6807389B2 (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
CN106464758A (zh) 利用用户信号来发起通信
CN108921096A (zh) 时间跟踪方法、装置、设备及计算机可读介质
CN109255342A (zh) 一种基于眼动轨迹数据两步聚类的图像感兴趣区域提取方法和系统
CN111935496B (zh) 一种信息展示方法及相关设备
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN107480854A (zh) 一种风险识别的方法及装置
KR101988334B1 (ko) 이동 전화기 및 이동전화기에서 재생되는 미디어 컨텐츠의 효율성 분석 방법
CN110569347A (zh) 一种数据处理方法、装置、存储介质和电子设备
JP2018206341A (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
CN105139317A (zh) 兴趣取向值测验的认知指标分析方法
CN109493146A (zh) 广告投放方法及装置
JP6715410B2 (ja) 評価方法、評価装置、評価プログラム、および、評価システム
CN112053205A (zh) 通过机器人情绪识别的产品推荐方法及装置
CN111931073A (zh) 内容推送方法、装置、电子设备及计算机可读介质
CN109308332A (zh) 一种目标用户获取方法、装置和服务器
Petridis et al. Is this joke really funny? Judging the mirth by audiovisual laughter analysis
CN109389493A (zh) 基于语音识别的自定义测试题目录入方法、系统及设备
CN113409123A (zh) 一种信息推荐方法、装置、设备及存储介质
CN112598944A (zh) 一种智能型英语教学系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination