CN101053252A - 信息信号处理方法和设备以及计算机程序产品 - Google Patents

信息信号处理方法和设备以及计算机程序产品 Download PDF

Info

Publication number
CN101053252A
CN101053252A CNA200580030347XA CN200580030347A CN101053252A CN 101053252 A CN101053252 A CN 101053252A CN A200580030347X A CNA200580030347X A CN A200580030347XA CN 200580030347 A CN200580030347 A CN 200580030347A CN 101053252 A CN101053252 A CN 101053252A
Authority
CN
China
Prior art keywords
predetermined
data
voice
information signal
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200580030347XA
Other languages
English (en)
Other versions
CN101053252B (zh
Inventor
村林升
冈本裕成
宫本胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101053252A publication Critical patent/CN101053252A/zh
Application granted granted Critical
Publication of CN101053252B publication Critical patent/CN101053252B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

提供了一种用于特殊重放操作的信息信号处理方法,以便进行广播节目的图像/语音数据信号的概要(摘要)重放。所述方法包括如下步骤:从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且把根据图像/语音信息信号的片段从语音信号中提取的预定语音特性信号和图像特征数据记录到预定的记录介质或者预定的数据存储器中。

Description

信息信号处理方法和设备以及计算机程序产品
技术领域
本发明涉及一种信息信号处理方法和设备以及程序记录介质或计算机程序产品,用于在记录/重放设备中进行诸如预定摘要重放之类的特殊重放,所述记录/重放设备通过对信号进行预定的频带压缩来向/从记录介质记录和/或重放诸如视频/音频信号之类的图像/语音数据,所述记录介质诸如是磁光盘、硬盘驱动器(HDD)、半导体存储器等等,所述预定的频带压缩诸如是MPEG(运动图像专家组)。
此申请要求了于2004年8月10日在日本专利局申请的第2004-233943号日本专利申请的优先权,将该篇申请的全部内容引入于此,以供参考。
背景技术
通过在短于记录所花费的时间长度的时间内重放记录在常规VTR(磁带录像机)或盘记录/重放设备中的长内容(也就是长时间的内容)以便粗略地知晓这些内容,在考虑到人们能够理解语音信息的速度的情况下,所述重放是以比记录高约1.5至2倍的速度进行的。
即使在较短的时间内对内容进行概要(summary)或者摘要(digest)重放,这样以高速重放的语音输出也将难以理解。通常,只有内容中的图像信息是作为无声数据重放的。
由于这个原因,在某些情况下,通过如下步骤在短于原始广播节目记录时间的预定时间内进行已记录广播节目的概要(摘要)重放,所述步骤为:根据出现在已记录广播节目中的图像/语音数据(图像/语音信息信号、图像/语音信号或者图像/语音信息)中的特征来提取预定的特征数据,借助于预定的特征数据来检测看起来是关键帧(重要帧)的关键帧部分,以及重放基于预定规则而顺序选择的关键帧部分。
此外,在已记录图像数据的预定部分中,在诸如3分钟、5分钟、10分钟等等的每一固定时间间隔自动地生成表示重放点的位置信息,或者由用户在所期望的位置中人工地生成位置信息。将其通称为“章节(chapter)数据生成”。进行章节数据生成是为了借助于所述位置信息(章节数据)来进行跳跃重放、编辑和缩略图显示。
发明内容
就图像和语音信号中的每一个的多种类型的特征而言,上述的特征数据可以被检测到。例如在记录图像/语音数据时提取每一特征数据,并且把所述特征数据连同图像/语音数据一起记录到记录介质中。
然后,将读取已记录的特征数据进行预定的处理以便基于预定的规则来确定将要进行概要(摘要)重放的部分。然而,如果把多个特征数据作为文件独立地记录到记录介质中,那么将产生多个文件,并且在信号处理中对这些文件的处理将是十分麻烦的,这不会带来任何有效的信号处理。
因此,期望通过提供这样一种信息信号处理方法和设备以及程序记录介质来克服相关领域的上述缺陷,所述方法、设备和程序记录介质用于有效地处理特征数据,并且进行有效的概要(摘要)重放和有效的各种基于章节数据的操作,从而进行有效的基于特征数据的概要(摘要)重放或者章节处理。
依照本发明的实施例,提供了一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段(segment)部分来处理语音信号;
从图像/语音信息信号中提取图像信号的每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分(section)长度设置数据对图像/语音信息信号进行分段(segment);并且
把根据图像/语音信息信号的片段从语音信号中提取的预定语音特性信号和图像特征数据记录到预定的记录介质或者预定的数据存储器中。
依照本发明的另一实施例,提供了一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像特征数据或者通过从其中记录有语音特征数据和图像特征数据的预定记录介质或预定数据存储器中获取的数据或数据文件,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
依照本发明的另一实施例,提供了一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;
借助于根据图像/语音信息信号的片段和图像/语音特征数据从语音信号中提取的预定的语音特征数据或者从其中记录有语音和图像特征数据的预定记录介质中获取的数据或数据文件,生成对应于预定重放部分确定的图像/语音信息信号的多个预定重放部分和对应于重放部分确定或者预定重放时间点设置的预定数据;并且
借助于所生成的数据或者从其中记录有所生成的数据的预定记录介质或预定数据存储器中获取的数据,对应于预定的操作模式,重放预定部分或表明预定的时间点。
依照本发明的另一实施例,提供了一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理部分的信号、来自语音信号处理部分的信号和预定时间长度或者部分长度设置数据,对来自语音信号处理部分的信号或者视频/语音信息信号进行分段;以及
数据记录器,用于把根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和根据特征数据和预定数据已进行了预定信号处理的图像特征数据或者预定的特征数据记录到预定的记录介质或者预定的数据存储单元中。
依照本发明的另一实施例,提供了一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理器的信号、来自语音信号处理器的信号和预定时间长度或者部分长度设置数据,对来自语音信号处理器的信号或者信号视频/语音信息信号进行分段;以及
数据生成器,用于借助于根据来自信息信号分段单元的信号提取的预定语音特征数据和图像特征数据或者从其中记录有语音和图像特征数据的预定记录介质或预定数据存储单元中获取的数据或数据文件数据,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
依照本发明的另一实施例,提供了一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理器的信号、来自语音信号处理器的信号和预定时间长度或者部分长度设置数据,分段来自语音信号处理器的信号或者视频/语音信息信号进行分段;
数据生成器,用于借助于根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和图像特征数据或者从其中记录有语音和图像特征数据的预定记录介质或预定数据存储单元中获取的数据或数据文件数据,生成对应于预定重放部分确定或预定重放时间点设置的预定数据;以及
信息信号处理器,当处于预定的操作模式时,用于根据来自数据发生器的数据或者从其中记录有来自数据发生器的数据的预定记录介质或预定数据存储单元中获取的数据来重放预定的部分或者表明预定的时间点。
依照本发明的另一实施例,提供了一种程序记录介质,其中具有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
把根据图像/语音信息信号的片段从语音信号中提取的预定语音特性信号和图像特征数据记录到预定的记录介质或者预定的数据存储器中。
依照本发明的另一实施例,提供了一种程序记录介质,其中具有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号分段;并且
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像特征数据或者从其中记录有语音特征数据和图像特征数据的预定记录介质或预定数据存储器中获取的数据或数据文件,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
依照本发明的另一实施例,提供了一种程序记录介质,其中具有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像/语音特征数据或者从其中记录有语音和图像特征数据的预定记录介质中获取的数据或数据文件,生成对应于预定重放部分确定的图像/语音信息信号的多个预定重放部分和对应于重放部分确定或者预定重放时间点设置的预定数据;并且
借助于所生成的数据或者从其中记录有所生成的数据的预定记录介质或预定数据存储器中获取的数据,对应于预定的操作模式,重放预定部分或表明预定的时间点。
根据本发明,能够有效地将多个不同类型的图像特征数据和语音特征数据设置为每一数据的特征数据文件或者作为一个特征数据文件。例如,能够有效将多种类型的特征,包括照相机特征、telop(television opaque projector,电视反射放映机)特征、场景特征、彩色特征等等的图像特征,以及诸如无声等级特征、声音质量特征(例如,谈话语音与否)等等的语音特征有效地处理为预定形式的数据文件,并且将所述数据文件连同图像/语音数据一起记录到预定的记录介质中,以便在文件管理、信号处理等过程中进行有效的文件处理。
此外,根据本发明,由于没有为每个特征数据提供文件,所以由文件占据的记录空间要比为记录介质中每一特征数据提供文件时小得多。
另外,即使在用户购买了记录/重放设备,但后来发现没有他所希望的功能的情况下,本发明也能够使他容易地使所述设备能够执行该功能。
同时,用户可能最初购买了只具有基本功能的记录/重放设备,但是本发明允许他在设备中容易地安装各种所期望的功能。由此,在考虑到记录/重放设备是否具有用户所希望的一个或多个功能的情况下,本发明使用户能够有效地选择并且购买所述设备。
当结合附图时,根据对本发明实施例的如下详细描述,本发明的上述以及其他特征、方面和优势将更加明显。
附图说明
图1A至1G示出了在依照本发明实施例的重放/重放设备中进行摘要重放和章节设置的操作。
图2举例说明了由章节设置产生的显示的示例。
图3是示出了记录/重放设备中的信息信号处理过程的示例的框图。
图4是示出了记录/重放设备中的规则处理的框图。
图5A示出了记录/重放设备中信息表征(signification)处理和特征数据之间的关系的示例,而图5B示出了信息表征处理和特征数据之间的关系的另一示例。
图6A至6C示出了记录/重放设备中的规则文件的示例。
图7示出了记录/重放设备中评估值处理方式的示例。
图8A至8I以图形方式示出了记录/重放设备中的时间校正函数的示例。
图9以图形方式示出了记录/重放设备中的时间校正函数的通用形式的示例。
图10示出了记录/重放设备中视频数据结构的示例。
图11示出了记录/重放设备中重放(或者播放)单元之间的连接的示例。
图12A和12B示出了记录/重放设备中重放单元之间的信息表征的示例。
图13A和13B示出了记录/重放设备中的规则2处理的示例。
图14以图形方式示出了记录/重放设备中的时间校正函数的另一示例。
图15A和15B示出了记录/重放设备中的规则文件结构的示例。
图16A至16D示出了记录/重放设备中依照本发明的信息信号处理过程示例。
图17是示出了本发明的记录/重放设备的结构示例的电路框图。
图18示出了记录/重放设备中记录的各种预定数据的描述的示例。
图19示出了记录/重放设备中的显示的示例。
图20是示出了本发明的记录/重放设备的结构的另一示例的电路框图。
图21是依照本发明的语音特征提取系统的结构示例的电路框图。
图22是依照本发明的语音特征提取系统的结构的另一示例的电路框图。
图23是依照本发明的图像特征提取系统的结构示例的电路框图。
图24示出了记录/重放设备中的场景改变。
图25示出了记录/重放设备中telop和色彩特征检测区域的示例。
图26示出了记录/重放设备中的类似图像特征的示例。
图27示出了记录/重放设备中人员的特征检测区域的示例。
图28示出了记录/重放设备中的人员检测的示例。
图29示出了记录/重放设备中的人员检测(人员数目的确定)的示例。
图30示出了记录/重放设备中的人员数目检测的示例。
图31示出了记录/重放设备中的人员数目检测的另一示例。
图32示出了记录/重放设备中的人员数目检测的又一示例。
图33示出了记录/重放设备中的人员数目检测的又一个示例。
图34A至34E示出了记录/重放设备中的重放单元处理的示例。
图35A和35B示出了记录/重放设备中的重放单元处理的其它示例。
图36示出了记录/重放设备中的CM(广告)检测的示例。
图37是记录/重放设备中重放单元处理器的结构示例的框图。
图38示出了记录/重放设备中的特征数据文件的结构的示例。
图39示出了记录/重放设备中的特征数据文件的结构的示例。
图40解释记录/重放设备中的特征数据文件的结构示例。
图41示出了记录/重放设备中的重放单元数据的分级结构的示例。
图42示出了记录/重放设备中重放单元数据的分级结构的另一示例。
图43示出了记录/重放设备中重放单元图像特征数据的结构的示例。
图44A和44B示出了记录/重放设备中播放列表(概要)的示例。
图45示出了记录/重放设备中进行的操作流程的示例。
图46示出了记录/重放设备中记录时间和可选概要重放时间之间的关系的示例。
图47示出了记录/重放设备中记录时间和自动设置的章节数目的示例。
图48示出了记录/重放设备中进行记录的操作流程的示例。
图49示出了记录/重放设备中进行重放的操作流程的示例。
图50示出了记录/重放设备中进行重放的操作流程的另一示例。
具体实施方式
下面将参考附图来详细解释本发明的实施例。所述解释将按照下面详细列举的次序来进行。当然,本发明不局限于下面解释的实施例,在不脱离本发明的范围和精神的情况下,可以依照各种方式被适当地修改。
1.作为本发明实施例的系统的概述
1.1基于特征数据的概要重放和章节点设置
此处将略述系统的操作。
将在稍后描述的项目中再详细说明涉及以下略述的操作的信号处理。
在下文中,将具体地解释播放列表数据的生成。然而,除非特殊说明,否则认为播放列表数据和章节数据是一起生成的。
此后将根据图A至G来解释基于特征数据的概要(摘要)重放和章节处理。
首先,将解释基于特征数据的概要重放。
基于特征数据的概要(摘要)重放
此处假定存在如图1A所示的可利用的图像/语音数据序列。
所述图像/语音数据序列包括广播节目、电影软件等等,这些数据通过依照MPEG(运动图像专家组)等等定义的频带压缩信号处理、将被记录到预定的记录介质并且从中重放,所述记录介质诸如是硬盘驱动器(HDD)、磁光盘、大容量半导体存储器等等。
考虑到预定的含义,根据场景变化、语音片段等等,把所述图像/语音数据序列分段为预定的视频结构(语义视频结构),所述结构包括如图1B中所示的预定部分(section)。
稍后将详细说明预定含义设置、预定部分设置、视频结构等等。
应注意的是,如图1C所示,为按照每一含义分段的每一预定部分设置在预定时间内记录的所有部分、预定节目部分等等中的每一个的预定评估值。在此,将为其设置评估值的部分作为预定的评估值数据部分。
如果有图像/语音数据的话,上述“在预定时间内记录的所有部分”指的是在全部节目上、于预定时间内的图像/语音数据的所有部分。
此外,上述“预定的节目部分”指的是包括图像/语音数据的节目的所有部分。
此处假定:为所有预定部分中的一个预定关键帧部分(重要帧部分或者重要(图像/语音)部分)预先确定高评估值(重要评估数据)。
也就是说,由于已经被设置高评估值的部分(重要评估值部分)包括关键帧部分,所以这些部分的重放使用户能够知晓节目的纲要(outline),而不必重放节目中的所有部分。
图1C示出了预定评估值部分的概况,从中可以获知,预定的概要重放(摘要重放)将通过如图1D所示在预定的概要重放模式期间、对部分A1、A2和A3进行跳跃重放而由如图1A所示的图像/语音数据序列组成,在这些部分中,相应的帧f1和f2、f4和f5以及f7和f8被给予大于所设置的阈值Th的评估值。
基于特征数据的自动章节设置
图1E是章节点设置的概念图。在此处理中,在预定的关键帧部分(重要帧部分)的顶端或者顶端附近以及在邻接关键帧部分底部但不是任何关键帧部分的部分的顶端或者顶端附近处设置章节点。
例如,在常规的DVD(数字多用盘)中,通过所谓的自动章节设置功能来为预定部分设置断点。它们是出于用来编辑的目的而获得的并且用于快进(FF)重放、快倒(REW)重放等等。
过去,使用上述的自动章节设置来设置5分钟、10分钟、15分钟等等的规则时间间隔。然而,采用这种章节设置,如图1G所示,不可能象本发明那样在看上去是关键帧的部分的顶端设置任何章节点。
此外,手动的章节设置功能是公知的,其允许用户他或者她自己在期望的时间点设置章节点。然而,采用此功能,用户将必须通过实际浏览他已经记录或者将要记录的节目才能设置章节点。对于用户而言,这种设置操作是麻烦的,由此,此功能不是有效的。
相反地,采用根据本发明的基于特征数据的章节点设置功能(预定时间点设置或者预定位置设置功能),能够在关键帧部分的顶端或顶端附近以及底部、以及在邻接底部并且不是任何关键帧部分的部分的顶端或者顶端附近适当地自动设置章节点,如图1E所示。因此,与采用常规的章节设置功能相比,通过进行更加有效的章节点设置,这种章节点设置功能允许进行有效的编辑、FF重放和REW重放。
图2示出了在预定的视频监视器上作为缩略图图像来显示如图1F所示的具有预定大小的自动设置的章节点的概念。
如图1F所示,帧f1、f4和f7分别位于预定的关键帧部分A1、A2和A3的顶端或者顶端附近,而帧f3、f6和f9分别位于部分B1、B2和B3的顶端或顶端附近,所述部分B1、B2和B3分别邻接关键帧部分A1、A2和A3并且不是任何关键帧部分。此处假定:通过浏览如图2所示的显示屏,用户将提取图1D中所示的关键帧部分A1、A2和A3,把它们记录到诸如DVD的盘状记录介质中,在帧f1、f4和f7的时间点进行数据的跳跃重放,并且进行其它操作。
图1G示出了预定的时间点(章节点或者预定的位置)的示例。也就是,把预定的时间点或者位置规律地或大体上规律地设置为例如间隔5、10或者其它数目的章节点。正如将从图1C和1G中看到的那样,章节点并不总是被设置在关键帧(重要帧)中。
采用本发明的基于特征数据的上述自动章节点设置或者分段(预定点设置或者预定断点设置),能够进行有效的编辑或者跳跃重放。
1.2依照本发明的信息信号处理过程的示例
接下来,将参照图3描述依照本发明的信息信号处理过程的示例。
图3中示出的信息处理过程包括特征提取步骤(2),其中从MPEG图像/语音流数据中提取图像和语音数据序列上的特征数据。
为了便于说明,此处假定MPEG流(1)(MPEG数据)将被记录或者已经被记录在预定的记录介质中。本发明还适用于例如经由预定的传输系统(电缆或者无线电)来传输的图像/语音数据。
特征提取步骤(2)可以与记录同时实现,但是如果图像/语音数据已经被记录在预定的记录介质中,那么特征提取步骤(2)可以通过从记录介质中重放数据来进行。
此处将解释规则处理。
在所述规则处理中,根据规则文件来实现预定处理,在所述规则文件中依照预定形式或规则数据描述规则。
规则文件对应于节目类型并且基于特征数据在其中描述规则,并且在其中描述关于预定部分的特征数据的PU特征数据文件(重放单元特征数据文件)和规则文件被处理,以便生成预定的播放列表文件。
为了便于说明,此处假定预定节目类型 n的规则文件是Rf(n),PU特征数据文件是Pu,播放列表文件是Df并且所期望的概要时间是t。播放列表文件Df可以通过如下表达式(1)给出:
Df=Pu(*)Rf(n)(*)t                         .........(1)
其中把(*)假定为基于预定文件中的数据的预定运算符。
规则文件Rf(n)依照预定形式被描述,并且包括诸如预定时间校正函数、含义、含义的加权因子(评估值或重要级别)等等的关于预定参数的数据。
重放单元处理
作为本发明的特性之一,特征提取(2)后面跟随有PU处理(重放单元处理)(3)。
在PU处理(3)中,把每一特征数据作为预定的数据(PU特征数据文件)记录(存储)到预定的记录介质或者缓冲存储器中的断点(4)处,作为“PU(playback unit,重放单元)”。
根据规则1的运算
所述PU特征数据文件在根据规则1的预定运算(5)中进行PU表征(signification)。下面将简要地解释根据规则1的运算(5)并且稍后详细说明。
过程1:
采用所选含义作为PU的含义
过程2:
从特征数据组合中选择第一规则所表示的含义中最满足要求的一个含义
过程3:
采用所选含义作为PU的含义。
在根据规则1的运算(5)中,如果诸如节目类型或者用户过去观看过的节目类型、时区、播放数目、播放时间、播放日期等等的参数和辅助信息等等因EPG(电子节目指南)等等而可以使用,那么可以在考虑到这些参数的情况下实现预定的处理。
根据规则1的运算中的时间校正函数如稍后将详细解释的那样被计算。
根据规则2的运算
进行了表征的PU(6)在根据规则2的预定运算(7)中进行预定的评估值处理。
在根据规则2的运算(7)中,评估值处理包括如下运算1和2的重要性:
运算1:
含义重要性的评估
运算2:
含义的出现模式的评估
经历了预定评估处理的PU(8)被单独给予预定的评估值或者按照某些PU的组合给予评估值。
如图4所示,规则选择系统900对应于节目类型信息来选择规则1和2或者它们之一,所述节目类型信息包括类型-A规则数据、类型-B规则数据、类型-C规则数据,...以及用于根据规则的运算的某些数据,作为对应于多个节目类型并且已经被提供给系统控制器20的规则处理数据。
此外,把用于根据规则的运算的某些数据分别提供给个人用户,如图4所示那样,并且为应用进行选择。
在此情况下,按预定的运算模式,系统控制器20通过由预定用户进行的设置来选择个人用户1的用于根据规则的运算的数据、个人用户2的用于根据规则的运算的数据、个人用户的数据,...,中的任何一个,并且提供给系统控制器20,以便基于所选的用于根据规则的运算的数据来进行预定的规则处理。
通过如图4所示那样为个人用户提供规则处理数据,能够进行如下操作,所述操作包括:例如为每个个人用户进行诸如常规或者特殊重放的预定重放,把诸如重放状态、重放位置等的操作信息、操作位置信息存储到预定的存储器装置中,以便为每个个人用户进行预定的规则处理以反映所述信息,通过预定的学习操作,根据需要在预定的时间将这些信息更新为用于个人的规则处理数据。对于每个个人用户的学习操作而言,这是有效的信号处理方法。
如图4所示,规则选择系统901在为每个个人用户选择根据规则的运算的过程中选择规则1和2或者它们之一。
根据规则的运算的形式
根据规则1的运算:
在广播节目的情况下,与预定的图像/语音特征数据相关联地描述给定含义的PU,字母和含义如下被设置。
关于向字符给予含义,在广播节目或者待记录或者重放的预定部分中被认为是关键帧(重要帧或者场景)的场景被选择并且被描述,对于概要重放、章节设置等等而言,该场景也被认为是有效的。
此外,用户期望的场景被描述。在此情况下,预定的调整模式等等被使用,以便能够描述用户期望的规则。
图5A和5B中的顶端栏示出了如下面表1中那样的新闻节目的示例:
表1新闻节目示例
  设置(含义)字符   含义
  a   广播员出现的新闻项目的场景
  b   事件或者事故场景
  c   天气预报
  d   节目的开始场景
  e   节目的结束场景
在图5A所示的示例中,定义字符 a描述一种提取其中出现广播员的场景的规则。然而,由于认为不可能在由定义字符 a描述的一个规则下提取所有可能的场景(其中出现广播员),所以多个规则被描述以便提取这种可能的场景。
同样,如图5A那样,通过定义字符 bcde来描述多个规则。
图5B中的顶端栏示出了如下面表2中那样的相扑—角力节目的示例:
表2相扑-角力节目示例
  设置(含义)字符   含义
  A   竞赛介绍的场景
  B   搏斗初始的场景
  C   搏斗的场景
  D   节目开始的场景
  E   结束的场景
此外,在图5B所示出的示例中,由于认为不可能提取由字符 a定义的所有可能的场景,例如场景中的摔跤选手、相扑裁判员、相扑公证人等等,所以通过多个小块(tile)来描述定义字符 a。例如,为每个定义字符设置多个规则。同时,视情况而定,为待提取的场景(关键帧)描述独立的规则。
广播节目中可能包括无法唯一地表征的场景。例如,可以进行如下的设置,采用如下面表3所示的定义字符@:
                表3
  设置(表征)字符   含义
  @   没有含义(未定义)
将采用新闻节目作为示例来详细说明定义字符(设置或者含义字符)的根据规则1的运算。
如果如图18所示那样检测到每一预定的特征数据,那么假设在上述的新闻节目中,场景分别对应于定义字符 abcde
在图5A和5B中,假设小圈表明逻辑积的运算,并且小三角表明逻辑和的运算。在广播员出现的场景中,在定义字符 a表示的列中示出,可以假定语音特征的属性作为谈话者的语音被检测,预定的色彩在色彩特征检测区域2或者3中被检测,类似图像信息的出现频率按照“最高”或“第二高”被检测,人的特征在检测区域1、2或者5中被检测,并且照相机特征是“静止”。
在用定义字符 bcde分别表示的其它列中,在图5A和5B中,通过对应于如上列 a中小圈和三角形标记中的每一个把定义字符与预定特征数据相关联,来把它们与特征数据相关联。
为预定运算、即根据规则1和规则2的运算依照预定形式来描述每一定义字符和特征数据。
图6A示出了象矢量分量那样描述的规则1的示例。
也就是说,例如,图5A和5B中示出的每一个特征数据均被作为语音特征的属性。如果所述属性是谈话者的语音,那么把所述规则作为A1。如果所述属性是音乐,那么把所述规则作为A2。如果所述属性不同于上述那些,那么把所述规则作为A3。
在图像特征的色彩特征中,把区域1作为B1,把区域2作为B2,...
可以类似地将特征分别作为B1至B4,C1和C2,D1至D5,E1至E4,F1至F4,G1等等。
如图6A所示,定义字符 a例如可以通过下面给出的表达式(2)来描述:
a=1.0(A1)100*(1.0(B2)100+1.0(B3)100)*(1.0(C)100
   +1.0(C2)100*(1.0(D1)100+1.0(D2)100+1.0(D5)100)*
   1.0(F1)100                               ........(2)
其它定义字符也可以如图6A所示那样来描述。
应注意的是,在图6A中,“*”表明像逻辑积(AND)那样的预定逻辑运算,而“+”表明像逻辑和(OR)那样的预定逻辑运算。
此处将通过举例来解释“1.0(A1)100”的描述。
如上所述,“(A1)”指的是语音特征的属性是谈话者的语音。
加权因子:
“1.0(A1)100”的描述中的“1.0”是“(A1)”的加权因子。为了方便,此处假定它是0至1.0。
由于加权因子是用于预定计算的适宜因子,所以将其设置(描述)在0至100或者0至10的范围内。
检测比例系数:
“1.0(A1)100”的描述中的“100”是“(A1)”的检测比例系数。如果所述检测比例系数在重放单元部分中是100%,那么“1.0(A1)100”将满足要求。
例如,在“1.0(A1)50”的描述的情况下,如果检测比例系数是50%,则“1.0(A1)100”将满足要求。
将基于稍后给出的表达式(3)来解释检测比例。
为了方便,此处假定检测比例系数在0至100的范围之内。
由于检测比例系数是用于预定计算的适宜系数,所以将其设置(描述)在0至1或者0至10的范围内。
此处应注意的是,当可以在重放单元部分中检测到特性时,上述检测比例系数是一。
例如,采用上述“1.0(A1)100”的描述,如果尚未以100%检测到谈话者的语音,那么可以确定“(A1)”的特性尚未被检测到。
例如,采用“1.0(A1)50”的描述,如果已经以50%检测到谈话者的语音,那么可以确定所述特性已经被检测到。也就是说,在预定部分中,已经检测到预定特征的比例可以通过系数来表示。
特征数据的检测比例:
由于这个原因,将解释特征数据的检测比例。
稍后将根据图34和35来解释检测操作。在本发明中引入了一种操作概念,其设置了诸如语音片段特征和对应于语音片段特征而设置的重放单元(或者播放单元)(PU)的预定部分。
由于这个原因,使用涉及所有PU部分的预定特征数据的检测比例来计算预定特性之间的比例。
假定重放单元具有部分(section)长度(帧长、时间长度等等)fa,并且将在部分f0和f1中检测特征数据P,如图7所示,特征数据P的检测比例F可以基于以下给出的表达式(3)来计算:
F=∑fi/fa=(f0+f1)/fa                         ........(3)
使用表达式(3)计算的值将用于评估值处理,稍后将详细说明此处理。
评估值处理的示例(示例1):
下面将说明如何计算评估值(重要性)的示例。
每一特征数据的理想值和检测结果如下被处理。
例如,在p=m(M)n的情况下来执行如下的过程(1)至(5):
过程1:
使用表达式(3)来计算每一预定的特征数据的检测比例 s
过程2:
把计算结果与上述检测比例系数 n进行比较,并且此处假定:
如果s<n,则p=m×s                       ........(4)
如果s>n,则p=m×100                     ........(5)
过程3:
在上述逻辑和(+)中,当特征数据M是相同属性的特征,诸如M1,M2,...,那么求平均值。
在上述逻辑积(*)中,引入了诸如逻辑积系数 r之类的运算概念,并且将其乘以求平均值的结果。
过程4:
为每个特征数据M进行上述运算,加上已计算的值,并且将相加的结果作为评估值。
过程5:
比较已计算的评估值,并且把最大评估值的含义作为重放单元 a的含义。
上述评估值处理是典型的示例。然而,只要检测到的特征数据或者在重放单元部分中检测到的特征数据的比例与设置“含义”之间的对应关系适当,也可以是任何其它的计算操作。
例如,如果过程3使用逻辑积计算,那么就进行平均,或者只把关于同样属性的特征数据相加,而不乘以逻辑积系数。
如果相同的特征数据在过程3中进行逻辑积计算,那么检测条件要比逻辑和计算的更加严格,因此可以对于大于逻辑和计算中的检测值的检测值进行运算。
此后将解释上述表达式(2)的应用。
例如,依照表4中所示的比例来检测特征,所述表4还列出了检测比例系数和加权因子。
表4
  特征   检测比例   检测比例系数   加权因子   P
  A1   100   100   1.0   100
  B2   80   100   1.0   80
  B3   80   100   1.0   80
  C1   100   100   1.0   100
  C2   100   100   1.0   100
  D1   80   100   1.0   80
  D2   80   100   1.0   80
  D5   80   100   1.0   80
  F1   80   100   1.0   80
如果因为特征B2、B3、C1和C2在类型方面彼此相同而在检测属性方面彼此不同,因为所述特征在不同的区域中被检测到,或者由于类似的原因,将要进行逻辑和计算(+),那么所述特征被求平均。在此情况下,根据表达式(2),通过如下表达式(6)给出评估值 h
h=100+(80+80)/2+(100+100)/2+(80+80+80)/3+80
=100+80+100+80+80
=440                                      ........(6)
否则,所述特征数据可以依照它们的类型被平均,并且平均的结果被作为评估值。在此情况下,由于特征数据具有五个类型A至F,所以评估值 h可以通过如下表达式(7)给出:
h=440/5=88                               ........(7)
在属性方面彼此相等的特征数据之间关系的逻辑积计算:
此处将解释在上面表达式(2)中具有相同属性的特征数据例如B2和B3进行逻辑积运算的情况,即(1.0(B2)100*1.0(B3)100)。
从上述的评估值处理(过程3)中可以推导出逻辑积系数 r的概念,以便进行计算r(80+80)/2。
假定r=1.5,则
h=100+1.5×(80+80)/2+(100+100)/2+(80+80+80)/3+80
=100+120+100+80+80
=480                                     ..........(8)
此外,按照特征数据类型的数目(=5)对上述计算的结果求平均可获得如下评估值 h
h=480/5=96                              ..........(9)
在上述情况下,由于逻辑积计算的条件比逻辑和计算要严格,所以已检测的“含义”的评估值有些大。
此外,假定r=0.8,则
h=100+0.8×(80+80)/2+(100+100)/2+(80+80+80)/3+80
=100+64+100+80+80
=424                                    ..........(10)
此外,按照特征数据类型的数目(=5)对上述计算的结果求平均可获得如下评估值 h
h=424/5=84.5                            ..........(11)
在上述情况下,做出这样的安排,即:由于逻辑积计算的条件比逻辑和计算的要严格,所以更小的评估值将被检测到,这与上述情况相反。
属性彼此不同的特征数据之间关系的积和计算。
在这种计算中,在属性方面彼此不同的特征数据分别由逻辑积运算符(*)表示,如上述表达式(2)中所给出的那样。然而,视情况而定,它们也分别由逻辑和运算符(+)来表示。
为了便于说明,只有表达式(2)的第一和第二项A1和B2被确定并且被置于表达式(2)中:
a=1.0(A1)100+1.0(B2)100                      .........(12)
基于逻辑和系数 w的概念,可方便地进行运算,正如已经关于上述表达式(3)表示的评估值处理所描述的那样。
在此情况下,基于上述表达式(12)来如下计算评估值 h
h=(100+80)w                                  .........(13)
当w=1时,逻辑积计算产生如下结果:
a=1.0(A1)100*1.0(B2)100                      .........(14)
h=100+80=180                                .........(15)
对大于逻辑积计算中的评估值的评估值进行由表达式(8)给出的逻辑和计算,因此当:
w=1.5                                        .........(16)
h=(100+80)×1.5=270                         .........(17)
此外,对小于逻辑积计算中的评估值的评估值进行由表达式(8)给出的逻辑和计算,因此当:
w=0.8                                        .........(18)
h=(100+80)×0.8=144                         .........(19)
由于评估值处理是为了评估表达式的值而引入的概念,表达式是设置含义、特征数据、各种系数等等的组合,所以上述评估表达式中的每一系数的范围和值不局限于上述数值,而是可以被设置为更小或更大。
在规则文件中包括的规则中陈述的重放单元的每一部分的评估值是通过计算上述评估值的计算而被确定的。例如,在概要重放模式中,依照概要重放的时间,评估值较大的PU部分被选择,并且评估值较小的PU部分被选择,直到尽可能地接近概要时间为止。
通过重放这样选择的每一PU部分,能够进行预定的概要重放。
评估值处理的其它方法:
基于上述的特征数据 n和预定的运算符*中的每一个的一项可确定值w(M)*k。
在P(*k(n),det(n))的情况下,
d(n)=P(*k(n),det(n))                   .........(20)
对应于下面任何运算符*的d(n)被确定如下:
(1)在*=(||>)的情况下,也就是在P((||>)k(n),det(n))的情况下被描述为:
if(k(n)≤det(n))then d(n)=0             ........(21)
else d(n)=100                           ........(22)
(2)在*=(||<)的情况下,也就是在P((||<)k(n),det(n))的情况下,
if(k(n)>det(n))then d(n)=0             ........(23)
else d(n)=100                           ........(24)
在上述运算(1)和(2)中,对应于检测det(n)和设置检测比例k(n),将正被处理的值d(n)处理为100或0。因此,在表征特征数据方面,运算(1)和(2)比运算(3)或(4)明显更加有效,下面将解释后者,并且其中被处理的值被处理为差值。
(3)在*=(|>)的情况下,也就是在P((|>)k(n),det(n))的情况下,
if(k(n)<det(n)then d(n)=0             ........(25)
else d(n)=|k(n)-det(n)|                ........(26)
(4)如果*=(|<),也就是如果P((|<)k(n),det(n)),则
if(k(n)>det(n)then d(n)=0                 .......(27)
else d(n)=|k(n)-det(n)|                    ........(28)
因此,通过如下的表达式(29)将给出评估值:
Σ n w ( n ) × ( 100 - d ( n ) ) / Σ n w ( n ) - - - ( 29 )
根据引入上述运算符,如果例如存在特征数据A1和B2,则能够进行随后的描述:
a=1.0(A1)(||<)100+1.0(B2)(|<)100         .........(30)
在此情况下,假定特征A1的检测比例(实际检测值)是100,而特征B2的是80,那么上述运算(1)和(4)产生随后的评估值 h
h=1.0×(100-0)+1.0(100-80)/(1.0+1.0)
=(100+20)/2=60                            .........(31)
对于如上的评估值处理而言,存在可利用的某些方法。然而,评估值可以通过任何其它方法来计算。
图6A中示出的规则1的描述是将描述的数据的出现模式(含义)的表示示例。在此描述中,字母 abc...用作含义。然而,也可以使用字母A,B,C,...作为其否定,并且使用“*”作为通配符。
根据规则2的运算
根据规则2的运算是这样的,考虑到作为已经采用上述根据规则1的运算表征的预定部分的重放单元之间在含义方面的链接来进行运算。
根据规则2的运算包括基于时间校正系数、即时间加权进行的时间校正。
例如,在根据规则1的运算中,当把含义 a的评估值作为70而含义 b的作为80时,给出(ab)的评估值 g如下:
g=70+80=150
否则,含义的数目可以被平均。如下,把含义(a和b)的数目除以二:
g=510/2=75
否则,所述评估值可以相乘如下:
g=70×80=5600
例如,评估值 g可以通过“100”(被假定为最大值)被规范化为:
g=5600/100=56
在时间校正系数的加权中,“gt”被作为最终评估值,假定上述(ab)可以在时间 t被检测到,则其评估值是 g并且时间校正系数(加权因子)是 w
依照预定的描述规则,在规则文件的规则2中的适当位置,所述时间校正系数被描述为其变化点(变化点坐标系统中的信息数据)。
图6B中示出了根据规则2的运算的示例。
时间校正系数:
首先,将解释时间校正系数。
时间校正系数被用于校正规则文件中的预定节目类型中的概要的时间。
某些用户可能希望主要在广播时间长度的前半部分或后半部分内重放某些预定的广播节目,这视情况而定。
由于这个原因,可以在考虑对应于广播节目的各种参数,诸如待记录的节目的类型、广播时间及其他参数的情况下,对于待进行概要或摘要重放的预定部分的时间段(或瞬时时间,视情况而定)加权。
也就是说,与被给予其它时间段的部分相比,为所述时间段加权的部分被给予了更加重要的概要(或摘要)重放。
图8A至8I示出了用于时间加权的时间校正函数的示例。
图8A示出了具有相同重要性的整个预定概要重放部分的时间加权。
图8B示出了给予前半部分比后半部分更大重要性的预定部分的时间加权。
图8C示出了给予后半部分比前半部分更大重要性的预定部分的时间加权。
图8D示出了给予前部和后部比中部更大重要性的预定部分的时间加权。
图8E示出了给予中部比前部和后部更大重要性的预定部分的时间加权。
图8F示出了如图8D所示的互不相同的两个校正函数的组合,分别示出了给予前部、前部和中部之间、中部和后部之间以及后部的具有不同重要性级别的时间加权。
图8G示出了如图8E所示的互不相同的两个校正函数的组合,分别示出了给予前部、前部和中部之间、中部和后部之间以及后部的具有不同重要性级别的时间加权。
图8H示出了分别如图8C和8D所示的校正函数的组合,并且图8I示出了分别如图8D和8B所示的校正函数的组合。
图9示出了时间校正函数的一般形式的示例,其中开始、变化和结束点分别是PO(ts,s3),P1(t1,s3),...,Pe(te,s0)。
在图9的坐标中,为了便于说明,依照与稍后根据图41至43所解释的″开始/结束位置信息″相同的维数的值,或者依照基于开始和结束点之间的部分的从开始点起的比例,y轴例如表明0和100范围内(最大值是100并且最小值是0)的加权,并且x轴表明在范围0至100内设置的位置信息。
彼此相连的重放单元的含义和其间关系的确定:
如上面已经解释的那样,能够根据由预定提取产生的特征数据来为重放单元(PU)设置含义。
此处将解释如图10所示的视频数据结构。
节目 k可以被分为某些场景m,m+1,...,并且每一个场景被分成某些镜头。
每一个片段(镜头)形成一个帧。
场景之间的断点是场景变化点。
片段(在下面任何适当的地方,也称为镜头或图像片段)可以是对应于每一场景的类似图像的组合或者类似图像特性的组合。
片段等等在节目中具有对其含义来说唯一的概念。
分别具有其自身含义的某些片段和场景被结合在一起,以便形成节目中的视频数据结构。
例如,如果在棒球比赛的广播节目中持续击球手的场景,那么所述击球手的类似图像被检测并且所述场景可以被分成类似的特性片段。所述片段将具有含义(含义的概念)“击球手的图像”。
此外,如果在广播棒球比赛节目中持续投手投出球的场景,那么投手的类似图像被检测并且所述场景可以被分成类似的特性片段。所述片段将具有含义(含义的概念)“投手的图像”。
当假定投手投出球,并且击球手击中球且朝着本垒跑时,能够检测到具有它们自身含义的图像场景之间的链接,所述含义诸如是“投手的图像场景”、“击球手的图像场景”和“击球手在跑垒过程中的图像场景”。
在上述PU的每一个中处理预定节目中的图像特征数据和语音特征数据,以便对应于所述特征数据为每个PU设置含义。例如,其中播音员(广播员)首先读取新闻条目(新闻标题)的新闻节目的场景将包括一两个人、telop(tlp特征)、作为语音特征属性的谈话者语音等等的特征,并且新闻节目自身包括播音员读取新闻的某些场景。由此,新闻节目包括类似于播音员进行读取的场景的多个场景。因此,类似的图像特征、也就是特定ID将更加经常地出现。
如同上述,能够对应于预定的特征数据为每个PU设置含义,所述特征数据诸如是人的特征、语音特征、telop特征、类似图像特征以及如根据规则1的运算中的其它特征,这些已经在先前解释过了。
在棒球比赛节目的上述示例中,彼此相连的PU之间的关系具有预定的含义。也就是说,具有预定特征数据或者特性数据的PU依照预定方式彼此相连。
图11中示出了具有预定含义的、即为其设置了预定含义的重放单元(PU)之间的关系。
在图11中,在节目(广播节目)中设置了预定的含义 ad
彼此相连的某些部分PU(n)至PU(n+2)之间的关系表明PU(n)的含义 a、PU(n+1)的 b和PU(n+2)的 c依照最自然的方式彼此相连。
图11示出了相扑角力广播节目的PU之间的连接关系。如可以理解的,最适当的并且最合理的是,含义 a“竞赛介绍的场景”跟随有含义 b“搏斗初始的场景”,并且含义 b“搏斗初始的场景”跟随有含义c“搏斗的场景”。
PU之间的连接关系可以由字符序列如“abc”来定义。当所述字符序列“abc”对应于关键帧时,能够在广播节目中发现“abc”并且把由此找到的第一和最后部分或者其最接近的点设置为预定的设置点。
如果在棒球比赛广播节目中,一个部分中的重放单元分别对应于含义“投出球”、“击中”、“无意义”和“通过”,那么除了含义“无意义”之外,被确定为具有三个含义“投出球”、“击中”和“通过”的PU可以被放置在一起,以便提供预定的PU块(lump),其被表征为“投出球/击中/通过”。
此外,把具有含义“无意义”的PU与其它PU放置在一起是没有任何问题的,因为确定它没有含义。由此,可以把上述四个PU放置在一起,以便提供被表征为“投出球/击中/无意义/通过”的预定的PU块。
上述“无意义”被设置,是因为有可能通过上述根据规则1的运算中的预定评估基于根据预定特征数据定义的某些含义进行预定的表征,也就是说,通过预定的信号处理,基于多个含义无法进行正确的表征。
“无意义”可以是“无论什么含义都行”。使用后一定义的运算与使用定义字符@的运算相似。
图12A示出了新闻节目的示例,其中“aabb”的连接、即“具有广播员出现的场景”、“具有广播员出现的场景”、“事件或者事故场景”和“事件或者事故场景”是适当并且合理的。
图12B示出了上述相扑角力节目的示例。
图13A和13B示出了根据规则2的新闻节目的处理。图13A示出参考模式(参考字符序列)是“aabb”,而图13B示出了在预定的节目记录部分中检测到具有参考模式“aabb”的部分,并且图示中的部分A1和A2被发现具有参考模式“aabb”。
如图13B所示,发现具有参考模式“aabb”的部分的开始点p1和p3以及结束点p2和p4例如被设置为预定的设置点,以便进行稍后将解释的播放列表的章节数据(位置信息数据)的预定处理。例如在概要重放模式中,所述重放被控制以便重放设置点p1、p2、p3和p4。
对于章节设置、预定时间点的设置(预定位置设置)等等来说,把时间点p1、p2、p3和p4以及接近所述时间点的预定点作为设置位置并进行预定处理。
由此,通过基于预定特征数据判断PU具有预定含义,把PU设置为具有预定的含义,根据被设置为具有这种含义的PU来假定含义之间的连接关系,并且假定对应于预定含义的PU的预定数目的连接和设置,可以进行重放控制。
在图6B所示的根据规则2的运算的描述示例中,描述了待检测的由字符序列(aabb)定义的关键帧(重要帧)以及加权因子100。在先前的描述之后,Ps(ts,s4),P1(t1,s4),Pe(te,s3)被描述为时间校正函数(先前已经描述过了)。在此示例中,所述函数是这样的,如图14所示,在节目的后半部分,其重要性逐渐降低。如图14所示的这种时间校正函数主要适用于收听并且观看节目的前半部。
图6B中示出的根据规则2的运算描述是待描述的数据的出现模式(含义)的表示示例。在此描述中,字符 abc,...被用作含义。然而,字符A,B,C...可以用作其否定并且“*”用作通配符。在图6B中示出的根据规则2的运算的描述中,如果节目例如属于新闻节目类型,并且由(Abb)来定义,那么“A”不同于“具有广播员出现的场景”,并且“b”是“事件或者事故场景”。也就是“具有广播员出现的场景”和两个连续的“事件或者事故场景”将被检测。
下面将解释评估值计算的示例。把重放单元组作为(abc)。如表5所示,使用上述表达式(1)来计算特征 abc的检测比例(值)和加权因子。
表5
  含义   值   加权因子(重要性)   注释
  a   1.0   100   1.0×100=100
  b   0.8   80   0.8×80=64
  c   0.8   80   0.8×80=64
评估值
=100×(100+64+64)/(加权因子之和)=100×228/(100+80+80)
=100×228/260=88
根据规则2的运算中的重放单元组的其它示例:
在上述表达式中,因为考虑到评估值的比例(%),所以把(abc)乘以“100”。然而,由于评估值可以处于容许预定评估的比例并且在预定的计算中没有任何问题,所以除非发生例如溢出的任何问题,否则可以不考虑所述比例。
根据规则2的运算中的重放单元组的其它示例:
此处将解释如何在根据规则2的运算中连接分别作为重放单元组的多个含义组单元,其中所述重放单元组是由具有“含义”并且彼此相连的多个重放单元形成的。
已经就仅一个重放单元解释了根据规则1的运算。意图是根据特征数据找到最可能具有“含义”的重放单元。
根据规则2的运算可以进一步被扩展为检测由均包括一组重放单元的块的连接、即由根据规则2的运算表征的重放单元的组合产生的部分。
例如,上述(aabb)可以作为Ga1,并且多个Ga1依照类似(Ga1Ga1)的形式被连接在一起。在此情况下,通过类似于根据规则1的运算的运算来计算Ga1的评估值。更具体地说,能够通过对含义彼此不同的重放单元的评估值之和求平均,通过对含义彼此不同的重放单元的评估值的积求平均或者通过任何其它方法来计算评估值。
例如,如果对具有含义 a的重放单元的评估是80,而对具有含义b的重放单元的评估是60,则可以通过对重放单元评估值的和求平均来确定Ga1的评估值如下:
(80+80+60+60)/4=70
一般说来,如图15a中的示例1那样,可以进行直到根据规则2的运算。如果多个节目中包括特征数据,例如如果每一个节目是时间加权的,那么将要完成如图15B所示的规则3下的运算。
图6C示出了新闻节目(新闻)和体育节目(体育)被加权并且进行时间校正的一个示例。
在图6C所示的示例中,新闻节目被加权100%,并且采用开始点Ps(ts,s4)、变化点P1(t1,s4)和结束点Pe(te,s3)作为时间校正系数被校正。体育新闻被加权70%,并且采用开始点Ps(ts,s4)、变化点P1(t1,s4)和结束点Pe(te,s3)作为时间校正系数被校正。
下面将根据图16进一步解释上面就图3已经解释的运算。
图16A示出了根据各种预定特征数据通过根据规则1的运算以某些方式对每一场景的表征。
预定的运算被完成以便为每个场景设置评估值,所述场景已经通过如图16B所示的根据规则2的运算来表征。
例如,为了在概要重放模式中,在用户期望的时间t1进行重放,对其设置了最大评估值的场景(图像)首先被选择,然后在尽可能接近时间t1的时间点处选择具有较大评估值的场景,并且设置位置信息以便重放由此选择的部分。
把已设置的位置信息存储在预定的数据存储器中,并且当控制预定部分的重放时,将其从存储器中读出。
所述部分被顺序重放(跳跃重放)以便进行预定的概要(摘要)重放。
在图16C所示的示例中,假设合计记录时间是60分钟并且概要重放将要在15分钟内进行。如果具有少于70的评估值的PU被选择并且进行概要重放,那么如果概要重放的时间稍微少于15分钟,则具有评估值60的PUn+8的部分被选择,因此重放时间将尽可能接近所期望的重放时间15分钟。
其评估值较大的预定PU部分被选择,以便选择重放时间尽可能接近预定值的PU部分。
基于所述评估值来选择预定的PU部分,因此重放时间T将在如下给出的所期望的重放时间Tm的预定容许范围tc内:
Tm-tc<T<Tm+tc
同时,通过在具有较大评估值的被表征部分的起始(或者其附近)和结束(或者其附近)处设置预定的位置(章节),例如图6D所示,所述部分可用于预定的操作,诸如编辑、暂停跳跃重放的重放、反复重放等等。
2.记录/重放设备的方框结构的示例
为了便于说明,此处假定待记录的图像/语音数据是广播节目数据,并且所述数据将基于MPEG(运动图像专家组)进行预定的频带压缩。应该注意的是,所述信号可以通过子波变换、分数维分析等等来处理。如果例如使用子波变换来处理所述信号,那么下面将解释的图像数据的DCT系数等于多分辨率分析中的分析系数,由此可以通过多分辨率分析来处理。
2.1方框结构的示例1
图17是示出了作为本发明实施例的记录/重放设备30(此后将被称为“记录器/播放器30”)的方框结构示例的电路框图。
为了便于说明,此处将解释记录器/播放器30接收电视广播并且记录接收到的广播节目的示例。
2.1.1处理信号以便记录的系统
所述记录器/播放器30包括用于接收预定的广播节目的接收天线系统1和接收器2,采用预定的采样频率和预定数目的量化位对广播节目中的语音信号进行预定的A-D转换的语音A-D转换器3,以及向其提供进行A-D转换的语音信号的语音编码器4。
所述语音编码器4采用预定的频带压缩技术来处理A-D转换的语音信号,所述频带压缩技术诸如是MPEG音频、C3音频(杜比AC3或者音频代码号3)等等。
所述记录器/播放器30还包括采用预定的采样频率和预定数目的量化位对广播节目中的图像信号进行预定的A-D转换的另一A-D转换器8,以及向其提供进行了A-D转换的图像信号的图像编码器9。
所述图像编码器9采用诸如MPEG、小波变换等等预定频带压缩技术来处理A-D转换的图像信号。
如上通过语音编码器4和图像编码器9处理过的语音和图像数据经由多路复用器5被提供给记录器6。
为了提取语音信号的特征,所述记录器/播放器30还包括特征提取系统10,向该系统10提供了提供给语音编码器4的一部分信号或者在预定的编码操作期间被处理的一部分信号。
在图17中所示的记录器/播放器30中,曾经提供给语音编码器4的一部分信号从语音编码器4被提供给特征提取系统10。然而,部分信号可以被提供给语音编码器4并且也提供给特征提取系统10。
此外,为了提取视频(图像)信号的特征,提供给图像编码器9的一部分信号或者在预定的编码操作期间被处理的部分信号被提供给特征提取系统10。
在图17中所示的记录器/播放器30中,曾经提供给图像编码器9的一部分信号从图像编码器9被提供给特征提取系统10。然而,该部分信号可以被提供给图像编码器9并且也提供给特征提取系统10。
在记录模式中,对于每个预定部分,特征数据被相互检测,并且将其连同已经进行了预定编码的图像/语音数据一起记录到预定的记录介质7中的预定记录区域中。
所述记录器/播放器30还包括播放列表/章节生成器19,其用于进行诸如播放列表处理(9)的预定信号处理,以便根据特征数据为预定的概要(摘要)重放生成播放列表数据,或者进行摘要重放章节处理(11)以便生成章节数据。
在这里能够进行如下信号处理(过程(a)或者(b))以便生成播放列表或者章节数据。
过程(a):
对于预定的数据量而言,在把特征数据存储到预定的存储器或者系统控制器的预定存储区域中之后,预定的播放列表数据和预定的章节数据被生成。
过程(b):
对于预定的数据量而言,在把特征数据一个接一个地存储在记录介质7之后,所述数据被重放以便生成预定的播放列表数据和预定的章节数据,其中每当完成预定的特征提取时,记录介质7就要记录图像/语音数据。
在上述过程(a)中,在完全记录了预定时间长度 t的广播节目之后,广播节目中的所有预定的特征数据被收集在一起。在此时间点,可以进行播放列表数据生成,以便确定对应于概要重放时间td的关键帧处于时间长度 t中的何处。也就是说,要为时间长度 t处理的特征数据将被存储在存储器或者系统控制器的预定存储区域中。
在上述过程(b)中,在如过程(a)中那样为预定时间长度 t完全记录了广播节目之后,检测所述节目是否已经在预定的时间长度 t被记录,预定的数据被重放,并且对应于预定概要重放时间td的播放列表数据生成将开始。
在完成播放列表数据生成之后,记录器/播放器30准备好进行预定的概要重放,并且能够使用播放列表数据来进行预定的概要(摘要)重放。
由于播放列表数据已被生成,所以如果不再生成播放列表数据,则擦除预定的特征数据。然而,如果再次生成数据以便校正播放列表数据,则特征数据可以按照记录时那样被保留。
在经由系统控制器20存储预定部分中的特征数据之后,由播放列表/章节生成器19使用它来生成预定概要(摘要)重放的播放列表数据。
把所生成的播放列表数据依照预定的方式记录在记录器6中,然后记录在记录介质7的预定记录区域中。
为了跳跃重放依照预定方式这样记录的部分,所述播放列表数据包括这样的数据,所述数据是有关待重放的每一预定部分的重放开始和结束点的一对信息。它例如包括有关预定部分的重放开始帧编号和结束帧编号的一对数据。
通过在所记录的节目的预定必要部分之间跳跃,使用所述播放列表数据来进行概要(摘要)重放。因此,除了上述的帧数据之外,所述播放列表数据还可以是时间码数据、时间戳数据,诸如依照MPEG等等定义的PTS(呈现时间戳,Presentation Time Stamp)、DTS(解码时间戳,Decode Time Stamp)等等。
所述播放列表数据可用来在处于记录模式时(其中图像/语音数据如上述广播节目那样)在完成预定的节目记录之后进行预定的数据生成,然后当处于重放模式时,使用特征数据进行预定的操作,稍后解释重放模式。
正如从图17所获知的那样,已经利用基于MPEG的技术依照预定方式编码的语音和图像数据可以不在语音编码器4和图像编码器9中编码,而是被直接提供给多路复用器5,由记录器6处理并且被记录到记录介质中。
能够由系统控制器20检测数字图像/语音数据是被提供以便直接记录,还是在把模拟图像/语音信号提供给接收器2并且依照预定方式编码之后被记录。换句话说,能够根据输入系统确定预定的图像/语音特征数据将在记录模式期间还是在已经记录了数据之后被自动提取。作为选择,如果数字图像/语音数据被提供,那么没有数据将通过预定的编码器,因此不必对数据结构进行任何预定的分析。在此情况下,可以在已经记录了图像/语音数据之后提取预定的图像/语音特征数据。
当处于记录模式时,可以经由用户输入接口(I/F)21依照用户的预定操作来设置模拟或者数字输入系统。
还可从图17中看出,系统控制器20可以自动检测来自语音编码器4或者语音A-D转换器3的信号、来自图像编码器9或者图像A-D转换器8的信号以及依照预定方式编码的数字和语音数据。
如果依照预定方式编码的数字数据被检测到,而来自语音编码器4或者语音A-D转换器3的数据和来自图像编码器9或者图像A-D转换器8的数据没有被检测到,那么可以确定依照预定方式编码的数字图像和语音数据已经被提供。
如果系统控制器20没有检测到依照预定方式编码的数字数据,而系统控制器20没有检测到来自语音编码器4或者语音A-D转换器3的数据和来自图像编码器9或者图像A-D转换器8的数据,那么可以确定所述数据是模拟输入。
依照预定方式编码的数字数据和模拟输入都被检测到,来自接收器2的模拟输入信号可以依照预定方式被记录以便初始化(默认设置)。
例如,基于有关图像的DCT数据来进行特征提取。因此,如果数据依照预定方式被编码,那么用于普通数据记录的DCT也可用于特征提取。由于在预定的编码中使用子带编码数据,所以用于普通数据记录的子带编码可用于依照预定方式编码语音数据以便提取特征数据。
如果已编码的数字数据被直接提供给记录器/播放器30,那么不执行任何编码。因此,需要通过DCT来分析数字数据并且提取特征数据,这将引起记录器/播放器30的负载。
由于这个原因,可以在记录了数字数据之后根据需要来提取特征数据。作为选择,如果提供了模拟数据,那么在对应于信号处理器负载的范围记录了模拟数据之后,可以自动提取特征数据。
特征提取例如可以通过如图20所示的软件来执行。由于在记录模式中,特征提取是否与每一预定的信号处理同时进行取决于系统控制器的性能,所以特征提取将在完成预定的记录之后被执行。此外,系统控制器20可以包括CPU、DISP(数字信号处理器)以及其它各种处理器。然而,性能越高,系统控制器越昂贵。因此,对应于处理能力可以确定特征提取将要与记录同时执行还是在记录之后执行。
预定的特征提取可以在完成预定的记录模式之后执行,例如在完成预定时间的记录操作之后,或者可以在夜里,通常可以假定此时设备没有被用户操作。在这种情况下,设备处于操作中的时间段应该被存储在系统控制器20的预定存储器中,并且将要实现特征提取的时间段应该通过预定的学习被适当地自动设置。
同时,如果由系统控制器20检测到设备通常没有处于记录或重放操作的时间段,那么可以在设备没有被用户使用的时段内实现预定的特征提取。在此情况下,可能尚未处理所有预定的数据。其处理已经被中断的点将被存储在系统控制器20的预定存储器中,并且将要检测设备没有正常地处于记录或重放操作中。如果确定可以执行信号处理的时间可利用,那么曾经中断的预定信号处理将在中断点被恢复。
2.1.2设备的重放系统的操作
正常重放模式
接下来,将解释图17中所示的记录器/播放器30中用于重放的信号处理。
首先,将解释正常重放模式中的操作。
当由用户输入接口21设置了正常重放模式时,包括预定图像/语音数据、特征数据等等的预定数据从记录介质7中被重放,并且由重放系统12进行预定的重放n。
这样重放的预定数据由重放数据分离器13分离为预定的数据。把语音数据提供给语音解码器14,其中将该语音数据依照对应于记录时对数据进行频带压缩所采用的信号处理技术的预定方式来解码,并将其提供给语音D-A转换器15,其中对其进行D-A转换,然后作为语音信号被提供。
此外,依照预定方式排序的图像(视频)数据由视频解码器16依照对应于记录时对数据进行频带压缩所采用的信号处理技术的预定方式来解码,提供给将对其进行D-A转换的视频D-A转换器17,然后作为视频信号被提供。
概要(摘要)重放模式
在概要(摘要)重放模式中,图像/语音数据的处理根据图像语音数据是否连同特征数据和播放列表数据一起被记录在记录介质中而有所不同。
图18示出了特征数据和播放列表数据如何被记录在记录介质中。
首先,如果如图18A和18B中的播放列表数据(播放列表数据文件)和章节数据可以被重放,即,如果播放列表数据和章节数据被记录在预定的记录介质(数据记录介质)中并且可以从概要重放模式被重放,或者预定的章节图像可以在章节显示模式中作为缩略图被显示,那么图像/语音数据将被处理如下:
换句话说,当用户选择概要重放模式或者章节显示模式时,进行如下的处理。
如果当用户经由用户输入接口21向系统控制器20提供命令以便在预定的概要(摘要)重放模式中操作时,如果在重放数据分离器13中经历预定数据分离的特征数据、参数数据、播放列表数据、章节数据等等已经被记录,那么被分离的预定特征数据、预定参数数据、预定播放列表数据、章节数据等等将被提供给系统控制器20。
如果特征数据、参数数据、播放列表数据和章节数据不能被重放数据分离器13分离,那么不把这些数据提供给系统控制器20。因此,重放数据分离器13和系统控制器20判断特征数据、播放列表数据、预定章节数据、参数数据等等是否被记录在预定的记录介质7中。
所述播放列表数据包括关于某些预定重放部分的重放开始和结束点信息,以便进行预定的概要重放。
章节数据包括关于预定特征部分的顶端或接近顶端的位置、预定特征部分的底部或接近底部的位置、与特征部分相连的不同于特征部分的部分的顶端或接近顶端的位置、或者不同于特征部分的部分的底部或接近底部的位置的位置信息。
通过对应于经由重放检测到的播放列表数据中的跳跃重放开始和结束数据进行跳跃重放,系统控制器20进行概要(摘要)重放。
此外,显示处理器27为了显示而根据预定的章节数据按照预定的缩略图来处理章节点或者接近章节点的点的图像,并且进行预定的图像显示。
正如接下来将描述的那样,如果如图18C和18D中的播放列表数据(播放列表数据文件)和章节数据无法被重放,即,如果播放列表数据和章节数据没有记录在预定的记录介质或者存储介质中并且无法在概要重放模式中重放,那么当处于章节显示模式时,在缩略图时间点处无法执行诸如预定缩略图显示、章节重放等等的一系列与章节有关的操作。
此处做出的解释适用于从另一记录介质重放图像/语音数据,如记录介质25作为DVD软件在记录介质处理器26和重放系统12中被重放的情况,不适用于重放所接收的图像/语音数据、诸如上述广播节目,并且适用于重放其特征尚未提取的图像/语音数据。
如果任何播放列表或者章节数据尚未生成并且由此无法通过重放被检测,或者如果希望重新生成经由重放检测到的播放列表数据或者章节数据,则能够根据经由重放检测到的预定特征数据和参数数据来为预定的章节相关模式章节数据生成概要重放的播放列表数据和章节数据。
在图26C中所示的情况下,即因为在记录时已经提取了特征,因而能够重放特征数据的情况下,把播放列表数据或者预定的特征数据从图17中所示的记录器/播放器30中的重放系统12或者重放数据分离器13提供给播放列表/章节生成器19,后者将生成预定的播放列表数据或者预定的章节数据。
对于此处正说明的这种操作而言,当用户已经输入概要重放模式的命令时,显示处理器27可适用于提供如图19所示的播放列表数据不存在的预定指示。
把所生成的播放列表数据提供给系统控制器20。系统控制器20将控制重放控制器18,因此对应于用户命令的预定概要重放时间来陆续重放(跳跃重放)基于播放列表数据的预定重放部分,并且由此重放控制器18将控制记录介质7的重放操作。
此外,把所生成的章节数据提供给系统控制器20。系统控制器20将控制重放控制器18,以便执行与预定章节有关的操作,诸如基于章节数据在预定章节的时间点按照缩略图显示图像,对章节点进行诸如剪切、连接等等的编辑操作,跳跃重放由用户选择的章节点等等,并且由此,重放控制器18将借助于系统控制器20来控制记录介质7的重放操作和显示处理器27的操作。
如同上述,如果诸如DVD之类的外部记录介质也如同记录介质25一样进行概要重放,那么可以对上述介质执行类似的信号处理。记录介质处理器26由重放控制器18来控制,以便进行如同上述的预定的概要重放。
此外,通过与上面类似的信号处理,能够进行一系列的与预定章节相关的操作,诸如使用章节数据进行编辑,在预定章节点(或者接近章节点的点)之间跳跃重放,在章节点(或者接近章节点的)依照缩略图显示图像等等。由此,记录介质处理器26由重放控制器18来控制,以便进行如上的信号处理。
另外,图16D中所示的特征数据无法重放,正如下面将解释的那样。
已经就根据特征数据来生成播放列表数据和章节数据解释了上面的示例。然而,如果把已经由另一用户对其记录了数据的外部记录介质25复制到记录介质A,那么特征数据在某些情况下无法重放。
如果记录介质7中已经记录了诸如广播节目的图像/语音数据,而没有任何特征数据,那么不能够重放任何特征数据,正如下面将解释的那样。
对于此处所解释的操作来说,当用户已经输入了概要重放模式或者与预定章节有关的操作模式的命令时,显示处理器27可以适用于提供如图19所示的特征数据不存在的预定指示。
在此情况下,为了在概要重放模式中从记录介质A(7)重放图像/语音数据,把重放系统12重放的数据提供给重放数据分离器13,并且把这样分离的并且已经进行了预定的频带压缩的图像和语音数据提供给特征提取系统10,其中这些数据将进行各种类型的预定特征数据检测,以便检测DCT、DC系数、AC系数、运动矢量等等作为图像特性数据,并且检测语音功率作为语音特性数据。
基于上述的各种图像/语音特性数据和预定的参数数据,特征提取系统10将进一步提取预定的telop特征数据(telop部分判断数据)、人的特征数据和其它图像特征数据(图像特征部分判断数据)以及谈话者的语音特征数据(谈话者的语音判断数据)、称赞/欢呼特征数据(称赞/欢呼判断数据)和其它语音特征数据(语音特征判断数据)。
把上述各种图像特征数据和语音特征数据提供给系统控制器20,并且当完成从所有预定的图像/语音部分进行预定的特征提取时,确定特征提取结束。
如果特征提取结束,那么把表明预定的信号处理已完成的信号从系统控制器20提供给显示处理器27。显示处理器27可以适用于提供如图19所示的预定指示。
接下来,将解释用于根据特征数据来生成预定的播放列表数据和章节数据的操作。
对于预定的特征提取部分的每一个,把上述特征数据存储到存储器11中。当完成对预定特征的所有操作时,把特征数据提供给播放列表/章节生成器19,其将生成预定的播放列表或者章节数据。
此处应注意的是,预定部分的特征提取数据可以从特征提取系统10直接提供至播放列表/章节生成器19,并且当所有上述预定部分和预定广播节目的特征提取被完成时,播放列表/章节生成器19可以根据来自系统控制器20的预定信号来生成上述预定的播放列表数据或者章节数据。
此外,来自特征提取系统的已处理特征数据可以经由系统控制器20被置于播放列表/章节生成器19。
当播放列表/章节生成器19已经生成预定的播放列表数据或者章节数据时,表明预定操作结束的信号被提供给系统控制器20,后者由此可以使用概要重放或者对应于所期望的概要重放时间的预定章节数据来进行与预定章节有关的操作。
在此情况下,提供了一种预定的指示,其表明播放列表数据或者章节数据可能已经如图19所示那样被成功生成。作为选择,在显示处理系统27上做出指示,所述指示表明设备处于概要重放模式和与预定章节有关的操作模式。
如果不知道用户希望对已记录的一小时长的广播节目进行概要重放的时间长度,30或者20分钟,那么可以对应于例如已记录广播节目的图像/语音数据的所有部分的时间长度之和预先生成对应于某些重放时间长度的播放列表数据,其中已经从所述图像/语音数据中提取了特征。
如果将要从中提取特征的广播节目是一小时的节目,那么在40、30和20分钟内进行概要重放,以便为每个重放时间长度生成播放列表数据。通过以这种方式生成播放列表数据,如果由用户操作遥控器22或者类似远程命令器选择了这种概要时间长度,那么能够进行对应于所有预定重放时间长度的概要重放操作。
重放记录介质25与重放记录介质A(7)相似。也就是说,记录介质25由记录介质处理器26检测,重放信号由重放处理器12处理,并且预定的图像/语音数据由重放数据生成器13分离。由于后续信号处理与重放记录介质7相似,因此,此处将不对其进行解释。
通过在并入专用硬件的计算机中安装控制程序来执行一系列操作或者通过安装各种程序,把控制程序安装到能够执行各种功能的通用个人计算机等等中。
记录介质可以是封装介质,诸如其中记录有控制程序的硬盘以及其中记录有程序并且被分送以便从计算机向用户独立地提供程序的磁盘、光盘、磁光盘、半导体存储器等等。
22.方框结构的示例2
将根据示出了图17中所示的记录器/播放器30的另一示例的图20来进一步解释本发明。记录器/重放器总地用图20中的参考标记30A来表示。
广播节目的信号记录/重放与图17中所示的记录器/播放器30中进行的操作相似,此后仅将解释与记录器/播放器30中的信号记录/重放不同的地方。
2.2.1记录系统中的信号处理
图20中的记录器/播放器30A与记录器/播放器30的差异在于:通过系统控制器20中的软件来进行记录模式中的特征提取的一系列信号处理操作。
在记录器/播放器30A中,经由网络系统24来下载预定的软件,并且用来通过如下面解释的软件操作来进行特征提取、播放列表处理(章节生成(诸如重放部分和重放时间点的信息的生成))。
有益的是,通过软件操作来下载依照本发明的软件将允许具有最初没有在其中安装的依照本发明软件的现有设备利用下载的软件。例如,如果所述软件无法在记录/重放系统中安装时被制造或销售,那么制造商可以首先向用户提供其中没有应用依照本发明的软件的简单配置的系统,并且在软件被制造之后再提供其中已经应用了软件的系统。
在购买了其中没有应用依照本发明的软件的简单配置的系统之后,由于用户可以通过软件操作向其系统中安装软件,所以他可以方便地向他的系统添加其它功能。
此外,对于校正或者改进处理系统来说,用户可以通过下载依照本发明的软件来方便地升级系统。
为了把依照本发明的软件下载到其系统中,用户操作预定的控制系统(诸如遥控器22等等)来经由网络系统24访问预定的互联网站点,并且通过操作预定的控制系统来下载依照本发明的软件。
由此下载的依照本发明的软件被解压缩并且依照预定方式安装到系统控制器20中,然后在用户的系统中提供诸如预定的特征提取、播放列表生成、章节设置等等的依照本发明的预定处理功能。
使用具有预定功能的微处理器(MPU或者CPU),系统控制器20能够同时进行预定的特征提取和记录。
此外,在系统控制器20中提供的预定数据存储器可以被用作上述存储器11。
为了进行作为上述预定的记录操作之一的预定的图像/语音频带压缩,可以使用具有上述预定功能的MPU或者CPU或者DSP(数字信号处理器)。也就是说,可以使用进行频带压缩的相同MPU或者CPU或者DSP来进行上述预定的特征提取和播放列表生成。
2.2.2重放系统中的信号处理
图20中的记录器/播放器30A与记录器/播放器30的差异在于:当在不能检测到任何特征数据的情况下在重放模式中实现特征提取时,通过系统控制器20中的软件来进行一系列信号处理操作。
使用具有预定功能的微处理器(MPU或者CPU),系统控制器20能够同时进行预定的特征提取和记录。
此外,在系统控制器20中提供的预定数据存储器可以被用作上述存储器11。
3.特征提取
接下来,将要解释语音特征提取和图像特征提取的操作。
3.1语音特征提取
在语音特征提取系统中,基于MPEG的图像/语音流数据被提供给流分离器100,其中所述数据被分离为图像和语音数据,并且语音数据被提供给语音数据解码器101,其中将其依照预定方式进行解码,如图21所示。
已解码的语音数据(语音信号)被提供给等级处理器102、数据计数器103和数据缓冲器104中的每一个。在等级处理器102中,所述数据被处理为绝对值以便计算语音数据预定部分的平均功率(平均等级)Pav,并且通过语音数据积分器105来对平均功率积分,直到数据计数器103计数了预定数目的采样数据为止。
平均功率Pav可以通过计算以下给出的表达式(32)来确定:
Pav = Σ nd | Ad ( n ) | / Sm - - - ( 32 )
其中Ad(n)是语音数据的值(等级)。
将要对其计算平均等级的预定部分例如可以是约0.01秒(10毫秒)至1秒。假定采样频率Fs例如是Fs=48kHz,那么将进行480至48,000个样品的计算,并且采用样品数目Sm对已计算的值求平均,以便确定平均等级(平均功率)Pav。
从语音数据积分器105提供的数据Pav被提供给判断系统106,其中将其与阈值设置系统107设置的预定阈值Ath相比较,以便判断所述部分是否是无声的。
为了在阈值设置系统107中设置预定阈值Ath,可以把预定阈值Ath设定为固定值Ath0。或者,除固定阈值Ath0之外,可以将其设置为可变值Athm,其对应于预定语音部分的平均等级。
把待处理的部分作为 n并且先前部分(n-k)的平均等级Pav作为Pav(n-k),变量阈值Athm可以通过如下公式(33)给出:
Athm = Σ k = 1 t Pav ( n - k ) / m , ( t ≤ m ) - - - ( 33 )
例如,假定 t=2,则
Athm=(Pav(n-1)+Pav(n-2))/m                  .......(34)
例如,m被设定为大约2至20范围内的值。
其它语音特征提取
数据缓冲器104中存储的预定语音数据被提供给频率分析器108,其中对其进行预定的频率分析。
所述频率分析可以使用FFT(快速傅里叶变换)。对于预定的分析而言,从数据缓冲器104采样的数据数目是二(2)的预定次幂,例如512、1024、2048等等。
来自频率分析器108的信号(数据)被提供给判断系统109,其中依照预定方式对其进行判断。
可以基于预定频带的频谱峰值的连续性判断出音乐(音乐声)。
上述技术例如在第2002-116784号日本已公开专利申请等中被公开。
为了判断谈话者的会话语音,可以通过检测谈话者会话语音波形中的呼吸部分的预定陡上升或下降部分来处理数据或信号。
在此情况下,音乐(音乐声)波形中上升或者下降部分的波形的出现概率通常被认为低于谈话者的语音中的。因此,在也考虑到音乐(音乐声)波形的特性(特征)的情况下,依照综合的方式来判断语音信号的属性。
为了根据谈话者的语音信号和音乐(音乐声)信号之间在波形特性(特征)方面的差异来判断语音信号的属性,将检测波形的瞬态物理特性。因此,除了通过判断进行预定信号处理的方法(分析和判断频域中的信号)之外,在使用在基带中进行预定判断的方法(分析和判断时域中的信号)之前,可以实行上述的频率分析。
图22是用于分析未解码但仍处于压缩频带中的语音信号(语音数据)的语音特征提取系统的另一结构示例的电路框图。
在图22中所示的语音特征提取系统中,把进行了预定的频带压缩的数据流、例如基于MPEG的图像/语音数据,提供给流分离器100,其中所述数据被分离为图像和语音数据,把语音数据提供给流数据分析器110,其中就预定的采样频率、量化位数等等来分析所述语音数据,并且把预定的语音数据提供给子带分析器111。
在子带分析器111中,实现预定的子带分析,并且依照类似于上面根据公式(32)至(34)解释的方式来处理预定子带中的数据。
也就是说,通过检测数据计数器103中采样数据的预定数目来实现包括向语音数据积分器105提供数据的预定累积操作,然后根据阈值设置系统107中设置的预定阈值,在判断系统106中对所述数据进行预定的无声判断。
考虑到无声判断中语音数据的频谱,可以把集中了大量能量的频带中少于大约3kHz的预定数据频带用作子带。
上面已经解释了通过频率分析进行音乐声(音乐)的判断和谈话者语音的判断。由于子带分析器111的操作相当于信号处理系统中的操作,因此用于属性判断的信号处理可以由光谱峰值连续性的上述判断来覆盖。
在此情况下,所述光谱峰值处于每一预定子带的最宽数据频带的范围之内。因此,可以进行类似于FFT分析中的那些信号处理。
3.2图像特征提取
接下来,将解释对图像的特征提取的操作。
如图23所示,在图像特征提取系统中,在流分离器中依照预定方式分离的图像数据被提供给流数据分析器200,其中对所述数据进行预定的分析,这包括速率检测、像素数目检测等等。然后,把来自流数据分析器200的输出提供给DCT系数处理系统201,其中对数据进行预定的计算处理(逆DCT计算处理),这包括DCT的DC和AC系数的检测等等。基于来自DCT系数处理系统201的输出,分别在场景变化检测器202、色彩特征检测器203、类似图像检测器204、人员检测器205和telop检测/判断系统206中进行操作。来自流数据分析器200的输出还被提供给运动矢量处理器208,其中对数据进行预定的运动矢量检测。
3.2.1场景变化特征
场景变化特征检测器202把屏幕划分为预定的子区域,计算每一子区域中DCT的DC系数数据的Y(亮度数据)、Cb和Cr(色差)的平均值,以便为每个子区域确定帧间差值或者场间差值,并且把所述差值与预定阈值进行比较以便检测预定的场景变化。
如果没有检测到场景变化,那么每一子区域的帧间(或者场间)差值数据小于阈值。当检测到场景变化时,会检测到更大的差值数据。
应注意的是,在上述屏幕划分中,有效的屏幕被分成16个子区域,例如图24所示。
屏幕划分不局限于图24中所示的方式。可以增减子区域的数目。然而,由于人们认为如果子区域数目过少,场景变化检测的精确度将可能会很低,而如果子区域数目较大,精确度将可能过高,所以把子区域的数目设置为大约在256(16×16)的范围内的适当值。
3.2.2色彩特征
色彩特征检测器203可以根据DCT的DC系数数据的Y(亮度数据)、Cb和Cr(色差)的平均值来检测色彩特征。
预定的区域例如可以是图25中所示的区域。在图25中,有效的屏幕被水平地四等分为检测区域1至4,并且垂直地被四等分为检测区域5至8。每一个检测区域被分配一个区域ID,并且关于每一检测区域的数据以所述区域ID来标识。
应注意的是,只有水平检测区域1至4或者垂直检测区域5至8被提供,这视情况而定。
除了如图25所示的屏幕划分之外,还可以依照方格的形式来划分屏幕,诸如5×5、6×6等等。
例如,在节目类型是“相扑角力”的广播节目的情况下,如果可以从图25中的检测区域3检测到色彩“棕色”,那么很可能的是场景具有“相扑场地”。
这种色彩特征与语音属性特征的组合,例如“相扑场地场景”和“语音属性或者其它(或者谈话者的语音)”的组合,将提供高概率的“开始竞赛的场景”。也就是说,这种场景部分可以被设置为关键帧部分。
在此情况下,由于开始竞赛场景的语音等级将会因观众的欢呼而升高,并且将检测到具有处于不同于普通频带的频带的频率的数据,所以语音等级和预定的频带数据可以被认为是特征数据。
3.2.3类似-场景(类似-图像)特征
在类似-图像检测器204中,把预定的ID(ID号码或者ID符号)分配给每一类似场景(类似图像)。类似图像(场景)被分配相同的ID。这种技术例如在第2002-344872号日本已公开专利申请中被公开。
这种ID分配是这样的,把ID与图像(场景)或者图像(场景)的位置信息(帧编号、PTS、记录时间等等)一一对应地记录在存储器中。因为有关图像(场景)的位置信息彼此一一对应并且位置信息本身当然也彼此一一对应,所以当显示图像或者从该图像开始重放时,可以使用ID来进行各种预定的操作,诸如通过显示具有相同ID的图像来对类似图像进行排序,具有相同ID的图像的时间点的跳跃重放等等。
特征数据可以是检测到的出现顺序,诸如最高、第二高,或者是如上文关于场景ID解释过的这种出现频率。
此外,特征数据还可以是检测到的ID长度之间的比例,诸如最高、第二高之类的出现顺序,或者是具有PU部分长度的这种出现频率的比例,如图7所示。
特征检测例如是这样的,把屏幕划分为多个子区域(例如,25个子区域),计算对应于屏幕子区域的各区域DCT的平均DC系数,把对应于预定矢量距离(把已计算的平均DC系数作为矢量分量)小于预定阈值的一个部分的图像(场景)作为类似图像(场景),并且类似图像(类似场景)被分配相同的预定ID(场景ID)。
例如,把“1(一)”用作ID的初始值。当没有检测到其预定的矢量距离小于预定阈值的图像(场景)时,向ID的最大值加“1”,并且把相加的结果作为分配给该图像(场景)的新的ID。
依照本发明的特征数据可以用于计算预定部分中的ID的出现频率,如先前根据图5解释过的那样,以便检测例如最高和第二高的出现频率。
例如在广播员经常出现的新闻节目以及属于类似场景经常出现的类型的节目诸如相扑角力、棒球垒等等中,上述方法可用于有效地处理数据。也就是说,当广播员的出现频率在新闻节目中最高或第二高时,广播员经常出现的场景很可能被检测到。
图26概述了如何计算ID的出现频率。例如,在f1和f2、f3和f4、f5和f6以及f7和f8之间的四个部分中检测到相同的ID、即ID1。也就是说,在这些部分中出现类似图像。
如图26所示,把相同的ID连续地出现的部分视为一个部分,并且计算场景中包括多少这样的部分。
当没有再发现类似场景时,将不会再检测到相同的ID。因此,可以通过计算ID的连续性和不连续性来计算预定的出现频率。
3.2.4人的特征
在人员检测器205中,屏幕区域如图27所示那样被划分,以便检测每一区域中的特殊色彩,由此判断屏幕中是否有人出现。
在图27所示的示例中,有效的屏幕被四等分为子区域1至4,并且在屏幕中心的周围提供了第五子区域5。
例如,在新闻节目的情况下,将认为广播员的脸将以很高的概率出现在子区域5中。
此外,如果flip或者telop和广播员一起出现在屏幕中,那么在某些情况下,广播员的脸将出现在子区域1或2中。在这种情况下,会认为flip或者telop将出现在区域2或1中。
如果把白人的肤色作为特殊色彩,那么根据试验早已获知的是,可以借助于如下条件表达式来检测特殊色彩:
0.6<Cb/Cr<0.9 to 0.97                     ........(35)
(0≤Cb≤255,0≤Cr≤255)                    ........(36)
正如下面将解释的那样,图27中所示的子区域中的特殊色彩可以依照另一方法来检测。
为了便于说明,此处假定屏幕尺寸是720×480。
过程1:
在用于检测特殊色彩(Cb,Cr)的条件(用于检测白人肤色的条件)中包括的DCT系数Cb和Cr的DC分量中,包括16×16个宏块,其中720/16(=45)片(0至44)沿x方向放置,而480/16(=30)片(0至29)沿y方向放置。在如3.2.3项中的判断条件下,在x方向的宏块0至45的每一个处检测数据点,同时在y方向的宏块0至29的每一个处检测宏块,所述条件为:
0.6<Cb/Cr<0.9 to 0.97                     ........(37)
其中(0≤Cb≤255,0≤Cr≤255)。在某些情况下,数据点沿x和y方向中的每一个方向被压缩了一半,以便获得x方向的宏块0至22和y方向的宏块0至14。
应注意的是,数据点可以移动8位(128次),并且可以使用如下表达式(38)所给出的判断条件:
77<(Cb<<8/Cr<115至124                  ........(38)
过程2:
在定义用于根据亮度信号的AC系数来检测轮廓的条件(用于检测人员、脸部轮廓等等)的上述表达式(37)和(38)给出的判断条件下,沿x和y方向的每一个检测其值大于预定阈值Ath的数据。
xh(x)>Ath                                  ........(39)
nH(y)>Th                                   ........(40)
在某些情况下,对检测到的数据进行协方差分析。
在用小黑点表示的检测点处,将实现如图28所示的如下内容,例如:
xh(0)=0     yh(0)=0
xh(1)=2     yh(1)=0
xh(2)=2     yh(2)=3
....         ....
....         ....
....         ....
....         ....
过程3:
在如下面表达式所给出的并且大于预定阈值Hth的已检测的数据点xh(x)和yh(y):
xh(x)>Hth                               ........(41)
yh(y)>Th                                ........(42)
在考虑到待检测对象的大小的有效性的条件的情况下,沿x和y方向的每一个来检测由如下表达式(43)和(44)所给出的大于预定阈值Lth的数据的连续长度,所述表达式为:
xl(n)>Lth                               ........(43)
yl(m)>Th                                ........(44)
例如,在图28中所示的情况下,假定Hth=2,如下面所给出的检测点的部分的连续长度:
xh(x)>2
yh(y)>2
被检测为:
xl(0)=6
xl(1)=1
yl(0)=7
yl(1)=2
假定Lth=3,数据xl(0)和yl(0)将被检测。
过程4:
将解释用于检测人脸部形状的有效性的条件。对于每个已检测的数据点xl(n)和yl(m)而言,根据如下表达式(45)来检测数据点间的差值或比例位于0至Dth或者eth1至eth2范围内的数据,所述表达式为:
|xl(n)-yl(m)|<Dth                         .......(45)
或者
eth 1<xl(n)/yl(m)<eth2                   .......(46)
在图28所示的示例中,位于数据点xl(0)和yl(0)的数据被计算。
考虑到一般人的脸,假定人的脸近似矩形,则长宽比被计算。
例如,假定如下表达式(47):
0.8<xl(n)/yl(m)<1.5                      .........(47)
例如是检测条件,那么将实现如下内容:
yl(0)/xl(0)=1.2                           ..........(48)
由此,图28中的区域xl(0)和yl(0)中的对象能够以很高的概率确定为是人的脸。
应注意的是,移位处理可以用于提取人的特征,如3.2.4项中那样。
除过程(1)至(4)中的检测条件以外,还可以实现如下的过程(5)来检测已检测的数据的连续性。
过程5:
用于判断已检测形状的瞬态连续性的条件如下:
连续性判断方法5.1:
在某些情况下,判断如上述过程1至4中的瞬态连续性(检测的稳定性)。
假定根据表达式(48)检测到的画面N的值S(N)如下:
S(N)=yl(0)/xl(0)                       .........(49)
则S(N+1),S(N+2),...被检测以便判断已检测的脸的瞬态连续性。
确定例如已经检测到如下三个画面是连续的:
0.8<S(N)<1.5                              ..........(50)
0.8<S(N+1)<1.5                            ..........(51)
0.8<S(N+2)<1.5                            ..........(52)
待检测的每一个画面可以是I画面。
连续性判断方法5.2:
作为选择,如过程1至3中的任何一个或某些已检测值可以被判断,以便查看从画面N检测到的数据是否可以被连续检测为N+1、N+2和N+3。
例如,假定从帧N检测到的值如下:
Col(N)=(Cb<<8)/Cr                        .........(53)
那么,判断三个画面是否已经被如下连续检测,并且当判断为肯定时,操作切换至下一检测步骤:
77<Col(N)<115                             .........(54)
77<Col(N+1)<115                           .........(55)
77<Col(N+2)<115                           ..........(56)
此外,关于已检测的N至(N+2)画面的数据可以被平均,并且所述平均值被有条件地判断。
也就是说,假定三个已检测画面数据的平均值是AvCol,那么可以根据如下表达式来进行判断:
AvCol=(Col(N)+Col(N+1)+Col(N+2))/3        .........(57)
77<avocet<115                            .........(58)
连续性判断方法5.3:
在根据表达式(39)和(40)计算数据以便从画面N中检测数据点xh(N)(x),yh(N)(y)的情况下,可以判断诸如N+1,N+2,...的画面是否是连续的。判断三个I画面是否已经如下被连续地检测,并且当判断为肯定时,操作切换至下一检测步骤。
xh(N)(x)>Ath                              .........(59)
xh(N+1)(x)>Ath                             .........(60)
xh(N+2)(x)>Ath                             .........(61)
yh(N)(y)>Ath                               .........(62)
yh(N+1)(y)>Ath                             .........(63)
yh(N+2)(y)>Ath                             .........(64)
此外,画面N至(N+2)中的已检测数据可以被平均,并且有条件地实行判断。
也就是说,在把三个已检测的画面数据的平均值作为Avxh和Avyh的情况下,可以就是否实现如下内容做出判断:
Avxh=(xh(N)(x)+xh(N+1)(x)+xh(N+2)(x))/3    .........(65)
Avyh=(yh(N)(y)+yh(N+1)(y)+yh(N+2)(y))/3    .........(66)
Avxh>Ath                                   .........(67)
Avyh>Ath                                   ..........(68)
连续性判断方法5.4:
在根据表达式(43)和(44)计算数据以便从画面N中检测数据点xl(N)(x),yl(N)(y)的情况下,可以判断诸如N+1,N+2,...的画面是否是连续的。判断三个I画面是否已经如下被连续地检测,并且当判断为肯定时,操作切换至下一检测步骤。
xl(N)(x)>Lth                               ............(69)
xl(N+1)(x)>Lth                             ............(70)
xl(N+2)(x)>Lth                             ............(71)
yl(N)(y)>Lth                               ............(72)
yl(N+1)(y)>Lth                             ............(73)
yl(N+2)(y)>Lth                             ............(74)
此外,画面N至(N+2)中的已检测数据可以被平均,并且有条件地实行判断。
也就是说,在把三个已检测画面数据的平均值作为Avxl和Avy1的情况下,可以就是否实现如下内容做出判断:
Avxl=(xl(N)(x)+xl(N+1)(x)+xl(N+2)(x))/3    .........(75)
Amyl=(El(N)(y)+E1(N+1)(y)+El(N+2)(y))/3      .........(76)
Avxl>Lth                                     .........(77)
Avy1>Lth                                     .........(78)
检测人员数目的基本方法的概述
如下来判断是否已经检测到人员数目。
人员数目判断方法1B:
如图29,例如假设已经检测到两个x方向数据xl(0)和xl(1)的值大于阈值,同时已经检测到一个y方向数据yl(0)的值大于阈值。
将解释以xl(0)和yl(0)标识的区域1和以xl(1)和yl(0)标识的区域2中的数据密度。
区域1中的所有数据点S1的数目如下:
S1=xl(0)x yl(0)=20                         .........(79)
其值大于阈值的数据的数目如下:
∑xh(x)=17                                  ........(80)
数据密度Δ1,即每单位数据点的数据数目如下:
Δ1=0.85                                    .........(81)
如果已经在区域1中检测到其值大于阈值的所有数据,那么数据密度将是Δ1=1。因此,预定阈值Mth被设置,以便判断:
Δ1>Mth                                     ..........(82)
同样,区域2中的所有数据点S2的数目如下:
S2=x1(0)x y1(0)=25                         .........(83)
其值大于阈值的数据的数目如下:
∑xh(x)=21                                  .........(84)
数据密度Δ2如下:
Δ2=0.84                                    .........(85)
假定Mth是:
Mth=0.80                                    ...........(86)
区域1和2满足要求,如通过表达式(81)和(85)所证明的那样,由此可以确定很可能已经检测到人。
在以xl(0)+xl(1)和yl(0)标识的区域St中沿x方向放置的所有数据点的数目如下:
(xl(0)+xl(1))x yl(0)                          ........(87)
已检测数据的数目如下:
∑xh(x)=17+21=38                            .........(88)
数据密度Δ如下:
Δ=8.4                                       .........(89)
由于区域St中的数据密度如下:
A>Mth                                        ..........(90)
所以,可以确定人员在区域1和2中在相同的y方向位置被检测到。
检测的其它示例1(如果区域彼此重叠):
在图30所示的示例中,一个数据xl(0)是沿x方向检测到的,而一个数据yl(0)是沿y方向检测到的。
以xl(0)和yl(0)标识的区域R中的所有数据点Sr的数目如下:
Sr=xl(0)x hl(0)=90                        ..........(91)
已检测数据的数目如下:
∑xh(x)=44                                 .........(92)
数据密度Δr如下:
Δr=0.49                                   .........(93)
由于Δ<Mth,所以无法确定在区域R中检测到一个人。
数据密度的倒数如下:
1/Δr=2.0
因此,有可能存在两个对象。然而,应该注意的是,即使当如图31所示那样稀疏地存在数据时,数据密度也是相同的。
下面将根据图30来解释沿y方向的变化σ。
假定yh(y)的平均值是yhav,数据的数目是m,将实现如下内容:
m=y1(0)                                   ........(94)
σy=(∑(yh(y)-yhav)^2)/m=2.32            ........(95)
沿y方向,平均值是xhav并且数据的数目 n如下:
n=xl(0)                                  ..........(96)
将实现:
σx=(∑(xh(x)-xhav)^2)/n=1.04           .........(97)
同样,如下给出图37中x和y方向的变化:
σy=0.99                                 .........(98)
σx=0.64                                 .........(99)
从上述结果,将知道的是,图36中的数据变化更大。
由于这个原因,用于所述变化的预定阈值Bth和对应于已检测数据数目的阈值d1和d2被设置,用于判断如下条件以便检测数据的数目。
σy>Bth                                 ........(100)
σx>Bth                                 ........(101)
d1<1/Δ<d2                             ........(102)
例如,在图36所示的示例中,可以实行判断,阈值被设置为:
Bth=2.0                                 ........(103)
d1=1.8                                  ........(104)
d2=2.3                                  ........(105)
检测的其它示例2(如果区域彼此对角地分离):
在图32所示的示例中,两个数据xl(0)和xl(1)沿x方向被检测到,并且两个数据yl(0)和yl(1)沿y方向被检测到。
以xl(0)和yl(0)标识的区域R00中的所有数据点S00的数目如下:
S00=xl(0)x hl(0)=2                    ..........(106)
已检测数据的数目如下:
∑xh(x)=17                             .........(107)
数据密度Δr如下:
Δ00=0.85                              .........(108)
由于Mth是0.80,如3.2.5项中那样,所以
Δ00>Mth                               ........(109)
并且确定可以以很高的概率在区域R00中检测到一个人。
接下来,以xl(0)和(yl(0)+yl(1))标识的区域Ra中的所有数据点的数目Sa如下:
Sa=xl(0)x(yl(0)+yl(1))=40                  ..........(110)
根据表达式(107)给出所有已检测数据的数目如下:
∑xh(x)=17                                  ..........(111)
数据密度Δa如下:
Δa=17/40=0.43                             ..........(112)
然而,数据密度不满足阈值。
也就是说,由于目前考虑xl(0)和(yl(0)+yl(1)),所以如果假定Δa大于预定阈值,则确定可以以较高概率检测到两个人。
然而,正如从表达式(112)中看到的那样,Δa小于预定阈值,因此无法确定能够在以xl(0)和(yl(0)+yl(1))标识的区域中检测到两个人。正如从表达式(109)中看到的那样,能够确定可检测到一个人。
也就是说,确定能够以较低的概率在以xl(0)和yl(1)标识的区域中检测到人。
同样,以xl(1)和(yl(0)+yl(1))标识的区域Rb中所有数据的数目如下:
∑xh(x)=17                               .........(113)
所有数据点的数目Sb如下:
Sb=xl(1)(yl(0)+yl(1))=40                .........(114)
数据密度Δb如下:
Δb=17/40=0.43                          .........(115)
如表达式(115)所示,能够以较低概率在区域R6中检测到两个人。
以xl(1)和yl(0)标识的区域中的数据密度Δ10如下:
Δ10=17/20=0.85                         .........(116)
这是因为已检测数据的数目由∑xh(x)=17给出,并且所有数据点的数目由xl(1)×yl(0)=20给出。同样,以xl(1)和yl(1)标识的区域中的数据密度Δ11如下:
Δ11=0.85                               ..........(117)
如表达式(115)至(117)所示,能够在区域10和11的任何一个检测到人的概率很低。
接下来,将讨论以(xl(0)+xl(1))和yl(0)标识的区域Rc中的数据密度。由于已检测数据的数目由∑vh(y)=17给出,并且所有数据点的数目由(xl(0)+xl(1)×yl(0)=40给出,所以数据密度Δc如下:
Δc=17/40=0.43                         .........(118)
由于数据密度小于上述预定阈值Mth,所以可能以较低概率在区域Rc中检测到两个人。如表达式(109)和(115)至(117)所示,因此,将在以xl(0)和yl(0)标识的区域以及以xl(1)和yl(1)标识的区域中检测到人。
可以采用上述操作来检测人的数目。
用于检测人的其它方法(方法2):
除上述方法之外,x方向宏块0至44以及y方向宏块0至29被顺序地判断,以便查看它们是否满足用于检测人的预定阈值。
作为d(x)(y)的一系列数据序列被顺序地判断,以便发现满足由上述表达式(37)、(41)和(42)给出的条件的数据。如果例如沿x和y方向连续检测到满足如下条件的数据,那么将同时获知检测到的对象的大小和位置:
d(x1)(y1),d(x2)(y1)
d(x1)(y2),d(x2)(y2)
在上述方法中,所有数据逐个被检测以便判断一系列数据的连续性。因此,此方法(2)比上述方法(1)需要更长的计算时间。
为了实现此方法,例如把数据沿x和y方向压缩一半的数据大小,以便减少数据处理的操作数目。
用于检测人的其它方法(方法3)
如上述方法2中那样,人近似矩形,可以通过判断大小顺序变化的矩形区域中的数据是否满足给出的条件来检测人。
例如,如图33所示,设置了大小为2×2、3×3和4×4的矩形区域。
在大小方面彼此不同的每个矩形区域逐个数据的移动,并且判断区域中的数据是否满足给定的条件。首先对最小的矩形区域进行,然后类似地对第二小的矩形区域进行,最后对最大矩形区域进行。
当对所有矩形区域完成上述数据移动和判断时,将知道已检测的区域和已检测区域的数目。此操作将花费的时间与上述方法2花费的时间相似。
3.2.5 Telop特征
所述telop特征检测/判断系统206检测如图25所示的屏幕区域中DCT的AC系数的平均值。
在屏幕的预定区域中,包括具有预定大小的字符之类的信息的telop轮廓比较清楚。当telop图像出现在图25中所示的任何区域中时,能够检测其值大于预定阈值的AC系数,由此能够检测所述telop。
除DCT的AC系数的上述检测以外,可以在基带域(时间域的信号)中进行边缘检测,以便例如根据图像亮度方面的帧间差异来检测边缘。
此外,还进行小波变换来分析多个分辨率,并且为类似于对DCT的AC系数的信号处理,使用包括预定高频数据在内的处于预定多分辨率区域中的数据来计算如图25所示区域的平均值。
所述telop例如是出现在类似flip的浅色区域中以及新闻节目中的图像下方的字符信息。出现telop的区域取决于广播节目的类型,不过telop可能经常出现在屏幕的下部、上部、右侧部分或者左侧部分中。
所述flip特征和flop特征可以一起包括在字符特征类别中。
3.2.6照相机特征
所述照相机特征判断系统209可以借助于依照MPEG定义的P画面的运动矢量来判断涉及照相机操作的特征,所述操作诸如变焦、全景拍摄以及其它操作,如第2003-298981号日本已公开专利申请中所公开的那样。
除此技术之外,例如在第2002-535894号日本已公开专利申请中也公开了涉及照相机特征的技术。
4.采用重放单元(或者播放单元)的操作
概要(摘要)重放是这样的,即,使用通过预定信号处理获得的诸如语音特征数据和图像特征数据的各种特征数据来选择某些重要的(关键)帧部分作为预定部分,并且这些部分被顺序地跳跃重放。
如果实现跳跃重放,那么在观看屏幕的过程中,跳跃可能不会引起不适,但是如果语音不连续,则在听语音的过程中会使某些用户感觉不愉快。由于这个原因,声音等级低于预定等级(音量)的部分被设置为无声部分,并且该部分中的预定时间点被作为跳跃的时间点。
此外,由于场景变化被认为是正在重放的广播节目、电影等等中的主题被打断的时间点,所以可以把场景变化点或者接近场景变化点的点作为候选跳跃点。
也就是说,可以认为跳跃重放时间点和跳跃重放部分与预定语音信号的预定无声部分和预定图像信号的场景变化时间点或接近场景变化点的点相对应。
从上述观点看,为了便于说明,此处在设置了预定的重放单元(PU)的情况下来处理跳跃重放时间点(跳跃重放部分)。
对这样设置的重放单元(PU)中的预定图像和语音特征数据进行预定的处理,以便对应于语音特征数据和概要重放时间来设置预定的概要(摘要)重放部分,并且通过在预定的概要重放模式中进行跳跃重放来实现预定的概要重放。
此外,能够进行上述概要重放,并且在通过预定的信号处理设置的PU的第一时间点(或者接近第一点的点)或者最后时间点(或者接近最后点的点)处设置章节(或者编辑点或者重放断点)。
也就是说,通过如上那样设置章节,能够通过章节点的预定信号处理来显示缩略图显示,并且对于用户而言,能够在浏览缩略图显示的过程中进行编辑。
接下来,将根据图34和35来解释重放单元(PU)处理的示例。
在发声部分(语音信号等级高于预定等级)的情况下:
在图34A中示出的过程1中,如果语音部分具有高于预定等级的等级并且在10至20秒范围内持续,那么把其语音片段持续15秒的断点(预定的无声检测点)而不是任何场景变化点作为重放单元的断点。
在图34B中示出的过程2中,如果语音部分持续20秒以上,同时场景变化部分持续20秒以下,那么把场景变化的断点持续最接近15秒的时间的场景变化点检测点作为重放单元的断点。
在图34C中示出的过程3中,如果语音持续20秒以上,同时场景变化部分持续20秒以上,那么把重放单元已经持续20秒时的时间点而不是任何语音片段和场景变化点作为重放单元的断点。
在图34D中示出的过程4中,如果语音特征属性在10至20秒的范围内改变,那么把属性已经改变的时间点作为重放单元的断点。
在图34E中示出的过程5中,如果已经检测到CM(广告),那么把已经检测到CM时的时间点作为重放单元的断点。
此处将根据图35解释用于CM检测的方法。
通常,广播节目中CM部分的长度是预定的(通常是15、30或者60秒),并且场景在CM的断点(在开始和结束时间点)改变。因此,通过检测预定的时间长度和场景变化,能够如图36所示来检测CM。
在无声部分(语音信号等级低于预定等级)的情况下:
在图35A中示出的过程6中,如果无声部分(其平均语音等级低于预定等级)比20秒短并且场景变化检测部分在长度上比20秒短,那么把最接近16秒的场景变化点作为重放单元的断点。
在图35B中示出的过程7中,如果无声部分持续20秒以上,并且场景变化检测部分持续20秒以上,那么把距离重放单元开始点20秒的点而不是任何场景变化检测点作为重放单元的断点。
在任何重放单元处理的上述解释中,重放单元开始点的初始值是已经记录节目(广播节目)时的开始点。
采用上述重放单元处理,能够重放对应于预定语音和图像特征(场景变化特征)的预定重放单元。
重放单元生成器的方框结构示例
图37是先前已经解释的重放单元处理器和单元化的特征数据处理器的示例性框图,其中特征数据被提供给重放单元并且稍后将详细说明。
由于诸如概要重放点和章节点的预定时间点设置在重放单元的开始和结束点,所以如上文已经解释过的那样,在与每个重放单元相对应地放置特征数据的情况下来进行设置。
也就是说,从每一预定部分中提取的预定特征数据、语音特征数据和图像特征数据根据重放单元部分被处理。
下面将解释图37中示出的单元化特征数据处理器的方框结构的示例。
在图37中示出的方框结构示例中,把无声判断数据提供给时间测量系统301,其中测量基于上述重放单元处理的预定的间隔(时间长度)。把处理结果从系统301提供至重放单元处理器302。
还向重放单元处理器302提供场景变化判断数据和CM检测/判断数据来进行信号处理以便生成预定的重放单元,所述信号处理已经关于用于重放单元处理的方法解释过了。
CM检测器304被提供有无声特征检测数据和场景变化特征数据以及频道信息,所述频道信息用于判断目前所选的节目频道是否是其上正在广播CM的频道,并且通过上文已经参考图36解释过的预定信号处理方法来检测CM。
重放单元特征数据处理器303被提供有诸如语音属性信息、无声信息等的语音特征数据以及诸如场景变化特征、色彩特征、类似-图像特征、人的特征、telop特征等等的特征数据,以便把每一特征数据填充到重放单元中,正如稍后将解释的那样。
5.PU特征数据处理
接下来,将解释PU特征数据文件处理。
所述PU特征数据文件包含语音和图像特征数据。
所述特征数据是通过把所提取的语音和图像特征数据填充到重放单元中来产生的。对于每个重放单元来说,各种特征数据(数据文件)被记录到预定的记录介质中。
为了把特征数据记录到每一重放单元中,为每个预定部分检测到的每一特征数据被记录到预定的记录介质中,然后处理对应于重放单元的预定部分的特征数据。
表示语音和图像特性的特征数据可以通过从语音信号(语音数据)和图像信号(图像数据)中提取预定特征数据(特性信号)并且依照预定方式处理所提取的信号(数据)来获得。然而,此处应当注意的是,除非给出特别的提示,否则表示通过对特性数据(特性信号)进行预定处理获得的特征的信号(数据)也将被描述为特征数据(特征信号)。
在图像(视频)信号的情况下,把I画面的亮度信号(Y信号)、彩色信号的DCT的DC系数(色差信号)(Cb和Cr信号)、B或者P画面中的运动矢量数据以及DCT的AC系数作为特性数据从MPEG流中提取出来。从屏幕上的位置信息、预定阈值和相关值等中提取场景变化特征(scn)、照相机操作特征(cam)、类似-图像特征(sid)、色彩特征(col)、人的特征(person)等等。
在语音信号的情况下,每隔约20毫秒计算语音信号的平均等级以便处理特性数据,并且从计算数据和预定阈值中提取预定部分中的语音信号的诸如属性(class)、平均功率(平均等级)等等的语音特征(seg特征)。
此处应认为语音属性是谈话者的语音、音乐(音乐声)、体育节目中的欢呼等等。
5.1特征数据文件结构
图38示出了特征数据文件的结构的第一示例,其中诸如场景变化特征(scn)、照相机特征(cam)、类似-场景特征(sid)、telop特征(tlp)、色彩特征(col)、人的特征(person)等等的上述语音特征数据和图像特征数据分别形成独立的特征数据文件。
每一特征数据文件被写为文本形式的数据或者二进制形式的数据。
应注意的是,能够把这些特征数据临时存储为文件数据以待记录到预定的记录介质中,或者作为标准数据记录到预定的记录介质(例如半导体存储器)中,并且稍后读取以便用来生成概要列表数据和预定的设置时间点(章节点),稍后将描述。这对于图39和40中示出的数据文件也是成立的。
图39示出了特征数据文件的结构的第二示例,其中所有上述语音特征数据被设置为一个文本或二进制形式的文件,并且所有上述图像特征数据被设置为一个文本或者二进制形式的文件。
图40示出了特征数据文件的结构的第三示例,其中所有上述语音特征数据和所有上述的图像特征数据被设置为一个文本或二进制形式的文件。
通过依照第二和第三示例中那样将多个特征数据设置到一个文件中,可以比图38所示的第一示例更加容易地处理数据。此外,二进制形式的文件在数据大小(文件大小或者文件容量)方面更小并且更加有效。
此处将解释如图40中示出的第三示例中那样将特征数据写入二进制形式的特征文件。
图40中示出的第三示例是图39中示出的第二示例的一个版本,其中依照二进制形式描述的所有语音特征数据和依照二进制形式描述的所有图像特征数据被加起来。
由此,如随后解释的在特征数据文件中处理(描述)语音特征数据的方法适用于图39中示出的语音特征数据,并且处理(描述)图像特征数据的方法适用于图39中示出的第二示例中的图像特征数据。
5.2特征数据的分级结构
图41示出了以重放单元为单位的特征数据的分级结构的示例。
特征数据依照预定方式并且以预定重放单元为单位被处理,如下面将解释的那样。
所述特征数据包括特征数据首部信息、节目-1特征数据、节目-2特征数据等等,如图41所示。
所述特征数据首部信息包括预定的数据,诸如总记录时间、记录开始和结束时间点、节目(广播节目)数目以及其他节目信息,诸如节目1、节目2等等,如图42所示。
接下来,将以节目-1特征数据作为例子来解释节目(广播节目)中的特征数据。
如图41所示,节目-1特征数据包括节目-1信息、重放单元-1信息、重放单元-2信息等等。
如图42所示,节目-1特征数据包括预定的数据,诸如节目记录时间、节目开始和结束时间点、节目类型(广播节目类型)等等。
接下来,将以重放单元-1信息作为例子来解释重放单元的数据结构。重放单元-1信息包括语音特征数据和图像特征数据,如图41所示。
语音特征数据结构
语音特征数据包括序号信息、开始/结束点信息、语音属性信息、特征数据以及其它数据,如图41所示。
图像特征数据结构
所述图像特征数据包括预定的特征数据,诸如场景变化特征、色彩特征、类似-图像特征、人的特征、telop特征、照相机特征等等,如图41所示。
在下文中,将解释所述场景变化特征、色彩特征、类似-图像特征、人的特征、telop特征、照相机特征等等。对于所有预定部分的每一个来说,这些特征数据的每一个均被记录到预定的记录介质中。另外,例如只有当检测到其值大于预定阈值的特征数据时,才对其进行预定的处理以便记录到预定的记录介质中。
如果只对检测到的其值大于预定阈值的特征数据进行预定的处理,那么其值小于预定阈值的预定特征数据将不被写入记录介质。因此,如果其值大于阈值的特征数据被检测到并且依照预定方式被记录,那么能够根据序号信息获知从最初检测到的特征数据开始计数的、检测到特征数据的顺序,下面将解释此内容。
场景变化特征:
场景变化特征包括序号信息、开始/结束位置点信息、特征数据以及其它数据,如图43所示。
序号信息表明发生场景变化的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
开始/结束点信息表明处于上述顺序中的场景变化开始或者结束的点。它可以是帧(场)编号、PTS、DTS、时间等等。
色彩特征:
如图43所示,色彩特征包括序号信息、用于标识检测区域的数据、开始/结束点信息、特征数据以及其它数据。
序号信息表明检测到色彩特征的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
开始/结束点信息表明在依照上述顺序对每一特征进行检测的过程中检测到每一区域的特征的开始/结束点。它可以是帧(场)编号、PTS、DTS、时间等等。
所述特征数据例如包括RGB、Y、Cb、Cr等等。
类似-图像特征:
如图43所示,类似-图像特征包括序号信息、出现频率信息、开始/结束点信息、特征数据以及其他信息。
序号信息表明检测到类似-图像特征的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
所述特征数据例如包括上述有效屏幕的预定数目的子部分(例如,25片)的每一个中的DCT的平均DC系数。
人的特征:
如图43所示,人的特征包括序号信息、用于标识检测区域的数据、开始/结束点信息、特征数据以及其它数据。
序号信息表明检测到类似-图像特征的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
telop特征:
如图43所示,telop特征包括序号信息、用于标识检测区域的数据、开始/结束点信息、特征数据以及其它数据。
序号信息表明检测到telop特征的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
照相机特征:
如图43所示,照相机特征包括序号信息、用于标识检测区域的数据、开始/结束点信息、特征数据以及其它数据。
序号信息表明检测到照相机特征的从广播节目起始开始计数的顺序,诸如0,1,2,3,...。
为了记录广播节目,特征提取和特征数据记录可以与记录广播节目的预定操作同时进行,此后将解释这部分内容。此外,还可以依照预定方式从已记录的广播节目、其它电影、戏剧或者任何其它图像/语音软件中提取特征以便生成特征数据文件。
如果如上所述那样使用PU和特征数据来记录节目1,那么可以类似地使用它们来记录其它节目2和3。
6.播放列表处理(概要重放列表生成)
接下来,将解释根据采用上述特征提取操作生成的PU文件(PU特征数据文件)对概要(摘要)重放进行的概要数据处理。
6.1概要规则处理
在使用此处提及的特征数据的概要(摘要)重放操作中,通过以上述PU为单位进行预定重放部分的跳跃重放来实现所期望的概要(摘要)重放。
6.2预定时间点设置(播放列表文件处理)
接下来,将解释播放列表文件。
播放列表文件在预定的数据中描述了选择对应于上述特征数据表征的PU或者PU块中的哪一个来进行重放。
应注意的是,数据可以临时被记录在预定的记录介质或者预定的存储器装置中,所述预定的记录介质中已经记录有从中检测到特征的图像/语音数据。
图44A和44B中示出了播放列表文件的示例。
在图44A的示例1中,垂直数据序列(a)包括有关重放部分开始点的信息。所述数据包括预定的信息,诸如帧编号、瞬时时间、来自流(压缩的图像/语音数据)的PTS(呈现时间戳)或者DTS(解码时间戳)。
在图44A的示例1中,垂直数据序列(b)包括有关重放部分结束点的信息。所述数据序列(b)包括对应于示例1中的数据序列(a)的预定的信息,诸如帧编号、瞬时时间、来自流(压缩的图像/语音数据)的PTS(呈现时间戳)或者DTS(解码时间戳)。
在图44A的示例1中,垂直数据序列(c)表明PU(重放或者播放单元)或者重放单元组(PU组)的重要性。
在图44A的示例1中,垂直数据序列(d)表明具有在概要规则下定义或设置的含义的字符数据。
在图44B的示例2中,通过描述所有PU部分的含义字符和评估值(重要性),提供了用于表明重放部分的预定时间点、章节等等的识别数据“0”和“1”。
在图44B的示例2中,列(a)和(b)中示出的开始和结束点与列(a)或者(b)的下一行中的数据连续,正如下面将解释的那样。
例如,在图44B的示例2中,第一开始和结束点分别是0和229,而结束点229与下一开始点230连续。
在图44B的示例2中,垂直数据序列(e)表明是否将要执行概要重放的标志数据。数字“1”表明将要执行概要重放,而“0”表明将不执行概要重放。
此外,第一时间点“1”和第一时间点“0”可以被认为是预定的时间点(章节点)。
7.操作流程
图45示出了在按照本发明实施例的记录器/播放器(此后将简称为“设备”)中进行的操作流程的示例。
在使设备投入操作之后,首先在步骤S1判断所述操作处于记录模式还是重放模式。当所述操作被确定为记录模式时,设备改变为记录操作(R)。如果操作被确定为重放模式,那么设备前进到步骤S2。
7.1重放操作流程
重放操作流程的示例:
在重放操作模式中,在步骤S2判断重放操作是处于概要(摘要)重放模式还是正常重放模式。如果重放操作处于正常重放模式,则设备切换至正常重放操作(P)。
如果重放操作处于概要重放模式,那么在步骤S3判断是否已经把预定的特征数据记录在预定的记录介质中,或者是否已经把预定的特征数据作为预定的文件数据记录到记录介质的预定记录区域中。
如果在步骤S3确定出已经把预定的特征数据记录在预定的记录介质中,那么设备前进到步骤S4,其中将判断是否已经把预定的播放列表数据(数据文件)记录在记录介质的预定记录区域中。如果在步骤S4确定已经把预定的播放列表数据(播放列表文件)记录在记录介质的预定记录区域中,那么设备前进到步骤S5,其中将读取预定的播放列表数据。
如果在步骤S3确定尚未把预定的数据记录在预定的记录介质中,那么设备前进到步骤S8,其中所述设备将读取想要的图像/语音数据(广播节目),并且从图像/语音数据进行预定的特征提取。在步骤S9,判断预定的特征提取是否完成。如果确定预定的特征提取没有结束,那么设备返回到步骤S8,其中将重复适当的操作,直到完成预定的特征提取为止。
如果在步骤S9确定预定的特征提取结束,那么设备前进到步骤S6,其中将生成预定的播放列表数据。
如果在步骤S4确定尚未检测到预定的播放列表数据(文件),那么设备前进到步骤S6,其中设备将读取记录在预定记录介质的预定记录区域中的预定特征数据,生成预定的列表数据(文件),并且把生成的数据一个接一个地或者把已处理的数据写入预定记录介质的预定区域中。然后,设备前进到步骤S7,其中将判断所有播放列表生成操作是否完成。如果确定没有结束所有播放列表生成操作,那么设备返回到步骤S6,其中将重复适当的操作。如果在步骤S7确定所有预定的播放列表数据已经生成,那么设备将在步骤S5读取已经写入的播放列表数据。
应注意的是,在步骤S6,顺序生成的播放列表数据可以被一个接一个地记录到其中记录了例如广播节目的图像/语音数据的记录介质的预定记录区域中,或者可以把信息写入除已记录有图像/语音数据以外的记录介质、例如预定的可移除存储器中。
此外,在此情况下,预定的播放列表数据可以被一个接一个生成,并且可以被写入,或者所有播放列表数据可以在记录之前被生成并且处理。
此外,如下面将根据图46和47解释的那样,可以对应于记录时间生成多个播放列表数据,以便使用户能够选择多个概要重放时间长度。
由于为每个预定PU部分或者如上通过多个PU部分形成的每一预定部分设置了预定的评估值,所以可以对应于所述评估值来操纵概要重放时间。
在步骤S10,设备切换至重放时间选择模式。在步骤S11,判断用户是已经直接选择了重放时间,还是已经选择概要重放模式然后在从完成播放列表数据检测开始的预定时间tmod内选择重放时间。如果确定出没有选择重放时间,那么在步骤S12判断用户是否已经选择了重放停止。
如果在步骤S12确定用户已经选择了重放停止,那么设备退出重放操作。如果确定用户没有选择重放停止,那么设备返回到步骤S10,其中将重复适当的操作。
如果在步骤S11确定用户已经直接选择了重放时间,或者用户没有在预定时间tmod内选择任何重放时间,那么设备前进到步骤S13,其中它将切换至概要重放操作。
应注意的是,如果用户已经选择了重放时间,那么概要重放在所选的概要重放时间开始。当没有选择重放时间并且预定时间tmod已经过去时,将在预定的默认设置的重放时间(计划的设置重放时间)tpb0时开始概要重放。
应注意的是,用户可以自由地选择概要重放时间,或者可以从根据已记录的节目记录时间和播放列表数据预置的重放时间长度中选择概要重放时间。
如果重放时间长度例如是5、10、15、20、30分钟等,那么可以对应于记录时间来设置默认提供重放时间,例如图46所示。
在图46所示的示例中,只有当概要重放时间长于预定的记录时间(Trecmin)时,才可以设置概要重放模式。如果作为预定记录时间Trecmin的记录时间Trec少于10分钟,那么由于记录时间过短,所以无法设置概要重放模式,而只能设置正常重放模式。
如果记录时间Trec例如是60分钟,那么用户可选的概要重放时间长度将是10、15、30和40分钟,并且默认设置的时间是30分钟,如图46所示。
如图46中示出的示例所示,记录时间Trec越长,用户可选的概要重放时间长度的数目就越大。然而,如果记录时间短,那么在概要重放中使用跳跃重放被跳跃的所有部分的数目越多,丢失的信息越多,由此使重放的内容不可能被理解。因此,为了选择适当的概要重放时间,减少选择的数目。如果记录时间长于概要重放时间,那么信息量很大。在此情况下,增加选择的数目,以便使用户能够进行有效的操作。
可以在附属于本发明实施例的预定显示器上、与设备相连的预定显示器上或者附属于设备的遥控器上的诸如液晶显示器的预定显示屏上,显示诸如这种用户可选概要重放时间长度列表、默认重放时间等等的信息。
应注意的是,章节设置可以与播放列表生成同时执行。在此情况下,预定的章节设置对应于章节数目自动进行,并且可以对应于记录时间来设置,如图47所示。
例如,如果记录时间是一小时,那么预定的信号处理将被执行以便设置5至40个章节,如图47所示。
在步骤S13,进行概要重放。由于为预定的PU部分或者为通过多个PU部分形成的每个部分设置了评估值,所以根据设置的时间和评估值来执行跳跃重放,由此进行概要重放。
也就是说,从其评估值最大的PU部分开始一个接一个地选择PU部分,并且顺序地选择其评估值小于最大值的PU部分,直到概要重放时间接近所选值为止。
在步骤S14,判断重放操作是否将要结束。如果确定出操作将要结束,那么设备退出重放操作。如果不结束确定操作,那么设备前进到步骤S15,其中判断预定广播节目的重放是否结束。如果完成重放,那么设备退出重放操作。如果重放没有完成,那么设备前进到步骤S16,其中判断重放时间是否将要变化。
如果在步骤S16确定重放时间将要变化,那么设备返回到步骤S10,其中将重复适当的操作。如果确定重放时间不会变化,那么设备返回到步骤S13,其中将重复用于概要重放的适当操作。
7.2记录操作流程
记录操作流程的示例:
图48示出了记录中进行的操作流程的示例。
在图45中示出的操作流程中,如果在步骤S1已经选择了记录模式,那么在图48中,在步骤R1判断记录操作处于定时记录模式还是正常记录模式。如果记录操作被确定为正常记录模式,那么设备前进到步骤R9,其中将进行正常的记录操作。
在步骤R9的正常记录模式中,设备进行到用于预定记录信号处理的操作。在步骤R10,从将依照预定方式(依照MPEG等等定义的)编码的图像/语音数据或者已经编码的图像/语音数据中进行预定的特征提取。
应注意的是,记录信号处理和特征提取操作可以同时进行。
借助于预定的编码过程中的图像/语音数据,对将进行预定编码的图像/语音数据进行预定的特征提取。例如,能够提取通过DCT信号处理产生的DC系数数据和AC系数数据,所述DCT信号处理是通过用于图像数据的DCT处理的系统实现的。使用这些预定的数据来进行上述预定的特征提取信号处理,诸如场景变化数据的检测(剪切点特征的检测)、telop特征的检测等等。
在预定的频带压缩信号处理中的预定子带信号处理中,可以使用预定子带中的数据来处理语音数据,以便判断数据是谈话者的语音还是音乐(音乐声)。
例如可以通过判断预定子带中的信号的连续性来进行音乐声判断信号处理。
此外,还可以使用基带中的图像/语音数据。例如,图像数据的基带信号可用来通过帧间(场间)差异信号处理、基于差异信号通过边缘检测进行的telop特征信号处理以及其它预定的特征信号处理来实现场景变化检测。
应注意的是,已经进行了语音特征提取信号处理的特征数据被记录到预定的数据存储设备(数据记录装置)或者预定的缓冲存储器中,所述数据存储设备诸如是其中还记录了图像/语音数据的预定的记录介质。
在步骤R11,判断正常记录模式是否将要结束。如果确定正常记录模式不会结束,那么设备返回到步骤R9,其中将重复适当的操作。如果确定正常记录模式将要结束,那么设备前进到步骤R12,其中将进行播放列表数据生成(或者章节数据生成)。
如果在步骤R1确定记录操作处于定时记录模式,那么在步骤R2,设备设置记录开始和结束时间点,并前进到步骤R3,其中将判断所设置的时间点是否是预定的时间点。如果确定所设置的时间点不是预定的,那么设备前进到步骤R6,其中它将等待。在步骤R7,判断是否已经进行中断以便取消定时记录操作。如果定时操作将要继续,那么设备返回到步骤R3,其中将重复适当的操作。
如果在步骤S7确定定时记录操作已经被取消,那么设备返回到图45中的S1,其中将重复初始的操作模式选择。
如果在步骤R3确定所设置的时间点是预定的,那么设备开始记录操作并且在步骤R4至R6重复如同步骤R9至R11的操作。
已经进行了图像/语音提取信号处理的特征数据(特征提取数据)被记录到预定的数据存储设备(数据记录装置)或者预定的缓冲存储器中,所述数据存储设备例如是其中还记录了图像/语音数据的预定的记录介质。如果在步骤R8确定到达预定的结束点,那么设备前进到步骤R12,其中将进行播放列表数据生成或者章节数据生成。
在步骤R12,从预定的记录介质中读取已经进行了各种预定特征提取处理(诸如已经进行了特征提取处理的预定特征数据、已经进行了预定的信号处理的数据、以及已经使用这些数据进行了预定判断处理的数据的预定处理)的特征数据,以便进行预定的播放列表数据(文件)生成和章节数据生成。
由此生成的播放列表数据和章节数据被记录到预定的记录介质中。在步骤R13,判断是否完成生成。如果确定所述生成没有结束,那么设备返回到步骤R12,其中将重复适当的操作。如果确定所述生成结束,那么设备返回到步骤R13,其中将重复适当的操作。
应注意的是,播放列表数据和章节数据可以在生成它们的同时被记录到预定的记录介质中,或者可以在预定广播节目、待处理的节目或预定记录部分的预定播放列表数据和章节数据全部生成之后将它们全部记录到预定的记录介质中。
与特征提取并行的播放列表数据(章节数据)的处理:
已经描述了与记录诸如预定的广播节目、节目等等的图像/语音数据同时进行预定的特征提取,提取之后的各种特征数据(包括进行了预定处理和使用特征提取数据或特征数据进行信号处理的信号)被记录到预定的记录介质中,并且所记录的特征数据在完成预定广播节目或者节目之后被读取以便生成播放列表数据(文件)、章节数据等等。然而,应该注意的是,播放列表数据(文件)和章节数据可以与特征提取同时或并行地生成。
7.3重放单元处理操作的流程
在每一预定数据部分通过处理PU进行的语音片段和场景变化的处理:
图49示出了在上述PU信号处理中在语音片段检测点和场景变化检测点开始的预定信号处理的操作流程的示例。
投入操作的设备进入步骤P1,在该步骤中,设备将从其中记录有图像/语音数据的预定记录介质中读取语音数据和预定数目的样品图像数据以便检测场景变化(稍后将详细说明),然后前进到步骤P2,其中把由此读取的数据记录到作为例如存储器的预定记录装置的数据缓冲器中。
在步骤P3,判断是否已经把预定数目的采样数据记录到缓冲器中。如果确定已经记录了预定数目的采样数据,那么设备前进到步骤P4。如果确定尚未记录所述预定数目的采样数据,那么设备返回到步骤P2,其中将重复适当的操作。
应注意的是,在步骤P2至P7,为PU处理而进行语音信号是发声还是无声信号的预定判断。在步骤P2,把对应于约0.1至1秒的预定部分长度的预定数目的采样数据存储到数据缓冲器中。
例如,如果采样频率是48kHz,那么一秒等于48,000个采样数据,并且0.1秒等于4,800个采样数据。把这种数量的采样数据记录到数据缓冲器中。
在步骤P4,从数据缓冲器中读取语音数据。在步骤P5,上述预定部分的语音等级被计算。在步骤P6,把语音等级与预定的等级比较,以便判断它高于还是低于预定等级。由此,完成无声检测(无声判断)。
如果在步骤P6确定被测部分是无声的,那么设备前进到步骤P7,其中它将把该信息记录到预定的存储器(缓冲器)中。如果在步骤P6确定所述部分不是无声的而是发声的,那么设备前进到步骤P8,其中判断在步骤P1读取的数据的缓冲是否结束。如果确定所述缓冲没有结束,那么设备前进到步骤P2,其中将重复适当的操作。如果完成缓冲,那么设备将到达步骤P9。
在步骤P9,读取在步骤P8处理的语音片段信息。然后,设备前进到步骤P10,其中它将对上述的短无声部分和发声部分以及长无声和发声部分进行分段。
在步骤P11,通过对预定数目的采样图像数据进行DCT处理而产生的数据被记录到缓冲存储器(预定的数据记录装置)中。在步骤P12,判断预定量的数据的记录是否完成。如果确定尚未记录预定量的数据,那么设备返回到步骤P11,其中将重复向缓冲存储器的写操作。如果在步骤P12确定预定量数据的记录完成,那么设备前进到步骤P13。
在步骤P13,从预定的缓冲存储器中读取预定的DCT数据。在步骤P14,对帧间信号等等进行预定的信号处理以便检测预定的场景变化。
在步骤P15,判断是否检测到预定的场景变化。如果已经检测到场景变化,那么设备前进到步骤P16,其中有关已经检测到场景变化时的时间点的位置信息被存储到预定的存储器(数据记录装置、数据缓冲器等)中。然后设备前进到步骤P17。如果在步骤P15确定没有出现场景变化,那么设备前进到步骤P17。
在步骤P17,判断是否根据预定数据缓冲器中预定量的数据完成了场景变化检测。如果场景变化检测没有结束,那么设备返回到步骤P11,其中将重复适当的操作。如果在步骤P17确定完成了场景变化检测,那么设备前进到步骤P18。
在步骤P18,从预定的缓冲存储器中读取场景变化点信息。在步骤P19,通过把短于预定部分的部分连接至先前部分并且进行其它操作来校正场景变化检测部分。
在步骤P20,读取为预定部分生成的语音片段点信息和场景变化点信息,以便在步骤P21,根据诸如语音片段点、语音片段部分长度、场景变化点、场景变化部分长度等等的预定信息来生成预定的PU信息,诸如预定的PU点信息、部分信息等等。
在步骤P22,通过在步骤P21处理的PU信息获得的并且对应于所述PU部分的特征数据(或者通过对特征提取数据或特征数据等进行预定信号处理产生的信号)被写入预定的记录介质或者预定的数据缓冲器。
上述特征数据可以被记录在其中记录有图像/语音数据的预定记录介质的预定记录区域以及其它预定的记录介质中,其中所述图像/语音数据是将要处理的广播节目、节目等等的预定部分中的。
在步骤P23,判断诸如对预定量数据的语音分段、场景变化处理、PU处理等等的一系列处理操作是否完成。如果确定一系列的处理操作结束,那么设备退出记录处理。如果确定一系列处理操作没有结束,那么设备返回到步骤P1,其中将重复上述适当的操作。
在完成PU处理中所有语音分段操作之后的场景变化处理:
在上述示例中,诸如已记录广播节目、节目等等的图像/语音数据的每一预定部分中的语音数据被一个接一个地分段,然后在图像中检测到场景变化。然而,可以不在处理每一预定部分之后再检测所有场景变化,而是在将被处理的广播节目或者节目的所有预定部分的语音分段之后检测到,并且在检测到所有场景变化之后执行预定的PU处理。
图50示出了在上述PU信号处理中在语音片段检测点和场景变化检测点开始的预定信号处理中进行的操作流程的另一示例。
投入操作的设备首先进行到步骤T1。在步骤T1,如图49中示出的流程图的步骤P1至P9那样执行预定的语音分段操作。
把预定量的采样语音数据顺序地读入预定缓冲存储器。
在步骤T2,进行语音分段的片段位置信息被记录到预定的存储器(数据存储装置)中。在步骤T3,判断广播节目或者将要处理的节目的预定部分中的所有语音数据的预定分段是否完成。如果确定预定的分段没有结束,那么设备返回到步骤T1,其中将重复适当的操作。如果确定预定的分段结束,那么设备前进到步骤T4。
在步骤T4,实行如图49中示出的流程图中的步骤P11至P18的预定场景变化处理。把预定量的图像DCT数据顺序地记录到预定缓冲存储器中。
在步骤T5,把进行预定场景变化处理的场景变化点信息一个接一个地记录到预定的存储器装置(数据存储装置)中。在步骤T6,判断预定广播节目或者将要处理的节目中的所有图像DCT数据的预定场景变化处理是否完成。如果确定预定的场景变化处理没有结束,那么设备返回到步骤T4,其中将重复适当的操作。如果确定预定的场景变化处理结束,那么设备前进到步骤T7。
在步骤T7,从预定的存储器装置中读取预定的语音分段点信息和预定的场景变化点信息。在步骤T8,进行预定的PU处理,并且在步骤T9,判断广播节目或者将要处理的节目的所有预定部分的预定PU处理是否完成。如果确定预定的PU处理结束,那么设备退出重放操作。如果确定预定的PU处理没有完成,那么设备返回到步骤T7,其中进行适当的操作。
上面已经作为举例、参考附图就本发明的某些实施例详细描述了本发明。然而,本领域普通技术人员应该理解的是,本发明不局限于所述实施例,而是在不脱离本发明的范围和精神的情况下,可以依照各种方式来修改、构造或者依照各种其它形式来具体实现,本发明的范围在另外的权利要求书中阐明并限定。

Claims (15)

1.一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
把根据图像/语音信息信号的片段从语音信号中提取的预定语音特性信号和图像特征数据记录到预定的记录介质或者预定的数据存储器中。
2.如权利要求1所述的方法,还包括如下步骤:
通过预定的输入系统来获取软件,以便通过预定的操作来执行信息信号处理;
设置信息信号处理以便执行;并且
当通过预定的控制系统设置了预定的操作模式时,执行信息信号处理。
3.一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由所述预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像特征数据或者从其中记录有语音特征数据和图像特征数据的预定记录介质或预定数据存储器中获取的数据或数据文件,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
4.如权利要求3所述的方法,还包括如下步骤:
通过预定的输入系统来获取软件,以便通过预定的操作来执行信息信号处理;
设置信息信号处理以便执行;并且
当通过预定的控制系统设置了预定的操作模式时,执行信息信号处理。
5.一种信息信号处理方法,包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像/语音特征数据或者从其中记录有语音和图像特征数据的预定记录介质中获取的数据或数据文件,生成对应于预定重放部分确定的图像/语音信息信号的多个预定重放部分和对应于重放部分确定或者预定重放时间点设置的预定数据;并且
借助于所生成的数据或者从其中记录有所生成的数据的预定记录介质或预定数据存储器中获取的数据,对应于预定的操作模式,重放预定部分或指明预定的时间点。
6.如权利要求5所述的方法,还包括如下步骤:
通过预定的输入系统来获取软件,以便通过预定的操作来执行信息信号处理;
设置信息信号处理以便执行;并且
当通过预定的控制系统设置了预定的操作模式时,执行信息信号处理。
7.一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理部分的信号、来自语音信号处理部分的信号和预定时间长度或者部分长度设置数据对来自语音信号处理部分的信号或者视频/语音信息信号进行分段;以及
数据记录器,用于把根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和根据特征数据和预定数据进行了预定信号处理的图像特征数据或者预定特征数据记录到预定的记录介质或者预定的数据存储单元中。
8.如权利要求7所述的设备,还包括:
数据输入系统,用于获取软件以便通过预定的操作来执行预定的信息信号处理;以及
信号处理设置装置,用于通过由数据输入系统获取的软件来设置可执行预定信息信号处理的状态,
把根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和根据特征数据和预定的数据进行了预定信号处理的图像特征数据或者预定的特征数据记录到预定的记录介质或者预定的数据存储单元中。
9.一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理器的信号、来自语音信号处理器的信号和预定时间长度或者部分长度设置数据对来自语音信号处理器的信号或者视频/语音信息信号进行分段;以及
数据生成器,用于借助于根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和图像特征数据或者借助于从其中记录有语音和图像特征数据的预定记录介质或预定数据存储单元中获取的数据或数据文件数据,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
10.如权利要求9所述的设备,还包括:
数据输入系统,用于获取软件以便通过预定的操作来执行预定的信息信号处理;以及
信号处理设置装置,用于通过由数据输入系统获取的软件来设置可执行预定信息信号处理的状态,
借助于根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和图像特征数据或者借助于从其中记录有语音和图像特征数据的预定记录介质或预定数据存储单元中获取的数据或数据文件数据,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
11.一种信息信号处理设备,包括:
语音信号处理器,用于从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
图像特征数据处理器,用于从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
信息信号分段单元,用于对应于来自图像特征数据处理器的信号、来自语音信号处理器的信号和预定时间长度或者部分长度设置数据对来自语音信号处理器的信号或者视频/语音信息信号进行分段;
数据生成器,用于借助于根据来自信息信号分段单元的信号从语音信号中提取的预定语音特征数据和图像特征数据或者借助于从其中记录有语音和图像特征数据的预定记录介质或预定数据存储单元中获取的数据或数据文件数据,生成对应于预定重放部分确定或预定重放时间点设置的预定数据;以及
信息信号处理器,当处于预定的操作模式时,用于根据来自数据生成器的数据或者从其中记录有来自数据生成器的数据的预定记录介质或预定数据存储单元中获取的数据来重放预定的部分或者指明预定的时间点。
12.如权利要求11所述的设备,还包括:
数据输入系统,用于获取软件以便通过预定的操作来执行预定的信息信号处理;以及
信号处理设置装置,用于通过由数据输入系统获取的软件来设置可执行预定的信息信号处理的状态,
当处于预定的操作模式时,根据来自数据生成器的数据或者从其中记录有来自数据生成器的数据的预定记录介质或预定数据存储单元中获取的数据来重放预定的部分或者指明预定的时间点。
13.一种程序记录介质,其中记录有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
把根据图像/语音信息信号的片段从语音信号中提取的预定语音特性信号和图像特征数据记录到预定的记录介质或者预定的数据存储器中。
14.一种程序记录介质,其中记录有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;并且
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像特征数据或者通过从其中记录有语音特征数据和图像特征数据的预定记录介质或预定数据存储器中获取的数据或数据文件,生成对应于预定重放部分确定或预定重放时间点设置的预定数据。
15.一种程序记录介质,其中记录有计算机可读的控制程序,所述控制程序包括如下步骤:
从预定的图像/语音信息信号或者由预定的图像/语音信息信号的预定频带压缩而产生的图像/语音信息信号中检测每一预定部分的语音等级或者预定的语音特性,并且对应于检测结果和预定的设置值,按照预定的片段部分来处理语音信号;
从图像/语音信息信号中提取图像信号每一部分的预定特性数据,并且根据所述特性数据来生成表示预定部分的图像特征的预定特性数据;
对应于图像特性数据、由语音分段产生的信号和预定时间长度或者部分长度设置数据对图像/语音信息信号进行分段;
借助于根据图像/语音信息信号的片段从语音信号中提取的预定的语音特征数据和图像/语音特征数据或者从其中记录有语音和图像特征数据的预定记录介质中获取的数据或数据文件,生成对应于预定重放部分确定的图像/语音信息信号的多个预定重放部分和对应于重放部分确定或者预定重放时间点设置的预定数据;并且
借助于所生成的数据或者从其中记录有所生成的数据的预定记录介质或预定数据存储器中获取的数据,对应于预定的操作模式,重放预定部分或指明预定的时间点。
CN200580030347XA 2004-08-10 2005-08-09 信息信号处理方法和设备 Expired - Fee Related CN101053252B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004233943 2004-08-10
JP233943/2004 2004-08-10
PCT/JP2005/014597 WO2006016590A1 (ja) 2004-08-10 2005-08-09 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体

Publications (2)

Publication Number Publication Date
CN101053252A true CN101053252A (zh) 2007-10-10
CN101053252B CN101053252B (zh) 2011-05-25

Family

ID=35839359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580030347XA Expired - Fee Related CN101053252B (zh) 2004-08-10 2005-08-09 信息信号处理方法和设备

Country Status (6)

Country Link
US (1) US8634699B2 (zh)
EP (1) EP1784012A4 (zh)
JP (1) JP4935355B2 (zh)
KR (2) KR20120068050A (zh)
CN (1) CN101053252B (zh)
WO (1) WO2006016590A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999621A (zh) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 一种外观主题的设置方法及装置
CN108174138A (zh) * 2018-01-02 2018-06-15 上海闻泰电子科技有限公司 视频拍摄方法、语音采集设备及视频拍摄系统
CN112231464A (zh) * 2020-11-17 2021-01-15 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
JP2008065905A (ja) 2006-09-07 2008-03-21 Sony Corp 再生装置、再生方法及び再生プログラム
US8526784B2 (en) * 2007-07-27 2013-09-03 Cisco Technology, Inc. Digital video recorder collaboration and similar media segment determination
JP4428424B2 (ja) * 2007-08-20 2010-03-10 ソニー株式会社 情報処理装置、情報処理方法、プログラムおよび記録媒体
KR101435140B1 (ko) * 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
JP4577412B2 (ja) * 2008-06-20 2010-11-10 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラム
US8345750B2 (en) * 2009-09-02 2013-01-01 Sony Computer Entertainment Inc. Scene change detection
KR20110110434A (ko) * 2010-04-01 2011-10-07 삼성전자주식회사 저전력 오디오 재생장치 및 방법
JP5634111B2 (ja) * 2010-04-28 2014-12-03 キヤノン株式会社 映像編集装置、映像編集方法及びプログラム
JP5714297B2 (ja) * 2010-10-29 2015-05-07 株式会社キーエンス 画像処理装置、画像処理方法および画像処理プログラム
US9558165B1 (en) * 2011-08-19 2017-01-31 Emicen Corp. Method and system for data mining of short message streams
CN103594103B (zh) * 2013-11-15 2017-04-05 腾讯科技(成都)有限公司 音频处理方法及相关装置
CN104185066B (zh) * 2014-03-04 2017-05-31 无锡天脉聚源传媒科技有限公司 一种自动校验电子节目菜单的方法及装置
US10002641B1 (en) * 2016-10-17 2018-06-19 Gopro, Inc. Systems and methods for determining highlight segment sets
KR102650138B1 (ko) * 2018-12-14 2024-03-22 삼성전자주식회사 디스플레이장치, 그 제어방법 및 기록매체

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6160950A (en) 1996-07-18 2000-12-12 Matsushita Electric Industrial Co., Ltd. Method and apparatus for automatically generating a digest of a program
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
JP2002535894A (ja) 1999-01-12 2002-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ カメラ動きパラメータを推定する方法
JP4165851B2 (ja) 2000-06-07 2008-10-15 キヤノン株式会社 記録装置及び記録制御方法
JP2002116784A (ja) 2000-10-06 2002-04-19 Sony Corp 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
JP3631430B2 (ja) 2000-11-08 2005-03-23 株式会社東芝 自動チャプタ作成機能付き記録再生装置
JP4913288B2 (ja) 2001-05-14 2012-04-11 ソニー株式会社 情報信号処理装置及び情報信号処理方法
US7143354B2 (en) 2001-06-04 2006-11-28 Sharp Laboratories Of America, Inc. Summarization of baseball video content
JP4546682B2 (ja) * 2001-06-26 2010-09-15 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7203620B2 (en) * 2001-07-03 2007-04-10 Sharp Laboratories Of America, Inc. Summarization of video content
US6931201B2 (en) 2001-07-31 2005-08-16 Hewlett-Packard Development Company, L.P. Video indexing using high quality sound
US20030108334A1 (en) * 2001-12-06 2003-06-12 Koninklijke Philips Elecronics N.V. Adaptive environment system and method of providing an adaptive environment
JP4039873B2 (ja) * 2002-03-27 2008-01-30 三洋電機株式会社 映像情報記録再生装置
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
US7286749B2 (en) 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US7274741B2 (en) * 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
DE602004003497T2 (de) * 2003-06-30 2007-09-13 Koninklijke Philips Electronics N.V. System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
JP2005269510A (ja) * 2004-03-22 2005-09-29 Seiko Epson Corp ダイジェスト画像データの生成
US8250058B2 (en) * 2005-10-18 2012-08-21 Fish Robert D Table for storing parameterized product/services information using variable field columns

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999621A (zh) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 一种外观主题的设置方法及装置
CN102999621B (zh) * 2012-11-29 2016-01-27 广东欧珀移动通信有限公司 一种外观主题的设置方法及装置
CN108174138A (zh) * 2018-01-02 2018-06-15 上海闻泰电子科技有限公司 视频拍摄方法、语音采集设备及视频拍摄系统
CN108174138B (zh) * 2018-01-02 2021-02-19 上海闻泰电子科技有限公司 视频拍摄方法、语音采集设备及视频拍摄系统
CN112231464A (zh) * 2020-11-17 2021-01-15 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质
CN112231464B (zh) * 2020-11-17 2023-12-22 安徽鸿程光电有限公司 信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101053252B (zh) 2011-05-25
KR20120068050A (ko) 2012-06-26
JP4935355B2 (ja) 2012-05-23
WO2006016590A1 (ja) 2006-02-16
JPWO2006016590A1 (ja) 2008-07-31
EP1784012A1 (en) 2007-05-09
KR20070047776A (ko) 2007-05-07
KR101385087B1 (ko) 2014-04-14
US20070286579A1 (en) 2007-12-13
US8634699B2 (en) 2014-01-21
EP1784012A4 (en) 2011-10-26

Similar Documents

Publication Publication Date Title
CN101053252A (zh) 信息信号处理方法和设备以及计算机程序产品
CN1135488C (zh) 图像处理设备,图像处理方法
CN1192610C (zh) 记录/回放装置、记录/回放方法和记录媒体
CN1284368C (zh) 用于再现内容的装置和用于接收内容的装置
CN1176548C (zh) 信息接收记录重放装置、信息接收记录重放方法
CN1294750C (zh) 图像检测设备、图像检测方法和图像检测程序
CN1856993A (zh) 信息信号处理设备和信息信号处理方法
CN1816879A (zh) 视频处理装置、视频处理装置的ic电路、视频处理方法和视频处理程序
CN1169368C (zh) 终端装置和用于终端装置的还原方法
CN1229990C (zh) 数字影像内容的影像再生装置、影像再生方法
CN1178469C (zh) 图像信息编辑方法和编辑设备
CN1892564A (zh) 标签信息显示控制设备及方法、信息处理设备和显示设备
CN1507266A (zh) 信息处理装置和方法、节目广播系统、存储媒体及程序
CN1898720A (zh) 音响信号检测系统、音响信号检测服务器、影像信号搜索装置、影像信号搜索方法、影像信号搜索程序与记录介质、信号搜索装置、信号搜索方法、及信号搜索程序与记录介质
CN1484922A (zh) 运动图像编码方法及运动图像解码方法
CN1131319A (zh) 记录介质再现设备、方法及图象数据解码器
CN1433546A (zh) 数据适合化装置、数据适合化方法、存储媒体及程序
CN1860787A (zh) 用于编码信息的方法和装置
CN1781153A (zh) 记录介质和方法、再现装置和方法、程序和集成电路
CN1833437A (zh) 节目推荐装置
CN1767610A (zh) 信息处理装置,信息处理方法及其程序
CN1767616A (zh) 数据处理装置及方法、程序及介质、数据介质和数据结构
CN1351444A (zh) 记录和再现设备
CN1438645A (zh) 格式转换和信息记录的装置、方法和程序及其存储介质
CN1507745A (zh) 生成在图像显示设备中使用的系数类型数据或系数数据的装置、方法、程序及存储程序的计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110525

Termination date: 20150809

EXPY Termination of patent right or utility model