CN110390242A

CN110390242A - 信息处理装置以及存储介质

Info

Publication number: CN110390242A
Application number: CN201910168319.8A
Authority: CN
Inventors: 北川喜浩; 新宫淳; 苏雷什·穆拉里
Original assignee: Fuji Applied Co Ltd
Current assignee: Fuji Applied Co Ltd
Priority date: 2018-04-20
Filing date: 2019-03-06
Publication date: 2019-10-29
Anticipated expiration: 2039-03-06
Also published as: CN110390242B; US11386658B2; JP2019191738A; US20190325226A1; JP7143620B2

Abstract

本发明提供一种根据不同的特征要素，以作业视频中的说明的部位与作业的部位将视频的场面切分，而分类成说明场面与作业场面的信息处理装置以及存储介质。所述信息处理装置包括：特征提取部(40)，对由作为处理对象的作业者所进行的作业的视频进行分析，并提取特征要素；场面识别部(50)，根据处理对象的视频的各部分中的特征要素的差异，识别正进行作业的说明的说明场面与正进行作业的作业场面；以及划分处理部(60)，根据场面识别部(50)的识别结果将视频的部分划分成各个作业。

Description

信息处理装置以及存储介质

技术领域

本发明涉及一种信息处理装置以及存储介质。

背景技术

之前，有切分视频的场景(场面)或辨识正在放映的事物的技术。在下述专利文献1中公开有如下的技术：从动态图象数据中提取声音数据与记录有声音的动态图象数据上的时间信息，通过声音辨识而从声音数据中将确定动态图象上的空间位置的词句与成为元数据的词句分离并提取，将各词句转换成文字数据，并且与时间信息建立关联来存储。另外，在专利文献2中公开有如下的技术：登记内容的场景、或者辨识内容的声音或影像并转换成文字数据，将文字数据插入构成影像帧的数据部中，或者将文字数据与时间码一同记录在文字数据的专用文件中，由此将对场景作记号的元数据或文字数据作为与内容相关联的元数据记录在介质中。

[现有技术文献]

[专利文献]

[专利文献1]日本专利特开2005-65191号公报

[专利文献2]日本专利特开2007-82088号公报

发明内容

[发明所要解决的问题]

在记录有作业工序的视频中，存在欲将说明作业内容的场面与作业中的场面切分，而分类成各个作业的情况。此情况并不限定于记录有作业工序的视频，关于包含说明场面与在说明场面中得到说明的被说明场面的各种视频，也同样存在欲将说明场面与被说明场面切分，而分类成各个场面的内容的情况。

本发明的目的在于提供一种根据不同的特征要素，以视频中的说明的部位与拍摄有被说明的对象的部位将视频的场面切分，而分类成说明场面与被说明场面的信息处理装置以及存储介质。

[解决问题的技术手段]

技术方案1的本发明是一种信息处理装置，其包括：

特征提取部件，对视频进行分析，并提取特征要素；

识别部件，根据所述视频的各部分中的所述特征要素的差异，识别正进行说明的说明场面与拍摄有说明对象的被说明场面；以及

划分部件，根据识别结果来划分所述视频的部分。

技术方案2的本发明是技术方案1中记载的信息处理装置，其中，

所述特征提取部件将对所述视频进行分析所获得的与已被拍摄的人物的举动相关的特征作为所述特征要素来提取。

技术方案3的本发明是技术方案2中记载的信息处理装置，其中，

所述识别部件将由所述特征提取部件所提取的与人物的举动相关的特征之中，所述人物的特定的身体部分的动作的模式作为识别条件之一来识别所述说明场面与所述被说明场面。

技术方案4的本发明是技术方案2中记载的信息处理装置，其中，

所述识别部件将由所述特征提取部件所提取的与人物的举动相关的特征之中，所述人物的说话中的声音模式作为识别条件之一来识别所述说明场面与所述被说明场面。

技术方案5的本发明是技术方案1中记载的信息处理装置，其中，

所述特征提取部件将对所述视频进行分析所获得的与图像的结构相关的特征作为所述特征要素来提取。

技术方案6的本发明是技术方案5中记载的信息处理装置，其中，

作为所述视频，使用作业及所述作业的说明的视频，

所述特征提取部件提取可区分将作业者作为被摄物的图像与将作业部位作为被摄物的图像的特征作为与所述图像的结构相关的特征，且

所述识别部件将所述视频的部分是将所述作业者作为被摄物的图像、还是将所述作业部位作为被摄物的图像作为识别条件之一，来识别所述说明场面与作为所述被说明场面的作业场面。

技术方案7的本发明是技术方案1中记载的信息处理装置，其中，

所述特征提取部件将对收录有操作画面中的操作的样子的所述视频进行分析所获得的与所述操作画面上所显示的显示对象的变化相关的特征作为所述特征要素来提取，且

所述识别部件将特定的所述显示对象的变化的模式作为识别条件之一来识别所述说明场面与所述被说明场面。

技术方案8的本发明是技术方案1中记载的信息处理装置，其还包括：

画面生成部件，生成显示由所述划分部件所划分的视频的部分与根据对应于所述视频的部分的声音所获得的文本的输出画面。

技术方案9的本发明是技术方案8中记载的信息处理装置，其中，

由所述画面生成部件所生成的输出画面将所述视频的部分与根据对应于所述视频的部分的声音所获得的所述文本建立了关联，若指示文本的一部分，则对应于所指示的文本部分的视频的部分被播放。

技术方案10的本发明是技术方案9中记载的信息处理装置，其中，

所述画面生成部件将所述视频的部分中的所述说明场面的视频删除。

技术方案11的本发明是技术方案10中记载的信息处理装置，其中，

所述画面生成部件将对应于经删除的所述说明场面的视频的文本与位于所述说明场面之后的所述被说明场面的视频建立关联。

技术方案12的本发明是技术方案8或技术方案9中记载的信息处理装置，其中，

由所述画面生成部件所生成的输出画面可识别地显示根据对应于所述视频的部分的声音所获得的所述文本之中，对应于所述说明场面的视频的文本与对应于所述被说明场面的文本。

技术方案13的本发明是技术方案8或技术方案9中记载的信息处理装置，其中，

由所述画面生成部件所生成的输出画面可识别地显示根据对应于所述视频的部分的声音所获得的所述文本之中，由所述划分部件所划分的所述视频的部分。

技术方案14的本发明是一种存储介质，其存储有使计算机作为如下的部件发挥功能的程序：

特征提取部件，对视频进行分析，并提取特征要素；

划分部件，根据识别结果来划分所述视频的部分。

[发明的效果]

根据技术方案1的发明，与使用辨识已被收录在视频中的声音所获得的词句或事先登记的元数据对视频的场面进行分类的结构相比，可提供一种根据不同的特征要素，以视频中的说明的部位与拍摄有被说明的对象的部位将视频的场面切分，而分类成说明场面与被说明场面的信息处理装置。

根据技术方案2的发明，与在视频中设定用于通过人为的操作来进行分割的基准的结构相比，可不花费所述作业的工时，而获得根据已被拍摄的人物的举动来识别说明场面与被说明场面的指标。

根据技术方案3的发明，与在视频中设定用于通过人为的操作来进行分割的基准的结构相比，可不花费所述作业的工时，将已被拍摄的人物的动作不同的被说明场面与说明场面分开，并可确定各个场面中的内容的区隔。

根据技术方案4的发明，与根据人物的说话内容对视频进行分类的结构相比，可不对已被拍摄的人物的说话内容进行分析而识别被说明场面与说明场面，并确定各个场面中的内容的区隔。

根据技术方案5的发明，与在视频中设定用于通过人为的操作来进行分割的基准的结构相比，可不花费所述作业的工时，而获得根据图像的结构来识别说明场面与被说明场面的指标。

根据技术方案6的发明，与在视频中设定用于通过人为的操作来进行分割的基准的结构相比，可不花费所述作业的工时，而将图像的结构不同的作业场面与说明场面分开，并可确定各个作业的区隔。

根据技术方案7的发明，与在视频中设定用于通过人为的操作来进行分割的基准的结构相比，关于个人计算机(Personal Computer，PC)等的操作的视频，可不花费所述作业的工时，而获得识别说明场面与被说明场面的指标。

根据技术方案8的发明，与仅对视频进行分类的结构相比，可通过文本来确认视频内的说话内容。

根据技术方案9的发明，与仅对视频进行分类的结构相比，通过将根据视频内的说话内容所获得的文本用作索引，可削减视频的检索所需要的工时。

根据技术方案10的发明，与仅对视频进行分类的结构相比，可削减数据量。

根据技术方案11的发明，与仅删除对应于说明场面的视频的结构相比，可将根据视频内的说明场面的说话内容所获得的文本用作视频的索引。

根据技术方案12的发明，与仅对视频进行分类的结构相比，通过将可识别地显示视频的场面的文本用作索引，可辨识是说明场面还是被说明场面来对视频进行检索。

根据技术方案13的发明，与仅对视频进行分类的结构相比，通过将可识别地显示各场面的内容的区块的文本用作索引，可识别各场面的内容的区块来对视频进行检索。

根据技术方案14的发明，与使用辨识已被收录在视频中的声音所获得的词句或事先登记的元数据对视频的场面进行分类的结构相比，可提供一种在执行本发明的程序的计算机中，根据不同的特征要素，以视频中的说明的部位与拍摄有被说明的对象的部位将视频的场面切分，而分类成说明场面与被说明场面的存储介质。

附图说明

图1是表示本实施方式的信息处理装置的功能结构的图。

图2是表示作业视频的结构例的图。

图3是表示利用视频分割部的视频的分割的例子的图。

图4(A)及图4(B)是表示作为特征要素的手的动作的模式的图，图4(A)是表示说明场面中的手的动作的模式的图，图4(B)是表示作业场面中的手的动作的模式的图。

图5(A)及图5(B)是表示作为特征要素的被摄物的不同的图，图5(A)是表示说明场面的被摄物的图，图5(B)是表示作业场面的被摄物的图。

图6(A)及图6(B)是表示作为特征要素的鼠标指针的动作的模式的图，图6(A)是表示说明场面中的鼠标指针的动作的模式的图，图6(B)是表示作业场面中的鼠标指针的动作的模式的图。

图7是表示将手的动作的模式作为特征要素而进行了场面识别的例子的图。

图8是表示将头的朝向的变化作为特征要素而进行了场面识别的例子的图。

图9是表示将说话速度作为特征要素而进行了场面识别的例子的图。

图10是表示将操作画面的变化作为特征要素而进行了场面识别的例子的图。

图11是表示根据作业顺序文件的输出画面的结构例的图。

图12(A)及图12(B)是表示在作业顺序文件的输出画面中选择文本来使部分视频播放的样子的图，图12(A)是表示文本的选择前的状态的图，图12(B)是表示进行了文本的选择的状态的图。

图13(A)及图13(B)是表示在作业顺序文件的输出画面中选择说明场面的文本来使部分视频播放的样子的图，图13(A)是表示说明场面的文本的选择前的状态的图，图13(B)是表示进行了说明场面的文本的选择的状态的图。

图14是表示用作信息处理装置的计算机的硬件结构例的图。

[符号的说明]

10：视频取得部

20：存储部

30：视频分割部

40：特征提取部

50：场面识别部

60：划分处理部

70：声音辨识部

80：文件制作部

120：输出画面

121：视频显示区域

122：缩小图像显示区域

123：文本显示区域

具体实施方式

以下，参照随附附图对本发明的实施方式进行详细说明。

＜信息处理装置的功能结构＞

图1是表示本实施方式的信息处理装置的功能结构的图。信息处理装置100包括：视频取得部10、存储部20、视频分割部30、特征提取部40、场面识别部50、划分处理部60、声音辨识部70、以及文件制作部80。信息处理装置100例如通过个人计算机(PC)来实现。

视频取得部10取得处理对象的视频。关于视频的取得，可以将摄影机与信息处理装置100连接，并读入被存储在摄影机的存储器中的视频，也可以经由网络(未图示)而取得被保持在外部的存储装置中的视频文件。

本实施方式中的处理对象的视频是已被拍摄的场面包含特定场面、及对特定场面进行说明的说明场面的视频。特定场面可以说是被说明场面(拍摄了说明对象的场面)。作为特定场面，可列举作为被摄物的人物正在进行某些行动的场面。作为行动的例子，可列举：作业或操作、体育运动的实际演练、乐器的演奏等。另外，作为特定场面，可列举：表示已产生(或已引起)特定的现象(不管是自然现象、人为的现象)或事态的样子的场面。在本实施方式中，作为一例，取得作业视频作为处理对象的视频。所谓作业视频，是指对作业的样子进行了录像的视频。作业的种类并无特别限定。作业视频通常包含说明场面与作业场面。所谓说明场面，是指说明作业内容的场面。所谓作业场面，是指拍摄了正在实际地进行作业的样子的场面。另外，本实施方式的应用对象并不限定于作业视频，可应用于包含所述特定场面与说明场面的各种视频。

图2是表示作业视频的结构例的图。图2中所示的作业视频交替地出现说明场面SD与作业场面SW。首先，有说明场面SD1，其后，有实际地进行说明场面SD1中所说明的作业的作业场面SW1。继而，有说明场面SD2，其后，有实际地进行说明场面SD2中所说明的作业的作业场面SW2。如所述般，作业视频大都以说明场面与经说明的作业的作业场面成对地依次出现的方式构成。

存储部20存储并保持由视频取得部10所取得的作业视频。存储部20例如通过随机存取存储器(Random Access Memory，RAM)、固态硬盘(Solid State Drive，SSD)等可写入数据的半导体存储器，或磁盘装置等来实现。

视频分割部30将由视频取得部10取得并已被保持在存储部20中的作业视频分割成多个部分视频。视频分割部30例如根据已被录在作业视频中的声音来进行作业视频的分割。具体而言，视频分割部30对作业视频的声音数据进行分析，并确定说话声音已被录音的部位(时刻)。而且，视频分割部30将从一个说话声音至下一个说话声音为止的视频作为一个部分视频进行分割。将所生成的各部分视频保持在存储部20中。

特征提取部40对通过视频分割部30来分割作业视频所获得的各部分视频进行分析，并从各个部分视频中提取特征要素。特征提取部40是特征提取部件的一例。所谓特征要素，是指对作业视频中的说明场面与作业场面分别赋予特征的要素。作为特征要素，例如可使用与已被拍摄的作业者的举动相关的特征、与拍摄画面的结构相关的特征等。另外，当作业视频是收录有操作画面中的操作的样子的视频时，可使用与操作画面上所显示的显示对象的变化相关的特征。特征要素的详细情况将后述。将已被提取的特征要素的信息与所述特征要素已被提取的部分视频建立关联，并保持在存储部20中。

场面识别部50根据由特征提取部40所提取的特征要素，识别由视频分割部30所分割的各部分视频的场面，并分成说明场面的视频与作业场面的视频。场面识别部50是识别部件的一例。根据特征要素的场面的识别的详细情况将后述。将识别结果的信息与识别对象的部分视频建立关联，并保持在存储部20中。

划分处理部60根据由场面识别部50所得的场面的识别结果，将部分视频划分成各个作业。划分处理部60是划分部件的一例。如参照图2所说明般，作业视频大都具有如下的结构：有说明即将进行的作业的说明场面，其后有实际地进行说明场面中所说明的作业的作业场面。因此，划分处理部60将说明场面与紧随所述说明场面之后的作业场面作为与相同的作业相关的说明和作业者来划分。此处，在多个说明场面的部分视频持续的情况、及多个作业场面的部分视频持续的情况下，划分处理部60判断为分别是关于一个作业的说明场面、作业场面持续者。这是由视频分割部30根据视频的说话声音对视频进行分割来生成部分视频所引起的。例如，作业场面的声音在作业的间歇发出的情况多。于是，即便是连续的作业的场面，每当声音被发出时，视频分割部30都将其作为部分视频来切分。因此，在作业场面的部分视频连续的情况下，整体上作为一个作业的场面来处理。说明场面的部分视频也同样如此。利用划分处理部60进行划分处理的结果，将各部分视频与所获得的各区块建立关联，并保持在存储部20中。

声音辨识部70对各部分视频中的声音数据进行声音辨识，并转换成文本数据。将所生成的文本数据与包含原始声音数据的部分视频建立关联，并保持在存储部20中。再者，利用声音辨识部70的声音辨识可使用现有的声音辨识技术来进行。

文件制作部80使用已被划分成各个作业的部分视频、及由声音辨识部70所生成的文本数据，制作作业顺序文件。所谓作业顺序文件，是指用于说明作业顺序的内容文件。作业顺序文件是将作业视频划分成各个作业，并将部分视频与根据部分视频的声音所获得的文本建立了对应的内容。将所制作的作业顺序文件保持在存储部20中。若通过可执行作业顺序文件的应用程序来读入并执行作业顺序文件，则生成将已被划分成各个作业的作业视频(部分视频)与文本建立了对应的输出画面，并显示在显示装置(未图示)中。文件制作部80是画面生成部件的一例。

在作业顺序文件中，使部分视频与对应于部分视频的文本相关联。因此，若在输出画面中选择文本，则显示对应于所选择的文本的部分视频。作业顺序文件的输出画面的结构及功能的详细情况将后述。

＜视频的分割的例子＞

继而，列举具体例，对利用视频分割部30的视频的分割进一步进行说明。如上所述，视频分割部30例如根据已被录在作业视频中的说话声音来进行作业视频的分割。因此，进行识别已被录在视频中的音响数据中的说话声音的分析处理。但是，此处只要可区分机器的动作音或使用器具时产生的声音等环境音与说话声音即可，无需连声音辨识都进行。但是，由于通过视频分割部30的处理来提取说话声音，因此也可以在此时间点进行利用声音辨识部70的声音辨识。

图3是表示利用视频分割部30的视频的分割的例子的图。设为在处理对象的作业视频中收录有从说话声音A至说话声音G为止的七个说话声音者。各说话声音A～说话声音G之间存在事先决定的固定以上的时间间隔，由此判断各说话声音A～说话声音G是个别的说话。视频分割部30将从说话声音A的开始时刻至说话声音B的开始时刻为止的部分设为与所述说话声音A对应的场面1的部分视频。同样地，视频分割部30将从说话声音B的开始时刻至说话声音C的开始时刻为止的部分设为与所述说话声音B对应的场面2的部分视频。同样地，视频分割部30将从说话声音C的开始时刻至说话声音D的开始时刻为止的部分设为与所述说话声音C对应的场面3的部分视频。同样地，视频分割部30将从说话声音D的开始时刻至说话声音E的开始时刻为止的部分设为与所述说话声音D对应的场面4的部分视频。同样地，视频分割部30将从说话声音E的开始时刻至说话声音F的开始时刻为止的部分设为与所述说话声音E对应的场面5的部分视频。同样地，视频分割部30将从说话声音F的开始时刻至说话声音G的开始时刻为止的部分设为与所述说话声音F对应的场面6的部分视频。同样地，视频分割部30将从说话声音G的开始时刻以后的部分设为与所述说话声音G对应的场面7的部分视频。如以上般，将作业视频分割成分别对应于说话声音A～说话声音G的七个部分视频。

＜特征要素的例子＞

继而，列举具体例，对通过特征提取部40而从部分视频中提取的特征要素进一步进行说明。作为特征要素的一例，有与正映在画面中的作业者的举动相关的特征。具体而言，将手的动作、头或视线的动作等作业者中的特定的身体的部分的动作的模式作为特征要素来提取。例如，考虑将手的动作作为特征要素来提取的情况。

图4(A)及图4(B)是表示作为特征要素的手的动作的模式的图。图4(A)是表示说明场面中的手的动作的模式的图，图4(B)是表示作业场面中的手的动作的模式的图。在图4(A)及图4(B)中，在各个场面中，每隔固定的时间间隔描绘部分视频的画面110中的作业者的手的位置。在作业者进行作业的说明的情况下，可认为作业者用肢体语言进行作业内容的说明。因此，如图4(A)所示，手横跨宽广的区域进行移动。另一方面，在作业者正进行作业的情况下，可认为作业者的手远离正进行作业的位置来动作的情况少。因此，如图4(B)所示，手的位置容纳在特定的狭窄区域111内。因此，作为场面的识别要件，对部分视频中的手的移动范围设定固定的阈值，当手在比阈值宽的范围内移动时判断为说明场面，当手在比阈值窄的范围内移动时判断为作业场面。

当使用与作业者的举动相关的特征作为特征要素时，也可以将作业者的说话中的声音模式用作特征要素。若对作业者正进行作业的说明时的说话模式与正进行作业时的说话模式进行比较，则后者是一边进行作业一边说话，因此可认为与前者的情况相比说话速度慢。因此，作为场面的识别要件，对说话速度设定固定的阈值，在比阈值快的说话速度的情况下判断为说明场面，在比阈值慢的说话速度的情况下判断为作业场面。

作为特征要素的另一例，有与已被拍摄的画面的结构相关的特征。具体而言，将被作为主要的被摄物来拍摄的对象的不同作为特征要素来提取。例如，考虑将被摄物是否为人物像作为特征要素来提取的情况。

图5(A)及图5(B)是表示作为特征要素的被摄物的不同的图。图5(A)是表示说明场面的被摄物的图，图5(B)是表示作业场面的被摄物的图。在图5(A)及图5(B)中表示各个场面中的部分视频的画面110。在作业者进行作业的说明的情况下，可认为被摄物是正进行说明的作业者自身。因此，如图5(A)所示，人物像变成主要的被摄物。另一方面，在作业者正进行作业的情况下，可认为被摄物是正进行作业的部位(例如，若是手工作业，则为手)。因此，如图5(B)所示，作业部位变成主要的被摄物，而非人物像变成主要的被摄物。因此，作为场面的识别要件，设定主要的被摄物是否为人物像这一条件，在主要的被摄物为人物像的情况下判断为说明场面，在主要的被摄物并非人物像的情况下判断为作业场面。

作为特征要素的另一例，有可在作业视频为收录有操作画面中的操作的样子的视频的情况下使用的与操作画面上所显示的显示对象的变化相关的特征。具体而言，将鼠标指针的动作、所显示的图像的形状或色彩的变化的模式作为特征要素来提取。例如，考虑将鼠标指针的动作作为特征要素来提取的情况。

图6(A)及图6(B)是表示作为特征要素的鼠标指针的动作的模式的图，图6(A)是表示说明场面中的鼠标指针的动作的模式的图，图6(B)是表示作业场面中的鼠标指针的动作的模式的图。在图6(A)及图6(B)中表示在各个场面中，鼠标指针在画面内如何移动。在作业者进行作为即将进行的作业的操作画面的操作的说明的情况下，所显示的画面的说明变成主要的内容，因此可认为鼠标指针为移动至希望在说明中加以关注的地方的程度。因此，如图6(A)所示，鼠标指针的动作变成比较单调且静止的动作。另一方面，在作业者正进行作业的情况下，可认为伴随作业来操作鼠标指针。因此，如图6(B)所示，与说明场面的情况相比，鼠标指针的动作变成复杂且猛烈的动作。此处，鼠标指针的动作的复杂度、猛烈度可通过鼠标指针的移动方向变化的次数、或鼠标指针的移动距离来确定。因此，作为场面的识别要件，对部分视频中的鼠标指针的移动方向的变化的次数及移动距离设定固定的阈值，在为比阈值小的值的情况下判断为说明场面，在为比阈值大的值的情况下判断为作业场面。

＜场面识别的例子＞

继而，列举具体例对利用场面识别部50的场面识别进一步进行说明。场面识别部50根据从各部分图像中所提取的特征要素，对各部分视频进行是说明场面的视频还是作业场面的视频的识别。此处，设为识别参照图3所说明的场面1～场面7的各部分视频的场面者。

图7是表示将手的动作的模式作为特征要素而进行了场面识别的例子的图。若参照图7，则在场面1及场面5中，有手的动作的区域的宽度比阈值T1宽。因此，场面识别部50将场面1及场面5的部分视频判断为说明场面。另一方面，在场面2～场面4、场面6及场面7中，有手的动作的区域的宽度比阈值T1窄。因此，场面识别部50将场面2～场面4、场面6及场面7的部分视频判断为作业场面。

图8是表示将头的朝向的变化作为特征要素而进行了场面识别的例子的图。在将头的朝向的变化作为特征要素的情况下，设为将头的朝向朝各种方向变化的情况判断为说明场面，将头的朝向面向比较固定的方向的情况判断为作业画面者。若参照图8，则在场面1及场面5中，头的朝向的分散比阈值T2大(面向各种方向)。因此，场面识别部50将场面1及场面5的部分视频判断为说明场面。另一方面，在场面2～场面4、场面6及场面7中，头的朝向的分散比阈值T2小(面向特定的方向)。因此，场面识别部50将场面2～场面4、场面6及场面7的部分视频判断为作业场面。

图9是表示将说话速度作为特征要素而进行了场面识别的例子的图。若参照图9，则在场面1及场面5中，说话速度比阈值T3快。因此，场面识别部50将场面1及场面5的部分视频判断为说明场面。另一方面，在场面2～场面4、场面6及场面7中，说话速度比阈值T3慢。因此，场面识别部50将场面2～场面4、场面6及场面7的部分视频判断为作业场面。

图10是表示将操作画面的变化作为特征要素而进行了场面识别的例子的图。此处，作为操作画面的变化，着眼于鼠标指针的移动量。若参照图10，则在场面1及场面5中，鼠标指针的移动量比阈值T4少。因此，场面识别部50将场面1及场面5的部分视频判断为说明场面。另一方面，在场面2～场面4、场面6及场面7中，鼠标指针的移动量比阈值T4多。因此，场面识别部50将场面2～场面4、场面6及场面7的部分视频判断为作业场面。

以上，表示了根据几个特征要素来识别部分视频的场面的例子。在所述各例中，均将场面1及场面5的部分视频判断为说明场面，将场面2～场面4、场面6及场面7的部分视频判断为作业场面。但是，也可能存在当利用不同的特征要素进行判断时获得不同的判断结果的情况。在此种情况下，也可以采用由利用更多的特征要素的判断所示的识别结果。另外，也可以对各特征要素赋予不同的权重来进行识别。根据多个特征要素进行场面识别，由此识别精度提升。

＜作业顺序文件的输出画面的例子＞

继而，列举具体例，对由文件制作部80所制作的作业顺序文件的输出画面进一步进行说明。如上所述，若通过应用程序来读入并执行作业顺序文件，则按照作业顺序文件的内容生成输出画面，并显示在显示装置中。

图11是表示根据作业顺序文件的输出画面的结构例的图。输出画面120具有显示视频的视频显示区域121及缩小图像显示区域122、以及显示文本的文本显示区域123。视频显示区域121中所显示的视频是从作业视频获得的部分视频。缩小图像显示区域122中所显示的图像是部分视频的缩小图像。在图11中所示的例子中，在缩小图像显示区域122中显示有三个图像122a、图像122b、图像122c。图像122b是表示正显示在视频显示区域121中的部分视频的图像。图像122a是表示正显示在视频显示区域121中的部分视频的前一个部分视频的图像。图像122c是表示正显示在视频显示区域121中的部分视频的后一个部分视频的图像。文本显示区域123中所显示的文本是由声音辨识部70所生成的根据部分视频的声音所取得的文本。

在图11中所示的例子中，将作业顺序文件中的部分视频及文本设为如下者：针对参照图3所说明的场面1～场面7，根据参照图7～图8所说明的识别结果而确定了各部分视频的场面。另外，通过划分处理部60的处理来将作业顺序文件中的部分视频及文本划分成各个作业。即，将作为说明场面的场面1与作为紧随其后的作业场面的场面2～场面4作为一个作业来划分。另外，将作为说明场面的场面5与作为紧随其后的作业场面的场面6及场面7作为一个作业来划分。因此，在文本显示区域123中所显示的文本中，通过赋予编号来表示各个作业的区块。即，对与场面1对应的文本A赋予编号“1”，对与场面2对应的文本B赋予编号“1.1”，对与场面3对应的文本C赋予编号“1.2”，对与场面4对应的文本D赋予编号“1.3”。此处，在文本A的编号中不存在副编号，文本B～文本D的编号分别变成对文本A的编号赋予了副编号的编号。由此，可知文本A～文本D及与这些文本对应的场面1～场面4被作为对应于一个作业来划分。将文本A的不存在副编号的编号称为划分编号。即，文本A～文本D及与这些文本对应的场面1～场面4是与被划分成划分编号“1”的作业相关的内容。

同样地，对与场面5对应的文本E赋予编号“2”，对与场面6对应的文本F赋予编号“2.1”，对与场面7对应的文本G赋予编号“2.2”。文本E的编号是划分编号“2”，文本F及文本G的编号是对划分编号“2”分别赋予了副编号的编号。因此，文本E～文本G及与这些文本对应的场面5～场面7被作为对应于一个作业来划分，且为与被划分成划分编号“2”的作业相关的内容。如所述般，在作业顺序文件的输出画面120中，进行可识别各作业区块的显示。

在作业顺序文件中，将各文本与所述文本已被取得的部分视频建立了对应，在输出画面120中，在文本与对应于所述文本的部分视频之间建立了关联。由此，输出画面120的文本显示区域123中所显示的文本具有作为部分视频的索引的功能。操作者通过选择文本，可使对应于在输出画面120中所选择的文本的部分视频播放。

图12(A)及图12(B)是表示在作业顺序文件的输出画面中选择(指定)文本来使部分视频播放的样子的图。图12(A)是表示文本的选择(指定)前的状态的图，图12(B)是表示进行了文本的选择(指定)的状态的图。如图12(A)所示，在文本的选择前，在输出画面120的视频显示区域121中显示有场面3的部分视频。在文本显示区域123中，在与场面3的部分视频对应的编号“1.2”的文本C上，进行表示正在显示对应的部分视频的显示(在图示的例子中包围文本的框线124)，可识别其为与显示中的部分视频对应的文本。另外，在缩小图像显示区域122中，也以粗框包围与视频显示区域121中所显示的部分视频对应的图像122b。设为从所述状态选择了编号“2.2”的文本G者(参照图12(B))。文本的选择例如通过对在文本显示区域123中欲指定的文本进行鼠标点击等事先决定的操作来进行。若参照图12(B)，则在文本显示区域123中，在已被选择的编号“2.2”的文本G上显示有包围文本的框线124，在视频显示区域121中显示有场面7的部分视频。即，通过选择文本G，朝与文本G对应的场面7的视频跳转并播放。再者，在图12(B)中，视频显示区域121中所显示的部分图像是所述作业顺序文件的最后的部分视频，其后不存在其他部分视频，因此在缩小图像显示区域122中，未显示表示后续的部分视频的图像122c。

此处，对说明场面的文本及部分视频进一步进行说明。在作业顺序文件中，视频用于直观地表示作业的样子。因此，在作业顺序文件中未必需要说明场面的部分视频。因此，关于说明场面，也可以使对应于文本的部分视频不包含在作业顺序文件中。在此情况下，在作业顺序文件中，使说明场面的文本与包含所述说明场面的作业区块(各场面的内容的区块)整体对应。作为一例，如上所述，当在作业顺序文件的输出画面120中使文本与部分视频相关联时，使说明场面的文本与包含所述说明场面的作业区块的最前列的视频相关联。

图13(A)及图13(B)是表示在作业顺序文件的输出画面中选择(指定)说明场面的文本来使部分视频播放的样子的图，图13(A)是表示说明场面的文本的选择(指定)前的状态的图，图13(B)是表示进行了说明场面的文本的选择(指定)的状态的图。文本的选择前的状态与图12(A)中所示的例子相同。即，在输出画面120的视频显示区域121中显示有场面3的部分视频，在文本显示区域123中，在与场面3的部分视频对应的编号“1.2”的文本C上，正进行表示正在显示对应的部分视频的显示(框线124)。设为从所述状态选择了编号“2”的文本E者。若参照图13(B)，则在文本显示区域123中，在已被选择的编号“2”的文本E上显示有包围文本的框线124。而且，在视频显示区域121中显示有文本E～文本G的作业区块中的最前列的部分视频。此处，与文本E对应的场面5的部分视频为说明场面，因此已被删除，因此在视频显示区域121中显示有作为所述作业区块的最前列的场面6的部分视频。即，通过选择说明场面的文本E，而朝作为包含文本E的作业区块的一连串的部分视频中的最前列的场面6的视频跳转并播放。

＜硬件结构例＞

图14是表示用作信息处理装置100的计算机的硬件结构例的图。图14中所示的计算机200包括：作为运算部件的中央处理器(Central Processing Unit，CPU)201、以及作为存储部件的主存储装置(主存储器)202及外部存储装置203。CPU 201将已被储存在外部存储装置203中的程序读入主存储装置202中来执行。作为主存储装置202，例如可使用RAM(Random Access Memory)。作为外部存储装置203，例如可使用磁盘装置或SSD(SolidState Drive)等。另外，计算机200包括：用于对显示装置(显示器)210进行显示输出的显示机构204、及由计算机200的用户进行输入操作的输入元件205。作为输入元件205，例如可使用键盘或鼠标等。另外，计算机200包括用于与网络进行连接的网络接口206。再者，图14中所示的计算机200的结构仅为一例，本实施方式中所使用的计算机并不限定于图14的结构例。例如，也可以设为包括快闪存储器等非易失性存储器或只读存储器(Read OnlyMemory，ROM)作为存储装置的结构。

当图1中所示的信息处理装置100通过图14中所示的计算机200来实现时，视频取得部10例如通过网络接口206来实现。存储部20例如通过主存储装置202或外部存储装置203来实现。视频分割部30、特征提取部40、场面识别部50、划分处理部60、声音辨识部70及文件制作部80例如通过CPU 201执行程序来实现。

以上，对本发明的实施方式进行了说明，但本发明的技术范围并不限定于所述实施方式。不脱离本发明的技术思想的范围的各种变更或结构的代替包含在本发明中。例如，文件制作部80也可以在作业顺序文件中，对与说明场面对应的文本进行加工来作为作业区块的标题。在说明场面中，发表如“首先进行○○的作业”、或“其次进行○○”般的表示即将进行的作业的定型的说词的情况多。因此，对文本进行如删除“首先”、“最初”、“其次”等表示作业区块的顺序的单词或末尾的谓语般的成形。由此，可将对应于说明场面的文本作为作业区块的标题而显示在输出画面120中。

另外，由特征提取部40所提取的特征并不限定于所述例子。例如，在所述例子中，作为将与作业者的举动相关的特征用作特征要素的情况，列举了将作业者的说话中的说话速度作为特征来提取的例子。除此以外，也可以将说话中的声音的大小等作为特征来提取。另外，也可以连声音辨识都进行，将如“这里”、“这个”般的指示语的出现频率作为特征来提取。在此情况下，例如当在部分视频中指示语的出现频率比阈值大时，可将所述部分视频的场面判断为作业场面。

另外，除作业视频以外，本实施方式可应用于包含说明场面与被说明场面的各种视频。在说明场面的说明对象为作业以外的对象的视频的情况下，也可以对应于具体的说明对象(体育运动的实际演练、乐器的演奏、现象、事态等)，选择性地或附加地使用对说明场面与被说明场面赋予特征的特征要素来进行场面的识别。

Claims

1.一种信息处理装置，其特征在于包括：

特征提取部件，对视频进行分析，并提取特征要素；

划分部件，根据识别结果来划分所述视频的部分。

2.根据权利要求1所述的信息处理装置，其特征在于，

3.根据权利要求2所述的信息处理装置，其特征在于，

4.根据权利要求2所述的信息处理装置，其特征在于，

5.根据权利要求1所述的信息处理装置，其特征在于，

6.根据权利要求5所述的信息处理装置，其特征在于，

作为所述视频，使用作业及所述作业的说明的视频，

7.根据权利要求1所述的信息处理装置，其特征在于，

8.根据权利要求1所述的信息处理装置，其特征在于还包括：

9.根据权利要求8所述的信息处理装置，其特征在于，

10.根据权利要求9所述的信息处理装置，其特征在于，

11.根据权利要求10所述的信息处理装置，其特征在于，

12.根据权利要求8或9所述的信息处理装置，其特征在于，

由所述画面生成部件所生成的输出画面能够识别地显示根据对应于所述视频的部分的声音所获得的所述文本之中，对应于所述说明场面的视频的文本与对应于所述被说明场面的文本。

13.根据权利要求8或9所述的信息处理装置，其特征在于，

由所述画面生成部件所生成的输出画面能够识别地显示根据对应于所述视频的部分的声音所获得的所述文本之中，由所述划分部件所划分的所述视频的部分。

14.一种存储介质，其特征在于，存储有使计算机作为如下的部件发挥功能的程序：

特征提取部件，对视频进行分析，并提取特征要素；

划分部件，根据识别结果来划分所述视频的部分。