CN110782899B

CN110782899B - 信息处理装置、存储介质及信息处理方法

Info

Publication number: CN110782899B
Application number: CN201910279586.2A
Authority: CN
Inventors: 铃木麻衣
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-07-26
Filing date: 2019-04-09
Publication date: 2024-06-04
Anticipated expiration: 2039-04-09
Also published as: JP2020017885A; CN110782899A; US11606629B2; JP7176272B2; US20200037049A1

Abstract

一种信息处理装置、存储介质及信息处理方法，所述信息处理装置具备：获取单元，分别获取语音数据及静态图像数据；显示控制单元，以将通过所述获取单元获取的静态图像数据与所述语音数据同步显示的方式进行控制；接收单元，接收赋予于通过所述显示控制单元显示的静态图像数据内的特定文字并显示的显示要素；及设定单元，将在所述语音数据中播放所述特定文字的播放期间作为通过所述接收单元接收的显示要素的静态图像数据内的显示期间来设定。

Description

信息处理装置、存储介质及信息处理方法

技术领域

本发明涉及一种信息处理装置、存储介质及信息处理方法。

背景技术

专利文献1中公开有动态图像元数据自动制作装置，其具备：动态图像输入单元，输入包含语音数据的动态图像数据；语音分离单元，从动态图像数据中提取语音数据及记录有该语音数据的动态图像数据上的时间信息；语音识别用辞典，预先登录有确定动态图像上的空间位置的语句及成为元数据的语句；语音识别单元，通过参考语音识别用辞典对语音数据进行识别，从该语音数据中分离并提取确定动态图像上的空间位置的语句及成为元数据的语句，并将它们分别转换为文字数据；及元数据存储单元，将动态图像上的空间位置、成为元数据的语句的文字数据及时间信息建立对应关联并作为元数据来存储。

专利文献2中公开有资料数据编辑系统，其具备：资料显示单元，显示基于资料数据的资料；指示部位信息获取单元，获取在显示于资料显示单元的资料中由用户的指示动作确定的指示部位的位置信息；关注度计算单元，关于通过指示部位信息获取单元获取了位置信息的指示部位，根据指示动作的动作方式计算关注度；及资料数据编辑单元，根据通过关注度计算单元计算出的关注度编辑与指示部位对应的资料数据，并生成能够实现反映了该编辑结果的显示的资料编辑数据。

专利文献1：日本特开2005-065191号公报

专利文献2：日本特开2009-294984号公报

发明内容

本发明的目的在于提供一种在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置、存储介质及信息处理方法。

[信息处理装置]

方案1所涉及的本发明为信息处理装置，其具备：

获取单元，分别获取语音数据及静态图像数据；

显示控制单元，以将通过所述获取单元获取的静态图像数据与所述语音数据同步显示的方式进行控制；

接收单元，接收赋予于通过所述显示控制单元显示的静态图像数据内的特定文字并显示的显示要素；及

设定单元，将在所述语音数据中播放所述特定文字的播放期间作为通过所述接收单元接收的显示要素的静态图像数据内的显示期间来设定。

方案2所涉及的本发明为方案1所述的信息处理装置，其还具备：

图像识别单元，对所述静态图像数据内的特定文字进行图像识别并进行文本化，

所述显示控制单元以显示通过所述图像识别单元文本化的特定文字的方式进行控制。

方案3所涉及的本发明为方案2所述的信息处理装置，其还具备：

修正单元，对通过所述图像识别单元文本化的特定文字进行修正。

方案4所涉及的本发明为方案2或3所述的信息处理装置，其还具备：

追加单元，作为所述特定文字，追加存在包含于所述语音数据内的可能性的读法候选。

方案5所涉及的本发明为方案4所述的信息处理装置，其还具备：

提示单元，提示通过所述追加单元追加的读法候选。

方案6所涉及的本发明为方案1至5中任一项所述的信息处理装置，其中，

所述特定文字为配置于通过所述接收单元接收的显示要素指示的静态图像数据内的预先设定的区域的字符串。

方案7所涉及的本发明为方案1所述的信息处理装置，其还具备：

语音识别单元，对所述语音数据进行语音识别并进行文本化。

方案8所涉及的本发明为方案7所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元文本化的字符串的方式进行控制。

方案9所涉及的本发明为方案8所述的信息处理装置，其还具备，

修正单元，对通过所述语音识别单元文本化的字符串进行修正。

方案10所涉及的本发明为方案7所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元文本化的字符串的列表的方式进行控制。

方案11所涉及的本发明为方案7所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元文本化的字符串的列表及各字符串的所述语音数据中的播放期间的方式进行控制。

方案12所涉及的本发明为方案7所述的信息处理装置，其中，

当在所述语音数据中包含多个所述特定文字时，所述显示控制单元以将与所述特定文字对应的字符串作为候选来显示的方式进行控制。

方案13所涉及的本发明为方案12所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元文本化的所述语音数据的文本全文，且将与所述特定文字对应的字符串作为候选，并且区别于其他字符串的显示来显示的方式进行控制。

方案14所涉及的本发明为案12所述的信息处理装置，其中，

所述显示控制单元以将与所述特定文字对应的字符串的候选与该字符串的前后文一同显示的方式进行控制方。

方案15所涉及的本发明为方案12所述的信息处理装置，其还具备，

播放单元，与该字符串的前后文一同播放与所述特定文字对应的字符串的候选。

方案16所涉及的本发明为方案7所述的信息处理装置，其中，

所述显示控制单元以通过所述语音识别单元对存在与所述特定文字对应的可能性的所述语音数据进行文本化并显示的方式进行控制。

[存储介质]

方案17所涉及的本发明为存储介质，其存储有使计算机执行如下步骤的程序：

获取步骤，分别获取语音数据及静态图像数据；

显示控制步骤，以将在所述获取步骤中获取的静态图像数据与所述语音数据同步显示的方式进行控制；

接收步骤，接收赋予于在所述显示控制步骤中显示的静态图像数据内的特定文字并显示的显示要素；及

设定步骤，将在所述语音数据中播放所述特定文字的播放期间作为在所述接收步骤中接收的显示要素的静态图像数据内的显示期间来设定。

[信息处理方法]

方案18所涉及的本发明为信息处理方法，其包括如下步骤：

获取步骤，分别获取语音数据及静态图像数据；

发明效果

根据本发明的第1方案，能够提供在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第2方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认图像识别结果的信息处理装置。

根据本发明的第3方案，能够提供在所显示的静态图像内设定显示要素之前，当图像识别结果出现错误时能够进行纠正的信息处理装置。

根据本发明的第4方案，能够提供即使在图像识别结果与语音识别结果的标记不同的情况下，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第5方案，能够提供即使在图像识别结果与语音识别结果的标记不同的情况下，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第6方案，能够提供在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第7方案，能够提供在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第8方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认语音识别结果的信息处理装置。

根据本发明的第9方案，能够提供在所显示的静态图像内设定显示要素之前，当语音识别结果出现错误时能够进行纠正的信息处理装置。

根据本发明的第10方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认语音识别结果的信息处理装置。

根据本发明的第11方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认语音识别结果的信息处理装置。

根据本发明的第12方案，能够提供即使在语音数据中包含多个欲赋予显示要素的字符串的情况下，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第13方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认语音识别结果的信息处理装置。

根据本发明的第14方案，能够提供即使在语音数据中包含多个欲赋予显示要素的字符串的情况下，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第15方案，能够提供即使在语音数据中包含多个欲赋予显示要素的字符串的情况下，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理装置。

根据本发明的第16方案，能够提供在所显示的静态图像内设定显示要素之前，能够确认语音识别结果的信息处理装置。

根据本发明的第17方案，能够提供存储有如下程序的存储介质：在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的程序。

根据本发明的第18方案，能够提供在与语音同步显示静态图像时，与分别指定显示开始时刻及显示结束时刻来进行设定的情况相比，能够轻松地设定赋予于所显示的静态图像内的显示要素的显示期间的信息处理方法。

附图说明

根据以下附图，对本发明的实施方式进行详细叙述。

图1是表示本发明的一实施方式的多媒体内容生成系统的结构的系统图；

图2是表示本发明的一实施方式中的编辑处理服务器10的硬件结构的框图；

图3是表示本发明的一实施方式中的编辑处理服务器10的功能结构的框图；

图4是表示本发明的一实施方式的编辑处理服务器10中的处理的概略的流程图；

图5是表示选择开始读入静态图像/语音的文件时的终端装置20的显示画面例的图；

图6是表示对在图5中选择的文件执行语音识别处理时的终端装置20的显示画面例的图；

图7是表示生成多媒体内容的制作工具画面的一例的图；

图8是对在制作工具画面中显示语音识别结果时的动作进行说明的图；

图9是表示显示语音识别结果的显示画面例的图；

图10是表示从语音识别结果中提取的每一关键词的播放期间的图；

图11是对在制作工具画面中在静态图像数据内赋予指针70时的动作进行说明的图；

图12是用于说明将指针70显示于静态图像数据内的“Assistant LanguageTeacher”附近时的动作的图；

图13是表示示出在图12中确定的字符串的图像识别结果的显示画面例的图；

图14是表示校正图像识别结果的读法时的显示画面例的图；

图15的(A)是表示语音识别结果的全文的一部分(文章)的图，图15的(B)是表示从语音识别结果中提取的关键词(单词)及各关键词的播放期间的图；

图16是表示与语音数据同步地对所显示的静态图像数据内的确定的字符串赋予指针70时的显示画面例的图；

图17是表示与语音数据同步地对所显示的静态图像数据内的确定的字符串赋予指针70时的预览画面的显示画面例的图；

图18的(A)表示语音识别结果的全文的一部分(文章)，是表示语音识别结果出现错误时的显示画面例的图；图18的(B)表示从语音识别结果中提取的关键词(单词)及各关键词的播放期间，是表示语音识别结果出现错误时的显示画面例的图；

图19是表示修正语音识别结果时的显示画面例的图。

符号说明

10-编辑处理服务器，11-CPU，12-存储器，13-存储装置，14-通信接口(IF)，15-用户接口(UI)装置，16-控制总线，20-终端装置，30-网络，31-数据通信部，32-控制部，33-多媒体数据存储部，41-用户操作接收部，42-语音识别部，43-图像识别部，44-设定部，45-显示控制部，46-确认部，70-指针(显示对象)。

具体实施方式

接着，参考附图对本发明的实施方式进行详细说明。

图1是表示本发明的一实施方式的多媒体内容生成系统的结构的系统图。

如图1所示，本发明的一实施方式的多媒体内容生成系统由通过网络30互相连接的编辑处理服务器10及个人计算机(以下，简称为电脑。)等终端装置20构成。

本实施方式的多媒体内容生成系统生成组合了动态图像、静态图像、语音及文字等各种内容的多媒体内容。根据本实施方式的多媒体内容生成系统，例如，录下使用演示资料的讲义或说明，并能够生成如与语音同步地在演示资料的欲强调的部位显示指针(箭头)、文字、记号、备注、下划线、阴影线及包围框等显示对象(显示要素)的多媒体内容。

编辑处理服务器10为安装有用于编辑这种各种内容而生成多媒体内容的编辑软件的信息处理装置。而且，终端装置20读入静态图像数据及语音数据，并使用在编辑处理服务器10上进行动作的编辑软件而生成多媒体内容。

另外，能够将这种编辑软件直接安装于电脑等终端装置20后使用，而不是安装于编辑处理服务器10。

接着，将本实施方式的图像形成系统中的编辑处理服务器10的硬件结构示于图2中。

如图2所示，编辑处理服务器10具有CPU11、存储器12，硬盘驱动器(HDD)等存储装置13、经由网络30在与终端装置20等外部装置等之间进行数据的发送及接收的通信接口(IF)14、包含触摸面板或液晶显示器以及键盘的用户接口(UI)装置15。这些构成要件经由控制总线16彼此连接。

CPU11根据存储于存储器12或存储装置13的控制程序执行规定的处理，以控制编辑处理服务器10的动作。另外，在本实施方式中，关于CPU11，以读出存储于存储器12或存储装置13内的控制程序并执行的部分来进行说明，但也能够将该程序存储于CD-ROM等存储介质后向CPU11提供。

图3是表示通过执行上述控制程序来实现的编辑处理服务器10的功能结构的框图。

如图3所示，本实施方式的编辑处理服务器10具备数据通信部31、控制部32及多媒体数据存储部33。

数据通信部31在与终端装置20之间进行经由了网络30的数据通信。并且，数据通信部31作为获取语音数据或演示资料等静态图像数据等的获取单元而发挥功能。

控制部32控制编辑处理服务器10的动作，且具备用户操作接收部41、语音识别部42、图像识别部43、设定部44、显示控制部45及确认部46。

多媒体数据存储部33存储有欲进行编辑处理的动态图像数据、静态图像数据、语音数据、语音识别处理结果即语音文本数据及图像识别结果即图像文本数据等各种内容数据。

用户操作接收部41接收静态图像数据内的用户指定的特定文字。即，用户操作接收部41接收在静态图像数据内赋予显示对象的赋予定时的设定指示。具体而言，例如接收对演示资料的用户确定的字符串赋予指针等的赋予定时的设定指示。

在此，特定文字为配置于静态图像数据内的用户欲强调的区域且欲赋予显示对象的区域的字符串。

语音识别部42对语音数据进行语音识别处理。即，对语音数据进行文本化并转换为语音文本数据。而且，语音识别部42从语音文本数据中提取字符串即关键词(单词)，并获取语音数据中的各关键词的播放开始时刻即播放结束时刻(播放期间)。

图像识别部43对静态图像数据内的通过用户的指定接收的特定文字进行图像识别处理。即，对特定文字的图像数据进行文本化并转换为图像文本数据。

显示控制部45进行终端装置20中所显示的画面的控制。

即，显示控制部45以将通过语音识别部42文本化的语音文本数据显示于终端装置20的显示部的方式进行控制。并且，显示控制部45以显示从通过语音识别部42文本化的语音文本数据中提取的关键词的列表的方式进行控制。并且，显示控制部45以显示从通过语音识别部42文本化的语音文本数据中提取的关键词的列表、语音数据中的各关键词的播放开始时刻及播放结束时刻(播放期间)的方式进行控制。

并且，显示控制部45以将通过图像识别部43文本化的特定文字的图像文本数据显示于终端装置20的显示部的方式进行控制。

设定部44从通过语音识别部42文本化的语音文本数据中提取与通过图像识别部43文本化的特定文字的图像文本数据吻合的字符串(关键词)，并将语音数据中播放了与特定文字对应的关键词的播放期间作为通过用户操作接收部41接收的显示对象的静态图像数据内的显示期间来设定。

即，设定部44使语音识别结果即语音文本数据与特定文字的图像识别结果即图像文本数据吻合，而将语音识别结果与图像识别结果建立关联，并将语音数据中的与特定文字对应的关键词的播放开始时刻及播放结束时刻作为显示对象的显示开始时刻及显示结束时刻来设定。

具体而言，例如设定部44进行如下设定，即，自语音的播放开始时刻过几分几秒后对演示资料的特定文字显示指针，自语音的播放开始时刻过几分几秒后不显示指针。

并且，当语音数据中包含多个通过用户操作接收部41接收的与特定文字对应的关键词时，显示控制部45以将各关键词的播放开始时刻及播放结束时刻作为候选来显示的方式进行控制。

并且，显示控制部45以显示通过语音识别部42文本化的语音文本数据的全文的方式进行控制。即，转换成语音文本数据的关键词与前后文一同显示。而且，显示控制部45以用框来包围与特定文字对应的关键词、打阴影线、用与其他字符串不同颜色来显示等与其他字符串改变显示并作为候选来显示的方式进行控制。

并且，显示控制部45以即使在语音数据中未检测到与特定文字对应的关键词的情况下也显示存在与特定文字对应的可能性的关键词的方式进行控制。并且，显示控制部45以用户能够追加作为特定文字存在包含于语音数据内的可能性的读法候选的方式进行控制。并且，显示控制部45以向用户提示作为特定文字存在包含于语音数据内的可能性的读法候选的方式进行控制。

确认部46在所显示的静态图像数据内设定显示对象之前，向用户(使用者)确认语音识别结果。并且，确认部46播放存在与特定文字对应的可能性的关键词出现前后的语音数据，并作为向用户确认的播放单元而发挥功能。

而且，当通过语音识别部42文本化的语音文本数据出现错误时，用户能够在终端装置20的显示画面上进行修正。并且，当通过图像识别部43文本化的图像文本数据出现错误时，能够在终端装置20的显示画面上进行修正。

而且，显示控制部45以使通过数据通信部31获取的静态图像数据与通过数据通信部获取的语音数据同步显示的方式进行控制。并且，显示控制部45以配合语音数据中的关键词(特定文字)的播放时刻对静态图像数据的特定文字显示显示对象的方式进行控制。

在此，在进行与语音数据同步地变更静态图像数据的显示页面的时刻的设定时显示的画面被称为预览画面，在进行与语音数据同步地对所显示的静态图像数据赋予显示对象的设定时显示的画面被称为制作工具画面。

在该预览画面中，成为如下方式，即，一边播放语音，一边显示欲进行切换显示的多个静态图像数据，并通过欲进行静态图像数据的切换的定时来选择被切换的静态图像数据，能够进行切换定时的设定指示。

并且，在制作工具画面中，成为如下方式，即，获取语音数据及静态图像数据，并通过用户确定静态图像数据内的欲赋予显示对象的特定文字，与语音数据同步地设定显示对象的显示位置及显示期间。

接着，参考附图对本实施方式的多媒体内容生成系统中的编辑处理服务器10的动作进行详细说明。

首先，参考图4的流程图对编辑处理服务器10中的动作的概略进行说明。

例如，若在终端装置20的显示部显示如图5所示那样的静态图像/语音读入画面，而选择存储有演讲会的录音数据等语音数据的文件并通过光标60选择“确定(OK)”，则编辑处理服务器10从终端装置20中获取语音数据(步骤S10)，并存储于多媒体数据存储部33。

而且，若在终端装置20的显示部显示如图6所示那样的语音识别处理的执行画面并选择“确定(OK)”，则编辑处理服务器10的语音识别部42对存储于多媒体数据存储部33的语音数据执行语音识别处理(步骤S11)，编辑处理服务器10获取通过语音识别处理文本化的语音文本数据。并且，语音识别部42从语音文本数据中提取语音文本数据中所包含的关键词(单词)，并获取语音数据中的各关键词的播放开始时刻及播放结束时刻。而且，在终端装置20的显示部显示如图7所示那样的制作工具画面。

而且，若在制作工具画面的工具栏62上右击光标60，则显示如图8所示那样的命令，若选择解说设定，则显示如图9所示那样的解说设定画面，并显示语音文本数据的全文。即，显示语音识别结果的全文(文章)。并且，通过显示模式的切换，显示图10所示那样的语音文本数据中所包含的各关键词的播放开始时刻、播放结束时刻及播放按钮。即，各关键词(单词)与播放期间及播放按钮一同显示。

如图10所示那样的各关键词的播放开始时刻及播放结束时刻使用图9所示的语音文本数据的全文来获取。即，使用语音文本数据的全文，各关键词自文章的开头提取若干字，例如假设一秒读1个文字，确定并获取该关键词的播放开始时刻及播放结束时刻。

并且，即便是在语音数据中多次发声的关键词，通过参考如图9所示那样的语音识别结果的全文，能够从文章的前后确定欲赋予指针的特定文字的播放开始时刻及播放结束时刻。并且，如图10所示，通过参考各关键词的播放开始时刻及播放结束时刻，能够确定欲赋予指针的特定文字的播放开始时刻及播放结束时刻。并且，通过按下各关键词的播放按钮，各关键词的前后(从关键词发声前至发声后)的语音数据得以播放。

并且，若在上述的静态图像/语音读入画面中选择存储有演讲会的演示资料等静态图像数据的文件，则编辑处理服务器10从终端装置20中提取静态图像数据(步骤S12)，并存储于多媒体数据存储部33。而且，通过在如图11所示那样的制作工具画面中点击页面切换按钮63，能够切换在制作工具画面中设定的静态图像数据。即，能够利用页面切换按钮63来切换赋予显示对象的一例即指针的静态图像数据。而且，若在制作工具画面中点击指针设定按钮64，则显示如图12所示那样的显示对象的一例即指针的设定画面。

而且，若在静态图像数据内的欲强调的描述的区域中，使用光标60对赋予指针的字符串(在图12中“Assistant Language Teacher”)进行区域指定，则用户操作接收部41将该字符串作为特定文字来接收(步骤S13)。于是，以如下方式进行控制，即，编辑处理服务器10的图像识别部43对该特定文字执行图像识别处理(步骤S14)，显示控制部45显示如图13所示那样的特定文字的图像识别结果。另外，当图像识别结果出现错误时，能够在图13所示那样的显示画面上进行修正。

而且，从语音文本数据中搜索并确定与作为图像识别结果而提取的特定文字吻合或对应的(建立关联的)关键词(步骤S15)。

在此，如本实施方式，作为图像识别结果而提取的图像文本数据中的字符串为英文，但作为语音识别结果而提取的语音文本数据中的字符串有片假名、平假名等图像识别结果与语音识别结果的标记不同的情况。

具体而言，当特定文字的图像识别结果为“Assistant Language Teacher”时，该图像识别结果与语音识别结果的“アシスタントラングエージティーチャー”的标记并不吻合。如此，当图像识别结果与语音识别结果不吻合或存在不吻合的可能性时，通过在如图13所示那样的图像识别结果画面中选择阅读校正按钮65，并在如图14所示那样的显示画面中校正登录图像识别结果的读法，能够与语音识别结果建立对应关联(建立关联)。也能够登录多个该读法的校正登录。另外，也可以设为能够互换片假名与平假名等。

而且，作为图像识别结果，登录与语音识别结果吻合的“アシスタントラングエージティーチャー”，由此成为进行阅读校正而登录的图像识别结果与语音识别结果吻合或建立对应关联(建立关联)。另外，可以设为如下方式，即，当未检测到与特定文字对应的关键词时，进行促使图像识别结果的阅读校正的显示，例如也可以设为如下方式，即，显示图14所示那样的读法校正登录画面。

而且，将与特定文字吻合或对应(建立关联)的语音识别结果的关键词的播放开始时刻及播放结束时刻作为指针的显示开始时刻及显示结束时刻(显示期间)来设定(步骤S16)，显示控制部45以将特定文字的文章开头的中央部作为箭头的终点来配置指针的方式进行控制。另外，可以设为如下方式，即，指针的显示开始时刻及显示结束时刻能够在显示画面上进行修正。

而且，当在其他静态图像中有欲赋予指针等显示对象的部位时(步骤S17中“是”)，返回步骤S13的处理，当在其他静态图像中没有欲赋予显示对象的部位时(步骤S17中”否”)，结束处理。

图15的(A)是表示语音识别结果的全文的一部分(文章)的图，图15的(B)是表示从语音识别结果中提取的关键词(单词)和各关键词的播放开始时刻及播放结束时刻的图。

如图15的(A)及图15的(B)所示，与特定文字的图像识别结果“AssistantLanguage Teacher”对应地(建立关联地)确定语音文本数据中的字符串(关键词)即“アシスタントラングエージティーチャー”，显示控制部45以对该确定的关键词打阴影线而显示成与其他字符串不同的方式进行控制。并且，显示控制部45以显示语音数据中的各关键词的播放开始时刻及播放结束时刻的方式进行控制。

具体而言，特定文字的图像文本数据即“Assistant Language Teacher”与语音文本数据的“アシスタントラングエージティーチャー”对应，因此设定部44将语音数据的“アシスタントラングエージティーチャー”的播放开始时刻即“00:04:29”设定为指针的显示开始时刻，将播放结束时刻即“00:04:34”设定为指针的显示结束时刻。

而且，如图16所示，与语音数据同步地对静态图像数据内的特定文字“AssistantLanguage Teacher”的文章开头的中央部赋予指针70的终点并显示，如图17所示，显示追加于预览画面的命令设定区域71的命令。即，在演示资料的该页面上“播放开始时刻0:00:04.29”作为显示红色指针的命令而被追加。而且，“播放结束时刻0:00:04.34”作为不显示红色指针的命令而被追加。而且，在追加该命令之后，所显示的画面成为按照命令而预览画面被切换且继续进行语音的播放。

接着，对语音识别结果中存在错误时的编辑处理服务器10的动作进行说明。

图18的(A)及图18的(B)是表示语音识别结果中存在错误时的显示画面的图。在图18的(A)所示的语音识别结果的显示画面例中，显示有全文，且以与其他字符串区别的方式显示有存在错误的可能性的字符串。并且，在图18的(B)所示的语音识别结果的显示画面例中，显示有各关键词的播放开始时刻及播放结束时刻，且以与其他关键词区别的方式显示有存在错误的可能性的关键词。

具体而言，在图18的(A)及图18的(B)中，对存在被错误地识别的可能性的字符串(关键词)实施了阴影线，而显示成用户能够确认语音识别结果。即，设为如下方式，即，在用户确认了图像识别结果及语音识别结果的基础上，能够与语音同步地对所显示的静态图像数据内的特定文字显示指针。

另外，当语音识别结果出现错误时，能够在如图18的(A)及图18的(B)所示那样的显示画面上进行修正。而且，若在一显示画面上进行修正，则也在另一显示画面中联动地被修正。

具体而言，例如，若在显示图18的(A)所示的语音识别结果的全文的显示画面上将“ELT”修正为“ALT”，则在表示图18的(B)所示的关键词的播放开始时刻及播放结束时刻的显示画面中也联动地从“ELT”修正为“ALT”。

而且，如图19所示，计算在图18的(A)所示的文章侧被修正的字符串及图18的(B)所示的关键词的近似度，提取并显示如图19所示不吻合但近似度较高的字符串而对用户进行确认。即，用户参考该显示的单词能够对语音识别结果进行修正。

另外，在上述实施方式中，对将静态图像数据内的特定文字使用光标60来区域指定并接收的结构进行了说明，但本发明并不限定于此，可以设为如下方式，即，在静态图像数据内的赋予了指针的部位配置光标60，并对配置有光标60的部位附近且光标60的终点的预先设定的区域进行图像识别处理。此时，也可以设为如下方式，即，将用光标60指定的区域的图像识别结果作为候选来显示。并且，还可以设为如下方式，即，设置对图像识别结果输入补充信息的输入单元，并使用通过输入单元输入的补充信息执行图像识别处理。

并且，在本实施方式中，与语音同步地对所显示的静态图像数据内的特定文字的文章开头赋予指针的结构进行了说明，但本发明并不限定于此，能够适用于与语音同步地对所显示的静态图像数据内的特定文字的中央等预先设定的区域赋予指针的结构。

并且，在本实施方式中，对与语音同步地对所显示的静态图像数据内的特定文字赋予指针的结构进行了说明，但本发明并不限定于此，能够适用于与语音同步地对所显示的静态图像数据内的特定文字追加包围框，或对特定文字施加阴影线，或对特定文字添加下划线，或加粗特定文字的字体或改变颜色等以强调特定文字的方式显示的结构。

并且，在本实施方式中，对通过对语音数据进行语音识别处理来生成语音文本数据的结构进行了说明，但本发明并不限定于此，也能够适用于通过对动态图像数据进行语音识别处理来生产语音文本数据的结构。即，也能够适用于与动态图像数据同步地对所显示的静态图像数据内赋予显示对象的结构。

上述本发明的实施方式是以例示及说明为目的而提供的。另外，本发明的实施方式并不全面详尽地包括本发明，并且并不将本发明限定于所公开的方式。很显然，对本发明所属的领域中的技术人员而言，各种变形及变更是自知之明的。本实施方式是为了最容易理解地说明本发明的原理及其应用而选择并说明的。由此，本技术领域中的其他技术人员能够通过对假定为各种实施方式的特定使用最优化的各种变形例来理解本发明。本发明的范围由以上的权利要求书及其等同物来定义。

Claims

1.一种信息处理装置，其具备：

获取单元，分别获取语音数据及静态图像数据；

语音识别单元，对所述语音数据进行语音识别并转换为语音文本数据；

接收单元，接收赋予于通过所述显示控制单元显示的静态图像数据内的特定文字并显示的显示要素；

图像识别单元，对所述静态图像数据内的特定文字进行图像识别并转换为图像文本数据；及

设定单元，将在所述语音文本数据与所述特定文字对应的所述图像文本数据吻合的播放期间作为通过所述接收单元接收的显示要素的静态图像数据内的显示期间，

其中所述显示控制单元于所述显示期间控制所述显示要素显示于所述静态图像数据内的所述特定文字上。

2.根据权利要求1所述的信息处理装置，其还具备：

修正单元，对通过所述图像识别单元所转换的所述图像文本数据进行修正。

3.根据权利要求2所述的信息处理装置，其还具备：

4.根据权利要求3所述的信息处理装置，其还具备：

提示单元，提示通过所述追加单元追加的读法候选。

5.根据权利要求1至4中任一项所述的信息处理装置，其中，

6.根据权利要求1所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元所转换的所述语音文本数据的字符串的方式进行控制。

7.根据权利要求6所述的信息处理装置，其还具备：

修正单元，对所述字符串进行修正。

8.根据权利要求1所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元所转换的所述语音文本数据的字符串的列表的方式进行控制。

9.根据权利要求1所述的信息处理装置，其中，

所述显示控制单元以显示通过所述语音识别单元所转换的所述语音文本数据的字符串的列表及各字符串的所述语音数据中的播放期间的方式进行控制。

10.根据权利要求1所述的信息处理装置，其中，

11.根据权利要求10所述的信息处理装置，其中，

所述显示控制单元以显示所述语音文本数据的文本全文，且将与所述特定文字对应的所述字符串作为候选，并且区别于其他字符串的显示来显示的方式进行控制。

12.根据权利要求10所述的信息处理装置，其中，

所述显示控制单元以将与所述特定文字对应的所述字符串的候选与所述字符串的前后文一同显示的方式进行控制。

13.根据权利要求10所述的信息处理装置，其还具备：

播放单元，与所述字符串的前后文一同播放与所述特定文字对应的所述字符串的候选。

14.根据权利要求1所述的信息处理装置，其中，

15.一种存储介质，其存储有使计算机执行如下步骤的程序：

获取步骤，分别获取语音数据及静态图像数据；

语音识别步骤，对所述语音数据进行语音识别并转换为语音文本数据；

接收步骤，接收赋予于在所述显示控制步骤中显示的静态图像数据内的特定文字并显示的显示要素；

图像识别步骤，对所述静态图像数据内的特定文字进行图像识别并转换为图像文本数据；及

设定步骤，将在所述语音文本数据与所述特定文字对应的所述图像文本数据吻合的播放期间作为在所述接收步骤中接收的显示要素的静态图像数据内的显示期间，

其中所述显示控制步骤于所述显示期间控制所述显示要素显示于所述静态图像数据内的所述特定文字上。

16.一种信息处理方法，其包括如下步骤：

获取步骤，分别获取语音数据及静态图像数据；