CN103793449A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN103793449A
CN103793449A CN201310444559.9A CN201310444559A CN103793449A CN 103793449 A CN103793449 A CN 103793449A CN 201310444559 A CN201310444559 A CN 201310444559A CN 103793449 A CN103793449 A CN 103793449A
Authority
CN
China
Prior art keywords
keyword
program
scene
scene keyword
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310444559.9A
Other languages
English (en)
Other versions
CN103793449B (zh
Inventor
上田健介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2013103973A external-priority patent/JP6029530B2/ja
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN103793449A publication Critical patent/CN103793449A/zh
Application granted granted Critical
Publication of CN103793449B publication Critical patent/CN103793449B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供信息处理装置和信息处理方法,对于与节目内容关联的信息,能够得到用户所期待的检索结果。信息处理装置(100)具有:完整场景关键词储存部(112),其储存作为适于检索的关键词的完整场景关键词;场景关键词选择部(114),其从由场景关键词提取部(109)提取出的场景关键词中,接受作为在检索中使用的场景关键词的检索场景关键词的选择;场景关键词补充部(115),其在将该检索场景关键词作为部分字符串的完整场景关键词储存在完整场景关键词储存部(112)中的情况下,将该完整场景关键词确定为检索用关键词;以及节目关联信息检索部(116),其利用由场景关键词补充部(115)确定的检索用关键词,检索节目的关联信息。

Description

信息处理装置和信息处理方法
技术领域
本发明涉及信息处理装置和信息处理方法。
背景技术
对节目进行视听的用户有时想要通过互联网来调查与节目内容关联的信息。例如,视听用户有时想要知道节目表演者的其他演出作品或者在节目中介绍的商店的详细信息等。在这样情况下,视听用户大多通过起动个人计算机或者便携终端的web浏览器,向检索引擎输入表演者名字或者店名等,从而从互联网取得关联信息。此时,视听用户需要存储或者记录表演者名字或者店名等,并输入到检索引擎。
另外,有如下技术:受到来自用户的触发,对于根据从接收到触发起至规定期间之前提供的各种信息和字幕信息等得到的文本信息,利用各种数据库和词库文件来进行词素分析、语法分析以及语义分析,从而提取出关键词(key word),从互联网检索而取得与该关键词关联的主页、位置信息以及电话号码等关联信息,由此提供用户关注的关键词的关联信息(例如,参照专利文献1)。
另外,有如下技术:将通过对新闻广播节目的字幕文字信息进行词素分析而提取出的名词和未知语作为时事性和可靠性高的时事关键词存储,在视听广播内容的字幕文字信息包括时事关键词时,将其作为关键词来提示,在视听者选择了特定的关键词时,显示将该关键词作为检索字(key)的检索结果信息,由此补充视听者对于视听广播内容的理解(例如,参照专利文献2)。
专利文献1:日本特开2011-180729号公报
专利文献2:日本特开2010-87658号公报
然而,在从语音信息和字幕信息得到的文本信息中未必一定包括适合关联信息检索的关键词。例如,如果是人名,则一般在节目中,比起读出姓名,仅读出姓氏的情况更多。在这种情况下,根据语音信息和字幕信息提取出的仅为姓氏,即使将姓氏作为关键词来检索信息,相应的候选也较多,用户有可能无法获取必要的信息。另外,例如在店名的情况下,存在多个相同名字的商店的可能性也非常大,在该情况下也不一定能够得到用户所期待的信息。在现有文献中,没有考虑这样的问题,未必能得到用户所期待的检索结果。
发明内容
因此,本发明的目的在于,对于与节目内容关联的信息,能够得到用户所期待的检索结果。
本发明的一个方式的信息处理装置的特征在于,具有:视听信息取得部,其取得节目的视听信息,该视听信息包括视频信息、音频信息以及字幕信息;场景文本信息取得部,其从由所述视听信息取得部取得的视听信息中,取得作为与正在视听的节目的场景有关的文本信息的场景文本信息;场景关键词提取部,其从所述场景文本信息中提取场景关键词;完整场景关键词判定部,其判定由所述场景关键词提取部提取出的场景关键词是否为适于检索的关键词;完整场景关键词储存部,其将由所述完整场景关键词判定部判定为是适于检索的关键词的场景关键词作为完整场景关键词进行储存;场景关键词选择部,其接受从由所述场景关键词提取部提取出的场景关键词中选出作为在检索中使用的场景关键词的检索场景关键词的选择;场景关键词补充部,其在所述检索场景关键词作为部分字符串的所述完整场景关键词被储存在所述完整场景关键词储存部中的情况下,将把所述检索场景关键词作为部分字符串的所述完整场景关键词确定为检索用关键词;以及节目关联信息检索部,其利用由所述场景关键词补充部确定的检索用关键词,检索所述节目的关联信息。
另外,本发明的一方式的信息处理方法的特征在于,具有:视听信息取得步骤,取得节目的视听信息,该视听信息包括视频信息、音频信息以及字幕信息;场景文本信息取得步骤,从在所述视听信息取得步骤中取得的视听信息中,取得作为与正在视听的节目的场景有关的文本信息的场景文本信息;场景关键词提取步骤,从所述场景文本信息中提取场景关键词;完整场景关键词判定步骤,判定在所述场景关键词提取步骤中提取出的场景关键词是否为适于检索的关键词;完整场景关键词储存步骤,将在所述完整场景关键词判定步骤中判定为是适于检索的关键词的场景关键词作为完整场景关键词进行储存;场景关键词选择步骤,接受从在所述场景关键词提取步骤中提取出的场景关键词中选出作为在检索中使用的场景关键词的检索场景关键词的选择;场景关键词补充步骤,在所述完整场景关键词储存步骤中储存了将所述检索场景关键词作为部分字符串的所述完整场景关键词的情况下,将把所述检索场景关键词作为部分字符串的所述完整场景关键词确定为检索用关键词;以及节目关联信息检索步骤,利用在所述场景关键词补充步骤中确定的检索用关键词,检索所述节目的关联信息。
根据本发明的一个方式,对于与节目内容关联的信息,能够得到用户所期待的检索结果。
附图说明
图1是示意性示出实施方式1的信息处理装置的结构的框图。
图2是示出实施方式1中的节目切换时的处理的流程图。
图3是示出实施方式1中的节目关键词获得处理的流程图。
图4的(A)~(C)是示出根据节目信息获得节目关键词的处理的一例的示意图。
图5是示出实施方式1中的场景关键词获得处理的流程图。
图6是用于说明在实施方式1中从字幕信息提取完整场景关键词的处理的示意图。
图7是示出实施方式1中的关联信息获得处理的流程图。
图8是示意性示出实施方式2的信息处理装置的结构的框图。
图9是示出实施方式2中的节目切换时的处理的流程图。
图10是示意性示出实施方式3的信息处理装置的结构的框图。
图11是示出实施方式3中的关联信息获得处理的流程图。
图12是示意性示出实施方式4的信息处理装置的结构的框图。
图13是示出在实施方式4中储存在完整场景关键词储存部中的完整场景关键词信息的一例的示意图。
标号说明:
100、200、300、400:信息处理装置;101:接收处理部;102节目切换检测部;103:动作指示部;104:节目信息取得部;105:节目关键词提取部;106、206:节目关键词更新部;107:节目关键词储存部;108:场景文本信息取得部;109:场景关键词提取部;110:完整场景关键词判定部;111、211、411:完整场景关键词更新部;112:完整场景关键词储存部;113:场景关键词显示部;114:场景关键词选择部;115、415:场景关键词补充部;116:节目关联信息检索部;117:通信部;118:节目关联信息显示部;219:节目专属节目关键词储存部;220:节目专属完整场景关键词储存部;321:类型信息取得部;322:全体关键词取得部;323:全体关键词追加部;424:版块切换检测部;425:版块号码存储部。
具体实施方式
下面,对实施方式的信息处理装置和信息处理方法进行说明。
实施方式1
图1是示意性示出实施方式1的信息处理装置100的结构的框图。信息处理装置100具备:接收处理部101、节目切换检测部102、动作指示部103、节目信息取得部104、节目关键词提取部105、节目关键词更新部106、节目关键词储存部107、场景文本信息取得部108、场景关键词提取部109、完整场景关键词判定部110、完整场景关键词更新部111以及完整场景关键词储存部112。而且,信息处理装置100具有:作为显示部的场景关键词显示部113、作为输入部的场景关键词选择部114、场景关键词补充部115、节目关联信息检索部116、通信部117以及节目关联信息显示部118。
接收处理部101是从未图示的天线等取得接收信号,对该接收信号进行解调而生成广播信号,从该广播信号中取得包含视频信息和音频信息、而且还包含字幕信息和节目信息的视听信息的视听信息取得部。虽然未图示,但是例如接收处理部101具有调谐部、多路信号分离(demultiplexer)部以及解码部。
节目切换检测部102对接收处理部101进行监视,检测节目的切换。节目切换检测部102当检测到节目的切换时,向动作指示部103通知发生了节目的切换。
动作指示部103接收来自节目切换检测部102的通知,而指示取得节目信息和场景文本信息的开始及停止、节目关键词和完整场景关键词的更新。
节目信息取得部104从接收处理部101所取得的视听信息中取得节目信息。节目信息表示有关节目内容的信息,包括节目名、广播时间、类型(genre)以及节目概要等。作为节目信息的代表性信息,例如有数字广播的EPG(Electronic Program Guide,电子节目指南)数据。
节目关键词提取部105从由节目信息取得部104取得的节目信息中提取出重要语句及其他节目关键词。本实施方式中的重要语是多个名词连续的复合名词以及固有名词。因此,节目关键词是根据节目信息能够得到的关键词,主要指人物名、地名以及节目名等。
节目关键词更新部106将从由节目关键词提取部105提取出的节目关键词中去除成为其他节目关键词的部分字符串的剩余关键词存储到节目关键词储存部107,从而更新节目关键词。
节目关键词储存部107对由节目关键词更新部106选择的节目关键词进行储存(存储)。
场景文本信息取得部108从接收处理部101所取得的视听信息中取得作为与正在视听的节目的场景有关的文本信息的场景文本信息。例如,场景文本信息是从包含在视听中的视频信息中的反射式字幕(telop:subtitle)等文字信息、视听中的音频信息、与视听中的视频相关联的字幕信息等取得。场景文本信息包含有版块(segment)名以及表演者的台词等。
场景关键词提取部109从由场景文本信息取得部108取得的场景文本信息中提取作为重要语句的场景关键词。
完整场景关键词判定部110判定由场景关键词提取部109提取出的场景关键词是否为能够成为其他场景关键词的补充候选的完整场景关键词。完整场景关键词表示在场景关键词中的适合检索的关键词。例如,完整场景关键词优选为未被省略的关键词等,或者能够唯一确定该语句所表示的内容的场景关键词。具体地讲,“山田太郎”这一名字和“东京都中央区”这一地名在场景文本信息中大多以省略成“山田”和“中央区”等的形式表现。在这种情况下,“山田太郎”和“东京都中央区”这样的未被省略的语句成为完整场景关键词。
完整场景关键词更新部111将由完整场景关键词判定部110判定出的完整场景关键词存储到完整场景关键词储存部112中,由此更新完整场景关键词。
完整场景关键词储存部112储存(存储)完整场景关键词。
场景关键词显示部113显示由场景关键词提取部109提取出的场景关键词。
场景关键词选择部114接受视听用户从显示在场景关键词显示部113的场景关键词中选出作为在检索中使用的场景关键词的检索场景关键词的选择。
在场景关键词选择部114中选择出的检索场景关键词不是适合执行检索的关键词的情况下,场景关键词补充部115使用存储于节目关键词储存部107中的节目关键词或者存储于完整场景关键词储存部112中的完整场景关键词,对在场景关键词选择部114中选择出的检索场景关键词进行补充。
节目关联信息检索部116将在场景关键词选择部114中选择出的检索场景关键词或者在场景关键词补充部115中补充后的场景关键词用作检索用关键词,通过通信部117,检索节目关联信息。
通信部117是用于与网络连接的部分,例如,与互联网之间进行信息的收发。
节目关联信息显示部118显示通过节目关联信息检索部116检索到的结果。
如上所述,由于信息处理装置100使用节目关键词和完整场景关键词来补充由视听用户所选择的场景关键词,因此即使在所选择的场景关键词是不足以获得所希望的检索结果的语句的情况下,视听用户也能够得到所希望的检索结果。
下面,对本实施方式的具体的处理流程进行说明。另外,以下,对用户使用信息处理装置100视听数字广播的情况进行说明。
图2是示出实施方式1中的节目切换时的处理的流程图。
首先,节目切换检测部102对接收处理部101进行监视,例如,在频道被切换的情况下,检测出所视听的节目被切换的情况(S10)。
当节目被切换时,不再需要与切换前的视听节目有关的节目关键词和完整场景关键词。因此,当节目切换检测部140检测到节目切换时,节目关键词更新部106进行节目关键词储存部107的初始化,例如,消除存储在节目关键词储存部107中的节目关键词(S11)。另外,完整场景关键词更新部111进行完整场景关键词储存部112的初始化,例如,消除存储在完整场景关键词储存部112中的完整场景关键词(S12)。
接着,信息处理装置100进行节目关键词获得处理和场景关键词获得处理(S13、S14)。关于节目关键词获得处理,使用图3进行详细说明,关于场景关键词获得处理,使用图5进行详细说明。
图3是示出实施方式1的节目关键词获得处理的流程图。
首先,节目信息取得部104从接收处理部101取得当前正在选台的节目的节目信息(S20)。节目信息能够从广播波的EPG数据中取得。在EPG数据中包含节目标题、类型、广播日期和时间、节目概要以及表演者名字等。
接着,节目关键词提取部105从所取得的节目信息中提取出节目关键词(S21)。在本实施方式中,作为节目关键词,使用节目标题、表演者名字、从节目概要中提取出的重要语句。此处,如果节目标题等包含外文,则优选去除这样的外文。
作为从节目概要等文章中提取重要语句的方法的一例,可举出利用词素分析的方法。词素分析是将用自然语言书写的文章按词类单位进行分割,对各个词类的种类进行判别的手法。通过利用词素分析的结果,能够从自然语言中提取出固有名词等并将其视为重要语句。
在本实施方式中,为了从节目概要中提取出重要语句,节目关键词提取部105进行词素分析,将名词连续的复合名词以及固有名词视为重要语句。
接着,节目关键词更新部106将节目关键词提取部105提取出的节目关键词中去除了成为其他节目关键词的部分字符串的关键词而得到的剩余关键词登记到节目关键词储存部107(S22~S29)。此时,节目关键词更新部106从登记对象中省略重复的语句和成为其他语句的部分字符串的语句。
首先,节目关键词更新部106对由节目关键词提取部105提取出的各个节目关键词从“1”开始依次分配由整数构成的索引I。并且,节目关键词更新部106从“I=1”的节目关键词开始依次确定相应语句(S23)。
接着,节目关键词更新部106确认与索引I对应的相应语句成为部分字符串的节目关键词是否存储于节目关键词储存部107(S24)。在存储有这样的节目关键词的情况下(S24:是),处理进入步骤S28。另外,在没有存储这样的节目关键词的情况下(S24:否),处理进入步骤S25。
在步骤S25中,节目关键词更新部106确认作为与索引I对应的相应语句的部分字符串的节目关键词是否存储于节目关键词储存部107。在存储有这样的节目关键词的情况下(S25:是),处理进入步骤S26。另一方面,在没有存储这样的节目关键词的情况下(S25:否),处理进入步骤S27。
在步骤S26中,节目关键词更新部106从节目关键词储存部107删除作为与索引I对应的相应语句的部分字符串的节目关键词。
接着,节目关键词更新部106将与索引I对应的相应语句作为节目关键词存储到节目关键词储存部107中(S27)。
接着,节目关键词更新部106对索引I加“1”(S28)。并且,节目关键词更新部106反复进行步骤S23~S28的处理,直到索引I大于由节目关键词提取部105提取出的节目关键词数(S29)。
图4的(A)~(C)是示出从节目信息获得节目关键词的处理的一例的示意图。
例如,在节目信息取得部104从节目信息中取得了图4的(A)所示的节目内容的情况下,节目关键词提取部105提取出图4的(B)所示的节目关键词。
如图4的(B)所示,节目关键词提取部105从图4的(A)所示的那样的节目信息中,提取出作为节目标题的“信步旅行纪”以及作为表演者名字的“山田太郎”和“铃木一郎”作为节目关键词。另外,节目关键词提取部105从节目概要中,提取作为重要语句(在此为固有名词)的“京都”、“山田太郎”、“约翰(John)·史密斯(Smith)”、“约翰”作为节目关键词。
接着,节目关键词更新部106按照从上到下的顺序依次处理图4的(B)所示的节目关键词,并进行节目关键词的登记。例如,节目关键词更新部106在图3所示的步骤S24中对节目关键词“约翰”进行处理时,由于“约翰·史密斯”已经作为节目关键词进行了登记,因此对作为其部分字符串的“约翰”不进行登记。另外,节目关键词更新部106在图3所示的步骤S25中,在处理节目关键词“山田太郎”时,检测出“山田”已经作为节目关键词进行了登记。在这种情况下,由于“山田”是“山田太郎”的部分字符串,因此节目关键词更新部106从节目关键词中删除“山田”(图3的步骤S26),并将“山田太郎”作为节目关键词进行登记(图3的步骤S27)。
如上所述,节目关键词更新部106从图4的(B)所示的节目关键词中选择图4的(C)所示的节目关键词,并将其存储到节目关键词储存部107。
图5是示出实施方式1中的场景关键词获得处理的流程图。在图5中,对作为场景文本信息取得了字幕信息的情况下的处理进行说明。
首先,场景文本信息取得部108从接收处理部101取得字幕信息作为场景文本信息(S30)。此处,场景文本信息取得部108每隔一定时间针对在该一定时间内取得的字幕信息,进行以下的处理。
场景关键词提取部109从由场景文本信息取得部108取得的场景文本信息中提取出作为重要语句的场景关键词(S31)。此处,作为提取场景关键词的方法的一例,与节目关键词提取部105同样地,可举出进行词素分析而提取复合名词和固有名词的方法。另外,虽然是复合名词,但如“山田选手”及“佐藤市长”等这样人名后附带的词语会妨碍补充,因此优选去除。就是说,在这种情况下,如果提取出“山田”及“佐藤”这样的场景关键词,则能够补充为将其作为部分字符串的姓名,因此提高了能够进行视听用户所希望的补充的可能性。
信息处理装置100基于由场景关键词提取部109提取出的场景关键词进行关联信息获得处理(S32)。关于关联信息获得处理,使用图7进行详细说明。
另外,完整场景关键词判定部110从由场景关键词提取部109提取出的场景关键词中选择完整场景关键词进行登记(S33~S41)。此时,完整场景关键词判定部110从登记对象中省略掉重复的语句和成为其他语句的部分字符串的语句。
首先,完整场景关键词判定部110对由场景关键词提取部109提取出的场景关键词的各个关键词从“1”开始依次分配由整数构成的索引J。并且,完整场景关键词判定部110从“J=1”的场景关键词开始依次确定相应语句(S34)。
接着,完整场景关键词判定部110判定与索引J对应的相应语句是否为完整场景关键词(S35)。此处,如上所述完整场景关键词是在场景关键词的补充中使用的语句,因此作为完整场景关键词,可列举出表演者的姓名和缩写的正式名称等。在本实施方式中,完整场景关键词判定部110将两个以上的名词合成得到的复合名词或者具有一定长度以上的字符串长度的固有名词判定为完整场景关键词。场景关键词是复合名词或者是固有名词的判定可根据场景关键词提取部109中的词素分析的结果来进行。在与索引J对应的相应语句是完整场景关键词的情况下(S35:是),处理进入步骤S36,在与索引J对应的相应语句不是完整场景关键词的情况下(S35:否),处理进入步骤S40。
在步骤S36中,完整场景关键词更新部111使用被判定为完整场景关键词的、与索引J对应的相应语句,进行完整场景关键词储存部112的更新(步骤S36~S39)。
完整场景关键词更新部111确认与索引J对应的相应语句成为部分字符串的完整场景关键词是否存储于完整场景关键词储存部112中(S36)。在存储有这样的完整场景关键词的情况下(S36:是),处理进入步骤S40。另一方面,在未存储有这样的完整场景关键词的情况下(S36:否),处理进入步骤S37。
在步骤S37中,完整场景关键词更新部111确认作为与索引J对应的相应语句的部分字符串的完整场景关键词是否存储于完整场景关键词储存部112中。在存储有这样的完整场景关键词的情况下(S37:是),处理进入步骤S38。另一方面,在未存储有这样的完整场景关键词的情况下(S37:否),处理进入步骤S39。
在步骤S38中,完整场景关键词更新部111从完整场景关键词储存部112中删除作为与索引J对应的相应语句的部分字符串的完整场景关键词。
接着,完整场景关键词更新部111将与索引J对应的相应语句作为完整场景关键词存储于完整场景关键词储存部112中(S39)。
接着,完整场景关键词更新部111对索引J加“1”(S40)。并且,完整场景关键词更新部111反复进行步骤S34~S40的处理,直到索引J大于场景关键词数(S41)。
图6是用于说明在实施方式1中从字幕信息中提取完整场景关键词的处理的示意图。
针对在图6的A行所示的字幕信息提取出作为固有名词的“山田”、“加藤花子”以及“抹茶亭”这样的场景关键词。其中,判断为作为具有一定长度以上的字符串长度的固有名词,“加藤花子”是适当的完整场景关键词(图5的步骤S35),从而将其作为完整场景关键词进行存储(图5的步骤S39)。
接着,针对在图6的B行所示的字幕信息提取出作为固有名词的“约翰”和“京都鹰(Condors,舞团名)”这样的场景关键词。其中,判断为作为具有一定长度以上的字符串长度的固有名词,“京都鹰”是适合的完整场景关键词(图5的步骤S35),将其作为完整场景关键词进行存储(图5的步骤S39)。
接着,针对在图6的C行中所示的字幕信息提取出作为固有名词的“山田”和“鹰(Condors,舞团名)”这样的场景关键词。其中,判断为作为具有一定长度以上的字符串长度的固有名词,“鹰”是适合的完整场景关键词(图5的步骤S35),但是由于完整场景关键词“京都鹰”已经被登记(图5的步骤S36:是),因此“鹰”不作为完整场景关键词进行存储。
图7是示出实施方式1中的关联信息获得处理的流程图。
首先,场景关键词显示部113将在图5的步骤S31中由场景关键词提取部109提取出的场景关键词以预定的形式进行显示。作为显示方法的一例,可列举出将过去一定时间内提取出的场景关键词作为按钮与视频重叠显示的方法。并且,场景关键词选择部114从视听用户接受从显示的场景关键词中选出作为要检索的场景关键词的检索场景关键词的选择(S50)。作为选择方法的一例,可列举出通过遥控器的上下左右按钮移动光标,选择写有场景关键词的按钮的方法。此处,以下将由视听用户选择的场景关键词作为选择语句。
接着,场景关键词补充部115进行选择语句的补充处理(步骤S51~S56)。
首先,场景关键词补充部115向完整场景关键词判定部110询问选择语句是否为适合检索的关键词,换言之,询问选择语句是否为完整场景关键词(S51)。完整场景关键词判定部110将两个以上的名词合成得到的复合名词或者具有一定长度以上的字符串长度的固有名词判定为完整场景关键词。如果选择语句是完整场景关键词,则无需进行补充,因此处理进入步骤S56。另一方面,在选择语句不是完整场景关键词的情况下(S51:否),处理进入步骤S52。
在步骤S52中,场景关键词补充部115参照节目关键词储存部107,确认是否存在将选择语句作为部分字符串的节目关键词。当存在这样的节目关键词的情况下(S52:是),处理进入步骤S53,当不存在这样的节目关键词的情况下(S52:否),处理进入步骤S54。
在步骤S53中,场景关键词补充部115将把选择语句作为部分字符串的节目关键词作为检索用关键词。并且,处理进入步骤S57。
在步骤S54中,场景关键词补充部115参照完整场景关键词储存部112,确认是否存在将选择语句作为部分字符串的完整场景关键词。在存在这样的完整场景关键词的情况下(S54:是),处理进入步骤S55,在不存在这样的完整场景关键词的情况下(S54:否),处理进入步骤S56。
在步骤S55中,场景关键词补充部115将把选择语句作为部分字符串的完整场景关键词作为检索用关键词。并且,处理进入步骤S57。
另外,在步骤S56中,场景关键词补充部115将选择语句直接作为检索用关键词。
当场景关键词补充部115进行的补充结束时,节目关联信息检索部116使用检索用关键词进行节目关联信息的检索(S57)。例如,节目关联信息检索部116经由通信部117与互联网连接,使用检索用关键词进行节目关联信息的检索。并且,节目关联信息显示部118显示通过检索获得的节目关联信息(S58)。
对场景关键词补充部115进行的关键词补充处理的具体例子进行说明。例如,设在节目关键词储存部107中存储有图4的(C)所示的节目关键词,在完整场景关键词储存部112中存储有在图6的C行所示的完整场景关键词。当视听用户选择“约翰”这一场景关键词时,由于“约翰”作为部分字符串的“约翰·史密斯”存储于节目关键词储存部107,因此场景关键词补充部115将“约翰”补充为“约翰·史密斯”。另外,当视听用户选择了“鹰”这一场景关键词时,由于“鹰”作为部分字符串的“京都鹰”存储于完整场景关键词储存部112,因此场景关键词补充部115将“鹰”补充为“京都鹰”。当视听用户选择了“抹茶亭”这一场景关键词时,由于将“抹茶亭”作为部分字符串的语句既未存储于节目关键词储存部107,也未存储于完整场景关键词储存部112,因此场景关键词补充部115不进行补充,而直接将“抹茶亭”作为检索用关键词。即,在将“约翰”或者“鹰”这样的、未必能够获得视听用户所希望的检索结果的一般的语句选择为检索关键词的情况下,分别补充为“约翰·史密斯”、“京都鹰”这样的更加准确的名称后进行信息检索,由此能够取得视听用户所希望的检索结果。
如上所述,根据本实施方式,在将不足以获得用户所希望的检索结果的语句选择为关键词的情况下,在利用从节目信息或者场景文本信息提取出的数据进行补充的基础上,进行节目关联信息的检索,因此能够取得用户所希望的节目关联信息。
另外,用于补充的数据是从正在视听的节目的节目信息和场景文本信息中提取出的数据,因此与使用通用的词库的情况相比,能够进行与节目的内容对应的适当的替换。
另外,用于补充的数据是从正在视听的节目的节目信息和场景文本信息中提取出的数据,因此即使没有预先准备用于补充的数据,也能够进行与节目的内容相应的适当的替换。
另外,在本实施方式中,作为节目关键词,使用了节目标题、表演者名字、以及从节目概要提取出的重要语句,但当然也可以仅利用其一部分,或者也可以利用其他的要素。另外,也可以根据与节目关联的不同的数据来取得节目关键词,而不是使用EPG数据。例如,在BML(Broadcast Markup Language,广播描述语言)形式记述的数据广播内容中,大多记载有体育运动的出场选手名字,如果从数据广播内容取得节目关键词,则也能够取得选手名等。
另外,假如在因不存在节目信息等的原因而不能够取得节目关键词的情况下,也能够根据完整场景关键词进行补充。
另外,在本实施方式中,对正在视听数字广播的情况进行了说明,但只要存在要再现的节目,且能够获得其场景文本信息,则其他情况也可适用。例如,也可应用于录像节目的再现以及从互联网取得节目的流再现。在这种情况下,可以从与节目关联的元数据(metadata)等取得节目内容。另外,在这种情况下,取代接收处理部101,设置从记录介质或者互联网取得视听信息的信息取得部作为取得视听信息的视听信息取得部。
另外,在本实施方式中,在从节目概要中提取节目关键词时以及从场景文本信息中提取场景关键词时,利用词素分析提取出了重要语句,但只要是提取重要语句的方法,使用其他任何方法都可以。例如,在进行词素分析而得到的词类中,可以将登记在外部数据库中的语句视为重要语句。由此,虽然结构变得复杂,但能够减少错误判定。
另外,在本实施方式中,在信息处理装置100内部进行了从节目概要中提取节目关键词的节目关键词提取处理(图3的步骤S21~S29),以及从场景文本信息中提取完整场景关键词的完整场景关键词提取处理(图5的步骤S30、S31以及S33~S41),但是也可以在信息处理装置100的外部进行这些处理。例如,也可以在信息处理装置100的外部配置重要语句提取装置(未图示),从信息处理装置100针对重要语句提取装置发送字符串(节目概要以及场景文本信息),根据来自重要语句提取装置的响应,分别接收字符串中包含的节目关键词以及完整场景关键词。由此,能够将信息处理装置100的结构简单化,并且通过准备高性能的重要语句提取装置,能够缩短在重要语句提取中所需的时间。
另外,在本实施方式中,将两个以上名词合成得到的复合名词或者具有一定长度以上的字符串长度的固有名词视为完整场景关键词,但也可以使用与此不同的基准。例如,也可以将在节目中多次出现的语句中具有一定长度以上的字符串长度的语句视为完整场景关键词。由此,能够将在节目内经常成为话题的词语作为补充候选。
另外,例如也可以仅仅将人名判定为完整场景关键词。能够通过词素分析的结果或者利用外部数据库来判定是否为人名。由此,能够限定对象,因此能够减少误提取。
另外,在本实施方式中,通过场景关键词为某一语句的部分字符串的方法确定了补充对象,但也可以使用其他的方法。例如,也可以将缩写与正式名称成对保存于数据库中,如果场景关键词被登记了缩写,则补充为正式名称。由此,也能够应对不仅仅是部分字符串的缩写。
另外,在本实施方式中,针对视听用户所选择的场景关键词进行了补充,但是也可以构成为从提取出场景关键词之后到提示给视听用户的期间中进行该场景关键词的补充,视听用户从补充后的场景关键词中进行选择。由此,视听用户能够预先掌握通过自己所选择的词语进行了怎样的检索。
另外,在本实施方式中,在切换节目时进行了节目关键词和完整场景关键词的初始化,但也可以在其他时机进行初始化。例如,也可以在检测场景转换时进行完整场景关键词的初始化。由此,利用登记在同一场景内的完整场景关键词来进行补充,因此能够进行反映了更近期的节目内容的补充。
另外,完整场景关键词更新部111也可以自动删除在一定时间未用于补充的完整场景关键词。由此,利用在一定时间内使用的完整场景关键词来进行补充,因此能够进行反映了更近期的节目内容的补充。
另外,在完整场景关键词储存部112的空余容量为某一阈值以下的情况下,完整场景关键词更新部111也可以自动删除在一定时间未用于补充的完整场景关键词。由此,即使在提取出了完整场景关键词储存部112的容量以上的完整场景关键词的情况下,也能够使处理继续。
另外,在本实施方式中自动进行了场景关键词的补充,但也可以使用户选择是否进行补充。例如,也可以在用户选择了场景关键词时,显示部将补充候选提示给用户,仅在用户通过输入部选择了该补充候选时进行检索用关键词的补充。由此,也能够应对对自动补充场景关键词的情况感到不自然的用户。
实施方式2
图8是示意性示出实施方式2的信息处理装置200的结构的框图。信息处理装置200具有:接收处理部101、节目切换检测部102、动作指示部103、节目信息取得部104、节目关键词提取部105、节目关键词更新部206、节目关键词储存部107、场景文本信息取得部108、场景关键词提取部109、完整场景关键词判定部110、完整场景关键词更新部211、以及完整场景关键词储存部112。而且,信息处理装置200具有:场景关键词显示部113、场景关键词选择部114、场景关键词补充部115、节目关联信息检索部116、通信部117以及节目关联信息显示部118。另外,信息处理装置200具有:节目专属节目关键词储存部219和节目专属完整场景关键词储存部220。实施方式2的信息处理装置200在节目关键词更新部206和完整场景关键词更新部211中的处理、以及进一步具有节目专属节目关键词储存部219和节目专属完整场景关键词储存部220这一点上与实施方式1的信息处理装置100不同。
节目专属节目关键词储存部219储存过去通过信息处理装置200视听的节目的节目关键词。
节目专属完整场景关键词储存部220储存过去通过信息处理装置200视听的节目的完整场景关键词。
节目关键词更新部206除了进行与实施方式1中的节目关键词更新部106相同的处理之外,还进行以下的处理。
节目关键词更新部206在由节目切换检测部102检测到节目的切换的情况下,将存储于节目关键词储存部107中的切换前的节目的节目关键词存储到节目专属节目关键词储存部219。另外,在切换后的节目的节目关键词存储于节目专属节目关键词储存部219的情况下,节目关键词更新部206用该切换后的节目的节目关键词来替换存储于节目关键词储存部107中的信息。
完整场景关键词更新部211除了进行与实施方式1中的完整场景关键词更新部111相同的处理之外,还进行以下的处理。
在由节目切换检测部102检测到节目的切换的情况下,完整场景关键词更新部211将存储于完整场景关键词储存部112中的切换前的节目的节目关键词存储到节目专属完整场景关键词储存部220。另外,在切换后的节目的完整场景关键词存储于节目专属完整场景关键词储存部220的情况下,完整场景关键词更新部211用该切换后的节目的完整场景关键词来替换存储于完整场景关键词储存部112中的信息。
图9是示出实施方式2中的节目切换时的处理的流程图。另外,在图9所示的流程中,对于与图2所示的流程的处理相同的处理,标注与图2的处理相同的标号。
节目切换检测部102监视接收处理部101,检测所视听的节目被切换的情况(S10)。
接着,节目关键词更新部206将到此为止所储存的节目关键词即切换前的节目的节目关键词储存到节目专属节目关键词储存部219中(S60)。此时,节目关键词更新部206将节目关键词与用于唯一确定切换前的节目的节目识别信息对应起来进行保存。作为节目识别信息的一例,有数字广播的网络ID、传输流ID、服务ID或者事件ID。
接着,完整场景关键词更新部211将到此为止储存的完整场景关键词即切换前的节目的完整场景关键词储存到节目专属完整场景关键词储存部220(S61)。此处,完整场景关键词更新部211将完整场景关键词与用于唯一地确定切换前的节目的节目识别信息对应起来进行保存。
接着,节目关键词更新部206确认与新选台的节目对应的节目关键词是否存储于节目专属节目关键词储存部219中(S62)。在存储有这种节目关键词的情况下(S62:是),处理进入步骤S63,在未存储有这种节目关键词的情况下(S62:否),处理进入步骤S11。此处,步骤S11~S14的处理与图2的步骤S11~S14的处理相同。
另外,是否存储有与选台中的节目对应的节目关键词是根据与选台中的节目对应的网络ID、传输流ID、服务ID或者事件ID是否作为节目识别信息登记在节目专属节目关键词储存部219中来判断。在这种节目识别信息已经被登记的情况下,判断为存储有对应的节目关键词。
在步骤S63中,节目关键词更新部206从节目专属节目关键词储存部219中读出与切换后的节目识别信息对应的节目关键词,用该节目关键词来替换节目关键词储存部107的内容。
接着,完整场景关键词更新部211从节目专属完整场景关键词储存部220读出与切换后的节目的节目识别信息对应的完整场景关键词,用该完整场景关键词来替换完整场景关键词储存部112的内容(S64)。并且,处理进入步骤S13和S14。
如上所述,根据实施方式2,如果过去已经保存了与新选台的节目关联的节目关键词和完整场景关键词,则使用已经保存的关键词来进行关键词的补充。因此,在一旦切换成其他频道之后又马上换回原来的频道时,也能够立刻进行关键词的补充。
另外,在实施方式2中,在节目专属节目关键词储存部219或者节目专属完整场景关键词储存部220中储存的数据量超过了预定的阈值的情况下,节目关键词更新部206和完整场景关键词更新部211也可以删除在一定时间未读出的节目识别信息与关键词的组。由此,即使在提取出了节目专属节目关键词储存部219或者节目专属完整场景关键词储存部220的容量以上的关键词的情况下,也能够使处理继续。
另外,也可以对在节目专属节目关键词储存部219或者节目专属完整场景关键词储存部220中存储的节目识别信息追加节目的广播时间,由节目关键词更新部206和完整场景关键词更新部211适当删除已结束了广播时间的关键词。由此,能够删除预定不被使用的数据,因此能够有效地应用节目专属节目关键词储存部219或者节目专属完整场景关键词储存部220的容量。
另外,在实施方式2中,在节目切换的时机将关键词保存到了节目专属节目关键词储存部219和节目专属完整场景关键词储存部220,但也可以在其他时机进行保存。例如,也可以在每次提取节目关键词或者完整场景关键词时进行保存。由此,无需在节目切换时保存关键词,因此能够简化节目切换时的处理。
另外,在实施方式2中,虽然作为确定节目的节目识别信息,使用了网络ID、传输流ID、服务ID或者事件ID,但只要是能够确定节目的信息,则使用其他的任何信息都可以。例如,如果是录像节目,则可以使用录像日期和时间、频道等,如果是流节目,则可以使用该URI(Uniform Resource Identifier,统一资源标识符)。
实施方式3
图10是示意性示出实施方式3的信息处理装置300的结构的框图。信息处理装置300具有:接收处理部101、节目切换检测部102、动作指示部103、节目信息取得部104、节目关键词提取部105、节目关键词更新部106、节目关键词储存部107、场景文本信息取得部108、场景关键词提取部109、完整场景关键词判定部110、完整场景关键词更新部111、以及完整场景关键词储存部112。而且,信息处理装置300具有:场景关键词显示部113、场景关键词选择部114、场景关键词补充部115、节目关联信息检索部116、通信部117、以及节目关联信息显示部118。另外,信息处理装置300具有:类型信息取得部321、全体关键词取得部322、以及全体关键词追加部323。实施方式3的信息处理装置300在进一步具有类型信息取得部321、全体关键词取得部322以及全体关键词追加部323这一点上,与实施方式1的信息处理装置100不同。
类型信息取得部321从由节目信息取得部104所取得的节目信息中取得类型信息。此处,在数字广播中,类型信息能够从节目排列信息的内容描述符取得。在可取得的类型信息中,在“体育运动”、“信息/脱口秀”、“戏剧”这种大分类的基础上,例如在大分类“体育运动”中,还包括“棒球”、“足球”以及“马拉松·田径·游泳”这种中分类。
全体关键词取得部322根据类型信息取得部321所取得的类型信息,取得象征节目内容的全体关键词。全体关键词是指,与从节目提取出的场景关键词整体关联的语句。例如,如果是足球转播,则从节目提取的场景关键词几乎都是选手名、球队名以及足球用语等与足球有关的词。因此,在该情况下,“足球”是全体关键词。
全体关键词追加部323将全体关键词取得部322所取得的全体关键词追加到检索用关键词中。
图11是示出实施方式3中的关联信息获得处理的流程图。在图11所示的流程中,关于与图7所示的流程相同的处理,标注与图7的处理相同的标号。
图11所示的流程中的步骤S50~S56的处理与图7所示的流程中的步骤S50~S56的处理相同。但是,在步骤S56的处理之后,处理进入步骤S70。
在步骤S70中,类型信息取得部321从由节目信息取得部104取得的节目信息中取得类型信息。
接着,全体关键词取得部322判断由类型信息取得部321取得的类型信息所示的类型的大分类是否为戏剧、电影或者动画片(S71)。在其为戏剧、电影或者动画片的情况下(S71:是),处理进入步骤S72,在其不是戏剧、电影或者动画片的情况下(S71:否),处理进入步骤S73。
在步骤S72中,全体关键词取得部322从节目信息取得部104所取得的节目信息中取得作品标题,将该作品标题设定为全体关键词。例如,在类型的大分类为戏剧、电影或者动画片的情况下,作为场景关键词取得角色名或者登场人物名的可能性较高。角色名或者登场人物名与作品标题有关联,因此如果与作品标题一起进行检索,则可以说能够得到视听用户所希望的信息的可能性进一步提高。因此,在类型的大分类是戏剧、电影或者动画片的情况下,全体关键词取得部322将节目标题设定为全体关键词。
但是,也有在节目标题中包含除作品标题以外的词语的情况。例如,存在如“##剧场‘***’”这样的除了“***”这一作品标题之外还包含有“##剧场”这种节目框架的标题的情况等。在这种情况下,全体关键词取得部322仅挑出用特定的符号(此处为单引号)括起来的部分(在上述的例子中为***)等,仅提取作品标题。并且,全体关键词取得部322将提取出的作品标题作为全体关键词,由此取得更准确的关联信息。
另一方面,在步骤S73中,全体关键词取得部322确认由类型信息取得部321取得的类型信息所示出的类型的大分类是否为体育运动。并且,在其是体育运动的情况下(S73:是),处理进入步骤S74,在其不是体育运动的情况下(S73:否),处理进入步骤S77。
在步骤S74中,全体关键词取得部322判断是否能够根据由类型信息取得部321取得的类型信息或者由节目信息取得部104取得的节目信息来确定比赛名。在能够确定比赛名的情况下(S74:是),处理进入步骤S75,在不能确定比赛名的情况下(S74:否),处理进入步骤S57。
在步骤S75中,全体关键词取得部322将被确定的比赛名设定为全体关键词。例如,在类型的大分类是体育运动的情况下,作为场景关键词得到选手名、运动队名或者体育运动用语的可能性较高。这些词语均与比赛有关联,因此当与比赛名一起进行检索时,可以说得到视听用户所希望的信息的可能性进一步提高。因此,在类型的大分类是体育运动时,提取比赛名作为全体关键词。
具体地讲,首先,如果由类型信息取得部321取得的类型信息所示的类型的中分类是“棒球”、“足球”或者“高尔夫”等一个比赛名,则全体关键词取得部322将其设定为全体关键词。
另外,在由类型信息取得部321取得的类型信息所示的类型的中分类是“马拉松·田径·游泳”或者“其他比赛”等不是一个比赛名的情况下,全体关键词取得部322根据由节目信息取得部104取得的节目信息中包含的节目标题推测比赛名。例如,全体关键词取得部322将“游泳”、“网球”、“拳击”等一般性比赛名作为数据库进行保存(例如,存储于未图示的比赛名存储部),如果节目标题包含登记在数据库中的比赛名,则将该比赛名设定为全体关键词。如果节目标题不包含任何的比赛名,则全体关键词取得部322不设定全体关键词。
另外,在由类型信息取得部321取得的类型信息所示的类型的大分类在戏剧、电影、动画片以及体育运动中均不存在的情况下,全体关键词取得部322不进行全体关键词的设定。这是因为,在不包含在这些类型的新闻节目或者综艺节目中,其中出现的人名或地名等未必与节目标题或者类型等一一对应。
在步骤S76中,全体关键词追加部323将所设定的全体关键词追加到检索用关键词中。例如,在使用了检索引擎的信息检索的情况下,如果将隔空白排列两个语句的语句作为检索用关键词,则大多进行两个语句的AND(“与”)检索。因此,在对检索用关键词“AAA”追加了全体关键词“BBB”时,新检索用关键词成为“AAA BBB”。在该情况下,检索到包含“AAA”与“BBB”的双方的语句的信息。并且,处理进入步骤S57。图11所示的流程的步骤S57和S58的处理与图7所示的流程的步骤S57和S58的处理相同。
如上所述,根据实施方式3,根据类型信息提取出与节目全体关系密切的全体关键词,并将其追加到检索用关键词中,因此能够得到视听用户所希望的信息的可能性进一步提高。
另外,在实施方式3中,作为全体关键词提取出的“作品标题”或者“比赛名”只不过是一例,也可以将与此不同的词作为全体关键词。例如,将体育运动的运动队名保存在数据库中,如果该运动队名包含在节目标题中,则可以将该运动队名作为全体关键词。由此,能够取得相比于比赛名被进一步限定的信息,因此能够得到视听用户所希望的信息的可能性进一步提高。
另外,在实施方式3中,从节目标题中进行了全体关键词的提取,但也可以从与节目标题不同的信息中提取全体关键词。例如,也可以从储存于节目关键词储存部107或者完整场景关键词储存部112中的信息中提取全体关键词。由此,例如,在节目标题中未包含有适于作为全体关键词的语句的情况下,也能够提取出适当的全体关键词。
另外,在实施方式3中,类型信息是根据节目排列信息的内容描述符取得的,但是当然也可以从其他地方取得。例如,类型信息也可以根据与录像节目或者流节目关联的元数据等取得。
另外,在实施方式3中,全体关键词的追加是自动进行的,但是也可以由用户选择是否追加全体关键词。例如,也可以在由用户选择了场景关键词时,场景关键词显示部113向用户提示全体关键词,仅在用户通过场景关键词选择部114选择了全体关键词时,全体关键词追加部323将选择出的全体关键词追加到检索用关键词。由此,也能够应对对自动追加全体关键词的情况感到不自然的用户。
以上记载的实施方式3在实施方式1的基础上进一步具有类型信息取得部321、全体关键词取得部322以及全体关键词追加部323而构成,但也可以在实施方式2的基础上进一步具有这些结构而构成。
实施方式4
在由多个版块(corner)构成的节目中,即使是相同的节目,但如果版块改变,则有时表演者或涉及的题材等也大大不同。在本实施方式中,对用于在这种状況下也能够使补充处理有效工作的信息处理装置的处理进行描述。
图12是示意性示出实施方式4的信息处理装置400的结构的框图。信息处理装置400具有:接收处理部101、节目切换检测部102、动作指示部103、节目信息取得部104、节目关键词提取部105、节目关键词更新部106、节目关键词储存部107、场景文本信息取得部108、场景关键词提取部109、完整场景关键词判定部110、完整场景关键词更新部411、以及完整场景关键词储存部112。而且,信息处理装置400具有:场景关键词显示部113、场景关键词选择部114、场景关键词补充部415、节目关联信息检索部116、通信部117、以及节目关联信息显示部118。另外,信息处理装置400具有版块切换检测部424和版块号码存储部425。实施方式4的信息处理装置400在完整场景关键词更新部411和场景关键词补充部415的处理、以及进一步具有版块切换检测部424和版块号码存储部425这一点上与实施方式1的信息处理装置100不同。
版块切换检测部424监视接收处理部101,在由多个版块构成的节目中,检测其版块的切换。当版块切换检测部424检测到版块的切换时,向版块号码存储部425通知进行了版块的切换。
作为检测版块切换的方法,例如,存在如下的方法。首先,版块切换检测部424检测视频中的表示版块名的反射式字幕,识别该版块名。并且,版块切换检测部424在所识别的版块名有变更的情况下,判定为进行了版块的切换。
另外,当广播内容从节目进入广告时以及从广告回到节目时,优选版块切换检测部424不将广告中的视频使用于版块的切换检测,而是将广告前后的视频视为连续来进行处理,在此基础上判定是否发生了版块的切换。这是因为,存在版块跨过广告而连续的情况。
版块号码存储部425将节目开始之后切换版块的次数作为切换后的版块的版块号码进行存储。换言之,版块号码是用于识别各版块的版块识别信息。例如,通过将版块号码的初始值设为“0”,从而节目的最开始的版块的版块号码成为“0”。版块号码存储部425将版块号码提供给完整场景关键词更新部411和场景关键词补充部415。
完整场景关键词更新部411在将由完整场景关键词判定部110判定的完整场景关键词存储到完整场景关键词储存部112中时,将从版块号码存储部425取得的版块号码与完整场景关键词关联起来进行存储。
另外,在完整场景关键词更新部411进行完整场景关键词的更新时,在与相应语句相同的语句已经登记在完整场景关键词储存部112中的情况下,在暂时删除已经登记的语句之后,将相应语句与从版块号码存储部425取得的版块号码一起重新进行登记。也就是说,当在当前的版块中也检测到在完整场景关键词储存部112中已经存储的完整场景关键词时,完整场景关键词更新部411将与完整场景关键词关联的版块号码更新为当前的版块号码。
在场景关键词选择部114中选择的检索场景关键词不是适合执行检索的关键词的情况下,场景关键词补充部415使用在存储于完整场景关键词储存部112中的完整场景关键词中的、关联的版块号码与从版块号码存储部425取得的版块号码一致的关键词、也就是说在当前再现中的版块中取得的完整场景关键词,补充在场景关键词选择部114中选择的检索场景关键词,在这一点上与实施方式1不同。
图13是示出储存于完整场景关键词储存部112的完整场景关键词信息CSK的一例的示意图。如图所示,完整场景关键词信息CSK是具有版块号码栏CSK1和完整场景关键词栏CSK2的表格信息。
在版块号码栏CSK1中存储有版块号码。
在完整场景关键词栏CSK2中存储有在由版块号码栏CSK1识别的版块中提取出的完整场景关键词。
在图13所示的例子中,用户视听新闻节目,该新闻节目的第一个版块是政治版块,第二个版块是体育运动版块。并且,假设当前用户正在视听体育运动版块。如图13所示,在政治版块中取得“东京都中央区”和“铃木太郎”这种完整场景关键词,在体育运动版块中已经取得“京都鹰”和“山田一郎”这种完整场景关键词。此处,假设用户通过场景关键词选择部114选择了由场景关键词提取部109新提取出的“铃木”这一场景关键词而作为检索场景关键词。
在本实施方式中,在相当于实施方式1中的图7的步骤S54的处理中,场景关键词补充部415从由版块号码存储部425取得的版块号码“2”的完整场景关键词中,找出将“铃木”作为部分字符串的完整场景关键词。在版块号码为“2”的完整场景关键词中,由于不存在将“铃木”作为部分字符串的完整场景关键词,因此将“铃木”直接作为检索用关键词使用。
此处,虽然将“铃木”这一场景关键词作为部分字符串的“铃木太郎”这一完整场景关键词存储于完整场景关键词储存部112,但是“铃木太郎”是在政治版块中取得的完整场景关键词,作为适合于对在体育运动版块中取得的“铃木”进行补充的词的可能性较低。因此,在本实施方式中不作为补充的对象。
如上所述,根据本实施方式,信息处理装置400使用从再现中的版块内取得的完整场景关键词进行场景关键词的补充。因此,在由于版块变更而使得表演者以及涉及的话题显著改变的情况下,也能够降低使用与当前的版块关联小的完整场景关键词而进行错误的补充的可能性。
另外,在本实施方式中,作为检测版块切换的方法,使用了示出版块名的反射式字幕,但当然也可以使用其他的方法。例如,版块切换检测部424可以根据时间上相邻的图像帧的颜色或者运动矢量的相关性来估计版块的切换,也可以使用从外部取得的元数据,估计版块的切换。
另外,在本实施方式中,场景关键词补充部415仅将从当前正在再现的版块取得的完整场景关键词作为补充的对象,但是如果在当前正在再现的版块中找不到,则也可以追溯到前几个版块(使用预定范围的版块),检索补充的对象。由此,在场景关键词选择部114中,在用户选择了在之前的版块取得的场景关键词的情况下,也能够进行补充。
另外,在本实施方式中,将版块号码与完整场景关键词关联起来进行了存储,但是本实施方式也可以不存储版块号码,而在检测版块切换时进行完整场景关键词储存部112的初始化,删除在之前的版块中取得的完整场景关键词。由此,虽然不能进行追溯到前几个版块设置补充对象的扩展,但能够减少完整场景关键词储存部112所需的容量。
另外,在本实施方式中,也可以根据节目的类型来确定是否仅将通过正在再现的版块取得的完整场景关键词作为补充的对象。例如,在体育运动节目的情况下大多继续广播相同的比赛,即使检测到版块的切换,但在检测前后涉及同一题材的可能性较高。因此,如节目的类型是体育运动的情况这样,在节目内持续涉及同一题材的类型中,将版块的切换检测前的完整场景关键词也作为补充的对象,由此能够获得用户所希望的检索结果。
在以上所述的实施方式1~4中,虽然通过节目关键词和完整场景关键词双方进行了场景关键词的补充,但是也可以通过节目关键词和完整场景关键词的任意一个进行补充。
在以上记载的实施方式1~4中,在由场景关键词提取部109提取出的场景关键词当中,仅将由完整场景关键词判定部110判定为不是完整场景关键词的关键词作为通过场景关键词补充部115补充的对象,但是不限于这种例子。例如,也可以将由场景关键词提取部109提取出的场景关键词的全部作为通过场景关键词补充部115补充的对象。
在以上记载的实施方式1~4中,虽然将两个以上的名词合成得到的复合名词或者具有一定长度以上的字符串长度的固有名词作为完整场景关键词,但是完整场景关键词不限于此。例如,完整场景关键词也可以是两个以上的名词合成得到的复合名词以及具有一定长度以上的字符串长度的固有名词中的任意一个。另外,完整场景关键词既可以是在两个以上的名词合成得到的复合名词当中具有一定长度以上的字符串长度的复合名词,也可以是这种复合名词和具有一定长度以上的字符串长度的固有名词。
在以上记载的实施方式1~4中记载的信息处理装置可以是接收数字广播的数字广播接收装置,另外也可以是对数字广播的节目进行录像和再现的视频记录再现装置,另外也可以是对记录在光盘等记录介质的节目进行再现的视频再现装置,并且,也可以是对通过网络取得的节目进行再现的流再现装置。

Claims (11)

1.一种信息处理装置,其特征在于,该信息处理装置具有:
视听信息取得部,其取得节目的视听信息,该视听信息包括视频信息、音频信息以及字幕信息;
场景文本信息取得部,其从由所述视听信息取得部取得的视听信息中,取得作为与正在视听的节目的场景有关的文本信息的场景文本信息;
场景关键词提取部,其从所述场景文本信息中提取场景关键词;
完整场景关键词判定部,其判定由所述场景关键词提取部提取出的场景关键词是否为适于检索的关键词;
完整场景关键词储存部,其将由所述完整场景关键词判定部判定为是适于检索的关键词的场景关键词作为完整场景关键词进行储存;
场景关键词选择部,其接受从由所述场景关键词提取部提取出的场景关键词中选出作为在检索中使用的场景关键词的检索场景关键词的选择;
场景关键词补充部,其在所述检索场景关键词作为部分字符串的所述完整场景关键词被储存在所述完整场景关键词储存部中的情况下,将把所述检索场景关键词作为部分字符串的所述完整场景关键词确定为检索用关键词;以及
节目关联信息检索部,其利用由所述场景关键词补充部确定的检索用关键词,检索所述节目的关联信息。
2.根据权利要求1所述的信息处理装置,其特征在于,该信息处理装置还具有:
完整场景关键词更新部,其在由所述完整场景关键词取得部判定出的完整场景关键词没有成为其他完整场景关键词的部分字符串的情况下,将该完整场景关键词储存到所述完整场景关键词储存部中。
3.根据权利要求2所述的信息处理装置,其特征在于,该信息处理装置还具有:
节目切换检测部,其对所述视听信息取得部进行监视,检测所述视听信息取得部中的所述节目的切换;以及
节目专属完整场景关键词储存部,其针对每个节目,储存所述完整场景关键词,
所述完整场景关键词更新部在所述视听信息取得部中的切换后的节目的所述完整场景关键词储存在所述节目专属完整场景关键词储存部中的情况下,利用所述视听信息取得部中的切换后的节目的所述完整场景关键词,替换存储在所述完整场景关键词储存部中的所述完整场景关键词。
4.根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,
所述视听信息还包括表示所述节目的内容的节目信息,
所述信息处理装置还具有:
节目信息取得部,其从由所述视听信息取得部取得的视听信息中取得正在视听的节目的节目信息;
节目关键词提取部,其从由所述节目信息取得部取得的节目信息中提取节目关键词;以及
节目信息储存部,其储存由所述节目关键词提取部提取出的节目关键词,
所述场景关键词补充部在能够对由所述场景关键词选择部选择出的场景关键词进行补充的所述节目关键词储存在所述节目关键词储存部中的情况下、或者能够对由所述场景关键词选择部选择出的场景关键词进行补充的所述完整场景关键词储存在所述完整场景关键词储存部中的情况下,将能够对由所述场景关键词选择部选择出的场景关键词进行补充的所述节目关键词或者所述完整场景关键词确定为检索用关键词。
5.根据权利要求4所述的信息处理装置,其特征在于,
所述场景关键词补充部将把由所述场景关键词选择部选择出的场景关键词作为部分字符串的所述节目关键词,作为能够对由所述场景关键词选择部选择出的场景关键词进行补充的所述节目关键词。
6.根据权利要求4所述的信息处理装置,其特征在于,该信息处理装置还具有:
节目关键词更新部,其在由所述节目关键词提取部提取出的节目关键词没有成为其他节目关键词的部分字符串的情况下,将该节目关键词储存到所述节目关键词储存部中。
7.根据权利要求6所述的信息处理装置,其特征在于,该信息处理装置还具有:
节目切换检测部,其对所述视听信息取得部进行监视,检测所述视听信息取得部中的所述节目的切换;以及
节目专属节目关键词储存部,其针对每个节目,储存所述节目关键词,
所述节目关键词更新部在所述视听信息取得部中的切换后的节目的所述节目关键词储存在所述节目专属节目关键词储存部中的情况下,利用所述视听信息取得部中的切换后的节目的所述节目关键词,替换存储在所述节目关键词储存部中的所述节目关键词。
8.根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,
所述完整场景关键词判定部判定由所述场景关键词选择部选择出的场景关键词是否为所述完整场景关键词,
所述场景关键词补充部将由所述完整场景关键词判定部判定为不是所述完整场景关键词的场景关键词作为对象,进行所述检索用关键词的确定处理。
9.根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,该信息处理装置还具有:
场景关键词显示部,其对由所述场景关键词提取部提取出的场景关键词进行显示,
所述场景关键词选择部从显示在所述场景关键词显示部的场景关键词中接受选择。
10.根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,该信息处理装置还具有:
类型信息取得部,其从由所述视听信息取得部取得的视听信息中取得所述节目的类型信息;
全体关键词取得部,其根据所述类型信息,取得象征所述节目的内容的全体关键词;以及
全体关键词追加部,其对由所述场景关键词补充部确定的检索用关键词,追加由所述全体关键词取得部取得的全体关键词,
所述节目关联信息检索部使用由所述场景关键词补充部确定的检索用关键词、以及由全体关键词追加部追加的全体关键词,检索所述关联信息。
11.一种信息处理方法,其特征在于,该信息处理方法具有:
视听信息取得步骤,取得节目的视听信息,该视听信息包括视频信息、音频信息以及字幕信息;
场景文本信息取得步骤,从在所述视听信息取得步骤中取得的视听信息中,取得作为与正在视听的节目的场景有关的文本信息的场景文本信息;
场景关键词提取步骤,从所述场景文本信息中提取场景关键词;
完整场景关键词判定步骤,判定在所述场景关键词提取步骤中提取出的场景关键词是否为适于检索的关键词;
完整场景关键词储存步骤,将在所述完整场景关键词判定步骤中判定为是适于检索的关键词的场景关键词作为完整场景关键词进行储存;
场景关键词选择步骤,接受从在所述场景关键词提取步骤中提取出的场景关键词中选出作为在检索中使用的场景关键词的检索场景关键词的选择;
场景关键词补充步骤,在所述完整场景关键词储存步骤中储存了将所述检索场景关键词作为部分字符串的所述完整场景关键词的情况下,将把所述检索场景关键词作为部分字符串的所述完整场景关键词确定为检索用关键词;以及
节目关联信息检索步骤,利用在所述场景关键词补充步骤中确定的检索用关键词,检索所述节目的关联信息。
CN201310444559.9A 2012-10-26 2013-09-23 信息处理装置和信息处理方法 Expired - Fee Related CN103793449B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012236856 2012-10-26
JP2012-236856 2012-10-26
JP2013103973A JP6029530B2 (ja) 2012-10-26 2013-05-16 情報処理装置及び情報処理方法
JP2013-103973 2013-05-16

Publications (2)

Publication Number Publication Date
CN103793449A true CN103793449A (zh) 2014-05-14
CN103793449B CN103793449B (zh) 2017-05-17

Family

ID=50669123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310444559.9A Expired - Fee Related CN103793449B (zh) 2012-10-26 2013-09-23 信息处理装置和信息处理方法

Country Status (1)

Country Link
CN (1) CN103793449B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611382A (zh) * 2014-11-14 2016-05-25 三星电子株式会社 产生概要内容的电子设备及其方法
CN107526736A (zh) * 2016-06-20 2017-12-29 百度在线网络技术(北京)有限公司 搜索方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101365104A (zh) * 2007-08-10 2009-02-11 株式会社东芝 节目搜索装置和节目搜索方法
US20100094896A1 (en) * 2007-08-08 2010-04-15 Jun Ozawa Program retrieval support device and its method
CN101952825A (zh) * 2008-02-20 2011-01-19 松下电器产业株式会社 对话式节目检索装置
CN102217320A (zh) * 2008-11-19 2011-10-12 株式会社东芝 节目信息显示装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US20100094896A1 (en) * 2007-08-08 2010-04-15 Jun Ozawa Program retrieval support device and its method
CN101365104A (zh) * 2007-08-10 2009-02-11 株式会社东芝 节目搜索装置和节目搜索方法
CN101952825A (zh) * 2008-02-20 2011-01-19 松下电器产业株式会社 对话式节目检索装置
CN102217320A (zh) * 2008-11-19 2011-10-12 株式会社东芝 节目信息显示装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611382A (zh) * 2014-11-14 2016-05-25 三星电子株式会社 产生概要内容的电子设备及其方法
CN107526736A (zh) * 2016-06-20 2017-12-29 百度在线网络技术(北京)有限公司 搜索方法和装置

Also Published As

Publication number Publication date
CN103793449B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN100442368C (zh) 处理节目信息的系统
US8234675B2 (en) Method of constructing information on associate meanings between segments of multimedia stream and method of browsing video using the same
CN101202864B (zh) 动画再现装置
CN101800060B (zh) 再现信息存储介质中存储的av数据的方法
US20070101266A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
JP2005522112A (ja) 映像番組用の補足情報を提供するための方法及びシステム
CN100358042C (zh) 用于提供视频节目的多媒体概要的系统和方法
CN101398843B (zh) 用于浏览视频概要描述数据的设备及方法
JP5106455B2 (ja) コンテンツ推薦装置及びコンテンツ推薦方法
JP5135024B2 (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
KR20020093910A (ko) 방송 정보에 관련된 정보의 취득 방법, 시스템 및 장치
CN101431645B (zh) 节目录像再现装置以及节目录像再现方法
KR20050099488A (ko) 비디오 및 메타데이터의 통합을 위한 비디오 멀티미디어응용 파일 형식의 인코딩/디코딩 방법 및 시스템
JP2007174255A (ja) 録画再生装置
JP2010245853A (ja) 動画インデクシング方法及び動画再生装置
JP2005522113A (ja) パーソナル化されたニュースを提供するための方法及びシステム
JP2006139408A (ja) 特徴ベクトル生成装置、検索装置、特徴ベクトル生成方法、検索方法及びプログラム
JP2006340136A (ja) 映像再生方法、インデックス情報提供方法、映像再生端末、及び映像用インデックス作成検索システム
JP6029530B2 (ja) 情報処理装置及び情報処理方法
CN103793449A (zh) 信息处理装置和信息处理方法
CN106713973A (zh) 搜索节目的方法及装置
JPH1139343A (ja) 映像検索装置
JP4575786B2 (ja) コンテンツ視聴システム、コンテンツ情報の処理方法、およびプログラム
US8732759B2 (en) Method of browsing recorded news program and browsing apparatus for performing the method
JP2007129308A (ja) 情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170517

Termination date: 20210923

CF01 Termination of patent right due to non-payment of annual fee