CN1682220A - 关键字的自动提取装置和方法、记录介质以及计算机程序 - Google Patents
关键字的自动提取装置和方法、记录介质以及计算机程序 Download PDFInfo
- Publication number
- CN1682220A CN1682220A CNA038223856A CN03822385A CN1682220A CN 1682220 A CN1682220 A CN 1682220A CN A038223856 A CNA038223856 A CN A038223856A CN 03822385 A CN03822385 A CN 03822385A CN 1682220 A CN1682220 A CN 1682220A
- Authority
- CN
- China
- Prior art keywords
- character string
- key word
- extraction
- character
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/48—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/56—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明具备:第1提取单元(19),使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;以及第2提取单元(19),从该内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。由此,在CPU的处理能力和存储器容量都不太大的家电产品中,也能够从EPG信息一类的内容的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索内容所需的关键字。
Description
技术领域
本发明涉及用来从EPG(Electronic Program Guide:电子节目指南)信息一类的内容的标题字符串信息和详细字符串信息之中自动提取关键字的装置和方法、记录介质以及计算机程序。
背景技术
近年来,在正式运营的数字化电视广播中,电视台在发送节目的影像·声音数据的同时,也发送EPG信息,其中包含着表示节目标题的信息(标题字符串信息)、说明节目的详细情况的信息(详细字符串信息)、表示节目类型的信息等。接收数字化广播的电视机能够根据该EPG信息在画面上显示出电子节目指南。
另外,有的模拟式电视广播中也发送这种EPG信息。
用户在检索想要看的节目时,利用该电子节目指南,在选择粗略的类型(例如体育、电视剧等)后,可以检索标题,或者阅读检索详细字符串信息。
但是,由于节目标题的命名方法千差万别,标题的检索对于用户来说未必是件容易的事情。另外,节目的详细字符串信息是以文章形式记述的,有不少是长达几页,所以,检索详细字符串信息对于用户来说也很麻烦。
对此,如果能利用例如演艺人员的名字等关键字进行节目检索,对于用户来说,检索就会变得非常容易。然而,目前电视台所发送的EPG信息中没有包含独立的关键字。因此,为了能够利用关键字进行检索,就需要从EPG信息之中提取关键字。
以往,这种关键字提取方法是,用户通过光标等方式,从电视接收机显示出来的电子节目指南的详细字符串信息的文章中,指定想要用作关键字的字符串的开头和末尾的词语。
但是,这种现有的提取方法中,用户必须亲自执行指定关键字的操作,因此,既繁杂,又难以在短时间内提取多个关键字。
另一方面,一般的关键字自动提取方法公知有所谓的日语形态元素解析法(日本語形態要素解析)。但是,该方法中的计算机程序和所使用的词典非常庞大,并且给CPU施加了很大的负载。因此,像电视接收机这样的CPU的处理能力和存储器容量都不太大的家电产品中,使用这种方法是非常低效的。
进一步,一般的关键字自动提取方法公知还有所谓的字符种类分隔法(字種切リ法)。这种方法是通过检测汉字、片假名、平假名、字母、数字等字符种类的不同来提取关键字。但是,仅凭借这种字符种类分隔法,无法精确地提取出节目检索所需的关键字。即,对于姓是汉字而名是平假名或片假名的演艺人员名字(例如,“石田あかリ”这样的名字),由于姓和名被分割,因而无法提取。另外,对于名以字母表示而姓以片假名表示的外国人名或姓名中间插入“·”(中点)的外国人名(例如,“B·ドゥ-リ-”这样的名字),由于姓和名被分隔开,也无法提取。
发明内容
本发明借鉴了上述的问题点,致力于以下课题:在CPU的处理能力和存储器容量都不太大的家电产品中,也能够从EPG信息一类的内容的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索内容所需的关键字。
为了解决该课题,本申请人提出一种关键字自动提取装置,其具备:第1提取单元,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;第2提取单元,从该内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
在该关键字自动提取装置中,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息(例如电视广播中的EPG信息的标题字符串信息)之中提取关键字。
另外,从内容的详细字符串信息(例如电视广播的EPG信息中的详细字符串信息)之中,使用登录有人名的第2关键字词典提取关键字,也利用字符种类分隔法提取关键字。此时,只要是第2关键字词典中所登录的人名,姓是汉字而名是平假名或片假名的人名也被作为关键字提取出来。另外,对于第2关键字词典中未登录的人名,也可以利用字符种类分隔法,将其作为关键字提取出来。
这样,从标题字符串信息之中提取关键字和从详细字符串信息之中提取关键字,是根据其信息分别使用相互不同的关键字词典和规则(是否使用字符种类分隔法等)实现的,由此,能够凭借小规模的计算机程序或词典而精确地提取关键字。
由此,在CPU的处理能力和存储器容量都不太大的家电产品中,也能够从EPG信息一类的内容的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索内容所需的关键字。
此外,在该关键字自动提取装置中,作为一个实例,第1提取单元适合于从包含有第1关键字词典中登录的字符串的标题字符串之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,提取关键字。
由此,能够防止包含在标题中的字符串之中,不适合用于(过于一般情况的)内容检索的字符串被包含到关键字中。因此,用户使用所提取的关键字能够更高效地检索内容。
进而,在该关键字自动提取装置中,作为一个实例,第1提取单元适合于将包含有第1关键字词典中登录的字符串的标题字符串之中的、以平假名、片假名、汉字、数字、字母之外的特殊字符分隔的字符串作为关键字提取出来。
由此,对于未被这种特殊字符分隔的标题,该标题所含的多个字符串不会被提取作为分隔开的关键字,而是该标题本身依其原样被提取作关键字。
对于未被这种特殊字符分隔的标题,该标题所含的各个字符串意义过于宽泛,用作内容检索的关键字几乎不起作用(检索结果会非常多),通常是只有使用标题本身,才能构成高效有用的检索关键字。因此,用户使用所提取的关键字(标题本身)能够更高效地检索内容。
另外,另一方面,对于以特殊字符分隔的标题,特殊字符分隔的各个字符串会分别作为关键字而提取。
对于以特殊字符(例如空格或“×”等)分隔的标题,以该特殊字符分隔的各个字符串分别发挥内容检索关键字作用,标题本身对于检索结果限制过大,通常起不到内容检索关键字的作用(检索结果会为非常少,甚至为空)。因此,用户使用所提取的关键字(以特殊字符分隔的各个字符串)还是能够更高效地检索内容。
进而,该关键字自动提取装置中,作为一个实例,第2提取单元适合于利用字符种类分隔法,从使用第2关键字词典提取关键字后的详细字符串信息的剩余部分之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,提取关键字。
由此,能够防止包含在详细字符串信息中的字符串之中的、不适合用于内容检索的字符串被包含到关键字中。因此,用户使用所提取的关键字能够更高效地检索内容。
进而,在该关键字自动提取装置中,作为一个实例,第2提取单元适合于利用字符种类分隔法,将片假名和字母作为相同字符种类处理,同时,当紧挨着“·”(中点)前面的字符是片假名或字母时,就将“·”(中点)分别当作片假名或字母处理。
由此,名以字母表示而姓以片假名表示的外国人名或姓名中间插入“·”(中点)的外国人名,也可以被当作关键字提取出来。
进而,该关键字自动提取装置中,还具备通过网络下载第2关键字词典的装置,第2提取单元适合使用该下载的第2关键字词典。
由此,能够使用最新的词典(收录了最新刚刚走红的人的名称)作为第2关键字词典,来提取关键字。
其次,本申请人提出一种关键字自动提取方法,其具有:第1步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;第2步骤,从该内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
另外,提出了一种记录介质,其中记录计算机可读取的计算机程序,该计算机程序是一种关键字自动提取装置的计算机程序,其包含:第1提取步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;第2提取步骤,从该内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
另外,提出了一种计算机程序,在控制关键字自动提取装置的计算机中执行:第1提取步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;第2提取步骤,从该内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
利用该关键字自动提取方法、记录介质、计算机程序,与上述的本发明的关键字自动提取装置的说明完全相同,在CPU的处理能力和存储器容量都不太大的家电产品中,也能够从EPG信息一类的内容的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索内容所需的关键字。
附图说明
图1是表示包含应用了本发明的节目记录再现装置的数字电视广播接收系统的概要图。
图2是表示图1的节目记录再现装置的硬件结构的框图。
图3是表示图2的CPU执行的关键字自动提取处理的流程图。
图4是表示图2的CPU执行的关键字自动提取处理的流程图。
图5是表示图3的处理中的关键字提取所用的规则的附图。
图6是表示图4的处理中的关键字提取所用的规则的附图。
图7是表示应用了本发明的模拟电视广播所使用的节目记录再现装置的硬件结构的框图。
具体实施方式
下面利用附图说明应用了本发明的记录·再现数字电视广播节目的装置的实例。
图1是表示包含应用了本发明的节目记录再现装置的数字电视广播接收系统的概要图。电视台发送的数字广播信号通过天线1接收后,输入到节目记录再现装置2。节目记录再现装置2连接到包含显示器和扬声器的显示装置3,并与因特网4连接。
图2是表示节目记录再现装置2的硬件结构的框图。在该节目记录再现装置2中依次连接调谐器11、解调器12、解扰器(descrambler)13、多路分离器14,同时,针对多路分离器14,分别依次连接影像解码器15、影像信号处理电路17、声音解码器16、D/A转换器18。
另外,调谐器11~D/A转换器18、CPU19、ROM20、主存储器(RAM)21、闪存22、遥控器用接口23、HDD(硬盘驱动器)用接口24、因特网连接用的通信接口25通过系统总线26相互联结。接口24上连接用于电视节目录像的HDD(硬盘驱动器)27。
该节目记录再现装置2上附属的远程控制器(以下称为遥控器)28上设置了与通常的数字广播用电视接收机所附属的遥控器相同的各种操作按钮(电源按钮、频道选择按钮、录像预约按钮、播放按钮、在EPG画面上进行选择的方向键或确定键等)。
在观看电视节目时,输入到节目记录再现装置2中的数字广播信号,根据遥控器28的频道选择操作,通过调谐器11选择频带后,经解调器12解调,通过解扰器13解扰后,经多路分离器14分离成多个频道数量的节目影像·声音数据包或EPG信息包。
该多个频道数量的电视节目影像·声音包之中,基于遥控器28的频道选择操作所提取的1个频道的数据包的影像、声音数据分别由影像解码器15、声音解码器16以MPEG-2Video、MPEG-2Audio格式解码。另外,EPG信息的包被发送到CPU19。
然后,经影像解码器15解码的影像信号、利用EPG信息通过CPU19作成的电子节目指南显示用的影像信号通过影像信号处理电路17施加向NTSC方式的变换或混频等,从影像输出端子29输出,发送到图1的显示装置3。
另外,经声音解码器16解码的声音信号通过D/A转换器18进行模拟转换,从声音输出端子30输出,发送到图1的显示装置3。
CPU19根据ROM20中保存的计算机程序和数据,使用主存储器21作为工作存储器,对该节目记录再现装置2整体进行控制。
CPU19执行的处理中,除了基于遥控器28的频道选择操作观看电视节目时的处理、以及基于遥控器28的录像预约操作将电视节目录像到HDD27的处理之外,还有关键字的自动提取处理。
ROM20中保存了标题用关键字词典、标题用排除字符串词典、详细信息用关键字词典和详细信息用排除字符串词典,用作该关键字自动提取处理中使用的词典。
标题用关键字词典中登录了:“职业棒球”、“高尔夫”、“足球”、“温泉”、“围棋”、“日本象棋”、“电影”等表示子类型(比EPG信息中的类型信息中“体育”这样的粗略类型更细的类型)的字符串;“恋”、“爱”这样的字符串;职业棒球的球队名的字符串这样的经常出现在节目标题中的字符串之中,能够用来有效地检索节目的重要字符串。
标题用排除字符串词典中登录了:“电影”、“BS”、节目表的特有记号(例如,表示新闻节目的加了方框的字母N记号)这样的,出现在节目标题中的字符串之中,作为节目检索关键字过于一般化的字符串。
详细信息用关键字词典中分别登录了经常出现在电视节目中的名人(演艺人、体育选手、政治家、文化人等)的名字之中,分别登录有只有平假名、平假名与汉字的组合、平假名与片假名的组合、汉字与片假名的组合、只有2个以下(包括2个)汉字、只有6个以上(包括6个)汉字的名称字符串。另外,详细信息用关键字词典中也登录例如“温泉”这样的经常出现在EPG信息中的详细字符串信息中的字符串之中,人名之外的、适合用作节目检索关键字的字符串。
详细信息用排除字符串词典中登录了“嘉宾”、“以上”、“导演”这样的经常出现在EPG信息中的详细字符串信息中的字符串之中,不适合用作节目检索关键字的字符串。
此外,关于详细信息用关键字词典,CPU19会通过因特网从专用站点下载最新内容(收录了最近刚出名的人的名称等)存储到闪存22。
另外,作为执行关键字的自动提取处理的前提,CPU19会在用户的频道选择操作时或基于用户的录像预约操作进行录像时,将多路分离器14发送过来的EPG信息的包存储到闪存22。
图3、图4是表示CPU19执行的关键字自动提取处理的流程图。其中,图3是从标题字符串信息之中提取关键字的处理,最初,从闪存22中存储的EPG信息之中提取标题字符串信息(步骤S1)。
接着,从该标题字符串信息所表示的多个节目的标题之中,查找标题用关键字词典中登录的字符串(“高尔夫”、“足球”、“温泉”、“围棋”、“日本象棋”、“电影”这样的表示子类型的字符串等)。然后,从这些节目标题之中,将包含了该标题用关键字词典中登录的字符串的标题的字符串整体作为关键字提取对象(步骤S2)。
接着,从步骤S2所产生的作为关键字提取对象的标题之中,将标题用排除字符串词典中登录的字符串(“电影”、“BS”等)部分置换为空格(步骤S3)。
接着,从经过步骤S3处理后的标题的字符串之中,利用图5所示的标题用提取规则,提取关键字(步骤S4)。
根据该标题用提取规则,该标题的字符串未被平假名、片假名、汉字、数字、字母之外的特殊字符(空格、×、「 」等)隔开时,该标题的字符串被原样当作关键字提取出来。另一方面,当该标题的字符串被这种特殊字符隔开时,就将特殊字符隔开的各字符串之中2个字符以上(含2个)的字符串分别提取出来作为关键字。
不过,不将“·”(中点)当作特殊字符。然后,当作为关键字提取出来的字符串的开头或末尾有“·”(中点)时,将删除“·”(中点)后的部分作为关键字。
最后,将步骤S4中提取的关键字作为标题字符串信息中的关键字的列表存储到闪存22(步骤S5)。
其次,图4是从详细字符串信息之中提取关键字的处理,最初,从闪存22中存储的EPG信息之中提取详细字符串信息(步骤S11)。
接着,从该详细字符串信息之中,查找详细信息用关键字词典中登录的字符串(名人的名称等)。然后,从该详细字符串信息之中,将该详细信息用关键字词典中登录的字符串作为关键字提取出来,同时将该字符串的一部分置换为半角空格(步骤S12)。
接着,从经过步骤S12处理后的详细字符串信息的字符串之中,将登录在详细信息用排除字符串词典中的字符串(“嘉宾”、“以上”、“导演”等)的一部分置换为半角空格(步骤S13)。
接着,从经过步骤S13处理后的详细字符串信息的字符串之中,利用图6所示的详细字符串信息用提取规则,提取关键字(步骤S14)。
该详细字符串信息用提取规则基本上是利用字符种类分隔法将平假名、片假名、汉字、数字、字母以及其他种类字符互相分离。
不过,将片假名和字母当作相同字符种类(不分离)。另外,当紧挨着“·”(中点)前面的字符是片假名或字母时,就分别将“·”(中点)当作片假名或字母处理(不分离)。
此外,从分离开的各字符串之中,除去只有平假名的字符串、只有2个汉字以下(包括2个)的字符串、只有6个汉字以上(包括6个)的字符串的字符串,将其余的字符串分别作为关键字提取出来。不过,当作为关键字提取出来的字符串的开头或末尾有“·”(中点)时,将删除“·”(中点)后的部分作为关键字。
最后,将步骤S12中提取的关键字和步骤S14中提取的关键字作为详细字符串信息中的关键字的列表存储到闪存22(步骤S15)。
接着,以具体实例说明该节目记录再现装置2中节目检索所需的关键字的提取。
假设在用户的频道选择操作时或基于用户的录像预约操作进行录像时,从多路分离器14发送过来并存储到闪存22之中的EPG信息中的标题字符串信息包含例如以下标题(其中,□□、△△表示职业棒球队名)。
爱的无谓纷扰
职业棒球转播□□×△△
BS电影《宇宙·大战》
这样,在图3的处理中,由于“爱”、“职业棒球”、“电影”这些字符串登录在标题用关键字词典中,在步骤S2,这些标题其标题字符串整体分别成为关键字提取对象。
此外,这些标题之中,关于BS电影《宇宙·大战》,在步骤S3,“BS”和“电影”被置换为空格。
另外,这些标题之中,关于职业棒球转播□□×△△,在“职业棒球转播”和“□□”之间有空格(特殊符号),在“□□”和“△△”之间有×(特殊符号),因此,在步骤S4,字符串“职业棒球转播”、“□□”、“△△”分别被作为关键字提取出来。
另外,这些标题之中,关于“BS”、“电影”部分被空格置换的《宇宙·大战》,由《》(特殊符号)隔开,另外“·”(中点)不作为特殊符号对待,因此,在步骤S4,原来的电影标题本身——《宇宙·大战》被作为关键字提取出来。
另外,这些标题之中,爱的无谓纷扰没有被特殊符号隔开,因此,在步骤S4,标题本身——“爱的无谓纷扰”被作为关键字提取出来。
因此,在步骤S5,下列字符串被作为节目检索用关键字存储到闪存22(如上所述,□□、△△表示职业棒球队名)。
爱的无谓纷扰
职业棒球转播
□□
△△
宇宙·大战
依照此种方式,对于爱的无谓纷扰、宇宙·大战这样的未被特殊字符隔开的标题,通过图3的处理,其标题所含的多个字符串不会被当作分散的关键字提取,而是其标题本身原样作为关键字被提取。
未被这种特殊字符分隔的标题,其标题所含的“爱”、“宇宙”等各个字符串的意义过于宽泛,用作节目检索的关键字时几乎不起作用(检索结果会非常多),通常是只有使用标题本身,才能构成高效有用的节目检索关键字。因此,用户使用所提取的关键字(标题本身)能够高效地检索节目。
另外,对于宇宙·大战这样的电影标题字符串,标题字符串信息中,该标题中附加的“BS”、“电影”这样的对于节目检索来说过于一般化的字符串没有包含在关键字中,同时,该标题字符串信息中,包围着该标题的《》也没有包含在关键字中。因此,用户能够高效地检索节目。
另外,在另一方面,对于职业棒球转播□□×△△这样的被特殊字符(空格或‘×’)隔开的标题,通过图3的处理,由特殊字符所隔开的各个字符串——职业棒球转播、□□、△△分别被作为关键字提取出来。
这样被特殊字符隔开的标题,其由特殊字符隔开的各个字符串各自发挥节目检索关键字的作用,标题本身限定性过大,通常起不到节目检索关键字的作用(比赛的两队(□□和△△的具体名称)不同,就成了不同标题,因此检索结果会为非常少,甚至为空)。因此,用户使用所提取的关键字(以特殊字符分隔的各个字符串)就能够高效地检索节目。
另一方面,在图4的处理中,在步骤S12,从闪存22中存储的EPG信息中的这些标题的节目的详细字符串信息之中,将详细信息用关键字词典中登录的名人(爱的无谓纷扰这个节目的主持人、嘉宾,或电影宇宙·大战的出场演员)的名称等作为关键字提取出来。
此时,由于姓是汉字而名是平假名或片假名的名人的名称(例如“石田あかり”这样的名字)也登录在该详细信息用关键字词典中,因此这样的名人的名称也被作为关键字提取出来。
另外,由于也使用了通过因特网下载的最新的详细信息用关键字词典,因此最近刚走红的人的名称也被作为关键字提取出来。
另外,该详细字符串信息之中,该名人的名称等部分和详细信息用排除字符串词典中登录的字符串(“嘉宾”、“以上”、“导演”等)部分在步骤S12和S13被置换为半角空格。
此外,在步骤S14,从被空格置换过的该详细字符串信息的字符串之中,根据图6所示的规则提取关键字。
此时,片假名和字母被当作相同字符种类处理,同时,当紧挨着“·”(中点)前面的字符是片假名或字母时,分别被当作片假名或字母处理,因此,姓和名之间插入了“·”(中点)的外国人名(例如,“B·ドゥ-リ-”)也被作为关键字提取出来。
另外,即使是最新的详细信息用关键字词典中也尚未登录的人(例如初出茅庐的无名艺人)的名称,只要不是只有平假名的名称或只有2个汉字以下(包含2个)的名称或只有6个汉字以上(包含6个)的名称(即作为人名来说不太常见的名称),也被作为关键字提取出来。
另外,“嘉宾”、“以上”、“导演”之类的不适合用于节目检索的字符串会被空格置换,因此不会被提取作关键字。
由此,在步骤S15,姓是汉字而名是平假名或片假名的名人名字,或最近刚刚走红的人的名称,或名以字母表示而姓以片假名表示的外国人名,或姓和名中间插入“·”(中点)的外国人名,也被当作节目检索关键字存储到闪存22。因此,用户使用所提取的关键字能够高效地检索节目。
此外,用户使用图3、图4的处理存储到闪存22中的关键字进行节目检索的方法可以是,例如,根据遥控器28所指定的操作,CPU19产生节目检索用画面(用来将关键字一览显示的画面,用户从中选择期望的关键字进行检索)的影像信号,经过影像信号处理电路17、影像输出端子29发送到显示装置3这样的适宜的方法。
如上所述,在该节目记录再现装置2中,从EPG信息中的标题字符串信息之中提取关键字以及从详细字符串信息之中提取关键字,是对应各自的信息使用互不相同的关键字词典和规则完成的,能够利用小规模的计算机程序或词典实现高精度的关键字提取。
由此,即使CPU19的处理能力或存储器(ROM20或闪存22等)的容量不太大,也能够从EPG信息中的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索节目所需的关键字。
此外,在以上的实例中,记录·再现数字电视广播的节目的装置中应用了本发明。但并不限定于此,记录·再现模拟电视广播的节目记录再现装置中当然也可以应用本发明。
图7是表示应用了本发明的模拟电视广播所使用的节目记录再现装置的硬件结构的框图。天线31接收后输入到节目记录再现装置41中的模拟广播信号中的影像·声音信号经调谐器42选择出频带,被MPEG编码器43编码。
观看电视节目时,该被编码的影像·声音数据经MPEG解码器47解码,从节目记录再现装置41发送到显示装置61。
另一方面,在记录电视节目时,经MPEG编码器43编码的影像·声音数据经由总线44发送到主存储装置45记录下来。
然后,在播放时,从主存储装置45读出来的影像·声音数据经由总线44发送到MPEG解码器47,经MPEG解码器47解码后从节目记录再现装置41发送到显示装置61。
另外,从经调谐器42选择频带后的模拟广播信号之中,利用EPG取得模块46获取EPG信息。该EPG信息也经由总线44发送到主存储装置45存储下来。
另外,用来与因特网71连接的通信接口48、ROM49、主存储装置50、辅助存储装置51、MPEG解码器47通过总线52相互联结。
该节目记录再现装置41也是将上述那样的标题用关键字词典、标题用排除字符串词典、详细信息用关键字词典、以及详细信息用排除字符串词典保存在ROM49中(关于详细信息用关键字词典,通过因特网从专用站点下载最新内容后也存储到辅助存储装置51),同时,对节目记录再现装置41整体进行控制的CPU53使用这些词典和主存储装置45中的EPG信息执行与图3、图4所示相同的关键字自动提取处理,将提取的关键字保存到辅助存储装置51。
该节目记录再现装置41也是与针对图1、图2的节目记录再现装置2所作的说明完全相同,根据其信息分别使用不同的关键字词典和规则来从EPG信息中的标题字符串信息之中提取关键字和从详细字符串信息之中提取关键字,由此,能够凭借小规模的计算机程序或词典而精确地提取关键字。
由此,即使CPU53的处理能力或存储器(ROM49或辅助存储装置51等)的容量不太大,也能够从EPG信息中的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索节目所需的关键字。
另外,在以上实例中,在与显示装置分离的节目记录再现装置中应用了本发明。但并不限定于此,该节目记录再现装置与显示装置为一体的电视接收机、或不具有节目记录再现功能的电视接收机中也可以应用本发明。
另外,在以上实例中,使用本发明从EPG信息中的节目的标题字符串信息、详细字符串信息之中检索关键字。但并不限定于此,使用本发明也可以从电视节目之外的内容(例如,通过因特网发布的内容)的标题字符串信息、详细字符串信息之中检索关键字。
另外,本发明不限于以上实例,只要不背离其主旨,当然可以采用其他的各种结构。
如上所述,借助于本发明,在CPU的处理能力和存储器容量都不太大的家电产品中,也能够从EPG信息一类的节目的标题字符串信息和详细字符串信息之中高效而精确地自动提取用户检索节目所需的关键字。
Claims (14)
1.一种关键字自动提取装置,其特征在于,具备:
第1提取单元,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;以及
第2提取单元,从上述内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
2.如权利要求1所述的关键字自动提取装置,其特征在于:上述第1提取单元从包含有第1关键字词典中登录的字符串的标题字符串之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,提取关键字。
3.如权利要求1所述的关键字自动提取装置,其特征在于:上述第1提取单元将包含有第1关键字词典中登录的字符串的标题字符串之中的、以平假名、片假名、汉字、数字、字母之外的特殊字符分隔的字符串作为关键字提取出来。
4.如权利要求1所述的关键字自动提取装置,其特征在于:上述第2提取单元,从使用上述第2关键字词典提取关键字后的上述详细字符串信息的剩余部分之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,进行利用字符种类分隔法的关键字的提取。
5.如权利要求1所述的关键字自动提取装置,其特征在于:上述第2提取单元利用字符种类分隔法,将片假名和字母作为相同字符种类处理,同时,当紧挨着“·”(中点)前面的字符是片假名或字母时,就将“·”(中点)分别当作片假名或字母处理。
6.如权利要求1所述的关键字自动提取装置,其特征在于:
还具备通过网络下载上述第2关键字词典的单元,
上述第2提取单元使用上述下载的第2关键字词典。
7.一种关键字自动提取方法,其特征在于,具有:
第1步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;以及
第2步骤,从上述内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
8.如权利要求7所述的关键字自动提取方法,其特征在于:
在上述第1步骤中,从包含有第1关键字词典中登录的字符串的标题字符串之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,提取关键字。
9.如权利要求7所述的关键字自动提取方法,其特征在于:在上述第1步骤中,将包含有第1关键字词典中登录的字符串的标题字符串之中的、以平假名、片假名、汉字、数字、字母之外的特殊字符分隔的字符串作为关键字提取出来。
10.如权利要求7所述的关键字自动提取方法,其特征在于:在上述第2步骤中,从使用上述第2关键字词典提取关键字后的上述详细字符串信息的剩余部分之中的、排除了登录在指定的排除字符串词典中的字符串之后的部分中,进行利用字符种类分隔法的关键字的提取。
11.如权利要求7所述的关键字自动提取方法,其特征在于:在上述第2步骤中,利用字符种类分隔法,将片假名和字母作为相同字符种类处理,同时,当紧挨着“·”(中点)前面的字符是片假名或字母时,就将“·”(中点)分别当作片假名或字母处理。
12.如权利要求7所述的关键字自动提取方法,其特征在于:
还具有通过网络下载上述第2关键字词典的步骤,
在上述第2步骤中,使用上述下载的第2关键字词典。
13.一种记录有计算机可读取的计算机程序的记录介质,该计算机程序是一种关键字自动提取装置的计算机程序,其特征在于,包含:
第1提取步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;以及
第2提取步骤,从上述内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
14.一种计算机程序,其特征在于,在控制关键字自动提取装置的计算机中执行:
第1提取步骤,使用登录有用来表示子类型的字符串的第1关键字词典,从内容的标题字符串信息之中提取关键字;以及
第2提取步骤,从上述内容的详细字符串信息之中,进行使用登录有人名的第2关键字词典的关键字的提取、以及利用字符种类分隔法的关键字的提取。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002221698A JP4040382B2 (ja) | 2002-07-30 | 2002-07-30 | キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム |
JP221698/2002 | 2002-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1682220A true CN1682220A (zh) | 2005-10-12 |
CN100530174C CN100530174C (zh) | 2009-08-19 |
Family
ID=31184873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038223856A Expired - Lifetime CN100530174C (zh) | 2002-07-30 | 2003-07-30 | 关键字的自动提取装置和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7577972B2 (zh) |
EP (1) | EP1544751A4 (zh) |
JP (1) | JP4040382B2 (zh) |
KR (1) | KR100993957B1 (zh) |
CN (1) | CN100530174C (zh) |
WO (1) | WO2004012101A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444591C (zh) * | 2006-08-18 | 2008-12-17 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN102687148A (zh) * | 2010-10-14 | 2012-09-19 | Jvc建伍株式会社 | 过滤装置及过滤方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006013619A (ja) * | 2004-06-22 | 2006-01-12 | Pioneer Electronic Corp | データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体 |
JP2006041978A (ja) * | 2004-07-28 | 2006-02-09 | Matsushita Electric Ind Co Ltd | 放送受信装置 |
JP4498903B2 (ja) * | 2004-11-30 | 2010-07-07 | シャープ株式会社 | 番組情報抽出装置、番組情報表示装置、番組情報抽出方法、プログラム、および、プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007074169A (ja) * | 2005-09-05 | 2007-03-22 | Sharp Corp | 番組抽出装置 |
US7461093B2 (en) | 2005-09-12 | 2008-12-02 | Sharp Kabushiki Kaisha | Network connecting device, server device, terminal device, system, receiving method, character input method, transmission method, program, and computer-readable storage medium |
JP2007079745A (ja) * | 2005-09-12 | 2007-03-29 | Sharp Corp | ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
EP1901187A3 (de) | 2006-09-16 | 2009-02-04 | LOEWE OPTA GmbH | Verfahren zur Suche nach Nutzdaten in Datenbanken von unterhaltungselektronischen Geräten |
TW200836564A (en) * | 2007-02-16 | 2008-09-01 | Mstar Semiconductor Inc | Control circuit of a display with program searching function, and method for controlling the display to receive program information and select program |
JP5178109B2 (ja) * | 2007-09-25 | 2013-04-10 | 株式会社東芝 | 検索装置、方法及びプログラム |
JP2009094658A (ja) * | 2007-10-05 | 2009-04-30 | Hitachi Ltd | 関連情報提供装置、及び関連情報提供方法 |
JP2010003383A (ja) * | 2008-06-23 | 2010-01-07 | Victor Co Of Japan Ltd | 放送番組記録再生装置 |
US8606788B2 (en) * | 2011-06-15 | 2013-12-10 | Microsoft Corporation | Dictionary for hierarchical attributes from catalog items |
JP5516641B2 (ja) * | 2012-04-27 | 2014-06-11 | 株式会社Jvcケンウッド | 放送番組記録再生装置 |
CN105554519B (zh) * | 2015-12-24 | 2019-02-22 | 北京酷云互动科技有限公司 | Epg信息解析方法及系统 |
CN106933799A (zh) * | 2015-12-31 | 2017-07-07 | 北京四维图新科技股份有限公司 | 一种兴趣点poi名称的中文分词方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0810452B2 (ja) * | 1988-04-18 | 1996-01-31 | 日本電信電話株式会社 | 日本語対象文固有用語抽出処理装置 |
US9286294B2 (en) * | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
US5870084A (en) * | 1996-11-12 | 1999-02-09 | Thomson Consumer Electronics, Inc. | System and method for efficiently storing and quickly retrieving glyphs for large character set languages in a set top box |
JP3880116B2 (ja) * | 1996-12-27 | 2007-02-14 | キヤノン株式会社 | 電子ファイリングシステム、電子ファイリング方法及び記録媒体 |
JPH10198667A (ja) * | 1996-12-28 | 1998-07-31 | Casio Comput Co Ltd | 文字列変換装置およびそのプログラム記録媒体 |
ATE308203T1 (de) * | 1998-05-22 | 2005-11-15 | Koninkl Philips Electronics Nv | Aufnahemvorrichtung mit schlüsselworterkennungsmitteln |
JP3645720B2 (ja) * | 1998-10-02 | 2005-05-11 | 松下電器産業株式会社 | Epg情報表示方法、及びプログラム記録媒体 |
US7209942B1 (en) | 1998-12-28 | 2007-04-24 | Kabushiki Kaisha Toshiba | Information providing method and apparatus, and information reception apparatus |
JP2001075959A (ja) * | 1999-08-31 | 2001-03-23 | Matsushita Electric Ind Co Ltd | 文書処理装置 |
US6449766B1 (en) * | 1999-12-23 | 2002-09-10 | Webtv Networks, Inc. | System and method for consolidating television rating systems |
CA2362416C (en) * | 2000-01-05 | 2009-08-04 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
US6463428B1 (en) * | 2000-03-29 | 2002-10-08 | Koninklijke Philips Electronics N.V. | User interface providing automatic generation and ergonomic presentation of keyword search criteria |
JP2001337980A (ja) * | 2000-05-29 | 2001-12-07 | Sony Corp | 電子番組ガイド検索方法及び電子番組ガイド検索装置 |
US6925650B1 (en) * | 2000-08-21 | 2005-08-02 | Hughes Electronics Corporation | Method and apparatus for automated creation of linking information |
-
2002
- 2002-07-30 JP JP2002221698A patent/JP4040382B2/ja not_active Expired - Lifetime
-
2003
- 2003-07-30 CN CNB038223856A patent/CN100530174C/zh not_active Expired - Lifetime
- 2003-07-30 US US10/523,332 patent/US7577972B2/en active Active
- 2003-07-30 WO PCT/JP2003/009678 patent/WO2004012101A1/ja active Application Filing
- 2003-07-30 EP EP03771430A patent/EP1544751A4/en not_active Ceased
- 2003-07-30 KR KR1020057001427A patent/KR100993957B1/ko active IP Right Grant
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444591C (zh) * | 2006-08-18 | 2008-12-17 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN102687148A (zh) * | 2010-10-14 | 2012-09-19 | Jvc建伍株式会社 | 过滤装置及过滤方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100993957B1 (ko) | 2010-11-11 |
JP2004062639A (ja) | 2004-02-26 |
US20060116869A1 (en) | 2006-06-01 |
EP1544751A1 (en) | 2005-06-22 |
JP4040382B2 (ja) | 2008-01-30 |
KR20050025999A (ko) | 2005-03-14 |
US7577972B2 (en) | 2009-08-18 |
WO2004012101A1 (ja) | 2004-02-05 |
CN100530174C (zh) | 2009-08-19 |
EP1544751A4 (en) | 2007-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1682220A (zh) | 关键字的自动提取装置和方法、记录介质以及计算机程序 | |
CN1300726C (zh) | 使用多媒体用户简档的多媒体检索和浏览方法 | |
US8346558B2 (en) | Information processing apparatus, method and program | |
CN1244063C (zh) | 提供多媒体信息的方法 | |
CN1230798C (zh) | 利用语音识别的选台装置及其控制方法 | |
US20070033006A1 (en) | Information processing apparatus, method and program | |
CN1516960A (zh) | 节目选择装置、节目选择方法、及节目信息提供系统 | |
CN1930874A (zh) | 录像预约装置和录像预约方法 | |
CN1383328A (zh) | 推荐节目的方法及其系统 | |
CN1975733A (zh) | 视频内容观看支持系统和方法 | |
CN1668104A (zh) | 提供数据存储到点播媒体传递系统中服务器上的系统和方法 | |
CN1228970C (zh) | 用于管理数据的装置及方法 | |
CN1533163A (zh) | 电子节目指南数据的自由文本和属性搜索 | |
CN100348022C (zh) | 电视接收机及包含它的系统 | |
CN1620122A (zh) | 内容提取方法和内容提取装置、内容信息显示方法和显示装置 | |
CN101064825A (zh) | 基于移动设备的体育视频的个性化定制方法及其装置 | |
CN1758727A (zh) | 电视节目自动检索方法和装置 | |
CN1284361C (zh) | 信息搜索设备、信息接收器及其方法 | |
CN1842156A (zh) | 一种数字电视的节目搜索的方法 | |
CN1663241A (zh) | 信息处理装置与方法及软件程序 | |
JPWO2008078717A1 (ja) | 番組データ管理サーバ、識別子割当装置、番組データ管理方法及びプログラム | |
CN101079073A (zh) | 程序、信息处理方法和信息处理装置 | |
CN1611070A (zh) | 信息处理装置和信息处理方法、记录媒体以及程序 | |
JP4623070B2 (ja) | キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム | |
CN1460361A (zh) | 用于为“记忆错觉deja vu”视频系统提供用户接口的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20090819 |