CN101916268B - 汉语词组库的建立及更新方法 - Google Patents

汉语词组库的建立及更新方法 Download PDF

Info

Publication number
CN101916268B
CN101916268B CN2010102443218A CN201010244321A CN101916268B CN 101916268 B CN101916268 B CN 101916268B CN 2010102443218 A CN2010102443218 A CN 2010102443218A CN 201010244321 A CN201010244321 A CN 201010244321A CN 101916268 B CN101916268 B CN 101916268B
Authority
CN
China
Prior art keywords
chinese
phrase
storehouse
common
common phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010102443218A
Other languages
English (en)
Other versions
CN101916268A (zh
Inventor
樊滨温
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN2010102443218A priority Critical patent/CN101916268B/zh
Publication of CN101916268A publication Critical patent/CN101916268A/zh
Application granted granted Critical
Publication of CN101916268B publication Critical patent/CN101916268B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种汉语词组库的建立及更新方法,从EPG的相关信息中提取常用词组,从而建立常用词组库;按照设定对常用词组库进行更新,以使常用词组库中的汉语词组与当前EPG信息相匹配。本发明的有益效果是:通过从EPG相关信息中获取常用词组并建立常用词组库,且按照设定对所述常用词组库进行更新,使得常用词组库中的汉语词组一直保持与当前EPG信息相匹配,从而使用户可以非常方便快捷的寻找到电视节目,并且使常用词组库的大小更合理更有效。

Description

汉语词组库的建立及更新方法
【技术领域】
本发明涉及汉语词组库的建立及更新方法,尤其涉及在机顶盒中建立汉语词组库及更新方法。
【背景技术】
在机顶盒中,若想从EPG信息中搜索感兴趣的节目,例如想在EPG信息中搜索哪个电视台正在播放电视剧“亮剑”,必须有汉字输入法的支持,汉字输入法中必须有汉字库,而高级的汉字输入法一般不光支持全拼输入还支持头拼音字母组合的输入。例如输入词组“亮剑”时,只需输入每个汉字的头字母组合“LJ”,而不必输入全拼“liangjian”,这就提高了效率,但是要完成这种功能,系统必须有常用词组库。一方面,常用词组库的词条数要适当,太小,不能囊括常用的词语,太大又占存储空间太多,另一方面,词条应该能更新,电视节目中经常会出现一些新的词汇,例如电影名字和电视剧的名字等等,这些新的词组应该不断地加进词库中,而对机顶盒这种电子产品,卖出去就很难再收回来更新词库。
【发明内容】
本发明要解决的技术问题是,提供一种在机顶盒中能够建立并能更新的汉语词组库方法。
本发明提供了一种汉语词组库的建立及更新方法,从EPG相关信息中提取常用词组,从而建立常用词组库;按照设定对常用词组库进行更新,以使常用词组库中的汉语词组与当前EPG信息相匹配。
作为本发明的进一步改进,所述EPG相关信息为从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词。
作为本发明的进一步改进,常用词组库的建立方法为:步骤一:从EPG信息中提取相关信息;步骤二:提取出的信息中如果有非汉字的部分,将其去除并分解成一个或几个标准的汉语词组;步骤三:将标准的汉语词组存入常用词组库,相同的词组不必存入。
作为本发明的进一步改进,所述常用词组库更新方式为:首先将所述常用词组库删除,再从当前EPG中获取相关信息,提取汉语词组,建立新的常用词组库。
作为本发明的进一步改进,所述常用词组库更新方式为:首先将所述常用词组库中的所有汉语词组清空,再从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;判断全部汉语词组所占用的空间是否大于所述常用词组库空间,如果大于所述常用词组库空间,那么将所述常用词组库删除,并建立新的常用词组库,然后将所述全部汉语词组存入所述新的常用词组库中,或者增加所述常用词组库空间,然后将所述全部汉语词组存入增加空间后的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么将所述全部汉语词组存入所述常用词组库中。
作为本发明的进一步改进,所述常用词组库更新方式为:步骤一:从当前EPG信息中获取相关信息,提取全部汉语词组,并建立汉语词组列表;步骤二:将所述常用词组库中的每个汉语词组分别与所述汉语词组列表中的汉语词组进行逐个比较;步骤三:判断常用词组库中的汉语词组是否与汉语词组列表中的汉语词组相同;如果常用词组库中的某个汉语词组与汉语词组列表中的相应汉语词组相同,那么执行步骤四,将汉语词组列表中的相应汉语词组进行标识;如果常用词组库中的某个汉语词组与汉语词组列表中的每个汉语词组均不相同,那么执行步骤五,将常用词组库中的该汉语词组删除;最后执行步骤六:将汉语词组列表中未进行标识的汉语词组存入常用词组库中。
作为本发明的进一步改进,所述常用词组库更新时机为用户设定或系统设定或机顶盒开机初始化时,所述常用词组库进行更新。
作为本发明的进一步改进,根据EPG信息的不同,建立多个常用词组库,每个常用词组库均与不同的EPG信息相对应。
作为本发明的进一步改进,在常用词组库建立完毕之后,根据用户输入的查找信息提取常用词组库中的常用词组,再根据该常用词组,快速搜索到电视节目。
本发明的有益效果是:通过从EPG相关信息中获取常用词组并建立常用词组库,且按照设定对所述常用词组库进行更新,使得常用词组库中的汉语词组一直保持与当前EPG信息相匹配,从而使用户可以非常方便快捷的寻找到电视节目,并且使常用词组库的大小更合理更有效。
【附图说明】
图1是本发明汉语词组库的建立及更新方法的框图;
图2是本发明汉语词组库更新方法的第一种实施方式流程图;
图3是本发明汉语词组库更新方法的第二种实施方式流程图;
图4是本发明汉语词组库更新方法的第三种实施方式流程图;
图5是本发明汉语词组库更新方法的第四种实施方式流程图;
图6是本发明汉语词组库更新方法的第四种实施方式演示图;
图7是本发明建立汉语词组库的实施方式流程图。
【具体实施方式】
如图1所示,本发明公开了一种汉语词组库的建立及更新方法,在步骤A1中,从EPG相关信息中提取常用词组,从而建立常用词组库;在步骤A2中,按照设定对所述常用词组库进行更新,以使常用词组库中的汉语词组与所述EPG信息相匹配。所述EPG相关信息为从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词。当然所述EPG相关信息也可以为将从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词组合在一起的信息。
如图2所示是本发明汉语词组库更新方法的第一种实施方式,在步骤B1中,将所述常用词组库删除;在步骤B2中,从当前EPG中获取相关信息,提取汉语词组,建立新的常用词组库。
如图3所示是本发明汉语词组库更新方法的第二种实施方式,在步骤C1中,将所述常用词组库中的所有汉语词组清空;在步骤C2中,从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;在步骤C3中,判断全部汉语词组所占用的空间是否大于所述常用词组库空间;如果大于所述常用词组库空间,那么便执行步骤C4,将所述常用词组库删除,再执行步骤C5,将建立新的常用词组库,然后将所述全部汉语词组存入所述新的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么执行步骤C6,将所述全部汉语词组存入所述常用词组库中。
如图4所示是本发明汉语词组库更新方法的第三种实施方式,在步骤D1中,将所述常用词组库中的所有汉语词组清空;在步骤D2中,从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;在步骤D3中,判断全部汉语词组所占用的空间是否大于所述常用词组库空间;如果大于所述常用词组库空间,那么便执行步骤D4,增加所述常用词组库空间,再执行步骤D5,将所述全部汉语词组存入增加空间后的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么执行步骤D6,将所述全部汉语词组存入所述常用词组库中。汉语词组库的第二种和第三种更新方法不是采用将常用词组库删除,然后再重新建立方法,而是采用先将所述常用词组库中的所有汉语词组清空,再将重新获得的汉语词组存入常用词组库中的方法,这种方法无需删除常用词组库,从而使得常用词组库的更新速度加快。
如图5所示是本发明汉语词组库更新方法的第四种实施方式,在步骤E1中,从当前EPG信息中获取相关信息,提取全部汉语词组,并建立汉语词组列表;在步骤E2中,将所述常用词组库中的每个汉语词组分别与所述汉语词组列表中的汉语词组进行逐个比较;在步骤E3中,在步骤E2进行比较的同时,判断常用词组库中的汉语词组是否与汉语词组列表中的汉语词组相同;如果常用词组库中的某个汉语词组与汉语词组列表中的相应汉语词组相同,那么执行步骤E4,将汉语词组列表中的相应汉语词组进行标识;如果常用词组库中的某个汉语词组与汉语词组列表中的每个汉语词组均不相同,那么执行步骤E5,将常用词组库中的该汉语词组删除;最后执行步骤E6:将汉语词组列表中未进行标识的汉语词组存入常用词组库中。第四种实施方式只需将部分汉语词组从常用词组库中删除或向常用词组库中增加部分常用词组便可完成对常用词组库的更新,进一步加快了更新速度。
如图6所示是本发明汉语词组库更新方法的第四种实施方式的演示过程,在汉语词组列表H1中有汉语词组水浒传、三国演义、西游记、红楼梦;在常用词组库H2中存有汉语词组西游记、亮剑、大染坊、水浒传、第一现场;首先将常用词组库H2中西游记与汉语词组列表H1的水浒传进行比较,接下来H2中的西游记与H1中的三国演义进行比较,接下来H2中西游记与H1中的西游记进行比较,判断出H2中西游记与H1中的西游记相同,那么对H1中的西游记进行标识;接下来H2中的亮剑与H1中的各汉语词组进行比较,判断出H2中的亮剑与H1中的各汉语词组均不相同,那么将H2中的亮剑删除;以此类推,最后将H2中的亮剑和大染坊和第一现场删除,将H1中的三国演义和红楼梦存入H2中。
如图7所示是本发明建立汉语词组库的实施方式,在步骤F1中,从EPG信息中提取相关信息;在步骤F2中,提取出的信息中如果有非汉字的部分,将其去除并分解成一个或几个标准的汉语词组;在步骤F3中,将标准的汉语词组存入常用词组库,相同的词组不必存入。例如EPG信息为“亮剑(12)”,那么便将“(12)”去除,然后将“亮剑”存入常用词组库中。例如EPG信息为“中超比赛武汉VS深圳”那么便将“VS”去除,然后将“中超比赛”和“武汉”和“深圳”三个标准汉语词组存入常用词组库中。
常用词组库更新时机为用户设定或系统设定或机顶盒开机初始化时,所述常用词组库进行更新。所述用户设定是指用户根据自己的需要,在机顶盒系统上设置更新时机,例如用户可设定每过5个小时,常用词组库进行更新,或者每周一,常用词组库进行更新。系统设定是指机顶盒的内部系统设定了常用词组库更新时机。根据EPG信息的不同,可以建立多个常用词组库,每个常用词组库均与不同的EPG信息相对应,例如可以同时建立节目名称常用词组库和演员姓名常用词组库,通过多个常用词组库的配合,使得搜索节目更加快速和准确。该汉语词组库的建立和更新方法无论是有线数字电视、地面数字电视还是卫星数字电视的标清或高清机顶盒都适用。所述EPG为电子节目指南。
在常用词组库建立完毕之后,根据用户输入的查找信息提取常用词组库中的常用词组,再根据该常用词组,快速搜索到电视节目。该查找信息可以是每个汉字的头字母组合,例如需要搜索电视剧《亮剑》时,只需在机顶盒的搜索框中输入“LJ”就会将常用词组库的“亮剑”提取出来,而不必输入全拼“liangjian”。同理该查找信息也可以是每个汉字的第一笔画组合,例如需要搜索电视剧《亮剑》时,只需输入一点和一撇的组合。同理该查找信息也可以是每个汉字的前两笔画的组合,即采用五笔字型输入法,还以电视剧《亮剑》为例,只需输入“ypwg”便可将常用词组库的“亮剑”提取出来。可以使用摇控器上的按键输入查找信息。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种常用词组库的建立及更新方法,其特征在于:从EPG相关信息中提取常用词组,从而建立常用词组库;按照设定对常用词组库进行更新,以使常用词组库中的汉语词组与当前EPG信息相匹配;
常用词组库的建立方法为:步骤一:从EPG信息中提取相关信息;步骤二:提取出的信息中如果有非汉字的部分,将其去除并分解成一个或几个标准的汉语词组;步骤三:将标准的汉语词组存入常用词组库,相同的词组不必存入;
所述常用词组库更新方式为:首先将所述常用词组库中的所有汉语词组清空,再从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间,
判断全部汉语词组所占用的空间是否大于常用词组库空间,如果大于所述常用词组库空间,那么将所述常用词组库删除,并建立新的常用词组库,然后将所述全部汉语词组存入所述新的常用词组库中,或者增加所述常用词组库空间,然后将所述全部汉语词组存入增加空间后的常用词组库中,
如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么将所述全部汉语词组存入所述常用词组库中;
或者所述常用词组库更新方式为:步骤一:从当前EPG信息中获取相关信息,提取全部汉语词组,并建立汉语词组列表;步骤二:将所述常用词组库中的每个汉语词组分别与所述汉语词组列表中的汉语词组进行逐个比较;步骤三:判断常用词组库中的汉语词组是否与汉语词组列表中的汉语词组相同;如果常用词组库中的某个汉语词组与汉语词组列表中的相应汉语词组相同,那么执行步骤四,将汉语词组列表中的相应汉语词组进行标识;如果常用词组库中的某个汉语词组与汉语词组列表中的每个汉语词组均不相同,那么执行步骤五,将常用词组库中的该汉语词组删除;最后执行步骤六:将汉语词组列表中未进行标识的汉语词组存入常用词组库中。
2. 根据权利要求1所述的常用词组库的建立及更新方法,其特征在于:所述EPG相关信息为从每个电视台的每一档节目中提取出的节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词。
3. 根据权利要求1所述的常用词组库的建立及更新方法,其特征在于:所述常用词组库更新时机为用户设定或系统设定或机顶盒开机初始化时,所述常用词组库进行更新。
4. 根据权利要求3所述的常用词组库的建立及更新方法,其特征在于:根据EPG信息的不同,建立多个常用词组库,每个常用词组库均与不同的EPG信息相对应。
5.根据权利要求4所述的常用词组库的建立及更新方法,其特征在于:在常用词组库建立完毕之后,根据用户输入的查找信息提取常用词组库中的常用词组,再根据该常用词组,快速搜索到电视节目。
CN2010102443218A 2010-08-04 2010-08-04 汉语词组库的建立及更新方法 Expired - Fee Related CN101916268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102443218A CN101916268B (zh) 2010-08-04 2010-08-04 汉语词组库的建立及更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102443218A CN101916268B (zh) 2010-08-04 2010-08-04 汉语词组库的建立及更新方法

Publications (2)

Publication Number Publication Date
CN101916268A CN101916268A (zh) 2010-12-15
CN101916268B true CN101916268B (zh) 2012-07-25

Family

ID=43323780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102443218A Expired - Fee Related CN101916268B (zh) 2010-08-04 2010-08-04 汉语词组库的建立及更新方法

Country Status (1)

Country Link
CN (1) CN101916268B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731769B (zh) * 2015-03-09 2017-11-14 北京语言大学 面向汉语教学的词语常用度的获取方法及获取系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922605A (zh) * 2003-12-26 2007-02-28 松下电器产业株式会社 辞典制作装置以及辞典制作方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101889281B (zh) * 2008-03-10 2012-10-17 松下电器产业株式会社 内容检索装置及内容检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922605A (zh) * 2003-12-26 2007-02-28 松下电器产业株式会社 辞典制作装置以及辞典制作方法

Also Published As

Publication number Publication date
CN101916268A (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
US8115869B2 (en) Method and system for extracting relevant information from content metadata
CN100545907C (zh) 语音识别词典制作装置及信息检索装置
EP1463307B1 (en) Free text and attribute searching of electronic program guide (EPG) data
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
EP3010235B1 (en) System and method for detecting advertisements on the basis of fingerprints
CN101889281B (zh) 内容检索装置及内容检索方法
CN103593363A (zh) 视频内容索引结构的建立方法、视频检索方法及装置
US20060167859A1 (en) System and method for personalized searching of television content using a reduced keypad
CN102650993A (zh) 音视频文件的索引建立和检索方法、装置及系统
JP2012523607A (ja) 放送プログラム関連情報提供装置および方法
CN102006514B (zh) 一种基于电视节目epg内容的搜索管理系统及其方法
US20110252447A1 (en) Program information display apparatus and method
CN103020140A (zh) 一种对互联网用户评论内容自动过滤的方法和装置
WO2015191331A1 (en) Method and system for generating references to related video
EP2691845A2 (en) Semantic enrichment by exploiting top-k processing
CN103778131A (zh) 字幕查询方法、查询装置、视频播放器及字幕查询服务器
CN103500172A (zh) 一种图片搜索系统
WO2023246259A1 (zh) 视频识别方法、装置、计算机设备和存储介质
CN101916268B (zh) 汉语词组库的建立及更新方法
CN102436458A (zh) 一种命令解析的方法及其系统
WO2017008498A1 (zh) 搜索节目的方法及装置
WO2008100037A1 (en) The system and method for generating indexing information of multimedia data file using vocal data and retrieving indexing information of multimedia data file
JP2003018492A (ja) テレビジョン番組情報表示装置
CN104254003A (zh) 一种智能终端设备的频道切换方法及装置
US8904437B2 (en) Similar content search device and computer-readable storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20150804

EXPY Termination of patent right or utility model