CN103309993A - 一种关键词的提取方法及装置 - Google Patents

一种关键词的提取方法及装置 Download PDF

Info

Publication number
CN103309993A
CN103309993A CN2013102474347A CN201310247434A CN103309993A CN 103309993 A CN103309993 A CN 103309993A CN 2013102474347 A CN2013102474347 A CN 2013102474347A CN 201310247434 A CN201310247434 A CN 201310247434A CN 103309993 A CN103309993 A CN 103309993A
Authority
CN
China
Prior art keywords
keyword
program
caption information
doubtful wrong
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102474347A
Other languages
English (en)
Other versions
CN103309993B (zh
Inventor
刘赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201310247434.7A priority Critical patent/CN103309993B/zh
Publication of CN103309993A publication Critical patent/CN103309993A/zh
Application granted granted Critical
Publication of CN103309993B publication Critical patent/CN103309993B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词的提取方法及装置。所述方法包括:获取节目的字幕信息;根据已有的关键词对字幕信息进行提取。本发明还公开了用于实现所述方法的装置。本发明提供了一种高效的关键词提取方案,能够有效地提高提取关键词的准确性。

Description

一种关键词的提取方法及装置
技术领域
本发明涉及网络视频技术领域,尤其涉及一种关键词的提取方法及装置。
背景技术
随着网络视频业务的迅猛发展,网络视频使用越来越普及。
例如,目前的网络视频中,为了增强用户的体验度,很多网络视频网站根据视频播放的内容为用户提供字幕信息。例如,通常情况下的字幕信息出现在屏幕的下方。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:通常情况下,字幕信息是自动生成的,虽然有对字幕信息的校正过程,但是不能达到百分百准确,从而导致如果从字幕信息中提取的关键词也不准确。因此,现有的针对字幕信息的关键词提取的准确性较差。
发明内容
本发明实施例提供一种关键词的提取方法及装置,用于实现提供一种关键词的提取方案,提高视频中的字幕信息中的文字的准确性。
第一方面,本发明实施例提供一种关键词提取方法,包括以下步骤:
获取节目的字幕信息;
根据已有的关键词对字幕信息进行提取。
可选地,结合上述第一方面,在第一方面的第一实现方式中,所述根据已有的关键词对字幕信息进行提取之前,还包括:
获取所述节目的相关信息;
从所述节目的相关信息中提取所述已有的关键词。
可选地,结合上述第一方面的第一实现方式,在第一方面的第二实现方式中,获取所述节目的相关信息,包括:根据所述节目预告单,获取所述节目的标识信息,根据所述节目的标识信息从网络中搜索所述节目的相关信息;或者从预设知识库中获取所述节目的相关信息。
可选地,结合上述第一方面或其第一实现方式或其第二实现方式,在第一方面的第三实现方式中,所述获取节目的字幕信息之后,所述根据已有的关键词对字幕信息进行提取之前,还包括:
根据所述已有的关键词判断所述字幕信息中是否包括有疑似错误关键词,所述疑似错误关键词与所述已有的关键词包含的字的长度相同,且所述疑似错误关键词与所述已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值;
并确定所述字幕信息中包括有所述疑似错误关键词;
所述根据已有的关键词对字幕信息进行提取,包括:
根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
可选地,结合上述第一方面的第三实现方式,在第一方面的第四实现方式中,当确定所述字幕信息中包括有疑似错误关键词之后,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词之前,还包括:
判断所述疑似错误关键词的置信度是否小于第二预设阈值,所述疑似错误关键词在所述字幕信息的所有关键词中的比例是否大于等于第三预设阈值;
并确定所述疑似错误关键词的置信度小于所述第二预设阈值,且所述疑似错误关键词在所述字幕信息的所有关键词中的比例大于等于所述第三预设阈值。
第二方面,本发明实施例提供一种关键词提取装置,包括:
获取模块,用于获取节目的字幕信息;
提取模块,用于根据已有的关键词对字幕信息进行提取。
可选地,结合上述第二方面,在第二方面的第一实现方式中,还包括提取模块;
所述获取模块,还用于在所述提取模块根据所述已有的关键词对所述字幕信息进行提取之前,获取所述节目的相关信息;
所述提取模块,用于从所述节目的相关信息中提取所述已有的关键词。
可选地,结合上述第二方面的第一实现方式,在第二方面的第二实现方式中,所述获取模块,具体用于根据所述节目预告单,获取所述节目的标识信息,根据所述节目的标识信息从网络中搜索所述节目的相关信息;
或者所述获取模块,具体用于从预设知识库中获取所述节目的相关信息。
可选地,结合上述第二方面或其第一实现方式或其第二实现方式,在第二方面的第三实现方式中,还包括判断模块和确定模块;
所述判断模块,用于根据所述已有的关键词判断所述字幕信息中是否包括有疑似错误关键词,所述疑似错误关键词与所述已有的关键词包含的字的长度相同,且所述疑似错误关键词与所述已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值;
所述确定模块,用于确定所述字幕信息中包括有所述疑似错误关键词;
所述提取模块,具体用于根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
可选地,结合上述第二方面的第三实现方式,在第二方面的第四实现方式中,所述判断模块,还用于当所述确定模块确定所述字幕信息中包括有所述疑似错误关键词之后,所述提取模块根据所述疑似错误关键词确定所述已有的关键词为提取的关键词之前,判断所述疑似错误关键词的置信度是否小于第二预设阈值,所述疑似错误关键词在所述字幕信息的所有关键词中的比例是否大于等于第三预设阈值;
所述确定模块,还用于确定所述疑似错误关键词的置信度小于所述第二预设阈值,且所述疑似错误关键词在所述字幕信息的所有关键词中的比例大于等于所述第三预设阈值。
本发明实施例的关键词提取方法及装置,通过获取节目的字幕信息;并根据已有的关键词对字幕信息进行提取,提供了一种高效的关键词提取方案,能够有效地提高提取关键词的准确性。
进一步可选地,本发明实施例可以通过获取节目的相关信息;从节目的相关信息中提取已有的关键词,从而可以提高获取的已有的关键词的准确性,从而可以有效地提高提取关键词的准确性。
进一步可选地,本发明实施例中,具体可以根据节目预告单,获取节目的标识信息,根据节目的标识信息从网络中搜索节目的相关信息,提供了一种可靠的获取节目的相关信息的方式,且能够有效地保证节目的相关信息的准确性,从而可以提高获取的已有的关键词的准确性,从而可以有效地提高提取关键词的准确性。
进一步可选地,本发明实施例中,当确定字幕信息中包括有疑似错误关键词之后,先判断疑似错误关键词的置信度是否小于第二预设阈值,疑似错误关键词在字幕信息的所有关键词中的比例是否大于等于第三预设阈值;当确定疑似错误关键词的置信度小于第二预设阈值,疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值时,采用已有的关键词替换疑似错误关键。采用该技术方案,由于置信度小于第二预设阈值表示该疑似错误关键词的错误的概率较大;疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值,表示该疑似错误关键词在整个节目的字幕信息中的比重也较高,需要进行提取。此时采用已有的关键词替换疑似错误关键,进一步有效地提高了提取的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一提供的关键词提取方法的流程图。
图2为本发明实施例二提供的关键词提取方法的流程图。
图3为本发明实施例三提供的关键词提取装置的结构示意图。
图4为本发明实施例四提供的关键词提取装置的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例一
图1为本发明实施例一提供的关键词提取方法的流程图。如图1所示,本实施例的关键词提取方法,具体可以包括以下步骤:
100、获取节目的字幕信息;
101、根据已有的关键词对字幕信息进行提取。
本实施例的关键词提取方法的执行主体为一关键词提取装置,该关键词提取装置具体可以设置在网络视频服务器中,以根据字幕信息确定关键词,以提高提取关键词的准确性。
本实施例的关键词提取方法,通过获取节目的字幕信息;并根据已有的关键词对字幕信息进行提取,提供了一种高效的关键词提取方案,能够有效地提高关键词提取的准确性。
可选地,在上述图1所示实施例的技术方案的基础上,在步骤101“根据已有的关键词对字幕信息进行提取”之前,上述实施例的关键词提取方法,具体还可以包括如下步骤:
(1)获取节目的相关信息;
例如,具体可以根据节目预告单,获取节目的标识信息,根据节目的标识信息从网络中搜索节目的相关信息。其中节目的标识信息可以为节目的名称,或者简介等信息。或者,还可以从预设知识库中获取节目的相关信息。预设知识库是预先设定的包括很多的节目的相关信息的数据库。
例如当节目预告单的节目名称为水浒传,此时可以通过互联网搜索水浒传的相关信息,如水浒传中的各个人物介绍,以及各个故事情节介绍等等。本实施例的例子仅为描述本发明技术方案的一个示例,并不对权利要求的保护做任何限制。
(2)从节目的相关信息中提取关键词,作为已有的关键词。
例如,结合上述例子,当节目预告单的节目名称为水浒传时,这里提取的关键词可以包括很多,如人物名称宋江等等,还可以为故事名称如武松打虎等等。这些预设关键词可以根据实际需求设置为物名、地名、人名或/和事件名等等。
上述实施例的技术方案,提供了一种可靠的获取节目的相关信息的方式,且能够有效地保证节目的相关信息的准确性,从而可以提高获取的已有的关键词的准确性,从而可以有效地提高提取关键词的准确性。
可选地,在上述实施例的技术方案的基础上,在步骤100“获取节目的字幕信息”之后,步骤101“根据已有的关键词对字幕信息进行提取”之前,上述实施例的关键词提取方法,具体还可以包括如下步骤:
(a)根据已有的关键词判断字幕信息中是否包括有疑似错误关键词;当包括的时候,执行步骤(b),否则当不包括的时候,执行步骤(c);
本实施例中的疑似错误关键词与已有的关键词包含的字的长度相同,且疑似错误关键词与已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值。其中已有的关键词包含的字的长度指的是该已有关键词中包括的字的数量。疑似错误关键词与已有的关键词中不相同的字的长度,指的是疑似错误关键词与已有的关键词中不相同的字的数量。
因为通常情况下一个关键词中不可能所有的字都错误了,因此这里可以根据实际需求设置一个第一预设阈值,例如当关键词包含的字的长度越大,该第一预设阈值可以设置的稍小,因为字数越多,每个字占得比例较小,其中某个字被写错的比例越小。而当关键词所包含的字的长度越小,该第一预设阈值可以设置的稍大,因为字数越少,每个字占得比例较大,其中某个字被写错的比例越大。
(b)确定字幕信息中包括有疑似错误关键词;
此时对应的步骤101“根据已有的关键词对字幕信息进行提取”具体可以为:根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
(c)确定字幕信息中不包括有疑似错误关键词。
进一步可选地,在上述实施例的步骤(b)之后,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词之前,还可以包括如下步骤:
判断疑似错误关键词的置信度是否小于第二预设阈值,疑似错误关键词在字幕信息的所有关键词中的比例是否大于等于第三预设阈值;当疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。其中,第二预设阈值大于第三预设阈值。
否则的话,当疑似错误关键词的置信度大于等于第二预设阈值,或疑似错误关键词在字幕信息的所有关键词中的比例小于第三预设阈值,均不能执行如下步骤:根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
其中第二预设阈值和第三预设阈值可以根据实际需求设置,具体数值不做限制。
其中疑似错误关键词的置信度表示该疑似错误关键词的可信率。置信度越高说明该疑似错误关键词为错误关键词的概率越小。当置信度越低说明该疑似错误关键词为错误关键词的概率越大。
疑似错误关键词在字幕信息的所有关键词中的比例体现了该疑似错误关键词在整个字幕信息中的比重,当比例较小的时候,如小于第三预设阈值,说明该疑似错误关键词可能为生僻词,使用不多,无法确定其是否错误,可以不用去理会。当比较大的时候,如大于等于第三预设阈值,说明该疑似错误关键词在字幕信息中出现较多,需要对其进行提取。
所以本实施例中,对满足疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值的疑似错误关键词,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。从而可以提高提取效率,既不会对生僻词语进行无谓的提取,又可以对出现较多的疑似错误关键词进行有效提取,进一步有效地提高了提取的准确性。
需要说明的是,上述实施例的所有可选技术方案,可以采用可以结合的方式任意结合形成本发明的可选技术方案,在此不再一一赘述。
实施例二
图2为本发明实施例二提供的关键词提取方法的流程图。如图2所示,本实施例的关键词提取方法在上述图1所示实施例的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的关键词提取方法,具体可以包括如下步骤:
200、获取节目预告单;
例如可以从各大电视台或者报纸等媒介上获取节目预告单。
201、根据节目预告单中,获取节目的节目名称;
202、根据节目名称,从网络中搜索节目的相关信息;
203、从节目预告单中的节目的相关信息中提取关键词,作为已有的关键词;
204、当节目被播放时,获取节目的字幕信息;
205、根据已有的关键词判断字幕信息中是否包括有疑似错误关键词;当包括的时候,执行步骤206,否则当不包括的时候,执行步骤207;
206、确定字幕信息中包括有疑似错误关键词;执行步骤208;
本实施例中的疑似错误关键词与已有的关键词包含的字的长度相同,且疑似错误关键词与已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值。
207、确定字幕信息中不包括有疑似错误关键词,结束。
208、判断疑似错误关键词的置信度是否小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例是否大于等于第三预设阈值;当当疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值,执行步骤209;否则的话,即当疑似错误关键词的置信度大于等于第二预设阈值,和/或疑似错误关键词在字幕信息的所有关键词中的比例小于第三预设阈值,不执行任何操作。此时可以返回步骤205继续检测下一个疑似错误关键词,直到对所有的字幕信息检测结束。
209、根据所述疑似错误关键词确定所述已有的关键词为提取的关键词,结束。
本实施例的关键词提取方法,通过采用上述技术方案,提供了一种高效的关键词提取方案,能够有效地提高提取关键词的准确性。且通过对满足疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值的疑似错误关键词,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。从而可以提高提取效率,既不会对生僻词语进行无谓的提取,又可以对出现较多的疑似错误关键词进行有效提取,进一步有效地提高了提取的准确性。
实施例三
图3为本发明实施例三提供的关键词提取装置的结构示意图。如图3所示,本实施例的关键词提取装置,具体可以包括:获取模块10和提取模块11。
其中获取模块10用于获取节目的字幕信息;提取模块11与获取模块10连接,提取模块11用于根据已有的关键词对获取模块10获取的字幕信息进行提取。
本实施例的关键词提取装置,通过采用上述模块实现关键词提取与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的关键词提取装置,通过采用上述模块获取节目的字幕信息;并根据已有的关键词对字幕信息进行提取,提供了一种高效的关键词提取方案,能够有效地提高提取关键词的准确性。
实施例四
图4为本发明实施例四提供的关键词提取装置的结构示意图。如图4所示,本实施例的关键词提取装置,在上述图3所示实施例的技术方案的基础上,进一步还可以包括如下技术方案。
如图4所示,本实施例的关键词提取装置,还包括抽取模块12。
其中获取模块10还用于在获取节目的字幕信息之前,获取节目的相关信息;抽取模块12与获取模块10连接,抽取模块12用于从获取模块10获取的节目的相关信息中提取关键词,作为已有的关键词。此时对应的提取模块11也与提取模块11连接,提取模块11用于根据提取模块11提取的已有的关键词对获取模块10获取的字幕信息进行提取。
可选地,本实施例的关键词提取装置中的获取模块10具体用于根据节目预告单,获取节目的标识信息,根据节目的标识信息从网络中搜索节目的相关信息。或者获取模块10具体还可以用于从预设知识库中获取节目的相关信息。
进一步可选地,本实施例的关键词提取装置中还包括判断模块13和确定模块14。其中判断模块13与获取模块10连接,判断模块13用于判断获取模块10获取的字幕信息中是否包括有疑似错误关键词,该疑似错误关键词与已有的关键词包含的字的长度相同,且疑似错误关键词与已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值;确定模块14与判断模块13连接,确定模块14用于根据判断模块13的判断结果,确定字幕信息中包括有疑似错误关键词。此时对应的提取模块11与确定模块14连接,提取模块11具体用于当确定模块14确定字幕信息中包括有疑似错误关键词时,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
进一步可选地,本实施例的关键词提取装置中,当确定模块14确定字幕信息中包括有疑似错误关键词之后,判断模块13还用于判断疑似错误关键词的置信度是否小于第二预设阈值,疑似错误关键词在字幕信息的所有关键词中的比例是否大于等于第三预设阈值。确定模块14还用于根据判断模块13的判断结果,确定疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值。此时对应的提取模块11根据确定模块14的确定结果即确定疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
本实施例的关键词提取装置,通过采用上述模块实现关键词提取与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的关键词提取装置中,上述实施例的所有可选技术方案,可以采用可以结合的方式任意结合形成本发明的可选技术方案,在此不再一一赘述。
本实施例的关键词提取装置,通过采用上述模块能够有效地提高提取关键词的准确性。且通过对满足疑似错误关键词的置信度小于第二预设阈值,且疑似错误关键词在字幕信息的所有关键词中的比例大于等于第三预设阈值的疑似错误关键词,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。从而可以提高提取效率,既不会对生僻词语进行无谓的提取,又可以对出现较多的疑似错误关键词进行有效提取,进一步有效地提高了提取的准确性,从而提高了提取关键词的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种关键词提取方法,其特征在于,包括以下步骤:
获取节目的字幕信息;
根据已有的关键词对字幕信息进行提取。
2.如权利要求1所述的方法,其特征在于,所述根据已有的关键词对字幕信息进行提取之前,所述方法还包括:
获取所述节目的相关信息;
从所述节目的相关信息中提取所述已有的关键词。
3.如权利要求2所述的方法,其特征在于,获取所述节目的相关信息,包括:
根据所述节目预告单,获取所述节目的标识信息,根据所述节目的标识信息从网络中搜索所述节目的相关信息;
或者从预设知识库中获取所述节目的相关信息。
4.如权利要求1-3任一所述的方法,其特征在于,所述获取节目的字幕信息之后,所述根据已有的关键词对字幕信息进行提取之前,所述方法还包括:
根据所述已有的关键词判断所述字幕信息中是否包括有疑似错误关键词,所述疑似错误关键词与所述已有的关键词包含的字的长度相同,且所述疑似错误关键词与所述已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值;
并确定所述字幕信息中包括有所述疑似错误关键词;
所述根据已有的关键词对字幕信息进行提取,包括:
根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
5.如权利要求4所述的方法,其特征在于,当确定所述字幕信息中包括有疑似错误关键词之后,根据所述疑似错误关键词确定所述已有的关键词为提取的关键词之前,所述方法还包括:
判断所述疑似错误关键词的置信度是否小于第二预设阈值,所述疑似错误关键词在所述字幕信息的所有关键词中的比例是否大于等于第三预设阈值;
并确定所述疑似错误关键词的置信度小于所述第二预设阈值,且所述疑似错误关键词在所述字幕信息的所有关键词中的比例大于等于所述第三预设阈值。
6.一种关键词提取装置,其特征在于,包括:
获取模块,用于获取节目的字幕信息;
提取模块,用于根据已有的关键词对字幕信息进行提取。
7.如权利要求6所述的装置,其特征在于,所述装置还包括提取模块;
所述获取模块,还用于在所述提取模块根据所述已有的关键词对所述字幕信息进行提取之前,获取所述节目的相关信息;
所述提取模块,用于从所述节目的相关信息中提取所述已有的关键词。
8.如权利要求7所述的装置,其特征在于,所述获取模块,具体用于根据所述节目预告单,获取所述节目的标识信息,根据所述节目的标识信息从网络中搜索所述节目的相关信息;
或者所述获取模块,具体用于从预设知识库中获取所述节目的相关信息。
9.如权利要求6-8任一所述的装置,其特征在于,所述装置还包括判断模块和确定模块;
所述判断模块,用于根据所述已有的关键词判断所述字幕信息中是否包括有疑似错误关键词,所述疑似错误关键词与所述已有的关键词包含的字的长度相同,且所述疑似错误关键词与所述已有的关键词中不相同的字的长度占总长度的比例小于第一预设阈值;
所述确定模块,用于确定所述字幕信息中包括有所述疑似错误关键词;
所述提取模块,具体用于根据所述疑似错误关键词确定所述已有的关键词为提取的关键词。
10.如权利要求9所述的装置,其特征在于:
所述判断模块,还用于当所述确定模块确定所述字幕信息中包括有所述疑似错误关键词之后,所述提取模块根据所述疑似错误关键词确定所述已有的关键词为提取的关键词之前,判断所述疑似错误关键词的置信度是否小于第二预设阈值,所述疑似错误关键词在所述字幕信息的所有关键词中的比例是否大于等于第三预设阈值;
所述确定模块,还用于确定所述疑似错误关键词的置信度小于所述第二预设阈值,且所述疑似错误关键词在所述字幕信息的所有关键词中的比例大于等于所述第三预设阈值。
CN201310247434.7A 2013-06-20 2013-06-20 一种关键词的提取方法及装置 Expired - Fee Related CN103309993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310247434.7A CN103309993B (zh) 2013-06-20 2013-06-20 一种关键词的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310247434.7A CN103309993B (zh) 2013-06-20 2013-06-20 一种关键词的提取方法及装置

Publications (2)

Publication Number Publication Date
CN103309993A true CN103309993A (zh) 2013-09-18
CN103309993B CN103309993B (zh) 2016-09-14

Family

ID=49135211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310247434.7A Expired - Fee Related CN103309993B (zh) 2013-06-20 2013-06-20 一种关键词的提取方法及装置

Country Status (1)

Country Link
CN (1) CN103309993B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104994404A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种为视频获取关键词的方法及装置
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN108495063A (zh) * 2018-03-27 2018-09-04 南京纳加软件股份有限公司 一种用于直播的多路字幕系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131850A (zh) * 2006-08-21 2008-02-27 索尼株式会社 节目提供方法及节目提供设备
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
WO2013039473A1 (en) * 2011-09-12 2013-03-21 Intel Corporation Methods and apparatus for keyword-based, non-linear navigation of video streams and other content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131850A (zh) * 2006-08-21 2008-02-27 索尼株式会社 节目提供方法及节目提供设备
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
WO2013039473A1 (en) * 2011-09-12 2013-03-21 Intel Corporation Methods and apparatus for keyword-based, non-linear navigation of video streams and other content

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104994404A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种为视频获取关键词的方法及装置
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN108460104B (zh) * 2018-02-06 2021-06-18 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN108495063A (zh) * 2018-03-27 2018-09-04 南京纳加软件股份有限公司 一种用于直播的多路字幕系统

Also Published As

Publication number Publication date
CN103309993B (zh) 2016-09-14

Similar Documents

Publication Publication Date Title
CN103593363B (zh) 视频内容索引结构的建立方法、视频检索方法及装置
CN107589855B (zh) 一种根据地理位置推荐候选词的方法和装置
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN106096050A (zh) 一种视频内容搜索的方法和装置
CN101826099B (zh) 一种相似文档识别、文档扩散度确定的方法及系统
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN104270605B (zh) 一种视频监控数据的处理方法及装置
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
JP2021131862A (ja) 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品
CN104091164A (zh) 人脸图片人名识别方法和系统
CN104599692A (zh) 录音方法及装置,录音内容搜索方法及装置
US8290925B1 (en) Locating product references in content pages
CN103841464A (zh) 一种视频信息推送方法及装置
CN103152633B (zh) 一种关键词的识别方法及装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN105700897A (zh) 一种启动应用程序的方法、装置及终端设备
CN104053048A (zh) 一种视频定位的方法及装置
CN106815284A (zh) 新闻视频的推荐方法及推荐装置
CN104994404A (zh) 一种为视频获取关键词的方法及装置
CN106341731B (zh) 一种智能电视的遥控按键响应方法及装置
CN103309993A (zh) 一种关键词的提取方法及装置
CN105045882A (zh) 一种热词处理方法及装置
CN104778252A (zh) 索引的存储方法和装置
CN104731364A (zh) 一种输入法及输入法系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and device for extracting keywords

Effective date of registration: 20210104

Granted publication date: 20160914

Pledgee: Inner Mongolia Huipu Energy Co.,Ltd.

Pledgor: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001527

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160914

Termination date: 20210620