CN101625695B - Web视频页面的复杂命名实体的抽取方法及其系统 - Google Patents

Web视频页面的复杂命名实体的抽取方法及其系统 Download PDF

Info

Publication number
CN101625695B
CN101625695B CN2009100913752A CN200910091375A CN101625695B CN 101625695 B CN101625695 B CN 101625695B CN 2009100913752 A CN2009100913752 A CN 2009100913752A CN 200910091375 A CN200910091375 A CN 200910091375A CN 101625695 B CN101625695 B CN 101625695B
Authority
CN
China
Prior art keywords
classification
speech
named entities
candidate
web video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009100913752A
Other languages
English (en)
Other versions
CN101625695A (zh
Inventor
郑刚
张勇东
郭俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2009100913752A priority Critical patent/CN101625695B/zh
Publication of CN101625695A publication Critical patent/CN101625695A/zh
Application granted granted Critical
Publication of CN101625695B publication Critical patent/CN101625695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。

Description

Web视频页面的复杂命名实体的抽取方法及其系统
技术领域
该发明涉及信息抽取领域,尤其涉及Web视频页面的复杂命名实体的抽取方法。
背景技术
随着网络带宽的增长和Web2.0技术的应用,YouTube、优酷、土豆等视频分享网站在国内外得到了快速的发展,互联网视频数量和用户规模大规模增长。目前国内互联网共有超过300家视频站点,其中优酷、土豆网等网站的视频数量已突破千万。如何从Web视频页面中准确有效的提取文本信息已经成为信息抽取领域的重要问题,从网页中提取文本实质上是一种从半结构化的文本中提取信息的过程。
Web视频页面中包含了大量的文本信息,如电影名、电视剧名、音乐名、热点事件名等,若能从Web视频中抽取出该些信息,不仅能为用户提供准确、全面的信息资讯,还能对视频的分类、内容聚合和个性推荐进行指导。该些文本共有的重要特征是词都较长且普通词典中并不包含这些名称,因此被称之为复杂命名实体(Complex Named Entities)。
复杂命名实体是指人名、地名等之外的更加具体、字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名。把能够标识一个具体对象或特殊现象的字符串称为一个实体词,比如“汶川地震”、“北京奥运”等都认为是事件名;“隐形的翅膀”、“北京欢迎你”都认为是音乐名。
现有的命名实体抽取多数是在普通文本上进行,其识别对象多是MUC(请Message Understanding Conference,消息理解会议)定义的七个类别,尤其以人名、地名、机构名为主。命名实体识别分为两种方法,一种是基于规则的方法,另一种是基于统计的方法。基于规则的方法准确率较高,但是需要耗费大量的人力物力,且规则都是基于一定应用领域制定,应用领域变化就需重新制定规则与词典,因此系统的可移植性差;基于统计的方法的健壮性和灵活性更好,且不需要太多的人为干预,但它需要大规模的语料库训练。
现有的命名实体抽取算法主要利用命名实体在文本中的上下文信息和命名实体本身的组成特征。但是在Web视频页面中,命名实体缺乏丰富的上下文信息;同时现有技术中算法需要大规模的数据集合并进行长时间运算,不适用于及时发现新出现的复杂命名实体。普通的命名实体与复杂命名实体在概念和表现形式上都有很大差异,导致现有技术的算法无法直接应用到复杂命名识别抽取中;同时现有技术中的算法也没有对命名实体做精细的类别划分。
发明内容
为解决上述问题,本发明提供了Web视频页面的复杂命名实体的抽取方法及其系统,能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
本发明公开了一种Web视频页面的复杂命名实体的抽取方法,
步骤1,对于Web视频页面集合中的每个Web视频页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合;
步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;
步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
所述步骤1进一步为,
步骤21,为每个站点设置信息抽取模板;
步骤22,对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;
步骤23,由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息;
步骤24,所述有效文本信息组成视频文本,所有视频文本组成所述训练集合。
所述有效文本信息包括视频的类别;
所述步骤2中对Web视频页面进行归类进一步为,
步骤31,设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;
步骤32,根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
所述步骤2中选择类别进一步为,
步骤41,从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
所述有效文本信息包括视频的标签,
所述步骤2中对于每个被选的类别设置引导词进一步为,
步骤51,从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
所述步骤2中从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词进一步为,
步骤51,对于每个标签,如果所述标签包含引导词,则所述标签包含的其他词为候选特征词;
步骤52,依据候选特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的得分越高;
步骤53,对于每个候选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
所述步骤3进一步为,
步骤71,从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档;
步骤72,文档中特征词对应于类别的得分为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;
步骤73,对于每个类别,将在所述类别的得分超过第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第四预设值。
本发明还公开了一种Web视频页面的复杂命名实体的抽取系统,包括:
有效信息抽取模块,用于对于Web视频页面集合中的每个Web视频页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合;
特征词选取模块,用于对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;
复杂命名实体抽取模块,用于从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
所述有效信息抽取模块进一步用于为每个站点设置信息抽取模板;对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本,所有视频文本组成所述训练集合。
所述有效文本信息包括视频的类别;
所述特征词选取模块在对Web视频页面进行归类时进一步用于设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
所述特征词选取模块在选择类别时进一步用于从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
所述有效文本信息包括视频的标签,
所述特征词选取模块在对于每个被选的类别设置引导词时进一步用于从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
所述特征词选取模块在从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
所述复杂命名实体抽取模块进一步用于从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第四预设值。
本发明的有益效果在于,通过采用基于抽取模板的信息抽取方法,精确提取Web视频页面中的文本信息;通过进行文本分类,能够抽取出各个类别中的复杂命名实体,为用户推荐最新最热门的各类信息;通过特征词方法抽取复杂命名实体,能够不需要经过长时间的模型训练,并且能随Web视频页面的变化发现新的复杂命名实体,具有及时、快速、准确的技术效果;通过从候选特征词中选择出在类别内均匀分布在类别间集中分布的词为特征词,去除存在干扰的特征词,提高抽取准确性。
附图说明
图1是本发明Web视频页面的复杂命名实体的抽取方法的流程图;
图2是本发明Web视频页面的复杂命名实体的抽取系统的结构图。
具体实施方式
下面结合附图,对本发明做进一步的详细描述。
本发明方法如图1所示。
步骤S100,对于Web视频页面集合中的每个Web视频页面,从该Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合。
步骤S100的具体实现方式如下所述。
步骤110,为每个站点设置信息抽取模板。
对于绝大多数视频网站,其网页大多数是由脚本或程序从数据库提供的接口中读出数据,然后以固定的格式生成HTML页面的,因此在同一网站中,具有相同或相似语义内容的网页通常也具有相同或相似HTML语法结构。
由于HTML网页的特殊性,提取网页文本可以采用预设提取规则,然后根据该提取规则来提取文本的方法。提取规则是一系列规定的语法和标签,该些语法和标签表述如何在一系列结构相似有相同语义内容的网页中找到指定的文本资源,然后根据该些描述进行文本信息提取。
上述提取规则为所述的信息抽取模板。
步骤120,对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树。
步骤130,由Web视频页面所属站点的信息抽取模板和该Web视频页面的DOM树,从该Web视频页面中抽取有效文本信息。
将DOM树与信息抽取模板匹配,抽取Web视频网页中有效的文本内容,如标题、标签、描述、类别;从而去除无关信息,如广告、导航链接。
步骤140,有效文本信息组成视频文本,所有视频文本组成训练集合。
步骤S200,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词。
所述步骤S200的具体实施方式如下。
步骤S200中涉及术语定义如下。
复杂命名实体(NE),是指人名、地名等之外的更加具体、字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,如电影名、电视剧名、音乐名、热点事件名等。
引导词(Seed),为每一个类别选取的属于该类别的复杂命名实体,用以提取对该类别有标识意义的特征词。
特征词(Feature),用以表达用户对该命名实体的信息需求的词。
步骤210,对Web视频页面进行归类。
设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;根据Web视频页面的标准类别对该Web视频页面进行归类。
由于各个视频站点标注的类别信息并不一致,例如同一视频在不同网站分别被标注为“新闻”类和“资讯”类,在本发明中利用ODP(Open DirectoryProject,开放目录项目)的层次结构选择了类别和每个类别下的子类,并建立了各站点视频类别到标准类别的映射关系。如“电影”类别包括“大陆电影”、“港台电影”等子类。
步骤220,选择类别。
从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
选择类别的原则还包括:覆盖一定的视频集合;跟人们的需求密切相关;以及同其他类别比较边界清晰的类别。
关于边界清晰,“音乐”类与“电影”类特征差异明显,而“电影”与“电视”类特征差异较小,如“DVD版”都是它们的特征词。因此,选择时,选择“音乐”和“电影”,而不会同时选择“电影”和“电视”类。
步骤230,对于每个被选的类别设置引导词。
所述步骤230具体实施方式如下所述。
步骤231,从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。实施例中为只在同一个类别的Web视频页面的标签中出现的词为引导词,也就是第二预设值为2。
各类别中引导词的选择,是从Web视频页面的标签组成的标签集合中为各个类别选取一部分命名实体作为引导词。
引导词的选择原则为:避免兼类,否则在识别某一类别的特征词时会引入其他类的特征词;覆盖所有子类,否则会遗漏某些子类的特征词。
步骤240,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词。
所述步骤240具体实施方式如下所述。
步骤241,对于每个视频的标签,如果该标签包含引导词,则该标签包含的其他词为候选特征词。
步骤242,依候选特征词在类别内分布和类别间分布计算该候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,在类别分布越均匀,该候选特征词对应于该类别的得分越高。
引入基于现有技术中分布的单类别特征选择框架从候选特征词中选取特征词。
按如下公式计算候选特征词对应于类别的得分。
score(t,ci)=VAC(t,ci)-VIC(t,ci)
其中:
VAC ( t , c i ) = 1 m - 1 Σ j = 1 , j ≠ i m sign ( F ( t , c i ) - F ( t , c j ) ) w j ( F ( t , c i ) - F ( t , c j ) ) 2
VIC ( t , c i ) = 1 | c i | - 1 Σ d ∈ c j ( F ( t , d ) - F ( t , c i ) ) 2
计算公式中的符号解释如下。
t表示一个候选特征词,c表示一个类别,d表示一个特征词文档。特征词文档由一个引导词和同它相关的候选特征词组成。
ci是第i个选择的类别,其中,1≤i≤N,N是选择的类别个数。
sign(x)是符号函数:
Figure G2009100913752D00083
F(t,x)表示t在x中的分布,其中x可以表示一个类别c、一个特征词文档d,甚至所有特征词文档的集合C。
采用一定的平滑策略之后,分布函数的计算公式如下:
F ( t , c ) = # t c + 1 | c | + size _ c
其中,#tc表示候选特征词t在类别c中出现的次数,size_c表示类别c中去重后的候选特征词个数。|c|表示类别c中的特征词文档个数。
去重指对于在一个类别中多次出现的候选特征词,按一次计数。候选特征词个数为类别中候选特征词的种类数。
F ( t , d ) = # t d + 1 | d | + size _ d
其中,#td表示候选特征词t在该引导词提取候选特征词之后形成的特征词文档d中出现的次数,size_d表示特征词文档d中去重后的特征词个数。
|d|表示特征词文档d中所有特征词出现次数的总和。
wj表示赋给类别j的权重比值,用以灵活地调整每一个类别的在整体中的比重。如果平等地对待所有的类别,可以对任意的类别j,取wj=1。
|ci|表示类别ci中特征词文档的个数。
VAC(t,ci)代表类别间分布的方差,是候选特征词t在类别ci中相对于其它类别在分布上的优势的一种衡量度。如果候选特征词t在类别ci上的分布大于在cj上的分布,此时符号函数sign取正值,计算的方差变大;否则sign取负值,类间方差变小。
VIC(t,ci)表示的是候选特征词t在类别ci中分布的均匀程度。
score(t,ci)计算特征t在类别ci上的得分。从上式可以看出,候选特征词t在类别ci上相对于其他类别的分布优势越大,则得分越高;在类别ci内部分布月均匀,也就是类内方差越小,则得分越高。
步骤243,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
特征词截取的数目会直接影响复杂命名实体选择的效果。如果特征词太少,可能识别的精确度很高,但是覆盖率会比较低;如果特征词太多,虽然可以提升覆盖率,但是会导致识别结果中有很多噪声,一般取50个即可。
步骤S300,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。
所述步骤S300的具体实施方式如下。
步骤310,从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档。
文档中的特征词为同候选命名实体相关的特征词。
步骤320,文档中特征词对应于类别的得分为特征词同类别的关联度,计算文档中候选复杂命名实体对应于各个类别的得分,特征词对应于类别的得分的值越高,该候选复杂命名实体对应于该类别的得分的值越高。
候选复杂命名实体对应于类别的得分的计算公式如下所述。
score(d,ci)=TF(d,ci)×IDF(d,ci)
其中
TF ( d , c i ) = Σ t ∈ d log ( w ( t , d ) + 1 ) × w ( t , c i )
IDF ( d , c i ) = log size _ c + 1 size _ d + 1
其中,d表示由一个候选复杂命名实体和它周围的特征词组成的文档;
w(t,d)表示某个特征词t在文档d中出现的次数;
w(t,ci )表示在步骤B中计算出的特征词t在类别ci中的得分score(t,ci)。
size_c表示在类别c中去重后的特征词个数;
size_d表示在文档d中去重后的特征词个数。
步骤330,对于每个类别,将在该类别的得分超过第四预设值或按得分排列在该类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第五预设值。具体实施例中,n值为50。
通过直接计算候选复杂命名实体在每一个类别上的得分,满足一定得分或者得分排名在前N,实施例中N选为50,则把候选复杂命名实体划分为该类别的复杂命名实体;否则,候选复杂命名实体不为该类别的复杂命名实体,最终抽取出各个类别中的复杂命名实体。
一种Web视频页面的复杂命名实体的抽取系统如图2所示。
有效信息抽取模块100,用于对于Web视频页面集合中的每个Web视频页面,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合。
有效信息抽取模块100进一步用于为每个站点设置信息抽取模板;对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本,所有视频文本组成所述训练集合。
特征词选取模块200,用于对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词。
所述有效文本信息包括视频的类别;
特征词选取模块200在对Web视频页面进行归类时进一步用于设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
特征词选取模块200在选择类别时进一步用于从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
所述有效文本信息包括视频的标签,
特征词选取模块200在对于每个被选的类别设置引导词时进一步用于从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
特征词选取模块200在从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
复杂命名实体抽取模块300,用于从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
复杂命名实体抽取模块300进一步用于从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第四预设值。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

Claims (12)

1.一种Web视频页面的复杂命名实体的抽取方法,其特征在于,
步骤1,为每个站点设置信息抽取模板,对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树,由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息,所述有效文本信息组成视频文本,所有视频文本组成训练集合;
步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;
步骤3,从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
2.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特征在于,
所述有效文本信息包括视频的类别;
所述步骤2中对Web视频页面进行归类进一步为,
步骤31,设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;
步骤32,根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
3.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特征在于,
所述步骤2中选择类别进一步为,
步骤41,从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
4.如权利要求1所述的Web视频页面的复杂命名实体的抽取方法,其特征在于,
所述有效文本信息包括视频的标签,
所述步骤2中对于每个被选的类别设置引导词进一步为,
步骤51,从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
5.如权利要求4所述的Web视频页面的复杂命名实体的抽取方法,其特征在于,
所述步骤2中从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词进一步为,
步骤61,对于每个标签,如果所述标签包含引导词,则所述标签包含的其他词为候选特征词;
步骤62,依据候选特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的得分越高;
步骤63,对于每个候选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
6.如权利要求5所述的Web视频页面的复杂命名实体的抽取方法,其特征在于,所述步骤3进一步为,
步骤71,从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档;
步骤72,文档中特征词对应于类别的得分为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;
步骤73,对于每个类别,将在所述类别的得分超过第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第四预设值。
7.一种Web视频页面的复杂命名实体的抽取系统,其特征在于,包括:
有效信息抽取模块,用于为每个站点设置信息抽取模板;对于Web视频页面集合中的每个Web视频页面的HTML文本内容构建DOM树;由所述Web视频页面所属站点的信息抽取模板和所述Web视频页面的DOM树,从所述Web视频页面中抽取有效文本信息;所述有效文本信息组成视频文本,所有视频文本组成训练集合;
特征词选取模块,用于对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;
复杂命名实体抽取模块,用于从训练集合中提取出同所述特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从所述候选命名实体中选择对应的复杂命名实体。
8.如权利要求7所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,
所述有效文本信息包括视频的类别;
所述特征词选取模块在对Web视频页面进行归类时进一步用于设置站点的视频类别到标准类别的映射,将所述Web视频页面的视频的类别映射为标准类别;根据所述Web视频页面的标准类别对所述Web视频页面进行归类。
9.如权利要求7所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,
所述特征词选取模块在选择类别时进一步用于从划分的类别中选择包含的Web视频页面数量大于第一预设值的类别为选择的类别。
10.如权利要求7所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,
所述有效文本信息包括视频的标签,
所述特征词选取模块在对于每个被选的类别设置引导词时进一步用于从训练集合中被选类别的视频文本的标签中选择满足条件的词作为引导词,所述条件为标签中包含该词的类别的数量小于第二预设值。
11.如权利要求10所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,
所述特征词选取模块在从训练集合中选择同所述引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词时进一步用于对于每个标签,如果所述标签包含引导词,则所述标签包含的其他词为候选特征词;依据候选特征词在类别内的分布和类别间的分布计算所述候选特征词对应于每个类别的得分,候选特征词在类别中出现的次数相对于其他类别越多,并且在类别中分布越均匀,则所述候选特征词对应于所述类别的得分越高;对于每个候选特征词,以候选特征词的最高得分作为所述候选特征词的权重值,从候选特征词中选择权重值高的候选特征词作为特征词。
12.如权利要求11所述的Web视频页面的复杂命名实体的抽取系统,其特征在于,
所述复杂命名实体抽取模块进一步用于从训练集合中提取出在标签中同特征词共同出现过的词作为候选复杂命名实体,候选复杂命名实体和同所述候选复杂命名实体相关的特征词组成文档;文档中特征词对应于类别的得分为所述特征词同类别的关联度,由所述关联度计算文档中候选复杂命名实体对应于类别的得分,特征词对应于类别的得分的值越高,所述候选复杂命名实体对应于类别的得分的值越高;对于每个类别,将在所述类别的得分超过第三预设值或按得分排序在所述类别中排在前n项的候选复杂命名实体作为所述类别的复杂命名实体,其中,n为第四预设值。
CN2009100913752A 2009-08-20 2009-08-20 Web视频页面的复杂命名实体的抽取方法及其系统 Active CN101625695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100913752A CN101625695B (zh) 2009-08-20 2009-08-20 Web视频页面的复杂命名实体的抽取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100913752A CN101625695B (zh) 2009-08-20 2009-08-20 Web视频页面的复杂命名实体的抽取方法及其系统

Publications (2)

Publication Number Publication Date
CN101625695A CN101625695A (zh) 2010-01-13
CN101625695B true CN101625695B (zh) 2012-07-04

Family

ID=41521546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100913752A Active CN101625695B (zh) 2009-08-20 2009-08-20 Web视频页面的复杂命名实体的抽取方法及其系统

Country Status (1)

Country Link
CN (1) CN101625695B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011134141A1 (en) * 2010-04-27 2011-11-03 Hewlett-Packard Development Company,L.P. Method of extracting named entity
CN102567467A (zh) * 2011-12-02 2012-07-11 华中科技大学 基于视频标签获取视频热点信息的方法
CN103514192B (zh) * 2012-06-21 2017-03-01 富士通株式会社 数据处理方法和数据处理设备
CN105677632A (zh) * 2014-11-19 2016-06-15 富士通株式会社 提取用于抽取实体的模板的方法和设备
CN105677684A (zh) * 2014-11-21 2016-06-15 华东师范大学 一种基于外部数据源对用户生成内容进行语义标注的方法
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN109325126B (zh) * 2018-10-31 2022-04-22 中国电子科技集团公司电子科学研究院 语言文本的对象化处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN101625695A (zh) 2010-01-13

Similar Documents

Publication Publication Date Title
CN101625695B (zh) Web视频页面的复杂命名实体的抽取方法及其系统
CN103164454B (zh) 关键词分组方法及系统
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN102541874B (zh) 网页正文内容提取方法及装置
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN110188107A (zh) 一种从表格中抽取信息的方法及装置
CN106294535B (zh) 网站的识别方法和装置
CN101609450A (zh) 基于训练集的网页分类方法
CN102033919A (zh) 文本关键词提取方法及系统
CN101609445A (zh) 基于时间信息的关键子话题提取方法
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
US20190179886A1 (en) Detecting compatible layouts for content-based native ads
TW202001620A (zh) 自動化網站資料蒐集方法
CN103177036A (zh) 一种标签自动提取方法和系统
CN102681994A (zh) 一种网页信息抽取方法及系统
WO2013016288A1 (en) Utilization of features extracted from structured documents to improve search relevance
CN105389389A (zh) 一种网络舆情传播态势媒体联动分析方法
CN102622365B (zh) 一种网页重复的判断系统及其判断方法
CN106776808A (zh) 基于人工智能的资讯数据提供方法及装置
CN108959580A (zh) 一种标签数据的优化方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant