CN102043817B - 呈现人物关联词的方法和装置 - Google Patents

呈现人物关联词的方法和装置 Download PDF

Info

Publication number
CN102043817B
CN102043817B CN200910235712.0A CN200910235712A CN102043817B CN 102043817 B CN102043817 B CN 102043817B CN 200910235712 A CN200910235712 A CN 200910235712A CN 102043817 B CN102043817 B CN 102043817B
Authority
CN
China
Prior art keywords
personage
conjunctive word
weight
word
conjunctive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910235712.0A
Other languages
English (en)
Other versions
CN102043817A (zh
Inventor
贾自艳
李务斌
姜爱荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN200910235712.0A priority Critical patent/CN102043817B/zh
Publication of CN102043817A publication Critical patent/CN102043817A/zh
Application granted granted Critical
Publication of CN102043817B publication Critical patent/CN102043817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种呈现人物关联词的方法和装置,属于互联网通信技术领域。方法包括:从人物关联词资源中,提取每两个对应人物之间的人物关联词,并获取人物关联词的初始规则权重;根据初始规则权重,计算初始规则权重对应的人物关联词的人物关联词权重;根据人物关联词权重,以及人物关联词权重对应的时效因子,计算人物关联词的时效权重;根据人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。装置包括:人物关联词提取模块、人物关联词权重计算模块、时效权重计算模块和人物关联词呈现模块。本发明通过提取出两个对应人物之间的人物关联词,了解人物之间的关系,可以使用户用最少的时间,获取最大的信息量,大大节约了用户的时间。

Description

呈现人物关联词的方法和装置
技术领域
本发明涉及互联网通信技术领域,特别涉及一种呈现人物关联词的方法和装置。
背景技术
随着互联网技术的快速发展,互联网在人们日常生活中的作用也日益增大,人们可以通过互联网在线听音乐、看电影、阅读新闻报道等。目前,大多数人通过互联网在线阅读各种新闻报道,获取各种新闻信息、了解各个人物之间的关联关系。
然而,在实现本发明的过程中,发明人发现互联网中包括的信息量非常大,互联网中有大量的新闻报道,并且一篇新闻报道中往往涉及多个人物,如果想要了解各个人物之间的关联关系,需要阅读很多的新闻报道,而现在人们的生活节奏很快,人们没有很多的时间去阅读所有的新闻报道,以了解各个人物之间的关联关系。
因此,如果可以从大量的新闻报道中提取出能描述各个人物之间关联关系的词或词组呈现给人们,通过简短的词或词组描述各个人物之间的关联关系,将会帮助人们以简要的方式浏览各个人物之间的关联关系,以简要的方式了解各个人物之间发生的事情,将可以使人们用最少的时间,获取最大的信息量。而目前还没有这么一种技术。
发明内容
为了使人们可以通过互联网用最少的时间,获取最大的信息量,本发明实施例提供了一种呈现人物关联词的方法和装置。所述技术方案如下:
一方面,本发明实施例提供了一种呈现人物关联词的方法,所述方法包括:
获取人物关联词资源中的每个句子中的每个词的词性;
当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;
根据句子语法规则和所述人物关联词提取组中各个词的词性,从所述人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予所述人物关联词相应的初始规则权重;
根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重;
根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重;
根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
其中,所述根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重具体可以为:
将所述人物关联词的长度的权重、所述人物关联词在新闻中的词频、所述人物关联词的逆文档频率和所述人物关联词出现在新闻标题中时增加的权重中的至少一个,与所述人物关联词的初始规则权重进行乘积,得到所述人物关联词的人物关联词权重。
其中,所述根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重具体可以为:
将所述人物关联词权重,与所述人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到所述人物关联词的时效权重。
其中,所述根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词具体可以包括:
对所述人物关联词的时效权重进行排序;
按序依次呈现每两个对应人物之间的预设个数的人物关联词。
另一方面,本发明实施例提供了一种呈现人物关联词的装置,所述装置包括:
人物关联词提取模块,用于获取人物关联词资源中的每个句子中的每个词的词性;当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;根据句子语法规则和所述人物关联词提取组中各个词的词性,从所述人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予所述人物关联词相应的初始规则权重;
人物关联词权重计算模块,用于在所述人物关联词提取模块获取到所述人物关联词的初始规则权重后,根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重;
时效权重计算模块,用于在所述人物关联词权重计算模块计算得到人物关联词权重后,根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重;
人物关联词呈现模块,用于在所述时效权重计算模块计算得到时效权重后,根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
其中,所述人物关联词权重计算模块,具体可以用于在所述人物关联词提取模块获取到所述人物关联词的初始规则权重后,将所述人物关联词的长度的权重、所述人物关联词在新闻中的词频、所述人物关联词的逆文档频率和所述人物关联词出现在新闻标题中时增加的权重中的至少一个,与所述人物关联词的初始规则权重进行乘积,得到所述人物关联词的人物关联词权重。
其中,所述时效权重计算模块,具体可以用于在所述人物关联词权重计算模块计算得到人物关联词权重后,将所述人物关联词权重,与所述人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到所述人物关联词的时效权重。
其中,所述人物关联词呈现模块具体可以包括:
时效权重排序单元,用于在所述时效权重计算模块计算得到每两个对应人物之间的每个人物关联词的时效权重后,对所述人物关联词的时效权重进行排序;
人物关联词呈现单元,用于在所述时效权重排序单元对所述人物关联词的时效权重进行排序后,按序依次呈现每两个对应人物之间的预设个数的人物关联词。
本发明实施例提供的技术方案的有益效果是:
通过从关联词资源中提取得到每两个对应人物之间的人物关联词,并根据每两个对应人物之间的每个人物关联词的时效权重,呈现每两个对应人物之间的人物关联词,使得可以根据两个对应人物之间的人物关联词了解到人物之间的关系,帮助用户以简要的方式浏览人物关联关系,以简要的方式了解人物之间发生的事情,可以使用户用最少的时间,获取最大的信息量,大大节约了用户的时间。
附图说明
图1是本发明实施例1提供的一种呈现人物关联词的方法流程图;
图2是本发明实施例2提供的一种呈现人物关联词的方法流程图;
图3是本发明实施例3提供的一种呈现人物关联词的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种呈现人物关联词的方法,参见图1,具体包括:
101:从人物关联词资源中,提取每两个对应人物之间的人物关联词,并获取人物关联词的初始规则权重。
102:根据初始规则权重,计算该初始规则权重对应的人物关联词的人物关联词权重。
103:根据人物关联词权重,以及该人物关联词权重对应的时效因子,计算人物关联词的时效权重。
104:根据人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
其中,从人物关联词资源中,提取每两个对应人物之间的人物关联词,并获取人物关联词的初始规则权重具体可以包括:
获取人物关联词资源中的每个句子中的每个词的词性;
当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;
根据句子语法规则和人物关联词提取组中各个词的词性,从人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予人物关联词相应的初始规则权重。
其中,根据初始规则权重,计算初始规则权重对应的人物关联词的人物关联词权重具体可以为:
将人物关联词的长度的权重、人物关联词在新闻中的词频、人物关联词的逆文档频率和人物关联词出现在新闻标题中时增加的权重中的至少一个,与人物关联词的初始规则权重进行乘积,得到人物关联词的人物关联词权重。
其中,根据人物关联词权重,以及人物关联词权重对应的时效因子,计算人物关联词的时效权重具体可以为:
将人物关联词权重,与人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到人物关联词的时效权重。
其中,根据人物关联词的时效权重,呈现每两个对应人物之间的人物关联词具体可以包括:
对人物关联词的时效权重进行排序;
按序依次呈现每两个对应人物之间的预设个数的人物关联词。
本发明实施例所述的呈现人物关联词的方法,通过从人物关联词资源中提取得到每两个对应人物之间的人物关联词,并根据每两个对应人物之间的每个人物关联词的时效权重,呈现每两个对应人物之间的人物关联词,使得可以根据两个对应人物之间的人物关联词了解到人物之间的关系,帮助用户以简要的方式浏览人物关联关系,以简要的方式了解人物之间发生的事情,可以使用户用最少的时间,获取最大的信息量,大大节约了用户的时间。
实施例2
本发明实施例提供了一种呈现人物关联词的方法,参见图2,具体包括:
201:获取人物关联词资源,并将人物关联词资源中的第一个句子作为当前句子。
具体地,可以通过搜素引擎对互联网中的各个网站中包括的各种新闻报道进行搜素,将搜索到的各个网站中的各种文字新闻报道作为人物关联词资源;或者可以事先指定几个网站,通过搜素引擎对指定的几个网站中包括的各种新闻报道进行搜素,将搜索到的该几个网站中的各种文字新闻报道作为人物关联词资源;或者可以根据实际应用状况采用其他的方法获取人物关联词资源。并且,一般可以将从人物关联词资源中提取的具有完整语义的一段文字作为一个句子,具体可以通过一段文字结尾的标点符号或文字结尾的特殊用语判断该段文字是否具有完整的语义。例如:如果该段文字是汉语,那么如果该段文字结尾的标点符号是句号、问号、或叹号等,或者该段文字结尾是语气助词,则该段文字为一个句子。
需要说明的是,本发明实施例是将人物关联词资源中的第一个句子作为当前句子开始进行搜索计算,实际应用中还可以将人物关联词资源中的最后一个句子,或者第二个句子等作为当前句子开始进行搜索计算,并不限于此,可以根据实际应用状况灵活设置。
202:获取当前句子中的每个词的词性。
具体地,可以利用各种分词系统对当前句子进行分词和词性标注,从而获取当前句子中的每个词的词性。
对于汉语其词性一般包括:动词、名词、名形词、形容词、数词、量词、连词、方位词、介词、副词、名动词、人名、名语素、简称略语、副动词、状态词、副形词、地名、处所词、非汉字串、区别词、其他专名、时间词、代词、助词等。
203:判断当前句子中是否含有两个以上人物,如果是,则执行步骤204;否则,执行步骤205。
具体地,在步骤202得到当前句子中各个词的词性后,通过当前句子中包含的属于人名的词的个数可以很容易地得出当前句子中包含的人物个数,从而可以判断出当前句子中是否含有两个以上人物。
204:根据当前句子中包含的各个词的词性和句子语法规则,从当前句子中提取每两个对应人物之间的人物关联词,并获取每个人物关联词的初始规则权重。
其中,人物关联词是指从人物关联词资源中提取的,能描述人物之间关联关系的词或词组。例如:“陈冠希和阿娇在艳照门事件中大受打击”,这一句子中,可以提取出“艳照门事件”、“大受打击”两个词组成的词组来描述人物陈冠希和阿娇之间的关联关系。提取出的人物关联词应该满足下面的条件:首先,需要满足“语义完整”这一要求,即能表达完整意思;其次,人物之间的关联关系是随着时间推移而变化的,因此提取出的人物关联词还需要满足一定的时效性。人物关联词的提取主要依赖于句子语法规则,每一个规则提取出来的词组都会被赋予一个初始的权重值,叫做初始规则权重,记作H(w),不同规则提取出来的词组,其对应的初始规则权重值可以相同也可以不同。并且,需要说明的是,当当前句子中含有两个人物时,则该句子中的这两个人物就是对应的人物,提取出的关联词就是该两个对应人物之间的人物关联词。当当前句子中含有两个以上人物时,可以对包含的各个人物进行两两组合,将提取出的关联词作为两两对应人物之间的人物关联词;或只将提取出的关联词作为当前句子中含有的前两个、后两个、或中间两个对应人物之间的人物关联词等。本发明实施例中综合考虑提取人物关联词的速度和提取的人物关联词的有效性,当当前句子中含有两个以上人物时,不对包含的各个人物进行两两组合,只将提取出的关联词作为当前句子中含有的前两个对应人物之间的人物关联词。
具体过程如下:
2041:将当前句子中的每一个词依次作为当前词,分别在当前词前后选择预设个数的词,组成人物关联词提取组。
本发明实施例中选择在当前词前的一个词,在当前词之后的二个词组成人物关联词提取组,并记当前词是A、前一个词是P、后一个词是B、后二个词是C,它们的词性分别为posA、posP、posB、posC。
其中,前一个词P、后一个词B、后二个词C是分别相对当前词来界定的,例如:前一个词P是指位于当前词A之前的第一个词,后一个词B是指位于当前词A之后的第一个词、后二个词C是指位于当前词A之后的第二个词。需要说明的是,可以根据实际应用状况,选择由当前词前的几个词,当前词之后的几个词组成人物关联词提取组,并不限于上述的方法。
2042:根据句子语法规则和人物关联词提取组中各个词的词性,从人物关联词提取组中提取当前句子中包括的每两个对应人物之间的人物关联词,并获取每个人物关联词的初始规则权重。
以汉语为例进行详细说明,具体地,根据汉语句子语法规则和人物关联词提取组中各个词的词性,从人物关联词提取组中提取两个对应人物之间的人物关联词,并获取每个人物关联词的初始规则权重具体为:
(1)设词性集合pos(part of speech,词性)Z={动词、名词、名形词、形容词、数词、量词、连词、方位词、介词、副词、名动词、人名、名语素、简称略语、副动词、状态词、副形词、地名、处所词、非汉字串、区别词、其他专名、时间词、代词}。并人工总结出第一特殊词集T1={“甚至”、“但凡”、“如果”、“可是”、“其实”…},属于第一特殊词集中的词,后面紧随任何词组成的词组都被认为是没有意义的,如“甚至吃力”等。人工总结出第二特殊词集T2={“方面”、“觉得”、“认为”、“好像”…},属于第二特殊词集中的词,和前一个词连接组成的词组都被认为是没有意义的,如“一致觉得”等。
(2)如果A∈T1或者B∈T2,则跳过当前词,将当前句子中的下一个词作为当前词接着进行人物关联词提取;
(3)如果posA∈{动词,名动词},且posB∈{名词,名形词,名动词,地名,处所词},且,且posC不是结构助词、时态助词或者posC是语气助词,且{非汉字串,形语素},则AB组成的词组被提取出作为一个人物关联词w,并赋予AB组成的词组的初始规则权重H(w)的值为χ;
例如:对“李亚红、王菲等选美,年轻一代力压对手”,“力压对手”被提取出来,因为“力压”是动词,而“对手”是名词。
(4)如果posP不是动词,且posA是动词,posB是副词,且posC是形容词,且C的后面是当前句子的结尾,则ABC组成的词组被提取出作为一个人物关联词w,并赋予ABC组成的词组的初始规则权重H(w)的值为λ;
(5)如果posA是副词,且posB是动词,且posC不是名词,则AB组成的词组被提取出作为一个人物关联词w,并赋予AB组成的词组的初始规则权重H(w)的值为γ;
(6)如果posA∈{名词,名形词},且posB是名形词,且{名语素、名形词、名词},则AB组成的词组被提取出作为一个人物关联词w,并赋予AB组成的词组的初始规则权重H(w)的值为δ;
(7)如果posA是名词,且posB是名动词,且{数词、名词、介词、其他专名},且{名词、动名词、名形词},则AB组成的词组被提取出作为一个人物关联词w,并赋予AB组成的词组的初始规则权重H(w)的值为μ;
(8)如果posA∈{名词,名形词},posB∈{名词,形容词},且posP不是名语素;或者posA是动词且posB也是动词;或者posA是副词且posB是形容词;或者posA是副词且posB是动词;或者posA是动词且posB是形容词;或者posA是副动词且posB是动词,且之后是当前句子的结尾;则AB组成的词组被提取出作为一个人物关联词w,并赋予AB组成的词组的初始规则权重H(w)的值为η。
上述描述中,χ、λ、γ、δ、μ、η分别表示不同规则对应的初始规则权重H(w)的值。可以根据实际应用状况设置χ、λ、γ、δ、μ、η的取值,并且,各个取值可以相同,也可以不同。
对于英语、日语等其他语言种类可以采用与汉语类似的方法进行人物关联词提取,此处不再进行一一赘述。
205:判断当前句子是否是人物关联词资源中的最后一个句子,如果是则执行207;否则,执行206。
206:将当前句子的下一个句子作为当前句子,然后执行202。
207:根据获取的每两个对应人物之间的每个人物关联词的初始规则权重,计算提取出的每两个对应人物之间的每个人物关联词的人物关联词权重。
人物关联词权重是用来描述和比较两个对应人物之间的多个人物关联词之间重要性的一个值,记作F(w,d),其中w表示人物关联词,d表示提取该人物关联词时的时间。例如:F("艳照门","2008-08-07")=34,表示“艳照门”这个人物关联词,在“2008-08-07”当日的新闻报道中的人物关联词权重是34。根据提取出的两个对应人物之间的每个人物关联词的初始规则权重,可以设置多种人物关联词权重的计算公式,本发明实施例中设置的人物关联词权重计算公式如下所示:
F(w,d)=log(L(w))*P(TF(w)*IDF(w))*H(w)*T(w)
其中,w表示人物关联词;d表示提取该人物关联词时的时间;L(w)表示人物关联词的长度,从上述预设的人物关联词权重计算公式可以看出,本发明实施例中采用了长度优先原则,这是基于一个基本的假设:字数越多的词组一般能表达更为丰富的语义,并且本发明实施例中采用log(L(w))的方式对L(w)在计算F(w,d)中的权重进行衡量;TF(w)表示人物关联词在新闻中的词频;IDF(w)表示人物关联词的逆文档频率,IDF(w)可以事先通过对已有的一些文字新闻资料进行统计得到,例如:本发明实施例通过对数据库中保存的2008年全年的文字新闻进行统计得到IDF(w);P表示分段函数;H(w)表示初始规则权重;T(w)表示人物关联词出现在新闻标题中时增加的权重,本发明实施例中设置T(w)的默认值为1,当该人物关联词出现在新闻标题中时,可以赋予大于1的任意值,如2、3等,但并不限于此,可以根据实际应用状况进行设置。并且需要说明的是,人物关联词权重计算公式,并不限于上述的一种,可以根据实际应用状况进行设置,例如:上述log(L(w))可以用e(L(w))表示,并且可以不考虑T(w)、IDF(w)和T(w)等;或者可以直接将初始规则权重作为人物关联词权重等等。
根据本发明实施例设置的人物关联词权重计算公式可以看出,利用本发明实施例设置的人物关联词权重计算公式计算得到的人物关联词权重越大,则表明该人物关联词权重越重要。并且需要说明的是,可以将提取的每个人物关联词以及计算得到的每个人物关联词的人物关联词权重以数据库的形式进行保存。
208:根据计算得到的每个人物关联词的人物关联词权重,以及每个人物关联词权重对应的时效因子,计算每个人物关联词的时效权重。
其中,人物关联词权重对应的时效因子是根据人物关联词权重对应的时间与参考时间之间的时间距离得到的,引入时效因子的目的是为了体现每个人物关联词的人物关联词权重的时效性,时效因子的具体形式可以有多种,例如,可以将时效因子设置为T=α[L(d0,d)]β,或将时效因子设置为其中,α和β为可调整的参数;L(d0,d)表示人物关联词权重对应的时间d与参考时间d0之间的时间距离,例如:2009年07月29日与2009年08月01日之间的时间距离为2天。本发明实施例不对时效因子的具体形式进行限定,同样不对α和β的具体数值进行限定,为了使计算每个人物关联词的时效权重的方式统一,使每个人物关联词的时效权重更具参考性,在计算每个人物关联词的时效权重时,采取相同形式的时效因子,以及统一的α和β值。以时效因子为的形式为例,则每个人物关联词的时效权重的计算公式如下所示:
S ( w ) = Σ d F ( w , d ) α [ L ( d 0 , d ) ] β .
209:对计算得到的每两个对应人物之间的人物关联词的时效权重进行排序,按序呈现每两个对应人物之间的人物关联词。
一般计算得到的任意两个人物之间的人物关联词的时效权重值越大,则该人物关联词的就越能描述两人物之间的关系,因此可以对两个人物之间的每个人物关联词的时效权重按照从大到小顺序进行排列,按序依次呈现该两个对应人物之间的前几个人物关联词。预设个数的人物关联词可以根据实际应用状况的需要,进行相应个数的设置,如可以设置预设个数的人物关联词为3个、6个、10个等。本发明实施例中设置预设个数的人物关联词为10个,则具体依次呈现每两对应人物之间的排序在前的10个人物关联词。还可以按照对两个人物之间的每个人物关联词的时效权重按照从小到大顺序进行排列,按序依次呈现该两个对应人物之间的后几个人物关联词。可以根据实际应用状况选择排序方式,不对排序方式进行限制,并且不局限于上述两种排序方式。
并且,需要说明的是,当根据设置的时效权重的计算公式,计算得到的任意两个人物之间的人物关联词的时效权重值越小,则该人物关联词的就越能描述两人物之间的关系时,按照与上述相同的方式进行排序时,只需按相反的顺序依次呈现即可,此处不再一一赘述。
本发明实施例所述的呈现人物关联词的方法,通过从人物关联词资源中提取得到每两个对应人物之间的人物关联词,并对计算得到的每两个对应人物之间的每个人物关联词的时效权重排序,按序依次呈现每两个对应人物之间的预设个数的人物关联词,使得可以根据两个对应人物之间预设个数的人物关联词了解到人物之间的关系,帮助用户以简要的方式浏览人物关联关系,以简要的方式了解人物之间发生的事情,可以使用户用最少的时间,获取最大的信息量,大大节约了用户的时间。
实施例3
本发明实施例提供了一种呈现人物关联词的装置,参见图3,具体包括:
人物关联词提取模块301,用于从人物关联词资源中,提取每两个对应人物之间的人物关联词,并获取人物关联词的初始规则权重;
人物关联词权重计算模块302,用于在人物关联词提取模块301获取到人物关联词的初始规则权重后,根据初始规则权重,计算初始规则权重对应的人物关联词的人物关联词权重;
时效权重计算模块303,用于在人物关联词权重计算模块302计算得到人物关联词权重后,根据人物关联词权重,以及人物关联词权重对应的时效因子,计算人物关联词的时效权重;
人物关联词呈现模块304,用于在时效权重计算模块303计算得到时效权重后,根据人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
其中,人物关联词提取模块301具体可以包括:
词性获取单元,用于获取人物关联词资源中的每个句子中的每个词的词性;
人物关联词提取组获取单元,用于在词性获取单元得到每个句子中的每个词的词性后,当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;
人物关联词提取单元,用于在人物关联词提取组获取单元得到人物关联词提取组后,根据句子语法规则和人物关联词提取组中各个词的词性,从人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予人物关联词相应的初始规则权重。
其中,人物关联词权重计算模块302,具体可以用于在人物关联词提取模块301获取到人物关联词的初始规则权重后,将人物关联词的长度的权重、人物关联词在新闻中的词频、人物关联词的逆文档频率和人物关联词出现在新闻标题中时增加的权重中的至少一个,与人物关联词的初始规则权重进行乘积,得到人物关联词的人物关联词权重。
其中,时效权重计算模块303,具体可以用于在人物关联词权重计算模块302计算得到人物关联词权重后,将人物关联词权重,与人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到人物关联词的时效权重。
其中,人物关联词呈现模块304具体可以包括:
时效权重排序单元,用于在时效权重计算模块303计算得到每两个对应人物之间的每个人物关联词的时效权重后,对人物关联词的时效权重进行排序;
人物关联词呈现单元,用于在时效权重排序单元对人物关联词的时效权重进行排序后,按序依次呈现每两个对应人物之间的预设个数的人物关联词。
本发明实施例所述的呈现人物关联词的装置,通过从人物关联词资源中提取得到每两个对应人物之间的人物关联词,并根据每两个对应人物之间的每个人物关联词的时效权重,呈现每两个对应人物之间的人物关联词,使得可以根据两个对应人物之间预设个数的人物关联词了解到人物之间的关系,帮助用户以简要的方式浏览人物关联关系,以简要的方式了解人物之间发生的事情,可以使用户用最少的时间,获取最大的信息量,大大节约了用户的时间。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种呈现人物关联词的方法,其特征在于,所述方法包括:
获取人物关联词资源中的每个句子中的每个词的词性;
当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;
根据句子语法规则和所述人物关联词提取组中各个词的词性,从所述人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予所述人物关联词相应的初始规则权重;
根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重;
根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重;
根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
2.根据权利要求1所述的呈现人物关联词的方法,其特征在于,所述根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重具体为:
将所述人物关联词的长度的权重、所述人物关联词在新闻中的词频、所述人物关联词的逆文档频率和所述人物关联词出现在新闻标题中时增加的权重中的至少一个,与所述人物关联词的初始规则权重进行乘积,得到所述人物关联词的人物关联词权重。
3.根据权利要求1所述的呈现人物关联词的方法,其特征在于,所述根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重具体为:
将所述人物关联词权重,与所述人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到所述人物关联词的时效权重。
4.根据权利要求1所述的呈现人物关联词的方法,其特征在于,所述根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词具体包括:
对所述人物关联词的时效权重进行排序;
按序依次呈现每两个对应人物之间的预设个数的人物关联词。
5.一种呈现人物关联词的装置,其特征在于,所述装置包括:
人物关联词提取模块,用于获取人物关联词资源中的每个句子中的每个词的词性;当根据每个句子中的每个词的词性判断出该句子中含有两个以上人物时,在该句子中包含的每一个词的前后选择预设个数的词,组成人物关联词提取组;根据句子语法规则和所述人物关联词提取组中各个词的词性,从所述人物关联词提取组中提取该句子中包含的每两个对应人物之间的人物关联词,并赋予所述人物关联词相应的初始规则权重;
人物关联词权重计算模块,用于在所述人物关联词提取模块获取到所述人物关联词的初始规则权重后,根据所述初始规则权重,计算所述初始规则权重对应的人物关联词的人物关联词权重;
时效权重计算模块,用于在所述人物关联词权重计算模块计算得到人物关联词权重后,根据所述人物关联词权重,以及所述人物关联词权重对应的时效因子,计算所述人物关联词的时效权重;
人物关联词呈现模块,用于在所述时效权重计算模块计算得到时效权重后,根据所述人物关联词的时效权重,呈现每两个对应人物之间的人物关联词。
6.根据权利要求5所述的呈现人物关联词的装置,其特征在于,
所述人物关联词权重计算模块,具体用于在所述人物关联词提取模块获取到所述人物关联词的初始规则权重后,将所述人物关联词的长度的权重、所述人物关联词在新闻中的词频、所述人物关联词的逆文档频率和所述人物关联词出现在新闻标题中时增加的权重中的至少一个,与所述人物关联词的初始规则权重进行乘积,得到所述人物关联词的人物关联词权重。
7.根据权利要求5所述的呈现人物关联词的装置,其特征在于,
所述时效权重计算模块,具体用于在所述人物关联词权重计算模块计算得到人物关联词权重后,将所述人物关联词权重,与所述人物关联词权重对应的时效因子进行乘积,并将乘积结果进行累加,得到所述人物关联词的时效权重。
8.根据权利要求5所述的呈现人物关联词的装置,其特征在于,所述人物关联词呈现模块具体包括:
时效权重排序单元,用于在所述时效权重计算模块计算得到每两个对应人物之间的每个人物关联词的时效权重后,对所述人物关联词的时效权重进行排序;
人物关联词呈现单元,用于在所述时效权重排序单元对所述人物关联词的时效权重进行排序后,按序依次呈现每两个对应人物之间的预设个数的人物关联词。
CN200910235712.0A 2009-10-12 2009-10-12 呈现人物关联词的方法和装置 Active CN102043817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910235712.0A CN102043817B (zh) 2009-10-12 2009-10-12 呈现人物关联词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910235712.0A CN102043817B (zh) 2009-10-12 2009-10-12 呈现人物关联词的方法和装置

Publications (2)

Publication Number Publication Date
CN102043817A CN102043817A (zh) 2011-05-04
CN102043817B true CN102043817B (zh) 2014-11-12

Family

ID=43909959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910235712.0A Active CN102043817B (zh) 2009-10-12 2009-10-12 呈现人物关联词的方法和装置

Country Status (1)

Country Link
CN (1) CN102043817B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915309B (zh) * 2011-08-03 2016-05-11 腾讯科技(深圳)有限公司 即时通信工具中好友关系链匹配方法和设备
CN107277395A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 添加庭审录像字幕的方法和装置
CN106528534A (zh) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 基于专有名词的关联词提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288166A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 関係情報抽出方法及び意味情報抽出方法
CN1714351A (zh) * 2002-11-28 2005-12-28 松下电器产业株式会社 电子邮件起草支援装置、程序及方法
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288166A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 関係情報抽出方法及び意味情報抽出方法
CN1714351A (zh) * 2002-11-28 2005-12-28 松下电器产业株式会社 电子邮件起草支援装置、程序及方法
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法

Also Published As

Publication number Publication date
CN102043817A (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
Soderland Learning to Extract Text-Based Information from the World Wide Web.
US7587309B1 (en) System and method for providing text summarization for use in web-based content
CN104731959A (zh) 基于文本的网页内容生成视频摘要的方法、装置及系统
CN101887414A (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
CN107357777B (zh) 提取标签信息的方法和装置
US20090019362A1 (en) Automatic Reusable Definitions Identification (Rdi) Method
Gantar et al. Discovering automated lexicography: The case of the Slovene lexical database
Veisi et al. Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus
Boston et al. Wikimantic: Toward effective disambiguation and expansion of queries
Surdeanu et al. Named entity recognition from spontaneous open-domain speech.
Taghi-Zadeh et al. A new hybrid stemming method for Persian language
CN102043817B (zh) 呈现人物关联词的方法和装置
Bhosale et al. Detecting promotional content in wikipedia
Hassel et al. FarsiSum-A Persian text summarizer
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
Zhang et al. DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News Articles
Kaalep et al. The Estonian Reference Corpus: Its Composition and Morphology-aware User Interface.
Das et al. Extracting emotion topics from blog sentences: use of voting from multi-engine supervised classifiers
Filippova et al. Using linguistically motivated features for paragraph boundary identification
Litkowski Senseval-3 task: word sense disambiguation of wordnet glosses
Husain et al. A language Independent Approach to develop Urdu stemmer
Martins et al. Dynamic language modeling for European Portuguese
JP5128328B2 (ja) 曖昧性評価装置およびプログラム
Bartz et al. Using data mining and the clarin infrastructure to extend corpus-based linguistic research
Akçakaya et al. An all-words sense annotated Turkish corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131105

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131105

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant