CN103324641A - 信息记录推荐方法和装置 - Google Patents

信息记录推荐方法和装置 Download PDF

Info

Publication number
CN103324641A
CN103324641A CN2012100802003A CN201210080200A CN103324641A CN 103324641 A CN103324641 A CN 103324641A CN 2012100802003 A CN2012100802003 A CN 2012100802003A CN 201210080200 A CN201210080200 A CN 201210080200A CN 103324641 A CN103324641 A CN 103324641A
Authority
CN
China
Prior art keywords
word
node
weight
information record
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100802003A
Other languages
English (en)
Other versions
CN103324641B (zh
Inventor
王少亚
赵凯
胡卫松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201210080200.3A priority Critical patent/CN103324641B/zh
Publication of CN103324641A publication Critical patent/CN103324641A/zh
Application granted granted Critical
Publication of CN103324641B publication Critical patent/CN103324641B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息记录推荐方法和装置。根据一实施例,信息记录推荐方法可以包括:分析目标信息记录,获得该目标信息记录包含的原始词语;根据基本词语之间的关联性,获得与原始词语关联的关联词语;以及根据原始词语和关联词语以及用户感兴趣词语,确定是否向用户推荐该目标信息记录。

Description

信息记录推荐方法和装置
技术领域
本公开涉及信息推荐,例如根据用户输入搜索相关信息记录,或者根据用户偏好向用户推荐信息记录。
背景技术
信息技术如互联网的发展在带来大量信息,方便人们利用的同时,也带来了问题,就是信息量实在过于庞大,而其中真正满足人们需要的只是极少的一部分,为此使用者不得不耗费大量的精力来筛选和甄别出自己最需要的内容。其中最典型的就是搜索引擎,当用户输入关键词后,会有十万、百万甚至上亿个结果返回。虽然搜索引擎已经做了优化,将最有可能的结果排在前面,但在某些情况下仍然不能满足用户的要求。
例如,现存的方法大都是仅仅限于对文章本身所含的关键词进行分析,没有考虑关键词之间的隐含关系,因此其准确度依赖于文章包含的关键词范围。当用户输入的内容未包含在文章中或者虽包含在文章中但权重较低时,将会影响结果的精准性。
发明内容
本公开的目的至少部分地在于提供一种信息记录推荐方法和装置。
根据本公开的一个方面,提供了一种向用户推荐信息记录的方法。该方法可以包括:分析目标信息记录,获得该目标信息记录包含的原始词语;根据基本词语之间的关联性,获得与原始词语关联的关联词语;以及根据原始词语和关联词语以及用户感兴趣词语,确定是否向用户推荐该目标信息记录。
根据本公开的另一方面,提供了一种信息记录推荐装置。该装置可以包括:原始词语获取单元,被配置为分析目标信息记录,获得该目标信息记录包含的原始词语;关联词语获取单元,被配置为获得与原始词语关联的关联词语;以及判断单元,被配置为根据原始词语和关联词语以及用户感兴趣词语,确定是否向用户推荐目标信息记录。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1是示意性示出了根据本公开实施例的向用户推荐信息记录的方法的流程图;
图2示意性示出了根据本公开一示例的同义词词典;
图3示意性示出了根据本公开一示例的权重关系网络;
图4示意性示出了根据本公开一示例的权重关系子网络;
图5是示意性示出了根据本公开实施例的信息记录推荐装置的方框图;
图6是示意性示出了根据本公开实施例的原始词语获取单元的方框图;
图7是示意性示出了根据本公开实施例的关联词语获取单元的方框图;
图8是示意性示出了根据本公开实施例的权重关系网络建立单元的方框图;
图9示出了根据本公开实施例的信息记录推荐装置的计算设备实现。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
由于信息技术的发展,存在众多信息记录。在本公开中,信息记录可以是指各种类型的信息载体,而不限于其具体形式。例如,信息记录可以包括各种类型的文本,如网页、文章、邮件等,甚至还可以包括语音文件、图像文件和视频文件等。这些信息记录可以存储在各种存储介质上,例如磁存储介质、光存储介质、半导体存储器等,或者也可以通过例如电磁波等载体传输。
一般而言,对于各种类型的信息记录,存在相关技术来从中提取其主题或其包含的“词语”。例如,在信息记录为文本类型的情况下,通过文本分析来获取其中包含的词语。又如,在信息记录为语音文件的情况下,例如可以通过语音识别技术来识别其中包含的词语。
这里需要指出的是,在本公开中,所谓“词语”或者“基本词语”是指表达信息的基本单位。这种“词语”或“基本词语”不限于通常的文本词语,例如也可以包括特定的语音特征或图像特征等。例如,在表现日本风光的图像或视频信息记录中,通常都会包含富士山。因此,例如可以通过图像处理技术,从中提取关于“富士山”的图像特征,作为这些图像或视频信息记录所包含的“词语”或“基本词语”。
通常,用户希望获取自己感兴趣的信息记录。例如,用户可以通过输入感兴趣的词语,来搜索相关的信息记录。然后,可以通过用户输入词语与目标信息记录所含词语之间的匹配,来确定目标信息记录是否为用户感兴趣的信息记录。为了节省计算量,例如可以根据目标信息记录中的“关键词”,来进行这种确定。所谓“关键词”,是指目标信息记录所含词语中权重大于预设阈值的词语。这种权重例如可以至少部分地取决于词语在目标记录中出现的次数。存在多种方式来计算这种权重。
但是,在很多情况下,两个单独的词语之间可以存在一定的关联性。例如,在中文环境中,词语“首都”和“北京”的关联性很强,甚至在很多情况下这两个是等价的。如果在用户通过输入“首都”一词来搜索与“首都”相关的信息记录时,忽略包含词语“北京”(但可能并不包含“首都”)的信息记录,则往往会遗漏一些有用信息。
根据本公开的一些实施例,在获取感兴趣的目标信息记录时,不仅考虑目标信息记录中本身所含的词语或关键词(称作“原始”词语或关键词),还考虑与这些原始词语或关键词相关联的其他词语或关键词(称作“关联”词语或关键词)。这些关联词语或关键词甚至可能并未出现在目标信息记录中。例如,同样在获取与“首都”相关的信息记录的示例中,不仅考虑包含“首都”的信息记录,还可以考虑包含“北京”信息记录,这些信息记录中甚至并未包含用户输入的词语“首都”。
词语或基本词语之间的“关联性”可以用多种方式来确定。例如,对于每两个词语,可以计算反映它们一起出现概率的统计值,并以该统计值来表示这两个词语的关联性。如果计算的统计值大于一定阈值,则可以认为这两个词语是关联词语。本公开不限于词语之间具体的“关联”形式。
根据本公开的一些实施例,词语之间的关联性可以包括词语权重之间的统计关联性。在此,所谓“统计关联性”是指根据大量已有信息记录(即,“历史信息记录”)所得出的词语之间的关联性。这种关联性例如可以实现为权重关系网络。权重关系网络可以包括节点以及节点之间的链接。
节点对应于基本词语,这些基本词语例如是从历史信息记录中提取出的词语。根据本公开的一个实施例,可以提取属性为“时间”、“地点”、“人物”、“事件”、“事物”的词语,作为节点,而忽略其他词语,例如一些语气助词等。
节点之间的链接可以表示相应节点(或,相应基本词语)的权重之间的统计关联性。例如,这种关联性可以体现为节点权重的相互影响。具体地,从节点1到节点2的链接可以表示节点1的权重(w1)对节点2的权重(w2)的影响,反之亦然。根据一实施例,这种影响以传递参数来表示。在此,“传递参数”具有本领域的通常含义。例如,设从节点1到节点2的传递参数为V1,2,则在不考虑其他节点影响的情况下,w2=w1*V1,2;反之,设从节点2到节点1的传递参数为V2,1,则在不考虑其他节点影响的情况下,w1=w2*V2,1。另外,节点之间的链接可以具有方向性,两个方向上的传递参数(例如,V1,2和V2,1)可以不同。根据一实施例,还可以忽略小于特定阈值的传递参数。因此,某两个节点之间可以只存在单向的链接,而另一方向的链接不存在(例如,被忽略了)。
根据本公开的一实施例,传递参数可以如下计算。具体地,从节点1到节点2的传递参数可以至少部分地取决于同一信息记录中出现与节点1相对应的基本词语时同时出现与节点2相对应的基本词语的可能性。这种可能性例如可以计算为T/P,其中T表示同时包含与节点1相对应的基本词语以及与节点2相对应的基本词语的历史信息记录数量,而P表示包含与节点1相对应的基本词语而不包含与节点2相对应的基本词语的历史信息记录数量。根据根公开的另一实施例,在这种计算过程中,还可以对不同时间段的历史信息记录赋予不同的加权因子。具体地,从节点1到节点2的传递参数V1,2可以计算为:
V 1,2 = Σ i ( α i * T i / P i ) ,
其中,i表示时间段索引,Ti表示在第i时间段内同时包含与节点1相对应的基本词语以及与节点2相对应的基本词语的历史信息记录数量,Pi表示第i时间段内包含与节点1相对应的基本词语而不包含与节点2相对应的基本词语的历史信息记录数量,αi表示第i时间段的加权因子且满足
Figure BDA0000146320450000052
在此,时间段例如可以为一周、一月、一年等等。此外,加权因子αi例如可以如下确定:越是久远的时间段,其相应的αi越小。
此外,根据本公开的一些实施例,还可以根据基本词语的语义,来进一步优化节点之间的传递参数。具体地,对于每两个节点,根据它们所对应的基本词语的语义,来更新这两个节点之间的传递参数。例如,传递参数可以如下更新:
Vnew=Voldi
其中,Vold表示原始传递参数,Vnew表示更新后的传递参数,σi表示相应词语之间的语义相关性。例如,如果两个基本词语之间的语义并不相关,则可以设σi较小;如果两个基本词语之间的语义相关(例如,上述的“北京”和“首都”),则可以设σi较大。有多种方法来分析词语之间的语义相关性。
根据本公开的一些实施例,这种权重关系网络例如可以根据历史信息记录如下建立。对历史信息记录进行分析,例如按照基本词语词典进行分词,获得其中包含的词语。在此,所谓“基本词语词典”是指基本词语的集合。例如,在文本信息记录的情况下,这种词典可以是通常所使用的词典。或者,例如在图像信息记录的情况下,这种词典可以是一系列图像模式(pattern)的结合。在后一种情况下,例如可以通过模式识别,来获取图像信息记录中包含的词语(各种具体的“图像特征”)。特别地,可以提取这些词语中属性为“时间”、“地点”、“人物”、“事件”、“事物”的词语,作为节点。然后,针对每两个节点,可以分析这两个节点之间的链接。例如,可以按照上述方式来计算两个节点之间的传递参数。对于小于特定阈值的传递参数,可以忽略。这样,就可以建立包括节点以及节点之间链接的权重关系网络。
在利用权重关系网络的情况下,可以如下来获得关联词语。例如,对于目标信息记录,可以获取其中包含的词语特别是关键词。然后,将所获取的原始词语或关键词映射到权重关系网络中的相应节点(称作“原始节点”)上。与原始节点具有链接的节点可以视为“关联”节点,且相应地这些“关联”节点对应的基本词语可以视为“关联”词语。在此,将包含原始节点、关联节点以及原始节点与关联节点之间链接的权重关系网络部分(忽略其他节点)称作权重关系网络的子网络。根据同一目标信息记录,可以确定出一个或多个子网络。
另外,在确定关联词语的过程中,还可以考虑节点的权重。具体地,在将目标信息记录中的原始词语或关键词映射到原始节点时,还可以将该原始词语或关键词在目标信息记录中的权重也映射到原始节点上。在这种情况下,可以根据从原始节点到关联节点的传递参数,来计算关联节点的“虚拟”权重。在此,所谓“虚拟”权重,是指关联节点相对应的词语可能并未出现在目标信息记录中,或者在目标信息记录中的实际权重很低,但是考虑到词语之间的关联性而赋予该关联节点的权重。可以选择权重大于一定阈值的关联节点,而忽略其余关联节点。
另外,根据一实施例,还可以根据关联节点的权重来更新原始节点的权重。这样,可以充分考虑词语之间的“相互”影响,从而更准确地反映原始词语或关键词以及关联词语或关键词在目标信息记录中的权重。例如,这种更新根据从关联节点到原始节点的传递参数来进行。在这种情况下,可以选择权重大于一定阈值的原始节点和关联节点,来判断是否与用户感兴趣词语匹配。
图1是示意性示出了根据本公开一示例的向用户推荐信息记录的方法100的流程图。
如图1所示,在方框105处,对目标信息记录进行分析,以获得该目标信息记录中包含的原始词语。如上所述,这种分析例如可以根据基本词语词典来进行。例如,对于文本信息记录,一种具体的分析方法是“查词典”法。具体地,可以对目标信息记录进行扫描,遇到词典里有的词语就标识出来,遇到复合词(例如,“日本电气株式会社”)就找最长的词匹配,遇到词典里不存在的字串就分割成单字词。当然,也可以采用其他分析方法,例如统计语言模型分词方法。本公开不限于具体的分析方式。
在该步骤中,还可以设置一定的过滤规则,以过滤掉一些不必要的词语。例如,可以过滤掉一些语气助词,如“啊”、“呀”等,以及其他一些被认为是没有必要的词语如“的”、“地”等。根据本公开的一示例,可以选择属性为“时间”、“地点”、“人物”、“事件”、“事物”的词语。
对于原始词语,还可以进一步处理,合并其中的同义词,以增强信息推荐结果的准确性。这种处理例如可以根据同义词词典来进行。图2中示出了一同义词词典的示例200,其中列205表示基本词语,列210表示基本词语的同义词语,列215表示基本词语与同义词语之间的同义相关性。在图2所示的示例中,同义相关性215设为“1”,但是也可以设为其他值。例如,这种同义词可以包括缩写、全称、昵称等等。于是,可以将基本词语与同义词语视为由该基本词语代表的同一原始词语。例如,可以将基本词语的出现次数计算为该基本词语本身出现的次数加上其同义词的出现次数乘以同义相关性值之和。
此外,在该步骤中还可以分析词语的权重,并选择权重大于预设阈值的词语作为“关键词”,以用于随后的分析,而过滤掉其他词语。根据一示例,某一词语在一信息记录中的权重Wn可以如下计算:
Wn=TFn*IDFn,
其中,TFn=该词语在该信息记录中的词频:该词语在该信息记录中的出现次数/该信息记录中的总词语数,IDFn为一预设值且IDFn=ln(历史信息记录总数/出现该词语的历史信息记录数)。
这里需要指出的是,存在多种方式来计算词语的权重。本公开不限于上述权重计算方式。例如,还可以根据词语在信息记录中出现的位置以及该词语所属的词性来计算该词语的权重。
在获得原始词语之后,在方框110,获得与原始词语相关联的关联词语。如上所述,这可以根据权重关系网络来进行。图3中示出了一示例权重关系网络300。该权重关系网络300包括节点305以及节点305之间的链接310。假设在方框105中,获得的原始词语或关键词包括“时间2”、“地点1”、“地点5”、“人物2”、“事件1”、“事物1”、“事物3”。可以将这些原始词语或关键词映射到权重关系网络300的相应节点(图3中带阴影的节点)上。这些节点称作“原始节点”。然后,根据节点之间的关联性即节点之间的链接,获取关联词语。例如,“时间2”的关联词语包括“时间1”、“人物1”。
如上所述,原始节点、关联节点以及它们之间的链接构成子网络。根据该示例,可以获得两个子网络,如图4的401和402所示所示。以下目标信息记录与用户感兴趣词语是否匹配的判断可以在子网络中进行。
在获得关联词语之后,在方框115,根据原始词语和关联词语(具体地,子网络中的节点)以及用户感兴趣词语,来确定是否向用户推荐目标信息记录。用户感兴趣词语例如由用户在发起搜索时输入。假设用户输入的感兴趣词语为“人物1”。由于在方框110中,已经获得“人物1”作为关联词语(例如,在图3的权重关系网络300中与“时间2”、“事件1”、“地点1”关联),因此可以向用户推荐该目标信息记录,尽管该目标信息记录中原本并没有包含词语“人物1”。
在一种应用中,可以预先存储用户感兴趣的词语。可以根据用户感兴趣词语与目标信息记录中的原始词语以及关联词语之间的匹配,定期向用户发送目标信息记录。
这样,可以大大提高向用户推荐信息的准确性,或者说可以大大提供搜索命中率。另外,降低了用户由于不能获得感兴趣信息而重新输入关键词发起新搜索的可能性。因此,可以节省用户的搜索时间,并可以降低信息记录提供服务(例如,搜索引擎)的负担,增加信息记录提供服务的吞吐量。
另外,在方框110中,还可以将原始词语的权重映射到相应原始节点上。这种权重例如可以如上所述按Wn=TFn*IDFn来计算。在图3所示的示例中,权重以原始节点305旁的数字表示。
然后,可以根据原始节点的权重以及从原始节点到关联节点的链接(传递参数),来计算关联节点的权重。例如,关联节点的权重可以如下计算:
w = Σ i w i * V i ,
其中,w表示关联节点的权重,i表示与该关联节点关联的原始节点的索引(与同一关联节点关联的原始节点可以多于一个,例如在图3和4所示的示例中,与关联节点“人物1”关联的原始节点有三个,即“时间2”、“事件1”和“地点1”),wi表示原始节点i的权重,Vi表示从原始节点i到关联节点的传递参数。在图4的子网络401中,示出了如此得到的关联节点权重(在关联节点旁示出的数字)。这样,可以选择权重大于一定阈值的原始节点和关联节点,而忽略其他关联节点。
此外,根据一实施例,还可以根据关联节点的权重,更新原始节点的权重。例如,原始节点的权重可以如下更新:
w = Σ i ( w i - w ′ * V i ′ ) * Vi
其中,w表示原始节点更新后的权重,i表示该原始节点关联的关联节点的索引(与同一原始节点关联的关联节点可以多于一个,例如在图3和4所示的示例中,与原始节点“事件1”关联的关联节点有两个,即“地点2”和“人物1”),wi表示关联节点i的权重(例如,如上所述计算),w′表示该原始节点的原始权重,Vi′表示从该原始节点到关联节点i的传递参数,Vi表示从关联节点i到该原始节点的传递参数。在图4的子网络401中,示出了如此更新的原始节点权重(在原始节点旁的括号中示出的数字)。这样,可以选择权重大于一定阈值的原始节点和关联节点,而忽略其他关联节点。
例如,在图4所示的示例中,可以设置阈值为35。如图4所示,由于“人物1”当前的权重为40,大于阈值35,因此选择“人物1”作为关联词语。同样假设用户输入的感兴趣词语为“人物1”。由于在方框110中,已经获得关联词语“人物1”,因此可以向用户推荐该目标信息记录,尽管该目标信息记录中原本并没有包含词语“人物1”。
图5示出了根据本公开一示例的信息记录推荐装置的方框图。如图5所述,该信息记录推荐装置500可以包括原始词语获取单元505、关联词语获取单元510、判断单元515和可选的呈现单元520。
原始词语获取单元505可以被配置为分析目标信息记录,获得该目标信息记录包含的原始词语。例如,原始词语获取单元505可以被配置为根据查词典分词或者统计语言模型分词方式,来获得原始词语。
关联词语获取单元510可以被配置为获取与原始词语关联的关联词语。例如,关联词语获取单元510可以被配置为根据上述权重关系网络来获取关联词语。为此,信息记录推荐装置可以包括被配置为存储权重关系网络的存储单元(未示出)。或者,这种权重关系网络并不在信息记录推荐装置本地,而是可以通过各种通信手段从远程位置获得。
判断单元515可以被配置为根据原始词语、关联词语以及用户感兴趣词语,来判断是否向用户推荐目标信息记录。例如,在原始词语和/或关联词语与用户感兴趣词语匹配时,可以确定向用户推荐目标信息记录。这种推荐例如可以包括通过呈现单元520向用户呈现目标信息记录。例如,呈现单元520可以包括显示装置等。当然,推荐的方式不限于通过显示装置呈现,例如还可以包括向用户发送电子邮件、SMS(短消息服务)消息等。
图6示出了根据本公开一示例的原始词语获取单元的配置方框图。如图6所示,原始词语获取单元600可以包括分词单元605。分词单元605可以被配置为将目标信息记录划分为单独的原始词语。这种分词例如可以如上所述,根据基本词语词典610,通过“查词典”等方式进行。为此,信息记录推荐装置可以包括被配置为存储基本词语词典610的存储单元(未示出)。或者,这种基本词语词典可以不在信息记录推荐装置本地,而是可以通过各种通信方式从远程位置获得。在分词处理中,可以进行词语过滤(例如,去除语气助词等)。
可选地,原始词语获取单元600还可以包括权重计算单元620和过滤单元625。权重计算单元620可以被配置为计算原始词语在目标信息记录中的权重。例如,权重计算单元620可以按上述Wn=TFn*IDFn来计算权重。过滤单元625可以被配置为将权重小于预设阈值的原始词语滤除,以获得关键词。这样,随后仅使用目标信息记录的关键词进行分析。
另外,原始词语获取单元600还可以包括词语合并单元615。词语合并单元615可以被配置为将分词单元划分出的词语中与一原始词语具有相同语义的词语,合并为该原始词语。这种合并例如可以根据同义词词典630进行。图2中示出了同义词词典的示例。具体地,例如可以将原始词语在该目标信息记录中出现的次数计算为该原始词语本身的出现次数加上其同义词出现的次数乘以同义相关性值之和。为此,信息记录推荐装置可以包括被配置为存储同义词词典630的存储单元(未示出)。或者,这种同义词词典可以不在信息记录推荐装置本地,而是可以通过各种通信方式从远程位置获得。
图7示出了根据本公开一示例的关联词语获取单元的配置方框图。如图7所示,关联词语获取单元700可以包括映射单元705和选择单元710。映射单元705可以被配置为将原始词语映射到权重关系网络720的相应节点(称作“原始节点”)上。选择单元710可以被配置为选择与原始节点具有链接的关联节点所对应的基本词语作为关联词语。这种映射和选择例如可以参照以上附图3所述。
根据一示例,映射单元705还可以被配置为将原始节点在目标信息记录中的权重也映射到原始节点上。关联词语获取单元700还可以包括节点权重分析单元715。节点权重分析单元715可以被配置为根据原始节点的权重以及从原始节点到关联节点的链接,计算关联节点的权重。例如,节点权重分析单元715可以被配置为根据
Figure BDA0000146320450000121
来计算关联节点的权重。进一步,节点权重分析单元715还可以被配置为根据关联节点的权重以及从关联节点到原始节点的链接,更新原始节点的权重。例如,节点权重分析单元715可以被配置为根据
Figure BDA0000146320450000122
来更新原始节点的权重。在这种情况下,选择单元710可以被配置为选择权重大于一定阈值的关联节点相对应的词语。在此,选择单元710还可以被配置为选择权重大于一定阈值的原始节点相对应的原始词语。这样,可以避免考虑权重较小的节点而进行不必要的计算。
为了建立权重关系网络,还可以存在权重关系网络建立单元,被配置为根据历史信息记录,建立权重关系网络。这种权重关系网络可以包括在信息记录推荐装置中,或者可以不在信息记录推荐装置本地,且可通信地耦合至信息记录推荐装置。
图8示出了根据本公开一示例的权重关系网络建立单元的配置方框图。如图8所示,权重关系网络建立单元800可以包括网络建立基本词语获取单元805、网络节点选择单元810和统计关联性分析单元815。
网络建立基本词语获取单元805可以被配置为分析历史信息记录,获得历史信息记录包含的基本词语。这种网络建立基本词语获取单元805例如可以按照与上述原始词语获取单元相同的方式工作。它们的区别在于:一个分析目标信息记录,一个分析原始信息记录。
参照附图6,该网络建立基本词语获取单元可以具有与原始词语获取单元相同或相似的配置。例如,该网络建立基本词语获取单元可以包括类似于分词单元605的网络建立分词单元(未示出)。网络建立分词单元可以被配置为将原始信息记录划分为单独的基本词语,这种划分例如可以按“查词典”法进行。另外,该网络建立基本词语获取单元可以包括类似于权重计算单元615的网络建立权重计算单元(未示出)、类似于过滤单元620的网络建立过滤单元(未示出)。网络建立权重计算单元可以被配置为计算基本词语在各历史信息记录中的权重,且网络建立过滤单元可以被配置为滤除各历史信息记录中权重小于预设阈值的基本词语。进一步,该网络建立基本词语获取单元还可以包括类似于词语合并单元615的网络建立词语合并单元(未示出)。网络建立词语合并单元可以被配置为将网络建立分词单元划分出的基本词语中与一基本词语具有相同语义的词语,合并为该基本词语。具体地,例如网络建立词语合并单元可以被配置为将基本词语在一历史信息记录中出现的次数计算为该基本词语本身在该历史信息记录中出现的次数加上其同义词在该历史信息记录中出现的次数乘以同义相关性值之和。
在权重关系网络建立单元800在信息记录推荐装置本地的情况下,网络建立基本词语获取单元805和原始词语获取单元可以由同一硬件、软件或固件模块来予以实现。
网络节点选择单元810可以被配置为从基本词语中选择作为网络节点的基本词语。例如,如上所述,可以选择属性为“时间”、“地点”、“人物”、“事件”、“事物”的词语作为节点,而忽略其他词语。
统计关联性分析单元815可以被配置为分析网络节点的权重之间的统计关联性。例如,统计关联性分析单元815可以被配置为计算每两个节点之间的传递参数,并忽略小于预定阈值的传递参数。传递参数的计算例如可以如上所述进行。
根据本公开的一示例,权重关系网络建立单元800还可以包括优化单元820。优化单元820可以被配置为根据基本词语之间的语义,优化节点之间的统计关联性。例如,传递参数可以如上所述按Vnew=Voldi更新。
图9示出了根据本公开一示例的信息记录推荐装置的计算设备实现。如图9所示,计算设备900例如可以包括微处理器905、输入/输出(I/O)设备910、随机存取存储器(RAM)915和只读存储器(ROM)920,这些部件可以通过总线930彼此耦合。
微处理器905例如可以是中央处理单元(CPU),执行可以从RAM915、ROM920或其他存储器(未示出,例如可以包括硬盘、软盘或光盘等)中访问或以其他方式例如通过网络获得的指令、代码、计算机程序或脚本。
I/O设备910可以包括显示器、键盘、鼠标等输入/输出设备。例如,用户可以通过I/O设备910来输入感兴趣的词语。另外,在图9中,特别示出了显示器925,这也是一种I/O设备。但是,由于本公开的实施例特别地可以涉及在显示器上向用户呈现信息记录,因此在此单独示出了该显示器925。
RAM915可以用于存储易失性数据,并且可能存储由处理器905执行的指令。ROM920可以是非易失性存储器设备,典型地具有相对较小的存储容量。ROM920可以用于存储指令,并且可能存储在指令执行期间读取的数据。例如,微处理器905可以通过运行例如存储在RAM915、ROM920或其他存储器等中的指令,来实现上述信息记录推荐装置中的各种部件。
需要指出的是,本公开不限于上述计算设备实现。本公开的信息记录推荐方法和装置可以利用硬件、软件和/或固件,或者它们的结合来实现。例如,可以利用专用集成电路来实现本公开的信息记录推荐装置。
在本公开的以上示例中,各种阈值以及各种因子例如可以根据经验确定,或者可以根据实际应用自适应地确定。
另外,以上描述了本公开的多个实施例。但是在不同实施例中分别描述不同技术手段并不意味着这些技术手段不能有利地结合使用。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (13)

1.一种向用户推荐信息记录的方法,包括:
分析目标信息记录,获得该目标信息记录包含的原始词语;
根据基本词语之间的关联性,获得与原始词语关联的关联词语;以及
根据原始词语和关联词语以及用户感兴趣词语,确定是否向用户推荐该目标信息记录。
2.根据权利要求1所述的方法,其中,所述基本词语之间的关联性根据权重关系网络确定,所述权重关系网络包括节点以及节点之间的链接,其中节点对应于基本词语,节点间的链接对应于相应基本词语的权重之间的统计关联性。
3.根据权利要求2所述的方法,其中,从第一节点到第二节点的链接表示从与第一节点相对应的基本词语的权重到与第二节点相对应的基本词语的权重的传递参数。
4.根据权利要求3所述的方法,其中,从第一节点到第二节点的传递参数V如下计算:
V = Σ i ( α i * T i / P i ) ,
其中,i表示时间段索引,Ti表示在第i时间段内同时包含与第一节点相对应的基本词语以及与第二节点相对应的基本词语的历史信息记录数量,Pi表示第i时间段内包含与第一节点相对应的基本词语而不包含与第二节点相对应的基本词语的历史信息记录数量,αi表示第i时间段的加权因子且满足
Figure FDA0000146320440000012
5.根据权利要求4所述的方法,其中,如果V小于特定阈值,则忽略第一节点到第二节点的链接。
6.根据权利要求3所述的方法,其中,获得关联词语包括:
将原始词语映射到权重关系网络的原始节点上,将原始词语在目标信息记录中的权重赋给原始节点;
根据原始节点的权重以及从原始节点到与原始节点具有链接的关联节点的传递参数,计算关联节点的权重;以及
选择关联节点中权重大于一定阈值的节点所对应的基本词语,作为关联词语。
7.根据权利要求6所述的方法,还包括:根据关联节点的权重以及从关联节点到原始节点的传递参数,更新原始节点的权重,
其中,确定是否向用户推荐该目标信息记录包括:根据原始节点中权重大于一定阈值的节点相对应的词语、所选择的关联词语以及用户感兴趣词语,确定是否向用户推荐该目标信息记录。
8.一种信息记录推荐装置,包括:
原始词语获取单元,被配置为分析目标信息记录,获得该目标信息记录包含的原始词语;
关联词语获取单元,被配置为获得与原始词语关联的关联词语;以及
判断单元,被配置为根据原始词语和关联词语以及用户感兴趣词语,确定是否向用户推荐目标信息记录。
9.根据权利要求8所述的信息记录推荐装置,其中,关联词语获取单元被配置为根据权重关系网络,获得与原始词语关联的关联词语,所述权重关系网络包括节点以及节点之间的链接,其中节点对应于基本词语,节点间的链接对应于相应基本词语的权重之间的统计关联性。
10.根据权利要求9所述的信息记录推荐装置,其中,关联词语获取单元包括:
映射单元,被配置为将原始词语映射到权重关系网络的原始节点上,将原始词语在目标信息记录中的权重赋给原始节点;
节点权重分析单元,被配置为根据原始节点的权重以及从原始节点到与原始节点具有链接的关联节点的链接,计算关联节点的权重;以及
选择单元,被配置为选择关联节点中权重大于一定阈值的节点所对应的基本词语作为关联词语。
11.根据权利要求10所述的信息记录推荐装置,其中,所述节点权重分析单元还被配置为根据关联节点的权重以及从关联节点到原始节点的链接,更新原始节点的权重。
12.根据权利要求9所述的信息记录推荐装置,还包括:
权重关系网络建立单元,被配置为根据历史信息记录,建立权重关系网络。
13.根据权利要求12所述的信息记录推荐装置,其中,所述权重关系网络建立单元包括:
网络建立基本词语获取单元,被配置为分析历史信息记录,获得历史信息记录包含的基本词语;
网络节点选择单元,被配置为从基本词语中选择作为网络节点的基本词语;以及
统计关联性分析单元,被配置为确定作为网络节点的基本词语的权重之间的统计关联性。
CN201210080200.3A 2012-03-23 2012-03-23 信息记录推荐方法和装置 Expired - Fee Related CN103324641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210080200.3A CN103324641B (zh) 2012-03-23 2012-03-23 信息记录推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210080200.3A CN103324641B (zh) 2012-03-23 2012-03-23 信息记录推荐方法和装置

Publications (2)

Publication Number Publication Date
CN103324641A true CN103324641A (zh) 2013-09-25
CN103324641B CN103324641B (zh) 2016-07-13

Family

ID=49193388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210080200.3A Expired - Fee Related CN103324641B (zh) 2012-03-23 2012-03-23 信息记录推荐方法和装置

Country Status (1)

Country Link
CN (1) CN103324641B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761263A (zh) * 2013-12-31 2014-04-30 武汉传神信息技术有限公司 向用户推荐信息的方法
CN104391859A (zh) * 2014-10-22 2015-03-04 百度在线网络技术(北京)有限公司 一种向用户提供对象信息的方法和装置
CN106340293A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种音频数据识别结果的调整方法及装置
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置
CN110110207A (zh) * 2018-01-18 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN110399185A (zh) * 2018-04-24 2019-11-01 华为技术有限公司 一种调整智能推荐的方法、终端及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174087A1 (en) * 2001-05-02 2002-11-21 Hao Ming C. Method and system for web-based visualization of directed association and frequent item sets in large volumes of transaction data
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174087A1 (en) * 2001-05-02 2002-11-21 Hao Ming C. Method and system for web-based visualization of directed association and frequent item sets in large volumes of transaction data
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761263A (zh) * 2013-12-31 2014-04-30 武汉传神信息技术有限公司 向用户推荐信息的方法
WO2015101155A1 (zh) * 2013-12-31 2015-07-09 语联网(武汉)信息技术有限公司 向用户推荐信息的方法
CN104391859A (zh) * 2014-10-22 2015-03-04 百度在线网络技术(北京)有限公司 一种向用户提供对象信息的方法和装置
CN106340293A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种音频数据识别结果的调整方法及装置
CN106340293B (zh) * 2015-07-06 2019-11-29 无锡天脉聚源传媒科技有限公司 一种音频数据识别结果的调整方法及装置
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置
CN110110207A (zh) * 2018-01-18 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN110110207B (zh) * 2018-01-18 2023-11-03 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN110399185A (zh) * 2018-04-24 2019-11-01 华为技术有限公司 一种调整智能推荐的方法、终端及服务器
US11442751B2 (en) 2018-04-24 2022-09-13 Huawei Technologies Co., Ltd. Method for adjusting intelligent recommendation, terminal, and server

Also Published As

Publication number Publication date
CN103324641B (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN106874292B (zh) 话题处理方法及装置
JP5984917B2 (ja) 提案される語を提供するための方法および装置
CN102262647B (zh) 信息处理装置、信息处理方法和程序
CN107862022B (zh) 文化资源推荐系统
WO2017197806A1 (zh) 基于人工智能提供智能服务的方法、智能服务系统及智能终端
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN105389349A (zh) 词典更新方法及装置
CN106445988A (zh) 一种大数据的智能处理方法和系统
WO2016107354A1 (zh) 提供用户个性化资源消息推送的方法和装置
CN103324641A (zh) 信息记录推荐方法和装置
CN103020049A (zh) 搜索方法及搜索系统
CN107908616B (zh) 预测趋势词的方法和装置
CN111444304A (zh) 搜索排序的方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
US11809505B2 (en) Method for pushing information, electronic device
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
US11836331B2 (en) Mathematical models of graphical user interfaces
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
US20170177739A1 (en) Prediction using a data structure
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
Wei et al. Online education recommendation model based on user behavior data analysis
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160713

Termination date: 20170323