CN102750277B - 获取信息的方法和装置 - Google Patents

获取信息的方法和装置 Download PDF

Info

Publication number
CN102750277B
CN102750277B CN201110096463.9A CN201110096463A CN102750277B CN 102750277 B CN102750277 B CN 102750277B CN 201110096463 A CN201110096463 A CN 201110096463A CN 102750277 B CN102750277 B CN 102750277B
Authority
CN
China
Prior art keywords
information
semantic category
presupposed
keyword
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110096463.9A
Other languages
English (en)
Other versions
CN102750277A (zh
Inventor
焦峰
李亚楠
杨月奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201110096463.9A priority Critical patent/CN102750277B/zh
Publication of CN102750277A publication Critical patent/CN102750277A/zh
Application granted granted Critical
Publication of CN102750277B publication Critical patent/CN102750277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种获取信息的方法,该方法包括:获取用户输入的关键字;根据预设的关键字匹配条件,获取与该关键字内容匹配的第一信息集;判断该第一信息集中的信息数量是否大于预设信息数量,且该第一信息集是否包括至少两个语义类,如果是,则获取该预设信息数量的信息,该信息包括至少两个语义类;发送该信息至该用户。本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。

Description

获取信息的方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种获取信息的方法和装置。
背景技术
问答系统是互联网用户获取信息的一种常见工具,例如百度知道、搜搜问问等。为了满足用户的信息浏览需求,问答系统会检索推送与当前浏览问题相关的其他问题或答案,这里称之为“相关问题”。相关问题可以进一步的满足用户的浏览需求。然而由于受展示空间限制,一个问题的相关问题往往只能显示5条左右,很多时候无法将所有的相关问题进行展示,因此需要一定的方法选取最具代表性的几条相关问题。
现有相关问题检索系统选取与当前浏览问题语义最接近的几条问题,并依次展示给用户。其技术实现为:首先,获取用户点击或输入的问题Q;然后,利用信息检索或自然语言处理技术,从以往收集或记录的问题数据库中检索出与问题Q相关的问题集R(Q);然后,对R(Q)中相关问题按照与Q的语义相关度进行排序;最后,选取R(Q)中排名最高的N条相关问题进行展示。其中,N为相关问题在页面上显示条数的最大值。
现有技术方案为用户提供与用户提出的问题在内容上相关信息。但通过现有的技术方案给出的相关问题搜索结果,都是语义相同或非常接近的,当用户希望泛泛地浏览某类问题的其他方面的相关知识时,现有的技术方案,无法满足用户需求,需要用户重新输入该某类问题的其他方面信息,重新搜索,减少了用户体验。
例如,某用户想装修自己的房子,则该用户可通过输入问题浏览问题为“近几年最流行装修风格是什么?”获取相关内容,相关问题一般只能显示5条左右,则通过现有技术方案,用户可获取5条关于“装修风格”的信息;但用户可能还希望获取有关装修材料、装修价格、附近装修商口碑等各类知识的相关问题及回答,则需要重新输入需要获取信息的关键字,增加了用户的操作。
发明内容
为了简化搜索操作,提高用户体验,本发明实施例提供了一种获取信息的方法,所述方法包括:
获取用户输入的关键字;
根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,如果是,则获取所述预设信息数量的信息,所述信息包括至少两个语义类;
发送所述信息至所述用户。
所述判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,具体包括:
获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量;
对所述第一信息集中的信息按语义类进行文本聚类;
获取所述第一信息集包含的语义类的数量;
判断所述语义类的数量是否大于或等于两个。
所述获取预设信息数量的信息,所述信息包括至少两个语义类具体包括:
当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
计算所述预设信息数量与所述语义类的数量的差值数;
对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序;
获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并,得到所述预设信息数量的信息;
当所述第一信息集包含的语义类的数量大于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第四临时信息集;
对所述第四临时信息集中的信息按其与所述关键字的匹配度由高到低进行排序;
获取排序后第四临时信息集中信息位置序号小于或等于所述预设信息数量的信息,得到所述预设信息数量的信息。
所述获取预设信息数量的信息,所述信息包括至少两个语义类具体包括:
对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序;
当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数;
则根据rqx=sqy获取至少两个语义类的预设信息数量的信息;
其中,a=logNm,N为预设信息数量,rqx为按在SQ中获取后的信息。
所述将所述信息发送给用户具体包括:
对所述信息按其与所述关键字的匹配度由高到低进行排序;
将排序后的信息,按顺序依次发送给用户。
本发明实施例提供了一种获取信息的装置,所述装置包括:
关键字获取模块,用于获取用户输入的关键字;
第一信息集获取模块,用于根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
信息获取模块,用于判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,如果是,则获取所述预设信息数量的信息,所述信息包括至少两个语义类;
信息发送模块,用于发送所述信息至所述用户。
所述信息获取模块,具体包括:
信息数量确定单元,用于获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量;
文本聚类单元,用于对所述第一信息集中的信息按语义类进行文本聚类;
语义类数量获取单元,用于获取所述第一信息集包含的语义类的数量;
语义类确定单元,用于判断所述语义类的数量是否大于或等于两个;
信息获取单元,用于当所述第一信息集中的信息数量大于预设信息数量,且所述第一信息集包括至少两个语义类时,获取所述预设信息数量的信息,所述信息包括至少两个语义类。
所述信息获取模块,具体包括:
临时信息集生成单元,用于当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
数量差值数计算单元,用于计算所述预设信息数量与所述语义类的数量的差值数;
预设信息获取单元,用于对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并,得到所述预设信息数量的信息;
第一信息获取单元,用于当所述第一信息集包含的语义类的数量大于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第四临时信息集,对所述第四临时信息集中的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后第四临时信息集中信息位置序号小于或等于所述预设信息数量的信息,得到所述预设信息数量的信息。
所述信息获取模块具体包括:
第二信息获取单元,用于对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序,当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数时,则根据rqx=sqy获取至少两个语义类的预设信息数量的信息;其中,a=logNm,N为预设信息数量,rqx为按在SQ中获取后的信息。
所述信息发送模块,具体包括:
关键字排序单元,用于对所述信息按其与所述关键字的匹配度由高到低进行排序;
信息发送单元,用于将排序后的信息,按顺序依次发送给用户。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,为用户提供与关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
附图说明
图1是本发明实施例1提供的获取信息的方法流程图;
图2是本发明实施例2提供的获取信息的方法流程图;
图3是本发明实施例3提供的获取信息的方法流程图;
图4是本发明实施例4提供的获取信息的方法流程图;
图5是本发明实施例5提供的获取信息的装置示意图;
图6是本发明实施例6提供的获取信息的装置示意图;
图7是本发明实施例7提供的获取信息的装置示意图;
图8是本发明实施例8提供的获取信息的装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种获取信息的方法,所述方法包括:
S101:获取用户输入的关键字;
S102:根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
S103:当所述第一信息集包括至少两个语义类,且所述第一信息集中的信息数量大于预设信息数量时,获取至少两个语义类的预设信息数量的信息,并将所述信息发送给用户。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例2
如图2所示,本发明实施例提供了一种获取信息的方法,所述方法包括:
S201:获取用户输入的关键字;
其中,用户输入的关键字可以是用户提问输入的问题、用户搜索输入的查询、或用户将要浏览的能反映其信息需求的已有问题。
例如,通过获取用户输入的问题,获取到用户输入的问题qi
S202:根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
可选的,可通过现有技术进行信息检索技术,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题。
例如,通过在数据库中对问题qi进行检索,得到相关问题候选集SQi={sq0,sq1,sq2,…,sqm}。
S203:获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量,如果是,则执行S204,如果否,则将该问题获选集中的信息作为返回给用户的信息,即执行S206;
可选的,当S202中相关问题候选集SQi={sq0,sq1,sq2,…,sqm},m取值为20,且预设信息数量为10,即第一信息集中的信息数量大于预设信息数量,则执行S204。
S204:对所述第一信息集进行文本聚类;
其中,文本聚类主要是依据聚类假设,即同类的文档相似度较大,而不同类的文档相似度较小。
优选的,对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。具体的,通过用户输入检索关键词,而后对检索到的文档进行聚类处理,并输出各个不同类别的简要描述,从而可以缩小检索的范围,用户只需关注比较有希望的主题。另外这种方法也可以为用户二次检索提供线索。
可选的,对所述第一信息集进行文本聚类的算法课包括:划分法(partitioningmethods)、层次法(hierarchical methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)和基于模型的方法(model-based methods)。
其中,划分法(partitioning methods)是指:给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。
层次法(hierarchical methods)是指:对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
基于密度的方法(density-based methods)是指:基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
基于网格的方法(grid-based methods)是指:首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
基于模型的方法(model-based methods)是指:基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。
本步骤中还可通过其他算法实现对第一信息集中的数据进行聚类,本实施例并不限定。
S205:获取所述第一信息集包含的语义类的数量;
例如,对相关问题候选集SQi={sq0,sq1,sq2,…,sqm},m取值为20的第一信息候选集按其语义类进行聚类,得到3个语义类。
S206:判断所述语义类的数量是否大于或等于两个,如果大于,则获取预设信息数量的信息,所述信息至少为两个语义类。
例如,如S205中示例所示,该第一信息集的语言类为3类,大于两个语义类,则获取预设信息数量的信息,所述信息至少为两个语义类。
S207:对所述信息按其与所述关键字的匹配度由高到低进行排序;
S208:将排序后的信息,按顺序一次发送给用户。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例3
如图3所示,本发明实施例提供了一种获取信息的方法,所述方法包括步骤S301~S310,其中S301~S305与实施例2中的S201~S205相同,此处不再赘述,与实施例2不同的是,本实施里还包括以下步骤:
S306:当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
例如,相关问题候选集SQi={sq0,sq1,sq2,…,sqm},m取值为20中包含的语义类的数量为3,预设信息数量为10;则在每一个语义类的中获取一个信息,此处得到3个不同语义类的信息,组成第一临时信息集LQ1={lq10,lq11,lq12}。
S307:计算所述预设信息数量与所述语义类的数量的差值数;
例如,在S306获取到3个信息后,则计算所述预设信息数量与所述语义类的数量的差值数,即预设信息数量10减去3,差值数为7。
S308:对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序;
例如,相关问题候选集SQi={sq0,sq1,sq2,…,sqm},m取值为20中,出去已获取的3个信息,还有17个信息,对该17个信息按其与关键字的匹配度由高到低进行排序。
S309:获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并;
例如,排序后的剩余信息序号为1~17,则获取位置序号等于或小于差值数7的信息,即信息序号为1~7的信息,从而得到第二临时信息集LQ2={lq20,lq21,lq22,lq23,lq24,lq25},并将第一临时信息集与第二临时信息集合并。
S310:将合并后的信息发送给用户。
例如,将第一临时信息集与第二临时信息集合并得到信息lq10,lq11,lq12,lq20,lq21,lq22,lq23,lq24,lq25,,将该信息发送给用户。
优选的,还可对该信息按其与关键字的匹配度由高到低进行排序,将排序后的信息,按顺序发送给用户。
需要说明的是本实施例仅为一种获取不同语义类的信息获取方法,具体的获取到不同语义类的信息还可通过多种方法实现,以实现获取到的信息属于不同语义类为目的采用的方法都属于本实施例保护的范围,具体不再赘述。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例4
如图4所示,本发明实施例提供了一种获取信息的方法,所述方法包括:
S401:获取用户输入的关键字;
其中,用户输入的关键字可以是用户提问输入的问题、用户搜索输入的查询、或用户将要浏览的能反映其信息需求的已有问题。
例如,通过获取用户输入的问题,获取到用户输入的问题qi
S402:根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
可选的,可通过现有技术进行信息检索技术,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题。
S403:获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量,如果大于,则执行S404,如果小于,则执行S405;
本实施例中,可选的,当所述信息数量大于预设信息数量时,可对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序后执行S404。
例如,通过现有技术进行信息检索技术,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题后,根据它们与问题qi的相似度进行排序得到相关问题候选集SQi={sq0,sq1,sq2,…,sqm}。
S404:当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数;则根据rqx=sqy获取至少两个语义类的预设信息数量的信息。
其中,a=logNm,N为预设信息数量,rqx为按在SQ中获取后的信息。
具体的,从SQi中取出N个语义逐步发散的相关问题。令Na=m,即a=logNm,,取函数则sqy即为第x个相关问题rqx,从而得到获取后的信息集RQi={rq1,rq2,…}。x到y是一个逐步发散的非线性映射,这样既能保证优先输出序列SQi中与qi最相关的查询,也能保证SQi后面的语义相关但发散问题能输出到相关问题中。
可选的,还可对SQi进行排序后,构造映射函数y=f(x),(f(N)≤m),令rqx=sqy,从而获得关键问题RQi={rq1,rq2,…,rqN}。各种合适的映射函数f(x)均可以用于解决该问题,如幂函数、指数函数等。
S405:将所述信息发送给用户。
可选的,输出问题qi的相关问题RQi={rq1,rq2,…},在问题浏览页面向用户依次展示各个相关问题。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例5
如图5所示,本发明实施例提供了一种获取信息的装置,所述装置包括:关键字获取模块501、第一信息集获取模块502、信息获取模块503和信息发送模块504,其中:
关键字获取模块501,用于获取用户输入的关键字;
第一信息集获取模块502,用于根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
信息获取模块503,用于判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,如果是,则获取所述预设信息数量的信息,所述信息包括至少两个语义类;
信息发送模块504,用于发送所述信息至所述用户。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例6
如图6所示,本发明实施例提供了一种获取信息的装置,与实施例5相似,所述装置包括关键字获取模块501、第一信息集获取模块502、信息获取模块503和信息发送模块504。
进一步所述信息获取模块503具体包括:
信息数量确定单元5031,用于获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量,如果大于,则所述第一信息集中的信息数量大于预设信息数量;
文本聚类单元5032,用于对所述第一信息集中的信息按语义类进行文本聚类;
语义类数量获取单元5033,用于获取所述第一信息集包含的语义类的数量;
语义类确定单元5034,用于判断所述语义类的数量是否大于或等于两个,如果大于,则所述第一信息集包括至少两个语义类。
信息获取单元5035,用于当所述第一信息集中的信息数量大于预设信息数量,且所述第一信息集包括至少两个语义类时,获取所述预设信息数量的信息,所述信息包括至少两个语义类。
其中,所述信息发送模块504,具体包括:
关键字排序单元5041,用于对所述信息按其与所述关键字的匹配度由高到低进行排序;
信息发送单元5042,用于将排序后的信息,按顺序依次发送给用户。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例7
如图7所示,本发明实施例提供了一种获取信息的装置,与实施例6相似,所述装置包括:关键字获取模块501、第一信息集获取模块502、信息获取模块503和信息发送模块504。其中,信息发送模块504包括:关键字排序单元5041和信息发送单元5042,与实施例6不同的是,本实施例中,信息获取模块503具体包括:
临时信息集生成单元5036,用于当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
数量差值数计算单元5037,用于计算所述预设信息数量与所述语义类的数量的差值数;
预设信息获取单元5038,用于对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并,得到所述预设信息数量的信息;
第一信息获取单元5039,用于当所述第一信息集包含的语义类的数量大于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第四临时信息集,对所述第四临时信息集中的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后第四临时信息集中信息位置序号小于或等于所述预设信息数量的信息,得到所述预设信息数量的信息。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例8
如图8所示,本发明实施例提供了一种获取信息的装置,与实施例6相似,所述装置包括:关键字获取模块501、第一信息集获取模块502、信息获取模块503和信息发送模块504。其中,信息发送模块504包括:关键字排序单元5041和信息发送单元5042,与实施例6不同的是,本实施例中,信息获取模块503具体包括:
第二信息获取单元50310,用于对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序,当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数时,则根据rqx=sqy获取至少两个语义类的预设信息数量的信息;其中,a=logNm,N为预设信息数量,rqx为按在SQ中获取后的信息。
本发明实施例,在与用户输入的关键字匹配的信息中,获取至少两个语义类的信息,从而为用户提供与其提供的关键字相关类型的信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取信息的方法,其特征在于,所述方法包括:
获取用户输入的关键字,所述关键字为问题;
根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,如果是,则获取所述预设信息数量的信息,所述信息包括至少两个语义类;
发送所述信息至所述用户。
2.根据权利要求1所述的方法,其特征在于,所述判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,具体包括:
获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量;
对所述第一信息集中的信息按语义类进行文本聚类;
获取所述第一信息集包含的语义类的数量;
判断所述语义类的数量是否大于或等于两个。
3.根据权利要求1所述的方法,其特征在于,所述获取预设信息数量的信息,所述信息包括至少两个语义类具体包括:
当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
计算所述预设信息数量与所述语义类的数量的差值数;
对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序;
获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并,得到所述预设信息数量的信息;
当所述第一信息集包含的语义类的数量大于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第四临时信息集;
对所述第四临时信息集中的信息按其与所述关键字的匹配度由高到低进行排序;
获取排序后第四临时信息集中信息位置序号小于或等于所述预设信息数量的信息,得到所述预设信息数量的信息。
4.根据权利要求1所述的方法,其特征在于,所述获取预设信息数量的信息,所述信息包括至少两个语义类具体包括:
对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序;
当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数;
则根据rqx=sqy获取至少两个语义类的预设信息数量的信息;
其中,y=|xa|,a=logNm,N为预设信息数量,rqx为按y=|xa|在SQ中获取后的信息。
5.根据权利要求1所述的方法,其特征在于,所述发送所述信息至所述用户具体包括:
对所述信息按其与所述关键字的匹配度由高到低进行排序;
将排序后的信息,按顺序依次发送给用户。
6.一种获取信息的装置,其特征在于,所述装置包括:
关键字获取模块,用于获取用户输入的关键字,所述关键字为问题;
第一信息集获取模块,用于根据预设的关键字匹配条件,获取与所述关键字内容匹配的第一信息集;
信息获取模块,用于判断所述第一信息集中的信息数量是否大于预设信息数量,且所述第一信息集是否包括至少两个语义类,如果是,则获取所述预设信息数量的信息,所述信息包括至少两个语义类;
信息发送模块,用于发送所述信息至所述用户。
7.根据权利要求6所述的装置,其特征在于,所述信息获取模块,具体包括:
信息数量确定单元,用于获取所述第一信息集中的信息数量,判断所述信息数量是否大于预设信息数量;
文本聚类单元,用于对所述第一信息集中的信息按语义类进行文本聚类;
语义类数量获取单元,用于获取所述第一信息集包含的语义类的数量;
语义类确定单元,用于判断所述语义类的数量是否大于或等于两个;
信息获取单元,用于当所述第一信息集中的信息数量大于预设信息数量,且所述第一信息集包括至少两个语义类时,获取所述预设信息数量的信息,所述信息包括至少两个语义类。
8.根据权利要求6所述的装置,其特征在于,所述信息获取模块,具体包括:
临时信息集生成单元,用于当所述第一信息集包含的语义类的数量小于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第一临时信息集;
数量差值数计算单元,用于计算所述预设信息数量与所述语义类的数量的差值数;
预设信息获取单元,用于对所述第一信息集中剩余的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后信息位置序号小于或等于所述差值数的信息,得到第二临时信息集,并将所述第一临时信息集和所述第二临时信息集合并,得到所述预设信息数量的信息;
第一信息获取单元,用于当所述第一信息集包含的语义类的数量大于所述预设信息数量时,则在每个语义类包含的信息中获取一个信息,得到第四临时信息集,对所述第四临时信息集中的信息按其与所述关键字的匹配度由高到低进行排序,获取排序后第四临时信息集中信息位置序号小于或等于所述预设信息数量的信息,得到所述预设信息数量的信息。
9.根据权利要求6所述的装置,其特征在于,所述信息获取模块具体包括:
第二信息获取单元,用于对所述第一信息集中的信息按其与所述关键字的匹配度由低到高进行排序,当所述第一信息集为SQ={sq0,sq1,sq2,…,sqm},m为所述第一信息集中的信息数时,则根据rqx=sqy获取至少两个语义类的预设信息数量的信息;其中,y=|xa|,a=logNm,N为预设信息数量,rqx为按y=|xa|在SQ中获取后的信息。
10.根据权利要求6所述的装置,其特征在于,所述信息发送模块,具体包括:
关键字排序单元,用于对所述信息按其与所述关键字的匹配度由高到低进行排序;
信息发送单元,用于将排序后的信息,按顺序依次发送给用户。
CN201110096463.9A 2011-04-18 获取信息的方法和装置 Active CN102750277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110096463.9A CN102750277B (zh) 2011-04-18 获取信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110096463.9A CN102750277B (zh) 2011-04-18 获取信息的方法和装置

Publications (2)

Publication Number Publication Date
CN102750277A CN102750277A (zh) 2012-10-24
CN102750277B true CN102750277B (zh) 2016-12-14

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1839386A (zh) * 2003-08-21 2006-09-27 伊迪利亚公司 使用语义歧义消除与扩展的因特网搜索
CN101025753A (zh) * 2007-03-28 2007-08-29 上海汉光知识产权数据科技有限公司 专利检索方法
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1839386A (zh) * 2003-08-21 2006-09-27 伊迪利亚公司 使用语义歧义消除与扩展的因特网搜索
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法
CN101025753A (zh) * 2007-03-28 2007-08-29 上海汉光知识产权数据科技有限公司 专利检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
附图3A. *

Similar Documents

Publication Publication Date Title
JP5607164B2 (ja) セマンティック・トレーディング・フロア
Hu et al. Auditing the partisanship of Google search snippets
US11455313B2 (en) Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials
US20110055192A1 (en) Full text query and search systems and method of use
CN104298785B (zh) 一种众搜资源搜索方法
CN103455487A (zh) 一种搜索词的提取方法及装置
Xue et al. Ontology alignment based on instance using NSGA-II
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
Ravanifard et al. Content-aware listwise collaborative filtering
Chen et al. WordNet-powered web services discovery using kernel-based similarity matching mechanism
Wang et al. Towards services discovery based on service goal extraction and recommendation
TW201126359A (en) Keyword evaluation systems and methods
Cui et al. Multi-view random walk framework for search task discovery from click-through log
CN102750277B (zh) 获取信息的方法和装置
CN102750278B (zh) 信息的获取方法和装置
Yang et al. A hot topic detection approach on Chinese microblogging
Wang et al. Microblog oriented interest extraction with both content and network structure
Jiang et al. A personalized search engine model based on RSS User's interest
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
Nutakki et al. Distributed LDA-based Topic Modeling and Topic Agglomeration in a Latent Space.
Mitsui A Generative Framework to Query Recommendation and Evaluation
Nakasumi Decision making aid in mobile environment by behavioral characteristic
Xiao et al. A New Academic Conference Information Management System Based on Social Network
Davare et al. Text Mining Scientific Data to Extract Relevant Documents and Auto-Summarization
Shilov et al. Comparing Statistical Measures for Discovering Emerging Terms in Scopus Publicationsin the Area of Decision Support in Smart City

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20131121

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

GR01 Patent grant