CN102063469B - 一种用于获取相关关键词信息的方法、装置和计算机设备 - Google Patents
一种用于获取相关关键词信息的方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN102063469B CN102063469B CN 201010579531 CN201010579531A CN102063469B CN 102063469 B CN102063469 B CN 102063469B CN 201010579531 CN201010579531 CN 201010579531 CN 201010579531 A CN201010579531 A CN 201010579531A CN 102063469 B CN102063469 B CN 102063469B
- Authority
- CN
- China
- Prior art keywords
- information
- degree
- short text
- correlation
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种计算机实现的用于获取与短文本信息相关的相关关键词信息的方法、装置及计算机设备,其通过获取待处理的所述短文本信息及其对应的第一多维度特征信息;及获取一个或多个关键词信息及其对应的第二多维度特征信息;并根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;并基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。与现有技术相比,本发明通过综合多种特征信息及多种相似度处理方式,并结合合语义分析及用户意图,来获取相关关键词,从而减少了误判的可能性,提高了短文本信息与关键词信息之间的匹配准确性。
Description
技术领域
本发明涉及计算机网络技术,尤其涉及一种用于获取相关关键词信息的方法、装置和计算机设备。
背景技术
在现代互联网技术中,如何根据来自用户的搜索信息来提供符合用户需求的搜索结果,无疑十分重要。现有技术中所采用的一种技术方案为通过获得与来自用户的搜索信息相关的相关关键词,并根据该等相关关键词来触发其对应的搜索结果。因此,如何获取与搜索信息相关的相关关键词,十分重要。
现有技术中判断文本信息相关度的方案多用于判断大段文本内容的相似度,而来自用户的搜索信息多为短文本信息,判断大段文本内容相似度的方案并不适用于判断短文本信息的相似度。并且,现有技术中相似度的判断方式也多仅从语义上进行分析判断,往往不能准确反映用户的意愿。
发明内容
本发明的目的是提供一种用于获取相关关键词信息的方法、装置和计算机设备。
根据本发明的一个方面,提供一种计算机实现的用于获取与短文本信息相关的相关关键词信息的方法,其中,该方法包括以下步骤:
a获取待处理的所述短文本信息及其对应的第一多维度特征信息;
b获取一个或多个关键词信息及其对应的第二多维度特征信息;
c根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;
d基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
根据本发明的另一个方面,还提供了一种用于获取与短文本信息相关的相关关键词信息的短文本处理装置,其中,该短文本处理装置包括:
第一获取装置、用于获取待处理的所述短文本信息及其对应的第一多维度特征信息;
第二获取装置、用于获取一个或多个关键词信息及其对应的第二多维度特征信息;
相关度确定装置、用于根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;
关键词确定装置、用于基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括上述短文本处理装置。
与现有技术相比,本发明具有以下优点:1)本发明采用多种特征信息,综合判断短文本信息与关键词信息之间的相关度,从而避免了采用单一特征信息而造成的误判,提高了短文本信息与关键词信息之间的匹配准确性;2)本发明采用多种相关度处理方式,分别通过多种特征信息的多个相关度结果来综合判断,进一步减少了误判的可能性,提高了短文本信息与关键词信息之间的匹配准确性;3)本发明结合语义分析及用户意图,综合判断短文本信息与关键词信息之间的相关度,从而去除虽语义相关,但并不符合用户意图的关键词,进而避免将该等不符合用户意图的关键词所触发的搜索结果展现给用户。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的方法流程图;
图2为本发明一个优选实施例的用于获取与短文本信息相关的相关关键词信息的方法流程图;
图3为本发明另一优选实施例的用于获取与短文本信息相关的相关关键词信息的方法流程图;
图4为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图;
图5为本发明一个优选实施例获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图;
图6为本发明另一优选实施例获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的方法流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成,为简明起见,以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。其中,所述用户设备包括但不限于:个人电脑、智能手机、PDA等;所述网络设备包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,短文本处理装置获取待处理的短文本信息及其对应的第一多维度特征信息。
其中,所述短文本信息包括但不限于:
1)来自用户的输入序列;
2)计算机设备当前需要处理的信息等。
该短文本信息对应的第一多维度特征信息包括但不限于以下至少两种特征信息:
1)切词特征信息,其包含对该短文本信息进行切词后所得的特征信息;
2)文本扩展特征信息,其包含对该短文本信息进行短文本扩展后所得的扩展特征信息;
3)n-gram特征信息,其包含该短文本信息n-gram片段的特征信息;
4)PLSA(Probabilistic latent semantic analysis)特征信息,其包含该短文本信息的潜在语义主元(topic)信息,优选地,该特征信息以数字来表征该潜在语义主元;
5)ESA(Explicit Semantic Analysis)特征信息,其包含该短文本信息的具有明确语义概念的主元信息,优选地,该特征信息以数字来表征该具有明确语义概念的主元;
6)PCA(Principal component analysis)特征信息,其包含该短文本信息的潜在广告主元信息,优选地,该特征信息以数字来表征该广告主元。
该短文本处理装置获取该待处理短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行处理的短文本信息。
该短文本处理装置获取该待处理短文本信息对应的第一多维度特征信息的方式包括但不限于:1)当获得所述短文本信息后,对该短文本信息进行实时分析,来获得所述第一多维度特征信息;2)获取预存储在所述计算机设备或其他设备中的与该待处理短文本信息对应的第一多维度特征信息。
接着,在步骤S2中,短文本处理装置获取一个或多个关键词信息及其对应的第二多维度特征信息。其中,该第二多维度特征信息包括但不限于至少两种特征信息,该特征信息已在前述说明第一多维度特征信息时予以详述,并以引用的方式包含于此,不再赘述。
具体地,该短文本处理装置获取所述一个或多个关键词信息及其对应的第二多维度特征信息的方式包括但不限于:
1)根据该待处理短文本信息的第一多维度特征信息,在特征倒排索引库中进行查询,以获得该一个或多个关键词信息及其对应的第二多维度特征信息,其中,所述特征倒排索引库为能够根据特征信息来获取关键词信息的索引库;
例如,一个特征倒排索引库的实施例如表1所示:
表1
索引词 | 索引词特征类别 | 关键词 |
诺基亚 | 切词特征 | 诺基亚手机、... |
诺基亚 | 文本扩展特征信息 | 5310、音乐手机、... |
手机_维修 | n-gram特征 | 诺基亚手机维修、三星手机维修、... |
101 | PLSA特征 | 诺基亚、手机网、报价、... |
310 | ESA特征 | Ipone、维修中心、三星手机、... |
205 | PCA特征 | 手机网、诺基亚、手机维修、... |
...... | ...... | ...... |
需要说明的是,本领域技术人员应该理解,表1仅为更好地说明特征倒排索引库,而非对其的限定,本领域技术人员应该理解,任何能够根据特征信息来获取关键词信息的索引库的实现方式,均应包含在本发明的范围内。
2)获取预存储在所述计算机设备或其他设备中的与该待处理短文本信息相关的一个或多个关键词信息及其对应的第二多维度特征信息。
接着,在步骤S3中,短文本处理装置根据所述第一及第二多维度特征信息,来获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息。
具体地,所述短文本处理装置根据一种或多种相关度处理方式,并对所述第一及第二多维度特征信息中对应的特征信息进行处理,来获得所述相关度信息。
其中,所述相关度处理方式包括但不限于以下至少一种:
1)欧式距离处理,其根据欧式距离处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息;
2)余弦相关度处理,其根据余弦相关度处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息;
3)BM(Best Match)25相关度处理,其根据BM25相关度处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息
4)同义词匹配处理,其根据同义词库,判断第一及第二多维度特征信息中所包含的文本信息的相似度,来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息。
其中,所述相关度信息包括但不限于以下至少一项:
1)一种或多种所述短文本信息与所述关键词信息之间的相关度值;
2)所述相关度值的类别及详细信息,其中,该详细信息包括与该相关度值相关的特征信息及处理方式等;
3)该相关度信息的建立或更新时间等。
例如,短文本处理装置分别通过欧式距离处理及BM25相关度处理方式,并根据第一多维度特征信息及第二多维度特征信息所包含的文本扩展特征信息、n-gram特征信息及PLSA特征信息,来综合判断并获取短文本信息及关键词信息之间的相关度信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,根据其他相关度处理方式及其他特征信息,来获取相关度信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S4中,短文本处理装置基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
具体地,所述预定规则中规定了根据所述相关度信息及所述一个或多个关键词信息,来获得与所述短文本信息相关的相关关键词的确定规则。短文本处理装置基于所述预定规则所规定的确定规则,来确定所述一个或多个关键词信息是否为相关关键词信息。
例如,若所述确定规则规定,当所述相关度信息中包含的一类相关度值等于或高于第一预定阈值时,判断该相关度值对应的关键词信息为相关关键词信息;当该相关度值低于该第一预定阈值时,判断该相关度值对应的关键词信息并非相关关键词信息。则当短文本处理装置获取到该类相关度值为8,而第一预定阈值为7时,则判断该相关度值对应的关键词信息为相关关键词信息。
又例如,若所述确定规则规定,当关键词信息为多个时,根据所述相关度信息进行排序,并选择排序结果为前50位的相关度信息对应的关键词信息作为相关关键词信息。则当短文本处理装置获取到100个关键词信息及其对应的相关度信息时,据所述相关度信息进行排序,并选择排序结果为前50位的相关度信息对应的关键词信息作为相关关键词信息。其中,所述排序的方式包括但不限于:1)根据一种相关度值进行排序;2)根据多种相关度值进行综合排序等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括短文本处理装置根据所述短文本信息,获取必要信息;及若所述关键词信息中未包含所述必要信息,则判断该关键词信息与所述短文本信息不相关的步骤。
具体地,所述计算机设备或其他与该计算机物理分离但通信相连的设备中,存储有必要信息词库,该必要信息词库中存储有索引词及其对应的必要信息。短文本处理装置可直接将短文本信息与索引词进行匹配,或者对该短文本信息进行预处理后,例如,切词处理或者提取n-gram片段处理等,再将预处理后的信息与索引词进行匹配,当匹配成功时,获取该成功匹配的索引词对应的必要信息。接着,短文本处理装置判断所述关键词信息中是否包含所述必要信息,若未包含任何所述必要信息,则短文本处理装置判断该关键词信息与所述短文本信息不相关。
例如,若短文本信息为“手机维修”,短文本处理装置根据该短文本信息在必要信息词库中进行匹配查询,查找到该短文本信息与必要信息词库中的索引词“维修”相匹配,并获取该索引词“维修”对应的必要信息“维修”、“修理”、“修复”、“复原”,随后,短文本处理装置判断其在步骤S2中所获取的关键词信息“手机彩信”、“手机天线修理”及“手机贴膜”中是否包含必要信息“维修”、“修理”、“修复”、“复原”中的任一者,判断得到“手机彩信”及“手机贴膜”未包含必要信息中的任一者,则判断“手机彩信”及“手机贴膜”与所述短文本信息不相关,删除“手机彩信”及“手机贴膜”,“手机天线修理”包含必要信息“修理”,则不对该关键词信息进行处理。
其中,上述两个步骤可在前述步骤S3之前完成,即预判断所获取的一个或多个关键词是否包括必要信息,并删除未包含必要信息的关键词后,再通过执行步骤S3及步骤S4,来选择相关关键词信息;或者,上述两个步骤可在执行步骤S3或步骤S4的过程中完成,即参考预定规则的同时,还根据关键词信息是否包含必要信息,来选择相关关键词信息;或者,上述两个步骤可在执行步骤S4后完成,即进一步判断所获取的相关关键词信息是否包含必要信息,来对该相关关键词信息进行进一步地筛选。
通过本实施例,能够去除虽然语义相似,但实际用户意图与短文本信息不同的关键词信息,例如,对于短文本信息“手机维修”,用户的意图在于“维修”,而“手机彩信”及“手机贴膜”等关键词信息,其意图往往是“音乐下载”及“手机装饰”等增加用户体验的方向,与“维修”的意图是明显无关的。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于关键词信息是否包含必要信息来筛选关键词信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括短文本处理装置根据所述短文本信息及其对应的相关关键词信息,来建立或更新相关关键词库的步骤。
具体地,当相关关键词库尚未建立时,短文本处理装置根据已获得的相关关键词的短文本信息及其对应的相关关键词来建立相关关键词库;当相关关键词库已建立时,短文本处理装置根据已获得相关关键词的短文本信息及其对应的相关关键词来更新相关关键词库。
作为本发明的优选方案之一,本发明还包括根据所述待处理的短文本信息,在所述相关关键词库中进行查询匹配,以获得与该待处理的短文本信息相关的相关关键词信息。
具体地,短文本处理装置将待处理的短文本信息与相关关键词库中已确定相关关键词的短文本信息进行匹配查询,并获取成功匹配的所述相关关键词库中的短文本信息对应的相关关键词信息,来作为该待处理的短文本信息的相关关键词信息。
通过本实施例,能够满足线上实时查询的需求。
图2为本发明一个优选实施例的用于获取与短文本信息相关的相关关键词信息的方法流程图。根据本实施例的方法,包括步骤S1、步骤S2、步骤S31、步骤S32及步骤S4’。
步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S31中,短文本处理装置基于一种或多种相关度处理方式,根据所述第一及第二多维度特征信息,获得所述短文本信息与所述关键词信息之间的所有基本相关度值。其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的任一种多种特征信息在基于一种相关度处理方式下所得的相关度值。
具体地,若以ai来表征一种特征信息,以bj来表征一种相关度处理方式,其中,i=1,2,3,...,n;j=1,2,3,...,m。则基本相关度值可采用d(aibj)来表征,即通过一种相关度处理方式,来对一种特征信息进行处理而得到的相关度值。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表2
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
则基本相关度值d(a1b2)表示根据同义词匹配处理方式对短文本信息对应的n-gram特征信息及关键词信息对应的n-gram特征信息之间进行相似度处理而得到的相似度值。
短文本处理装置分别通过欧式距离处理方式及同义词匹配处理方式,来分别获取短文本信息及关键词信息对应的n-gram特征信息、PLSA特征信息及PCA特征信息之间的基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1)。
接着,在步骤S32中,短文本处理装置根据所述基本相关度值,获得所述相关度信息。
具体地,在本实施例中,前述参照图1所示实施例中所述相关度信息所包含的所有内容均以引用的方式包含在本实施例中,不再赘述。并且,本实施例中,所述相关度信息进一步包括以下至少一项:
1)所述短文本信息与所述关键词信息对应的基本相关度值;
该基本相关度值已在前述步骤S31中予以详述,在此不再赘述。本步骤中,短文本处理装置直接将在步骤S31中所获得的基本相关度值包含在相关度信息内。
2)通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
若采用B来表征所有相关度处理方式,特征相关度值采用d(aiB)来表示。则d(aiB)=f{d(aib1),...,d(aibm)},f表示对d(aib1)至d(aibm)的任意处理方式,例如,将d(aib1)至d(aibm)全部相加,或将d(aib1)至d(aibm)相乘,或计算d(aib1)至d(aibm)的平方和等。短文本处理装置基于d(aiB)=f{d(aib1),...,d(aibm)},并根据各基本相关度值来获取特征相关度值d(aiB)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表3
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,预设d(aiB)=d(aib1)+,...,+d(aibm),则特征相关度值d(a1B)表示将基本相关度值d(a1b1)及d(a1b2)相加所得的n-gram特征信息对应的特征相关度值。短文本处理装置根据d(aiB)=d(aib1)+,...,+d(aibm),来获取特征相关度值d(a1B)、d(a2B)及d(a3B)。
3)通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
若采用A来表征所有特征信息,方式相关度值采用d(Abj)来表示。则d(Abj)=f{d(a1bj),...,d(anbj)},f表示对d(a1bj)至d(anbj)的任意处理方式,例如,将d(a1bj)至d(anbj)全部相加,或将d(a1bj)至d(anbj)相乘,或计算d(a1bj)至d(anbj)的平方和等。短文本处理装置基于d(Abj)=f{d(a1bj),...,d(anbj)},并根据各基本相关度值来获取方式相关度值d(Abj)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表4
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,预设d(Abj)=d(a1bj)+,...,+d(anbj),则特征相关度值d(Ab2)表示将基本相关度值d(a1b2)、d(a2b2)及d(a3b2)相加所得的同义词处理方式对应的方式相关度值。短文本处理装置根据d(Abj)=d(a1bj)+,...,+d(anbj),来获取方式相关度值d(Ab1)及d(Ab2)。
4)所述短文本信息与所述关键词信息对应的总相关度值;
该总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。例如,若采用A来表征所有特征信息,并采用B来表征所有相关度处理方式,则该总相关度值可采用d(AB)来表示。其中,所述总相关度可采用以下任一种方式获得:
I)直接根据各基本相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(a1b1),...,d(anbm)},f表示对d(a1b1)至d(anbm)的任意处理方式,例如,将d(a1b1)至d(anbm)全部相加,或将d(a1b1)至d(anbm)相乘,或计算d(a1b1)至d(anbm)的平方和等。短文本处理装置基于d(AB)=f{d(a1b1),...,d(anbm)},并根据各基本相关度值来获取总相关度值d(AB)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表5
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,若预设d(AB)=d(a1b)1+,...,+d(anbm),则特征相关度值AB表示将基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1)相加所得的总相关度值。短文本处理装置根据d(AB)=d(a1b)1+,...,+d(anbm),来获取总相关度值d(AB)。
II)根据各特征相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(a1B),...,d(anB)},f表示对d(a1B)至d(anB)的任意处理方式,例如,将d(a1B)至d(anB)全部相加,或将d(a1B)至d(anB)相乘,或计算d(a1B)至d(anB)的平方和等。短文本处理装置基于d(AB)=f{d(a1B),...,d(anB)},并根据各特征相关度值来获取总相关度值d(AB)。本领域技术人员应该理解,f并不以上述举例为限。
同样以I)中所述的表征方式为例,若预设d(AB)=d(a1B)+,...,+d(anB),则特征相关度值d(AB)表示将基本相关度值d(a1B)、d(a2B)及d(a3B)相加所得的总相关度值。短文本处理装置根据d(AB)=d(a1B)+,...,+d(anB),来获取总相关度值d(AB)。
III)根据各方式相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(Ab1),...,d(Abm)},f表示对d(Ab1)至d(Abm)的任意处理方式,例如,将d(Ab1)至d(Abm)全部相加,或将d(Ab1)至d(Abm)相乘,或计算d(Ab1)至d(Abm)的平方和等。短文本处理装置基于d(AB)=f{d(Ab1),...,d(Abm)},并根据各方式相关度值来获取总相关度值d(AB)。本领域技术人员应该理解,f并不以上述举例为限。
同样以I)中所述的表征方式为例,若预设d(AB)=d(Ab1)+,...,+d(Abm),则特征相关度值d(AB)表示将基本相关度值d(Ab1)及d(Ab2)相加所得的总相关度值。短文本处理装置根据d(AB)=d(Ab1)+,...,+d(Abm),来获取总相关度值d(AB)。
综上所述,短文本信息可根据基本相关度值来获得所述特征相关度值、所述方式相关度值及所述总相关度值,并将上述四者中的至少一者,包含在相关度信息内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基本相关度值,获得所述相关度信息的实现方式,均应包含在本发明的范围内。
优选地,每个基本相关度值、每个特征相关度值及每个方式相关度值,均可预设权重值。
在步骤S32中,短文本处理装置还可根据每个基本相关度值及其对应的权重值,来获得特征相关度值、方式相关度值及总相关度值。若以Wij表示aibj对应的权重值,则d(aiB)=f{Wi1d(aib1),...,Wjmd(aibm)},d(Abj)=f{W1jd(a1bj),...,Wnjd(anbj)},且d(AB)=f{W11d(a1b1),...,Wnmd(anbm)}。短文本处理装置根据d(aiB)=f{Wi1d(aib1),...,Wjmd(aibm)},d(Abj)=f{W1jd(a1bj),...,Wnjd(anbj)},及d(AB)=f{W11d(a1b1),...,Wnmd(anbm)},并结合个基本相关度值来分别获取特征相关度值d(aiB)、方式相关度值d(Abj)及总相关度值d(AB)。
例如,若预设:
d(aiB)=Wi1d(aib1)+,...,+Wjmd(aibm);
d(Abj)=W1jd(a1bj)+,...,+Wnjd(anbj);
d(AB)=W11d(a1b1)+,...,+Wnmd(anbm);
当n=3,m=2,W11=0.1,W12=0.05,W21=0.05,W22=0.2,W31=0.3,W32=0.3时,以获取a1B、Ab2、AB为例:
d(a1B)=0.1d(a1b1)+0.05d(a1b2);
d(Ab2)=0.05d(a1b2)+0.2d(a2b2)+0.3d(a3b2);
d(AB)=0.05d(a1b2)+0.2d(a2b2)+0.3d(a3b2)+0.1d(a1b1)+0.05d(a2b1)+0.3d(a3b1);
则短文本处理装置根据上述三式,并结合各基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1),来获取特征相关度值d(a1B)、方式相关度值d(Ab2)、及总相关度值d(AB)。
优选地,
相应的,在步骤S32中,短文本处理装置还可根据每个特征相关度值或每个方式相关度值及其对应的权重值,来获得总相关度值。例如,若以WiB表示特征相关度值对应的权重值,WAj表示方式相关度值对应的权重值,则d(AB)=f{W1Bd(a1B),...,WnBd(anB)},或d(AB)=f{WA1d(Ab1),...,WAmd(Abm)}。短文本处理装置基于d(AB)=f{W1Bd(a1B),...,WnBd(anB)},或d(AB)=f{WA1d(Ab1),...,WAmd(Abm)},并根据各特征相关度值或方式相关度值,来获取总相关度值d(AB)。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基本相关度值及其对应的权重值,来根据获得所述相关度信息的实现方式,均应包含在本发明的范围内。
在步骤S4’中,短文本处理装置基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
1)基于所述相关度信息的排序结果;
具体地,短文本处理装置根据所述相关度信息中包含的相关度值进行排序,并选择排序结果为前N位的相关度值所对应的关键词信息,作为相关关键词信息。其中,本领域技术人员应可根据实际情况和需求来选择并设定N。
例如,若N=50,相关度信息中包含总相关度值,则短文本处理装置根据所述相关度信息中包含的总相关度值进行排序,并选择排序结果为前50位的相关度值所对应的关键词信息,作为相关关键词信息。
2)基于所述基本相关度值是否大于其对应的最小预定阈值;
具体地,当所述相关度信息中包含基本相关度值时,短文本处理装置将各基本相关度值与其对应的最小预定阈值进行比对,判断其是否大于其对应的最小预定阈值。若一个关键词信息对应的各基本相关度值均大于其对应的最小预定阈值,则将该关键词判断为相关关键词,或者,判断保留该关键词以判断其是否符合其他相关关键词的判断条件;若一个关键词信息对应的各基本相关度值中的任一者小于其对应的最小预定阈值,则判断该关键词与短文本信息不相关。其中,本领域技术人员应可根据实际情况和需求来选择并设定所述最小预定阈值。
例如,若根据余弦相关度处理方式对第一及第二多维度特征信息中包含的切词特征信息进行处理而获得的基本相关度值为2.3,而其对应的最小预定阈值为2.5,则判断该基本相关度值对应的关键词信息与短文本信息不相关。
3)基于所述总相关度值是否大于预定相关阈值;
具体地,当所述相关度信息中包含总相关度值时,短文本处理装置将该总相关度值与预定相关阈值比对,当该总相关度值大于或等于所述预定相关阈值时,判断该总相关度对应的关键词信息为相关关键词信息;当该总相关度值小于所述预定相关阈值时,判断该总相关度对应的关键词信息与短文本信息不相关,即该关键词信息不为相关关键词信息。
需要说明的是,短文本处理装置可结合上述因素,来获取相关关键词信息。例如,在满足关键词信息对应的所有基本相关度值均大于其对应的最小预定阈值的条件下,选择根据总相关度值的排序结果为前N位的关键词信息作为相关关键词信息,或者,在同时满足关键词信息对应的所有基本相关度值均大于其对应的最小预定阈值,并且该关键词信息的总相关度值大于或等于预订相关阈值的情况下,判断该关键词信息为相关关键词信息等
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息的实现方式,均应包含在本发明的范围内。
图3为本发明另一优选实施例的用于获取与短文本信息相关的相关关键词信息的方法流程图。根据本实施例的方法包括步骤S1、步骤S21、步骤S22、步骤S23、步骤S3及步骤S4。
步骤S1已在参照图1或图2所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S21中,短文本处理装置根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息。在步骤S22中,短文本处理装置获取所述相匹配的特征信息对应的关键词信息。在步骤S23中,短文本处理装置获取所述关键词信息对应的第二多维度特征信息。
其中,所述特征倒排索引库中以特征信息为索引,以关键词为被索引对象。对第一多维度特征信息中的各特征信息,短文本处理装置分别在特征倒排索引库中对相应特征类别的索引词进行匹配查询,以获得所述各特征信息相匹配的特征信息,即相匹配的索引词。
例如,一个特征倒排索引库的实施例如表6所示:
表6
索引词 | 索引词特征类别 | 关键词 |
诺基亚 | 切词特征 | 诺基亚手机、... |
诺基亚 | 文本扩展特征信息 | 5310、音乐手机、... |
手机_维修 | n-gram特征 | 诺基亚手机维修、三星手机维修、... |
101 | PLSA特征 | 诺基亚、手机网、报价、... |
310 | ESA特征 | Ipone、维修中心、三星手机、... |
205 | PCA特征 | 手机网、诺基亚、手机维修、... |
...... | ...... | ...... |
若在步骤S1中,短文本处理装置获取到短文本信息“诺基亚”,且其对应的第一多维度特征信息如下:
切词特征信息:诺基亚;
文本扩展特征信息:nokia、手机、报价;
n-gram特征信息:无(因为只有1个gram片段);
PLSA特征信息:101、102、103;
ESA特征信息:201、202、203;
PCA特征信息:301、302、303。
短文本处理装置在特征倒排索引库中,查找类别为“切词特征”的索引词“诺基亚”,类别为“搜索扩展特征”的索引词“nokia”、“手机”、“报价”,类别为“PLSA特征”的索引词“101”、“102”、“103”,类别为“ESA特征”的索引词“201”、“202”、“203”,类别为“PCA特征”的索引词“301”、“302”、“303”,并将相同或相似的索引词作为对应的特征信息。随后,短文本处理装置将匹配成功的特征信息对应的关键词包含在所述关键词信息内,并获取该关键词对应的多维度特征信息作为第二多维度特征信息。其中所述第二多维度特征信息包含在所述特征倒排索引库中,或者,未存储在所述倒排索引库中,但与倒排索引库中的关键词具有对应关系。
优选地,可将表述内容相同或相近的特征信息归为一种特征类别来进行匹配查询操作。例如,将切词特征信息、文本扩展特征信息及n-gram特征信息作为文本类别的特征信息来进行匹配查询操作等。
步骤S3及S4已在参照图1或图2所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息,并获取所述相匹配的特征信息对应的关键词信息及其对应的第二多维度特征信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括步骤S5(图未示)、步骤S6(图未示)及步骤S7(图未示)。
在步骤S5中,短文本处理装置获取待处理的关键词信息。其中,该待处理的关键词信息包括但不限于:1)来自用户的输入序列;2)计算机设备当前需要处理的信息;3)对1)及2)所述的数据进行处理后获得的信息。
在步骤S6中,短文本处理装置提取所述待处理关键词信息的多维度特征信息。其中,所述多维度特征信息包括但不限于所述第一及第二多维度特征信息所包含的内容。
具体地,短文本处理装置根据各特征信息的特征获取方式,分别获取该待处理关键词信息的各特征信息,以生成该待处理关键词信息的多维度特征信息。
在步骤S7中,短文本处理装置根据所述关键词信息及其对应的多维度特征信息,建立或更新所述特征倒排索引库。
具体地,短文本处理装置根据所获取所述关键词信息及其对应的多维度特征信息,生成基于该关键词信息及其对应的多维度特征信息的特征倒排索引,并根据该特征倒排索引,来建立或更新所述特征倒排索引库。
例如,对于三个待处理的关键词信息“诺基亚”、“三星手机”、“手机维修”。其对应的多维度特征信息分别为:
待处理关键词信息:“诺基亚”
切词特征信息:诺基亚;
文本扩展特征信息:nokia、手机、报价;
n-gram特征信息:无;
PLSA特征信息:101、102、103;
ESA特征信息:201、202、203;
PCA特征信息:301、302、303。
待处理关键词信息:“三星手机”
切词特征信息:三星、手机;
文本扩展特征信息:Samsung、手机网、报价;
n-gram特征信息:三星_手机;
PLSA特征信息:101、102、104;
ESA特征信息:201、202、205;
PCA特征信息:301、302、305。
待处理关键词信息:“手机维修”
切词特征信息:手机、维修;
文本扩展特征信息:iphone、维修中心、培训学校;
n-gram特征信息:手机_维修;
PLSA特征信息:110、101、102;
ESA特征信息:210、201、202;
PCA特征信息:310、301、302。
则短文本处理装置,根据上述内容,以表1所示的样式,生成倒排索引,并根据所生成的倒排索引来建立或更新所述特征倒排索引库。
图4为本发明一个方面的用于获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图。本实施例中,短文本处理装置包括第一获取装置1、第二获取装置2、相关度确定装置3及关键词确定装置4。
第一获取装置1获取待处理的短文本信息及其对应的第一多维度特征信息。
其中,所述短文本信息包括但不限于:
1)来自用户的输入序列;
2)计算机设备当前需要处理的信息等。
该短文本信息对应的第一多维度特征信息包括但不限于以下至少两种特征信息:
1)切词特征信息,其包含对该短文本信息进行切词后所得的特征信息;
2)文本扩展特征信息,其包含对该短文本信息进行短文本扩展后所得的扩展特征信息;
3)n-gram特征信息,其包含该短文本信息n-gram片段的特征信息;
4)PLSA(Probabilistic latent semantic analysis)特征信息,其包含该短文本信息的潜在语义主元(topic)信息,优选地,该特征信息以数字来表征该潜在语义主元;
5)ESA(Explicit Semantic Analysis)特征信息,其包含该短文本信息的具有明确语义概念的主元信息,优选地,该特征信息以数字来表征该具有明确语义概念的主元;
6)PCA(Principal component analysis)特征信息,其包含该短文本信息的潜在广告主元信息,优选地,该特征信息以数字来表征该广告主元。
该第一获取装置1获取该待处理短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行处理的短文本信息。
该第一获取装置1获取该待处理短文本信息对应的第一多维度特征信息的方式包括但不限于:1)当获得所述短文本信息后,对该短文本信息进行实时分析,来获得所述第一多维度特征信息;2)获取预存储在所述计算机设备或其他设备中的与该待处理短文本信息对应的第一多维度特征信息。
第二获取装置2获取一个或多个关键词信息及其对应的第二多维度特征信息。其中,该第二多维度特征信息包括但不限于至少两种特征信息,该特征信息已在前述说明第一多维度特征信息时予以详述,并以引用的方式包含于此,不再赘述。
具体地,该第二获取装置2获取所述一个或多个关键词信息及其对应的第二多维度特征信息的方式包括但不限于:
1)根据该待处理短文本信息的第一多维度特征信息,在特征倒排索引库中进行查询,以获得该一个或多个关键词信息及其对应的第二多维度特征信息,其中,所述特征倒排索引库为能够根据特征信息来获取关键词信息的索引库;
例如,一个特征倒排索引库的实施例如表7所示:
表7
索引词 | 索引词特征类别 | 关键词 |
诺基亚 | 切词特征 | 诺基亚手机、... |
诺基亚 | 文本扩展特征信息 | 5310、音乐手机、... |
手机_维修 | n-gram特征 | 诺基亚手机维修、三星手机维修、... |
101 | PLSA特征 | 诺基亚、手机网、报价、... |
310 | ESA特征 | Ipone、维修中心、三星手机、... |
205 | PCA特征 | 手机网、诺基亚、手机维修、... |
...... | ..... | ...... |
需要说明的是,本领域技术人员应该理解,表1仅为更好地说明特征倒排索引库,而非对其的限定,本领域技术人员应该理解,任何能够根据特征信息来获取关键词信息的索引库的实现方式,均应包含在本发明的范围内。
2)获取预存储在所述计算机设备或其他设备中的与该待处理短文本信息相关的一个或多个关键词信息及其对应的第二多维度特征信息。
相关度确定装置3根据所述第一及第二多维度特征信息,来获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息。
具体地,所述相关度确定装置3根据一种或多种处理方式,并对所述第一及第二多维度特征信息中对应的特征信息进行处理,来获得所述相关度信息。
其中,所述相关度处理方式包括但不限于以下至少一种:
1)欧式距离处理,其根据欧式距离处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息;
2)余弦相关度处理,其根据余弦相关度处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息;
3)BM(Best Match)25相关度处理,其根据BM25相关度处理规则来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息
4)同义词匹配处理,其根据同义词库,判断第一及第二多维度特征信息中所包含的文本信息的相似度,来评价第一及第二多维度特征信息的相关度,以获得所述相关度信息。
其中,所述相关度信息包括但不限于以下至少一项:
1)一种或多种所述短文本信息与所述关键词信息之间的相关度值;
2)所述相关度值的类别及详细信息,其中,该详细信息包括与该相关度值相关的特征信息及处理方式等;
3)该相关度信息的建立或更新时间等。
例如,相关度确定装置3分别通过欧式距离处理及BM25相关度处理方式,并根据第一多维度特征信息及第二多维度特征信息所包含的文本扩展特征信息、n-gram特征信息及PLSA特征信息,来综合判断并获取短文本信息及关键词信息之间的相关度信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,根据其他相关度处理方式及其他特征信息,来获取相关度信息的实现方式,均应包含在本发明的范围内。
关键词确定装置4基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
具体地,所述预定规则中规定了根据所述相关度信息及所述一个或多个关键词信息,来获得与所述短文本信息相关的相关关键词的确定规则。关键词确定装置4基于所述预定规则所规定的确定规则,来确定所述一个或多个关键词信息是否为相关关键词信息。
例如,若所述确定规则规定,当所述相关度信息中包含的一类相关度值等于或高于第一预定阈值时,判断该相关度值对应的关键词信息为相关关键词信息;当该相关度值低于该第一预定阈值时,判断该相关度值对应的关键词信息并非相关关键词信息。则当关键词确定装置4获取到该类相关度值为8,而第一预定阈值为7时,则判断该相关度值对应的关键词信息为相关关键词信息。
又例如,若所述确定规则规定,当关键词信息为多个时,根据所述相关度信息进行排序,并选择排序结果为前50位的相关度信息对应的关键词信息作为相关关键词信息。则当关键词确定装置4获取到100个关键词信息及其对应的相关度信息时,据所述相关度信息进行排序,并选择排序结果为前50位的相关度信息对应的关键词信息作为相关关键词信息。其中,所述排序的方式包括但不限于:1)根据一种相关度值进行排序;2)根据多种相关度值进行综合排序等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括第四获取装置(图未示)及判断装置(图未示)。获取装置根据所述短文本信息,获取必要信息;判断装置判断所述关键词信息中是否包含所述必要信息,若未包含所述必要信息,则判断该关键词信息与所述短文本信息不相关。
具体地,所述计算机设备或其他与该计算机物理分离但通信相连的设备中,存储有必要信息词库,该必要信息词库中存储有索引词及其对应的必要信息。第四获取装置可直接将短文本信息与索引词进行匹配,或者对该短文本信息进行预处理后,例如,切词处理或者提取n-gram片段处理等,再将预处理后的信息与索引词进行匹配,当匹配成功时,获取该成功匹配的索引词对应的必要信息。接着,判断装置判断所述关键词信息中是否包含所述必要信息,若未包含任何所述必要信息,则判断装置判断该关键词信息与所述短文本信息不相关。
例如,若短文本信息为“手机维修”,第四获取装置根据该短文本信息在必要信息词库中进行匹配查询,查找到该短文本信息与必要信息词库中的索引词“维修”相匹配,并获取该索引词“维修”对应的必要信息“维修”、“修理”、“修复”、“复原”,随后,判断装置判断第二获取装置所获取的关键词信息“手机彩信”、“手机天线修理”及“手机贴膜”中是否包含必要信息“维修”、“修理”、“修复”、“复原”中的任一者,判断得到“手机彩信”及“手机贴膜”为包含必要信息中的任一者,则判断“手机彩信”及“手机贴膜”与所述短文本信息不相关,删除“手机彩信”及“手机贴膜”,“手机天线修理”包含必要信息“修理”,则不对该关键词信息进行处理。
其中,第四获取装置及判断装置可在相关度确定装置3执行操作之前完成操作,即第四获取装置及判断装置预判断所获取的一个或多个关键词是否包括必要信息,并删除未包含必要信息的关键词后,再由相关区确定装置3及关键词确定装置4来选择相关关键词信息;或者,第四获取装置及判断装置与相关区确定装置3及关键词确定装置4并行执行操作,即参考预定规则的同时,还根据关键词信息是否包含必要信息,来选择相关关键词信息;或者,第四获取装置及判断装置在相关区确定装置3及关键词确定装置4完成操作后,再执行操作,即进一步判断所获取的相关关键词信息是否包含必要信息,来对该相关关键词信息进行进一步地筛选。
通过本实施例,能够去除虽然语义相似,但实际用户意图与短文本信息不同的关键词信息,例如,对于短文本信息“手机维修”,用户的意图在于“维修”,而“手机彩信”及“手机贴膜”等关键词信息,其意图往往是“音乐下载”及“手机装饰”等增加用户体验的方向,与“维修”的意图是明显无关的。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于关键词信息是否包含必要信息来筛选关键词信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括第二更新装置(图未示)。第二更新装置根据所述短文本信息及其对应的相关关键词信息,来建立或更新相关关键词库的步骤。
具体地,当相关关键词库尚未建立时,第二更新装置根据已获得的相关关键词的短文本信息及其对应的相关关键词来建立相关关键词库;当相关关键词库已建立时,短文本处理装置根据已获得相关关键词的短文本信息及其对应的相关关键词来更新相关关键词库。
作为本发明的优选方案之一,本发明还包括第二查询装置(图未示)。第二查询装置根据所述待处理的短文本信息,在所述相关关键词库中进行查询匹配,以获得与该待处理的短文本信息相关的相关关键词信息。
具体地,短文本处理装置将待处理的短文本信息与相关关键词库中已确定相关关键词的短文本信息进行匹配查询,并获取成功匹配的所述相关关键词库中的短文本信息对应的相关关键词信息,来作为该待处理的短文本信息的相关关键词信息。
通过本实施例,能够满足线上实时查询的需求。
图5为本发明一个优选实施例获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图。本实施例中,短文本处理装置包括第一获取装置1、第二获取装置2、相关度确定装置3及关键词确定装置4。其中,相关度确定装置3进一步包括第一子确定装置31及第二子确定装置32。第一获取装置1及第二获取装置2已在参照图4所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第一子确定装置31基于一种或多种相关度处理方式,根据所述第一及第二多维度特征信息,获得所述短文本信息与所述关键词信息之间的所有基本相关度值。其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的任一种多种特征信息在基于一种相关度处理方式下所得的相关度值。
具体地,若以ai来表征一种特征信息,以bj来表征一种相关度处理方式,其中,i=1,2,3,...,n;j=1,2,3,...,m。则基本相关度值可采用d(aibj)来表征,即通过一种相关度处理方式,来对一种特征信息进行处理而得到的相关度值。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表8
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
则基本相关度值d(a1b2)表示根据同义词匹配处理方式对短文本信息对应的n-gram特征信息及关键词信息对应的n-gram特征信息之间进行相似度处理而得到的相似度值。
第一子确定装置31分别通过欧式距离处理方式及同义词匹配处理方式,来分别获取短文本信息及关键词信息对应的n-gram特征信息、PLSA特征信息及PCA特征信息之间的基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1)。
第二子确定装置32根据所述基本相关度值,获得所述相关度信息。
具体地,在本实施例中,前述参照图4所示实施例中所述相关度信息所包含的所有内容均以引用的方式包含在本实施例中,不再赘述。并且,本实施例中,所述相关度信息进一步包括以下至少一项:
1)所述短文本信息与所述关键词信息对应的基本相关度值;
该基本相关度已在前述步骤S31中予以详述,在此不再赘述。
2)通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
若采用B来表征所有相关度处理方式,特征相关度值采用d(aiB)来表示。则d(aiB)=f{d(aib1),...,d(aibm)},f表示对d(aib1)至d(aibm)的任意处理方式,例如,将d(aib1)至d(aibm)全部相加,或将d(aib1)至d(aibm)相乘,或计算d(aib1)至d(aibm)的平方和等。第二子确定装置32基于d(aiB)=f{d(aib1),...,d(aibm)},并根据各基本相关度值来获取特征相关度值d(aiB)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表9
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,预设d(aiB)=d(aib1)+,...,+d(aibm),则特征相关度值d(a1B)表示将基本相关度值d(a1b1)及d(a1b2)相加所得的n-gram特征信息对应的特征相关度值。第二子确定装置32根据d(aiB)=d(aib1)+,...,+d(aibm),来获取特征相关度值d(a1B)、d(a2B)及d(a3B)。
3)通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
若采用A来表征所有特征信息,方式相关度值采用d(Abj)来表示。则d(Abj)=f{d(a1bj),...,d(anbj)},f表示对d(a1bj)至d(anbj)的任意处理方式,例如,将d(a1bj)至d(anbj)全部相加,或将d(a1bj)至d(anbj)相乘,或计算d(a1bj)至d(anbj)的平方和等。第二子确定装置32基于d(Abj)=f{d(a1bj),...,d(anbj)},并根据各基本相关度值来获取方式相关度值d(Abj)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表10
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,预设d(Abj)=d(a1bj)+,...,+d(anbj),则特征相关度值d(Ab2)表示将基本相关度值d(a1b2)、d(a2b2)及d(a3b2)相加所得的同义词处理方式对应的方式相关度值。第二子确定装置32根据d(Abj)=d(a1bj)+,...,+d(anbj),来获取方式相关度值d(Ab1)及d(Ab2)。
4)所述短文本信息与所述关键词信息对应的总相关度值;
该总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。例如,若采用A来表征所有特征信息,并采用B来表征所有相关度处理方式,则该总相关度值可采用d(AB)来表示。其中,所述总相关度可采用以下任一种方式获得:
I)直接根据各基本相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(a1b1),...,d(anbm)},f表示对d(a1b1)至d(anbm)的任意处理方式,例如,将d(a1b1)至d(anbm)全部相加,或将d(a1b1)至d(anbm)相乘,或计算d(a1b1)至d(anbm)的平方和等。第一子确定装置31基于d(AB)=f{d(a1b1),...,d(anbm)},并根据各基本相关度值来获取总相关度值d(AB)。本领域技术人员应该理解,f并不以上述举例为限。
例如,若相关度处理方式包括欧式距离处理及同义词匹配处理,第一及第二多维度特征信息均包括n-gram特征信息、PLSA特征信息及PCA特征信息,且特征信息及相关度处理方式采用以下表征方式:
表11
特征信息 | 特征信息符号 | 相关度处理方式 | 处理方式符号 |
n-gram特征信息 | a1 | 欧式距离处理 | b1 |
PLSA特征信息 | a2 | 同义词匹配处理 | b2 |
PCA特征信息 | a3 |
并且,若预设d(AB)=d(a1b)1+,...,+d(anbm),则特征相关度值AB表示将基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1)相加所得的总相关度值。第二子确定装置32根据d(AB)=d(a1b)1+,...,+d(anbm),来获取总相关度值d(AB)。
II)根据各特征相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(a1B),...,d(anB)},f表示对d(a1B)至d(anB)的任意处理方式,例如,将d(a1B)至d(anB)全部相加,或将d(a1B)至d(anB)相乘,或计算d(a1B)至d(anB)的平方和等,本领域技术人员应该理解。第二子确定装置32基于d(AB)=f{d(a1B),...,d(anB)},并根据各特征相关度值来获取总相关度值d(AB)。f并不以上述举例为限。
同样以I)中所述的表征方式为例,若预设d(AB)=d(a1B)+,...,+d(anB),则特征相关度值d(AB)表示将基本相关度值d(a1B)、d(a2B)及d(a3B)相加所得的总相关度值。第二子确定装置32根据d(AB)=d(a1B)+,...,+d(anB),来获取总相关度值d(AB)。
III)根据各方式相关度值,来获得所述总相关度值;
具体地,d(AB)=f{d(Ab1),...,d(Abm)},f表示对d(Ab1)至d(Abm)的任意处理方式,例如,将d(Ab1)至d(Abm)全部相加,或将d(Ab1)至d(Abm)相乘,或计算d(Ab1)至d(Abm)的平方和等。第二子确定装置32基于d(AB)=f{d(Ab1),...,d(Abm)},并根据各方式相关度值来获取总相关度值d(AB)。本领域技术人员应该理解,f并不以上述举例为限。
同样以I)中所述的表征方式为例,若预设d(AB)=d(Ab1)+,...,+d(Abm),则特征相关度值d(AB)表示将基本相关度值d(Ab1)及d(Ab2)相加所得的总相关度值。第二子确定装置32根据d(AB)=d(Ab1)+,...,+d(Abm),来获取总相关度值d(AB)。
综上所述,短文本信息可根据基本相关度值来获得所述特征相关度值、所述方式相关度值及所述总相关度值,并将上述四者中的至少一者,包含在相关度信息内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基本相关度值,获得所述相关度信息的实现方式,均应包含在本发明的范围内。
优选地,每个基本相关度值、每个特征相关度值及每个方式相关度值,均可预设权重值。
第二子确定装置32还可根据每个基本相关度值及其对应的权重值,来获得特征相关度值、方式相关度值及总相关度值。若以Wij表示aibj对应的权重值,则d(aiB)=f{Wi1d(aib1),...,Wjmd(aibm)},d(Abj)=f{W1jd(a1bj),...,Wnjd(anbj)},且d(AB)=f{W11d(a1b1),...,Wnmd(anbm)}。第二子确定装置32根据d(aiB)=f{Wi1d(aib1),...,Wjmd(aibm)},d(Abj)=f{W1jd(a1bj),...,Wnjd(anbj)},及d(AB)=f{W11d(a1b1),...,Wnmd(anbm)},并结合个基本相关度值来分别获取特征相关度值d(aiB)、方式相关度值d(Abj)及总相关度值d(AB)。
例如,若预设:
d(aiB)=Wi1d(aib1)+,...,+Wjmd(aibm);
d(Abj)=W1jd(a1bj)+,...,+Wnjd(anbj);
d(AB)=W11d(a1b1)+,...,+Wnmd(anbm);
当n=3,m=2,W11=0.1,W12=0.05,W21=0.05,W22=0.2,W31=0.3,W32=0.3时,以获取a1B、Ab2、AB为例:
d(a1B)=0.1d(a1b1)+0.05d(a1b2);
d(Ab2)=0.05d(a1b2)+0.2d(a2b2)+0.3d(a3b2);
d(AB)=0.05d(a1b2)+0.2d(a2b2)+0.3d(a3b2)+0.1d(a1b1)+0.05d(a2b1)+0.3d(a3b1);
则第二子确定装置32根据上述三式,并结合各基本相关度值d(a1b2)、d(a2b2)、d(a3b2)、d(a1b1)、d(a2b1)及d(a3b1),来获取特征相关度值d(a1B)、方式相关度值d(Ab2)、及总相关度值d(AB)。
优选地,
相应的,第二子确定装置32还可根据每个特征相关度值或每个方式相关度值及其对应的权重值,来获得总相关度值。例如,若以WiB表示特征相关度值对应的权重值,WAj表示方式相关度值对应的权重值,则d(AB)=f{W1Bd(a1B),...,WnBd(anB)},或d(AB)=f{WA1d(Ab1),...,WAmd(Abm)}。第二子确定装置32基于d(AB)=f{W1Bd(a1B),...,WnBd(anB)},或d(AB)=f{WA1d(Ab1),...,WAmd(Abm)},并根据各特征相关度值或方式相关度值,来获取总相关度值d(AB)。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基本相关度值及其对应的权重值,来根据获得所述相关度信息的实现方式,均应包含在本发明的范围内。
本实施例中,关键词确定装置4基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
1)基于所述相关度信息的排序结果;
具体地,关键词确定装置4根据所述相关度信息中包含的相关度值进行排序,并选择排序结果为前N位的相关度值所对应的关键词信息,作为相关关键词信息。其中,本领域技术人员应可根据实际情况和需求来选择并设定N。
例如,若N=50,相关度信息中包含总相关度值,则关键词确定装置4根据所述相关度信息中包含的总相关度值进行排序,并选择排序结果为前50位的相关度值所对应的关键词信息,作为相关关键词信息。
2)基于所述基本相关度值是否大于其对应的最小预定阈值;
具体地,当所述相关度信息中包含基本相关度值时,关键词确定装置4将各基本相关度值与其对应的最小预定阈值进行比对,判断其是否大于其对应的最小预定阈值。若一个关键词信息对应的各基本相关度值均大于其对应的最小预定阈值,则将该关键词判断为相关关键词,或者,判断保留该关键词以判断其是否符合其他相关关键词的判断条件;若一个关键词信息对应的各基本相关度值中的任一者小于其对应的最小预定阈值,则判断该关键词与短文本信息不相关。其中,本领域技术人员应可根据实际情况和需求来选择并设定所述最小预定阈值。
例如,若根据余弦相关度处理方式对第一及第二多维度特征信息中包含的切词特征信息进行处理而获得的基本相关度值为2.3,而其对应的最小预定阈值为2.5,则关键词确定装置4判断该基本相关度值对应的关键词信息与短文本信息不相关。
3)基于所述总相关度值是否大于预定相关阈值;
具体地,当所述相关度信息中包含总相关度值时,关键词确定装置4将该总相关度值与预定相关阈值比对,当该总相关度值大于或等于所述预定相关阈值时,判断该总相关度对应的关键词信息为相关关键词信息;当该总相关度值小于所述预定相关阈值时,判断该总相关度对应的关键词信息与短文本信息不相关,即该关键词信息不为相关关键词信息。
需要说明的是,关键词确定装置4可结合上述因素,来获取相关关键词信息。例如,在满足关键词信息对应的所有基本相关度值均大于其对应的最小预定阈值的条件下,选择根据总相关度值的排序结果为前N位的关键词信息作为相关关键词信息,或者,在同时满足关键词信息对应的所有基本相关度值均大于其对应的最小预定阈值,并且该关键词信息的总相关度值大于或等于预订相关阈值的情况下,判断该关键词信息为相关关键词信息等
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息的实现方式,均应包含在本发明的范围内。
图6为本发明另一优选实施例获取与短文本信息相关的相关关键词信息的短文本处理装置结构示意图。本实施例中,短文本处理装置包括第一获取装置1、第二获取装置2、相关度确定装置3及关键词确定装置4。其中,第二获取装置2进一步包括第一查询装置21、第一子获取装置22及第二子获取装置23。
第一获取装置1、第二获取装置2及关键词确定装置4已在参照图4或图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第一查询装置21根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息。第一子获取装置22获取所述相匹配的特征信息对应的关键词信息。第二子获取装置23获取所述关键词信息对应的第二多维度特征信息。
其中,所述特征倒排索引库中以特征信息为索引,以关键词为被索引对象。对第一多维度特征信息中的各特征信息,第一查询装置21分别在特征倒排索引库中对相应特征类别的索引词进行匹配查询,以获得所述各特征信息相匹配的特征信息,即相匹配的索引词。
例如,一个特征倒排索引库的实施例如表12所示:
表12
索引词 | 索引词特征类别 | 关键词 |
诺基亚 | 切词特征 | 诺基亚手机、... |
诺基亚 | 文本扩展特征信息 | 5310、音乐手机、... |
手机_维修 | n-gram特征 | 诺基亚手机维修、三星手机维修、... |
101 | PLSA特征 | 诺基亚、手机网、报价、... |
310 | ESA特征 | Ipone、维修中心、三星手机、... |
205 | PCA特征 | 手机网、诺基亚、手机维修、... |
...... | ...... | ...... |
若第一获取装置1获取到短文本信息“诺基亚”,且其对应的第一多维度特征信息如下:
切词特征信息:诺基亚;
文本扩展特征信息:nokia、手机、报价;
n-gram特征信息:无(因为只有1个gram片段);
PLSA特征信息:101、102、103;
ESA特征信息:201、202、203;
PCA特征信息:301、302、303。
第一查询装置21在特征倒排索引库中,查找类别为“切词特征”的索引词“诺基亚”,类别为“搜索扩展特征”的索引词“nokia”、“手机”、“报价”,类别为“PLSA特征”的索引词“101”、“102”、“103”,类别为“ESA特征”的索引词“201”、“202”、“203”,类别为“PCA特征”的索引词“301”、“302”、“303”,并将相同或相似的索引词作为对应的特征信息。随后,第一子获取装置22将匹配成功的特征信息对应的关键词包含在所述关键词信息内,第二子获取装置22获取该关键词对应的多维度特征信息作为第二多维度特征信息。其中所述第二多维度特征信息包含在所述特征倒排索引库中,或者,未存储在所述倒排索引库中,但与倒排索引库中的关键词具有对应关系。
优选地,可将表述内容相同或相近的特征信息归为一种特征类别来进行匹配查询操作。例如,将切词特征信息、文本扩展特征信息及n-gram特征信息作为文本类别的特征信息来进行匹配查询操作等。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息,并获取所述相匹配的特征信息对应的关键词信息及其对应的第二多维度特征信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,本发明还包括第三获取装置(图未示)、提取装置(图未示)及第一更新装置(图未示)。
第三获取装置获取待处理的关键词信息。其中,该待处理的关键词信息包括但不限于:1)来自用户的输入序列;2)计算机设备当前需要处理的信息;3)对1)及2)所述的数据进行处理后获得的信息。
提取装置提取所述待处理关键词信息的多维度特征信息。其中,所述多维度特征信息包括但不限于所述第一及第二多维度特征信息所包含的内容。
具体地,提取装置根据各特征信息的特征获取方式,分别获取该待处理关键词信息的各特征信息,以生成该待处理关键词信息的多维度特征信息。
第一更新装置根据所述关键词信息及其对应的多维度特征信息,建立或更新所述特征倒排索引库。
具体地,第一更新装置根据所获取所述关键词信息及其对应的多维度特征信息,生成基于该关键词信息及其对应的多维度特征信息的特征倒排索引,并根据该特征倒排索引,来建立或更新所述特征倒排索引库。
例如,对于三个待处理的关键词信息“诺基亚”、“三星手机”、“手机维修”。其对应的多维度特征信息分别为:
待处理关键词信息:“诺基亚”
切词特征信息:诺基亚;
文本扩展特征信息:nokia、手机、报价;
n-gram特征信息:无;
PLSA特征信息:101、102、103;
ESA特征信息:201、202、203;
PCA特征信息:301、302、303。
待处理关键词信息:“三星手机”
切词特征信息:三星、手机;
文本扩展特征信息:Samsung、手机网、报价;
n-gram特征信息:三星_手机;
PLSA特征信息:101、102、104;
ESA特征信息:201、202、205;
PCA特征信息:301、302、305。
待处理关键词信息:“手机维修”
切词特征信息:手机、维修;
文本扩展特征信息:iphone、维修中心、培训学校;
n-gram特征信息:手机_维修;
PLSA特征信息:110、101、102;
ESA特征信息:210、201、202;
PCA特征信息:310、301、302。
则第一更新装置,根据上述内容,以表1所示的样式,生成倒排索引,并根据所生成的倒排索引来建立或更新所述特征倒排索引库。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (26)
1.一种计算机实现的用于获取与短文本信息相关的相关关键词信息的方法,其中,该方法包括以下步骤:
a获取待处理的所述短文本信息及其对应的第一多维度特征信息;
b获取一个或多个关键词信息及其对应的第二多维度特征信息;
c根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;
d基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
2.根据权利要求1所述的方法,其中,所述步骤c包括以下步骤:
-基于一种或多种相关度处理方式,根据所述第一及第二多维度特征信息,获得所述短文本信息与所述关键词信息之间的所有基本相关度值;
-根据所述基本相关度值,获得所述相关度信息;
其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的多种特征信息中的任一种在基于一种相关度处理方式下所得的相关度值。
3.根据权利要求1所述的方法,其中,所述相关度信息包括以下至少一项:
-所述短文本信息与所述关键词信息对应的总相关度值;
-所述短文本信息与所述关键词信息对应的基本相关度值;
-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
-通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值;
所述基本相关度值表示所述第一及第二多维度特征信息所包含的多种特征信息中的任一种在基于一种相关度处理方式下所得的相关度值。
4.根据权利要求2所述的方法,其中,所述相关度信息包括以下至少一项:
-所述短文本信息与所述关键词信息对应的总相关度值;
-所述短文本信息与所述关键词信息对应的所述基本相关度值;
-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
-通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。
5.根据权利要求2所述的方法,其中,所述相关度处理方式包括以下至少一种:
-欧式距离处理;
-余弦相关度处理;
-BM25相关度处理;
-同义词匹配处理。
6.根据权利要求2或5所述的方法,其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
-基于所述相关度信息的排序结果;
-基于所述基本相关度值是否大于其对应的最小预定阈值;
-基于总相关度值是否大于预定相关阈值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。
7.根据权利要求3或4所述的方法,其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
-基于所述相关度信息的排序结果;
-基于所述基本相关度值是否大于其对应的最小预定阈值;
-基于所述总相关度值是否大于预定相关阈值。
8.根据权利要求1至5中任一项所述的方法,其中,所述步骤b包括以下步骤:
b1根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息;
b2获取所述相匹配的特征信息对应的关键词信息;
b3获取所述关键词信息对应的第二多维度特征信息。
9.根据权利要求8所述的方法,其中,该方法还包括以下步骤:
-获取待处理的关键词信息;
-提取所述待处理关键词信息的多维度特征信息;
-根据所述关键词信息及其对应的多维度特征信息,建立或更新所述特征倒排索引库。
10.根据权利要求1至5中任一项所述的方法,其中,该方法还包括以下步骤:
-根据所述短文本信息,获取必要信息;
-若所述关键词信息中未包含所述必要信息,则判断该关键词信息与所述短文本信息不相关。
11.根据权利要求1至5中任一项所述的方法,其中,所述第一及第二多维度特征信息均包括以下至少两种特征信息:
-切词特征信息;
-文本扩展特征信息;
-n-gram特征信息;
-PLSA特征信息;
-ESA特征信息;
-PCA特征信息。
12.根据权利要求1至5中任一项所述的方法,其中,该方法还包括以下步骤:
-根据所述短文本信息及其对应的相关关键词信息,来建立或更新相关关键词库。
13.根据权利要求12所述的方法,其中,该方法还包括以下步骤:
-根据所述待处理的短文本信息,在所述相关关键词库中进行查询匹配,以获得与该待处理的短文本信息相关的相关关键词信息。
14.一种用于获取与短文本信息相关的相关关键词信息的短文本处理装置,其中,该短文本处理装置包括:
第一获取装置,用于获取待处理的所述短文本信息及其对应的第一多维度特征信息;
第二获取装置,用于获取一个或多个关键词信息及其对应的第二多维度特征信息;
相关度确定装置,用于根据所述第一及第二多维度特征信息,获得所述短文本信息与所述一个或多个关键词信息之间的相关度信息;
关键词确定装置,用于基于预定规则,根据所述相关度信息及所述一个或多个关键词信息,获得与所述短文本信息相关的相关关键词信息。
15.根据权利要求14所述的短文本处理装置,其中,所述相关度确定装置包括:
第一子确定装置,用于基于一种或多种相关度处理方式,根据所述第一及第二多维度特征信息,获得所述短文本信息与所述关键词信息之间的所有基本相关度值;
第二子确定装置,用于根据所述基本相关度值,获得所述相关度信息;
其中,所述基本相关度值表示所述第一及第二多维度特征信息所包含的多种特征信息中的任一种在基于一种相关度处理方式下所得的相关度值。
16.根据权利要求14所述的短文本处理装置,其中,所述相关度信息包括以下至少一项:
-所述短文本信息与所述关键词信息对应的总相关度值;
-所述短文本信息与所述关键词信息对应的基本相关度值;
-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
-通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值;
所述基本相关度值表示所述第一及第二多维度特征信息所包含的多种特征信息中的任一种在基于一种相关度处理方式下所得的相关度值。
17.根据权利要求15所述的短文本处理装置,其中,所述相关度信息包括以下至少一项:
-所述短文本信息与所述关键词信息对应的总相关度值;
-所述短文本信息与所述关键词信息对应的基本相关度值;
-通过对同一特征信息所对应的各个基本相关度值进行处理而获得的特征相关度值;
-通过对基于同一处理方式所得的各个基本相关度值进行处理而获得的方式相关度值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。
18.根据权利要求15所述的短文本处理装置,其中,所述相关度处理方式包括以下至少一种:
-欧式距离处理;
-余弦相关度处理;
-BM25相关度处理;
-同义词匹配处理。
19.根据权利要求15或18所述的短文本处理装置,其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
-基于所述相关度信息的排序结果;
-基于所述基本相关度值是否大于其对应的最小预定阈值;
-基于总相关度值是否大于预定相关阈值;
其中,所述总相关度值表示通过所有相关度处理方式,对所有特征信息进行处理后获得的相关度值。
20.根据权利要求16或17所述的短文本处理装置,其中,所述预定规则包括基于以下至少一项因素来确定所述相关关键词信息:
-基于所述相关度信息的排序结果;
-基于所述基本相关度值是否大于其对应的最小预定阈值;
-基于所述总相关度值是否大于预定相关阈值。
21.根据权利要求14至18中任一项所述的短文本处理装置,其中,所述第二获取装置包括:
第一查询装置,用于根据所述第一多维度特征信息所包含的各特征信息,在特征倒排索引库中进行查询,以获得与所述各特征信息相匹配的特征信息;
第一子获取装置,用于获取所述相匹配的特征信息对应的关键词信息;
第二子获取装置,用于获取所述关键词信息对应的第二多维度特征信息。
22.根据权利要求21所述的短文本处理装置,其中,该短文本处理装置还包括:
第三获取装置,用于获取待处理的关键词信息;
提取装置,用于提取所述待处理关键词信息的多维度特征信息;
第一更新装置,用于根据所述关键词信息及其对应的多维度特征信息,建立或更新所述特征倒排索引库。
23.根据权利要求14至18中任一项所述的短文本处理装置,其中,该短文本处理装置还包括:
第四获取装置,用于根据所述短文本信息,获取必要信息;
判断装置,用于当所述关键词信息中未包含所述必要信息,则判断该关键词信息与所述短文本信息不相关。
24.根据权利要求14至18中任一项所述的短文本处理装置,其中,所述第一及第二多维度特征信息均包括以下至少两种特征信息:
-切词特征信息;
-文本扩展特征信息;
-n-gram特征信息;
-PLSA特征信息;
-ESA特征信息;
-PCA特征信息。
25.根据权利要求14至18中任一项所述的短文本处理装置,其中,该短文本处理装置还包括:
第二更新装置,用于根据所述短文本信息及其对应的相关关键词信息,来建立或更新相关关键词库。
26.根据权利要求25所述的短文本处理装置,其中,该短文本处理装置还包括:
第二查询装置,用于根据所述待处理的短文本信息,在所述相关关键词库中进行查询匹配,以获得与该待处理的短文本信息相关的相关关键词信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010579531 CN102063469B (zh) | 2010-12-03 | 2010-12-03 | 一种用于获取相关关键词信息的方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010579531 CN102063469B (zh) | 2010-12-03 | 2010-12-03 | 一种用于获取相关关键词信息的方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102063469A CN102063469A (zh) | 2011-05-18 |
CN102063469B true CN102063469B (zh) | 2013-04-24 |
Family
ID=43998745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010579531 Active CN102063469B (zh) | 2010-12-03 | 2010-12-03 | 一种用于获取相关关键词信息的方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063469B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136213B (zh) * | 2011-11-23 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种提供相关词的方法及装置 |
CN103455487B (zh) * | 2012-05-29 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 一种搜索词的提取方法及装置 |
CN103064887B (zh) * | 2012-12-10 | 2016-01-20 | 华为技术有限公司 | 一种推荐信息的方法和设备 |
US9535979B2 (en) * | 2013-06-21 | 2017-01-03 | International Business Machines Corporation | Multifaceted search |
CN104424216B (zh) * | 2013-08-23 | 2018-01-23 | 佳能株式会社 | 用于意图挖掘的方法和设备 |
CN104572612A (zh) * | 2013-10-18 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
US20160306887A1 (en) * | 2013-12-03 | 2016-10-20 | Beijing Qihoo Technology Company Limited | Methods, apparatuses and systems for linked and personalized extended search |
CN104391859B (zh) * | 2014-10-22 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 一种向用户提供对象信息的方法和装置 |
CN104462272B (zh) * | 2014-11-25 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 搜索需求分析方法和装置 |
CN104408191B (zh) * | 2014-12-15 | 2017-11-21 | 北京国双科技有限公司 | 关键词的关联关键词的获取方法和装置 |
CN104462439B (zh) * | 2014-12-15 | 2017-12-19 | 北京国双科技有限公司 | 事件的识别方法和装置 |
CN104408036B (zh) * | 2014-12-15 | 2019-01-08 | 北京国双科技有限公司 | 关联话题的识别方法和装置 |
CN105808526B (zh) * | 2016-03-30 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN108021589B (zh) * | 2016-10-31 | 2020-08-04 | 腾讯科技(北京)有限公司 | 数据库的查询维度的配置方法和装置 |
CN108304411B (zh) * | 2017-01-13 | 2020-08-18 | 中国移动通信集团辽宁有限公司 | 地理位置语句的语义识别方法和装置 |
CN111027994B (zh) * | 2018-10-09 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 相似对象确定方法、装置、设备和介质 |
CN110738059B (zh) * | 2019-10-21 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | 一种文本相似度计算方法及系统 |
CN113793193B (zh) * | 2021-08-13 | 2024-02-02 | 唯品会(广州)软件有限公司 | 数据搜索准确性验证方法、装置、设备及计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629843A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的处理、浏览及搜索的方法、装置及其系统 |
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
CN101617310A (zh) * | 2006-12-19 | 2009-12-30 | 莫尔德克昂特威彭有限公司 | 对网页进行分类和组织相应内容的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
US8046363B2 (en) * | 2006-04-13 | 2011-10-25 | Lg Electronics Inc. | System and method for clustering documents |
-
2010
- 2010-12-03 CN CN 201010579531 patent/CN102063469B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629843A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的处理、浏览及搜索的方法、装置及其系统 |
CN101617310A (zh) * | 2006-12-19 | 2009-12-30 | 莫尔德克昂特威彭有限公司 | 对网页进行分类和组织相应内容的方法 |
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102063469A (zh) | 2011-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063469B (zh) | 一种用于获取相关关键词信息的方法、装置和计算机设备 | |
CN101887436B (zh) | 一种检索方法和装置 | |
CN101876981B (zh) | 一种构建知识库的方法及装置 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN102043833B (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
CN107657048B (zh) | 用户识别方法及装置 | |
CN109299383B (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN102591948B (zh) | 一种基于用户行为分析的搜索结果改进的方法及其系统 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
CN103116588A (zh) | 一种个性化推荐方法及系统 | |
CN103631803A (zh) | 基于输入行为的进行广告定向的方法、装置及服务器 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN104077286A (zh) | 商品信息的搜索方法及系统 | |
CN103970748A (zh) | 一种相关关键词推荐方法和装置 | |
CN104915426A (zh) | 信息排序方法、用于生成信息排序模型的方法及装置 | |
CN104376115A (zh) | 一种基于全局搜索的模糊词确定方法及装置 | |
CN103544307A (zh) | 一种不依赖文档库的多搜索引擎自动化对比评测方法 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN103136213A (zh) | 一种提供相关词的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |