CN102567290B - 用于对待处理的短文本信息进行扩展的方法、装置和设备 - Google Patents

用于对待处理的短文本信息进行扩展的方法、装置和设备 Download PDF

Info

Publication number
CN102567290B
CN102567290B CN201010623672.XA CN201010623672A CN102567290B CN 102567290 B CN102567290 B CN 102567290B CN 201010623672 A CN201010623672 A CN 201010623672A CN 102567290 B CN102567290 B CN 102567290B
Authority
CN
China
Prior art keywords
information
short text
text information
extension feature
expanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010623672.XA
Other languages
English (en)
Other versions
CN102567290A (zh
Inventor
冼健
陈宁昱
�田�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010623672.XA priority Critical patent/CN102567290B/zh
Publication of CN102567290A publication Critical patent/CN102567290A/zh
Application granted granted Critical
Publication of CN102567290B publication Critical patent/CN102567290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于对待处理的短文本信息进行扩展的方法、装置及计算机设备,其中,本发明获取所述待处理的短文本信息;通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;并根据所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量。与现有技术相比,本发明具有以下优点:1)本发明能够较好地对短文本信息进行扩展,通用性较强,并且便于维护,并获得针对性及可识别性较强的扩展特征信息;2)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更广泛的应用场景。

Description

用于对待处理的短文本信息进行扩展的方法、装置和设备
技术领域
本发明涉及计算机文本处理技术,尤其涉及一种用于对待处理的短文本信息进行扩展的方法、装置和设备。
背景技术
对于短文本信息的扩展,传统的做法多是使用类别特征词表对短文本作匹配,但这种方法的效果、可扩展性都一般,并且不具有通用性,需要花费大量时间精力进行维护。
发明内容
本发明的目的是提供一种对短文本信息进行扩展的方法和设备。
根据本发明的一个方面,提供一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤:
a获取所述待处理的短文本信息;
b基于该短文本信息来获取与其相关的一个或多个相关扩展信息;
c基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
根据本发明的另一个方面,还提供了一种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括:
第一获取装置,用于获取所述待处理的短文本信息;
第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;
第一扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括上述短文本处理装置。
与现有技术相比,本发明具有以下优点:1)本发明能够较好地对短文本信息进行扩展,通用性较强,并且便于维护;2)当相关扩展信息为通过对短文本信息进行搜索而获得时,对于搜索频率较高的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信息,进一步提高了所得扩展特征信息的针对性及可识别性;3)当难以获得具有较好相关性的相关扩展信息时,能够通过多级短文本信息拟合,快速获得针对性及可识别性较强的扩展特征信息;4)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更广泛的应用场景;5)根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的计算机实现的用于对待处理的短文本信息进行扩展的方法流程图;
图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图;
图3为本发明另一优选实施例的用于对待处理的短文本信息进行扩展的方法流程图;
图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。
图5为本发明另一个方面的用于对待处理的短文本信息进行扩展的短文本处理装置的结构示意图。
图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。
图7为本发明另一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。
图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了本发明一个方面的计算机实现的用于对待处理的短文本信息进行扩展的方法流程图。其中,所述短文本信息包括但不限于:1)来自用户的输入序列;2)计算机设备当前需要处理的信息等。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成,为简明起见,以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。所述用户设备包括但不限于计算机、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,短文本处理装置获取待处理的短文本信息。其中,该短文本处理装置获取该待处理短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行扩展处理的短文本信息。
在步骤S2中,短文本处理装置基于该短文本信息来获取与其相关的一个或多个相关扩展信息。其中,所述相关扩展信息包括但不限于:1)文本标题信息;2)文本摘要信息;3)网页的全部文本内容信息等。
所述获取一个或者多个相关扩展信息的方式包括但不限于:
1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;
例如,短文本处理装置获取用户输入的短文本“DNF游戏下载”(以下称为第一短文本信息),短文本处理装置基于该短文本在网络上或本机中进行搜索,来获得搜索结果项,并根据网页标识符等来对搜索结果项进行识别,以获得以下与第一短文本信息相关的相关扩展信息。
第一相关扩展信息:“游戏下载地下城与勇士DNF官方网站腾讯游戏、DNF地下城与勇士52PK站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士DNF官网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。
第二相关扩展信息:“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。
第三相关扩展信息:“《地下城与勇士DNF》最新客户端下载进入专区文件大小1.44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。
2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设备中;
例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信息,则短文本处理装置可以在获取第一短文本信息之后,在其预存的相关扩展信息中获取与第一短文本信息相关的第一相关扩展信息。
在步骤S3中,短文本处理装置基于第一预定规则,根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
所述扩展特征信息包括但不限于:1)与短文本信息相关的特征信息;2)该特征信息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4)该特征信息所在的相关扩展信息与短文本的相关度等。
其中,第一预定规则中包含参考以下至少一项因素,来获得扩展特征词向量的规则:
1)所述相关扩展信息与所述短文本信息的相关度;
2)所述相关扩展信息的类别;
3)所述短文本信息在所述相关扩展信息中的分布状态;
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
以下对短文本处理装置根据上述每项信息及其组合来获得扩展特征词向量的方式予以详述:
1)所述相关扩展信息与所述短文本信息的相关度;
所述相关度的确定方式包括但不限于:
a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;
b)根据相关扩展信息所包含的信息单元数量确定相关度;其中,所述信息单元通过切分短文本信息而得到;
具体地,相关扩展信息中信息单元重复出现的累计数量越多,则该相关扩展与该短文本的相关度越高;短文本处理装置按照由相关扩展信息切分得到的特征信息所在的相关扩展信息与该短文本信息的相关度,来对特征信息进行排序,并根据特征信息排序结果来选择特征信息。
例如,对于短文本信息“DNF游戏下载”,短文本处理装置对其切分以获得三个信息单元“DNF”、“游戏”、“下载”,则短文本处理装置在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息单元重复出现的累计数量。若与短文本信息“DNF游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为9,第二相关扩展信息中包含两个信息单元“DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为5,则短文本处理装置判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相关信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例如,若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征信息包括“DNF”、“外挂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相关度相同时,对特征信息进行随机排序。短文本处理装置根据排序结果来选择特征信息以生成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。
c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等;
具体地,搜索结果排序越靠前的相关扩展信息,其相关度越高。
随后,短文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
2)所述相关扩展信息的类别;
所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。需要说明的是,该类别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。
具体地,短文本处理装置根据预设的类别重要度来确定相关扩展信息与短文本信息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征词向量。。
例如,预设的类别重要度中,“标题”的重要度高于“内容”的重要度,则短文本处理装置预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。
3)所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
所述短文本信息在所述相关扩展信息中的分布状态包括但不限于:
a)短文本信息中的信息单元在相关扩展信息中出现的频次;
具体地,信息单元出现的频次越高,相关扩展信息的重要性越高。
例如,对于短文本信息“DNF游戏下载”,其包含三个信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为:7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的顺序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则短文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
b)短文本信息包含的信息单元在相关扩展信息中所处的位置;
具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息与短文本信息的相关度越高。
例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置判断与短文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本处理装置对各个段落进行分割,以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。短文本处理装置根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定等。
具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获得,例如,根据预设的同义词典来获得等。
需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得所述短文本信息的扩展特征词向量。例如,短文本处理装置根据相关扩展信息的类别及相关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的类别重要性高于相关扩展信息与短文本信息的相关度。则短文本处理装置先根据相关扩展信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序结果,随后,短文本处理装置再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标题”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,短文本处理装置获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
优选的,在上述过程中,第一预定规则还可以参考以下因素,来获得短文本信息的扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素,并基于第一预定规则来对已有的扩展特征词向量进行调整。
1)由所述相关扩展信息切分得到的特征信息的分布状态;
所述特征信息的分布状态包括但不限于:
a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;
在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调整已排序的特征信息的位置。
具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。
例如,对于特征信息“dnf”及“游戏”,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf”排在“游戏”之前的位置。
又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,短文本处理装置在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,并根据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf”调整至“游戏”之前。
b)特征信息在所有待处理短文本信息中出现的频次等;
例如,短文本处理装置统计第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为:“下载”、“游戏”、“DNF”,则短文本处理装置根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。
2)所述相关扩展信息切分得到的特征信息的语义特征。
所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。
具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强;有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意能力等级高低及无效特征信息,均由预设得到。
若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第二级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”,短文本处理装置根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词,短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则短文本处理装置先根据词性、再根据表意能力,对特征信息进行排序的结果为“DNF”、“游戏”、“下载”。
需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的特征信息的语义特征进行分析,并根据语义特征强弱进行排序,最后获得总排序结果,短文本处理装置根据总排序结果,选择特征信息,生成扩展特征词向量。
根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理解,本发明方案的应用环境不以上述举例为限。
作为本发明的优选方案之一,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述步骤S3还包括步骤S35(图未示),在步骤S35中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
具体的,权重值的获取参考以下至少一项因素:
1)所述相关扩展信息与所述短文本信息的相关度;
具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限于:a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文本信息所得的信息单元数量确定相关度;c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等。
例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息出现其中一项信息单元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。短文本处理装置设置第一至第三相关扩展信息的初始权重值为0,并切分短文本信息以获得信息单元“DNF”、“游戏”、“下载”,短文本处理装置基于第一预定规则,并检测各个相关扩展信息中信息单元的出现次数来调整权重值,获得第一至第三相关扩展信息中包含的特征信息的权重值依次为:9、2、5。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
2)所述相关扩展信息的类别;
所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。
具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。
例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则短文本处理装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为:5、10、5。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
3)所述短文本信息在所述相关扩展信息中的分布状态;
其中,所述分布状态包括但不限于:
a)短文本信息中的信息单元在相关扩展信息中出现的频次;
具体的,信息单元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的特征信息的权重值越大。
例如,若第一预定规则中预设将信息单元在相关扩展信息中出现的频次作为该相关扩展信息的权重值。则对于短文本信息“DNF游戏下载”,其包括信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为:7,6,3,则短文本处理装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
b)短文本信息包含的信息单元在相关扩展信息中所处的位置等;
具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息所包含的特征信息的权重值越高。
例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置获得第一个段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;
具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。
例如,短文本处理装置将一个特征信息与短文本信息的相似度直接作为该特征信息的权重值;又例如,根据一个特征信息与短文本信息的相似度所处的等级,来确定该特征信息的权重值等。
其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定等。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
5)由所述相关扩展信息切分得到的特征信息的分布状态;
所述特征信息的分布状态包括但不限于:a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频次等;
具体的,上述两个频次越低,特征信息的权重值越大。
例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一次,其权重减少0.1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0.1=744。
又例如,短文本处理装置将特征信息在所有待处理短文本信息中出现的频次的倒数直接作为该扩展特征信息的权重值;
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
6)由所述相关扩展信息切分得到的特征信息的语义特征等;
具体的,特征信息的语义特征越强,其权重值越大。
所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。
例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则短文本处理装置获得“DNF”的语义特征权重值=(3+3)*1=6。需要说明的是,上述权重值的预定及计算方式仅为例举,而并非对本发明的限制。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取权重值,以生成所述短文本信息的扩展特征词向量。
例如,短文本处理装置首先获取一个特征信息根据上述六种因素而分别获得的六个权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个权重值,分别赋予权值,将六个权值分别与六个权重值相乘,并获取六个相乘结果的平均值以作为该特征信息的权重值等。
需要说明的是,短文本处理装置确定特征信息或者信息单元的权重值后,还可以通过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息单元。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,在在所述步骤S2之前还包括步骤S11(图未示)及步骤S12(图未示):
在步骤S11中,短文本处理装置对所述短文本信息进行切词,获得信息单元;
在步骤S12中,短文本处理装置根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息;
则在步骤S2中,短文本处理装置获取基于检索信息进行搜索而得到的相关扩展信息。
其中,所述语义分析包括对信息单元的词性分析,例如,判断信息单元为实词或虚词等。信息单元的重要度通过查询预设的单元重要度信息来获取。
例如,短文本处理装置短文本信息“关于DNF的游戏下载”进行切词,获得信息单元“关于”、“DNF”、“的”、“游戏”、“下载”、“网站”。短文本处理装置判断得到“DNF”、“游戏”、“下载”、“网站”为实词,“关于”、“的”为虚词,则短文本处理装置选择实词信息单元,即“DNF”、“游戏”、“下载”、“网站”来生成检索信息。
又例如,单元重要度信息中包括“关于”、“的”为省略单元的信息,则短文本处理装置查询单元重要度信息后,去除信息单元“关于”、“的”,保留信息单元“DNF”、“游戏”、“下载”、“网站”来生成检索信息。
需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。
根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频率较高的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信息,进一步提高了所得扩展特征信息的针对性及可识别性。
图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中,步骤S3进一步包括步骤S31和步骤S32。
步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S31中,短文本处理装置对所述相关扩展信息进行切分,获得多个特征信息。
例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下载”、“网站”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来去除无效信息;或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。
在步骤S32中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并合并相同的特征信息,获得特征信息以及其合并次数具体如下:
特征信息        合并次数
DNF             7
游戏            6
地下城与勇士    4
下载            3
网站            3
进入            3
官方            2
最新            2
客户端          2
专区            2
文件            2
点击            2
腾讯            1
……            ……
短文本处理装置可根据合并次数,对上述特征信息进行由高到低的排序,并根据排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成扩展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。
又例如,对于上述特征信息,短文本处理装置基于第一预定规则来进行排序,并根据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特征信息进行排序的方式,已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
又例如,短文本处理装置切分相关扩展信息获得特征信息后,就第一预定规则,计算与特征信息相应的权重值,并根据权重值来选择特征信息,以生成第一短文本信息的扩展特征词向量。其中,基于第一预定规则计算权重值的方法已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。
图3为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中,步骤S3进一步包括步骤S33和步骤S34。
步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S33中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息。
其中,基于第一预定规则来由多个所述相关扩展信息中选择一个或多个相关扩展信息的方式已经在参照图1的实施例中予以说明,并以引用的方式于此,不再赘述。
在步骤S34中,短文本处理装置对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
例如,短文本处理装置选择第一相关扩展信息,对其进行切分并去除无效信息,获得的多个特征信息包括:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。
又例如,短文本处理装置获得多个特征信息:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由大到小为:
特征信息        权重值
DNF             10.212
游戏            7.254
地下城与勇士    3.798
下载            3.656
官方            1.820
随后,短文本处理装置根据权重值由大到小的顺序选择特征信息,以生成第一短文本信息的扩展特征词向量。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。
图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。根据本实施例的方法包括步骤S1、步骤S2、步骤S3及步骤S4。其中,步骤S4进一步包括步骤S5及步骤S6。
步骤S1至步骤S3已在参照图1、图2或图3所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
本实施例中,步骤S4在步骤S1之前执行。
在步骤S4中,短文本处理装置建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量。
其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据库;所述更新包括但不限于:1)在扩展特征向量库中添加新的短文本信息及其对应的扩展特征词向量;2)在扩展特征向量库中更新已有短文本信息的扩展特征词向量等。其中,所述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任一种方式得到:1)获取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;2)通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩展特征词向量等。
根据本实施例的方法进一步包括步骤S5和步骤S6。
在步骤S5中,短文本处理装置基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,以获得一个或多个相关短文本信息及其对应的扩展特征词向量。
在步骤S6中,短文本处理装置根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待扩展短文本信息的扩展特征词向量。
例如,第二预定规则中规定在执行步骤S2之前,对于在步骤S1中获取的待处理的短文本信息,将其在扩展特征向量库中进行匹配查询,以获得成功匹配的相关扩展信息对应的扩展特征向量。则短文本处理装置将待处理短文本信息“DNF游戏下载”在扩展特征向量库中进行匹配查询,若扩展特征向量库中包括“DNF游戏下载”,判断匹配成功,并将获取的扩展特征向量库中的相关短文本信息“DNF游戏下载”对应的扩展特征词向量作为待处理短文本信息“DNF游戏下载”的扩展特征词向量。如此,可减少重复对同一短文本信息执行信息扩展的操作。
优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中步骤S5进一步包括步骤S51(图未示),步骤S52(图未示)和步骤S53(图未示)。步骤S6中进一步包括步骤S61。
在步骤S51中,短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理。其中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装置应对待处理短文本信息执行的相应处理,所述相应处理包括但不限于以下任一种:
1)保留所述待处理短文本信息的全部内容的处理;
具体的,短文本处理装置对待处理短文本信息不做任何改变。
2)去除无效信息的处理;
具体地,短文本处理装置通过查询预设的无效信息词典,或者,通过去除短文本信息中的虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。
3)根据预设的词汇权重值来提取信息单元的处理;
具体的,短文本处理装置通过将信息单元与预设权重值的词汇进行匹配,来获得信息单元的权重值,并根据该权重值提取信息单元。其中,该提取方式包括且不限于:a)根据权重值的排序选择信息单元;b)设置阈值,选择词汇权重值满足阈值条件的信息单元等。
4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。
其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但不限于:
a)根据信息单元相似度进行聚合;
具体的,短文本处理装置查询其他短文本信息所包含的信息单元是否与所述待处理短文本信息所包含的信息单元相同或相似,其中,所述相似可通过查询同义词典来进行判断,当查询得到其他短文本信息所包含的信息单元与所述待处理短文本信息所包含的信息单元相同或相似时,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。
b)根据相关扩展信息进行聚合等。
具体的,当相关扩展信息通过根据短文本信息进行搜索而获得时,短文本处理装置查询所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信息,即当根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够获得该相关扩展信息,则进一步查询当该相关扩展信息属于待处理短文本信息的搜索结果及当该相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有被用户点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。
在步骤S52中,短文本处理装置判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配。
其中,匹配方式包括且不限于:1)精确匹配;2模糊匹配;3)判断待处理短文本信息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根据实际情况和需求来确定该第二预定阈值。
在步骤S53中,当短文本处理装置判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量。
其中,步骤S5还进一步包括步骤S54(图未示)和步骤S55(图未示)。
在步骤S54中,当短文本处理装置判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则。
例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。
若待处理短文本信息为“关于DNF游戏的下载网站”,则短文本处理装置首先以第一层级匹配规则为当前层级匹配规则,根据此匹配规则,去除待处理短文本信息中的无效信息后,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第二层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第二层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提取信息单元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第三层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。
又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。
若待处理短文本信息为“关于DNF游戏的下载网站”,则短文本处理装置首先以第一层级匹配规则为当前层级匹配规则,根据此匹配规则,直接将待处理短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,如果匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;如果匹配不成功,则选择第二层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第二层级匹配规则,去除待处理短文本信息中的无效信息,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第三层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提取信息单元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则选择第四层级匹配规则作为当前层级匹配规则。接着,短文本处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。
如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特征词向量。
在步骤S55中,短文本处理装置根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
具体的,短文本处理装置根据当前层级匹配规则来对待处理短文本信息的进行相应处理的方式。已经在步骤S51中予以详述,并以引用的方式包含于此,不再赘述。
根据本实施例的方法,步骤S6进一步包括步骤S61。
在步骤S61中,短文本处理装置根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短文本信息扩展特征词向量的方法包括但不限于以下至少一种:
1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
例如,若预设当当前匹配层级为第二层级时,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层级为第二匹配层级时,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量。
2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
其中所述合并的方式包括但不限于:a)直接合并相同的扩展特征信息;b)根据扩展特征信息对应的权重值进行合并等。
例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。
又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为:
第一扩展特征词向量:
官网        2.300327;
免费外挂    2.300327;
外挂        2.165737;
地下城与勇士2.030543。
第二扩展特征词向量:
外挂        2.165737;
地下城与勇士2.030543;
地下城      2.0。
则将第一扩展特征词向量与第二扩展特征词向量合并,并对权重值进行相加后平均的处理,则获得待处理短文本信息的扩展特征词向量为:
外挂        2.165737;
地下城与勇士2.030543;
官网        1.150164;
免费外挂    1.150164;
地下城      1.0。
又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值超过该阈值的扩展特征信息。
随后,短文本处理装置根据获得的扩展特征信息生成待处理短文本信息的扩展特征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特别是对于一些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实施例提供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。
图5示意出了本发明另一个方面的用于对待处理的短文本信息进行扩展的短文本处理装置的结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、第二获取装置2和第一扩展装置3。
第一获取装置1获取待处理的短文本信息。其中,第一获取装置1获取该待处理短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行扩展处理的短文本信息。
第二获取装置2基于该短文本信息来获取与其相关的一个或多个相关扩展信息。其中,所述相关扩展信息包括但不限于:1)文本标题信息;2)文本摘要信息;3)网页的全部文本内容信息等。
所述获取一个或者多个相关扩展信息的方式包括但不限于:
1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;
例如,第一获取装置1获取用户输入的短文本“DNF游戏下载”(以下称为第一短文本信息),第二获取装置2基于该短文本在网络上或本机中进行搜索,来获得搜索结果项,并根据网页标识符等来对搜索结果项进行识别,以获得以下与第一短文本信息相关的相关扩展信息。
第一相关扩展信息:“游戏下载地下城与勇士DNF官方网站腾讯游戏、DNF地下城与勇士52PK站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士DNF官网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。
第二相关扩展信息:“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。
第三相关扩展信息:“《地下城与勇士DNF》最新客户端下载进入专区文件大小1.44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。
2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设备中;
例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信息,则在第一获取装置1获取第一短文本信息之后,第二获取装置2在预存的相关扩展信息中获取与第一短文本信息相关的第一相关扩展信息。
第一扩展装置3基于第一预定规则,根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。
所述扩展特征信息包括但不限于:1)与短文本信息相关的特征信息;2)该特征信息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4)该特征信息所在的相关扩展信息与短文本的相关度等。
其中,第一预定规则中包含参考以下至少一项因素,来获得扩展特征词向量的规则:
1)所述相关扩展信息与所述短文本信息的相关度;
2)所述相关扩展信息的类别;
3)所述短文本信息在所述相关扩展信息中的分布状态;
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
以下对第一扩展装置3根据上述每项信息及其组合来获得扩展特征词向量的方式予以详述:
1)所述相关扩展信息与所述短文本信息的相关度;
所述相关度的确定方式包括但不限于:
a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;
b)根据相关扩展信息所包含的信息单元数量确定相关度;其中,所述信息单元通过切分短文本信息而得到;
具体地,相关扩展信息中信息单元重复出现的累计数量越多,则该相关扩展与该短文本的相关度越高;第一扩展装置3按照由相关扩展信息切分得到的特征信息所在的相关扩展信息与该短文本信息的相关度,来对特征信息进行排序,并根据特征信息排序结果来选择特征信息;
例如,对于短文本信息“DNF游戏下载”,第一扩展装置3对其切分以获得三个信息单元“DNF”、“游戏”、“下载”,则第一扩展装置3在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息单元重复出现的累计数量。若与短文本信息“DNF游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为9,第二相关扩展信息中包含两个信息单元“DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为5,则第一扩展装置3判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相关信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例如,若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征信息包括“DNF”、“外挂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相关度相同时,对特征信息进行随机排序。第一扩展装置3根据排序结果来选择特征信息以生成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。
c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等;
具体地,搜索结果排序越靠前的相关扩展信息,其相关度越高。
随后,第一扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
2)所述相关扩展信息的类别;
所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。需要说明的是,该类别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。
具体地,第一扩展装置3根据预设的类别重要度来确定相关扩展信息与短文本信息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征词向量。
例如,预设的类别重要度中,“标题”的重要度高于“内容”的重要度,则第一扩展装置3预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。
3)所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
所述短文本信息在所述相关扩展信息中的分布状态包括但不限于:
a)短文本信息中的信息单元在相关扩展信息中出现的频次;
具体地,信息单元出现的频次越高,相关扩展信息的重要性越高。
例如,对于短文本信息“DNF游戏下载”,其包含三个信息单元“DNF”、“游戏”、“下载”,第一扩展装置3统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为:7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的顺序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则第一扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
b)短文本信息包含的信息单元在相关扩展信息中所处的位置;
具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息与短文本信息的相关度越高。
例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则第一扩展装置3判断与短文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本处理装置对各个段落进行分割,以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。第一扩展装置3根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定等。
具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获得,例如,根据预设的同义词典来获得等。
需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得所述短文本信息的扩展特征词向量。例如,第一扩展装置3根据相关扩展信息的类别及相关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的类别重要性高于相关扩展信息与短文本信息的相关度。则第一扩展装置3先根据相关扩展信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序结果,随后,第一扩展装置3再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标题”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,第一扩展装置3获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
优选的,在上述过程中,第一预定规则还可以参考以下因素,来获得短文本信息的扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素,并基于第一预定规则来对已有的扩展特征词向量进行调整。
1)由所述相关扩展信息切分得到的特征信息的分布状态;
所述特征信息的分布状态包括但不限于:
a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;
在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调整已排序的特征信息的位置。
具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。
例如,对于特征信息“dnf”及“游戏”,第一扩展装置3检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”排在“游戏”之前的位置。
又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,第一扩展装置3在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,并根据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”调整至“游戏”之前。
b)特征信息在所有待处理短文本信息中出现的频次等;
例如,第一扩展装置3统计第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为:“下载”、“游戏”、“DNF”,则第一扩展装置3根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。
2)所述相关扩展信息切分得到的特征信息的语义特征。
所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。
具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强;有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意能力等级高低及无效特征信息,均由预设得到。
若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第二级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”,第一扩展装置3根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词,短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则第一扩展装置3先根据词性、再根据表意能力,对特征信息进行排序的结果为“DNF”、“游戏”、“下载”。
需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的特征信息的语义特征进行分析,并根据语义特征强弱进行排序,最后获得总排序结果,第一扩展装置3根据总排序结果,选择特征信息,生成扩展特征词向量。
根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理解,本发明方案的应用环境不以上述举例为限。
作为本发明的优选方案之一,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述第一扩展装置3还包括权重获取装置(图未示),权重获取装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
具体的,权重值的获取参考以下至少一项因素:
1)所述相关扩展信息与所述短文本信息的相关度;
具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限于:a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文本信息所得的信息单元数量确定相关度;c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等。
例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息出现其中一项信息单元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。权重获取装置设置第一至第三相关扩展信息的初始权重值为0,并切分短文本信息以获得信息单元“DNF”、“游戏”、“下载”,权重获取装置基于第一预定规则,并检测各个相关扩展信息中信息单元的出现次数来调整权重值,获得第一至第三相关扩展信息中包含的特征信息的权重值依次为:9、2、5。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
2)所述相关扩展信息的类别;
所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。
具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。
例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下载”,其对应的相关扩展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则权重获取装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为:5、10、5。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
3)所述短文本信息在所述相关扩展信息中的分布状态;
其中,所述分布状态包括但不限于:
a)短文本信息中的信息单元在相关扩展信息中出现的频次;
具体的,信息单元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的特征信息的权重值越大。
例如,若第一预定规则中预设将信息单元在相关扩展信息中出现的频次作为该相关扩展信息的权重值。则对于短文本信息“DNF游戏下载”,其包括信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三相关扩展信息中出现的频次分别为:7,6,3,则权重获取装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
b)短文本信息包含的信息单元在相关扩展信息中所处的位置等;
具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩展信息所包含的特征信息的权重值越高。
例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出现四次,在第二个段落中出现五次,在第三个段落中出现一次,则权重获取装置获得第一个段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;
具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。
例如,权重获取装置将一个特征信息与短文本信息的相似度直接作为该特征信息的权重值;又例如,根据一个特征信息与短文本信息的相似度所处的等级,来确定该特征信息的权重值等。
其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定等。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
5)由所述相关扩展信息切分得到的特征信息的分布状态;
所述特征信息的分布状态包括但不限于:a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频次等;
具体的,上述两个频次越低,特征信息的权重值越大。
例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一次,其权重减少0.1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0.1=744。
又例如,权重获取装置将特征信息在所有待处理短文本信息中出现的频次的倒数直接作为该扩展特征信息的权重值;
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
6)由所述相关扩展信息切分得到的特征信息的语义特征等;
具体的,特征信息的语义特征越强,其权重值越大。
所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词性;b)特征信息对应的表意能力;c)该特征信息是否有效等。
例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则权重获取装置获得“DNF”的语义特征权重值=(3+3)*1=6。需要说明的是,上述权重值的预定及计算方式仅为例举,而并非对本发明的限制。
随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。
需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取权重值,以生成所述短文本信息的扩展特征词向量。
例如,权重获取装置首先获取一个特征信息根据上述六种因素而分别获得的六个权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个权重值,分别赋予权值,将六个权值分别与六个权重值相乘,并获取六个相乘结果的平均值以作为该特征信息的权重值等。
需要说明的是,权重获取装置确定特征信息或者信息单元的权重值后,还可以通过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息单元。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,在所述第二获取装置2中还包括搜索获取装置21。
作为本发明的优选方案之一,分词装置11和检索信息生成装置12在所述第二获取装置2进行操作之前执行操作。
其中,分词装置11对所述短文本信息进行切词,获得信息单元;
检索信息生成装置12根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息。
其中,所述搜索获取装置21还获取基于检索信息进行搜索而得到的相关扩展信息。
其中,所述语义分析包括对信息单元的词性分析,例如,判断信息单元为实词或虚词等。信息单元的重要度通过查询预设的单元重要度信息来获取。
例如,分词装置对短文本信息“关于DNF的游戏下载”进行切词,获得信息单元“关于”、“DNF”、“的”、“游戏”、“下载”、“网站”。短文本处理装置判断得到“DNF”、“游戏”、“下载”、“网站”为实词,“关于”、“的”为虚词,则检索信息生成装置选择实词信息单元,即“DNF”、“游戏”、“下载”、“网站”来生成检索信息。
又例如,单元重要度信息中包括“关于”、“的”为省略单元的信息,则检索信息生成装置查询单元重要度信息后,去除信息单元“关于”、“的”,保留信息单元“DNF”、“游戏”、“下载”、“网站”来生成检索信息。
需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。
根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频率较高的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信息,进一步提高了所得扩展特征信息的针对性及可识别性。
图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3。其中第一扩展装置3中,还包括第一分析装置31和第一子扩展装置32。
第一获取装置1及第二获取装置2已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第一分析装置31对所述相关扩展信息进行切分,获得多个特征信息。
例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下载”、“网站”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来,或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。
第一子扩展装置32基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
例如,第二获取装置2根据第一短文本信息获得的所有相关扩展信息为第一至第三相关扩展信息,第一子扩展装置32对第一至第三相关扩展信息进行切分,并合并相同的特征信息,获得特征信息以及其合并次数具体如下:
特征信息        合并次数
DNF             7
游戏            6
地下城与勇士    4
下载            3
网站            3
进入            3
官方            2
最新            2
客户端          2
专区            2
文件            2
点击            2
腾讯            1
……            ……
第一子扩展装置32可根据合并次数,对上述特征信息进行由高到低的排序,并根据排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成扩展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。
又例如,对于上述特征信息,第一子扩展装置32基于第一预定规则来进行排序,并根据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特征信息进行排序的方式,已在参照图5所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
又例如,第一子扩展装置32切分相关扩展信息获得特征信息后,就第一预定规则,计算与特征信息相应的权重值,并根据权重值来选择特征信息,以生成第一短文本信息的扩展特征词向量。其中,基于第一预定规则计算权重值的方法已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。
图7为本发明另一个优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3。其中第一扩展装置3还包括第二分析装置33和第二子扩展装置34。
第一获取装置1及第二获取装置2已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第二分析装置33基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息。
其中,基于第一预定规则来由多个所述相关扩展信息中选择一个或多个相关扩展信息的方式已经在参照图1的实施例中予以说明,并以引用的方式于此,不再赘述。
第二子扩展装置34对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
例如,第二分析装置33选择第一相关扩展信息,第二子扩展装置34对其进行切分并去除无效信息,获得的多个特征信息包括:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。
又例如,短文本处理装置获得多个特征信息:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由大到小为:
特征信息        权重值
DNF             10.212
游戏            7.254
地下城与勇士    3.798
下载            3.656
官方            1.820
随后,第二子扩展装置34根据权重值由大到小的顺序选择特征信息,以生成第一短文本信息的扩展特征词向量。
要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。
图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装置2、第一扩展装置3和扩展特征向量库9。其中第一获取装置1还包括更新装置4。
第一获取装置1、第二获取装置2、第一扩展装置3已在参照图5、图6或图7所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
更新装置4建立和更新扩展特征向量库9,其中,该扩展特征向量库9包括多个短文本信息及其对应的扩展特征词向量。
其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据库;所述更新包括但不限于:1)在扩展特征向量库9中添加新的短文本信息及其对应的扩展特征词向量;2)在扩展特征向量库9中更新已有短文本信息的扩展特征词向量等。其中,所述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任一种方式得到:1)获取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;2)通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩展特征词向量等。
其中,短文本处理装置进一步包括查询装置5和第二扩展装置6。
查询装置5根据所述待处理的短文本信息,在所述扩展特征向量库9中进行查询,以获得一个或多个相关短文本信息及其对应的扩展特征词向量。
第二扩展装置6根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待扩展短文本信息的扩展特征词向量。
例如,第二预定规则中规定在第二扩展装置6执行操作之前,对于在第一获取装置1获取的待处理的短文本信息,查询装置5将其在扩展特征向量库9中进行匹配查询,以获得成功匹配的相关扩展信息对应的扩展特征向量。查询装置5将待处理短文本信息“DNF游戏下载”在扩展特征向量库9中进行匹配查询,若扩展特征向量库9中包括“DNF游戏下载”,判断匹配成功,则第二扩展装置6将获取的扩展特征向量库中的相关短文本信息“DNF游戏下载”对应的扩展特征词向量作为待处理短文本信息“DNF游戏下载”的扩展特征词向量。如此,可减少重复对同一短文本信息执行信息扩展的操作。
优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中查询装置5进一步包括处理装置(图未示),判断装置(图未示)和第三获取装置(图未示)。第二扩展装置6中进一步包括第三子扩展装置(图未示)。
处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理。其中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装置应对待处理短文本信息执行的相应处理,所述相应处理包括但不限于以下任一种:
1)保留所述待处理短文本信息的全部内容的处理;
具体的,处理装置对待处理短文本信息不做任何改变。
2)去除无效信息的处理;
具体地,处理装置通过查询预设的无效信息词典,或者,通过去除短文本信息中的虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。
3)根据预设的词汇权重值来提取信息单元的处理;
具体的,处理装置通过将信息单元与预设权重值的词汇进行匹配,来获得信息单元的权重值,并根据该权重值提取信息单元。其中,该提取方式包括且不限于:a)根据权重值的排序选择信息单元;b)设置阈值,选择词汇权重值满足阈值条件的信息单元等。
4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。
其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但不限于:
a)根据信息单元相似度进行聚合;
具体的,处理装置查询其他短文本信息所包含的信息单元是否与所述待处理短文本信息所包含的信息单元相同或相似,其中,所述相似可通过查询同义词典来进行判断,当查询得到其他短文本信息所包含的信息单元与所述待处理短文本信息所包含的信息单元相同或相似时,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。
b)根据相关扩展信息进行聚合等。
具体的,当相关扩展信息通过根据短文本信息进行搜索而获得时,处理装置查询所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信息,即当根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够获得该相关扩展信息,则进一步查询当该相关扩展信息属于待处理短文本信息的搜索结果及当该相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有被用户点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本信息作为相关短文本信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。
判断装置判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配。
其中,匹配方式包括且不限于:1)精确匹配;2模糊匹配;3)判断待处理短文本信息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根据实际情况和需求来确定该第二预定阈值。
第三扩展装置当短文本处理装置判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量。
其中,查询装置5还进一步包括层级选择装置(图未示)和子处理装置(图未示)。
层级选择装置当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则。
例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。
若待处理短文本信息为“关于DNF游戏的下载网站”,则层级选择装置首先以第一层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,去除待处理本信息中的无效信息后,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第二层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第二层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提取信息单元的方式已在处理装置中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则判断装置将该等信息单元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第三层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。
又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进行聚合的处理方式。
若待处理短文本信息为“关于DNF游戏的下载网站”,则层级选择装置首先以第一层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,直接将待处理短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,如果匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;如果匹配不成功,则层级选择装置选择第二层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第二层级匹配规则,去除待处理短文本信息中的无效信息,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择待处理层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提取信息单元的方式已在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第四层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。
如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特征词向量。
子处理装置根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
具体的,子处理装置根据当前层级匹配规则来对待处理短文本信息的进行相应处理的方式。已经在处理装置中予以详述,并以引用的方式包含于此,不再赘述。
根据本实施例的方法,第二扩展装置6进一步包括第三扩展装置。
第三扩展装置根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短文本信息扩展特征词向量的方法包括但不限于以下至少一种:
1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
例如,若预设当当前匹配层级为第二层级时,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层级为第二匹配层级时,第三扩展装置直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的扩展特征词向量。
2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
其中所述合并的方式包括但不限于:a)直接合并相同的扩展特征信息;b)根据扩展特征信息对应的权重值进行合并等。
例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则第三扩展装置将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。
又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为:
第一扩展特征词向量:
官网        2.300327;
免费外挂    2.300327;
外挂        2.165737;
地下城与勇士2.030543。
第二扩展特征词向量:
外挂        2.165737;
地下城与勇士2.030543;
地下城      2.0。
则第三扩展装置将第一扩展特征词向量与第二扩展特征词向量合并,并对权重值进行相加后平均的处理,则获得待处理短文本信息的扩展特征词向量为:
外挂        2.165737;
地下城与勇士2.030543;
官网        1.150164;
免费外挂    1.150164;
地下城      1.0。
又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值超过该阈值的扩展特征信息。
随后,第三扩展装置根据获得的扩展特征信息生成待处理短文本信息的扩展特征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库9中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的范围内。
根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。特别是对于一些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实施例提供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤:
-建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;
a获取所述待处理的短文本信息;
b基于该短文本信息来获取与其相关的一个或多个相关扩展信息;
c基于第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同;
其中,该方法还包括以下步骤:
A基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征向量,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理;
B根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
2.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:
-对所述相关扩展信息进行切分,获得多个特征信息;
-基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
3.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:
-基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;
-对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素:
-所述相关扩展信息与所述短文本信息的相关度;
-所述相关扩展信息的类别;
-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
5.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则还参考以下至少一项因素:
-由所述相关扩展信息切分得到的特征信息的分布状态;
-由所述相关扩展信息切分得到的特征信息的语义特征。
6.根据权利要求1至3中任一项所述的方法,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,
其中,所述步骤c还包括以下步骤:
-基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
7.根据权利要求1所述的方法,其中,所述步骤A包括以下步骤:
A1根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;
A2判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;
A3当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;
其中,所述步骤B包括以下步骤:
B1根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;
其中,所述步骤A1还包括以下步骤:
-当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;
-根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
8.根据权利要求7所述的方法,其中,所述步骤A1中所述相应处理包括以下任一种:
-保留所述待处理短文本信息的全部内容的处理;
-去除无效信息的处理;
-根据预设的词汇权重值来提取信息单元的处理;
-将所述待处理短文本信息与其他短文本信息进行聚合的处理。
9.根据权利要求7或8所述的方法,其中,所述步骤B1中所述获得所述待处理短文本信息扩展特征词向量的方法包括以下至少一种:
-直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
-将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
10.根据权利要求1至3中任一项所述的方法,其中,所述步骤b还包括以下步骤:
b1获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。
11.根据权利要求10所述的方法,其中,在所述步骤b1之前还包括以下步骤:
-对所述短文本信息进行切词,获得信息单元;
-根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息;
其中,所述步骤b1还包括以下步骤:
-获取基于检索信息进行搜索而得到的相关扩展信息。
12.一种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括:
更新装置,用于建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;
a第一获取装置,用于获取所述待处理的短文本信息;
b第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;
c第一扩展装置,用于根据第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同;
其中,该短文本处理装置还包括:
查询装置,用于基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理;
第二扩展装置,用于根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
13.根据权利要求12所述的短文本处理装置,其中,所述第一扩展装置还包括:
-第一分析装置,用于对所述相关扩展信息进行切分,获得多个特征信息;
-第一子扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
14.根据权利要求12所述的短文本处理装置,其中,所述第一扩展装置还包括:
-第二分析装置,用于根据所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;
-第二子扩展装置,用于对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
15.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第一预定规则参考以下至少一项因素:
-所述相关扩展信息与所述短文本信息的相关度;
-所述相关扩展信息的类别;
-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
16.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第一预定规则还参考以下至少一项因素:
-由所述相关扩展信息切分得到的特征信息的分布状态;
-由所述相关扩展信息切分得到的特征信息的语义特征。
17.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,
其中,所述第一扩展装置还包括:
权重获取装置,用于基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
18.根据权利要求12所述的短文本处理装置,其中,所述查询装置包括:
处理装置,用于根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;
判断装置,用于判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;
第三获取装置,用于当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;
其中,所述第二扩展装置包括:
第三子扩展装置,用于根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;
其中,所述处理装置还包括:
层级选择装置,用于当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;
子处理装置,用于根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
19.根据权利要求18所述的短文本处理装置,其中,所述处理装置所执行的所述相应处理包括以下任一种:
-保留所述待处理短文本信息的全部内容的处理;
-去除无效信息的处理;
-根据预设的词汇权重值来提取信息单元的处理;
-将所述待处理短文本信息与其他短文本信息进行聚合的处理。
20.根据权利要求18或19所述的短文本处理装置,其中,所述第三子扩展装置包括以下至少一个装置:
直接匹配装置,用于直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
合并匹配装置,用于将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
21.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第二获取装置还包括:
搜索获取装置,用于获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。
22.根据权利要求21所述的短文本处理装置,其中,该短文本处理装置还包括:
分词装置,用于对所述短文本信息进行切词,获得信息单元;
检索信息生成装置,用于根据语义分析及预设的所述信息单元的重要度,选择信息单元来生成检索信息;
其中,所述搜索获取装置还用于:
获取基于检索信息进行搜索而得到的相关扩展信息。
CN201010623672.XA 2010-12-30 2010-12-30 用于对待处理的短文本信息进行扩展的方法、装置和设备 Active CN102567290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010623672.XA CN102567290B (zh) 2010-12-30 2010-12-30 用于对待处理的短文本信息进行扩展的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010623672.XA CN102567290B (zh) 2010-12-30 2010-12-30 用于对待处理的短文本信息进行扩展的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN102567290A CN102567290A (zh) 2012-07-11
CN102567290B true CN102567290B (zh) 2015-01-14

Family

ID=46412735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010623672.XA Active CN102567290B (zh) 2010-12-30 2010-12-30 用于对待处理的短文本信息进行扩展的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN102567290B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885985B (zh) * 2012-12-24 2018-05-18 北京大学 微博实时检索方法和装置
CN103390065A (zh) * 2013-08-01 2013-11-13 北京优佳荣科技有限公司 一种基于通讯群组的数据提取方法和装置
CN103530345A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 短文本特征扩展及拟合特征库构建方法、装置
CN105373546B (zh) * 2014-08-25 2019-03-29 北大方正集团有限公司 一种用于知识服务的信息处理方法及系统
CN107729499A (zh) * 2017-10-20 2018-02-23 网易传媒科技(北京)有限公司 信息处理方法、介质、系统和电子设备
CN107784112B (zh) * 2017-11-06 2020-03-03 广州赛宝认证中心服务有限公司 短文本数据增强方法、系统及检测认证服务平台
CN110276001B (zh) * 2019-06-20 2021-10-08 北京百度网讯科技有限公司 盘点页识别方法、装置、计算设备和介质
CN110310632A (zh) * 2019-06-28 2019-10-08 联想(北京)有限公司 语音处理方法及装置、以及电子设备
CN110929017B (zh) * 2019-11-25 2023-07-14 腾讯科技(深圳)有限公司 文本的推荐方法及装置
CN114595311A (zh) * 2022-03-24 2022-06-07 中国银行股份有限公司 审计问题文本数据处理方法及装置
CN114912448B (zh) * 2022-07-15 2022-12-09 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149546A1 (en) * 2003-11-03 2005-07-07 Prakash Vipul V. Methods and apparatuses for determining and designating classifications of electronic documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法

Also Published As

Publication number Publication date
CN102567290A (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
CN102567290B (zh) 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102163229B (zh) 一种用于生成搜索结果的摘要的方法与设备
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN100483408C (zh) 在多个文档之间建立链接结构的方法和装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN110795627B (zh) 信息推荐方法及装置、电子设备
CN102033955A (zh) 扩展用户搜索结果的方法及服务器
CN108647276B (zh) 一种搜索方法
CN101847161A (zh) 搜索网页的方法和建立数据库的方法
WO2011137125A1 (en) Vertical search-based query method, system and apparatus
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN104462293A (zh) 搜索处理方法、生成搜索结果排序模型的方法和装置
CN103699700A (zh) 一种搜索引导的生成方法、系统及相关服务器
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN102163228A (zh) 用于确定资源候选项的排序结果的方法、装置及设备
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN108572971B (zh) 一种用于挖掘与检索词相关的关键词的方法和装置
CN103049495A (zh) 用于提供与查询序列相对应的搜索建议的方法、装置与设备
CN101101605A (zh) 搜索网页的方法、装置及系统和建立索引数据库的装置
CN103077217A (zh) 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant