CN102073707A - 用于实时识别短文本类别信息的方法、装置及计算机设备 - Google Patents

用于实时识别短文本类别信息的方法、装置及计算机设备 Download PDF

Info

Publication number
CN102073707A
CN102073707A CN 201010616565 CN201010616565A CN102073707A CN 102073707 A CN102073707 A CN 102073707A CN 201010616565 CN201010616565 CN 201010616565 CN 201010616565 A CN201010616565 A CN 201010616565A CN 102073707 A CN102073707 A CN 102073707A
Authority
CN
China
Prior art keywords
information
classification
short text
unit
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010616565
Other languages
English (en)
Inventor
冼健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010616565 priority Critical patent/CN102073707A/zh
Publication of CN102073707A publication Critical patent/CN102073707A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种计算机实现的用于实时识别短文本类别信息的方法、装置及计算机设备。本发明通过获取待分类的短文本信息;将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的已分类信息单元及其对应的单元相关信息;并基于第一预定规则,根据该已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。与现有技术相比,本发明具有以下优点:1)本发明能够达到较佳的召回率;2)由于待分类短文本信息的确定主要通过能够成功匹配的信息单元及其相关信息来确定,因此,其处理速度快,每秒能够达到识别上万个短文本信息类别的速度,完全能够满足线上的实时识别需求。

Description

用于实时识别短文本类别信息的方法、装置及计算机设备
技术领域
本发明涉及计算机网络技术,尤其涉及一种用于实时识别短文本类别信息的方法、设备及计算机设备。
背景技术
现有技术中,主要通过对短文本信息进行专有名词及术语匹配,或者,通过对短文本信息进行信息扩展后,再根据预设的分类器对其进行分类。其中,前者存在召回率低的问题,而后者存在计算量大,无法满足实时应用需求的问题。
因此,如何提供一种实时识别短文本类别信息的方案,已成为本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种用于实时识别短文本类别信息的方法、设备及计算机设备。
根据本发明的一个方面,提供一种计算机实现的用于实时识别短文本类别信息的方法,其中,该方法包括以下步骤:
a获取待分类的短文本信息;
b将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;
c基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。
根据本发明的另一个方面,还提供了一种用于实时识别短文本类别信息的短文本处理装置,其中,该短文本处理装置包括:
第一获取装置、用于获取待分类的短文本信息;
匹配装置、用于将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;
分类装置、用于基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备前述短文本处理装置。
与现有技术相比,本发明具有以下优点:1)本发明通过将待分类短文本信息与已分类的信息单元进行匹配,能够达到较佳的召回率;2)由于待分类短文本信息的确定主要通过能够成功匹配的信息单元及其相关信息来确定,因此,其处理速度快,每秒能够达到识别大量,例如数万至数十万个,短文本信息类别的速度,完全能够满足线上的实时识别需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的用于实施识别短文本类别信息的方法流程图;
图2为本发明一个优选实施例的用于实施识别短文本类别信息的方法流程图;
图3为本发明另一优选实施例的用于实施识别短文本类别信息的方法流程图;
图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图;
图5为本发明一个方面的用于实施识别短文本类别信息的短文本处理装置结构示意图;
图6为本发明一个优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图;
图7为本发明另一优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图;
图8为本发明再一优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一个方面的用于实施识别短文本类别信息的方法流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制芯片来完成,为简明起见,以下将所述操作系统或处理控制芯片统称为短文本处理装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。其中,所述用户设备包括但不限于:个人电脑、智能手机、PDA等;所述网络设备包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,短文本处理装置获取待分类的短文本信息。其中,所述短文本信息包括但不限于:1)来自用户的输入序列;2)计算机设备当前需要处理的信息等。该短文本处理装置获取该待分类短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行分类处理的短文本信息。
接着,在步骤S2中,短文本处理装置将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息。其中,所述已分类信息单元库中包括已分类的信息单元及其对应的单元相关信息,该已分类信息单元库可包含在所述计算机设备中,或与所述计算机设备物理分离但通信连接。
其中,短文本处理装置判断待分类短文本信息与信息单元是否成功匹配的方式包括但不限于:
1)信息单元是否与待分类短文本信息的全部或部分内容完全相同;
例如,对于短文本信息“dnf游戏下载”,短文本处理装置在已分类信息单元库中查询到信息单元“dnf游戏”,并判断信息单元“dnf游戏”与短文本信息中的部分内容完全相同,则短文本处理装置判断信息单元“dnf游戏”与短文本信息“dnf游戏下载”成功匹配;
又例如,对于短文本信息“dnf”,短文本处理装置在已分类信息单元库中查询到信息单元“dnf游戏”,并判断信息单元“dnf”与短文本信息“dnf”完全相同,则判断信息单元“dnf”与短文本信息“dnf”成功匹配。
2)信息单元是否与待分类短文本信息的全部或部分内容相似;
具体地,短文本处理装置判断相似的方式包括但不限于:
a)信息单元的同义词是否包含在待分类短文本信息中;
例如,对于短文本信息“dnf游戏download”,短文本处理装置在已分类信息单元库中查询到信息单元“游戏下载”,并判断信息单元“游戏下载”与“游戏download”为同义词,则判断信息单元“游戏下载”与短文本信息“dnf游戏download”成功匹配。
b)信息单元的同义字符是否包含在待分类短文本信息中;
例如,对于短文本信息“dnf游戏下载”,短文本处理装置在已分类信息单元库中查询到信息单元“DNF游戏”,并判断信息单元“DNF游戏”与“dnf游戏”为同义字符,则判断信息单元“DNF游戏”与短文本信息“dnf游戏”成功匹配。
需要说明的是,一个待分类短文本信息可成功匹配多个信息单元,例如,短文本信息“dnf游戏下载”可成功匹配“dnf”、“游戏”、“下载”三个信息单元等。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何判断待分类短文本信息与信息单元是否成功匹配的方式,均应包含在本发明的范围内。
短文本处理装置获取成功匹配的信息单元对应的单元相关信息的方式包括但不限于:
1)每获得一个成功匹配的信息单元,即获取该信息单元对应的单元相关信息;
2)获得所有与待分类短文本信息成功匹配的信息单元后,再获取该等信息单元分别对应的单元相关信息。
接着,在步骤S3中,短文本处理装置基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。其中,所述类别信息包括但不限于:短文本信息的类别、短文本信息类别确定的时间等。
具体地,第一预定规则中规定了根据信息单元及其对应的单元相关信息,来确定待分类短文本信息的类别信息的确定规则。短文本处理装置基于上述第一预定规则所规定的确定规则,并根据已分类信息单元及其对应的单元相关信息,来确定所述待分类短文本信息的类别信息。
其中,所述单元相关信息包括以下至少一项:
1)信息单元长度;
2)信息单元类别;
3)信息单元特征权值;
以下针对上述每项信息进行详细描述:
1)信息单元长度;
具体地,短文本处理装置基于第一预定规则,并根据成功匹配的信息单元及其信息单元长度,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,当成功匹配的信息单元长度与待分类短文本信息的长度相等时,将该信息单元的类别作为待分类短文本信息的类别。则当短文本处理装置判断信息单元长度与待分类短文本信息的长度相等时,将该信息单元的类别作为待分类短文本信息的类别。优选地,还可记录该次类别判定操作的时间。
2)信息单元类别;
具体地,短文本处理装置基于第一预定规则,并根据成功匹配的信息单元及其信息单元类别,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,当待分类短文本信息成功匹配多个信息单元时,统计信息单元的各类别数量,选择数量最多的类别作为待分类短文本信息的类别。则对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”,其中,信息单元“dnf”的类别为“游戏”,信息单元“游戏”的类别为“游戏”,信息单元“下载”的类别为“资讯”,短文本处理装置统计得到“游戏”类别的数量为二,“资讯”类别的数量为一,则选择“游戏”作为短文本信息的类别。优选地,还可记录该次类别判定操作的时间。
3)信息单元特征权值;
具体地,短文本处理装置基于第一预定规则,并根据成功匹配的信息单元及其信息单元特征权值,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,分别按照类别将成功匹配的信息单元的信息单元特征权值相加,取相加后的权值最高的类别作为短文本信息的类别。则对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”的类别为“游戏”,特征权值为2.3;信息单元“游戏”的类别为“游戏”,特征权值为1.3,信息单元“下载”的类别为“资讯”,特征权值为2.0。短文本处理装置分析得到信息单元“dnf”及“游戏”类别相同,并获得将两者相加的权值3.6,信息单元“下载”的类别与其他信息单元不同,无需对其进行操作。短文本处理装置得到“游戏”类别的信息单元总权重为3.6,“资讯”类别的信息单元总权重为2.0,则将“游戏”作为短文本信息“dnf游戏下载”的类别。优选地,还可记录该次类别判定操作的时间。
又例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,当信息单元“dnf”的类别为“游戏”时,其特征权值为2.3,当其类别为“资讯”时,其特征权值为-1.0;当信息单元“游戏”的类别为“游戏”时,其特征权值为1.3,当其类别为“娱乐”时,其特征权值为-0.5;信息单元“下载”的类别为“资讯”,特征权值为2.0。短文本处理装置分析得到共有“游戏”、“资讯”、“娱乐”三种类别,并计算得到上述三种类别的总权值分别为3.6、1.0、-0.5,则将“游戏”作为短文本信息“dnf游戏下载”的类别。优选地,还可记录该次类别判定操作的时间。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定规则,并根据成功匹配的信息单元及其单元相关信息,来获取待分类短文本信息的类别信息的实现方式,均应包含在本发明的范围内。
图2为本发明一个优选实施例的用于实施识别短文本类别信息的方法流程图。在本实施例中,前述实施例中的步骤S3进一步包括步骤S31及步骤S32,前述第一预定规则包括多个类别筛选规则。
步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S31中,短文本处理装置根据所述一个或多个已分类信息单元对应的信息单元类别,来由所述第一预定规则中选择类别筛选规则。
具体地,短文本处理装置根据成功匹配的信息单元的信息单元类别,来由所述第一预定规则中选择能够与信息单元类别对应的类别筛选规则。其中,当成功匹配的信息单元仅包含一个类别,则短文本处理装置由第一预定规则中选择能够与该类别对应的类别筛选规则;当成功匹配的信息单元包含多个类别,则短文本处理装置由第一预定规则中选择分别与该多个类别对应的类别筛选规则。其中,一个类别筛选规则可能对应多个类别。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”,其中,信息单元“dnf”的类别为“游戏”,信息单元“游戏”的类别为“游戏”,信息单元“下载”的类别为“资讯”。短文本处理装置在第一预定规则中进行查找,并得到能够分别与类别“游戏”及“资讯”对应的类别筛选规则。
又例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”的类别为“游戏”及“资讯”,信息单元“游戏”的类别为“游戏”及“娱乐”;信息单元“下载”的类别为“资讯”。短文本处理装置在第一预定规则中进行查找,但仅获得能够与类别“游戏”及“娱乐”对应的类别筛选规则。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据信息单元类别,来由所述第一预定规则中选择类别筛选规则的实现方式,均应包含在本发明的范围内。
在步骤S32中,短文本处理装置基于所选择的类别筛选规则,并根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,来直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。
具体地,短文本处理装置基于类别筛选规则所规定的选择待分类短文本信息的规则,并根据成功匹配的信息单元,或者,根据成功匹配的信息单元对应的单元相关信息,或者,根据成功匹配的信息单元及其对应的相关信息,来直接获得所述待分类短文本信息的类别信息;或者,当未能直接获得所述待分类短文本信息的类别信息时,由成功匹配的信息单元的信息单元类别中获得所述待分类短文本信息的可选类别。
其中,该类别筛选规则参考以下至少一项因素:
1)预设的类别判定信息单元;
具体地,短文本处理装置检测成功匹配的信息单元是否包括预设的类别判定信息单元,若检测结果为包括,则直接将该类别判定信息单元对应的类别作为待分类短文本信息的类别。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”为“游戏”类别的类别判定单元,则当短文本处理装置检测到该信息单元后,直接将类别“游戏”作为短文本信息“dnf游戏下载”对应的类别。
2)所述待分类短文本的长度;
具体地,短文本处理装置计算成功匹配的各信息单元的信息单元长度与待分类短文本信息的长度比是否超过第一预定阈值,若该长度比超过第一预定阈值,则直接将该信息单元的类别作为该待分类短文本信息的类别;若未超过,则若基于类别筛选规则的其他判断操作未将该信息单元对应的类别判断为不予考虑,将该信息单元的类别作为可选类别。其中,本领域技术人员应可根据实际情况和需求来选择并设定该第一预定阈值。
例如,该第一预定阈值为90%,则对于短文本信息“dnf”,其成功匹配的信息单元“dnf”与其长度比为100%,高于90%,则将信息单元“dnf”对应的类别““游戏”作为短文本信息“dnf”的类别。
3)根据所述待分类短文本信息所获得的信息单元类别的统计数据;
具体地,短文本处理装置分别统计根据待分类短文本信息所获得的各信息单元类别的数量,并且当符合以下条件时分别进行以下类别选择:
i)当待分类短文本信息的长度超过第二预定阈值,且与该短文本信息成功匹配的信息单元数量超过第三预定阈值时,直接将该数量超过第三预定阈值的信息单元对应的类别作为该待分类短文本信息的类别;
ii)当待分类短文本信息的长度超过第四预定阈值,且与该短文本信息成功匹配的信息单元数量小于第五预定阈值时,判断该数量小于第五预定阈值的信息单元对应的类别不能够被判断为该待分类信息单元的类别,即判断该类别为不予考虑,也即,不将其作为可选类别。
其中,本领域技术人员应可根据实际情况和需求来选择并设定前述各预定阈值,其中,第二至五预定阈值的选择应使得该待分类短文本信息的长度及与其成功匹配的信息单元的数量不会同时符合上述条件i)和ii),更优选地,第五预定阈值小于等于第三预定阈值。
其中,所述各信息单元类别的数量但不限于:a)各信息单元在短文本信息中出现的数量;b)当短文本信息为输入序列时,包含各信息单元的短文本信息被检索的次数。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,来直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别的其他实现方式,均应包含在本发明的范围内。
优选地,本实施例中,步骤S3还包括步骤S33。
在步骤S33中,短文本处理装置基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,来由所述可选类别中选择所述待分类短文本信息的类别信息。
具体地,短文本处理装置基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,来获得待分类短文本信息的类别信息的方法,已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。本实施例与图1所示实施例的区别在于,短文本处理装置仅对可选类别中的类别进行是否可被确定为待分类短文本信息的类别的判断。
图3为本发明另一优选实施例的用于实施识别短文本类别信息的方法流程图。在本实施例中,前述实施例中的步骤S3进一步包括步骤S34、步骤S35及步骤S36,前述第一预定规则包括多个权值计算规则。
步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S34中,短文本处理装置根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则。
具体地,短文本处理装置根据成功匹配的信息单元的信息单元类别,由所述第一预定规则中选择能够与信息单元类别对应的权值计算规则。其中,当成功匹配的信息单元仅包含一个类别,则短文本处理装置由第一预定规则中选择能够与该类别对应的权值计算规则;当成功匹配的信息单元包含多个类别,则短文本处理装置分别由第一预定规则中选择分别于该多个类别对应的权值计算规则。其中,一个权值计算规则可能对应多个类别。
接着在步骤S35中,短文本处理装置基于所选择的权值计算规则,并根据所述一个或多个已分类信息单元对应的信息单元特征权值,来获得所述待分类短文本信息的一个或多个类别权值。
具体地,短文本处理装置根据所选择的权值计算规则中记录的权值计算方法,来分别对各类别的成功匹配的一个或多个已分类信息单元对应的信息单元特征权值进行运算处理,以获得各类别的类别权值。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,当信息单元“dnf”的类别为“游戏”时,其特征权值为2.3;当其类别为“资讯”时,其特征权值为-1.0;当信息单元“游戏”的类别为“游戏”时,其特征权值为1.3,当其类别为“娱乐”时,其特征权值为-0.5;信息单元“下载”的类别为“资讯”,特征权值为2.0。短文本处理装置由第一预定规则中查找得到类别“游戏”、“娱乐”及“资讯”均对应第一权值计算规则。该第一权值计算规则规定,将各类别的信息单元的特征权值相加来获得各类别的类别权值,则短文本处理装置将各类别的信息单元特征权值相加,得到“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所选择的权值计算规则,并根据所述一个或多个已分类信息单元对应的信息单元特征权值,来获得所述待分类短文本信息的一个或多个类别权值的实现方式,例如,分别将各类别的特征权值取平均,或者取平方和等,均应包含在本发明的范围内。
接着,在步骤S36中,短文本处理装置基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。
具体地,第一预定规则中包括根据类别权值来判断类别信息的方法,短文本处理装置根据所记录的方法,来确定所述待分类短文本信息的类别信息。
例如,第一预定规则中规定,当一个类别的类别权值大于0时,判断该类别为待分类短文本信息对应的类别。则对于短文本信息“dnf游戏下载”,其“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5,则短文本处理装置判断短文本信息“dnf游戏下载””的类别包括“游戏”及“资讯”。
又例如,第一预定规则中规定,选择类别权值最高的类别作为待分类短文本信息的类别。则对于短文本信息“dnf游戏下载”,其“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5,则短文本处理装置判断短文本信息“dnf游戏下载””的类别为“游戏”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于第一预定规则,根据所述类别权值,来确定所述待分类短文本信息的类别信息的实现方式,例如,分别将各类别的特征权值取平均,或者取平方和等,均应包含在本发明的范围内。
需要进一步说明的是,本实施例所述的基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息的方法,可用于在前述步骤S33中,从可选类别中选择带分类短文本信息的类别。
图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。
步骤S1至步骤S3已在参照图1、图2或图3所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
在所述步骤S1之前,还包括以下步骤:
步骤S4、建立或更新所述已分类信息单元库。步骤S4进一步包括步骤S41(图未示)、步骤S42(图未示)、步骤S43(图未示)及步骤S44(图未示)。
在步骤S41中,短文本处理装置获取多个已分类的短文本信息及其对应的类别信息。
其中,获取该已分类的短文本信息包括但不限于:
1)获取根据参照图1至图3所示实施例提供的方法而获得的已确定类别的短文本信息;
2)获取根据其他方法而获得的已分类的短文本信息;
例如,短文本处理装置获取多个已扩展的短文本信息,然后,根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息等。
在步骤S42中,短文本处理装置对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元。
具体地,短文本处理装置对已分类的短文本信息进行切分,获得各个基本粒度,随后,短文本处理装置提取该等基本粒度,来构成待分类的信息单元。
其中,该提取操作包括但不限于:
1)直接提取基本粒度作为信息单元;其中,所述基本粒度为短文本处理装置对已分类短文本信息进行切分所得的基本单元;
例如,对于已分类的短文本信息“dnf游戏下载”,短文本处理装置对其进行切分,获得基本粒度“dnf”、“游戏”、“下载”,则短文本处理装置直接将该等基本粒度作为信息单元;
2)提取基本粒度及其组合作为信息单元;
例如,对于已分类的短文本信息“dnf游戏下载”,短文本处理装置对其进行切分,获得基本粒度“dnf”、“游戏”、“下载”,则短文本处理装置将该等基本粒度及其组合,即“dnf”、“游戏”、“下载”、“dnf游戏”、“游戏下载”,提取为信息单元。其中,所述组合可为基本粒度的任意组合,也可为基本粒度按照一定规则进行组合,例如,按照n-gram片段的组合要求,组合成信息单元等。
优选地,在上述提取操作中,还包括去除无效信息的操作。例如,对于已分类的短文本信息“dnf游戏的下载”,短文本处理装置对其进行切分,获得基本粒度“dnf”、“游戏”、“的”、“下载”,则短文本处理装置根据预设的无效信息词典,判断“的”为无效信息,将“的”去除后,再提取“dnf”、“游戏”、“下载”以构成信息单元。
在步骤S43中,短文本处理装置根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别。
其中,所述分布状态包括但不限于:1)待分类信息单元出现的次数;2)待分类信息单元出现的频率;3)待分类信息单元所在的已分类短文本信息的类别等。
具体地,短文本处理装置分别计算待分类信息单元在一个或多个类别的已分类短文本信息中出现的次数及/或出现的频率,并根据第一预定判断条件,来确定所述待分类信息单元的类别。
例如,第一预定判断条件中规定,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数五倍,或者,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数三倍,并且在包含本次检测及历史检测的所有检测记录中,待分类信息单元在该类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数,则将该待分类信息单元的类别判断为该类别。
则对于待分类信息单元“dnf”,当短文本处理装置判断其是否为“游戏”类别的信息单元时,短文本处理装置分别在“游戏”类别及非“游戏”类别的已分类短文本信息中计算该信息单元的出现次数,当统计得到信息单元“dnf”在游戏类别的已分类短文本信息中出现的次数为20431次,在非游戏类别的已分类短文本信息中出现的次数为2531次,20431/2531≈8.11,则判断信息单元“dnf”的类别为“游戏”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定所述第一预定判断条件,例如,选择出现频率最高的类别作为该待分类信息单元的类别等,因此,任何根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别的实现方式,均应包含在本发明的范围内。
在步骤S44中,短文本处理装置根据已确定类别的信息单元,来建立或更新所述已分类信息单元库。
具体地,当已分类信息单元库尚未建立,则短文本处理装置根据已确定类别的信息单元,建立已分类信息单元库;当已分类信息单元库已建立,则短文本处理装置根据在本次检测中确定类别的信息单元,来更新已分类信息单元库。
作为本发明的一个优选实施例,在步骤S43中,短文本信息装置根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别及其对应的特征权值。
具体地,短文本信息处理装置分别计算待分类信息单元在一个或多个类别的已分类短文本信息中出现的次数及/或出现的频率,并根据第二预定判断条件,来确定所述待分类信息单元的类别及其特征权值。
例如,第二预定判断条件中规定,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数sc高于在其他类别的已分类短文本信息中的出现次数nc五倍,或者,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数sc高于在其他类别的已分类短文本信息中的出现次数nc三倍,并且在包含本次检测及历史检测的所有检测记录中,待分类信息单元在该类别的已分类短文本信息中的出现次数sf高于在其他类别的已分类短文本信息中的出现次数nf,则将该待分类信息单元的类别判断为该类别,并采用
Figure BSA00000405010500161
来计算该待分类信息单元的特征权值;若不满足上述条件,则同样将待分类信息单元的类别判断为该类别,并采用
Figure BSA00000405010500162
来计算该待分类信息单元的特征权值。
则对于待分类信息单元“dnf”,当短文本处理装置判断其是否为“游戏”类别的信息单元时,短文本处理装置分别在“游戏”类别及非“游戏”类别的已分类短文本信息中计算该信息单元的出现次数,当统计得到信息单元“dnf”在游戏类别的已分类短文本信息中出现的次数为20431次,在非游戏类别的已分类短文本信息中出现的次数为2531次,20431/2531≈8.11,则判断信息单元“dnf”的类别为“游戏”,并且其
Figure BSA00000405010500163
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定所述第二预定判断条件,例如,选择出现频率最高的类别作为该待分类信息单元的类别,并且特征权值根据
Figure BSA00000405010500164
来获得等,因此,任何根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别及其对应的特征权值的实现方式,均应包含在本发明的范围内。
相应的,在步骤S44中,短文本处理装置根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。
作为本发明的优选方案之一,短文本处理装置根据历史信息单元分类记录,调整所确定的信息单元的类别。其中,该历史信息单元分类记录,可包含在所述已分类信息单元库中,或包含在其他库中。
具体地,短文本处理装置根据历史信息单元分类记录,来判断是否需要更改当前所确定的信息单元类别。
例如,若当前所确定的信息单元类别与多次历史信息单元分类记录中的类别相同,则保留当前所确定的信息单元类别。
又例如,若当前所确定的信息单元类别与前N次信息单元分类记录中的类别不同,且该前N次信息单元分类记录中的类别一致,则将当前所确定的信息单元类别更改为前N次信息单元分类记录中的类别。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定调整所确定的信息单元类别的方案,因此,任何根据历史信息单元分类记录,调整所确定的信息单元的类别的方法,均应包含在本发明的范围内。
作为本发明的优选方案之一,短文本处理装置根据历史短文本信息分类记录,来调整所确定的短文本信息的类别信息。其中,该历史短文本信息分类记录,可包含在所述已分类短文本信息库中,或包含在其他库中。
具体地,短文本处理装置根据历史短文本信息分类记录,来判断是否需要更改当前所确定的短文本信息类别。
例如,若当前所确定的短文本信息类别与多次历史短文本信息分类记录中的类别相同,则保留当前所确定的短文本信息类别。
又例如,若当前所确定的短文本信息类别与前N次短文本信息分类记录中的类别不同,且该前N次短文本信息分类记录中的类别一致,则将当前所确定的短文本信息类别更改为前N次短文本信息分类记录中的类别。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定调整所确定的短文本信息类别信息的方案,因此,任何根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息的实现方式,均应包含在本发明的范围内。
图5为本发明一个方面的用于实施识别短文本类别信息的短文本处理装置的结构示意图。本实施例中,短文本处理装置包括第一获取装置1、匹配装置2及分类装置3。
第一获取装置1获取待分类的短文本信息。其中,所述短文本信息包括但不限于:1)来自用户的输入序列;2)计算机设备当前需要处理的信息等。该第一获取装置1获取该待分类短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算机设备或其他设备中的需要进行分类处理的短文本信息。
匹配装置2将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息。其中,所述已分类信息单元库中包括已分类的信息单元及其对应的单元相关信息,该已分类信息单元库可包含在所述计算机设备中,或与所述计算机设备物理分离但通信连接。
其中,匹配装置2判断待分类短文本信息与信息单元是否成功匹配的方式包括但不限于:
1)信息单元是否与待分类短文本信息的全部或部分内容完全相同;
例如,对于短文本信息“dnf游戏下载”,匹配装置2在已分类信息单元库中查询到信息单元“dnf游戏”,并判断信息单元“dnf游戏”与短文本信息中的部分内容完全相同,则匹配装置2判断信息单元“dnf游戏”与短文本信息“dnf游戏下载”成功匹配;
又例如,对于短文本信息“dnf”,匹配装置2在已分类信息单元库中查询到信息单元“dnf游戏”,并判断信息单元“dnf”与短文本信息“dnf”完全相同,则匹配装置2判断信息单元“dnf”与短文本信息“dnf”成功匹配。
2)信息单元是否与待分类短文本信息的全部或部分内容相似;
具体地,匹配装置2判断相似的方式包括但不限于:
a)信息单元的同义词是否包含在待分类短文本信息中;
例如,对于短文本信息“dnf游戏download”,匹配装置2在已分类信息单元库中查询到信息单元“游戏下载”,并判断信息单元“游戏下载”与“游戏download”为同义词,则匹配装置2判断信息单元“游戏下载”与短文本信息“dnf游戏download”成功匹配。
b)信息单元的同义字符是否包含在待分类短文本信息中;
例如,对于短文本信息“dnf游戏下载”,匹配装置2在已分类信息单元库中查询到信息单元“DNF游戏”,并判断信息单元“DNF游戏”与“dnf游戏”为同义字符,则匹配装置2判断信息单元“DNF游戏”与短文本信息“dnf游戏”成功匹配。
需要说明的是,一个待分类短文本信息可成功匹配多个信息单元,例如,短文本信息“dnf游戏下载”可成功匹配“dnf”、“游戏”、“下载”三个信息单元等。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何判断待分类短文本信息与信息单元是否成功匹配的方式,均应包含在本发明的范围内。
匹配装置2获取成功匹配的信息单元对应的单元相关信息的方法包括但不限于:
1)每获得一个成功匹配的信息单元,即获取该信息单元对应的单元相关信息;
2)获得所有与待分类短文本信息成功匹配的信息单元后,再获取该等信息单元分别对应的单元相关信息。
分类装置3基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。其中,所述类别信息包括但不限于:短文本信息的类别、短文本信息类别确定的时间等。
具体地,第一预定规则中规定了根据信息单元及其对应的单元相关信息,来确定待分类短文本信息的类别信息的确定规则。分类装置3基于上述第一预定规则所规定的确定规则,并根据已分类信息单元及其对应的单元相关信息,来确定所述待分类短文本信息的类别信息。
其中,所述单元相关信息包括以下至少一项:
1)信息单元长度;
2)信息单元类别;
3)信息单元特征权值;
以下针对上述每项信息进行详细描述:
1)信息单元长度;
具体地,分类装置3基于第一预定规则,并根据成功匹配的信息单元及其信息单元长度,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,当成功匹配的信息单元长度与待分类短文本信息的长度相等时,将该信息单元的类别作为待分类短文本信息的类别。则当分类装置3判断信息单元长度与待分类短文本信息的长度相等时,将该信息单元的类别作为待分类短文本信息的类别。优选地,还可记录该次类别判定操作的时间。
2)信息单元类别;
具体地,分类装置3基于第一预定规则,并根据成功匹配的信息单元及其信息单元类别,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,当待分类短文本信息成功匹配多个信息单元时,统计信息单元的各类别数量,选择数量最多的类别作为待分类短文本信息的类别。则对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”,其中,信息单元“dnf”的类别为“游戏”,信息单元“游戏”的类别为“游戏”,信息单元“下载”的类别为“资讯”,分类装置3统计得到“游戏”类别的数量为二,“资讯”类别的数量为一,则选择“游戏”作为短文本信息的类别。优选地,还可记录该次类别判定操作的时间。
3)信息单元特征权值;
具体地,分类装置3基于第一预定规则,并根据成功匹配的信息单元及其信息单元特征权值,来获取待分类短文本信息的类别信息。
例如,第一预定规则中规定,分别按照类别将成功匹配的信息单元的信息单元特征权值相加,取相加后的权值最高的类别作为短文本信息的类别。则对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”的类别为“游戏”,特征权值为2.3;信息单元“游戏”的类别为“游戏”,特征权值为1.3,信息单元“下载”的类别为“资讯”,特征权值为2.0。分类装置3分析得到信息单元“dnf”及“游戏”类别相同,并获得将两者相加的权值3.6,信息单元“下载”的类别与其他信息单元不同,无需对其进行操作。分类装置3得到“游戏”类别的信息单元总权重为3.6,“资讯”类别的信息单元总权重为2.0,则将“游戏”作为短文本信息“dnf游戏下载”的类别。优选地,还可记录该次类别判定操作的时间。
又例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,当信息单元“dnf”的类别为“游戏”时,其特征权值为2.3,当其类别为“资讯”时,其特征权值为-1.0;当信息单元“游戏”的类别为“游戏”时,其特征权值为1.3,当其类别为“娱乐”时,其特征权值为-0.5;信息单元“下载”的类别为“资讯”,特征权值为2.0。分类装置3分析得到共有“游戏”、“资讯”、“娱乐”三种类别,并计算得到上述三种类别的总权值分别为3.6、1.0、-0.5,则将“游戏”作为短文本信息“dnf游戏下载”的类别。优选地,还可记录该次类别判定操作的时间。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定的规则,根据成功匹配的信息单元及其单元相关信息,来获取待分类短文本信息的类别信息的实现方式,均应包含在本发明的范围内。
图6为本发明一个优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图。在本实施例中,分类装置3进一步包括第一规则选择装置31及第一处理装置32,前述第一预定规则包括多个类别筛选规则。
第一获取装置31及匹配装置32已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第一规则选择装置31根据所述一个或多个已分类信息单元对应的信息单元类别,来由所述第一预定规则中选择类别筛选规则。
具体地,第一规则选择装置31根据成功匹配的信息单元的信息单元类别,来由所述第一预定规则中选择能够与信息单元类别对应的类别筛选规则。其中,当成功匹配的信息单元仅包含一个类别,则第一规则选择装置31由第一预定规则中选择能够与该类别对应的类别筛选规则;当成功匹配的信息单元包含多个类别,则第一规则选择装置31由第一预定规则中选择分别与该多个类别对应的类别筛选规则。其中,一个类别筛选规则可能对应多个类别。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”,其中,信息单元“dnf”的类别为“游戏”,信息单元“游戏”的类别为“游戏”,信息单元“下载”的类别为“资讯”。第一规则选择装置31在第一预定规则中进行查找,并得到能够分别与类别“游戏”及“资讯”对应的类别筛选规则。
又例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”的类别为“游戏”及“资讯”,信息单元“游戏”的类别为“游戏”及“娱乐”;信息单元“下载”的类别为“资讯”。第一规则选择装置31在第一预定规则中进行查找,但仅获得能够与类别“游戏”及“娱乐”对应的类别筛选规则。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据信息单元类别,来由所述第一预定规则中选择类别筛选规则的实现方式,均应包含在本发明的范围内。
第一处理装置32基于所选择的类别筛选规则,并根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,来直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。
具体地,第一处理装置32基于类别筛选规则所规定的选择待分类短文本信息的规则,并根据成功匹配的信息单元,或者,根据成功匹配的信息单元对应的单元相关信息,或者,根据成功匹配的信息单元及其对应的相关信息,来直接获得所述待分类短文本信息的类别信息;或者,当未能直接获得所述待分类短文本信息的类别信息时,由成功匹配的信息单元的信息单元类别中获得所述待分类短文本信息的可选类别。
其中,该类别筛选规则参考以下至少一项因素:
1)预设的类别判定信息单元;
具体地,第一处理装置32检测成功匹配的信息单元是否包括预设的类别判定信息单元,若检测结果为包括,则直接将该类别判定信息单元对应的类别作为待分类短文本信息的类别。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,信息单元“dnf”为“游戏”类别的类别判定单元,则当第一处理装置32检测到该信息单元后,直接将类别“游戏”作为短文本信息“dnf游戏下载”对应的类别。
2)所述待分类短文本的长度;
具体地,第一处理装置32计算成功匹配的各信息单元的信息单元长度与待分类短文本信息的长度比是否超过第一预定阈值,若该程度比超过第一预定阈值,则直接将该信息单元的类别作为该待分类短文本信息的类别;若未超过,则若基于类别筛选规则的其他判断操作未将该信息单元对应的类别判断为不予考虑,将该信息单元的类别作为可选类别。其中,本领域技术人员应可根据实际情况和需求来选择并设定该第一预定阈值。
例如,该第一预定阈值为90%,则对于短文本信息“dnf”,其成功匹配的信息单元“dnf”与其长度比为100%,高于90%,则将信息单元“dnf”对应的类别““游戏”作为短文本信息“dnf”的类别。
3)根据所述待分类短文本信息所获得的信息单元类别的统计数据;
具体地,第一处理装置32分别统计根据待分类短文本信息所获得的各信息单元类别的数量,并且当符合以下条件时分别进行以下类别选择:
i)当待分类短文本信息的长度超过第二预定阈值,且与该短文本信息成功匹配的信息单元数量超过第三预定阈值时,第一处理装置32直接将该数量超过第三预定阈值的信息单元对应的类别作为该待分类短文本信息的类别;
ii)当待分类短文本信息的长度超过第四预定阈值,且与该短文本信息成功匹配的信息单元数量小于第五预定阈值时,第一处理装置32判断该数量小于第五预定阈值的信息单元对应的类别不能够被判断为该待分类信息单元的类别,即判断该类别为不予考虑,也即,不将其作为可选类别。
其中,本领域技术人员应可根据实际情况和需求来选择并设定前述各预定阈值,其中,第二至五预定阈值的选择应使得该待分类短文本信息的长度及与其成功匹配的信息单元的数量不会同时符合上述条件i)和ii),更优选地,第五预定阈值小于等于第三预定阈值。
其中,所述各信息单元类别的数量但不限于:a)各信息单元在短文本信息中出现的数量;b)当短文本信息为输入序列时,包含各信息单元的短文本信息被检索的次数。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,来直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别的其他实现方式,均应包含在本发明的范围内。
优选地,本实施例中,分类装置3还包括第一类别选择装置33。
第一类别选择装置33基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,来由所述可选类别中选择所述待分类短文本信息的类别信息。
具体地,第一类别选择装置33基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,来获得待分类短文本信息的类别信息的方法,已在参照图5所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。本实施例与图5所示实施例的区别在于,第一类别选择装置33仅对可选类别中的类别进行是否可被确定为待分类短文本信息的类别的判断。
图7为本发明另一优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图。本实施例中,前述实施例中的分类装置3进一步包括第二规则选择装置34、第二处理装置35及第一确定装置36。
第二规则选择装置34根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则。
具体地,第二规则选择装置34根据成功匹配的信息单元的信息单元类别,由所述第一预定规则中选择能够与信息单元类别对应的权值计算规则。其中,当成功匹配的信息单元仅包含一个类别,则短文本处理装置由第一预定规则中选择能够与该类别对应的权值计算规则;当成功匹配的信息单元包含多个类别,则短文本处理装置分别由第一预定规则中选择分别于该多个类别对应的权值计算规则。其中,一个权值计算规则可能对应多个类别。
第二处理装置35基于所选择的权值计算规则,并根据所述一个或多个已分类信息单元对应的信息单元特征权值,来获得所述待分类短文本信息的一个或多个类别权值。
具体地,第二处理装置35根据所选择的权值计算规则中记录的权值计算方法,来分别对各类别的成功匹配的一个或多个已分类信息单元对应的信息单元特征权值进行运算处理,以获得各类别的类别权值。
例如,对于短文本信息“dnf游戏下载”,其成功匹配信息单元“dnf”、“游戏”、“下载”。其中,当信息单元“dnf”的类别为“游戏”时,其特征权值为2.3;当其类别为“资讯”时,其特征权值为-1.0;当信息单元“游戏”的类别为“游戏”时,其特征权值为1.3,当其类别为“娱乐”时,其特征权值为-0.5;信息单元“下载”的类别为“资讯”,特征权值为2.0。第二处理装置35由第一预定规则中查找得到类别“游戏”、“娱乐”及“资讯”均对应第一权值计算规则。该第一权值计算规则规定,将各类别的信息单元的特征权值相加来获得各类别的类别权值,则第二处理装置35将各类别的信息单元特征权值相加,得到“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所选择的权值计算规则,并根据所述一个或多个已分类信息单元对应的信息单元特征权值,来获得所述待分类短文本信息的一个或多个类别权值的实现方式,例如,分别将各类别的特征权值取平均,或者取平方和等,均应包含在本发明的范围内。
第一确定装置36基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。
具体地,第一预定规则中包括根据类别权值来判断类别信息的方法,第一确定装置36根据所记录的方法,来确定所述待分类短文本信息的类别信息。
例如,第一预定规则中规定,当一个类别的类别权值大于0时,判断该类别为待分类短文本信息对应的类别。则对于短文本信息“dnf游戏下载”,其“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5,则第一确定装置36判断短文本信息“dnf游戏下载””的类别包括“游戏”及“资讯”。
又例如,第一预定规则中规定,选择类别权值最高的类别作为待分类短文本信息的类别。则对于短文本信息“dnf游戏下载”,其“游戏”类别的类别权值为3.6,“资讯”类别的类别权值为1.0,“娱乐”类别的类别权值为-0.5,则第一确定装置36判断短文本信息“dnf游戏下载””的类别为“游戏”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于第一预定规则,根据所述类别权值,来确定所述待分类短文本信息的类别信息的实现方式,例如,分别将各类别的特征权值取平均,或者取平方和等,均应包含在本发明的范围内。
需要进一步说明的是,本实施例中的第二规则选择装置34、第二处理装置35及第一确定装置36,还可包含在前述实施例中所述第一类别选择装置33中,则第一类别选择装置33,能够基于第一预定规则,根据所述类别权值,从可选类别中选择带分类短文本信息的类别。
图8为本发明再一优选实施例的用于实施识别短文本类别信息的短文本处理装置结构示意图。在本实施例中,短文本处理装置包括第一获取装置1、匹配装置2、分类装置3及更新装置4。其中,更新装置4包括第二获取装置(图未示)、切分提取装置(图未示)、第二确定装置(图未示)及子更新装置(图未示)。
其中,第一获取装置1、匹配装置2及分类装置3已在参照图5、图6或图7所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
第二获取装置获取多个已分类的短文本信息及其对应的类别信息。
其中,第二获取装置获取该已分类的短文本信息包括但不限于:
1)获取根据参照图5至图7所示实施例提供的方案而获得的已确定类别的短文本信息;
2)获取根据其他方法而获得的已分类的短文本信息;
例如,第二获取装置进一步包括子获取装置(图未示)及第三确定装置(图未示),子获取装置获取多个已扩展的短文本信息,然后,第三确定装置根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息等。
切分提取装置对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元。
具体地,切分提取装置对已分类的短文本信息进行切分,获得各个基本粒度,随后,切分提取装置提取该等基本粒度,来构成待分类的信息单元。
其中,该提取操作包括但不限于:
1)直接提取基本粒度作为信息单元;其中,所述基本粒度为切分提取装置对已分类短文本信息进行切分所得的基本单元;
例如,对于已分类的短文本信息“dnf游戏下载”,切分提取装置对其进行切分,获得基本粒度“dnf”、“游戏”、“下载”,则切分提取装置直接将该等基本粒度作为信息单元;
2)提取基本粒度及其组合作为信息单元;
例如,对于已分类的短文本信息“dnf游戏下载”,切分提取装置对其进行切分,获得基本粒度“dnf”、“游戏”、“下载”,则切分提取装置将该等基本粒度及其组合,即“dnf”、“游戏”、“下载”、“dnf游戏”、“游戏下载”,提取为信息单元。其中,所述组合可为基本粒度的任意组合,也可为基本粒度按照一定规则进行组合,例如,按照n-gram片段的组合要求,组合成信息单元等。
优选地,在上述提取操作中,还包括去除无效信息的操作。例如,对于已分类的短文本信息“dnf游戏的下载”,切分提取装置对其进行切分,获得基本粒度“dnf”、“游戏”、“的”、“下载”,则切分提取装置根据预设的无效信息词典,判断“的”为无效信息,将“的”去除后,再提取“dnf”、“游戏”、“下载”以构成信息单元。
第二确定装置根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别。
其中,所述分布状态包括但不限于:1)待分类信息单元出现的次数;2)待分类信息单元出现的频率;3)待分类信息单元所在的已分类短文本信息的类别等。
具体地,第二确定装置分别计算待分类信息单元在一个或多个类别的已分类短文本信息中出现的次数及/或出现的频率,并根据第一预定判断条件,来确定所述待分类信息单元的类别。
例如,第一预定判断条件中规定,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数五倍,或者,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数三倍,并且在包含本次检测及历史检测的所有检测记录中,待分类信息单元在该类别的已分类短文本信息中的出现次数高于在其他类别的已分类短文本信息中的出现次数,则将该待分类信息单元的类别判断为该类别。
则对于待分类信息单元“dnf”,当第二确定装置判断其是否为“游戏”类别的信息单元时,第二确定装置分别在“游戏”类别及非“游戏”类别的已分类短文本信息中计算该信息单元的出现次数,当统计得到信息单元“dnf”在游戏类别的已分类短文本信息中出现的次数为20431次,在非游戏类别的已分类短文本信息中出现的次数为2531次,20431/2531≈8.11,则第二确定装置判断信息单元“dnf”的类别为“游戏”。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定所述第一预定判断条件,例如,选择出现频率最高的类别作为该待分类信息单元的类别等,因此,任何根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别的实现方式,均应包含在本发明的范围内。
子更新装置根据已确定类别的信息单元,来建立或更新所述已分类信息单元库。
具体地,当已分类信息单元库尚未建立,则子更新装置根据已确定类别的信息单元,建立已分类信息单元库;当已分类信息单元库已建立,则子更新装置根据在本次检测中确定类别的信息单元,来更新已分类信息单元库。
作为本发明的一个优选实施例,第二确定装置还根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别及其对应的特征权值。
具体地,第二确定装置分别计算待分类信息单元在一个或多个类别的已分类短文本信息中出现的次数及/或出现的频率,并根据第二预定判断条件,来确定所述待分类信息单元的类别及其特征权值。
例如,第二预定判断条件中规定,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数sc高于在其他类别的已分类短文本信息中的出现次数nc五倍,或者,当待分类信息单元在本次检测中在某一类别的已分类短文本信息中的出现次数sc高于在其他类别的已分类短文本信息中的出现次数nc三倍,并且在包含本次检测及历史检测的所有检测记录中,待分类信息单元在该类别的已分类短文本信息中的出现次数sf高于在其他类别的已分类短文本信息中的出现次数nf,则将该待分类信息单元的类别判断为该类别,并采用来计算该待分类信息单元的特征权值;若不满足上述条件,则同样将待分类信息单元的类别判断为该类别,并采用
Figure BSA00000405010500302
来计算该待分类信息单元的特征权值。
则对于待分类信息单元“dnf”,当第二确定装置判断其是否为“游戏”类别的信息单元时,第二确定装置分别在“游戏”类别及非“游戏”类别的已分类短文本信息中计算该信息单元的出现次数,当统计得到信息单元“dnf”在游戏类别的已分类短文本信息中出现的次数为20431次,在非游戏类别的已分类短文本信息中出现的次数为2531次,20431/2531≈8.11,则判断信息单元“dnf”的类别为“游戏”,并且其
Figure BSA00000405010500303
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定所述第二预定判断条件,例如,选择出现频率最高的类别作为该待分类信息单元的类别,并且特征权值根据
Figure BSA00000405010500304
来获得等,因此,任何根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,来确定所述待分类信息单元的类别及其对应的特征权值的实现方式,均应包含在本发明的范围内。
相应的,子更新装置还用于根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。
作为本发明的优选方案之一,更新装置4还包括第一调整装置(图未示)。第一调整装置根据历史信息单元分类记录,调整所确定的信息单元的类别。其中,该历史信息单元分类记录,可包含在所述已分类信息单元库中,或包含在其他库中。
具体地,第一调整装置根据历史信息单元分类记录,来判断是否需要更改当前所确定的信息单元类别。
例如,若当前所确定的信息单元类别与多次历史信息单元分类记录中的类别相同,则第一调整装置保留当前所确定的信息单元类别。
又例如,若当前所确定的信息单元类别与前N次信息单元分类记录中的类别不同,且该前N次信息单元分类记录中的类别一致,则第一调整装置将当前所确定的信息单元类别更改为前N次信息单元分类记录中的类别。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定调整所确定的信息单元类别的方案,因此,任何根据历史信息单元分类记录,调整所确定的信息单元的类别的方法,均应包含在本发明的范围内。
作为本发明的优选方案之一,短文本处理装置还包括第二调整装置。该第二调整装置根据历史短文本信息分类记录,来调整所确定的短文本信息的类别信息。其中,该历史短文本信息分类记录,可包含在所述已分类短文本信息库中,或包含在其他库中。
具体地,第二调整装置根据历史短文本信息分类记录,来判断是否需要更改当前所确定的短文本信息类别。
例如,若当前所确定的短文本信息类别与多次历史短文本信息分类记录中的类别相同,则第二调整装置保留当前所确定的短文本信息类别。
又例如,若当前所确定的短文本信息类别与前N次短文本信息分类记录中的类别不同,且该前N次短文本信息分类记录中的类别一致,则第二调整装置将当前所确定的短文本信息类别更改为前N次短文本信息分类记录中的类别。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应能够根据各类别的特征来确定调整所确定的短文本信息类别信息的方案,因此,任何根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息的实现方式,均应包含在本发明的范围内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (25)

1.一种计算机实现的用于实时识别短文本类别信息的方法,其中,该方法包括以下步骤:
a获取待分类的短文本信息;
b将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;
c基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。
2.根据权利要求1所述的方法,其中,所述单元相关信息包括以下至少一项:
-信息单元长度;
-信息单元类别;
-信息单元特征权值。
3.根据权利要求2所述的方法,其中,所述第一预定规则包括多个类别筛选规则,其中,所述步骤c包括以下步骤:
-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择类别筛选规则;
-基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。
4.根据权利要求3所述的方法,其中,所述步骤c还包括以下步骤:
-基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,由所述可选类别中选择所述待分类短文本信息的类别信息。
5.根据权利要求3或4所述的方法,其中,所述类别筛选规则参考以下至少一项因素:
-预设的类别判定信息单元;
-所述已分类信息单元的长度;
-根据所述待分类短文本信息所获得的信息单元类别的统计数据。
6.根据权利要求1至5中任一项所述的方法,其中,所述第一预定规则包括多个权值计算规则,所述步骤c包括以下步骤:
-根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则;
-基于所选择的权值计算规则,根据所述一个或多个已分类信息单元对应的信息单元特征权值,获得所述待分类短文本信息的一个或多个类别权值;
-基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤:
A建立或更新所述已分类信息单元库。
8.根据权利要求7所述的方法,其中,所述步骤A包括以下步骤:
A1获取多个已分类的短文本信息及其对应的类别信息;
A2对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元;
A3根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别;
A4根据已确定类别的信息单元,建立或更新所述已分类信息单元库。
9.根据权利要求8所述的方法,其中,所述步骤A3包括以下步骤:
-根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别及其对应的特征权值;
所述步骤A4包括以下步骤:
-根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。
10.根据权利要求8或9所述的方法,其中,所述步骤A1包括以下步骤:
-获取多个已扩展的短文本信息;
-根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息。
11.根据权利要求8至10中任一项所述的方法,其中,所述步骤A还包括以下步骤:
-根据历史信息单元分类记录,调整所确定的信息单元的类别。
12.根据权利要求1至11中任一项所述的方法,其中,该方法还包括以下步骤:
d根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息。
13.一种用于实时识别短文本类别信息的短文本处理装置,其中,该短文本处理装置包括:
第一获取装置、用于获取待分类的短文本信息;
匹配装置、用于将所述待分类短文本信息与已分类信息单元库中的信息单元进行匹配,以获取能够成功匹配的一个或多个已分类信息单元及其所对应的单元相关信息;
分类装置、用于基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,获得所述待分类短文本信息的类别信息。
14.根据权利要求13所述的短文本处理装置,其中,所述单元相关信息包括以下至少一项:
-信息单元长度;
-信息单元类别;
-信息单元特征权值。
15.根据权利要求14所述的短文本处理装置,其中,所述第一预定规则包括多个类别筛选规则,其中,所述分类装置包括:
第一规则选择装置、用于根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择类别筛选规则;
第一处理装置、用于基于所选择的类别筛选规则,根据所述一个或多个已分类信息单元及/或其对应的单元相关信息,直接获得所述待分类短文本信息的类别信息,或者,获得所述待分类短文本信息的可选类别。
16.根据权利要求15所述的短文本处理装置,其中所述分类装置还包括:
第一类别选择装置、用于基于第一预定规则,根据所述能够成功匹配的一个或多个已分类信息单元及其对应的单元相关信息,由所述可选类别中选择所述待分类短文本信息的类别信息。
17.根据权利要求15或16所述的短文本处理装置,其中,所述类别筛选规则参考以下至少一项因素:
-预设的类别判定信息单元;
-所述待分类短文本的长度;
-根据所述待分类短文本信息所获得的信息单元类别的统计数据。
18.根据权利要求13至17中任一项所述的短文本处理装置,其中,所述第一预定规则包括多个权值计算规则,所述分类装置还包括:
第二规则选择装置、用于根据所述一个或多个已分类信息单元对应的信息单元类别,由所述第一预定规则中选择权值计算规则;
第二处理装置、用于基于所选择的权值计算规则,根据所述一个或多个已分类信息单元对应的信息单元特征权值,获得所述待分类短文本信息的一个或多个类别权值;
第一确定装置、用于基于第一预定规则,根据所述类别权值,确定所述待分类短文本信息的类别信息。
19.根据权利要求13至18中任一项所述的短文本处理装置,其中,该设备还包括:
更新装置、用于建立或更新所述已分类信息单元库。
20.根据权利要求19所述的短文本处理装置,其中,所述第一获取装置包括:
第二获取装置、用于获取多个已分类的短文本信息及其对应的类别信息;
切分提取装置、用于对所述多个已分类的短文本信息分别进行切分并提取,获得待分类的信息单元;
第二确定装置、用于根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别;
子更新装置、用于根据已确定类别的信息单元,建立或更新所述已分类信息单元库。
21.根据权利要求20所述的短文本处理装置,其中,所述第二确定装置还用于:
-根据所述待分类信息单元在各类别的已分类短文本信息中的分布状态,确定所述待分类信息单元的类别及其对应的特征权值;
所述子更新装置还用于:
-根据已确定类别及特征权值的信息单元,建立或更新所述已分类信息单元库。
22.根据权利要求20或21所述的短文本处理装置,其中,所述第二获取装置包括:
子获取装置、用于获取多个已扩展的短文本信息;
第三确定装置、用于根据预训练的分类模型,确定所述多个已扩展的短文本信息的类别信息。
23.根据权利要求20至22中任一项所述的短文本处理装置,其中,所述更新装置还包括:
第一调整装置、用于根据历史信息单元分类记录,调整所确定的信息单元的类别。
24.根据权利要求13至23中任一项所述的短文本处理装置,其中,该短文本处理装置还包括:
第二调整装置、用于根据历史短文本信息分类记录,调整所确定的短文本信息的类别信息。
25.一种计算机设备,其中,该计算机设备包括权利要求13至23中至少一项所述的短文本处理装置。
CN 201010616565 2010-12-22 2010-12-22 用于实时识别短文本类别信息的方法、装置及计算机设备 Pending CN102073707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010616565 CN102073707A (zh) 2010-12-22 2010-12-22 用于实时识别短文本类别信息的方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010616565 CN102073707A (zh) 2010-12-22 2010-12-22 用于实时识别短文本类别信息的方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN102073707A true CN102073707A (zh) 2011-05-25

Family

ID=44032246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010616565 Pending CN102073707A (zh) 2010-12-22 2010-12-22 用于实时识别短文本类别信息的方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN102073707A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103823809A (zh) * 2012-11-16 2014-05-28 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN106126711A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 百科词条分类方法及装置
CN107729499A (zh) * 2017-10-20 2018-02-23 网易传媒科技(北京)有限公司 信息处理方法、介质、系统和电子设备
CN108241702A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 文本的分类方法及装置
CN108509482A (zh) * 2018-01-23 2018-09-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN110705928A (zh) * 2019-08-26 2020-01-17 贝壳技术有限公司 数据处理方法、装置、介质以及电子设备
CN110929771A (zh) * 2019-11-15 2020-03-27 北京达佳互联信息技术有限公司 图像样本分类方法及装置、电子设备、可读存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1828937A1 (en) * 2004-12-06 2007-09-05 Yahoo! Inc. Search processing with automatic categorization of queries
CN101533393A (zh) * 2008-03-11 2009-09-16 深圳市乐天科技有限公司 用电子装置对文章句子快速进行的分类及检索方法
CN101770498A (zh) * 2009-01-05 2010-07-07 李铭 分步搜索法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1828937A1 (en) * 2004-12-06 2007-09-05 Yahoo! Inc. Search processing with automatic categorization of queries
CN101533393A (zh) * 2008-03-11 2009-09-16 深圳市乐天科技有限公司 用电子装置对文章句子快速进行的分类及检索方法
CN101770498A (zh) * 2009-01-05 2010-07-07 李铭 分步搜索法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271518A (zh) * 2012-04-28 2019-01-25 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN109271518B (zh) * 2012-04-28 2021-12-07 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103377258B (zh) * 2012-04-28 2018-11-02 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103823809A (zh) * 2012-11-16 2014-05-28 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN103823809B (zh) * 2012-11-16 2018-06-08 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN106126711A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 百科词条分类方法及装置
CN108241702A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 文本的分类方法及装置
CN107729499A (zh) * 2017-10-20 2018-02-23 网易传媒科技(北京)有限公司 信息处理方法、介质、系统和电子设备
CN108509482B (zh) * 2018-01-23 2020-12-08 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108509482A (zh) * 2018-01-23 2018-09-07 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN110705928A (zh) * 2019-08-26 2020-01-17 贝壳技术有限公司 数据处理方法、装置、介质以及电子设备
CN110705928B (zh) * 2019-08-26 2022-11-08 贝壳技术有限公司 数据处理方法、装置、介质以及电子设备
CN110929771A (zh) * 2019-11-15 2020-03-27 北京达佳互联信息技术有限公司 图像样本分类方法及装置、电子设备、可读存储介质
CN110929771B (zh) * 2019-11-15 2020-11-20 北京达佳互联信息技术有限公司 图像样本分类方法及装置、电子设备、可读存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN102073707A (zh) 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN103106365B (zh) 一种移动终端上的恶意应用软件的检测方法
CN102541958A (zh) 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102346829A (zh) 基于集成分类的病毒检测方法
CN107870945B (zh) 内容分级方法和装置
CN103500405A (zh) 用于对目标终端标称型号进行鉴别的方法及其设备
CN105824825B (zh) 一种敏感数据识别方法和装置
CN102170640A (zh) 基于模式库的智能手机端不良内容网站鉴别方法
CN110704811A (zh) 图片侵权检测方法及装置、存储介质
CN106803039B (zh) 一种恶意文件的同源判定方法及装置
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN104951553B (zh) 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN104462284A (zh) 判定网页质量的方法及系统
CN102999538A (zh) 人物搜索方法和设备
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN107077617B (zh) 指纹提取方法及装置
CN105119910A (zh) 基于模板的在线社交网络垃圾信息实时检测方法
CN112667814A (zh) 热词的发现方法及系统
KR20170048736A (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN110196805A (zh) 数据处理方法、装置、存储介质和电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110525