CN106095972B - 一种信息分类方法及装置 - Google Patents
一种信息分类方法及装置 Download PDFInfo
- Publication number
- CN106095972B CN106095972B CN201610440565.0A CN201610440565A CN106095972B CN 106095972 B CN106095972 B CN 106095972B CN 201610440565 A CN201610440565 A CN 201610440565A CN 106095972 B CN106095972 B CN 106095972B
- Authority
- CN
- China
- Prior art keywords
- feature
- characteristic
- word segmentation
- target text
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息分类方法及装置,涉及信息分类领域,所述方法包括:根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;根据所述特征码中的特征对象确定所述目标文本的类别属性。通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
Description
技术领域
本发明涉信息分类领域,尤其涉及一种信息分类方法及装置。
背景技术
伴随信息技术的飞速发展,特别是移动通信技术和计算机互联网技术飞速发展,移动通信网络已经发生了革命性的变革。信息中蕴含着巨大的信息内容和价值,面对信息的数据量增长等问题,人们提出了对信息进行分类的需求,以便对分类后的信息或与信息相对应的对象进行处理和分析。
现有技术中,对信息的分类方法主要是更具人工定义好特定的短信模版,然后建立正则表达式处理,结构化出所需数据项,并对模版进行数据集的分类。具体来说,对信息的分类方法主要有两种,一种是根据关键词进行判断,即首先人工的对所有信息进行归类,然后在对每类信息提取特定的关键词作为入此数据集的标识。但是上述方法中,不同数据集的信息有可能都会匹配到同一个或一组关键词,造成分类不准确。
另一种方法是对每个信息定义正则表达式,并对每一条正则表达式定义数据集。即为每一个信息都进行一次分类,但是上述方法中,需要对每一个信息定义正则表达式,随着信息量的不断增加,工作量激增,分类的效率不高。
总体来说,现有技术中的对信息的分类方法,分类的精度低,效率不高。
发明内容
本发明提供一种信息分类方法及装置,用于解决现有技术中的对信息的分类方法,分类的精度低,效率不高的问题。
本发明实施例提供一种信息分类方法,所述方法包括:
根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;
确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;
根据所述特征码中的特征对象确定所述目标文本的类别属性。
本发明实施例中,根据目标文本的分词结果中的特征词确定分词结果对应的特征序列,并根据特征序列匹配特征对象,根据确定的特征对象确定目标文本的类别属性,在本发明实施例中,通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
进一步地,所述根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列,包括:
根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码。
本发明实施例中,确定分词结果中的特征词并将所述特征词用特征码来表示,能够有效的对目标文本进行初步分类,提高目标文本分类的准确度。
进一步地,所述根据所述分词结果中的特征标记确定所述分词结果对应的特征序列,包括:
根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成所述特征序列。
本发明实施例中,根据特征词将目标文本的分词结果转化为特征序列,再将特征序列进行分类能够有效的提高分类的准确度。
进一步地,所述根据所述特征码中的特征对象确定所述目标文本的类别属性,包括:
根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属性。
本发明实施例中,根据特征码中特征对象的属性对应的类别属性确定为目标文本的类别属性,提高了目标文本分类的准确性。
进一步地,所述目标文本按照下列步骤进行分词:
根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。
本发明实施例中,不需要词典库和语料库可以正确对目标文本进行分词,提高了分词的精度并提高了对目标文本分词的速度,继而可以提高目标文本分类的准确性。
本发明还提供一种信息分类装置,包括:
特征序列确定单元,用于根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;
特征对象确定单元,用于确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;
类别属性确定单元,用于根据所述特征码中的特征对象确定所述目标文本的类别属性。
本发明实施例中,根据目标文本的分词结果中的特征词确定分词结果对应的特征序列,并根据特征序列匹配特征对象,根据确定的特征对象确定目标文本的类别属性,在本发明实施例中,通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
进一步地,所述特征序列确定单元,具体用于:
根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码。
进一步地,所述特征序列确定单元,具体用于:
根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成所述特征序列。
进一步地,所述类别属性确定单元,具体用于:
根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属性。
进一步地,所述装置还包括:
分词单元,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供一种信息分类方法的流程图;
图2为本发明实施例提供的另一种金融服务信息分类方法的流程图;
图3为本发明实施例提供一种信息分类装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种信息分类方法,如图1所示,包括:
步骤101,根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;
步骤102,确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;
步骤103,根据所述特征码中的特征对象确定所述目标文本的类别属性。
在本发明实施例中,需要进行分词的目标文本指的是由文字、数字、英文等字符构成的文本,可以为在通讯过程中产生的短信,可选的,在本发明实施例中,需要进行分词的目标文本为金融服务短信,即银行或者其它金融机构向用户发送的服务短信。
在本发明实施例中,首先需要将目标文本进行分词,然后根据目标文本的分词结果,再对目标文本进行分类。在本发明实施例中,对目标文本的分词可以使用字符匹配法、统计法或者是理解法进行分词,可选的,在本发明实施例中,使用的分词方法为:
根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。
在本发明实施例中,需要进行分词的目标文本可以是移动终端中保存的目标文本,也可以是移动终端将自身保存的目标文本发送给服务器后,服务器中保存的多个移动终端中的目标文本。
可选的,在本发明实施例中,还可以获取一定时间段内移动终端保存的,或者是服务器中保存的目标文本。
例如,在本发明实施例中,需要获取的发送时间在2016年5月的所有目标文本,则在终端保存的所有目标文本中查找发送时间为2016年5月1日00:00:00至发送时间为2016年5月31日24:00:00的目标文本。当然在本发明实施例中,也可以在服务器保存的所有目标文本中查找发送时间为2016年5月1日00:00:00至发送时间为2016年5月31日24:00:00的目标文本。
在获取到需要进行分词的目标文本后,需要删除目标文本中的标点,以保证分词结果的正确性,例如,在本发明实施例中,获取了100个需要进行分词的目标文本,其中,100个目标文本中的一个目标文本的内容为:
尊敬的张三,您好,您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功:分期金额USD111.11,分期期数11期,手续费USD1.11,USD账户账单剩余还款金额USD111.11,最小还款额USD11.11。【中国银行】
删除上述文本中的标点符号,删除掉上述标点符号的目标文本变为:
尊敬的张三您好您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功分期金额USD111.11分期期数11期手续费USD1.11,USD账户账单剩余还款金额USD111.11最小还款额USD11.11中国银行
可选的,为了在删除标点符号的目标文本中标识出原标点符号的位置,在本发明实施例中,可以在原标点符号的位置上加入切分标记。在本发明实施例中,切分标记可以为数字、字母和ASCII字符,可选的,可以使用“\”标记作为切分标记。
则在本发明上述实施例中删除标点符号后的目标文本中加入“\”标记,加入标记后的目标文本为:
尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功\分期金额USD111.11\分期期数11期\手续费USD1.11,USD账户账单剩余还款金额USD111.11\最小还款额USD11.11\中国银行\
在删除目标文本中的标点符号并在原标点符号的位置上加入切分标记后,需要确定所述目标文本中的特征信息,在本发明实施例中,特征信息指的是区分目标文本中不同属性的字符串,例如目标文本中包括三种不同属性的字符串,分别为数字、英文以及汉字,则特征信息就是数字、英文以及汉字。
在本发明实施例中,若目标文本为金融服务短信,则在短信文本中可能会存在时间的特征,例如X年X月X日X时X分等,若在短信文本中可以按照时间特征的模版查找到对应的数字,则认为在短信文本中这些特征属于时间特征而不是属于数字特征。
在本发明实施例中,若目标文本为金融服务短信,则在短信文本中可能会存在金额特征信息,在本发明实施例中,金额为表示数值的数字,为了与数字特征信息进行区分,一般来说,金额中有小数点的信息,所以在本发明实施例中,在确定目标文本中的数字部分有小数点存在时,则认为该数字部分属于金额特征信息。
在本发明实施例中,若在本发明实施例中,删除标点符号的目标文本中加入“\”标记后的目标文本为:
尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功\分期金额USD111.11\分期期数11期\手续费USD1.11\USD账户账单剩余还款金额USD111.11\最小还款额USD11.11\中国银行\
若特征信息包括汉字、英文、数字、时间以及金额,则根据特征信息能够确定上述目标文本中的汉字特征信息为:尊敬的张三\您好\您在我行的中行信用卡,的,账户于,时账单分期成功\分期金额,分期期数,期,手续费,账户账单剩余还款金额,最小还款额,中国银行;
根据特征信息确定的上述目标文本中的英文特征信息为:USD,USD,USD,USD,USD,USD;
根据特征信息确定的上述目标文本中的数字特征信息为:1234,11;
根据特征信息确定的上述目标文本中的金额特征信息为:111.11,11,1.11,111.11,11.11;
根据特征信息确定的上述目标文本中的时间特征信息为:03月08日12时。
可选的,在确定了目标文本中的特征信息后,在不同的特征信息之间也需要插入切分标记,目标文本中根据插入的切分标记自然的分成若干个字符串,便于确定目标文本的特征序列,在本发明实施例中,在目标文本中的不同信息之间插入切分标记具体如下所示:
尊敬的张三\您好\您在我行的中行信用卡\1234\的\USD\账户于\03月08日12时\账单分期成功\分期金额\USD\111.11\分期期数\11\期\手续费\USD\1.11\USD\账户账单剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\
在本发明实施例中,可以根据不同的特征信息与不同的表征特征信息的特征标识之间的对应关系,对上述实施例中的特征信息利用特征标识进行特征标记,可选的,在本发明实施例中,可以使用不同的字母代表不同的特征信息。
在本发明上述实施例中,确定了目标文本的特征码序列即确定了目标文本的初步分词文本,但是在初步分词文本中,还存在着一些不能通过上述方法分词的字符串,例如字符串“尊敬的张三”,或者是字符串“您在我行的中行信用卡”等,在本发明实施例中,还需要确定初步分词文本中的特定字符,根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果。
在本发明实施例中,特定字符可以根据不同的分词需要自行定义,例如,需要对金融短信进行分词,则特定字符一般可以包括“行”、“账单”、“成功”等特定字符。
在本发明实施例中,在对初步分词文本中的特定字符的的前和/或后的位置上加入切分标记前,还需要在初步分词文本中去掉无实际意义的词语,提高分词的准确性。在本发明实施例中,可选的,可以去掉初步分词文本中存在的“的”等词语,并且在删除“的”的位置上插入切分标记,例如在本发明实施例中,将字符串“尊敬的张三”“您在我行的中行信用卡”中的“的”删除,并在“的”的位置上插入切分标记,结果为“尊敬\张三”“您在我行\中行信用卡”。
在本发明上述实施例中,在确定了将初步分词文本中的无实际意义的词语删除后,再确定初步分词文本中包含的特定字符,以上述实施例为例,上述初步分词文本中存在的特定字符为“在”,“分期”,“分期金额”,“账户”,可选的,在“分期”的特定字符的前和后都加入切分标记,其它特定字符的后面加入切分标记,则根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果为:
尊敬\张三\您好\您在\我行\中行信用卡\1234\USD\账户\于\03月08日12时\账单\分期\成功\分期金额\USD\111.11\分期期数\11\期\手续费\USD\1.11\USD\账户\账单\剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\
在确定了目标文本的分词结果后,需要确定分词结果中的特征词,在本发明实施例中,特征词指的是能够表示在信息中存在的不变词汇以及可变词汇,以金融信息为例,在金融信息中,姓名、卡号、卡名称、金额、时间、币种、期数等词语是可变信息,例如姓名为张三或者姓名为李四,张三的卡号为123456以及张三的另一张银行卡的卡号为234567;同样的,在金融信息中,对金融的处理行为,例如分期,还款等词语为不变词汇。在本发明实施例中,特征词就包括了可变词汇以及不变词汇。
以上述实施例中的分词结果为例,确定上述分词结果中的特征词,上述分词结果中,卡的种类“中行信息用卡”、“1234”的卡号、币种“USD”、分期时间“03月08日12时”、分期金额“111.11”、分期数“11”、手续费“1.11”、剩余还款金额“111.11”、最小还款金额“11.11”等为可变词汇,而“分期金额”、“分期期数”、“手续费”、“最小还款额”等为不变词汇,根据目标文本的分词结果中的特征词与特征码的对应关系,确定目标文本的分词结果中的特征码。
在本发明实施例中,特征词与特征码之间存在着对应关系,如表1所示,在本发明实施例中,分词时使用的特征标记与下文中的特征码可以相同,也可以不同,在本发明实施例中,为了表示对金融操作行为是否成功的状态,将“成功”或者“失败”等词语也认为是可变词语,在表1中标识:
表1:特征词与特征码的对应关系表
根据上述对应表,能够确定目标文本中特征词对应的特征码,并且按照特征词的顺序能够确定特征码序列为:NCXYDSEYAPBYAYRYAQYA。在本发明实施例中,每一个目标文本都对应一个唯一的特征码序列。
当然,在本发明实施例中,特征词还可以包括其它的特征词,例如支出,消费,理财等词语,为了方便特征词的管理,在本发明实施例中,还可以对特征词进行分类,例如代表交易行为的特征标记有:支出、消费、转账、扣缴、存入、收入、汇入等;代表交易渠道的特征标记有:网银、柜台、atm、pos、营业网点、银行端、客户端等;代表交易目的的特征标记有:取现、电费、理财、股票、等;代表贷款类型的特征标记有:个人经营贷款、一手住房贷款、汽车贷款等;代表贷款状态的特征标记有:已放款、已结清等;代表金额的特征标记有:剩余额度、可用余额、手续费、账单金额、余额、等等。在本发明实施例中只给出了一部分特征词,其它类型的特征词也属于本发明的保护范围内。
在步骤102中,在确定目标文本对应的特征码序列后,根据目标文本的特征码序列在自定义的公共对象库中进行匹配。
在本发明实施例中,自定义的公共对象库中包含所有目标信息中可提取的特征对象,例如自定义的公共对象库中包括的特征对象有分期金额、还款金额,剩余还款金额等。在本发明实施例中,自定义的公共对象库可以是一个宽表,表中包括了所有特征对象,例如如表2所示:
表2:特征对象表
可选的,在本发明实施例中,还可以将特征对象的特征码保存在表2中,利用特征对象的特征码与特征序列进行匹配。
例如,在本发明实施例中,目标文本的特征序列为NCXYDSEYAPBYAYRYAQYA,则将特征序列与自定义的公共对象库中的特征对象进行匹配,匹配的结果为与特征对象“分期金额”,然后查询“分期期数”与“分期金额”的值是否为空,在本方实施例中,分期期数的值为P,即等于11,分期金额的值为A,等于111.11,则认为本发明实施例中的目标文本的分类是属于分期的,因为具有两个分期类别属性的特征对象与特征序列匹配成功,并且两个特征对象的值都不为空。
在本发明实施例中,若匹配成功的特征对象是“账单结欠”、“最小还款金额”,并且匹配成功的特征对象的值都不为空值,则认为目标文本的分类属于账单类。
或者,在本发明实施例中,若匹配成功的特征对象是“快捷支付”或者是“POS存入”等特征对象,并且匹配成功的特征对象的值都不为空值,则认为目标文本的分类属于账动类。
在本发明上述实施例中,所述特征对象表还可以是特征词以及可变词汇转义后形成的常量,比如可以首先定义下列特征词的分类为输出分类以及输入分类,并且为输出分类中的每个输出的不同的特征词赋予不同的数字,0.支出 1.消费 2.转出 3.取款 4.缴费5.代付 6.代发 7.转理财,同理可以为输入分类中的每个输入的不同的特征词赋予不同的数字0.存入 1.收入 2.转入 3.撤销 4.购汇 5.代存 6.缴交 7.定期转活期。
在本发明实施例中,当确定了目标文本对应的特征码后,可以将特征码中的每个特征进行转义,并根据转义后的特征码在特征对象库中匹配,例如,在特征对象库中确定了特征对象为账单金额、剩余应还金额以及还款日,目标文本中的金额部分也对应了特征对象中的账单具体金额、剩余应还具体金额、以及还款日期,即,在特征对象库中,目标文本中可变部分也对应了不同的特征对象,则查找特征对象对应的值是否为空可以使用下列语句:
if((this.bill.length()>0||this.leftAmt.length()>0||this.repayDay.length()>0)
上述语句表面逻辑为账单金额不为空、剩余应还金额不为空、还款日不为空,则可以确定目标文本的分类规则为还款类型。
当然,在本发明实施例中,还有很多种匹配结果,在此不做赘述。
为了更加详细的说明本发明实施例,在此举例说明。
如图2所示,本发明实施例提供一种信息分类方法,具体步骤如下所示:
步骤201,获取需要进行分词的目标文本,在本发明实施例中,获取的需要进行分词的目标文本为保存在任一终端中的目标文本,并且所述目标文本为金融服务信息;
步骤202,对获取的目标文本进行分词,即对获取的金融服务信息进行分词;
步骤203,确定金融服务信息中的特征词;
步骤204,确定金融服务信息中的特征词对应的特征码,并确定金融服务信息对应的特征序列;
步骤205,将特征序列与公共对象库中的特征对象进行匹配;
步骤206,确定匹配成功的特征对象,并确定匹配成功的特征对象的值不为空;
步骤207,根据特征对象的类别确定金融服务信息的类别。
基于相同的发明构思,本发明实施例还提供一种信息分类装置,该装置可以执行上述方法。
基于同样的构思,本发明还提供一种信息分类装置,如图3所示,包括:
特征序列确定单元301,用于根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;
特征对象确定单元302,用于确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;
类别属性确定单元303,用于根据所述特征码中的特征对象确定所述目标文本的类别属性。
进一步地,所述特征序列确定单元301,具体用于:
根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码。
进一步地,所述特征序列确定单元301,具体用于:
根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成所述特征序列。
进一步地,所述类别属性确定单元303,具体用于:
根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属性。
进一步地,所述装置还包括:
分词单元304,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种信息分类方法,其特征在于,所述方法包括:
根据目标文本中的特征信息,确定所述目标文本对应的初步分词文本,进而根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;所述目标文本由特征词构成,所述特征信息包括汉字、英文、数字、时间以及金额;
根据目标文本的分词结果中的特征词,按照特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码;所述特征词指的是能够表示在信息中存在的不变词汇以及可变词汇;根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成所述分词结果对应的特征序列;
确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象,并将所述匹配成功的特征对象中值不为空的特征对象确定为所述特征序列的特征对象,根据所述特征序列的特征对象确定所述目标文本的类别属性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征序列的特征对象确定所述目标文本的类别属性,包括:
根据所述特征序列中特征对象的属性,确定所述特征序列对应的类别属性;
将所述特征序列对应的类别属性确定为所述特征序列对应的所述目标文本的类型属性。
3.一种信息分类装置,其特征在于,包括:
分词单元,用于根据目标文本中的特征信息,确定所述目标文本对应的初步分词文本;根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;所述目标文本由特征词构成,所述特征信息包括汉字、英文、数字、时间以及金额;
特征序列确定单元,用于根据目标文本的分词结果中的特征词,按照特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码;所述特征词指的是能够表示在信息中存在的不变词汇以及可变词汇;根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成所述分词结果对应的特征序列;
特征对象确定单元,用于确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象,并将所述匹配成功的特征对象中值不为空的特征对象确定为所述特征序列的特征对象;
类别属性确定单元,用于根据所述特征序列中的特征对象确定所述目标文本的类别属性。
4.根据权利要求3所述的装置,其特征在于,所述类别属性确定单元,具体用于:
根据所述特征序列中特征对象的属性,确定所述特征序列对应的类别属性;
将所述特征序列对应的类别属性确定为所述特征序列对应的所述目标文本的类型属性。
5.一种计算设备,其特征在于,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1或2所述的方法。
6.一种计算机可读存储介质,其特征在于,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610440565.0A CN106095972B (zh) | 2016-06-17 | 2016-06-17 | 一种信息分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610440565.0A CN106095972B (zh) | 2016-06-17 | 2016-06-17 | 一种信息分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095972A CN106095972A (zh) | 2016-11-09 |
CN106095972B true CN106095972B (zh) | 2020-06-19 |
Family
ID=57237030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610440565.0A Active CN106095972B (zh) | 2016-06-17 | 2016-06-17 | 一种信息分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095972B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335110B (zh) * | 2017-01-17 | 2022-04-12 | 阿里巴巴集团控股有限公司 | 聊天信息处理方法及装置 |
CN107423140B (zh) * | 2017-06-19 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种返回码识别方法和装置 |
CN109189928B (zh) * | 2018-08-30 | 2022-05-17 | 天津做票君机器人科技有限公司 | 一种汇票交易机器人的授信信息识别方法 |
CN110197214A (zh) * | 2019-05-22 | 2019-09-03 | 浙江大学 | 一种基于多字段相似度计算的患者身份匹配方法 |
CN110851598B (zh) * | 2019-10-30 | 2023-04-07 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111753525B (zh) * | 2020-05-21 | 2023-11-10 | 浙江口碑网络技术有限公司 | 文本分类方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN104391881A (zh) * | 2014-10-30 | 2015-03-04 | 杭州安恒信息技术有限公司 | 一种基于分词算法的日志解析方法及系统 |
CN104933084A (zh) * | 2015-05-04 | 2015-09-23 | 上海智臻网络科技有限公司 | 一种用于获得答案信息的方法、装置和设备 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9355099B2 (en) * | 2012-12-01 | 2016-05-31 | Althea Systems and Software Private Limited | System and method for detecting explicit multimedia content |
US9424524B2 (en) * | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
-
2016
- 2016-06-17 CN CN201610440565.0A patent/CN106095972B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN104391881A (zh) * | 2014-10-30 | 2015-03-04 | 杭州安恒信息技术有限公司 | 一种基于分词算法的日志解析方法及系统 |
CN104933084A (zh) * | 2015-05-04 | 2015-09-23 | 上海智臻网络科技有限公司 | 一种用于获得答案信息的方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106095972A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN112801498B (zh) | 风险识别模型的训练方法、风险识别方法、装置及设备 | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN113297283A (zh) | 用于企业风险预警的舆情分析方法及系统 | |
CN110428322A (zh) | 一种业务数据的适配方法及装置 | |
CN106776897B (zh) | 一种用户画像标签确定方法及装置 | |
US9875486B2 (en) | Extracting product purchase information from electronic messages | |
CN113093958B (zh) | 数据处理方法、装置和服务器 | |
CN106651232B (zh) | 运单号数据分析方法及装置 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN114998920B (zh) | 基于nlp语义识别的供应链金融文件管理方法及系统 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN114626731A (zh) | 风险识别方法、装置、电子设备及计算机可读存储介质 | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN114092948B (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN109766552B (zh) | 一种基于公告信息的指代消解方法及装置 | |
CN109918639B (zh) | 一种基于深度学习技术和规则库的银行授信文本解析方法 | |
WO2016064679A1 (en) | Extracting product purchase information from electronic messages | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN113850643A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN117009529A (zh) | 一种swift报文智能分类方法、装置、设备及存储介质 | |
CN107633006B (zh) | 一种词典格式生成方法及电子设备 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |