CN105373808B - 信息处理方法及装置 - Google Patents
信息处理方法及装置 Download PDFInfo
- Publication number
- CN105373808B CN105373808B CN201510714125.5A CN201510714125A CN105373808B CN 105373808 B CN105373808 B CN 105373808B CN 201510714125 A CN201510714125 A CN 201510714125A CN 105373808 B CN105373808 B CN 105373808B
- Authority
- CN
- China
- Prior art keywords
- text information
- information
- subordinate sentence
- set text
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本公开是关于一种信息处理方法及装置。该方法包括:获取用户接收到的预设文本信息;根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。该技术方案能够准确地提取出文本信息的特征属性信息,从而使特定类型的文本信息的识别更加准确。
Description
技术领域
本公开涉及通讯技术领域,尤其涉及信息处理方法及装置。
背景技术
随着短信发送手段的丰富,短信应用范围不断扩大,用户接收的短信越来越多,其中,许多短信中携带有十分重要的信息,尤其是通知类短信,且这类短信一般含有较多信息。用户往往会由于一些原因而忘记通知类短信所通知的事件,因此依照短信类型对短信中携带的信息进行处理尤为重要。
发明内容
本公开实施例提供一种信息处理方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种信息处理方法,包括:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
上述技术方案,能够通过对预设文本信息进行分割,并对分割成的分句进行分析处理,得到预设文本信息的分类属性信息,从而根据朴素贝叶斯模型确认预设文本信息的类型,使得对预设文本信息分类的效果更加准确,尤其是对文本内容短、信息密集的文本信息而言,该技术方案能够准确地提取出文本信息的特征属性信息,从而使特定类型的文本信息的识别更加准确。
在一个实施例中,所述根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句,包括:
根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
该实施例中,通过预设标点符号集将预设文本信息分割为多个分句,使得预设文本信息的分割更加准确,从而能够准确地从分句中提取特征属性信息,进而准确识别出预设文本信息的类型。
在一个实施例中,所述对所述第一分句进行处理,得到所述预设文本信息的分类属性信息,包括:
对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
根据所述特征属性信息对所述第一分句进行处理,得到第二分句;
对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
该实施例中,通过提取第一分句中的特征属性信息,并根据特征属性信息对第一分句进行处理以及进一步地识别,使得预设文本信息的分类属性信息的获取更加准确,从而使对预设文本信息的类型的确认不再仅仅依赖于关键词,提高了对预设文本信息分类的准确度。
在一个实施例中,所述对所述第一分句进行分析,提取出所述第一分句中的特征属性信息,包括:
筛选出第一子分句,所述第一子分句中包括特征属性信息;
从所述第一子分句中提取出所述特征属性信息;
相应的,所述根据所述特征属性信息对所述第一分句进行处理,得到第二分句,包括:
用所述特征属性信息替换所述第一子分句,得到第二分句。
该实施例能够准确地将分句中的特征属性信息提取出来,从而根据分句准确地是被预设文本信息的类型。
在一个实施例中,所述对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
该实施例中,通过决策树分类模型对分割后的分句进行分类识别,从而能够准确方便地确定出预设文本信息的分类属性信息。
在一个实施例中,所述第二分句中包括属性值;所述决策树分类模型中包括分类属性和属性值之间的对应关系;所述根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;
根据所述分类属性,确定所述预设文本信息的分类属性信息。
该实施例中,通过决策树分类模型对分割后的分句进行分类识别,能够准确确定出分句中包括的属性值对应的分类属性,从而能够准确方便地确定出预设文本信息的分类属性信息。
在一个实施例中,所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;所述根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息,包括:
根据朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;
根据所述每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
当所述概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
该实施例中,通过朴素贝叶斯模型来确定预设文本信息的类型,从而能够准确判断出包含分类属性的预设文本信息是否为预设类型的文本信息,使得文本信息的分类更加准确。
在一个实施例中,所述特征属性信息中包括时间属性信息;所述确认所述预设文本信息为预设类型的文本信息之后,所述方法还包括:
根据所述时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
根据所述提醒事项对所述预设文本信息进行提醒。
该实施例中,通过在预设应用程序中建立预设文本信息的提醒事项,并基于时间属性信息对预设文本信息进行提醒,实现了针对特定类型的文本信息为用户自动建立提醒事项的效果。
在一个实施例中,所述在预设应用程序中建立所述预设文本信息的提醒事项,包括:
生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述预设文本信息的提醒事项;
当接收到用户对所述提醒信息的确定操作时,在预设应用程序中建立所述预设文本信息的提醒事项。
该实施例中,能够对于特定类型的文本信息提醒用户建立提醒事项,并在用户确定时能够自动建立文本信息的提醒事项,使得用户无需手动建立提醒事项,为用户带来方便。
在一个实施例中,所述预设类型的文本信息为团购短信;所述时间属性信息为有效期;所述特征属性信息还包括金额、折扣中的至少一种信息;
所述在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息,包括:
在日历中建立所述团购短信的提醒事项,所述提醒事项中包括所述有效期;相应的,所述根据所述提醒事项对所述预设文本信息进行提醒,包括:
在所述有效期之前,对所述团购短信进行提醒。
该实施例中,通过在有效期之前对团购短信进行提醒,实现了从团购短信中准确地识别出包含有效期的重要信息,并能够及时提醒用户,为用户带来方便。
根据本公开实施例的第二方面,提供一种信息处理装置,包括:
获取模块,用于获取用户接收到的预设文本信息;
分割模块,用于根据预设规则对所述获取模块获取的预设文本信息进行分割,得到所述预设文本信息的第一分句;
处理模块,用于对所述分割模块分割得到的第一分句进行处理,得到所述预设文本信息的分类属性信息;
确认模块,用于根据朴素贝叶斯模型对所述处理模块处理得到的分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。
在一个实施例中,所述分割模块包括:
分割子模块,用于根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
在一个实施例中,所述处理模块包括:
提取子模块,用于对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
处理子模块,用于根据所述提取子模块提取的特征属性信息对所述第一分句进行处理,得到第二分句;
分类识别子模块,用于对所述处理子模块处理得到的第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
在一个实施例中,所述提取子模块,用于筛选出第一子分句,所述第一子分句中包括特征属性信息;从所述第一子分句中提取出所述特征属性信息;
所述处理子模块,用于用所述特征属性信息替换所述第一子分句,得到第二分句。
在一个实施例中,所述分类识别子模块,用于根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
在一个实施例中,所述分类识别子模块,还用于当所述第二分句中包括属性值、所述决策树分类模型中包括分类属性和属性值之间的对应关系时,根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;根据所述分类属性,确定所述预设文本信息的分类属性信息。
在一个实施例中,所述确认模块包括:
识别子模块,用于根据所述朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;
计算子模块,用于根据所述识别子模块识别到的每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
确定子模块,用于当所述计算子模块计算的概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
在一个实施例中,所述装置还包括:
建立模块,用于在所述确认模块确认所述预设文本信息为预设类型的文本信息之后,根据所述特征属性信息中包括的时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
提醒模块,用于根据所述建立模块建立的提醒事项对所述预设文本信息进行提醒。
在一个实施例中,所述建立模块包括:
生成子模块,用于生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述预设文本信息的提醒事项;
第一建立子模块,用于当接收到用户对所述生成子模块输出的提醒信息的确定操作时,在预设应用程序中建立所述预设文本信息的提醒事项。
在一个实施例中,所述建立模块包括:
第二建立子模块,用于当所述预设类型的文本信息为团购短信、所述时间属性信息为有效期、所述特征属性信息还包括金额、折扣中的至少一种信息时,在日历中建立所述团购短信的提醒事项,所述提醒事项中包括所述有效期;
所述提醒模块包括:
提醒子模块,用于在所述有效期之前,对所述团购短信进行提醒。
根据本公开实施例的第三方面,提供一种信息处理装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息处理方法的流程图。
图1(a)是根据一示例性实施例示出的一种信息处理方法中步骤S13的流程图。
图2是根据一示例性实施例示出的一种信息处理方法中步骤S133的流程图。
图3是根据一示例性实施例示出的一种信息处理方法中步骤S14的流程图。
图4是根据一示例性实施例示出的一种信息处理方法的流程图。
图5是根据一示例性实施例示出的一种信息处理方法的流程图。
图6是根据一示例性实施例示出的一种信息处理方法的流程图。
图7是根据一示例性实施例示出的一种信息处理装置的框图。
图8是根据一示例性实施例示出的一种信息处理装置中处理模块的框图。
图9是根据一示例性实施例示出的一种信息处理装置中分割模块的框图。
图10是根据一示例性实施例示出的一种信息处理装置中确认模块的框图。
图11是根据一示例性实施例示出的一种信息处理装置的框图。
图12是根据一示例性实施例示出的一种信息处理装置中建立模块的框图。
图13是根据一示例性实施例示出的一种信息处理装置中建立模块的框图。
图14是根据一示例性实施例示出的一种适用于信息处理的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供的下述方法中,所涉及的预设文本信息可以是任意来源的文本信息,例如短信、即时通讯软件中的即时消息等。
图1是根据一示例性实施例示出的一种信息处理方法的流程图,该信息处理方法用于终端中,其中,终端可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。如图1所示,该方法包括以下步骤S11-S14。
在步骤S11中,获取用户接收到的预设文本信息。
在步骤S12中,根据预设规则对预设文本信息进行分割,得到预设文本信息的第一分句。
在一个实施例中,该步骤可实施为:根据预设标点符号集对预设文本信息进行分割,获得第一分句,其中,第一分句至少包括两个子分句。以短信为例,假设预设标点符号集中包括双引号““””和顿号“、”,则可使用预设标点符号集中的双引号““””和顿号“、”将短信“【XX点评】A家火锅:代金券:5219180842,1631660630,1-1至6-30有效”分割为以下多个第一分句:“XX点评”、“A家火锅”、“代金券”、“5219180842”、“1631660630”、“1-1至6-30有效”。
在步骤S13中,对第一分句进行处理,得到预设文本信息的分类属性信息。
在一个实施例中,如图1(a)所示,步骤S13可实施为以下步骤S131-S133。
在步骤S131中,对第一分句进行分析,提取出第一分句中的特征属性信息。
该步骤中,不一定所有的第一分句中都包含特征属性信息,因此,将包含特征属性信息的第一分句定义为第一子分句,该步骤则可执行为:筛选出第一子分句,第一子分句中包括特征属性信息;从第一子分句中提取出特征属性信息。
其中,特征属性信息可预先设定,例如可以设定为时间属性信息,上述例子中的第一子分句“1-1至6-30有效”中的“1-1”和“6-30”属于时间属性信息。第一子分句中的时间属性信息可以是数字形式,例如“2015-1-1”;也可以是文字形式,例如“国庆节”、“中秋节”、“2015年1月”等。此外,可根据时间属性信息前后的关键字(如“至”、“到”等)将时间属性信息转换为特定格式的信息,例如,将时间属性信息“1-1”和“6-30”转换为[1-1,6-30]。特征属性信息还可以设定为金额信息或折扣信息等,其中,金额信息和折扣信息的提取可依据短信中的数字前后是否包含标识金额、折扣的文字或符号,举例来说,提取金额信息时可根据短信中的数字后面是否有“元”、或者数字前面有“价格”、“$”等进行提取,提取折扣信息时可根据短信中的数字后面是否有“折”来进行提取。
在步骤S132中,根据特征属性信息对第一分句进行处理,得到第二分句。
对应于步骤S131的执行方法,当提取出第一子分句中的特征属性信息之后,该步骤S132还可执行为:用特征属性信息替换第一子分句,得到第二分句。仍以上述短信为例,用“1-1”和“6-30”替换“1-1至6-30有效”,则得到第二分句“XX点评”、“A家火锅”、“代金券”、“5219180842”、“1631660630”、“1-1”、“6-30”。
在步骤S133中,对第二分句进行分类识别,得到预设文本信息的分类属性信息。
在步骤S14中,根据朴素贝叶斯模型对分类属性信息进行识别,确认预设文本信息为预设类型的文本信息。
采用本公开实施例提供的技术方案,能够通过对预设文本信息进行分割,并对分割成的分句进行分析处理,得到预设文本信息的分类属性信息,从而根据朴素贝叶斯模型确认预设文本信息的类型,使得对预设文本信息分类的效果更加准确,尤其是对文本内容短、信息密集的文本信息而言,该技术方案能够准确地提取出文本信息的特征属性信息,从而使特定类型的文本信息的识别更加准确。
在一个实施例中,步骤S133可实施为以下步骤:根据决策树分类模型对第二分句进行分类识别,得到预设文本信息的分类属性信息,其中,决策树分类模型是根据至少两个预设类型的文本信息的分类属性信息预先训练的。决策树分类模型中包括分类属性和属性值之间的对应关系。对于每一个第二分句,都包含至少一个属性值,因此,根据决策树分类模型对第二分句进行分类识别时,可按照图2中所示的步骤S21-S22来识别出预设文本信息的分类属性信息。
在步骤S21中,根据分类属性和属性值之间的对应关系,查询每一个第二分句中包括的属性值各自对应的分类属性。
在步骤S22中,根据分类属性,确定预设文本信息的分类属性信息。
例如,第二分句“XX点评”包含的属性值为“XX点评”,通过决策树分类模型中分类属性和属性值之间的对应关系,即可确定属性值“XX点评”对应的分类属性为“团购平台”。
上述实施例中,决策树分类模型的训练过程为:
首先,用户需要构建预设类型的文本信息包含的所有分类属性;以团购短信为例,用户构建团购短信包含的所有下列分类属性有:团购平台、商家名、类型、有效期、券号、地址、价格、折扣、短信正文等。
其次,收集属于预设类型的多个样本文本信息的集合,并按照预先构建的分类属性对样本文本信息中的属性值进行标注,得到标注后的分类属性信息。
其中,对于样本文本信息,可采用以下步骤提取样本文本信息中的属性值:对样本文本信息进行分割处理,获得至少两个第一分句;从至少两个第一分句中提取特征属性信息(如果是团购短信,则特征属性信息包括有效期、金额、折扣等信息);将特征属性信息所在的第一分句替换为特征属性信息,获得样本文本信息的至少两个第二分句,且每个第二分句中包括至少一个属性值。
再次,根据标注后的分类属性信息生成决策树分类模型。
提取样本文本信息中的属性值之后,对属性值进行分类属性的标注,得到标注后的分类属性信息,服务器根据多个标注后的分类属性信息即可自动生成决策树分类模型。以下为两个标注后的分类属性信息:
样本一:
{
团购平台:XX点评
商家名:A家火锅
类型:代金券
有效期:[1-1,6-30]
券号:{5219180842,1631660630}
地址:null
价格:null
折扣:null
短信正文:“【XX点评】A家火锅:代金券:5219180842,1631660630,1-1至6-30有效”
}
样本二:
{
团购平台:XX点评
商家名:XX影城
类型:2D/3D单人电影票
有效期:[11-1,次年3-31]
券号:null
地址:null
价格:null
折扣:null
短信正文:“【XX点评】XX影城,2D/3D单人电影票,11-1至次年3-31有效”
}
其中,“团购平台”、“商家名”、“类型”、“有效期”、“券号”、“地址”、“价格”、“折扣”等分别为分类属性,“XX点评”、“A家火锅”、“代金券”、“[1-1,6-30]”、“{5219180842,1631660630}”、“XX点评”、“XX影城”、“2D/3D单人电影票”、“[11-1,次年3-31]”等分别为属性值。
由于某些类型的文本信息中包含的分类属性较多,且这些分类属性下的属性值也很多,属性值和分类属性之间的对应关系也非常繁杂,因此,如果仅构建简单的属性值和分类属性之间的一对一映射关系,则需要很大的工作量,且很难清楚地体现出所有属性值及其分类属性之间的对应关系。而如果预先构建决策树分类模型,并采用该模型对预设文本信息中的属性值进行识别,则可以很容易地构建出所有属性值及其分类属性之间的对应关系,因此,采用决策树分类模型能够非常准确方便地确定属性值对应的分类属性。
在一个实施例中,可根据朴素贝叶斯模型来确认预设文本信息是否为预设类型的文本信息。其中,朴素贝叶斯模型中包括有每个分类属性和包括分类属性的预设文本信息为预设类型的文本信息的概率之间的对应关系,包括分类属性的预设文本信息为预设类型的文本信息的概率是根据多个样本文本信息预先统计的,例如,属于预设类型的所有样本文本信息中,如果都包含分类属性“商家名”,那么包括分类属性“商家名”的预设文本信息为预设类型的文本信息的概率为100%;如果有一半的样本文本信息中包含分类属性“折扣”,那么包括分类属性“折扣”的预设文本信息为预设类型的文本信息的概率50%。因此,如图3所示,步骤S14可实施为以下步骤S31-S33。
在步骤S31中,根据朴素贝叶斯模型对分类属性信息进行识别,得到分类属性信息中的每一个分类属性各自对应的概率。
在步骤S32中,根据每一个分类属性各自对应的概率,计算预设文本信息为预设类型的文本信息的概率。
该步骤中,当每一个分类属性各自对应的概率不同时,可通过将多个概率进行简单的乘法运算来计算预设文本信息为预设类型的文本信息的概率,也可对每一个概率值赋予各自对应的权值,并通过加权来计算预设文本信息为预设类型的文本信息的概率。
在步骤S33中,当概率大于或等于预设概率值时,确定预设文本信息为预设类型的文本信息。
本实施例中,通过朴素贝叶斯模型来确定预设文本信息的类型,从而能够准确判断出包含分类属性的预设文本信息是否为预设类型的文本信息,使得文本信息的分类更加准确。
此外,根据第二分句识别出预设文本信息的分类属性信息之后,还可按照以下两种方式中的任一种来确认预设文本信息是否为预设类型的文本信息。
方式一
如图4所示,包括以下步骤S41-S45。
在步骤S41中,获取预设类型的文本信息的必备分类属性的集合。
其中,必备分类属性指属于预设类型的文本信息所必须包括的分类属性,例如,属于团购短信的短信中必须包含分类属性“团购平台”,因此,分类属性“团购平台”即为必备分类属性。
在步骤S42中,确定第二分句中包含的属性值对应的分类属性为必备分类属性的个数。
在步骤S43中,判断属性值对应的分类属性为必备分类属性的个数是否大于或等于预设个数。如果第二分句中包含的属性值对应的分类属性为必备分类属性的个数大于或等于预设个数,则执行步骤S44;如果第二分句中包含的属性值对应的分类属性为必备分类属性的个数小于预设个数,则执行步骤S45。
在步骤S44中,确定预设文本信息属于预设类型的文本信息。
在步骤S45中,确定预设文本信息不属于预设类型的文本信息。
方式二
如图5所示,包括以下步骤S51-S54。
在步骤S51中,根据第二分句中包含的属性值对应的特征属性,分析预设文本信息属于预设类型的文本信息的概率;其中,第二分句中包含的属性值对应的分类属性为必备分类属性的个数越多,概率越大。
在步骤S52中,判断概率是否大于或等于预设概率值。如果概率大于或等于预设概率值,则执行步骤S53;如果概率小于预设概率值,则执行步骤S54。
在步骤S53中,确定预设文本信息属于预设类型的文本信息。
在步骤S54中,确定预设文本信息不属于预设类型的文本信息。
举例来说,必备分类属性集合中包括的必备分类属性有团购平台、商家名、类型、有效期、券号、地址、价格和折扣,预设概率值为80%,如果预设文本信息的属性值对应的分类属性中,仅有1个分类属性为必备分类属性,则预设文本信息为预设类型的文本信息的概率为15%,如果有2个分类属性为必备分类属性,则预设文本信息为预设类型的文本信息的概率为40%,如果有5个分类属性为必备分类属性,则预设文本信息为预设类型的文本信息的概率为80%。可见,预设文本信息的属性值对应的分类属性中有5个或5个以上分类属性为必备分类属性时,可确定预设文本信息为预设类型的文本信息。
本实施例能够通过预设文本信息中属性值对应的分类属性占必备分类属性的个数来判断预设文本信息的类型,或根据预设文本信息中属性值对应的分类属性占必备分类属性的个数来分析预设文本信息属于预设类型的文本信息的概率来判断预设文本信息的类型,相较于传统的使用文本信息中的关键词来判断文本信息的类型而言,本实施例中的技术方案使得文本信息的分类的效果更加准确,尤其是针对仅包含一部分必备分类属性的文本信息。
在一个实施例中,特征属性信息中包括时间属性信息,因此,步骤S14之后,上述方法还包括以下步骤A1-A2。
在步骤A1中,根据时间属性信息,在预设应用程序中建立预设文本信息的提醒事项,该提醒事项中包括时间属性信息;该步骤A1还可实施为:生成并输出提醒信息,提醒信息用于提示用户是否建立预设文本信息的提醒事项,当接收到用户对提醒信息的确定操作时,在预设应用程序中建立预设文本信息的提醒事项。
在步骤A2中,根据提醒事项对预设文本信息进行提醒。其中,预设应用程序为具有提醒功能的任一种或多种应用程序,例如可建立日历提醒的日历。
如果终端生成提醒信息以提示用户是否建立预设文本信息的提醒事项,那么该提醒信息中可以包括预设文本信息的属性值以及属性值对应的分类属性,且这些信息可以列表的形式显示给用户。终端在建立日历提醒时,可将全部属性值或部分属性值及其对应的分类属性作为提醒参数,并建立包括提醒参数的日历提醒,分类属性中包括时间属性信息,例如有效期、到期日等,建立日历提醒后,日历就会在有效期或到期日之前执行提醒操作。
在一个实施例中,预设类型的文本信息为团购短信,则第一分句中的特征属性信息除时间属性信息之外,还可包括金额、折扣中的至少一种信息,其中,时间属性信息为有效期,因此,对于团购短信,上述步骤A1可执行为以下步骤:在日历中建立团购短信的提醒事项,提醒事项中包括有效期;相应的,上述步骤A2可执行为以下步骤:在有效期之前,对团购短信进行提醒。
本实施例中,通过在有效期之前对团购短信进行提醒,实现了从团购短信中准确地识别出包含有效期的重要信息,并能够及时提醒用户,为用户带来方便。
图6为本公开一具体实施例示出的一种信息处理方法的流程图。如图6所示,该方法包括以下步骤S61-S69。
在步骤S61中,获取用户接收到的预设文本信息。
在步骤S62中,根据预设标点符号集对预设文本信息进行分割,获得第一分句,其中,第一分句至少包括两个子分句。
在步骤S63中,从第一分句中筛选出第一子分句,第一子分句中包括特征属性信息。
在步骤S64中,从第一子分句中提取出特征属性信息;该特征属性信息中包括时间属性信息。
在步骤S65中,用特征属性信息替换第一子分句,得到第二分句。
在步骤S66中,根据决策树分类模型对第二分句进行分类识别,得到预设文本信息的分类属性信息;其中,决策树分类模型是根据至少两个预设类型的文本信息的分类属性信息预先训练的,决策树分类模型中包括分类属性和属性值之间的对应关系。
在步骤S67中,根据朴素贝叶斯模型对分类属性信息进行识别,确认预设文本信息为预设类型的文本信息。
在步骤S68中,根据特征属性信息中包括的时间属性信息,在日历中建立预设文本信息的提醒事项,该提醒事项中包括时间属性信息。
在步骤S69中,根据时间属性信息对预设文本信息执行日历提醒操作。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图7是根据一示例性实施例示出的一种信息处理装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。参照图7,该信息处理装置包括获取模块71、分割模块72、处理模块73和确认模块74。其中:
获取模块71被配置为获取用户接收到的预设文本信息。
分割模块72被配置为根据预设规则对获取模块71获取的预设文本信息进行分割,得到预设文本信息的第一分句。
处理模块73被配置为对分割模块72分割得到的第一分句进行处理,得到所述预设文本信息的分类属性信息。
在一个实施例中,如图8所示,处理模块73包括提取子模块731、处理子模块732和分类识别子模块733。其中:
提取子模块731被配置为对第一分句进行分析,提取出第一分句中的特征属性信息。
其中,特征属性信息可预先设定,例如可以设定为时间属性信息,上述例子中的第一子分句“1-1至6-30有效”中的“1-1”和“6-30”属于时间属性信息。第一子分句中的时间属性信息可以是数字形式,例如“2015-1-1”;也可以是文字形式,例如“国庆节”、“中秋节”、“2015年1月”等。特征属性信息还可以设定为金额信息或折扣信息等,其中,金额信息和折扣信息的提取可依据短信中的数字前后是否包含标识金额、折扣的文字或符号,举例来说,提取子模块731提取金额信息时可根据短信中的数字后面是否有“元”、或者数字前面有“价格”、“$”等进行提取,提取折扣信息时可根据短信中的数字后面是否有“折”来进行提取。
处理子模块732被配置为根据提取子模块731提取的特征属性信息对第一分句进行处理,得到第二分句。
分类识别子模块733被配置为对处理子模块732处理得到的第二分句进行分类识别,得到预设文本信息的分类属性信息。
确认模块74被配置为根据朴素贝叶斯模型对处理模块73识别到的分类属性信息进行识别,确认预设文本信息为预设类型的文本信息。
采用本公开实施例提供的装置,能够通过对预设文本信息进行分割,并对分割成的分句进行分析处理,得到预设文本信息的分类属性信息,从而根据朴素贝叶斯模型确认预设文本信息的类型,使得对预设文本信息分类的效果更加准确,尤其是对文本内容短、信息密集的文本信息而言,该技术方案能够准确地提取出文本信息的特征属性信息,从而使特定类型的文本信息的识别更加准确。
在一个实施例中,如图9所示,分割模块72包括分割子模块721,该分割子模块721被配置为根据预设标点符号集对预设文本信息进行分割,获得第一分句,第一分句至少包括两个子分句。
以短信为例,假设预设标点符号集中包括双引号““””和顿号“、”,则分割子模块721可使用预设标点符号集中的双引号““””和顿号“、”将短信“【XX点评】A家火锅:代金券:5219180842,1631660630,1-1至6-30有效”分割为以下多个第一分句:“XX点评”、“A家火锅”、“代金券”、“5219180842”、“1631660630”、“1-1至6-30有效”。
在一个实施例中,提取子模块731被配置为筛选出第一子分句,第一子分句中包括特征属性信息;从第一子分句中提取出特征属性信息。
处理子模块732被配置为用特征属性信息替换所述第一子分句,得到第二分句。
仍以上述短信为例,用“1-1”和“6-30”替换“1-1至6-30有效”,则得到第二分句“XX点评”、“A家火锅”、“代金券”、“5219180842”、“1631660630”、“1-1”、“6-30”。
在一个实施例中,分类识别子模块733被配置为根据决策树分类模型对第二分句进行分类识别,得到预设文本信息的分类属性信息,决策树分类模型是根据至少两个预设类型的文本信息的分类属性信息预先训练的。
在一个实施例中,分类识别子模块733还被配置为当第二分句中包括属性值、决策树分类模型中包括分类属性和属性值之间的对应关系时,根据分类属性和属性值之间的对应关系,查询每一个第二分句中包括的属性值各自对应的分类属性;根据分类属性,确定预设文本信息的分类属性信息。
例如,第二分句“XX点评”包含的属性值为“XX点评”,通过决策树分类模型中分类属性和属性值之间的对应关系,即可确定属性值“XX点评”对应的分类属性为“团购平台”。
上述实施例中,决策树分类模型的训练过程为:
首先,用户需要构建预设类型的文本信息包含的所有分类属性;以团购短信为例,用户构建团购短信包含的所有下列分类属性有:团购平台、商家名、类型、有效期、券号、地址、价格、折扣、短信正文等。
其次,收集属于预设类型的多个样本文本信息的集合,并按照预先构建的分类属性对样本文本信息中的属性值进行标注,得到标注后的分类属性信息。
其中,对于样本文本信息,可采用以下步骤提取样本文本信息中的属性值:对样本文本信息进行分割处理,获得至少两个第一分句;从至少两个第一分句中提取特征属性信息(如果是团购短信,则特征属性信息包括有效期、金额、折扣等信息);将特征属性信息所在的第一分句替换为特征属性信息,获得样本文本信息的至少两个第二分句,且每个第二分句中包括至少一个属性值。
再次,根据标注后的分类属性信息生成决策树分类模型。
提取样本文本信息中的属性值之后,对属性值进行分类属性的标注,得到标注后的分类属性信息,服务器根据多个标注后的分类属性信息即可自动生成决策树分类模型。以下为两个标注后的分类属性信息:
样本一:
{
团购平台:XX点评
商家名:A家火锅
类型:代金券
有效期:[1-1,6-30]
券号:{5219180842,1631660630}
地址:null
价格:null
折扣:null
短信正文:“【XX点评】A家火锅:代金券:5219180842,1631660630,1-1至6-30有效”
}
样本二:
{
团购平台:XX点评
商家名:XX影城
类型:2D/3D单人电影票
有效期:[11-1,次年3-31]
券号:null
地址:null
价格:null
折扣:null
短信正文:“【XX点评】XX影城,2D/3D单人电影票,11-1至次年3-31有效”
}
其中,“团购平台”、“商家名”、“类型”、“有效期”、“券号”、“地址”、“价格”、“折扣”等分别为分类属性,“XX点评”、“A家火锅”、“代金券”、“[1-1,6-30]”、“{5219180842,1631660630}”、“XX点评”、“XX影城”、“2D/3D单人电影票”、“[11-1,次年3-31]”等分别为属性值。
由于某些类型的文本信息中包含的分类属性较多,且这些分类属性下的属性值数量也很多,属性值和分类属性之间的对应关系也非常繁杂,因此,如果仅构建简单的属性值和分类属性之间的一对一映射关系,则需要很大的工作量,且很难清楚地体现出所有属性值及其分类属性之间的对应关系。而如果预先构建决策树分类模型,并采用该模型对预设文本信息中的属性值进行识别,则可以很容易地构建出所有属性值及其分类属性之间的对应关系,因此,采用决策树分类模型能够非常准确方便地确定属性值对应的分类属性。
在一个实施例中,如图10所示,确认模块74包括识别子模块741、计算子模块742和确定子模块743。其中:
识别子模块741被配置为根据朴素贝叶斯模型对分类属性信息进行识别,得到分类属性信息中的每一个分类属性各自对应的概率;朴素贝叶斯模型中包括每个分类属性和包括分类属性的预设文本信息为预设类型的文本信息的概率之间的对应关系,包括分类属性的预设文本信息为预设类型的文本信息的概率是根据多个样本文本信息预先统计的。
例如,属于预设类型的所有样本文本信息中,如果都包含分类属性“商家名”,那么包括分类属性“商家名”的预设文本信息为预设类型的文本信息的概率为100%;如果有一半的样本文本信息中包含分类属性“折扣”,那么包括分类属性“折扣”的预设文本信息为预设类型的文本信息的概率50%。
计算子模块742被配置为根据识别子模块741识别到的每一个分类属性各自对应的概率,计算预设文本信息为预设类型的文本信息的概率。
当每一个分类属性各自对应的概率不同时,计算子模块742可通过将多个概率进行简单的乘法运算来计算预设文本信息为预设类型的文本信息的概率,也可对每一个概率值赋予各自对应的权值,并通过加权来计算预设文本信息为预设类型的文本信息的概率。
确定子模块743被配置为当计算子模块742计算的概率大于或等于预设概率值时,确定预设文本信息为预设类型的文本信息。
在一个实施例中,如图11所示,上述装置还包括建立模块75和提醒模块76。其中:
建立模块75被配置为在确认模块74确认预设文本信息为预设类型的文本信息之后,根据特征属性信息中包括的时间属性信息,在预设应用程序中建立预设文本信息的提醒事项,提醒事项中包括时间属性信息。
提醒模块76被配置为根据建立模块75建立的提醒事项对预设文本信息进行提醒。
在一个实施例中,如图12所示,建立模块75包括生成子模块751和第一建立子模块752。其中:
生成子模块751被配置为生成并输出提醒信息,提醒信息用于提示用户是否建立预设文本信息的提醒事项。
第一建立子模块752被配置为当接收到用户对生成子模块771输出的提醒信息的确定操作时,在预设应用程序中建立预设文本信息的提醒事项。
其中,预设应用程序为具有提醒功能的任一种或多种应用程序,例如可建立日历提醒的日历。如果生成子模块751生成提醒信息以提示用户是否建立预设文本信息的提醒事项,那么该提醒信息中可以包括预设文本信息的属性值以及属性值对应的分类属性,这些信息可以列表的形式显示给用户。第一建立子模块752在建立日历提醒时,可将全部属性值或部分属性值及其对应的分类属性作为提醒参数,并建立包括提醒参数的日历提醒,分类属性中包括时间属性信息,例如有效期、到期日等,建立日历提醒后,提醒模块76就会在有效期或到期日之前执行日历提醒操作。
在一个实施例中,如图13所示,建立模块75包括第二建立子模块753,该第二建立子模块753被配置为当预设类型的文本信息为团购短信、时间属性信息为有效期、特征属性信息还包括金额、折扣中的至少一种信息时,在日历中建立团购短信的提醒事项,提醒事项中包括有效期。
此时,提醒模块76包括提醒子模块761,该提醒子模块761被配置为在有效期之前,对团购短信进行提醒。
本实施例中,通过在有效期之前对团购短信进行提醒,实现了从团购短信中准确地识别出包含有效期的重要信息,并能够及时提醒用户,为用户带来方便。
在示例性实施例中,提供一种信息处理装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。
上述处理器还可被配置为:
所述根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句,包括:
根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
上述处理器还可被配置为:
所述对所述第一分句进行处理,得到所述预设文本信息的分类属性信息,包括:
对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
根据所述特征属性信息对所述第一分句进行处理,得到第二分句;
对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
上述处理器还可被配置为:
所述对所述第一分句进行分析,提取出所述第一分句中的特征属性信息,包括:
筛选出第一子分句,所述第一子分句中包括特征属性信息;
从所述第一子分句中提取出所述特征属性信息;
相应的,所述根据所述特征属性信息对所述第一分句进行处理,得到第二分句,包括:
用所述特征属性信息替换所述第一子分句,得到第二分句。
上述处理器还可被配置为:
所述对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
上述处理器还可被配置为:
所述第二分句中包括属性值;所述决策树分类模型中包括分类属性和属性值之间的对应关系;所述根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;
根据所述分类属性,确定所述预设文本信息的分类属性信息。
上述处理器还可被配置为:
所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;所述根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息,包括:
根据所述朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;
根据所述每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
当所述概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
上述处理器还可被配置为:
所述特征属性信息中包括时间属性信息;所述确认所述预设文本信息为预设类型的文本信息之后,所述方法还包括:
根据所述时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
根据所述提醒事项对所述预设文本信息进行提醒。
上述处理器还可被配置为:
所述在预设应用程序中建立所述预设文本信息的提醒事项,包括:
生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述预设文本信息的提醒事项;
当接收到用户对所述提醒信息的确定操作时,在预设应用程序中建立所述预设文本信息的提醒事项。
上述处理器还可被配置为:
所述预设类型的文本信息为团购短信;所述时间属性信息为有效期;所述特征属性信息还包括金额、折扣中的至少一种信息;所述在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息,包括:
在日历中建立所述团购短信的提醒事项,所述提醒事项中包括所述有效期;
相应的,所述根据所述提醒事项对所述预设文本信息进行提醒,包括:
在所述有效期之前,对所述团购短信进行提醒。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图14是根据一示例性实施例示出的一种用于信息处理的装置的框图。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1206为装置1200的各种组件提供电力。电力组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置1200的处理器执行时,使得装置1200能够执行上述的信息处理方法,所述方法包括:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息。
所述根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句,包括:
根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
所述对所述第一分句进行处理,得到所述预设文本信息的分类属性信息,包括:
对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
根据所述特征属性信息对所述第一分句进行处理,得到第二分句;
对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
所述对所述第一分句进行分析,提取出所述第一分句中的特征属性信息,包括:
筛选出第一子分句,所述第一子分句中包括特征属性信息;
从所述第一子分句中提取出所述特征属性信息;
相应的,所述根据所述特征属性信息对所述第一分句进行处理,得到第二分句,包括:
用所述特征属性信息替换所述第一子分句,得到第二分句。
所述对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
所述第二分句中包括属性值;所述决策树分类模型中包括分类属性和属性值之间的对应关系;所述根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;
根据所述分类属性,确定所述预设文本信息的分类属性信息。
所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;所述根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息,包括:
根据所述朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;
根据所述每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
当所述概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
所述特征属性信息中包括时间属性信息;所述确认所述预设文本信息为预设类型的文本信息之后,所述方法还包括:
根据所述时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
根据所述提醒事项对所述预设文本信息进行提醒。
所述在预设应用程序中建立所述目标短信的提醒事项,包括:
生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述目标短信的提醒事项;
当接收到用户对所述提醒信息的确定操作时,在预设应用程序中建立所述目标短信的提醒事项。
所述预设类型的短信为团购短信;
所述获取所述目标短信的知识点,包括:
对所述目标短信进行分割处理,获得至少两个分句;
从所述至少两个分句中提取预设信息,所述预设信息包括有效期、金额、折扣中的至少一种信息;
将所述预设信息所在的分句替换为所述预设信息,获得所述目标短信的至少两个知识点。
所述时间属性为有效期;所述根据所述时间属性对应的知识点,对所述目标短信执行预设处理,包括:
在所述有效期之前,对所述团购短信进行提醒。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种信息处理方法,其特征在于,包括:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息;
所述对所述第一分句进行处理,得到所述预设文本信息的分类属性信息,包括:
对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
根据所述特征属性信息对所述第一分句进行处理,得到第二分句;
对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
2.根据权利要求1所述的方法,其特征在于,所述根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句,包括:
根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一分句进行分析,提取出所述第一分句中的特征属性信息,包括:
筛选出第一子分句,所述第一子分句中包括特征属性信息;
从所述第一子分句中提取出所述特征属性信息;
相应的,所述根据所述特征属性信息对所述第一分句进行处理,得到第二分句,包括:
用所述特征属性信息替换所述第一子分句,得到第二分句。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
5.根据权利要求4所述的方法,其特征在于,所述第二分句中包括属性值;所述决策树分类模型中包括分类属性和属性值之间的对应关系;所述根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,包括:
根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;
根据所述分类属性,确定所述预设文本信息的分类属性信息。
6.根据权利要求1所述的方法,其特征在于,所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;所述根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息,包括:
根据所述朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;
根据所述每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
当所述概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
7.根据权利要求1所述的方法,其特征在于,所述特征属性信息中包括时间属性信息;所述确认所述预设文本信息为预设类型的文本信息之后,所述方法还包括:
根据所述时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
根据所述提醒事项对所述预设文本信息进行提醒。
8.根据权利要求7所述的方法,其特征在于,所述在预设应用程序中建立所述预设文本信息的提醒事项,包括:
生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述预设文本信息的提醒事项;
当接收到用户对所述提醒信息的确定操作时,在预设应用程序中建立所述预设文本信息的提醒事项。
9.根据权利要求7所述的方法,其特征在于,所述预设类型的文本信息为团购短信;所述时间属性信息为有效期;所述特征属性信息还包括金额、折扣中的至少一种信息;所述在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息,包括:
在日历中建立所述团购短信的提醒事项,所述提醒事项中包括所述有效期;
相应的,所述根据所述提醒事项对所述预设文本信息进行提醒,包括:
在所述有效期之前,对所述团购短信进行提醒。
10.一种信息处理装置,其特征在于,包括:
获取模块,用于获取用户接收到的预设文本信息;
分割模块,用于根据预设规则对所述获取模块获取的预设文本信息进行分割,得到所述预设文本信息的第一分句;
处理模块,用于对所述分割模块分割得到的第一分句进行处理,得到所述预设文本信息的分类属性信息;
确认模块,用于根据朴素贝叶斯模型对所述处理模块处理得到的分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息;
所述处理模块包括:
提取子模块,用于对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
处理子模块,用于根据所述提取子模块提取的特征属性信息对所述第一分句进行处理,得到第二分句;
分类识别子模块,用于对所述处理子模块处理得到的第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
11.根据权利要求10所述的装置,其特征在于,所述分割模块包括:
分割子模块,用于根据预设标点符号集对所述预设文本信息进行分割,获得所述第一分句,所述第一分句至少包括两个子分句。
12.根据权利要求10所述的装置,其特征在于,所述提取子模块,用于筛选出第一子分句,所述第一子分句中包括特征属性信息;从所述第一子分句中提取出所述特征属性信息;
所述处理子模块,用于用所述特征属性信息替换所述第一子分句,得到第二分句。
13.根据权利要求10所述的装置,其特征在于,所述分类识别子模块,用于根据决策树分类模型对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息,所述决策树分类模型是根据至少两个所述预设类型的文本信息的分类属性信息预先训练的。
14.根据权利要求13所述的装置,其特征在于,所述分类识别子模块,还用于当所述第二分句中包括属性值、所述决策树分类模型中包括分类属性和属性值之间的对应关系时,根据所述分类属性和属性值之间的对应关系,查询每一个所述第二分句中包括的属性值各自对应的分类属性;根据所述分类属性,确定所述预设文本信息的分类属性信息。
15.根据权利要求10所述的装置,其特征在于,所述确认模块包括:
识别子模块,用于根据所述朴素贝叶斯模型对所述分类属性信息进行识别,得到所述分类属性信息中的每一个分类属性各自对应的概率;所述朴素贝叶斯模型中包括每个分类属性和包括所述分类属性的预设文本信息为所述预设类型的文本信息的概率之间的对应关系;
计算子模块,用于根据所述识别子模块识别到的每一个分类属性各自对应的概率,计算所述预设文本信息为所述预设类型的文本信息的概率;
确定子模块,用于当所述计算子模块计算的概率大于或等于预设概率值时,确定所述预设文本信息为所述预设类型的文本信息。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
建立模块,用于所述确认模块确认所述预设文本信息为预设类型的文本信息之后,根据所述特征属性信息中包括的时间属性信息,在预设应用程序中建立所述预设文本信息的提醒事项,所述提醒事项中包括所述时间属性信息;
提醒模块,用于根据所述建立模块建立的提醒事项对所述预设文本信息进行提醒。
17.根据权利要求16所述的装置,其特征在于,所述建立模块包括:
生成子模块,用于生成并输出提醒信息,所述提醒信息用于提示用户是否建立所述预设文本信息的提醒事项;
第一建立子模块,用于当接收到用户对所述生成子模块输出的提醒信息的确定操作时,在预设应用程序中建立所述预设文本信息的提醒事项。
18.根据权利要求16所述的装置,其特征在于,所述建立模块包括:
第二建立子模块,用于当所述预设类型的文本信息为团购短信、所述时间属性信息为有效期、所述特征属性信息还包括金额、折扣中的至少一种信息时,在日历中建立所述团购短信的提醒事项,所述提醒事项中包括所述有效期;
所述提醒模块包括:
提醒子模块,用于在所述有效期之前,对所述团购短信进行提醒。
19.一种信息处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用户接收到的预设文本信息;
根据预设规则对所述预设文本信息进行分割,得到所述预设文本信息的第一分句;
对所述第一分句进行处理,得到所述预设文本信息的分类属性信息;
根据朴素贝叶斯模型对所述分类属性信息进行识别,确认所述预设文本信息为预设类型的文本信息;
所述对所述第一分句进行处理,得到所述预设文本信息的分类属性信息,包括:
对所述第一分句进行分析,提取出所述第一分句中的特征属性信息;
根据所述特征属性信息对所述第一分句进行处理,得到第二分句;
对所述第二分句进行分类识别,得到所述预设文本信息的分类属性信息。
20.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510714125.5A CN105373808B (zh) | 2015-10-28 | 2015-10-28 | 信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510714125.5A CN105373808B (zh) | 2015-10-28 | 2015-10-28 | 信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105373808A CN105373808A (zh) | 2016-03-02 |
CN105373808B true CN105373808B (zh) | 2018-11-20 |
Family
ID=55375989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510714125.5A Active CN105373808B (zh) | 2015-10-28 | 2015-10-28 | 信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105373808B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107356261B (zh) | 2017-06-14 | 2019-09-06 | Oppo广东移动通信有限公司 | 导航方法及相关产品 |
CN107562878B (zh) * | 2017-08-31 | 2021-03-19 | 广东美的制冷设备有限公司 | 家电控制方法、电子设备和计算机可读存储介质 |
CN112308678A (zh) * | 2020-11-10 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 基于图像识别的价格信息处理方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788292B2 (en) * | 2007-12-12 | 2010-08-31 | Microsoft Corporation | Raising the baseline for high-precision text classifiers |
CN101937436A (zh) * | 2009-06-29 | 2011-01-05 | 华为技术有限公司 | 一种文本分类方法及装置 |
CN103425777A (zh) * | 2013-08-15 | 2013-12-04 | 北京大学 | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
-
2015
- 2015-10-28 CN CN201510714125.5A patent/CN105373808B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788292B2 (en) * | 2007-12-12 | 2010-08-31 | Microsoft Corporation | Raising the baseline for high-precision text classifiers |
CN101937436A (zh) * | 2009-06-29 | 2011-01-05 | 华为技术有限公司 | 一种文本分类方法及装置 |
CN103425777A (zh) * | 2013-08-15 | 2013-12-04 | 北京大学 | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105373808A (zh) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104753766B (zh) | 表情发送方法及装置 | |
CN104378441B (zh) | 日程创建方法和装置 | |
CN104954580B (zh) | 用户日程信息的处理方法及装置 | |
CN105159871B (zh) | 文本信息检测方法及装置 | |
CN105302315A (zh) | 图片处理方法及装置 | |
CN105488025A (zh) | 模板构建方法和装置、信息识别方法和装置 | |
CN104636164B (zh) | 启动页面生成方法及装置 | |
CN105117207B (zh) | 相册创建方法及装置 | |
CN104077563B (zh) | 人脸识别方法和装置 | |
CN105162984B (zh) | 电话号码识别方法及装置 | |
CN106792448A (zh) | 蓝牙连接方法和装置、系统 | |
CN105354284B (zh) | 模板的处理方法及装置、短信识别方法及装置 | |
CN105975540A (zh) | 信息显示方法及装置 | |
CN104537038A (zh) | 信息显示方法、装置及终端 | |
CN105208284B (zh) | 拍摄提醒方法及装置 | |
CN107230137A (zh) | 商品信息获取方法及装置 | |
CN105373808B (zh) | 信息处理方法及装置 | |
CN109255128A (zh) | 多层级标签的生成方法、装置和存储介质 | |
CN106227860A (zh) | 一种信息推送处理方法、装置及终端设备 | |
CN105872224A (zh) | 卡片式短信的生成方法及装置 | |
CN105469104A (zh) | 文本信息相似度的计算方法、装置及服务器 | |
CN109544716A (zh) | 学生签到方法及装置、电子设备和存储介质 | |
CN106911845A (zh) | 来电提醒方法及装置 | |
CN110580486A (zh) | 一种数据处理方法、装置、电子设备和可读介质 | |
CN112101216A (zh) | 人脸识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |