CN107577760B - 一种基于约束规范的文本分类方法及装置 - Google Patents

一种基于约束规范的文本分类方法及装置 Download PDF

Info

Publication number
CN107577760B
CN107577760B CN201710779857.1A CN201710779857A CN107577760B CN 107577760 B CN107577760 B CN 107577760B CN 201710779857 A CN201710779857 A CN 201710779857A CN 107577760 B CN107577760 B CN 107577760B
Authority
CN
China
Prior art keywords
expression
matching
constraint
ontology
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710779857.1A
Other languages
English (en)
Other versions
CN107577760A (zh
Inventor
席丽娜
李德彦
晋耀红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
Zhongke Dingfu (beijing) Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Dingfu (beijing) Science And Technology Development Co Ltd filed Critical Zhongke Dingfu (beijing) Science And Technology Development Co Ltd
Priority to CN201710779857.1A priority Critical patent/CN107577760B/zh
Publication of CN107577760A publication Critical patent/CN107577760A/zh
Application granted granted Critical
Publication of CN107577760B publication Critical patent/CN107577760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供一种基于约束规范的文本分类方法及装置,首先获取当前业务场景下的样本数据;其次根据所述样本数据、分类体系以及预设约束规范条件,生成本体表达式集;再次,获取当前业务场景下的文本信息,匹配所述本体表达式集中每个节点对应的本体表达式;最后,确定预测分类结果。其中,预设约束规范条件为通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合。通过预设约束规范条件实现文本信息与本体表达式集之间按照预设的规则进行匹配,能够更精确的匹配本体表达式,提高匹配精度,解决传统分类方法精度低的问题。

Description

一种基于约束规范的文本分类方法及装置
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种基于约束规范的文本分类方法及装置。
背景技术
文本分类是数据挖掘的一种手段,是在已有数据的基础上通过机器学习,获得分类函数或构造分类模型。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而应用于数据预测。其中,一个分类函数或者分类模型就是一个分类器。现有技术中,文本分类主要应用基于统计算法的文本分类方法。包括k值近邻法、朴素贝叶斯、神经网络、支持向量机等算法。
典型的基于统计算法的文本分类方法,是根据预先标记好的训练语料,训练获取业务场景下各类别的模板,通过模板进行分类。具有简单方便、分类精度高的特点。但当类别之间特征存在过多的交叉现象时,会降低分类器的精度,尤其是在多层分类中,有些子类的交叉现象更为严重,使得分类器的精度大大降低。另外,基于统计算法的文本分类方法,对训练语料的数量与质量要求很高,在语料不全面、语料的代表性不强以及语料类别标记错误等情况下,会直接影响分类器的分类效果。
为了提高分类精度,解决分类模型预测不准确的问题,现有技术中还示出一种基于规则的文本分类方法。基于规则的分类方法先从样本数据集中提取分类规则,定制分类规则表达式。再通过文本信息触发规则表达式,从而预测文本分类。但现有技术中示出的基于规则的文本分类方法,在进行数据处理过程中,每一个文本信息都要反复触发分类模型节点上的分类规则表达式,造成数据处理效率降低,并且在文本信息中的词语信息比较相近时,很容易造成信息的误判,降低文本分类的精度。
发明内容
本申请提供了一种基于约束规范的文本分类方法及装置,以解决传统分类方法分类精度低的问题。
第一方面,本申请提供一种基于约束规范的文本分类方法,包括:
获取当前业务场景下的样本数据;
根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;
根据匹配结果,确定与所述文本信息对应的,本体表达式所处节点信息为预测分类结果。
可选的,所述预设约束规范条件包括通配约束,所述通配约束是在所述本体表达式中设置通配约束算子符号,包括全子节点符号和跨级匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的文本信息;根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括全子节点符号,匹配所述本体表达式对应节点下的所有子节点信息;如果所述本体表达式中包括跨级匹配符号,匹配所述本体表达式对应节点下的指定子节点信息;根据匹配结果,确定与所述文本信息对应的本体表达式为预测分类结果。
可选的,所述预设约束规范条件包括反向约束,所述反向约束是在所述本体表达式中设置反向约束算子符号,并按照以下步骤匹配所述本体表达式:获取当前业务场景下的文本信息;根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括反向约束算子符号,停止匹配所述本体表达式对应节点以及对应节点下的所有子节点信息;根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
可选的,判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括反向约束算子符号,停止匹配所述本体表达式对应节点以及对应节点下的所有子节点信息的步骤,还包括:
获取已确定的预测分类结果;判断带有反向约束算子符号的所述本体表达式是否在预测分类结果中;如果所述本体表达式在预测分类结果中,从预测分类结果中去除所述本体表达式。
可选的,所述预设约束规范条件包括位置约束,所述位置约束是在所述本体表达式中设置位置算子符号,包括元素距离符号和顺序匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的文本信息;根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括元素距离符号,在待处理文本信息中所述元素距离符号指定的间隔距离内匹配;如果所述本体表达式中包括顺序匹配符号,按照所述顺序匹配符号指定概念、要素、关键词的顺序进行匹配;根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
可选的,所述预设约束规范条件包括信息结构约束,所述信息结构约束是在所述本体表达式中设置用于指定匹配信息结构的算子符号,包括句间匹配符号和句内匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的文本信息;根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括句间匹配符号,以整篇所述待处理文本信息进行匹配;如果所述表达式中包括句内匹配符号,根据预设拆分规则拆分所述文本信息,生成文本信息短句,逐一对所述待处理文本信息短句进行匹配;根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
可选的,所述预设约束规范条件包括所述通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合。
可选的,在根据匹配结果,确定与所述文本信息对应的本体表达式所处节点信息为预测分类结果的步骤后,所述方法还包括:
获取当前业务场景下的测试集数据,所述测试集数据为标记有标准结果的当前业务场景下的文本信息;在所述本体表达式集中迭代所述测试集数据,生成测试结果;对比所述测试结果和所述标准结果,并计算准确度;判断所述准确度是否大于或等于预设准确度阈值;如果所述准确度大于或等于所述预设准确度阈值,将所述本体表达式集保存并输出。
可选的,所述判断所述准确度是否大于或等于预设阈值的步骤还包括:如果所述准确度小于所述预设准确度阈值,根据所述准确度校验所述本体表达式集;根据校验结果提取所述测试集数据中的错误预测结果和/或缺失预测信息,并显示所述错误预测结果和/或所述缺失预测信息;根据错误预测结果和/或所述缺失预测信息对应的语义模型调优所述本体表达式,生成调优本体表达式集;在所述调优本体表达式集中迭代所述测试集数据,生成测试结果并计算准确度,直到所述准确度大于或等于所述预设准确度阈值。
第二方面,本申请还提供一种基于约束规范的文本分类装置,包括:
样本数据获取单元,获取当前业务场景下的样本数据;
本体表达式集生成单元,用于根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
匹配单元,用于获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当所述文本信息触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;
预测单元,用于根据匹配结果,确定与所述文本信息对应的本体表达式所处节点信息为预测分类结果。
由以上技术方案可知,本申请提供一种基于约束规范的文本分类方法,首先获取当前业务场景下的样本数据;其次根据所述样本数据、当前业务场景下的分类模型以及预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;再次,获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式;最后,根据匹配结果,确定与所述文本信息对应的,本体表达式的节点为预测分类结果。其中,所述预设约束规范条件是在分类树各节点上的本体表达式中设置用于约束匹配方式的算子符号。
所述预设约束规范条件为所述通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合。通过预设约束规范条件实现文本信息与本体表达式集之间的按照预设的规则进行匹配,能够更精确的匹配本体表达式,解决传统分类方法分类精度低的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的文本分类方法流程示意图;
图2为通配约束条件下文本分类方法流程示意图;
图3为反向约束条件下文本分类方法流程示意图;
图4为通配约束条件下文本分类方法的一个实施例流程示意图;
图5为位置约束条件下文本分类方法流程示意图
图6为信息结构约束条件下文本分类方法流程示意图
图7为本体表达式集的检验流程示意图;
图8为本体表达式集的调优流程示意图;
图9为一种基于约束规范的文本分类装置的结构示意图。
具体实施方式
这里将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本发明相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
概念语义模型是在样本数据中归纳穷举出已知概念,以及已知概念与逻辑算子构成的本体表达式组成的集合。本申请提供的技术方案中,已知的概念分为两种,即通用语言概念和业务要素概念,其在概念语义模型中,是以符号标记具体文本信息进行表现的,例如“c_”表示通用语言概念,“e_”表示业务要素概念。进一步地,本申请还提供一种即用类型的概念,即以文本信息中的内容直接作为概念名称,示例地在语义模型中以“k_”作为标记符号,表示即用语言概念。例如:
“c_咨询:询问、咨询、想知道、问问……”
“e_工作人员:大堂经理、柜台操作人员、柜员、服务员……”
“k_初始额度:初始额度”。
在语义模型中,概念和逻辑算子可以组合成表达式。逻辑算子一般包括“与”(+)、“非”(-)、“或”(∣)以及“多元取整”(“()”)等。通过对样本数据进行归纳整理而提取获得的表达式称为分类规则表达式,多个分类规则表达式构成的集合即作为分类模型。本申请中,分类模型是根据样本数据建立的多叉树结构,多叉树结构上的每个节点对应一个分类节点,每个分类节点存在至少一个分类规则表达式。分类模型和分类规则表达式构成特定业务场景下的分类体系,用于对文本信息进行预测分类,显然,根据业务场景的不同,每一个业务场景都对应至少一种分类体系。例如:当文本信息中包含“柜员业务不熟练”,通过匹配可知文本信息对应分类规则表达式为“e_工作人员-c_否定概念+c_熟练”,完成对文本信息的预测分类。
参见图1,本申请提供一种基于约束规范的文本分类器构建方法,包括:
S101:获取当前业务场景下的样本数据;
S102:根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
S103:获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;
S104:根据匹配结果,确定与所述文本信息对应的本体表达式所处节点信息为预测分类结果。
以上步骤中,所述当前业务场景是指文本处理过程在的具体应用领域中,对于不同的业务场景,待处理的文本信息和用于构建分类模型的样本数据具有不同的特点。例如,同样的文本信息“保险”,在保险服务行业的业务场景和机械制造行业的业务场景中指代的概念是完全不同的。进一步地,为了避免同一文本信息指代不同的业务概念,业务场景的划分尽可能的具体,但过于具体的业务场景划分有时会导致业务场景中的样本数据量不足,进而导致根据样本数据生成的本体表达式集,不能涵盖所有业务概念,因此,业务场景的划分应考虑能否提供足够数量的样本数据。
在确定了当前业务场景后,获取根据当前业务场景中的样本数据、分类模型以及预设约束规范条件建立本体表达式集。本实施例中,本体表达式集可以是根据样本数据,在当前业务场景下对应分类树的节点上建立本体表达式组成的集合,也可以是直接从当前业务场景对应的分类体系中提取的分类模型。分类模型中的每个节点上对应一个或多个分类规则表达式,再根据业务场景的分类特点,通过逻辑算子对分类规则表达式进行优化而将同一节点上的多个分类规则表达式整合成一个本体表达式。
对于步骤S102,在获取了当前业务场景下的样本数据以后,根据所述样本数据、当前业务场景下的分类模型以及预设约束规范条件,生成分类树及分类树中各节点的本体表达式集。其中,分类树与分类模型对应,分类树的各节点对应至少一个本体表达式,每一个节点上包含概念、要素、关键词以及本体表达式构成的节点信息。
本实施例中,所述预设约束规范条件包括通配约束,反向约束,位置约束以及信息结构约束,其中:所述通配约束是在所述本体表达式中设置通配约束算子符号,包括全子节点符号和跨级匹配符号;所述全子节点符号用于标记匹配当前节点下的所有子节点的信息,所述跨级匹配符号用于标记匹配当前节点下的指定子节点的信息。示例地,用“*”来标记全子节点符号,用“.”来标记跨级匹配符号。
例如,本体表达式“e_工作人员*+e_态度+c_不好”,对应节点中概念“工作人员”的实际分析范围为,“工作人员:(柜员、柜台操作员、经理(客户经理、大堂经理))”,可见在本体表达式中“e_工作人员*”中设置了全子节点符号,即构建为本体表达式,因此在文本信息进行匹配时,不仅需要匹配“工作人员”这一节点下一层级的所有子节点“柜员、柜台操作员、经理”,而且包括“经理”这一节点下的子节点下的子节点“客户经理”和“大堂经理”。
对于跨级匹配符号,可以通过在本体表达式中标记指定匹配的节点名称。示例地,用“.<>”表示匹配“<>”中内容对应的节点信息。例如,本体表达式“e_工作人员.<经理>+e_态度+c_不好”,则对于节点概念“工作人员”的实际分析范围是,“工作人员:(经理)”。
本实施例中,两种通配约束算子符号还可以搭配使用,用于更加精确的设置节点信息的匹配方式,例如,用“.*”表示匹配下一个层级的子节点,当本体表达式为“e_工作人员.*+e_态度+c_不好”时,对于节点概念“工作人员”的实际分析范围是,“工作人员:(柜员、柜台操作员、经理)”即匹配当前节点下一个层级的子节点概念。
从以上技术方案可知,本实施例提供的通配约束规范,可以根据实际业务场景的特点,设置相应的信息匹配方式,在文本信息触发带有通配约束算子符号的文本本体表达式时,按照预设的方式对节点信息进行匹配,可以提高分类预测的精度。同时,由于设置全子节点符号,因此可以减少分类模型中各节点中本体表达式的数量,即通过较少的本体表达式,批量处理对应的文本信息。
进一步地,如图2所示,对于包含通配约束的本体表达式,在实际分类预测过程中具体包括如下步骤:
S201:获取当前业务场景下的文本信息;
S202:根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;
S203:根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
S204:判断所述本体表达式中的预设约束规范条件;
S205:如果所述本体表达式中包括全子节点符号,匹配所述本体表达式对应节点下的所有子节点信息;
S206:如果所述本体表达式中包括跨级匹配符号,匹配所述本体表达式对应节点下的指定子节点信息;
S207:根据匹配结果,确定与所述文本信息对应的本体表达式为预测分类结果。
由以上本体表达式的匹配步骤可以看出,在本实施例中,建立本体表达式集后,获取当前业务场景下的文本信息,即要进行分类的文本信息;再根据当前业务场景下的语义模型对文本信息进行结构化处理,生成可以直接被计算机识别并处理的结构化文本信息,作为待处理文本信息;最后按照节点的层级关系,逐一对本体表达式集中每个节点对应的本体表达式与文本信息进行匹配,直到确定与文本信息匹配程度最高的本体表达式作为预测分类结果。
所述反向约束是在所述本体表达式中设置反向约束算子符号;所述反向约束算子符号用于标记停止匹配当前节点及当前节点所有子节点的信息。示例地,用“#”标记本体表达式,表示该本体表达式具有反向约束的属性标签,当文本信息触发到该本体表达式时,立即结束文本信息与本体表达式以及这一节点以下的所有表达式集合的匹配过程。再判断当前文本信息是否已在分类结果集中,如果在,则从结果集中去除该文本信息。以达到根据反例样本数据定制强规则,排除错误的预测结果。
本实施例中,通过设置反向约束规则,可以根据当前业务场景的概念、语言特点,设置对应的排错规则,将一些不符合当前业务场景的文本信息在分类结果中剔除;或者由于业务场景的发展,将一些废止的概念或具有新含义的概念移除并且重新预测符合语义模型的新的分类。
进一步地,如图3所示,对于包含反向约束的本体表达式,在实际分类预测过程中具体包括如下步骤:
S301:获取当前业务场景下的文本信息;
S302:根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;
S303:根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
S304:判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括反向约束算子符号,停止匹配所述本体表达式对应节点以及对应节点下的所有子节点信息;
S305:根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
由以上步骤可以看出,本实施例与上述实施例中关于文本信息的结构化处理过程相同,其区别主要在于,当文本信息触发到带有反向约束算子符号的本体表达式时,直接停止对当前节点以及当前节点的所有子节点信息的匹配。为了进一步增加匹配的准确性,本实施例中,还可以在反向约束算子符号中指定文本信息中与节点信息对应内置,哪些是能够触发反向约束的概念、要素或关键词信息。
如图4所示,对于反向约束条件下的本体表达式匹配过程中,还可以包括如下步骤:
S3051:获取已确定的预测分类结果;
S3052:判断带有反向约束算子符号的所述本体表达式是否在预测分类结果中;
S3053:如果所述本体表达式在预测分类结果中,从预测分类结果中去除所述本体表达式。
以上步骤旨在设置强制约束规范条件,将约束条件下规定的,不符合要求的本体表达式从分类结果中去除,使分类结果更加准确。
位置约束是在所述本体表达式中设置位置算子符号,包括元素距离符号和顺序匹配符号;所述元素距离符号用于标记本体表达式中,概念、要素、关键词之间的间隔距离,超出所述间隔距离则匹配失败。示例地,在本体表达式的逻辑算子后面用“{}”来指定匹配的间隔距离。例如“e_办卡+{0,5}c_被拒-{3,10}e_提额”,表达式中{0,5}是表示匹配的间隔距离,只对文本信息中,间隔距离为0到5的文本内容进行匹配。即匹配到“办卡”这一业务概念后,继续在文本信息中间距为0到5的区间内匹配“被拒”这一业务概念,如果在该区间内未匹配到“被拒”,则匹配失败,确定当前文本信息不属于该本体表达式对应的分类中。
需要说明的是,这里指的间隔距离可以是文本信息中实际内容上概念前后的间隔字符数,因此,在匹配“c_被拒-{3,10}e_提额”时,间隔距离{3,10}表示,以“被拒”为基点,向前确定间隔距离“3”,向后确定间隔距离“10”,在此区间内匹配概念“提额”。如果在此区间内没有匹配到概念“提额”,则确定当前文本信息不属于该本体表达式对应的分类中。即使当前文本信息中包含概念“提额”,依然认定当前文本信息不属于该本体表达式对应的分类中。
所述顺序匹配符号用于标记本体表达式中概念、要素、关键词的需要预设顺序进行分析。预设顺序可以是按照文本信息中概念、要素、关键词的行文顺序。本实施例中,顺序匹配约束的形式可以包括两种,一种是整体顺序匹配,即文本信息中的所有文本内容都按照行文顺序进行匹配,当文本信息中的概念信息的顺序结构与本体表达式的顺序结构不同时,则确认当前文本信息不属于该分类。另一种形式是局部顺序匹配,即在本体表达式中,指定哪些业务概念需要按照顺序进行匹配,而其他概念则可以不遵守顺序匹配的约束。示例地,用“[]”表示顺序匹配符号,例如,“[e_工作人员+e_态度+c_不好]”表示整体按照顺序进行匹配,“[e_工作人员+e_态度]+c_不好”表示局部按照顺序进行匹配。
进一步地,如图5所示,对于包含位置约束的本体表达式,在实际分类预测过程中具体包括如下步骤:
S401:获取当前业务场景下的文本信息;
S402:根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;
S403:根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
S404:判断所述本体表达式中的预设约束规范条件:;
S405:如果所述本体表达式中包括元素距离符号,在待处理文本信息中所述元素距离符号指定的间隔距离内匹配;
S406:如果所述本体表达式中包括顺序匹配符号,按照所述顺序匹配符号指定概念、要素、关键词的顺序进行匹配;
S407:根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
由以上步骤可以看出,本实施例与上述实施例中关于文本信息的结构化处理过程相同,其区别主要在于,如果文本信息触发带有元素距离符号的本体表达式,在本体表达式中元素距离符号指定的间隔距离内进行匹配;如果文本信息触发带有顺序匹配符号的本体表达式,在本体表达式中顺序匹配符号指定的范围内,按照行文顺序进行匹配,直到确定与所述文本信息匹配度最高的本体表达式。
所述信息结构约束是在所述本体表达式中设置信息结构算子符号至少包括句间匹配符号和句内匹配符号;所述句间匹配符号用于标记以整体篇幅进行匹配,所述句内匹配符号用于标记对文本信息进行拆句,逐句进行匹配。
进一步地,如图6所示,对于包含信息结构约束的本体表达式,在实际分类预测过程中具体包括如下步骤:
S501:获取当前业务场景下的文本信息;
S502:根据当前业务场景下的语义模型,对所述文本信息进行结构化处理,生成待处理文本信息;
S503:根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
S504:判断所述本体表达式中的预设约束规范条件;
S505:如果所述本体表达式中包括句间匹配符号,以整篇所述待处理文本信息进行匹配;
S506:如果所述表达式中包括句内匹配符号,根据预设拆分规则拆分所述文本信息,生成文本信息短句,逐一对所述待处理文本信息短句进行匹配;
S507:根据匹配结果,确定与所述待处理文本信息对应的本体表达式为预测分类结果。
由以上步骤可知,本实施例中,通过设置信息结构约束确定匹配的范围,以避免文本信息中存在歧义或与当前业务场景无关的内容,对匹配过程造成的影响,进而提高预测分类结果的准确度。为了进一步提高本体表达式的匹配准确度,本申请提供的文本分类方法中,所述预设约束规范条件包括所述通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合。
由以上技术方案可知,本实施例提供的基于约束规范的文本方法,通过在本体表达式中设置用于约束匹配方式的算子符号,构建新的本体表达式集,以便使用本体表达式集对文本信息进行预测分类,即当文本信息触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息。分类约束规范条件可以是通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合,从而达到根据业务场景的不同,按照预设的匹配方式进行数据处理,提高预测分类的精度。
在本申请的部分实施例中,在进行预测分类前,可以先获取待预测分类的文本信息,再根据文本信息确定当前业务场景。由于待预测分类的文本信息是来自归属业务场景中的文本语料。如,业务咨询,业务办理以及业务介绍过程中使用到的文本信息,因此通过提取待预测分类的文本信息中具有明确含义的关键词,在把这些关键词与预置的标准词汇进行匹配,确定文本信息归属的业务场景。本实施例中,也可以在获取到待预测分类的文本信息后,通过分析文本信息的来源直接确定文本信息归属的业务场景。在确定业务场景后,直接根据业务场景对应的分类体系确定已经预置在数据库中的分类模型和本体表达式,以便生成本体表达式集。
在一种技术方案中,如图7所示,根据匹配结果,确定与所述文本信息对应的,本体表达式所处节点信息为预测分类结果,所述方法还包括:
S601:获取当前业务场景下的测试集数据,所述测试集数据为标记有标准结果的当前业务场景下的文本信息;
S602:在所述本体表达式集迭代所述测试集数据,生成测试结果;
S603:对比所述测试结果和所述标准结果,并计算准确度;
S604:判断所述准确度是否大于或等于预设准确度阈值;
S605:如果所述准确度大于或等于所述预设准确度阈值,将所述本体表达式集输出。
本实施例中,在生成本体表达式集后,通过测试集数据对本体表达式集进行检验,以确定根据约束规范条件设置过的本体表达式是否能够满足实际分类预测的要求。具体地,先获取当前业务场景下的测试集数据,测试集数据是根据当前业务场景特点人为对数据进行标记的文本信息,即每个文本信息对应一个预测分类的标准结果。通过将测试集数据迭代,通过已建立的本体表达式集进行预测分类,生成测试结果,即每个文本信息根据本体表达式集,匹配获得一个预测分类结果。再将测试结果和标准结果进行比较,如果测试结果与标准结果相同,则视为预测分类正确,反之,则视为分类错误,根据正确分类和错误分类的数量计算准确度,最后将准确度与预设的准确度阈值进行比较,确定本体表达式集是否满足当前业务场景下的分类要求。本实施例中,准确度阈值,应根据当前业务场景的特点进行设定。应当指出的是,当迭代测试集数据后,如果所述准确度小于所述预设准确度阈值,确定已建立的本体表达式集不可用,并将结果显示给用户。
在一种技术方案中,如图8所示,所述判断所述准确度是否大于或等于预设阈值的步骤还包括:
S701:如果所述准确度小于所述预设准确度阈值,根据所述准确度校验所述本体表达式集;
S702:根据校验结果提取所述测试集数据中的错误预测结果和/或缺失预测信息,并显示所述错误预测结果和/或所述缺失预测信息;
S703:根据错误预测结果和/或所述缺失预测信息对应的语义模型调优所述本体表达式,并根据生成调优本体表达式集;
S704:在所述调优本体表达式集迭代所述测试集数据,生成测试结果及准确度,直到所述准确度大于或等于所述预设准确度阈值。
本实施例与上述实施例的区别在于,如果所述准确度小于所述预设准确度阈值,则根据当前业务场景对所述本体表达式集进行调优,直到准确度满足预设准确度阈值。本实施例中,先根据所述准确度对所述本体表达式集进行校验,即判断实际准确度与预设准确度阈值之间的差值。如果差值过大,说明本体表达式集对于当前业务场景的文本信息分类的预测很不准确,此时,将显示提示信息,提示用户调整约束规范条件;如果差值较小,则提取预测分类错误的预测结果或者缺失预测信息,并对对应的本体表达式中的约束算子符号进行调整,生成新的本体表达式,进而生成调优的本体表达式集。再将测试集数据迭代入调优本体表达式集,根据上述实施例的方式计算准确度,知道准确度大于或等于所述准确度阈值。
由以上技术方案可知,本申请实施例提供的文本分类方法,能够根据测试集数据对构建本体表达式集进行验证和调整,直到本体表达式集的预测分类结果正确度满足要求,将调整的本体表达式集输出,以便精确的对文本信息进行预测分类。
基于上述文本分类方法,如图9所示,本申请还提供一种基于约束规范的文本分类装置,包括:
样本数据获取单元1,获取当前业务场景下的样本数据;
本体表达式集生成单元2,用于根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
匹配单元3,用于获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当所述文本信息触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;
预测单元4,用于根据匹配结果,确定与所述文本信息对应的,本体表达式所处节点信息为预测分类结果。
由以上技术方案可知,本申请提供一种基于约束规范的文本分类方法及装置,首先获取当前业务场景下的样本数据;其次根据所述样本数据、当前业务场景下的分类模型以及预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;再次,获取待分类的文本信息,根据所述文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式;最后,根据匹配结果,确定与所述文本信息对应的,本体表达式所处的节点为预测分类结果。其中,所述预设约束规范条件是在分类树各节点上的本体表达式中设置用于约束匹配方式的算子符号。
所述预设约束规范条件为所述通配约束、反向约束、位置约束以及信息结构约束中的一个或多个约束条件的组合。通过预设约束规范条件实现文本信息与本体表达式集之间的按照预设的规则进行匹配,能够更精确的匹配本体表达式,解决传统分类方法分类精度低的问题。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (8)

1.一种基于约束规范的文本分类方法,其特征在于,包括:
获取当前业务场景下的样本数据;
根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
获取待分类文本信息,根据所述待分类文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;所述预设约束规范条件包括通配约束,所述通配约束是在所述本体表达式中设置通配约束算子符号,包括全子节点符号和跨级匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的待分类文本信息;
根据当前业务场景下的语义模型,对所述待分类文本信息进行结构化处理,生成待处理文本信息;
根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括全子节点符号,匹配所述本体表达式对应节点下的所有子节点信息;
如果所述本体表达式中包括跨级匹配符号,匹配所述本体表达式对应节点下的指定子节点信息;
根据匹配结果,确定与所述待分类文本信息对应的本体表达式所处节点信息为预测分类结果。
2.根据权利要求1所述的方法,其特征在于,所述预设约束规范条件包括反向约束,所述反向约束是在所述本体表达式中设置反向约束算子符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的待分类文本信息;
根据当前业务场景下的语义模型,对所述待分类文本信息进行结构化处理,生成待处理文本信息;
根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括反向约束算子符号,停止匹配所述本体表达式对应节点以及对应节点下的所有子节点信息;
根据匹配结果,确定与所述待处理文本信息对应的本体表达式所处节点信息为预测分类结果。
3.根据权利要求2所述的方法,其特征在于,判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括反向约束算子符号,停止匹配所述本体表达式对应节点以及对应节点下的所有子节点信息的步骤,还包括:
获取已确定的预测分类结果;
判断带有反向约束算子符号的所述本体表达式是否在预测分类结果中;
如果所述本体表达式在预测分类结果中,从预测分类结果中去除所述本体表达式。
4.根据权利要求1所述的方法,其特征在于,所述预设约束规范条件包括位置约束,所述位置约束是在所述本体表达式中设置位置算子符号,包括元素距离符号和顺序匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的待分类文本信息;
根据当前业务场景下的语义模型,对所述待分类文本信息进行结构化处理,生成待处理文本信息;
根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括元素距离符号,在待处理文本信息中所述元素距离符号指定的间隔距离内匹配;
如果所述本体表达式中包括顺序匹配符号,按照所述顺序匹配符号指定概念、要素、关键词的顺序进行匹配;
根据匹配结果,确定与所述待处理文本信息对应的本体表达式所处节点信息为预测分类结果。
5.根据权利要求1所述的方法,其特征在于,所述预设约束规范条件包括信息结构约束,所述信息结构约束是在所述本体表达式中设置用于指定匹配信息结构的算子符号,包括句间匹配符号和句内匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的待分类文本信息;
根据当前业务场景下的语义模型,对所述待分类文本信息进行结构化处理,生成待处理文本信息;
根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括句间匹配符号,以整篇所述待处理文本信息进行匹配;
如果所述本体表达式中包括句内匹配符号,根据预设拆分规则拆分所述待处理文本信息,生成待处理文本信息短句,逐一对所述待处理文本信息短句进行匹配;
根据匹配结果,确定与所述待处理文本信息对应的本体表达式所处节点信息为预测分类结果。
6.根据权利要求1所述的文本分类方法,其特征在于,在根据匹配结果,确定与所述待分类文本信息对应的本体表达式的节点为预测分类结果的步骤后,所述方法还包括:
获取当前业务场景下的测试集数据,所述测试集数据为标记有标准结果的当前业务场景下的文本信息;
在所述本体表达式集中迭代所述测试集数据,生成测试结果;
对比所述测试结果和所述标准结果,并计算准确度;
判断所述准确度是否大于或等于预设准确度阈值;
如果所述准确度大于或等于所述预设准确度阈值,将所述本体表达式集保存并输出。
7.根据权利要求6所述的文本分类方法,其特征在于,所述判断所述准确度是否大于或等于预设准确度阈值的步骤还包括:
如果所述准确度小于所述预设准确度阈值,根据所述准确度校验所述本体表达式集;
根据校验结果提取所述测试集数据中的错误预测结果和/或缺失预测信息,并显示所述错误预测结果和/或所述缺失预测信息;
根据错误预测结果和/或所述缺失预测信息对应的语义模型调优所述本体表达式集,生成调优本体表达式集;
在所述调优本体表达式集中迭代所述测试集数据,生成测试结果并计算准确度,直到所述准确度大于或等于所述预设准确度阈值。
8.一种基于约束规范的文本分类装置,其特征在于,包括:
样本数据获取单元,获取当前业务场景下的样本数据;
本体表达式集生成单元,用于根据所述样本数据、当前业务场景下的分类模型和预设约束规范条件,生成分类树及分类树中各节点的本体表达式集;各节点上的所述本体表达式中设置有所述预设约束规范条件对应的算子符号;
匹配单元,用于获取待分类文本信息,根据所述待分类文本信息以及约束规范条件,匹配所述本体表达式集中每个节点对应的本体表达式,当触发带有所述算子符号的本体表达式时,按照预设匹配方式匹配节点对应信息;所述预设约束规范条件包括通配约束,所述通配约束是在所述本体表达式中设置通配约束算子符号,包括全子节点符号和跨级匹配符号,并按照以下步骤匹配所述本体表达式:
获取当前业务场景下的待分类文本信息;
根据当前业务场景下的语义模型,对所述待分类文本信息进行结构化处理,生成待处理文本信息;
根据所述待处理文本信息,按节点的层级关系,逐一匹配所述本体表达式集中每个节点对应的本体表达式;
判断所述本体表达式中的预设约束规范条件,如果所述本体表达式中包括全子节点符号,匹配所述本体表达式对应节点下的所有子节点信息;
如果所述本体表达式中包括跨级匹配符号,匹配所述本体表达式对应节点下的指定子节点信息;
预测单元,用于根据匹配结果,确定与所述文本信息对应的本体表达式所处节点信息为预测分类结果。
CN201710779857.1A 2017-09-01 2017-09-01 一种基于约束规范的文本分类方法及装置 Active CN107577760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710779857.1A CN107577760B (zh) 2017-09-01 2017-09-01 一种基于约束规范的文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710779857.1A CN107577760B (zh) 2017-09-01 2017-09-01 一种基于约束规范的文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN107577760A CN107577760A (zh) 2018-01-12
CN107577760B true CN107577760B (zh) 2019-12-17

Family

ID=61030531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710779857.1A Active CN107577760B (zh) 2017-09-01 2017-09-01 一种基于约束规范的文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN107577760B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549665A (zh) * 2018-03-21 2018-09-18 上海蔚界信息科技有限公司 一种人机交互的文本分类方案
CN112200465B (zh) * 2020-10-14 2024-04-19 安徽继远软件有限公司 基于多媒体信息智能分析的电力ai方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093601A2 (en) * 2004-03-26 2005-10-06 Magenta Corporation Ltd Multi-agent text analysis
CN101639837A (zh) * 2008-07-29 2010-02-03 日电(中国)有限公司 用于自动分类对象的方法和系统
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN104598561A (zh) * 2015-01-07 2015-05-06 中国农业大学 一种基于文本的农业视频智能分类方法及装置
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093601A2 (en) * 2004-03-26 2005-10-06 Magenta Corporation Ltd Multi-agent text analysis
CN101639837A (zh) * 2008-07-29 2010-02-03 日电(中国)有限公司 用于自动分类对象的方法和系统
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN104598561A (zh) * 2015-01-07 2015-05-06 中国农业大学 一种基于文本的农业视频智能分类方法及装置
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体的分类检索系统的设计与实现;靳伟;《中国优秀硕士学位论文全文数据库》;20101015;全文 *

Also Published As

Publication number Publication date
CN107577760A (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN110717034A (zh) 一种本体构建方法及装置
US20200004765A1 (en) Unstructured data parsing for structured information
CN110458296B (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN112036153A (zh) 工单纠错方法、装置、计算机可读存储介质和计算机设备
CN110555205A (zh) 否定语义识别方法及装置、电子设备、存储介质
CN111814482B (zh) 文本关键数据的提取方法、系统和计算机设备
CN113728321A (zh) 利用训练表的集合来准确预测各种表内的错误
CN107577760B (zh) 一种基于约束规范的文本分类方法及装置
KR101851786B1 (ko) 챗봇의 트레이닝 세트 레이블링을 위한 가상 레이블 생성 장치 및 방법
CN111046627B (zh) 一种中文文字显示方法及系统
CN111369294A (zh) 软件造价估算方法及装置
CN110852082B (zh) 同义词的确定方法及装置
CN112434071B (zh) 一种基于数据图谱的元数据血缘关系与影响分析平台
US11397853B2 (en) Word extraction assistance system and word extraction assistance method
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN113590825A (zh) 文本质检方法、装置及相关设备
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
US10120652B2 (en) System and method for representing software development requirements into standard diagrams
CN107220249A (zh) 基于分类的全文搜索
CN113778875B (zh) 一种系统测试缺陷分类方法、装置、设备及存储介质
CN117114142B (zh) 基于ai的数据规则表达式生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190906

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building block A Room 601

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CP03 Change of name, title or address