具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
现有技术的文本分类方法从技术上主要分类两类,即统计分类和规则分类。其中,规则分类通过定义的各种规则组合去匹配文本。
示例地,规则可以是通过分类表达式的形式体现。下文示出了一个现有技术的用于文本匹配的正则表达式:
小明.{0,5}上海
通过上述表达式能够匹配到例如包含:“小明和同学们去上海”的内容。
上述现有技术的基于规则的文本分类方法存在的问题是:一条文本分类规则能够匹配的地名、人名等文本概念的规模十分有限。举例来说,分类表达式“小明.{0,5}上海”只能匹配到包含“小明”并且在“小明”之后间隔0~5个字符包含“上海”的文本;例如“小明去上海”“小明和同学们去上海”等。但是,如果待分类文本中包含:“小明和同学们去北京”“玛丽出差到上海”等内容,即使这些文本与“小明和同学们去上海”包含了相同类型的文本概念(在本申请中,文本概念包括文本中具有真实语义的概念实体和文本中包含的句法依存关系),也不能被现有技术中的分类表达式“小明.{0,5}上海”匹配,因此,在现有技术中,如果要通过规则匹配到这些文本,本领域技术人员也必须要继续设计新的分类表达式,例如:
小明.{0,5}北京
玛丽.{0,5}上海
因此,由于现有技术中每个分类规则能够匹配的文本概念规模有限,在基于规则的文本分类方法中,为了实现大规模的文本分类,本领域技术人员需要设计规模庞大的分类规则,导致分类规则数量过多、体积巨大,影响文本分类效率。
为了解决现有技术中分类规则规模庞大,文本分类效率低的问题,本申请提供了一种文本概念分类方法、装置及服务器。
下面是本申请的方法实施例。
图1是本申请一示例性实施例示出的一种文本概念分类方法的流程图。该方法可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。
参见图1所示,该方法可以包括以下步骤:
步骤S110,建立带有算子元素的分类表达式。
在计算机科学中,分类表达式(例如正则表达式)用来以单个字符串的形式描述或者匹配一系列符合某个句法规则的文本。在很多文本编辑器或其他工具里,分类表达式通常被用来检索和/或替换那些符合某个句法规则的文本。
本申请与现有技术的分类表达式设计思路不同的是:现有技术中的分类表达式是基于“字符+规则”的匹配方式去匹配文本,而本申请中,在建立分类表达式时,在分类表达式中加入了算子元素,其中,算子既可以独立形成一个分类表达式,也可以融合在现有技术的分类表达式中,实现“算子”或“算子+规则”或“算子+字符+规则”等不同的匹配方式。
下面以一些示例详细说明本申请带有算子元素的分类表达式的设计思路:
本申请设计的算子元素包括定义型算子元素和依存型算子元素。其中,定义型算子元素由类型标签和实体标签组成,用于从待分类文本中匹配特定类型的概念实体;依存型算子元素由前置标签、类型标签和规则标签组成,用于从待分类文本中匹配特定的句法依存关系。具体地,类型标签用于标记所述算子元素的类型,例如:定义型或依存型;实体标签用于声明所述定义型算子元素可匹配的概念实体类型,例如人称类概念实体、地名类概念实体等;前置标签用于在待分类文本中确定匹配的锚点;规则标签用于以所述锚点为起点,搜寻待分类文本中是否存在与所述规则标签相匹配的句法依存关系。
为了帮助本领域技术人员更好地理解本申请的技术方案和设计思想,本申请在此处对上文出现的概念做补充说明。第一,概念实体是指文本中表达客观事物或概念的字、词或词组,一般来说,概念实体可以被分成多个类别,例如:张三、王五、赵六是人称类概念实体,河南省、北京市、河北省是地名类概念实体,国家专利局、神州泰岳等是机构名称类实体,今天、1993年、前几天是时间类概念实体。第二,句法依存关系是指文本中的“主谓宾”“定状补”等语法成分之间形成的特定依存关系,例如:在文本“张三邀请了王五”中,“张三”作为主语,是谓语动作“邀请”的施事成分,“赵六”作为宾语,是谓语动作“邀请”的受事成分,因此,“张三邀请了王五”包含的是“施事成分+施事动作+受事成分”的句法依存关系。
下面分别对本申请设计的定义型算子元素和依存型算子元素的表达形式做出示例性说明:
1.定义型算子元素。
示例地,一种用于匹配人称类概念实体的定义型算子元素可以是以下字符表达形式:PD_PER。其中,字符“PD_”为类型标签,用于声明该表达式元素为定义型算子元素,字符“PER”为人称类概念实体标签,用于从文本中匹配出所有的人名实体。
此外,定义型算子元素的实体标签还可以是:“PLACE”,用于匹配文本中的所有地名实体;“ORG”,用于匹配文本中的所有机构名称实体;“TIME”,用于匹配文本中所有的时间实体。
需要补充说明的是,本申请通过示例具体阐述了由“类型标签+实体标签”组成定义型算子元素的技术构思,在示例中示出的“PD_PER”“PD_”“PLACE”等字符表达形式仅作为定义型算子元素在分类表达式中的字符表达形式的示例,本申请公开的定义型算子元素不仅局限于使用上述示例中公开的字符表达形式去表示,本领域技术人员在本申请的技术构思下,设计其他的定义型算子元素的字符表达形式,这些设计都没有背离本发明的精神和保护范围。
2.依存型算子元素。
示例地,一种用于从文本中匹配施事关系的依存型算子元素可以是以下字符表达形式:PD_PER@DC#施事。其中,PD_PER是一个定义型算子元素,它在该依存型算子元素的角色是前置标签;@DC为类型标签,用于声明该表达式元素为依存型算子元素;#施事是一种规则标签,它表示文本能够匹配到该依存型算子元素的条件是:文本中包含与前置标签匹配的内容,并且,前置标签匹配到的内容在文本中作为施事成分而存在。
需要补充说明的是,上述示例中将定义型算子元素作为依存型算子元素的前置标签,仅仅是前置标签的一种存在形式。可以理解的是,前置标签还可以是字符形式,例如,在“K_张三.@DC#施事”中,前置标签为“K_张三”(其中,“K”是可选择地对字符添加的标签,该标签可以有多种形式,例如:K为关键词标签,“K_张三”中,“张三”为关键词,等同于直接使用“张三”;C为概念集合,可形成例如“C_褒义评价”的前置标签,褒义评价具体包含哪些概念由本领域技术人员自行设计确定;E为要素集合,可形成例如“E_财物”的前置标签,财务具体可包含那些要素实体有本领域技术人员自行设计确定),该依存型算子元素用于匹配文本中包含字符“张三”,且“张三”在文本中作为施事成分的内容;此外,前置标签还可以是另一个依存型算子元素,以形成一个更复杂的依存型算子元素,用来匹配文本中复杂的句法依存关系。
需要进一步补充说明的是,本申请通过示例具体阐述了由“前置标签+类型标签+规则标签”组成依存型算子元素的技术构思,在示例中示出的“@DC”“#施事”等字符表达形式仅作为依存型算子元素在分类表达式中的字符表达形式的示例,本申请公开的依存型算子元素不仅局限于使用上述示例中公开的字符表达形式去表示,本领域技术人员在本申请的技术构思下,设计其他的依存型算子元素的字符表达形式,这些设计都没有背离本发明的精神和保护范围。
作为示例地,本申请在步骤S110中建立的带有算子元素的分类表达式可以是以下表达形式:
PD_PER+{0,5}+PD_TIME
PD_PER+c_褒义评价
PD_PER@DC#施事+{0,5}+e_财物
下面具体对上述三个分类表达式进行解释说明:
PD_PER+{0,5}+PD_TIME:能够匹配包含人称类概念实体且在人称类概念实体后0至5个字符的距离之后出现时间类概念实体的文本。
PD_PER+c_褒义评价:能够匹配包含人称类概念实体且人称类概念实体后相邻存在褒义评价类概念的文本。
PD_PER@DC#施事+{0,5}+e_财物:能够匹配包含人称类概念实体且在人称类概念实体后0至5个字符的距离之后出现财务类概念的文本。
需要进一步补充说明的是,在分类表达式“PD_PER+{0,5}+PD_TIME”共包含两个定义型算子元素,这两个定义型算子元素通过连接符“+”与一般的表达式元素“{0,5}”连接,组成完整的分类表达式,属于多个定义型算子元素的组合用法。因此,在本申请的实际应用中,本领域技术人员可以根据本申请的技术构思,将多个定义型算子元素的组合形成定义型算子元素组,可用于从待分类文本中匹配出同时包含多个特定类型概念实体的文本,这些设计都没有背离本发明的精神和保护范围。
步骤S120,在进行文本分类时,将分类表达式拆分成多个表达式元素。
本申请中,可根据预先设置的文本类别,建立分类表达式的节点树。其中,节点树中根据预先设置的文本类别之间的层次关系可设置多个层次的节点,每个节点对应一个文本类别,每个节点中可包含多个分类表达式。
本申请中,基本思路是在文本概念分类时,使用节点树中的分类表达式对待分类文本进行逐一匹配。在匹配时,首先,将分类表达式拆分成多个表达式元素,每一个表达式元素都可以独立地从待分类文本中匹配出特定的内容;然后,使用拆分出的表达式元素,按照其在分类表达式中的顺序,有序地对待分类文本进行匹配。
下面以具体示例说明将分类表达式拆分成多个表达式元素的过程。
示例地,待拆分的分类表达式为:PD_PER+{0,5}+PD_TIME
首先,获取分类表达式中的连接符“+”;然后,从连接符“+”处打断分类表达式,从而将分类表达式拆分成多个表达式元素。上述示例的分类表达式,将会被拆分成三个表达式元素:PD_PER、{0,5}、PD_TIME。
需要补充说明的是,一些分类表达式的表示方式可能不包含连接符,对于不包含连接符的分类表达式,在拆分时,可根据类型标签对分类表达式进行表达式元素的解析,然后根据解析结果,将分类表达式拆分成一个个独立的表达式元素。
步骤S130,从拆分后的分类表达式中获取算子元素,根据所述算子元素的匹配规则对待分类文本进行匹配检验。
本申请中,如果能够从拆分后的分类表达式中获取到算子元素,那么根据算子元素的匹配规则对待分类文本进行匹配检验。其中,算子元素的匹配规则是指利用算子元素中的各类标签对待分类文本进行匹配检验的逻辑步骤。
为了帮助本领域普通技术人员进一步理解本申请的技术方案和思想,下面结合具体示例,对步骤S130中根据算子元素的匹配规则对待分类文本进行匹配检验的过程做出具体阐述说明。
图2是本申请一示例性实施例示出的一种算子元素的匹配规则的流程图。
如图2所示,在一种可选择的实施方式中,算子元素的匹配规则包括以下步骤:
步骤S210,如果获取到定义型算子元素,则抽取待分类文本中的所有概念实体。
从拆分后的分类表达式中获取定义型算子元素,则首先抽取待分类文本中的所有概念实体。
具体地,一种从待分类文本中抽取概念实体的方法可以包括:首先,对待分类文本进行分词;然后,对待分类文本的分词进行词性分析,以从待分类文本的分词结果中抽取出表达的客观事物或概念的概念实体。或者,预先建立一个概念实体库,并使用概念实体库从待分类文本中匹配并抽取概念实体。可以理解的是,从待分类文本中抽取概念实体不仅局限于上述公开的方法,本领域技术人员在本申请的技术构思的启示下,设计其他的从待分类文本中的抽取概念实体的方法,这些设计都没有背离本发明的精神和保护范围。
下面以一个具体示例,具体阐述本申请实施例步骤S210的实施过程,在本申请实施例步骤S220和步骤S230中将沿用步骤S210中的示例。
示例地,分类表达式为:PD_PER+{0,5}+PD_TIME
该分类表达式拆分后得到三个表达式元素:PD_PER、{0,5}和PD_TIME。其中,PD_PER和PD_TIME均为定义型算子元素,那么,在步骤S210中要抽取待分类文本中所有的概念实体。
示例地,待分类文本为:小明计划明天去郊游
首先,对示例的待分类文本进行分分词,得到例如下面的分词结果:
小明/计划/明天/去/郊游
然后,通过对分词结果进行词性分析,或者,使用概念实体库匹配等方法,抽取待分类文本中的所有概念实体。例如:从示例文本中可抽取到的概念实体有:小明、明天。
步骤S220,将所述定义型算子元素与抽取到的概念实体进行逐一匹配。
本申请中,基本思路是使用定义型算子元素与抽取到的概念实体进行逐一匹配,以检验抽取到的概念实体中是否存在与定义型算子元素匹配的特定类型的概念实体。由于,定义型算子元素属于分类表达式中的多个表达式元素之一,在匹配时,要遵循分类表达式的匹配规则,即:按照表达式元素在分类表达式中的顺序依次对待分类文本进行匹配。此外,带有算子元素的分类表达式中,也包含其他非算子元素,这些非算子元素(例如:{0,5})属于现有技术的表达式元素,遵循现有技术的匹配规则,本申请对这一类表达式元素的匹配规则不做具体说明。此外,本领域技术人员应当理解:本申请提出的算子元素可与现有技术的各种表达式元素进行按需组合,灵活地设计用于匹配各类文本的带有算子元素的分类表达式,这些设计都没有背离本发明的精神和保护范围。
沿用步骤S210的示例,分类表达式拆分后共获得两个定义型算子元素:PD_PER和PD_TIME。其中,PD_PER用于从待分类文本中匹配人称类概念实体,PD_TIME用于从待分类文本中匹配事件类实体。根据PD_PER和PD_TIME在分类表达式中的顺序,首先,使用PD_PER匹配人称类概念实体;然后,使用PD_TIME匹配时间类概念实体;此外,表达式元素{0,5},表示PD_PER和PD_TIME匹配到的内容之间须包含0~5个字符。
步骤S230,如果匹配成功,则所述待分类文本通过所述定义型算子元素的匹配检验。
示例地,从待分类文本中抽取到的概念实体有:小明、明天。使用PD_PER能够成功匹配到“小明”,使用PD_TIME能够成功匹配到“明天”,说明待分类文本“小明计划明天去郊游”通过PD_PER和PD_TIME的匹配检验;然后,将PD_PER匹配到“小明”、PD_TIME匹配到“明天”作为匹配结果记录下来,以及,记录“小明”和“明天”在待分类文本中的位置。
下面继续沿用上述示例详细阐述如何准确表达一个概念实体在文本中的位置。
首先,文本“小明计划明天去郊游”可定义9个位置,其中,“小”定义为“0”位,“游”定义为“9”位;然后,以[起始位置,结束位置]的表达形式去表达概念实体在文本中的位置,例如:“小明”在文本中的位置可以表示为[0,1],“明天”在文本中的位置可以表示为[5,6]。
需要补充说明的是,本申请在步骤S210~S230中,根据分类表达式中的算子元素实现了对文本中的文本概念的分类匹配,即:示例中将“小明”匹配为人称类概念实体,将“明天”匹配为时间类概念实体。在此基础上,如果要将一条完整的待分类文本分类到一个文本类别中,需要继续通过一个分析步骤实现,即:
步骤S140,如果待分类文本能够通过分类表达式中所有表达式元素的匹配检验,则将待分类文本分类到表达式所在的文本类别中。
示例地,分类表达式“PD_PER+{0,5}+PD_TIME”共包含3个表达式元素,且待分类文本“小明计划明天去郊游”通过了表达式元素“PD_PER”和“PD_TIME”的匹配检验,那么,如果“{0,5}”对该文本的匹配检验也通过,则“小明计划明天去郊游”将会被分类到“PD_PER+{0,5}+PD_TIME”所在的文本类别中。
图3是本申请一示例性实施例示出的另一种算子元素的匹配规则的流程图。
如图3所示,在一种可选择的实施方式中,算子元素的匹配规则包括以下步骤:
步骤S310,如果获取到依存型算子元素,根据所述前置标签在待分类文本中确定匹配的锚点。
本申请中,由于依存型算子元素在文本匹配时,需要以锚点为起点在待分类文本中搜寻特定的句法成分。因此,为了开启搜寻过程,首选要根据前置标签确定锚点的位置。
前置标签可以是一个定义型算子元素,例如“PD_PER@DC#施事”中的“PD_PER”;可以是一段用于匹配特定文本的字符,例如“K_张三.@DC#施事”中的“K_张三”;还可以是另一个句法依存型算子。关于前置标签的具体说明,在本申请实施例上文中已有详细的阐述,此处不在具体赘述。
下面以一个具体示例,具体阐述本申请实施例步骤S310的实施过程,在本申请实施例步骤S320和步骤S330中将沿用步骤S310中的示例。
示例地,分类表达式为:PD_PER@DC#施事+{0,5}+e_财物
该分类表达式拆分后得到三个表达式元素:PD_PER@DC#施事、{0,5}、e_财物。其中,“PD_PER@DC#施事”为依存型算子元素,那么,在步骤S310中要根据依存型算子元素中的前置标签PD_PER在待分类文本中确定匹配的锚点。
示例地,待分类文本为:张三拿了桌上的现金
前置标签PD_PER是一个用于匹配人称类概念实体的定义型算子元素。参见本申请实施例的图2,以及步骤S210-S230中对定义型算子元素的匹配规则的阐述说明,使用PD_PER能够从待分类文本中匹配到人称类概念实体“张三”,那么,“张三”就是该依存型算子元素进行文本匹配时的锚点。
步骤S320,以所述锚点为起点,搜寻待分类文本中是否存在与所述规则标签相匹配的句法依存关系。
示例地,为了分析“张三”在待分类文本中是否是施事成分,可以对待分类文本进行句法成分分析,分析结果如下:
张三(施事成分)拿了(核心成分)桌子上的(修饰成分)现金(受事成分)
从分析结果可以看出:“张三”是待分类文本中的施事成分,即:与规则标签相匹配的句法依存关系存在。
步骤S330,如果存在,则所述待分类文本通过所述依存型算子元素的匹配检验。
需要补充说明的是,本申请在步骤S310~步骤S330中,根据分类表达式中的算子元素实现了对文本中的文本概念的分类匹配,即:示例中匹配到了“张三”是待分类文本中的施事成分。在此基础上,如果要将一条完整的待分类文本分类到一个文本类别中,需要继续通过一个分析步骤实现,即:
步骤S140,如果待分类文本能够通过分类表达式中所有表达式元素的匹配检验,则将待分类文本分类到表达式所在的文本类别中。
示例地,分类表达式共包含3个表达式元素,且,“PD_PER@DC#施事”匹配到了施事成分“张三”,那么,如果“e_财物”(用于从文本中匹配财务类概念,例如:现金、珠宝、银行卡等)和“{0,5}”(表示“PD_PER@DC#施事”和“e_财物”匹配到的内容之间须包含0~5个字符)对该文本的匹配检验也通过,则“张三拿了桌子上的现金”将会被分类到“PD_PER@DC#施事+{0,5}+e_财物”所在的文本类别中。
在一种可选择的实施方式中,依存型算子元素可以进一步包括:方向标签。
其中,方向标签可以包括左标签和右标签。
示例地,如果以#L表示左标签,以#R表示右标签,那么,带有方向标签的依存型算子元素可以表示为以下形式:
PD_PER@DC#施事#L或PD_PER@DC#施事#R
其中,带有左标签的依存型算子元素“PD_PER@DC#施事#L”匹配到的文本须具有的句法依存关系为:文本中包含人称类概念实体,且该人称类概念实体之前(左侧)存在施事成分。带有右标签的依存型算子元素“PD_PER@DC#施事#R”匹配到的文本须具有的句法依存关系为:文本中包含人称类概念实体,且该人称类概念实体之后(右侧)存在施事成分。
本申请一示例性实施例示出了另一种算子元素的匹配规则,应用于带有方向标签的依存型算子元素。图4是该算子元素的匹配规则的流程图。
参见图4所示,该算子元素的匹配规则可以包括以下步骤:
步骤S410,如果获取到依存型算子元素,根据所述前置标签在待分类文本中确定匹配的锚点。
下面以一个具体示例,具体阐述本申请实施例步骤S410的实施过程,在本申请实施例步骤S420和步骤S430中将沿用步骤S410中的示例。
示例地,分类表达式为:PD_PER@DC#施事#L
待分类文本为:张三说服了赵六
前置标签PD_PER是一个用于匹配人称类概念实体的定义型算子元素。参见本申请实施例的图2,以及步骤S210-S230中对定义型算子元素的匹配规则的阐述说明,使用PD_PER能够匹配到文本中的人称类概念实体“张三”和“赵六”,那么,“张三”和“赵六”就是该依存型算子元素进行匹配的锚点。
步骤S420,以所述锚点为起点,沿所述方向标签指定的方向搜寻待分类文本中是否存在与所述规则标签相匹配的句法依存关系。
示例地,在步骤S420中,分别以“张三”和“赵六”为起点,查找文本的左侧是否存在施事成分。具体地,可以对待分类文本进行句法成分分析,分析结果如下:
张三(施事成分)说服了(核心成分)赵六(受事成分)
从分析结果可以看出:“张三”的左侧不存在施事成分(因为“张三”左侧不存在字符),但是,“赵六”的左侧存在施事成分“张三”,即:与规则标签相匹配的句法依存关系存在。
步骤S430,如果存在,则所述待分类文本通过所述依存型算子元素的匹配检验。
示例地,由于人称类概念实体“赵六”的左侧存在施事成分“张三”,因此,“张三说服了赵六”能够通过“PD_PER@DC#施事#L”的匹配检验。
需要补充说明的是,本申请在步骤S410~步骤S430中,根据分类表达式中的算子元素实现了对文本中的文本概念的分类匹配,即:示例中匹配到了“赵六”左侧存在施事成分“张三”。在此基础上,如果要将一条完整的待分类文本分类到一个文本类别中,需要继续通过一个分析步骤实现,即:
步骤S140,如果待分类文本能够通过分类表达式中所有表达式元素的匹配检验,则将待分类文本分类到表达式所在的文本类别中。
示例地,分析待分类文本是否能够通过分类表达式中所有表达式元素的匹配检验。由于分类表达式仅包含1个表达式元素,说明待分析文本通过了所有表达式元素的匹配检验,因此,“张三说服了赵六”将会被分类到“PD_PER@DC#施事#L”所在的文本类别中。
在一种可选择的实施方式中,依存型算子元素可以进一步包括:方向标签和范围标签。
其中,方向标签可以包括左标签和右标签;范围标签可以包括最大范围标签,以及最小范围标签和最大范围标签的组合。
示例地,如果以#L表示左标签,以#R表示有标签,以#数字表示范围标签,那么,带有方向标签和范围标签的依存型算子元素可以表示为以下形式:
PD_PER@DC#施事#L#5或PD_PER@DC#施事#L#2#5
其中,带有左标签和最大范围标签的依存型算子元素“PD_PER@DC#施事#L#5”匹配到的文本须具有的句法依存关系为:文本中包含人称类概念实体,且该人称类概念实体之前(左侧)5个字符范围内存在施事成分。带有左标签、最小范围标签、最大范围标签的依存型算子元素“PD_PER@DC#施事#L#2#5”匹配到的文本须具有的句法依存关系为:文本中包含人称类概念实体,且该人称类概念实体之前(左侧)2~5个字符范围区间内存在施事成分。
本申请一示例性实施例示出了另一种算子元素的匹配规则,应用于带有方向标签和范围标签的依存型算子元素。图5是该算子元素的匹配规则的流程图。
参见图5所示,该算子元素的匹配规则可以包括以下步骤:
步骤S510,如果获取到依存型算子元素,根据所述前置标签在待分类文本中确定匹配的锚点。
下面以一个具体示例,具体阐述本申请实施例步骤S510的实施过程,在本申请实施例步骤S520和步骤S530中将沿用步骤S510中的示例。
示例地,分类表达式为:PD_PER@DC#施事#L#2#5
待分类文本为:张三说服了赵六
前置标签PD_PER是一个用于匹配人称类概念实体的定义型算子元素。参见本申请实施例的图2,以及步骤S210-S230中对定义型算子元素的匹配规则的阐述说明,使用PD_PER能够匹配到文本中的人称类概念实体“张三”和“赵六”,那么,“张三”和“赵六”就是该依存型算子元素进行匹配的锚点。
步骤S520,以所述锚点为起点,沿所述方向标签指定的方向,在所述范围标签限定的范围内搜寻待分类文本中是否存在与所述规则标签相匹配的句法依存关系。
示例地,在步骤S520中,分别以“张三”和“赵六”为起点,查找文本的左侧是否存在施事成分。具体地,可以对待分类文本进行句法成分分析,分析结果如下:
张三(施事成分)说服了(核心成分)赵六(受事成分)
从分析结果可以看出:“张三”的左侧2~5个字符范围区间内不存在施事成分(因为“张三”左侧没有字符存在),“赵六”的左侧2~5个字符范围区间内存在施事成分“张三”,即:与规则标签相匹配的句法依存关系存在。
步骤S530,如果存在,则所述待分类文本通过所述依存型算子元素的匹配检验。
示例地,由于人称类概念实体“赵六”的左侧2~5个字符范围区间内存在施事成分“张三”,因此,“张三说服了赵六”通过“PD_PER@DC#施事#L”的匹配检验。
需要补充说明的是,本申请在步骤S510~步骤S530中,根据分类表达式中的算子元素实现了对文本中的文本概念的分类匹配,即:示例中“赵六”左侧2~5个字符范围内存在施事成分“张三”。在此基础上,如果要将一条完整的待分类文本分类到一个文本类别中,需要继续通过一个分析步骤实现,即:
步骤S140,如果待分类文本能够通过分类表达式中所有表达式元素的匹配检验,则将待分类文本分类到表达式所在的文本类别中。
示例地,分析待分类文本是否能够通过分类表达式中所有表达式元素的匹配检验。由于分类表达式仅包含1个表达式元素,说明待分析文本通过了所有表达式元素的匹配检验,因此,“张三说服了赵六”将会被分类到“PD_PER@DC#施事#L#2#5”所在的文本类别中。
在一种可选择的实施方式中,步骤S130之后还可以包括:
步骤S140,统计并展示分类表达式的匹配结果。
其中,所述匹配结果至少包括:从拆分后的分类表达式中获取的算子元素,以及,带有算子元素的分类表达式匹配到的文本。
示例地,分类表达式的匹配结果可以展示为:
分类表达式 |
算子元素 |
匹配到的文本 |
PD_PER+{0,5}+PD_TIME |
PD_PER、PD_TIME |
小明计划明天去郊游 |
PD_PER@DC#施事+{0,5}+e_财物 |
PD_PER@DC#施事 |
张三拿了桌上的现金 |
PD_PER@DC#施事#L |
PD_PER@DC#施事#L |
张三说服了赵六 |
由以上技术方案可知,本申请实施例提供了一种文本概念分类方法。其中,该方法包括:建立带有算子元素的分类表达式;在进行文本分类时,将分类表达式拆分成多个表达式元素;从拆分后的分类表达式中获取算子元素,根据算子元素的匹配规则对待分类文本进行匹配检验。本申请设计的算子元素包括定义型算子元素和依存型算子元素,能够分别从待分类文本中匹配特定类型的概念实体和特定的句法依存关系。与现有技术相比,本申请提供的带有算子元素的分类表达式对文本概念的概括性更强,覆盖同等规模的分类规则所需的分类表达式的数量更少,因此,本申请提供的技术方案能够实现在减少分类表达式数量的同时,取得更好的文本分类效果,提高文本分类效率。
下面是本申请的装置实施例,可用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6是本申请一示例性实施例示出的一种文本概念分类装置的示意图。该装置可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。
参见图6所示,该装置可以包括:
表达式建立模块610,用于建立带有算子元素的分类表达式;
前处理模块620,用于在进行文本分类时,将分类表达式拆分成多个表达式元素;
匹配检验模块630,用于从拆分后的分类表达式中获取算子元素,根据所述算子元素的匹配规则对待分类文本进行匹配检验;
其中,所述算子元素包括定义型算子元素和依存型算子元素;
所述定义型算子元素由类型标签和实体标签组成,用于从待分类文本中匹配特定类型的概念实体;其中,所述类型标签用于标记所述算子元素的类型,所述实体标签用于声明所述定义型算子元素可匹配的概念实体类型;
所述依存型算子元素由前置标签、类型标签和规则标签组成,用于从待分类文本中匹配特定的句法依存关系;其中,所述前置标签用于在待分类文本中确定匹配的锚点;所述规则标签用于声明所述依存型算子元素可匹配的句法依存关系。
由以上技术方案可知,本申请实施例提供了一种文本概念分类装置。其中,该装置用于:建立带有算子元素的分类表达式;在进行文本分类时,将分类表达式拆分成多个表达式元素;从拆分后的分类表达式中获取算子元素,根据算子元素的匹配规则对待分类文本进行匹配检验。本申请设计的算子元素包括定义型算子元素和依存型算子元素,能够分别从待分类文本中匹配特定类型的概念实体和特定的句法依存关系。与现有技术相比,本申请提供的带有算子元素的分类表达式对文本概念的概括性更强,覆盖同等规模的分类规则所需的分类表达式的数量更少,因此,本申请提供的技术方案能够实现在减少分类表达式数量的同时,取得更好的文本分类效果,提高文本分类效率。
下面是本申请的设备实施例,提供一种服务器,可用于执行本申请的方法实施例。对于本申请设备实施例中未披露的细节,请参照本申请方法实施例。
图7是本申请一示例性实施例示出的一种服务器的示意图。
参见图7所示,该服务器可以包括:
处理器710和存储器720;
所述存储器720用于存储所述处理器710的可执行程序;
所述处理器710被配置为执行以下程序步骤:
建立带有算子元素的分类表达式;
在进行文本分类时,将分类表达式拆分成多个表达式元素;
从拆分后的分类表达式中获取算子元素,根据所述算子元素的匹配规则对待分类文本进行匹配检验;
其中,所述算子元素包括定义型算子元素和依存型算子元素;
所述定义型算子元素由类型标签和实体标签组成,用于从待分类文本中匹配特定类型的概念实体;其中,所述类型标签用于标记所述算子元素的类型,所述实体标签用于声明所述定义型算子元素可匹配的概念实体类型;
所述依存型算子元素由前置标签、类型标签和规则标签组成,用于从待分类文本中匹配特定的句法依存关系;其中,所述前置标签用于在待分类文本中确定匹配的锚点;所述规则标签用于声明所述依存型算子元素可匹配的句法依存关系。
由以上技术方案可知,本申请实施例提供了一种服务器。其中,该服务器被配置为:建立带有算子元素的分类表达式;在进行文本分类时,将分类表达式拆分成多个表达式元素;从拆分后的分类表达式中获取算子元素,根据算子元素的匹配规则对待分类文本进行匹配检验。本申请设计的算子元素包括定义型算子元素和依存型算子元素,能够分别从待分类文本中匹配特定类型的概念实体和特定的句法依存关系。与现有技术相比,本申请提供的带有算子元素的分类表达式对文本概念的概括性更强,覆盖同等规模的分类规则所需的分类表达式的数量更少,因此,本申请提供的技术方案能够实现在减少分类表达式数量的同时,取得更好的文本分类效果,提高文本分类效率。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。