发明内容
本发明实施例为了解决上述提及的现有技术在服务门店名的识别中所存在的问题,创造性的提供一种用于识别服务门店名的方法、设备及计算机可读存储介质。
根据本发明实施例的第一方面,提供一种用于识别服务门店名的方法,所述方法包括:获取测试文本;通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;将所生成的词图与用于识别服务门店名的规则模板进行匹配;若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
根据本发明实施例的第二方面,提供一种规则模板的构建方法,所述方法包括:获取包括服务门店名的文本集;针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,针对所述包括服务门店名的文本集中的文本进行数据预处理,包括:获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明一实施方式,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
根据本发明实施例的第三方面,提供一种用于识别服务门店名的设备,所述设备包括获取装置,用于获取测试文本;切分处理装置,用于通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;匹配装置,用于将所生成的词图与用于识别服务门店名的规则模板进行匹配;确定装置,用于若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述确定装置还用于,若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述设备还包括判定装置,用于若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
根据本发明实施例的第四方面,提供一种规则模板的构建装置,所述装置包括:获取模块,用于获取包括服务门店名的文本集;数据预处理模块,用于针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;决策树构建模块,用于利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,所述数据预处理模块还用于,获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一所述用于识别服务门店名的方法或用于执行上述任一所述规则模板的构建方法。
本发明实施例用于识别服务门店名的方法、设备及计算机可读存储介质,首先获取测试文本,接着通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;进一步将所生成的词图与用于识别服务门店名的规则模板进行匹配;最后若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。如此,本发明利用数据预处理得到的用于识别服务门店名的词典及规则模板来对文本中的服务门店名加以识别,与传统的深度学习方法相比,识别过程简单,且效率高,易于在智能终端上运行,从而提升用户体验。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明在对文本进行服务门店名识别之前,需要首先通过数据预处理得到的用于识别服务门店名的词典及规则模板,图1示出了本发明实施例规则模板的构建方法的实现流程示意图。
参考图1,本发明实施例规则模板的构建方法包括:操作101,获取包括服务门店名的文本集;操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
在操作101,服务门店名可以包括诸如餐厅名或酒店名的实体名称。包括服务门店名的文本集可以包括诸如“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”,“今天我想去潮汕牛肉火锅店吃火锅”,“太晚了没车了,我们去七天连锁酒店住一晚上,明天再回去吧”之类的包括餐厅名或酒店名的任意的文本集。
在操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,包括:获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
其中,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
具体地,针对所述包括服务门店名的文本集中的文本进行数据预处理时,可以将数据统一处理成:xx:1:xx出现的频次(即一个开头词及词频)、xx:2:xx出现的频次(即一个中间词及词频)、xx:3:xx出现的频次(即一个结尾词及词频)、xx:4:xx出现的频次(即服务门店名本身即词频)、xx:11:xx出现的频次(前一个特征词及词频)和xx:12:xx出现的频次(后一个特征词及词频)的格式,最后这些数据格式组成一个用于识别服务门店名的词典。
以餐厅实体的识别为例:文本为“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”,对应的标注对象为“蜀都佳宴神话烤鱼”。
首先,进行餐厅实体的处理,即对“蜀都佳宴神话烤鱼”进行分词,获取到蜀都、佳、宴、神话、烤、鱼,从而将餐厅实体标记成:蜀都:1:1,佳:2:1,宴:2:1,神话:2:1,烤鱼:3:1。(若分词为本身则标记为4:1)
进一步地,对文本的预处理,即获取标注对象的前一个特征词和后一个特征词,并进行标记,即!:11:1,坐标:12:1,其中11代表餐厅实体的前一个特征词,12代表餐厅实体的后一个特征词。
这样,本发明实施例针对文本集中部分或全部文本进行数据预处理后,即可获得很多的能做服务门店名本身的词和服务门店名前后特征词,从而形成一个词典。这个词典就是后续用来识别服务门店名的重要数据来源。
在操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。参照如图2所示的规则模板,其中P代表服务门店名的前一个特征词,B代表服务门店名的开头词,M代表服务门店名的中间词,E代表服务门店名的结尾词,S代表服务门店名本身,N代表服务门店名的后一个特征词。
同样,基于如上文所述规则模板的构建方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,获取包括服务门店名的文本集;操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
进一步地,基于上文所述规则模板的构建方法,本发明实施例还提供一种规则模板的构建装置,如图3所示,所述装置30包括:获取模块301,用于获取包括服务门店名的文本集;数据预处理模块302,用于针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;决策树构建模块303,用于利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,所述数据预处理模块302还用于,获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明一实施方式,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
这里需要指出的是:以上对规则模板的构建装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对规则模板的构建装置实施例中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
在基于上文提到的通过数据预处理得到的用于识别服务门店名的词典及如图2所示的规则模板之后,即可进一步再利用用于识别服务门店名的词典及规则模板对测试文本中的服务门店名加以识别。
图4示出了本发明实施例用于识别服务门店名的方法的实现流程示意图。
参考图4,本发明实施例用于识别服务门店名的方法包括:操作401,获取测试文本;操作402,通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;操作403,将所生成的词图与用于识别服务门店名的规则模板进行匹配;操作404,若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
在操作401-402,以测试文本为“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”为例,通过词典进行分词处理,从而生成如图5所示的词图。参照图5,该词图至少包括“词或字”、“可在的位置”两栏;其中,“可在的位置”一栏中的P代表服务门店名的前一个特征词,B代表服务门店名的开头词,M代表服务门店名的中间词,E代表服务门店名的结尾词,S代表服务门店名本身,N代表服务门店名的后一个特征词。
根据本发明一实施方式,在操作403之后,所述方法还包括:若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。当然,此时字段较短的匹配项必然是字段最长的匹配项的子集。
根据本发明一实施方式,在操作403之后,所述方法还包括:若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。以诸如餐厅名或酒店名的服务门店名为例,即对于获取到的未登录词,需要判断是不是真实的属于餐厅或酒店。因此会对实体本身进行判断,以餐厅名为例,判断是否含有餐厅、饭馆、火锅、麻辣烫、肯德基等。当然,在实际判定时,还可以进一步判断是否有有黑词,或者其他限制条件。
本发明实施例用于识别服务门店名的方法,首先获取测试文本,接着通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;进一步将所生成的词图与用于识别服务门店名的规则模板进行匹配;最后若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。如此,本发明利用数据预处理得到的用于识别服务门店名的词典及规则模板来对文本中的服务门店名加以识别,与传统的深度学习方法相比,识别过程简单,且效率高,易于在智能终端上运行,从而提升用户体验。而且,本发明在数据测试过程中,对于出现的不合适的服务门店名,可以通过不断的进行数据测试来丰富词典,以不但实现词典的状态优化,最终形成一套用于识别服务门店名的方法。
同样,基于如上文所述用于识别服务门店名的方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作401,获取测试文本;操作402,通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;操作403,将所生成的词图与用于识别服务门店名的规则模板进行匹配;操作404,若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
进一步地,基于上文所述用于识别服务门店名的方法,本发明实施例还提供一种用于识别服务门店名的设备,如图6所示,所述用于识别服务门店名的设备60包括:获取装置601,用于获取测试文本;切分处理装置602,用于通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;匹配装置603,用于将所生成的词图与用于识别服务门店名的规则模板进行匹配;确定装置604,用于若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述确定装置604还用于,若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,如图6所示,所述设备60还包括判定装置605,用于若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
这里需要指出的是:以上对用于识别服务门店名的设备实施例的描述,与前述图4所示的方法实施例的描述是类似的,具有同前述图4所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对用于识别服务门店名的设备实施例中未披露的技术细节,请参照本发明前述图4所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。