CN109977951B - 一种用于识别服务门店名的方法、设备及存储介质 - Google Patents

一种用于识别服务门店名的方法、设备及存储介质 Download PDF

Info

Publication number
CN109977951B
CN109977951B CN201910223458.6A CN201910223458A CN109977951B CN 109977951 B CN109977951 B CN 109977951B CN 201910223458 A CN201910223458 A CN 201910223458A CN 109977951 B CN109977951 B CN 109977951B
Authority
CN
China
Prior art keywords
word
service door
name
identifying
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910223458.6A
Other languages
English (en)
Other versions
CN109977951A (zh
Inventor
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Teddy Bear Mobile Technology Co ltd
Beijing Teddy Future Technology Co.,Ltd.
Original Assignee
Beijing Teddy Bear Mobile Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Teddy Bear Mobile Technology Co ltd filed Critical Beijing Teddy Bear Mobile Technology Co ltd
Priority to CN201910223458.6A priority Critical patent/CN109977951B/zh
Publication of CN109977951A publication Critical patent/CN109977951A/zh
Application granted granted Critical
Publication of CN109977951B publication Critical patent/CN109977951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Abstract

本发明公开了一种用于识别服务门店名的方法、设备及计算机可读存储介质,首先获取测试文本,接着通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;进一步将所生成的词图与用于识别服务门店名的规则模板进行匹配;最后若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。如此,本发明利用数据预处理得到的用于识别服务门店名的词典及规则模板来对文本中的服务门店名加以识别,与传统的深度学习方法相比,识别过程简单,且效率高,易于在智能终端上运行,从而提升用户体验。

Description

一种用于识别服务门店名的方法、设备及存储介质
技术领域
本发明涉及智能识别领域,尤其涉及一种用于识别服务门店名的方法、设备及计算机可读存储介质。
背景技术
通俗来讲,一个人在说话或写话的时候是有章程的,不会将一些毫无顺序的字、词组合在一块。比如,在“今天我想去潮汕牛肉火锅店吃火锅”这句话中如何知道“潮汕牛肉火锅店”是一个餐馆名呢?首先在“潮汕牛肉火锅店”前面是“去”字,通常人们说话在“去”字后面会紧跟着目的或者是地点;在“潮汕牛肉火锅店”后面是“吃火锅”这是个目的。另外,再加上“潮汕牛肉火锅店”自身的“牛肉”、“火锅店”这些词,故而我们可以知道“潮汕牛肉火锅店”是一个餐厅实体。同理“太晚了没车了,我们去七天连锁酒店住一晚上,明天再回去吧”中“七天连锁酒店”是一个酒店实体。
在诸如餐厅名或酒店名的服务门店名的识别中,如果用深度学习来做的话可能需要上万乃至十几万的数据才能训练出一个相对好的模型,往往一时之间难以标注好这么多的数据。而且,深度学习过程放在诸如手机之类的智能终端上运行,会严重影响智能终端的运行速率。
发明内容
本发明实施例为了解决上述提及的现有技术在服务门店名的识别中所存在的问题,创造性的提供一种用于识别服务门店名的方法、设备及计算机可读存储介质。
根据本发明实施例的第一方面,提供一种用于识别服务门店名的方法,所述方法包括:获取测试文本;通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;将所生成的词图与用于识别服务门店名的规则模板进行匹配;若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
根据本发明实施例的第二方面,提供一种规则模板的构建方法,所述方法包括:获取包括服务门店名的文本集;针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,针对所述包括服务门店名的文本集中的文本进行数据预处理,包括:获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明一实施方式,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
根据本发明实施例的第三方面,提供一种用于识别服务门店名的设备,所述设备包括获取装置,用于获取测试文本;切分处理装置,用于通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;匹配装置,用于将所生成的词图与用于识别服务门店名的规则模板进行匹配;确定装置,用于若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述确定装置还用于,若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述设备还包括判定装置,用于若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
根据本发明实施例的第四方面,提供一种规则模板的构建装置,所述装置包括:获取模块,用于获取包括服务门店名的文本集;数据预处理模块,用于针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;决策树构建模块,用于利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,所述数据预处理模块还用于,获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明实施例的第五方面,提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一所述用于识别服务门店名的方法或用于执行上述任一所述规则模板的构建方法。
本发明实施例用于识别服务门店名的方法、设备及计算机可读存储介质,首先获取测试文本,接着通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;进一步将所生成的词图与用于识别服务门店名的规则模板进行匹配;最后若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。如此,本发明利用数据预处理得到的用于识别服务门店名的词典及规则模板来对文本中的服务门店名加以识别,与传统的深度学习方法相比,识别过程简单,且效率高,易于在智能终端上运行,从而提升用户体验。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例规则模板的构建方法的实现流程示意图;
图2示出了本发明实施例规则模板的组成结构示意图;
图3示出了本发明实施例规则模板的构建装置的组成结构示意图;
图4示出了本发明实施例用于识别服务门店名的方法的实现流程示意图;
图5示出了本发明实施例词图的组成结构示意图;
图6示出了本发明实施例用于识别服务门店名的设备的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明在对文本进行服务门店名识别之前,需要首先通过数据预处理得到的用于识别服务门店名的词典及规则模板,图1示出了本发明实施例规则模板的构建方法的实现流程示意图。
参考图1,本发明实施例规则模板的构建方法包括:操作101,获取包括服务门店名的文本集;操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
在操作101,服务门店名可以包括诸如餐厅名或酒店名的实体名称。包括服务门店名的文本集可以包括诸如“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”,“今天我想去潮汕牛肉火锅店吃火锅”,“太晚了没车了,我们去七天连锁酒店住一晚上,明天再回去吧”之类的包括餐厅名或酒店名的任意的文本集。
在操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,包括:获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
其中,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
具体地,针对所述包括服务门店名的文本集中的文本进行数据预处理时,可以将数据统一处理成:xx:1:xx出现的频次(即一个开头词及词频)、xx:2:xx出现的频次(即一个中间词及词频)、xx:3:xx出现的频次(即一个结尾词及词频)、xx:4:xx出现的频次(即服务门店名本身即词频)、xx:11:xx出现的频次(前一个特征词及词频)和xx:12:xx出现的频次(后一个特征词及词频)的格式,最后这些数据格式组成一个用于识别服务门店名的词典。
以餐厅实体的识别为例:文本为“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”,对应的标注对象为“蜀都佳宴神话烤鱼”。
首先,进行餐厅实体的处理,即对“蜀都佳宴神话烤鱼”进行分词,获取到蜀都、佳、宴、神话、烤、鱼,从而将餐厅实体标记成:蜀都:1:1,佳:2:1,宴:2:1,神话:2:1,烤鱼:3:1。(若分词为本身则标记为4:1)
进一步地,对文本的预处理,即获取标注对象的前一个特征词和后一个特征词,并进行标记,即!:11:1,坐标:12:1,其中11代表餐厅实体的前一个特征词,12代表餐厅实体的后一个特征词。
这样,本发明实施例针对文本集中部分或全部文本进行数据预处理后,即可获得很多的能做服务门店名本身的词和服务门店名前后特征词,从而形成一个词典。这个词典就是后续用来识别服务门店名的重要数据来源。
在操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。参照如图2所示的规则模板,其中P代表服务门店名的前一个特征词,B代表服务门店名的开头词,M代表服务门店名的中间词,E代表服务门店名的结尾词,S代表服务门店名本身,N代表服务门店名的后一个特征词。
同样,基于如上文所述规则模板的构建方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,获取包括服务门店名的文本集;操作102,针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;操作103,利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
进一步地,基于上文所述规则模板的构建方法,本发明实施例还提供一种规则模板的构建装置,如图3所示,所述装置30包括:获取模块301,用于获取包括服务门店名的文本集;数据预处理模块302,用于针对所述包括服务门店名的文本集中的文本进行数据预处理,得到用于识别服务门店名的词典;决策树构建模块303,用于利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板。
根据本发明一实施方式,所述数据预处理模块302还用于,获取文本中的服务门店名,作为标注对象;对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
根据本发明一实施方式,所述作为服务门店名的词包括如下组合形式至少之一:服务门店名本身;或,一个开头词和一个结尾词;或,一个开头词、一个结尾词和至少一个中间词;所述对应服务门店名的特征词包括前一个特征词和后一个特征词;相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:前一个特征词、服务门店名本身及后一个特征词;或,前一个特征词、一个开头词、一个结尾词及后一个特征词;或,前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
这里需要指出的是:以上对规则模板的构建装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对规则模板的构建装置实施例中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
在基于上文提到的通过数据预处理得到的用于识别服务门店名的词典及如图2所示的规则模板之后,即可进一步再利用用于识别服务门店名的词典及规则模板对测试文本中的服务门店名加以识别。
图4示出了本发明实施例用于识别服务门店名的方法的实现流程示意图。
参考图4,本发明实施例用于识别服务门店名的方法包括:操作401,获取测试文本;操作402,通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;操作403,将所生成的词图与用于识别服务门店名的规则模板进行匹配;操作404,若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
在操作401-402,以测试文本为“太火爆了!蜀都佳宴神话烤鱼坐标北京。味道好菜品多价格合理店内吃一斤送一斤券。”为例,通过词典进行分词处理,从而生成如图5所示的词图。参照图5,该词图至少包括“词或字”、“可在的位置”两栏;其中,“可在的位置”一栏中的P代表服务门店名的前一个特征词,B代表服务门店名的开头词,M代表服务门店名的中间词,E代表服务门店名的结尾词,S代表服务门店名本身,N代表服务门店名的后一个特征词。
根据本发明一实施方式,在操作403之后,所述方法还包括:若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。当然,此时字段较短的匹配项必然是字段最长的匹配项的子集。
根据本发明一实施方式,在操作403之后,所述方法还包括:若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。以诸如餐厅名或酒店名的服务门店名为例,即对于获取到的未登录词,需要判断是不是真实的属于餐厅或酒店。因此会对实体本身进行判断,以餐厅名为例,判断是否含有餐厅、饭馆、火锅、麻辣烫、肯德基等。当然,在实际判定时,还可以进一步判断是否有有黑词,或者其他限制条件。
本发明实施例用于识别服务门店名的方法,首先获取测试文本,接着通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;进一步将所生成的词图与用于识别服务门店名的规则模板进行匹配;最后若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。如此,本发明利用数据预处理得到的用于识别服务门店名的词典及规则模板来对文本中的服务门店名加以识别,与传统的深度学习方法相比,识别过程简单,且效率高,易于在智能终端上运行,从而提升用户体验。而且,本发明在数据测试过程中,对于出现的不合适的服务门店名,可以通过不断的进行数据测试来丰富词典,以不但实现词典的状态优化,最终形成一套用于识别服务门店名的方法。
同样,基于如上文所述用于识别服务门店名的方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作401,获取测试文本;操作402,通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;操作403,将所生成的词图与用于识别服务门店名的规则模板进行匹配;操作404,若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
进一步地,基于上文所述用于识别服务门店名的方法,本发明实施例还提供一种用于识别服务门店名的设备,如图6所示,所述用于识别服务门店名的设备60包括:获取装置601,用于获取测试文本;切分处理装置602,用于通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;匹配装置603,用于将所生成的词图与用于识别服务门店名的规则模板进行匹配;确定装置604,用于若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,所述确定装置604还用于,若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
根据本发明一实施方式,如图6所示,所述设备60还包括判定装置605,用于若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
这里需要指出的是:以上对用于识别服务门店名的设备实施例的描述,与前述图4所示的方法实施例的描述是类似的,具有同前述图4所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对用于识别服务门店名的设备实施例中未披露的技术细节,请参照本发明前述图4所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种用于识别服务门店名的方法,其特征在于,所述方法包括:
获取测试文本;
获取包括服务门店名的文本集;
对文本集进行数据预处理,得到服务门店名的词及对应的词频和服务门店名特征词及对应的词频,形成用于识别服务门店名的词典;
对应服务门店名的特征词包括服务门店名的前一个特征词和后一个特征词;
利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板;
通过所述用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;
将所生成的词图与用于识别服务门店名的规则模板进行匹配;
若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
2.根据权利要求1所述的方法,其特征在于,将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:
若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
3.根据权利要求1所述的方法,其特征在于,将所生成的词图与用于识别服务门店名的规则模板进行匹配之后,所述方法还包括:
若存在非匹配项,则针对所述非匹配项是否为服务门店名本身进行判定。
4.根据权利要求1所述的方法,其特征在于,针对所述包括服务门店名的文本集中的文本进行数据预处理,包括:
获取文本中的服务门店名,作为标注对象;
对所述标注对象进行分词处理,得到作为服务门店名的词及对应的词频;
根据所述标注对象从文本中获取对应服务门店名的特征词及对应的词频;
利用所述作为服务门店名的词及对应的词频和所述对应服务门店名的特征词及对应的词频,形成用于识别服务门店名的词典。
5.根据权利要求1所述的方法,其特征在于,作为服务门店名的词包括如下组合形式至少之一:
服务门店名本身;或,
一个开头词和一个结尾词;或,
一个开头词、一个结尾词和至少一个中间词;
所述对应服务门店名的特征词包括服务门店名的前一个特征词和后一个特征词;
相应的,所述用于识别服务门店名的规则模板包括如下组合形式至少之一:
前一个特征词、服务门店名本身及后一个特征词;或,
前一个特征词、一个开头词、一个结尾词及后一个特征词;或,
前一个特征词、一个开头词、至少一个中间词、一个结尾词及后一个特征词。
6.一种用于识别服务门店名的设备,其特征在于,所述设备包括:
获取装置,用于获取测试文本;
获取模块,用于获取包括服务门店名的文本集;
数据预处理模块,用于针对所述包括服务门店名的文本集中的文本进行数据预处理,得到服务门店名的词及对应的词频和服务门店名特征词及对应的词频,形成用于识别服务门店名的词典,对应服务门店名的特征词包括服务门店名的前一个特征词和后一个特征词;
决策树构建模块,用于利用所得到的用于识别服务门店名的词典进行决策树构建,以形成用于识别服务门店名的规则模板;
切分处理装置,用于通过用于识别服务门店名的词典对所述测试文本进行切分处理,生成词图;
匹配装置,用于将所生成的词图与用于识别服务门店名的规则模板进行匹配;
确定装置,用于若存在匹配,则将所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项确定为对应服务门店名的登陆词。
7.根据权利要求6所述的设备,其特征在于,
所述确定装置还用于,若存在匹配且所生成的词图与用于识别服务门店名的规则模板二者之间的匹配项为多个,则将字段最长的匹配项确定为对应服务门店名的登陆词。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述用于识别服务门店名的方法。
CN201910223458.6A 2019-03-22 2019-03-22 一种用于识别服务门店名的方法、设备及存储介质 Active CN109977951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910223458.6A CN109977951B (zh) 2019-03-22 2019-03-22 一种用于识别服务门店名的方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910223458.6A CN109977951B (zh) 2019-03-22 2019-03-22 一种用于识别服务门店名的方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109977951A CN109977951A (zh) 2019-07-05
CN109977951B true CN109977951B (zh) 2021-10-15

Family

ID=67080203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910223458.6A Active CN109977951B (zh) 2019-03-22 2019-03-22 一种用于识别服务门店名的方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109977951B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270800B (zh) * 2022-09-28 2023-03-24 广州市玄武无线科技股份有限公司 终端门店名称的提取方法、装置、设备和计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
US8014604B2 (en) * 2008-04-16 2011-09-06 International Business Machines Corporation OCR of books by word recognition
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN108460018A (zh) * 2018-02-28 2018-08-28 首都师范大学 一种基于句法谓词聚类的中文篇章主题表现力分析方法
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118538B (zh) * 2007-09-17 2010-12-15 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
US8589149B2 (en) * 2008-08-05 2013-11-19 Nuance Communications, Inc. Probability-based approach to recognition of user-entered data
CN106502981B (zh) * 2016-10-09 2019-01-11 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8014604B2 (en) * 2008-04-16 2011-09-06 International Business Machines Corporation OCR of books by word recognition
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN108460018A (zh) * 2018-02-28 2018-08-28 首都师范大学 一种基于句法谓词聚类的中文篇章主题表现力分析方法
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中文地址名称识别算法设计和实现;梁东阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;论文第20页、第26-27页 *
周昆.基于规则的命名实体识别研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2011,论文第14页、第21-32页、第35页. *
基于规则的命名实体识别研究;周昆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110415;论文第14页、第21-32页、第35页 *
汉语语法语料库系统的基础设计;郭鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070215;论文第39页、第44页 *

Also Published As

Publication number Publication date
CN109977951A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN107291783B (zh) 一种语义匹配方法及智能设备
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN110020009B (zh) 在线问答方法、装置及系统
CN109408824B (zh) 用于生成信息的方法和装置
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN108268450B (zh) 用于生成信息的方法和装置
CN111753551B (zh) 基于词向量生成模型的信息生成方法和装置
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN107958078A (zh) 信息生成方法和装置
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN109508458A (zh) 法律实体的识别方法及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
US20160283582A1 (en) Device and method for detecting similar text, and application
CN111260428A (zh) 一种商品推荐方法和装置
CN110347786B (zh) 一种语义模型的调优方法及系统
CN109977951B (zh) 一种用于识别服务门店名的方法、设备及存储介质
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Future Technology Co.,Ltd.

Address before: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee before: Beijing Teddy Bear Mobile Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Bear Mobile Technology Co.,Ltd.

Address before: 100085 07a36, block D, 7 / F, No.28, information road, Haidian District, Beijing

Patentee before: BEIJING TEDDY BEAR MOBILE TECHNOLOGY Co.,Ltd.