CN110489742B - 一种分词方法、装置、电子设备及存储介质 - Google Patents

一种分词方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110489742B
CN110489742B CN201910636013.0A CN201910636013A CN110489742B CN 110489742 B CN110489742 B CN 110489742B CN 201910636013 A CN201910636013 A CN 201910636013A CN 110489742 B CN110489742 B CN 110489742B
Authority
CN
China
Prior art keywords
word segmentation
word
texts
text
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910636013.0A
Other languages
English (en)
Other versions
CN110489742A (zh
Inventor
刘凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910636013.0A priority Critical patent/CN110489742B/zh
Publication of CN110489742A publication Critical patent/CN110489742A/zh
Application granted granted Critical
Publication of CN110489742B publication Critical patent/CN110489742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开实施例提供了一种分词方法、装置、电子设备及存储介质。所述方法包括:对待分词文本进行分词处理,得到多个第一分词文本;获取所述待分词文本对应的输入场景;依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;获取与所述业务领域匹配的业务领域名词列表;根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。本公开实施例可以降低人工成本的投入,且减少了时间投入。

Description

一种分词方法、装置、电子设备及存储介质
技术领域
本公开的实施例涉及业务领域分词处理技术领域,尤其涉及一种分词方法、装置、电子设备及存储介质。
背景技术
在不同的搜索场景中,往往涉及不同领域的专有名词,很难使用一个通用分词器去完成对各个领域的专有名词进行切分。
目前,通常是采用训练领域分词的方法,对每个不同的领域训练专有的分词器,采用此种方法,在搜集数据并组织人工标注的成本是极高的,并且,领域内专有名词稍有变化,则模型需要重新进行训练以适应新的领域专有名词,进一步造成人工成本的增加。
发明内容
本公开的实施例提供了一种分词方法、装置、电子设备及存储介质,用以针对不同业务领域场景的文本进行分词,并且能够减少人工成本。
根据本公开的实施例的第一方面,提供了一种分词方法,包括:
对待分词文本进行分词处理,得到多个第一分词文本;
获取所述待分词文本对应的输入场景;
依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
获取与所述业务领域匹配的业务领域名词列表;
根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
在本公开的一种具体实现中,所述对待分词文本进行分词处理,得到多个第一分词文本,包括:
将所述待分词文本输入通用分词模型;
基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号;
基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
在本公开的一种具体实现中,所述根据所述业务领域名词列表,对所述多个第一分词文本中至少两个相邻的第一分词文本进行第一合并处理,生成所述业务领域分词,包括:
按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列;
根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本;
对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
在本公开的一种具体实现中,在所述根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词之后,还包括:
将所述业务领域分词输出并展示于指定界面。
根据本公开的实施例的第二方面,提供了一种分词装置,包括:
第一分词获取模块,用于对待分词文本进行分词处理,得到多个第一分词文本;
输入场景获取模块,用于获取所述待分词文本对应的输入场景;
业务领域确定模块,用于依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
名词列表获取模块,用于获取与所述业务领域匹配的业务领域名词列表;
业务分词生成模块,用于根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
在本公开的一种具体实现中,所述第一分词获取模块包括:
分词文本输入子模块,用于将所述待分词文本输入通用分词模型;
第二分词获取子模块,用于基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号;
第一分词获取子模块,用于基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
在本公开的一种具体实现中,所述业务分词生成模块包括:
第一分词排列子模块,用于按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列;
相邻分词获取子模块,用于根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本;
业务分词生成子模块,用于对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
在本公开的一种具体实现中,所述装置还包括:
业务分词展示模块,用于将所述业务领域分词输出并展示于指定界面。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述一个或多个所述的分词方法。
根据本公开的实施例的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述一个或多个所述的分词方法。
本公开实施例提供了一种分词方法、装置、电子设备及存储介质。通过对待分词文本进行分词处理,得到多个第一分词文本,并获取待分词文本对应的输入场景,依据场景与业务领域的映射关系,确定输入场景对应的业务领域,并获取与业务领域匹配的业务领域名词列表,根据业务领域名词列表,对多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而生成业务领域分词。本公开实施例通过预先为每个业务领域提供的业务领域名词列表进行分词文本的合并,从而可以得到相应的业务领域分词,无需针对每个业务领域均训练相应的分词器,减少了对搜集的训练样本进行人工标注的操作,降低了人工成本的投入,并且,在业务领域中出现的变化的专有名词时,只需将变化的专有名词在业务领域名词列表进行更新替换即可,无需进行分词器的重新训练过程,进一步减少了时间投入。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种分词方法的步骤流程图;
图2是本公开实施例提供的一种分词方法的步骤流程图;
图3是本公开实施例提供的一种分词装置的结构示意图;
图4是本公开实施例提供的一种分词装置的结构示意图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,示出了本公开实施例提供的一种分词方法的步骤流程图,该分词方法具体可以包括如下步骤:
步骤101:对待分词文本进行分词处理,得到多个第一分词文本。
在本公开实施例中,待分词文本是指由用户输入的用于进行分词的文本,例如,用户在美团APP(Application,应用程序)的美食界面的搜索栏中输入的“我想吃鸡排饭”,或用户在旅游界面的搜索栏中输入的“北京最古老的建筑”等,则可以将输入的“我想吃鸡排饭”、“北京最古老的建筑”等作为待分词文本。
第一分词文本是指将待分词文本进行分词之后,得到的多个分词,可以理解地,在本公开中,第一分词文本即为单个或多个词(或字符组)组成的文本,例如,待分词文本为“我想吃鸡排饭”,进行分词处理后,可以得到:“我”、“想吃”、“鸡排”、“饭”,则“我”、“想吃”、“鸡排”、“饭”均为第一分词文本。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
在对待分词文本进行分词时,可以采用通用分词模型将待分词文本拆分成单个词或字符,然后进行词语合并,从而得到多个第一分词文本,对于获取第一分词文本的详细过程将在下述实施例二中进行详细描述,本公开实施例在此不再加以赘述。
在得到待分词文本之后,可以对待分词文本进行分词处理,并得到多个第一分词文本,进而执行步骤102。
步骤102:获取所述待分词文本对应的输入场景。
输入场景是指用户输入待分词文本时对应的场景,例如,用户在美团APP的美食界面内的搜索框中输入待分词文本时,则待分词文本对应的输入场景即为餐饮场景;而在用户在旅游界面内的搜索框中输入待分词文本时,则待分词文本对应的输入场景即为旅游场景等等。
对于获取输入场景的方式可以为:监测用户在指定APP内点击某个界面图标(如美团APP首页内的美食、旅游等图标)时,根据用户的点击行为,确定出用户点击的图标,根据该图标识别出待分词文本对应的输入场景。
当然,针对用户打开某个APP之后,直接在该APP显示的首页界面内的搜索框中输入待分词文本时,则可以对用户输入的待分词文本进行识别,根据识别结果确定出待分词文本对应的输入场景,例如,用户在美团APP的首页界面的搜索框中输入“我想吃鸡排饭”时,对该待分词文本进行识别可以得知“鸡排饭”对应于餐饮场景,则将用户输入的待分词文本对应的输入场景确定为餐饮场景,或者是用户在某餐饮APP内输入的待分词文本时,可以根据餐饮APP的功能(即提供餐饮的APP),可以直接确定出用户输入的待分词文本即为餐饮场景。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
在具体实现中,本领域技术人员还可以采用其它方式获取待分词文本对应的输入场景,具体地,可以根据业务需求而定,本公开实施例对此不加以限制。
在获取待分词文本对应的输入场景之后,执行步骤103。
步骤103:依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域。
场景与业务领域之间存在映射关系,不同的场景对应于不同的业务领域,在系统中可以预先保存场景与业务领域之间的映射关系,例如,如下述表1所示:
表1:
场景 业务领域
餐饮 饮食业务领域
旅游 旅游业务领域
如上述表1所示,餐饮场景与饮食业务领域之间存在映射关系,旅游场景与旅游业务领域之间存在映射关系。
在系统中,可以采用上述列表的形式保存场景与业务领域之间的映射关系,也可以采用其它形式保存场景与业务领域之间的映射关系,如数据库等等,具体地,可以根据业务需求而定,本公开实施例对此不加以限制。
在获取待分词文本对应的输入场景之后,可以根据场景与业务领域之间的映射关系,确定输入场景对应的业务领域。
在确定输入场景对应的业务领域之后,执行步骤104。
步骤104:获取与所述业务领域匹配的业务领域名词列表。
业务领域名词列表是指由业务人员预先配置的,用于保存业务领域的专有名词的列表。
不同的业务领域均对应于一个唯一的业务领域名词列表,例如,业务领域包括饮食业务领域和旅游业务领域,饮食业务领域对应于饮食业务领域名词列表,旅游业务领域对应于旅游业务领域名词列表。
在业务领域名词列表保存有业务人员预先搜集的对应业务领域内的专有名词,例如,饮食业务领域名词列表中保存有餐饮类的专有名词,如“鸡排饭”、“炸鸡排”、“宫保鸡丁”、“湘味之家”等等,旅游业务领域名词列表中保存有旅游类的专有名词,如“xxx风景区”、“aaaaaa度假村”等等。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
在确定输入场景对应的业务领域之后,可以在系统中将业务领域与系统预先保存的业务领域名词列表进行匹配,以获取业务领域对应的业务领域名词列表。
在获取与业务领域对应的业务领域名词列表之后,执行步骤105。
步骤105:根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
第一合并处理是指对多个第一分词文本中的可以进行合并的两个或以上的第一分词文本进行合并得到一个文本的处理。
在获取业务领域对应的业务领域名词列表之后,可以根据业务领域名词列表中保存的该业务领域的专有名词,结合多个第一分词文本,将多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而可以得到业务领域分词,例如,对于饮食业务领域,在饮食业务领域名词列表中保存有“湘味之家”,而多个第一分词文本按序排列依次包括“湘味”、“之”、“家”,则可以将这些第一分词文本进行合并,从而得到业务领域分词“湘味之家”。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
本公开实施例提供的业务领域名词列表还可以根据业务领域中变化的专有名词,及时对业务领域名词列表中保存的专有名词进行更新替换,以保证保存的专有名词均是当前最新的专有名词。
通过提供的业务领域名词列表不仅可以实现待分词文本的分词,而且相对于训练模型而言,无需用户搜集数据,并对数据添加标注,针对不同的业务领域进行分词模型的训练,减少了人工成本的投入。
本公开实施例提供的分词方法,通过对待分词文本进行分词处理,得到多个第一分词文本,并获取待分词文本对应的输入场景,依据场景与业务领域的映射关系,确定输入场景对应的业务领域,并获取与业务领域匹配的业务领域名词列表,根据业务领域名词列表,对多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而生成业务领域分词。本公开实施例通过预先为每个业务领域提供的业务领域名词列表进行分词文本的合并,从而可以得到相应的业务领域分词,无需针对每个业务领域均训练相应的分词器,减少了对搜集的训练样本进行人工标注的操作,降低了人工成本的投入,并且,在业务领域中出现的变化的专有名词时,只需将变化的专有名词在业务领域名词列表进行更新替换即可,无需进行分词器的重新训练过程,进一步减少了时间投入。
实施例二
参照图2,示出了本公开实施例提供的一种分词方法的步骤流程图,该分词方法具体可以包括如下步骤:
步骤201:将所述待分词文本输入通用分词模型。
在本公开实施例中,待分词文本是指由用户输入的用于进行分词的文本,例如,用户在美团APP(Application,应用程序)的美食界面的搜索栏中输入的“附近的湘味之家”,或用户在旅游界面的搜索栏中输入的“有水上项目的旅游景点”等,则可以将输入的“附近的湘味之家”、“有水上项目的旅游景点”等作为待分词文本。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
通用分词模型是指比较常用的用于对文本进行分词处理的模型。
在得到用户输入的待分词文本之后,可以将待分词文本输入通用分词模型,并执行步骤202。
步骤202:基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号。
第一分词处理是指由通用分词模型对待分词文本进行分词的处理。
第二分词文本是指由通用分词模型对待分词文本进行第一分词处理之后,得到的多个分词文本,可以理解地,每个第二分词文本均对应于一个字或符号,例如,待分词文本为“我想吃炸鸡排、喝饮料”,采用通用分词模型进行第一分词处理之后,得到的多个字和一个符号,如“我”、“想”、“吃”、“鸡”、“排”、“饭”、“、”、“喝”、“饮”、“料”,则可以将“我”、“想”、“吃”、“鸡”、“排”、“饭”、“、”、“喝”、“饮”、“料”均作为待分词文本对应的多个第二分词文本。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
在将待分词文本输入通用分词模型之后,可以采用通用分词模型对待分词文本进行第一分词处理,从而得到待分词文本对应的多个第二分词文本。
在得到多个第二分词文本之后,执行步骤203。
步骤203:基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
第一分词文本是指将待分词文本进行分词之后,得到的多个分词,可以理解地,在本公开中,第一分词文本即为单个或多个词(或字符组)组成的文本,例如,待分词文本为“我想吃鸡排饭”,进行分词处理后,可以得到:“我”、“想吃”、“鸡排”、“饭”,则“我”、“想吃”、“鸡排”、“饭”均为第一分词文本。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
第二合并处理是指对多个第二分词文本中可以组成一个词语的分词文本进行的合并处理,例如,“我”和“们”可以组成一个词语,则可以将这两个分词文本进行合并处理。
当然,在对多个第二分词文本进行合并处理时,需要结合待分词文本的语序,将相邻的两个或以上的第二分词文本进行结合。
在得到待分词文本对应的多个第二分词文本之后,可以采用通用分词模型对多个第二分词文本中相邻的两个或以上的可以组成一个词语的第二分词文本进行第二合并处理,从而可以得到多个第一分词文本,例如,承接上述步骤202中的示例,在将待分词文本:“我想吃炸鸡排、喝饮料”进行分词,得到多个第二分词文本:“我”、“想”、“吃”、“鸡”、“排”、“饭”、“、”、“喝”、“饮”、“料”,其中,“想”、“吃”可以组成一个词语,“鸡”、“排”、“饭”可以组成一个词语,“饮”、“料”可以组成一个词语,则采用通用分词模型对多个第二分词文本进行第二合并处理之后,得到的多个第一分词文本为:“我”、“想吃”、“鸡排饭”、“喝”、“饮料”。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
步骤204:获取所述待分词文本对应的输入场景。
步骤205:依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域。
步骤206:获取与所述业务领域匹配的业务领域名词列表。
在本公开实施例中,上述步骤204~步骤206的具体实施方式与上述实施例一中步骤102~步骤104的具体实施方式相似,具体实现过程可以参照上述实施例一中步骤102~步骤104的描述,本公开实施例在此不再加以赘述。
步骤207:按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列。
语序是指语言里语词的组合次序,例如,待分词文本为:“湘味之家”,进行分词得到的多个第一分词文本为“湘味”、“之”、“家”,则按照语序排列得到的排序分词文本即为“湘味”、“之”、“家”。
在获取多个第一分词文本之后,可以按照待分词文本的语序,对多个第一分词文本依次进行排列,从而可以得到排列后的多个第一分词文本。
在按照待分词文本的语序,对多个第一分词文本依次进行排列之后,执行步骤208。
步骤208:根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本。
相邻的至少两个第一分词文本是指可以结合成业务领域对应的专有名词的第一分词文本。
在按照待分词文本的语序对多个第一分词文本之后,可以根据业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本,例如,对于饮食业务领域,在饮食业务领域名词列表中保存有“湘味之家”,而多个第一分词文本按序排列依次包括“湘味”、“之”、“家”,则获取的相邻的至少两个第一分词文本即为:“湘味”、“之”、“家”。
在根据业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本之后,执行步骤209。
步骤209:对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
第一合并处理是指对多个第一分词文本中的可以进行合并的两个或以上的第一分词文本进行合并得到一个文本的处理。
在根据业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本之后,可以直接将相邻的至少两个第一分词文本进行合并,从而得到业务领域分词,例如,承接上述步骤208中的示例,在获取到相邻的至少两个第一分词文本即为:“湘味”、“之”、“家”之后,将这些分词文本进行合并即得到业务领域分词:“湘味之家”。
在对至少两个第一分词文本进行第一合并处理,生成业务领域分词之后,执行步骤210。
步骤210:将所述业务领域分词输出并展示于指定界面。
指定界面是指用户输入待分词文本的终端的展示界面,例如,用户通过手机输入待分词文本,则可以将最终确定的业务领域分词展示于手机的显示屏幕上。
在生成业务领域分词之后,可以将业务领域分词输出并展示于指定界面,以为用户提供搜索词,用户可以直接根据提供的搜索词进行搜索,查找自己所需的信息。
本公开实施例提供的分词方法,通过对待分词文本进行分词处理,得到多个第一分词文本,并获取待分词文本对应的输入场景,依据场景与业务领域的映射关系,确定输入场景对应的业务领域,并获取与业务领域匹配的业务领域名词列表,根据业务领域名词列表,对多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而生成业务领域分词。本公开实施例通过预先为每个业务领域提供的业务领域名词列表进行分词文本的合并,从而可以得到相应的业务领域分词,无需针对每个业务领域均训练相应的分词器,减少了对搜集的训练样本进行人工标注的操作,降低了人工成本的投入,并且,在业务领域中出现的变化的专有名词时,只需将变化的专有名词在业务领域名词列表进行更新替换即可,无需进行分词器的重新训练过程,进一步减少了时间投入。
实施例三
参照图3,示出了本公开实施例提供的一种分词装置的结构示意图,该分词装置具体可以包括如下模块:
第一分词获取模块310,用于对待分词文本进行分词处理,得到多个第一分词文本;
输入场景获取模块320,用于获取所述待分词文本对应的输入场景;
业务领域确定模块330,用于依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
名词列表获取模块340,用于获取与所述业务领域匹配的业务领域名词列表;
业务分词生成模块350,用于根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
本公开实施例提供的分词装置,通过对待分词文本进行分词处理,得到多个第一分词文本,并获取待分词文本对应的输入场景,依据场景与业务领域的映射关系,确定输入场景对应的业务领域,并获取与业务领域匹配的业务领域名词列表,根据业务领域名词列表,对多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而生成业务领域分词。本公开实施例通过预先为每个业务领域提供的业务领域名词列表进行分词文本的合并,从而可以得到相应的业务领域分词,无需针对每个业务领域均训练相应的分词器,减少了对搜集的训练样本进行人工标注的操作,降低了人工成本的投入,并且,在业务领域中出现的变化的专有名词时,只需将变化的专有名词在业务领域名词列表进行更新替换即可,无需进行分词器的重新训练过程,进一步减少了时间投入。
实施例四
参照图4,示出了本公开实施例提供的一种分词装置的结构示意图,该分词装置具体可以包括如下模块:
第一分词获取模块410,用于对待分词文本进行分词处理,得到多个第一分词文本;
输入场景获取模块420,用于获取所述待分词文本对应的输入场景;
业务领域确定模块430,用于依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
名词列表获取模块440,用于获取与所述业务领域匹配的业务领域名词列表;
业务分词生成模块450,用于根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词;
业务分词展示模块460,用于将所述业务领域分词输出并展示于指定界面。
在本公开的一种具体实现中,所述第一分词获取模块410包括:
分词文本输入子模块411,用于将所述待分词文本输入通用分词模型;
第二分词获取子模块412,用于基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号;
第一分词获取子模块413,用于基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
在本公开的一种具体实现中,所述业务分词生成模块450包括:
第一分词排列子模块451,用于按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列;
相邻分词获取子模块452,用于根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本;
业务分词生成子模块453,用于对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
本公开实施例提供的分词装置,通过对待分词文本进行分词处理,得到多个第一分词文本,并获取待分词文本对应的输入场景,依据场景与业务领域的映射关系,确定输入场景对应的业务领域,并获取与业务领域匹配的业务领域名词列表,根据业务领域名词列表,对多个第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,从而生成业务领域分词。本公开实施例通过预先为每个业务领域提供的业务领域名词列表进行分词文本的合并,从而可以得到相应的业务领域分词,无需针对每个业务领域均训练相应的分词器,减少了对搜集的训练样本进行人工标注的操作,降低了人工成本的投入,并且,在业务领域中出现的变化的专有名词时,只需将变化的专有名词在业务领域名词列表进行更新替换即可,无需进行分词器的重新训练过程,进一步减少了时间投入。
本公开的实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施例一和实施例二中任一项的分词方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例一和实施例二中任一项的分词方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种分词方法,其特征在于,包括:
对待分词文本进行分词处理,得到多个第一分词文本;
获取所述待分词文本对应的输入场景,所述输入场景是指用户在搜索框中输入待分词文本时,所述搜索框对应的场景;
依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
获取与所述业务领域匹配的业务领域名词列表;其中,所述业务领域名词列表是用于保存业务领域的专有名词的列表;
根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
2.根据权利要求1所述的方法,其特征在于,所述对待分词文本进行分词处理,得到多个第一分词文本,包括:
将所述待分词文本输入通用分词模型;
基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号;
基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词,包括:
按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列;
根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本;
对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词之后,还包括:
将所述业务领域分词输出并展示于指定界面。
5.一种分词装置,其特征在于,包括:
第一分词获取模块,用于对待分词文本进行分词处理,得到多个第一分词文本;
输入场景获取模块,用于获取所述待分词文本对应的输入场景,所述输入场景是指用户在搜索框中输入待分词文本时,所述搜索框对应的场景;
业务领域确定模块,用于依据场景与业务领域的映射关系,确定所述输入场景对应的业务领域;
名词列表获取模块,用于获取与所述业务领域匹配的业务领域名词列表;其中,所述业务领域名词列表是用于保存业务领域的专有名词的列表;
业务分词生成模块,用于根据所述业务领域名词列表,对多个所述第一分词文本中相邻的至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
6.根据权利要求5所述的装置,其特征在于,所述第一分词获取模块包括:
分词文本输入子模块,用于将所述待分词文本输入通用分词模型;
第二分词获取子模块,用于基于所述通用分词模型,对所述待分词文本进行第一分词处理,得到多个第二分词文本;每个所述第二分词文本对应于一个字或符号;
第一分词获取子模块,用于基于所述通用分词模型,对各所述第二分词文本进行第二合并处理,生成多个所述第一分词文本。
7.根据权利要求5所述的装置,其特征在于,所述业务分词生成模块包括:
第一分词排列子模块,用于按照所述待分词文本的语序,对多个所述第一分词文本依次进行排列;
相邻分词获取子模块,用于根据所述业务领域名词列表,从排列后的多个第一分词文本中获取相邻的至少两个第一分词文本;
业务分词生成子模块,用于对所述至少两个第一分词文本进行第一合并处理,生成所述业务领域分词。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
业务分词展示模块,用于将所述业务领域分词输出并展示于指定界面。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一所述的分词方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一所述的分词方法。
CN201910636013.0A 2019-07-15 2019-07-15 一种分词方法、装置、电子设备及存储介质 Active CN110489742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910636013.0A CN110489742B (zh) 2019-07-15 2019-07-15 一种分词方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636013.0A CN110489742B (zh) 2019-07-15 2019-07-15 一种分词方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110489742A CN110489742A (zh) 2019-11-22
CN110489742B true CN110489742B (zh) 2021-10-01

Family

ID=68547076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636013.0A Active CN110489742B (zh) 2019-07-15 2019-07-15 一种分词方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110489742B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241833A (zh) * 2020-01-16 2020-06-05 支付宝(杭州)信息技术有限公司 一种文本数据的分词方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241520A (zh) * 2018-07-18 2019-01-18 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109299276A (zh) * 2018-11-15 2019-02-01 阿里巴巴集团控股有限公司 一种将文本转化为词嵌入、文本分类方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599278B (zh) * 2016-12-23 2020-06-12 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN109241296A (zh) * 2018-09-14 2019-01-18 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241520A (zh) * 2018-07-18 2019-01-18 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109299276A (zh) * 2018-11-15 2019-02-01 阿里巴巴集团控股有限公司 一种将文本转化为词嵌入、文本分类方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种词法分析与字标注分词结合的方法;黄小斌 等;《电脑知识与技术》;20120320;第8卷(第8期);第1814-1815页 *
倪维健 等.面向领域文献的无监督中文分词自动优化方法.《数据分析与知识发现》.2018,第2卷(第2期),第96-104页. *
面向领域文献的无监督中文分词自动优化方法;倪维健 等;《数据分析与知识发现》;20180228;第2卷(第2期);第98-102页 *

Also Published As

Publication number Publication date
CN110489742A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
US8296194B2 (en) Method, medium, and system for ranking dishes at eating establishments
EP3089055A1 (en) Method and device for displaying information flows in social network, and server
US9535945B2 (en) Intent based search results associated with a modular search object framework
CN108268573B (zh) 用于推送信息的方法和装置
US9811593B2 (en) Cooking recipe information providing device, cooking recipe information providing method, program, and information storage medium
CN109829108B (zh) 信息推荐方法、装置、电子设备及可读存储介质
JP6395012B1 (ja) コンピュータプログラム
CN102930017B (zh) 一种用于在移动终端上提供搜索结果的方法和设备
CN108009147B (zh) 电子书封面生成方法、电子设备及计算机存储介质
CN107357578B (zh) 一种基于移动终端的社交软件的快捷搜索方法及装置
CN111580788B (zh) 模板搭配信息推荐方法、装置及电子设备
CN104462471A (zh) 提供细分搜索结果的方法和装置
CN105183853A (zh) 一种用于展现标签页的方法和装置
CN110489742B (zh) 一种分词方法、装置、电子设备及存储介质
CN105447191B (zh) 提供图文引导步骤的智能摘要方法及相应装置
CN105183888A (zh) 基于浏览器的数据处理方法和浏览器
CN105138702B (zh) 一种基于搜索引擎的网络搜索方法及电子设备
CN106951429B (zh) 增强网页评论显示的方法、浏览器及设备
US20130297600A1 (en) Method and system for chronological tag correlation and animation
CN114418618A (zh) 推广图像生成方法、装置、电子设备及可读存储介质
CN106469403B (zh) 一种信息展示方法和装置
Van Zyl et al. The representation of voluntourism in search engines: The case of South Africa
CN106599287B (zh) 搜索结果处理方法及装置
CN106557473B (zh) 生成蹊径的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant