CN115796177A - 用于实现中文分词与词性标注的方法、介质及电子设备 - Google Patents

用于实现中文分词与词性标注的方法、介质及电子设备 Download PDF

Info

Publication number
CN115796177A
CN115796177A CN202211504442.0A CN202211504442A CN115796177A CN 115796177 A CN115796177 A CN 115796177A CN 202211504442 A CN202211504442 A CN 202211504442A CN 115796177 A CN115796177 A CN 115796177A
Authority
CN
China
Prior art keywords
speech tagging
word segmentation
segmentation
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211504442.0A
Other languages
English (en)
Inventor
简仁贤
刘影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202211504442.0A priority Critical patent/CN115796177A/zh
Publication of CN115796177A publication Critical patent/CN115796177A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供一种用于实现中文分词与词性标注的方法、介质及电子设备,所述方法包括:接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果;向所述客户端提供所述分词及词性标注结果。本申请的实施例可以实现在高精度的分词及词性标注的前提下,更便于用户灵活配置,提供适应不同场景、满足不同需求的中文分词与词性标注结果,提升用户体验。

Description

用于实现中文分词与词性标注的方法、介质及电子设备
技术领域
本申请涉及自然语言处理领域,具体而言本申请实施例涉及用于实现中文分词与词性标注的方法、介质及电子设备。
背景技术
分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。词性标注是指为自然语言文本中的每个词汇赋予一个词性的过程。分词与词性标注是自然语言处理中句法解析、语义分析、信息检索等其他任务的基础,分词与词性标注的效果对后续任务的结果有明显的影响。
基于词表与统计的方法,是中文分词与词性标注常使用的实现方法。但中文的语义较为复杂,同一个词语可能会存在着不同的语义,也就存在着不同的词性;另外,在不同的语境下,相同的文本序列会出现不同的分词结果。所以词表的使用有很多语义上的限制。开源的中文分词与词性标注训练数据领域较为单一,常见的是单一的新闻领域数据,并且数据标注缺少严格的语义一致性、规范统一性。
目前有很多针对应用工程的分词工具,使用方式固定,应用场景范围窄,缺少灵活的可配置性,需要用户有一定的开发能力。
发明内容
本申请实施例的目的在于提供一种用于实现中文分词与词性标注的方法、介质及电子设备,本申请的实施例可以实现在高精度的分词及词性标注的前提下,更便于用户灵活配置,提供适应不同场景、满足不同需求的中文分词与词性标注结果,提升用户体验。
第一方面,本申请实施例提供一种用于实现中文分词与词性标注的方法,应用于云端,所述方法包括:接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果,其中,所述目标分词及词性标注模型具备同时挖掘分词结果和词性标注结果的功能;向所述客户端提供所述分词及词性标注结果。
本申请的一些实施例通过客户端与云端协作的方式来完成针对待分词的文本的分词以及词性标注操作,充分利用双方优势,即客户端对场景更加了解,云端计算存储能力更强大进而提升对待分词的文本的分词及词性标注结果的准确性。
在一些实施例中,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。
本申请的一些实施例中通过客户端用户输入的配置信息,得到与待分词的文本对应的领域、用户自定义词表以及分词处理的粒度等配置信息,进而可以使得云端根据这些配置信息更好的完成对待分词的文本的分词以及词性标注的操作。
在一些实施例中,在所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:解析所述配置信息得到与所述待分词的文本对应的目标领域以及自定义词表;从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据所述目标词表、所述自定义词表以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。
本申请的一些实施例的云端通过解析客户端输入的配置信息,得到专业领域词表以及自定义词表进而完成对待分词的文本的分词及词性标注。
在一些实施例中,在所述根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。
本申请的一些实施例通过收集不同领域的数据作为初始待标注数据,包括新闻领域、文学领域、体育领域、财经金融领域等多个领域,这样会提高领域的适应性,提高训练模型的数据适应性。
在一些实施例中,所述获取标注数据,包括:根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。
本申请的一些实施例通过具有专业知识的人员制定统一的数据标注规范来完成数据标注,该标注规范包括分词标注方法,词性标注方法等,此标注规范会随着标注数据的增多,不同语义情况的出现而随时进行优化修正,保证标注的统一性与专业性,进而提升训练得到的模型的效果。
在一些实施例中,所述根据标注规范对所述多领域的待标注数据进行标注得到所述标注数据,包括:根据所述标注规范对所述多领域的待标注数据进行标注,得到初始标注结果数据;检测所述初始标注结果数据得到检测结果,并反馈所述检测结果,以进一步根据所述检测结果对所述初始标注结果数据进行修正;接收对所述初始标注结果数据进行修改后的数据,得到所述标注数据。
本申请的一些实施例提供的标注数据会经过标注数据的检测程序,检查标注人员的标注结果是否存在明显的问题,检测程序会检查格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,并将检查结果反馈给标注人员,待标注人员进行二次检查、修正后提交到训练数据集合中,提升得到标注数据的准确性和标注的一致性。
在一些实施例中,所述检测所述初始标注结果数据得到检测结果,包括:对所述初始标注结果数据进行格式、词性、相同文本序列的不同标注结果以及标注一致性方面进行检测,获取所述检测结果。
本申请的一些实施例需要检查初始标注结果存在的格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,提升得到的标注数据的标注效果,进而提升训练模型的效果。
在一些实施例中,在所述根据所述标注数据对分析及词性标注模型进行训练得到所述目标分词及词性标注模型之后,所述方法还包括:发布所述目标分词及词性标注模型,以供不同客户端调用。
本申请的一些实施例通过即时发布训练好的分词及词性标注模型,使得不同客户第一时间可以使用模型。
在一些实施例中,所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据实体词典并通过所述目标分词及词性标注模块对所述待分词的文本进行词语切分,并将切分得到的词性设置为与实体类别对应的词性,得到初始分词及词性标注结果;根据自定义词表对所述初始分词及词性标注结果进行处理,得到修正结果;根据所述目标词表对所述修正结果进行处理,得到所述分词及词性标注结果。
在一些实施例中,所述多领域的待标注数据为满足语义统一性且满足词语长度的一致性的数据;所述多领域的待标注数据还包括对知识词表中的词语的标注数据,其中,所述知识词表是通过知识图谱进行词语抽取得到的。
本申请的一些实施例将满足语义统一性且满足词语长度的一致性的数据作为标注数据,这是由于词语长度对模型的训练效果有明显的影响,需要把控整个训练数据的统一性,保证数据的质量。
在一些实施例中,所述目标分词及词性标注模型或者所述分词及词性标注模型是基于分词词性算法的联合模型。
本申请的一些实施例分词词性算法使用了联合模型,可以同时进行分词和词性标注,避免错误累计等问题。
第二方面,本申请的一些实施例提供一种用于实现中文分词与词性标注的方法,应用于客户端,所述方法包括:获取待分词的文本;至少根据所述待分词的文本的属性对云端进行配置,并向所述云端提供所述待分词的文本,以使所述云端根据配置数据对所述待处理的文本进行处理;获取所述云端针对所述待分词的文本进行处理,得到的分词及词性标注结果;根据所述分词及词性标注结果进行与自然语言处理对应的目标任务,其中,所述任务类型包括:句法解析、语义分析或者信息检索。
在一些实施例中,所述至少根据所述待分词的文本的属性对云端进行配置,包括:根据所述待分词的文本所属的领域为所述云端配置领域信息;为所述云端配置所述客户端的自定义词表,并配置所述自定义词表的使用方法;为所述云端配置分词时的粒度参数,以使所述云端按照用户配置的粒度选择参数调整分词结果的粒度。
第三方面,本申请的一些实施例提供一种计算机处理系统,所述计算机系统包括:至少一个存储器,用于存储机器可读程序;至少一个处理器,用于调用所述机器可读程序,执行如上述第一方面任一实施例所述的用于实现中文分词与词性标注的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的整个系统的系统架构图;
图2为本申请实施例提供的云端100的功能架构图;
图3为本申请实施例提供的用于实现中文分词与词性标注的方法的流程图之一;
图4为本申请实施例提供的迭代更新云上服务的流程;
图5为本申请实施例提供的用于实现中文分词与词性标注的方法的流程图之二;
图6为本申请实施例提供的用于实现中文分词与词性标注的方法的流程图之三。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请的发明人在研究中发现,在不同领域中的数据具有其独特的专业性,例如医疗卫生专业领域中复杂多变的疾病名称、病情诊断内容,银行、保险领域中快速新增的产品名称等,这些具有领域性、专业性的数据对分词与词性标注的数据适应能力有很高的挑战。另外,在不同的数据处理任务中,对分词结果的粒度也有不同的要求。例如在数据检索任务中,希望尽可能多的检索到相关内容,会期望得到一个较小粒度的分词结果,以便获取更多的检索条件;在抽取式任务中,会期望抽取更完整的内容,粗粒度的分词结果会更友好。用户可能还会有自己期望获得到的自定义词语。因此需要有一个准确性高、数据适应能力强、可灵活配置、处理高效的分词与词性标注服务,这正是本申请实施例提供的分词及词性标注系统具备的特征。
此外,中文分词与词性标注的数据标注需要有专业知识储备,不同领域的数据具有不同的特点,分领域获取充足的标注数据很困难。目前存在的许多分词工具无法针对不同的应用场景调整分词与词性标注的结果与粒度,灵活性较差。在本申请的一些实施例中,在云上部署基于知识图谱结合中文语义抽取的多领域的专业词表与NLP算法,以及使用充足的、专业人士标注的适配多领域数据特征的分词词性标注数据训练的模型,客户端还可灵活配置对应的领域、配置自定义词表、选择词表的使用方法以及是否使用实体增强词性以及分词粒度等。
例如,本申请的一些实施例提供一种云端与客户端结合的中文分词与词性标注实现技术,属于自然语言处理技术领域,该中文分词、词性标注的实现,将基于知识图谱的专业领域自有知识词表与中文分词、词性标注机器学习算法、中文分词与词性标注模型相结合,基于云端和客户端协同实现分词及词性标注。在本申请的一些实施例中,云上部署有知识图谱用于构建不同领域的专业知识词表,中文分词与词性标注相关的NLP处理算法与对应模型,终端设备(即客户端)上提供了在不同开发语言环境下的工具包,降低对用户的使用技术要求。本申请的一些实施例可以实现在高精度的前提下,更便于用户灵活配置,提供适应不同场景、满足不同需求的中文分词与词性标注结果,提升用户体验。
请参看图1,图1为整个系统的系统架构图,在该图中包括多个客户端端以及云端,例如,图1的多个客户端示例性包括第一客户端201以及第二客户端202,图1的云端部署有第一服务器101以及第二服务器102。
图1的云端和客户端协作完成针对待分词的文本的分词以及词性标注处理。
下面结合图2示例性阐述云端100的功能架构图。
如图2所示,在本申请的一些实施例中,云端100示例性包括知识图谱模块110、分词与词性标注算法120、分词与词性标注模型130、规则库140以及数据检测程序150。
在本申请的一些实施例中,云端部署分词与词性标注算法120,使用预训练好的模型(即目标分词及词性标注模型),可以提供稳定的、处理高效的分词服务。在本申请的一些实施例中,具有专业知识储备的人员制定统一规范的标注标准(即规则库140中的内容),使用标注数据检测程序150,在保证提供充足的、领域适配性高的标注数据的同时,严格把控标注数据的统一性与质量。在本申请的一些实施例中,基于知识图谱与基础分词服务,结合语言学特征,抽取多领域的专业知识词表;基于不同开发语言的工具包,提供可配置接口,适配不同应用场景的需求,降低开发者的使用成本。
本申请的一些实施例提供了一种云端与客户端结合的中文分词词性标注实现技术,基于云端和客户端协同实现分词及词性标注处理,云上部署有知识图谱,分词词性标注相关算法与模型;终端提供不同语言开发的使用工具。可以在高精度的前提下,有较好的数据适应能力,适配不同领域特点,满足不同场景的任务需求。
下面结合图3示例性阐述由云端执行的用于实现中文分词与词性标注的方法,该方法示例性包括:S101,接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;S102,至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果;S103,向所述客户端提供所述分词及词性标注结果。
需要说明的是,在本申请的一些实施例中,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。
本申请的一些实施例通过客户端与云端协作的方式来完成针对待分词的文本的分词以及词性标注操作,充分利用双方优势,即客户端对场景更加了解,云端计算存储能力更强大进而提升对待分词的文本的分词及词性标注结果的准确性。本申请的一些实施例中通过客户端用户输入的配置信息,得到与待分词的文本对应的领域、用户自定义词表以及分词处理的粒度等配置信息,进而可以使得云端根据这些配置信息更好的完成对待分词的文本的分词以及词性标注的操作。
在一些实施例中,在所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:解析所述配置信息得到与所述待分词的文本对应的目标领域以及自定义词表;从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据所述目标词表、所述自定义词表以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。本申请的一些实施例的云端通过解析客户端输入的配置信息,得到专业领域词表以及自定义词表进而完成对待分词的文本的分词及词性标注。
结合上述描述可以发现,为了满足客户端提交的分词及词性标注请求任务,需要预先对分词及词性标注模型进行训练得到目标分词及词性标注模型。下面示例性阐述在云端执行的训练分词及词性标注模型的过程。
本申请的一些实施例提供了一种结合知识图谱的中文分词词性标注方法,包括:基于统一语义标注规范的中文分词词性训练系统,可提供高精度的分词结果,具有较高的数据适应性;基于知识图谱抽取多领域的专业知识词表,用于适配不同领域的任务需求。例如医疗、财经金融、保险等不同领域。可以理解的是,本申请一些实施例的分词词性标注系统包括数据的标注、标注数据的检查与反馈修改、模型训练、服务发布部署。此流程参照图4,其具体实现过程如下:
S201,获取待标注数据。
收集不同领域的数据作为待标注数据,包括新闻领域、文学领域、体育领域、财经金融领域等多个领域,这样会提高领域的适应性,提高训练模型的数据适应性。在后续步骤中专业人员可按照制定的标注规范标注数据。
在本申请的一些实施例中,选取待标注数据时,除了需要考虑不同领域的适应性外,还需要考虑数据的语义统一性,词语长度的一致性等问题。应该选择多个领域都适配的通用的文字表达方法,具有较强领域性的名词类数据尽量不加入到训练数据中,因为此类词语有很强的变动性、多样性以及不可控性,并且长度有较大的变化。词语长度对模型的训练效果有明显的影响。需要把控整个训练数据的统一性,保证数据的质量。具有较强的领域性的词语可通过知识图谱抽取知识词表,同时将知识图谱部署在云上,可加快处理速度,实现快速迭代更新。
不难理解的是,在本申请的一些实施例中,所述多领域的待标注数据为满足语义统一性且满足词语长度的一致性的数据;所述多领域的待标注数据还包括对知识词表中的词语的标注数据,其中,所述知识词表是通过知识图谱进行词语抽取得到的。本申请的一些实施例将满足语义统一性且满足词语长度的一致性的数据作为标注数据,这是由于词语长度对模型的训练效果有明显的影响,需要把控整个训练数据的统一性,保证数据的质量。
也就是说,在一些实施例中,在S102之前,所述方法还包括:获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。本申请的一些实施例通过收集不同领域的数据作为初始待标注数据,包括新闻领域、文学领域、体育领域、财经金融领域等多个领域,这样会提高领域的适应性,提高训练模型的数据适应性。
S202,专业人员数据标注及修改。
也就是说,在本申请的一些实施例中,所述获取标注数据示例性包括:根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。本申请的一些实施例通过具有专业知识的人员制定统一的数据标注规范来完成数据标注,该标注规范包括分词标注方法,词性标注方法等,此标注规范会随着标注数据的增多,不同语义情况的出现而随时进行优化修正,保证标注的统一性与专业性,进而提升训练得到的模型的效果。
例如,具有专业知识的人员制定统一的数据标注规范(即图4的标注规范,这些规范组成图2的规则库140),该标注规范包括分词标注方法,词性标注方法等,保证标注的统一性与专业性,此标注规范会随着标注数据的增多,不同语义情况的出现而随时进行优化修正。
S203,调用标注数据检测程序。
S204,通过检测程序确认是否符合一致性等要求。
下面示例性阐述该两个步骤的实现过程。
在本申请的一些实施例中,所述根据标注规范对所述多领域的待标注数据进行标注得到所述标注数据示例性包括:根据所述标注规范对所述多领域的待标注数据进行标注,得到初始标注结果数据;检测所述初始标注结果数据得到检测结果,并反馈所述检测结果,以进一步根据所述检测结果对所述初始标注结果数据进行修正;接收对所述初始标注结果数据进行修改后的数据,得到所述标注数据。本申请的一些实施例提供的标注数据会经过标注数据的检测程序,检查标注人员的标注结果是否存在明显的问题,检测程序会检查格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,并将检查结果反馈给标注人员,待标注人员进行二次检查、修正后提交到训练数据集合中,提升得到标注数据的准确性和标注的一致性。
例如,在本申请的一些实施例中,所述检测所述初始标注结果数据得到检测结果,包括:对所述初始标注结果数据进行格式、词性、相同文本序列的不同标注结果以及标注一致性方面进行检测,获取所述检测结果。本申请的一些实施例需要检查初始标注结果存在的格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,提升得到的标注数据的标注效果,进而提升训练模型的效果。
也就是说,标注数据会经过标注数据的检测程序,检查标注人员的标注结果是否存在明显的问题。检测程序会检查格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,并将检查结果反馈给标注人员。待标注人员进行二次检查、修正后提交到训练数据集合中。
S205,调用分词词性算法中的训练程序。
模型训练,云上部署有分词词性标注训练算法,使用标注好的数据进行模型训练。充分利用云计算的强大运算能力,提高训练速度。快速实现模型的迭代更新。现有技术中,一部分分词算法采用的是基于词表的统计方法,可快速实现对文本的分词标注任务,但基于词表的实现方法,在歧义切分和未登陆词标注上都存在着很大的局限性。分词与词性标注特征复杂,在深度学习算法中,分词与词性标注属于两类不同类型的任务,大多深度学习算法实现的分词与词性标注也是分成两类任务进行,先进行文本切分,然后在切分的词语上进行词性的标注。这种先对文本进行切分,然后在切分词语的结果上进行词性标注的实现方法,会导致分词的错误积累到词性标注的结果上,影响词性标注的准确性。但在实际文本分析中,词性标注结果也会影响后续文本的分词结果与词性结果。不同于上述方法,本申请实施例的联合模型系统的分词词性算法使用了联合训练算法,该联合训练过程同时获取分词与词性标注的特征,分词与词性标注任务同时进行,分词与词性标注结果互相影响,有助于提高整体的效果。
S206,训练结束后发布目标分词及词性标注模型。也就是说,训练完毕可将模型发布到服务,供客户端使用。
在本申请的一些实施例中,在所述根据所述标注数据对分词及词性标注模型进行训练得到所述目标分词及词性标注模型之后,所述方法还包括:发布所述目标分词及词性标注模型,以供不同客户端调用。本申请的一些实施例通过即时发布训练好的分词及词性标注模型,使得不同客户第一时间可以使用模型。
在一些实施例中,所述目标分词及词性标注模型或者所述分词及词性标注模型是基于分词词性算法的联合模型。本申请的一些实施例分词词性算法使用了联合模型,可以同时进行分词和词性标注,避免错误累计等问题。
需要说明的是,本申请一些实施例提供的基于知识图谱抽取多领域的专业知识词表,需要结合语言学规则,保证词表内的词语没有歧义性。构建不同领域的知识图谱,搭建不同领域的知识库。搭建知识库的数据需要涉及不同领域,一部分利用爬虫技术获取,一部分从相关合作的企业和单位中获取。利用知识库抽取知识词表,涉及到多种自然语言处理技术以及语言学规则。知识词表中的词语大部分为名词类词语。利用知识库,结合命名实体识别技术,可快速识别出领域内的命名实体类名词,例如人名、机构名、地址名、药品名、疾病名等信息;利用已经发布的分词服务进行分词后,结合依存句法技术以及基于统计的语言学特征,可以抽取一些名词类的领域产品名称。另外还会收集一些有长度限制的词性类别,例如成语、习语等具有明显长度规律的词语。
下面结合图5和图6示例性阐述云端和客户端协作完成分词及词性标注方法的过程。
结合上文描述可知,本申请的一些实施例提供一种中文分词词性标注系统,该系统包括的云端部署有分词词性标注的联合算法与模型;客户端提供了不同语言开发的工具包,方便具有不同开发技术的人员都能调用云端提供的分词服务。
客户端的配置流程参考图5,云端分词系统的处理流程参考图6,该系统的实现过程如下:
S301,获取待分词的文本。
S302,选择目标领域,确定使用的领域信息。
客户端配置分词词性标注领域选项,可以根据使用场景以及任务需求配置领域信息。例如用户在保险行业数据处理任务中,可能会遇到保险行业的各种保险产品的名称,保险赔偿业务中还可能会遇到病情诊断数据,这些数据在通用分词词性标注模型下的效果并不好,极大的可能是将这些产品名称、疾病名称拆分成更细粒度的词语。此时用户可以选择配置保险领域与医学领域。
S303,添加自定义词表,即根据客户端需求添加自定义词表。
如果用户有自定义的词表,可以配置自定义词表。配置自定义词表时,如果自定义词表内的词语未给定词性,系统将统一给定一个名词类词性标识。
S304,配置是否使用实体增强词性。
客户端配置是否使用实体增强分词与词性。在大多数分词词性标注系统里,一些长尾的实体词的识别效果会比较差,通常会将长尾实体词拆分为多个细粒度的词语,后者出现词语边界识别错误问题。此处用户可以配置是否使用实体词增强分词与词性标注。
除了关于领域专有知识、实体词的识别外,客户端还可以选择其他词类的粒度大小(图5未示出该步骤),作为对应的分词粒度指导云端的分词过程。例如时间词以及数量词。文本序列“2018年12月28日”可明确的表达一个时间概念,用户可能会期望获得更完整的时间词表达,即“2018年12月28日/t”被划分为一个完整的词语,词性为时间词(/是词语与词性的分隔符,t为时间词的词性表示);但在模糊检索相关任务中,用户期望获取更多的检索结果,期望获取年份、月份、日期等更明确的信息,所以期望“2018年12月28日”被切分为三个词语,““2018年/t”、“12月/t”、“28日/t”,其词性可以都为时间词。数词(m)以及量词(q)的切分也会存在不同的标准,例如“一个/mq”与“一/m个/q”。实体词识别中提供了较为常见的几类很少出现语义歧义的类型,包括机构、地点、人名与时间,也可以使用这几类实体词识别结果决定是否将细粒度的分词结果合并成长尾实词。
S305,调用云端服务器。
客户端提交分词及词性标注任务的处理请求到云端服务,云端服务接收请求。
下面过程是由云端执行的。
S401,接收客户端请求。
S402,解析客户端配置信息。
解析用户配置,确认用户是否使用领域词表即S403,判断是否使用领域词表,若是则执行S404获取对应领域词表。确认用户是否有自定义词表即S405,是否有自定义词表,若是则执行S406,获取自定义词表;确认用户是否设置了新的分词粒度即S407,是否配置分词粒度,若是则执行S408,根据设置的分词粒度调整分词粒度。也就是说,如果用户配置了领域需求,加载对应的领域词表;加载用户的自定义词表;确定分词粒度。
按照用户配置的粒度选择参数,调整分词结果的粒度。如果用户配置了粗粒度分词结果参数,会继续调用粒度调整处理流程,将分词结果中的词语按照语言学统计规则合并成为较粗的粒度。同时也可以配置是否使用命名实体识别结果将细粒度的分词结果合并成粗粒度的实体词粒度,并使用实体类型增强词性表示。
S409,根据得到的配置信息和目标分词及词性标注模型完成分词及词性标注。
需要说明的是,在云端还需要处理用户配置的优先级,分词词性标注模型处理分词请求。用户配置词表会存在优先级。默认情况下命名实体类型的词语优先级最高,领域词表优先级次之,最后是用户自定义词表。
通过解析用户配置的实体类类别,通过命名实体识别获取对应类别下的实体集合。该集合下的实体词较少出现语义歧义,所以实体词典的优先级较高,会优先切分出此类词语,词语对应的词性会设置为与实体类别对应的词性,例如机构类(ORG)实体词对应词性标注中的机构类词性nt。实体词表与其对应的词性集合会作为预置结果,成为分词与词性标注联合模型预测算法的一个参数,直接作为预测算法的特征参与算法预测阶段的流程,引导模型对请求进行分词与词性标注的文本上的分词词性标注结果偏向于实体词表。
领域词表默认优先级会比实体类词语的优先级低,并不参与分词与词性标注联合模型的预测阶段,只是作为后处理参考特征,会在联合模型预测结束后,在联合模型的分词与词性标注结果上进行调整。
由于大多数用户并没有专业的语言学知识,自定义词表中会存在着有语义歧义的词语,所以默认情况下用户自定义词表的优先级最低,与领域词表类似,不作为算法特征参与算法预测阶段,只作为模型结果后处理词表。
客户端可自行调整词表的优先级,如果将自定义词表的优先级调高,优先级高于实体词词表,或者与实体词词表的优先级同级,自定义词表与实体词表会合并之后再作为预置词表,成为联合算法的特征,参与模型预测阶段的流程,直接影响模型的分词词性结果。自定义词表与实体词词表在合并过程中,遇到词性冲突等问题时,合并结果取决于两个词表的优先级,以优先级高的词表结果为准。类似的,如果客户端调整自定义词表与领域词表的优先级,在模型结果的后处理过程中,会优先处理优先级高的词表。
此处需要说明关于在联合模型的分词与词性标注结果上,利用词表做后处理。分词与词性标注联合模型的结果在文本划分上是符合自然语言学规律的,在歧义切分和未登陆词标注上的效果也是有着可观的效果,即文本切分的边界是可取的。因此在使用词表做分词词性后处理调整时,严格按照模型的切分边界,只将模型结果中的细粒度词语合并成为后处理词表中的词语,并不会对模型结果中的词语再次进行切分。举例如下:
待进行分词词性标注的文本为:人工客服可细分为文字客服、视频客服和语音客服三类;
联合模型在实体词词表参与下的预测结果为:人工/a客服/n可/vd细分/v为/v文字/n客服/n、/w视频/n客服/n和/cc语音/n客服/n三/m类/q;
客户端自定义词表中的词条包括以下词条:人工客服/n,分为/v;
使用自定义词表调整联合模型的分词词性结果,得到的最终结果是:人工客服/n可/vd细分/v为/v文字/n客服/n、/w视频/n客服/n和/cc语音/n客服/n三/m类/q。
只将原始结果中的“人工/a客服/n”按照自定义词表合并成为“人工客服/n”,并不会将原始结果中的“细分/v”中的“分”再次进行拆分之后与“为/v”合并为“分为/v”。
S410,返回分词及词性标注处理结果。
云端服务返回分词词性结果到客户端。客户端接收到云端服务结果,分词词性标注处理流程结束。
也就是说,本申请的一些实施例提供一种用于实现中文分词与词性标注的方法,应用于客户端,所述方法包括:获取待分词的文本;至少根据所述待分词的文本的属性对云端进行配置,并向所述云端提供所述待分词的文本,以使所述云端根据配置数据对所述待处理的文本进行处理;获取所述云端针对所述待分词的文本进行处理,得到的分词及词性标注结果;根据所述分词及词性标注结果进行与自然语言处理对应的目标任务,其中,所述任务类型包括:句法解析、语义分析或者信息检索。
在一些实施例中,所述至少根据所述待分词的文本的属性对云端进行配置,包括:根据所述待分词的文本所属的领域为所述云端配置领域信息;为所述云端配置所述客户端的自定义词表,并配置所述自定义词表的使用方法;为所述云端配置分词时的粒度参数,以使所述云端按照用户配置的粒度选择参数调整分词结果的粒度。
本申请的一些实施例提供一种计算机处理系统,所述计算机系统包括:至少一个存储器,用于存储机器可读程序;至少一个处理器,用于调用所述机器可读程序,执行如上述用于实现中文分词与词性标注的方法中的任意实施例的方法。
处理器520可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器520可以是微处理器。
存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图3中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种用于实现中文分词与词性标注的方法,应用于云端,所述方法包括:
接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;
至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果,其中,所述目标分词及词性标注模型具备同时挖掘分词结果和词性标注结果的功能;
向所述客户端提供所述分词及词性标注结果。
2.如权利要求1所述的方法,其特征在于,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。
3.如权利要求2所述的方法,其特征在于,在所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:
解析所述配置信息得到与所述待分词的文本对应的目标领域、自定义词表以及本次的分词粒度;
从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;
所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:
根据所述目标词表、所述自定义词表、所述本次的分词粒度以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。
4.如权利要求1所述的方法,其特征在于,在所述根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:
获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;
根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。
5.如权利要求4所述的方法,其特征在于,
所述获取标注数据,包括:
根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。
6.如权利要求4所述的方法,其特征在于,所述根据标注规范对所述多领域的待标注数据进行标注得到所述标注数据,包括:
根据所述标注规范对所述多领域的待标注数据进行标注,得到初始标注结果数据;
检测所述初始标注结果数据得到检测结果,并反馈所述检测结果,以进一步根据所述检测结果对所述初始标注结果数据进行修正;
接收对所述初始标注结果数据进行修改后的数据,得到所述标注数据。
7.如权利要求3所述的方法,其特征在于,所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:
根据实体词典并通过所述目标分词及词性标注模块对所述待分词的文本进行词语切分,并将切分得到的词性设置为与实体类别对应的词性,得到初始分词及词性标注结果;
根据自定义词表对所述初始分词及词性标注结果进行处理,得到修正结果;
根据所述目标词表对所述修正结果进行处理,得到所述分词及词性标注结果。
8.如权利要求1-7任一项所述的方法,其特征在于,所述目标分词及词性标注模型或者所述分词及词性标注模型是基于分词词性算法的联合模型,其中,所述分词词性算法的联合模型需要将同时标注有分词结果和分词词性的标注数据作为训练数据。
9.一种用于实现中文分词与词性标注的方法,应用于客户端,所述方法包括:
获取待分词的文本;
至少根据所述待分词的文本的属性对云端进行配置,并向所述云端提供所述待分词的文本,以使所述云端根据配置数据对所述待分词的文本进行处理;
获取所述云端针对所述待分词的文本进行处理,得到的分词及词性标注结果;
根据所述分词及词性标注结果进行与自然语言处理对应的目标任务,其中,所述目标任务的类型包括:句法解析、语义分析或者信息检索。
10.一种计算机处理系统,其特征在于,所述计算机系统包括:
至少一个存储器,用于存储机器可读程序;
至少一个处理器,用于调用所述机器可读程序,执行如上述权利要求1-9中任一项所述的用于实现中文分词与词性标注的方法。
CN202211504442.0A 2022-11-28 2022-11-28 用于实现中文分词与词性标注的方法、介质及电子设备 Pending CN115796177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211504442.0A CN115796177A (zh) 2022-11-28 2022-11-28 用于实现中文分词与词性标注的方法、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211504442.0A CN115796177A (zh) 2022-11-28 2022-11-28 用于实现中文分词与词性标注的方法、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115796177A true CN115796177A (zh) 2023-03-14

Family

ID=85442434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211504442.0A Pending CN115796177A (zh) 2022-11-28 2022-11-28 用于实现中文分词与词性标注的方法、介质及电子设备

Country Status (1)

Country Link
CN (1) CN115796177A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN116721779B (zh) * 2023-08-10 2023-11-24 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN111222305B (zh) 一种信息结构化方法和装置
RU2571373C2 (ru) Метод анализа тональности текстовых данных
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN106649783B (zh) 一种同义词挖掘方法和装置
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
WO2021106380A1 (ja) プログラムコード自動生成装置及びプログラム
CN111309916A (zh) 摘要抽取方法和装置、存储介质和电子装置
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN115796177A (zh) 用于实现中文分词与词性标注的方法、介质及电子设备
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN110888940A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN110362694A (zh) 基于人工智能的文献数据检索方法、设备及可读存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
EP1574950B1 (en) Structured task naming
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
CN107038183B (zh) 网页标注方法及装置
WO2021199052A1 (en) Methods and systems for searching and retrieving information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination