CN108038108B - 分词模型训练方法和装置、及存储介质 - Google Patents

分词模型训练方法和装置、及存储介质 Download PDF

Info

Publication number
CN108038108B
CN108038108B CN201711450699.1A CN201711450699A CN108038108B CN 108038108 B CN108038108 B CN 108038108B CN 201711450699 A CN201711450699 A CN 201711450699A CN 108038108 B CN108038108 B CN 108038108B
Authority
CN
China
Prior art keywords
corpus
elements
word segmentation
training
segmentation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711450699.1A
Other languages
English (en)
Other versions
CN108038108A (zh
Inventor
李玉信
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711450699.1A priority Critical patent/CN108038108B/zh
Publication of CN108038108A publication Critical patent/CN108038108A/zh
Application granted granted Critical
Publication of CN108038108B publication Critical patent/CN108038108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种分词模型训练方法和装置、及存储介质,其中方法包括:获取训练语料;对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注,并对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免采用多个相同类型相似内容的训练语料,从而提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。

Description

分词模型训练方法和装置、及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种分词模型训练方法和装置、及存储介质。
背景技术
目前,分词作为自然语言处理的基础,分词的准确度直接影响自然语言处理的结果。为了获取好的分词结果,需要训练质量好的分词模型,而分词模型的训练需要好的训练语料。
现有技术中,对分词模型进行训练的过程具体可以为,获取训练语料,对训练语料进行人工分词以及词性标注,得到标注后的训练语料,根据标注后的训练语料对分词模型进行训练。然而上述对分词模型进行训练的过程中,训练语料中可能存在大量类型相同且内容相似的训练语料,导致训练语料中的类型不全面,各类型的训练语料的数量可能差别太大,从而降低了训练得到的分词模型的准确度;或者,在分词模型的准确度确定的情况下,增加了需要准备的训练语料的数量,增加了人工成本。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种分词模型训练方法,用于解决现有技术中训练得到的分词模型准确度差,人工成本高的问题。
本发明的第二个目的在于提出一种分词模型训练装置。
本发明的第三个目的在于提出另一种分词模型训练装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种分词模型训练方法,包括:
获取训练语料;
对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
根据所述标注后的待训练语料集对分词模型进行训练。
进一步的,所述对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集,包括:
对所述至少一篇文档进行拆分,获取至少一个语料元素;
针对每个语料元素,采用N元模型对所述语料元素进行切割,获取所述语料元素中的切割词;
根据所述切割词,计算任意两个语料元素之间的距离;
根据各个语料元素之间的距离,对所述至少一个语料元素进行聚类,得到各个类型对应的语料元素集。
进一步的,所述语料元素为:至少一个句子、至少一个段落或者整篇文章。
进一步的,所述从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集,包括:
针对每个类型对应的语料元素集,在第一次抽取语料元素时,从所述语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的距离之和;将所述剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的最小距离;将所述剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
进一步的,所述对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集,包括:
将所述待训练语料元素集中的各个语料元素输入所述分词模型,获取所述分词模型输出的预标注语料元素集;
对所述预标注语料集中的各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集。
进一步的,所述根据所述标注后的待训练语料集对分词模型进行训练之后,还包括:
对所述分词模型进行校验,获取所述分词模型的准确度;
在所述分词模型的准确度未达到设定的准确度阈值时,从各个类型对应的语料元素集中重新抽取语料元素,对所述分词模型进行训练,直至所述分词模型的准确度达到所述准确度阈值为止。
进一步的,所述的方法还包括:
在所述分词模型的准确度达到所述准确度阈值时,获取待标注语料;
将所述待标注语料输入所述分词模型,得到所述待标注语料的词性标注结果。
本发明实施例的分词模型训练方法,通过获取训练语料;对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
为达上述目的,本发明第二方面实施例提出了一种分词模型训练装置,包括:
获取模块,用于获取训练语料;
拆分模块,用于对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
抽取模块,用于从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
词性标注模块,用于对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
训练模块,用于根据所述标注后的待训练语料集对分词模型进行训练。
进一步的,所述拆分模块包括:
拆分单元,用于对所述至少一篇文档进行拆分,获取至少一个语料元素;
切割单元,用于针对每个语料元素,采用N元模型对所述语料元素进行切割,获取所述语料元素中的切割词;
计算单元,用于根据所述切割词,计算任意两个语料元素之间的距离;
聚类单元,用于根据各个语料元素之间的距离,对所述至少一个语料元素进行聚类,得到各个类型对应的语料元素集。
进一步的,所述语料元素为:至少一个句子、至少一个段落或者整篇文章。
进一步的,所述抽取模块具体用于,针对每个类型对应的语料元素集,在第一次抽取语料元素时,从所述语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的距离之和;将所述剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的最小距离;将所述剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
进一步的,所述词性标注模块具体用于,
将所述待训练语料元素集中的各个语料元素输入所述分词模型,获取所述分词模型输出的预标注语料元素集;
对所述预标注语料集中的各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集。
进一步的,所述的装置还包括:校验模块;
所述校验模块,用于对所述分词模型进行校验,获取所述分词模型的准确度;
所述训练模块,还用于在所述分词模型的准确度未达到设定的准确度阈值时,从各个类型对应的语料元素集中重新抽取语料元素,对所述分词模型进行训练,直至所述分词模型的准确度达到所述准确度阈值为止。
进一步的,所述的装置还包括:输入模块;
所述获取模块,还用于在所述分词模型的准确度达到所述准确度阈值时,获取待标注语料;
所述输入模块,用于将所述待标注语料输入所述分词模型,得到所述待标注语料的词性标注结果。
本发明实施例的分词模型训练装置,通过获取训练语料;对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
为达上述目的,本发明第三方面实施例提出了另一种分词模型训练装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的分词模型训练方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种分词模型训练方法,所述方法包括:
获取训练语料;
对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
根据所述标注后的待训练语料集对分词模型进行训练。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种分词模型训练方法的流程示意图;
图2为本发明实施例提供的另一种分词模型训练方法的流程示意图;
图3为获取各个类型对应的语料元素集的过程示意图;
图4为本发明实施例提供的一种分词模型训练装置的结构示意图;
图5为本发明实施例提供的另一种分词模型训练装置的结构示意图;
图6为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的分词模型训练方法和装置、及存储介质。
图1为本发明实施例提供的一种分词模型训练方法的流程示意图。如图1所示,该分词模型训练方法包括以下步骤:
S101、获取训练语料。
本发明提供的分词模型训练方法的执行主体为分词模型训练装置,分词模型训练装置具体可以为获取训练语料对分词模型进行训练的硬件或者软件。其中,训练语料例如可以为,学术论文、医疗电子病历等。需要说明的是,在获取训练语料的过程中,分词模型训练装置可以获取各个领域、各个行业的训练语料,使得对训练语料进行拆分得到的语料元素的类型能够足够全面。
S102、对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;语料元素集中包括:对文档拆分得到的相应类型的至少一个语料元素。
其中,语料元素可以为:至少一个句子、至少一个段落或者整篇文章。例如,在语料元素为单个句子的情况下,分词模型训练装置可以对训练语料中的至少一篇文档进行拆分,获取各篇文档中的句子,将各个句子按照类型进行划分,得到各个类型对应的语料元素集。其中,语料元素的类型例如,医疗、机械、计算机、生物等,可以根据实际需要进行选取或设定。
本实施例中,由于采用相同或者类似的语料元素对分词模型进行训练,会增加人工成本,降低分词模型训练准确度,因此,为了减少人工成本,提高分词模型训练准确度,在对语料元素进行分词以及词性标注之前,分词模型训练装置可以过滤掉重复的语料元素,减少语料元素集中的重复语料元素。其中,重复的语料元素例如可以为,内容完全相同,或者,内容相似度过高的语料元素。另外,按照语料元素对文档进行拆分,使得分词模型训练装置可以以语料元素为单位确定语料元素的类型。
本实施例中,分词模型训练装置可以基于段落标识、文章结束标识,句子结束标识等对文档进行拆分,获取语料元素。段落标识例如回车键等。句子结束标识例如句号、问号、感叹号等。
S103、从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值。
本实施例中,从各个类型对应的语料元素集中抽取语料元素,使得待训练语料元素集中包括各个类型的语料元素,语料元素的类型比较全面;待训练语料元素集中,每个类型的语料元素数量满足预设阈值,使得待训练语料元素集中,各种类型的语料元素数量相同或者相差不大;从而可以基于各种类型的语料元素对分词模型进行训练,避免采用极多相同类型相似内容的训练语料对分词模型进行训练,进而提高训练得到的分词模型的准确度。
其中,预设阈值可以为数量阈值、差值范围或者比值范围。在预设阈值为数量阈值的情况下,每个类型的语料元素数量需要满足该数量阈值;在预设阈值为差值范围的情况下,任意两个类型的语料元素数量之间的差值需要位于预设差值范围内;在预设阈值为比值范围的情况下,任意两个类型的语料元素数量之间的比值位于预设比值范围内。
本实施例中,分词模型训练装置执行步骤103的过程具体可以为,针对每个类型对应的语料元素集,在第一次抽取语料元素时,从语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对语料元素集中的每个剩余语料元素,计算剩余语料元素与已抽取的各个语料元素之间的距离之和;将剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对语料元素集中的每个剩余语料元素,计算剩余语料元素与已抽取的各个语料元素之间的最小距离;将剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
例如,在语料元素集中包括:A、B、C、D四个语料元素的情况下,其中一种抽取语料元素的方式可以为,在第一次抽取语料元素时,从语料元素集中随机抽取A;在第二次抽取语料元素时,确定B、C、D与A之间的距离,将距离最大的C确定为第二次抽取的语料元素;在第三次抽取语料元素时,计算B与A的距离以及B与C的距离之和作为第一距离,计算D与A的距离以及D与C的距离之和作为第二距离,若第二距离大于第一距离,则将D确定为第三次抽取的语料元素;依次类推。
另外一种抽取语料元素的方式可以为,在第一次抽取语料元素时,从语料元素集中随机抽取A;在第二次抽取语料元素时,确定B、C、D与A之间的距离,将距离最大的C确定为第二次抽取的语料元素;在第三次抽取语料元素时,将B与A之间的距离以及B与C之间的距离的最小值作为第三距离,将D与A之间的距离以及D与C之间的距离的最小值作为第四距离,若第三距离小于第四距离,则将D确定为第三次抽取的语料元素;依次类推。
另外,为了进一步提高分词模型的准确度,对待训练语料元素集中的各个语料元素进行分词以及词性标注之前,可以判断待训练语料元素集中包括的语料元素的类型数量与总类型数量之间的比值是否大于预设比值阈值;在待训练语料元素集中包括的语料元素的类型数量与总类型数量之间的比值大于预设比值阈值时,可以确保所有类型或者较多类型的语料元素用于分词模型的训练,进一步提高分词模型的准确度。在分词模型的准确度确定的情况下,也可以减少所需要的语料元素的数量,从而降低人工成本。
S104、对待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集。
本实施例中,分词模型训练装置可以将待训练语料元素集中的各个语料元素提供给用户,由用户对各个语料元素进行手动分词以及词性标注,获取标注后的待训练语料元素集。或者,为了提高分词模型训练效率,分词模型训练装置也可以将待训练语料元素集中的各个语料元素输入分词模型,获取分词模型输出的预标注语料元素集;将预标注语料集中的各个语料元素提供给用户,由用户对各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集。例如,可以在第一次对分词模型进行训练时,将待训练语料元素集中的各个语料元素提供给用户,由用户对各个语料元素进行手动分词以及词性标注,获取标注后的待训练语料元素集对分词模型进行训练;在第二次或者更多次对分词模型进行训练时,获取待训练语料元素集,将待训练语料元素集中的各个语料元素输入分词模型,获取分词模型输出的预标注语料元素集;将预标注语料集中的各个语料元素提供给用户,由用户对各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集对分词模型进行训练,从而减少分词以及词性标注过程中的人工标注量。
另外,需要说明的是,分词模型训练装置执行步骤103和步骤104的过程具体还可以为,分词模型训练装置依次从各个类型对应的语料元素集中抽取语料元素,分配给各个用户进行手动分词以及词性标注,从而实现采用各种类型的语料元素对分词模型进行训练,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
S105、根据标注后的待训练语料集对分词模型进行训练。
进一步的,本实施例中,步骤105之后,所述的方法还可以包括:对分词模型进行校验,获取分词模型的准确度;在分词模型的准确度未达到设定的准确度阈值时,从各个类型对应的语料元素集中重新抽取语料元素,对分词模型进行训练,直至分词模型的准确度达到准确度阈值为止。
其中,分词模型训练装置对分词模型进行校验的过程具体可以为,获取校验语料,校验语料中包括:至少一篇文档,和/或,至少一个语料元素;其中,校验语料未经过分词以及词性标注;将校验语料输入分词模型,将分词模型的输出与经过人工分词以及词性标注的校验语料进行比对,确定分词模型的准确度。
进一步的,步骤105之后,所述的方法还可以包括:在分词模型的准确度达到准确度阈值时,获取待标注语料;将待标注语料输入分词模型,得到待标注语料的词性标注结果。
本实施例中,通过采用各种类型的语料元素对分词模型进行训练,提高了训练得到的分词模型的准确度,减少得到一定准确度的分词模型所需要的语料元素数量,从而减少对语料元素进行分词以及词性标注的工作量;而在训练过程中采用分词模型对语料元素进行预标注,能进一步减轻对语料元素进行分词以及词性标注的工作量,进而减少了对语料元素进行分词以及词性标注的时间,极大的加快了对分词模型的训练速度。
本发明实施例的分词模型训练方法,通过获取训练语料;对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
图2为本发明实施例提供的另一种分词模型训练方法的流程示意图。如图2所示,在图1所示实施例的基础上,步骤102可以包括以下步骤:
S1021、对至少一篇文档进行拆分,获取至少一个语料元素。
S1022、针对每个语料元素,采用N元模型对语料元素进行切割,获取语料元素中的切割词。
其中,N元模型具体可以为N-gram模型,该模型的输入为语料元素,输出为语料元素中的切割词。N的取值可以为2或者3等。例如,在第一语料元素为S1=BABABCDCDEFCE;第二语料元素S2=ABEDCEABAC,N的取值为2的情况下,采用N-gram模型对第一语料元素S1切割得到的切割词集合为S′1={BA,AB,BA,AB,BC,CD,DC,CD,DE,EF,FC,CE};对第二语料元素S2切割得到的切割词集合为S′2={AB,BE,ED,DC,CE,EA,AB,BA,AC}。分别统计S′1、S′2中出现的切割词的数量,S′1中各切割词的数量可以如以下表1所示,S′2中切割词的数量可以如以下表2所示。其中,A,B,C,D,E分别代表不同的字或者符号。
表1
AB 2
BA 2
BC 1
CD 2
DC 1
DE 1
EF 1
FC 1
CE 1
表2
AB 2
BE 1
ED 1
DC 1
CE 1
EA 1
BA 1
AC 1
S1023、根据切割词,计算任意两个语料元素之间的距离。
本实施例中,可以根据两个语料元素中相同切割词的数量,来计算两个语料元素之间的距离。例如,在上述S1和S2的例子中,在S′1、S′2中同时出现的切割词有AB,BA,DC,CE,如以下表3所示。
表3
切割词 S′<sub>1</sub> S′<sub>2</sub>
AB 2 2
BA 2 1
DC 1 1
CE 1 1
对应的,S1和S2之间的距离的计算公式可以如以下公式(1)所示。
Figure BDA0001528429240000101
其中,dis(s1,s2)表示S1和S2之间的距离,N-gram∈s1,s2表示同时出现在S1和S2中的切割词;Num1(N-gram)表示相应切割词在S1中的出现次数;Num2(N-gram)表示相应切割词在S2中的出现次数;
Figure BDA0001528429240000102
表示各切割词在S1中的出现次数与在S2中的出现次数的乘积的和,例如,S1和S2之间的距离具体可以如以下公式(2)所示。
Figure BDA0001528429240000103
另外,本实施例中,各语料元素之间的距离计算公式并不限定为上述公式(1),只要距离计算公式中的分母为随着S1和S2中相同词语数目增多而增多的增函数就可以,例如,S1和S2之间的距离的计算公式还可以如以下公式(3)所示。
Figure BDA0001528429240000111
S1024、根据各个语料元素之间的距离,对至少一个语料元素进行聚类,得到各个类型对应的语料元素集。
本实施例中,分词模型训练装置可以使用K-means等聚类方法对拆分得到的至少一个语料元素进行聚类,得到聚类结果,聚类结果的表达式例如可以如以下公式(4)所示。本实施例中,得到聚类结果后,针对每个聚类,可以对该聚类中的部分语料元素进行分析,确定该聚类的类型,从而得到各个类型对应的语料元素集。
C={c1,c2,...,cj}(4)
并且满足Um∈[1,j]cm=S,
Figure BDA0001528429240000112
其中,j>=1,C中的元素为集合S中的一个或者多个语料元素,cj表示其中一种类型对应的语料元素集。集合S为对至少一篇文档拆分得到的至少一个语料元素的集合。也就是说,各类型对应的语料元素集的并集为集合S,但各类型对应的语料元素集的交集为空。
例如,在语料元素为单个句子的情况下,分词模型训练装置获取各个类型对应的语料元素集的过程具体可以如图3所示,对训练语料中的文档进行拆分,得到多个句子;将多个句子通过N-gram模型进行切割,并输入聚类模型,得到各个类型对应的句子集合;依次从各个类型对应的句子集合中抽取句子,分配给标注者进行分词以及词性标注,进而根据标注后的句子对分词模型进行训练。
其中,依次从各个类型对应的句子集合中抽取句子的过程具体可以为,从第一个类型对应的句子集合中抽取N个句子,从第二个类型对应的句子集合中抽取N个句子,依次类推,当各个类型对应的句子集合抽取完毕时,可以重复上述过程,重新从第一个类型对应的句子集合中抽取M个句子,从第二个类型对应的句子集合中抽取M个句子,依次类推,直至结束抽取。其中,N、M可以为正整数。
本发明实施例的分词模型训练方法,通过获取训练语料;对至少一篇文档进行拆分,获取至少一个语料元素;针对每个语料元素,采用N元模型对语料元素进行切割,获取语料元素中的切割词;根据切割词,计算任意两个语料元素之间的距离;根据各个语料元素之间的距离,对至少一个语料元素进行聚类,得到各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
图4为本发明实施例提供的一种分词模型训练装置的结构示意图。如图4所示,包括:获取模块41、拆分模块42、抽取模块43、词性标注模块44和训练模块45。
其中,获取模块41,用于获取训练语料;
拆分模块42,用于对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
抽取模块43,用于从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
词性标注模块44,用于对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
训练模块45,用于根据所述标注后的待训练语料集对分词模型进行训练。
本发明提供的分词模型训练装置具体可以为获取训练语料对分词模型进行训练的硬件或者软件。其中,训练语料例如可以为,学术论文、医疗电子病历等。需要说明的是,在获取训练语料的过程中,分词模型训练装置可以获取各个领域、各个行业的训练语料,使得对训练语料进行拆分得到的语料元素的类型能够足够全面。
其中,语料元素可以为:至少一个句子、至少一个段落或者整篇文章。例如,在语料元素为单个句子的情况下,分词模型训练装置可以对训练语料中的至少一篇文档进行拆分,获取各篇文档中的句子,将各个句子按照类型进行划分,得到各个类型对应的语料元素集。其中,语料元素的类型例如,医疗、机械、计算机、生物等,可以根据实际需要进行选取或设定。
本实施例中,由于采用相同或者类似的语料元素对分词模型进行训练,会增加人工成本,降低分词模型训练准确度,因此,为了减少人工成本,提高分词模型训练准确度,在对语料元素进行分词以及词性标注之前,分词模型训练装置可以过滤掉重复的语料元素,减少语料元素集中的重复语料元素。其中,重复的语料元素例如可以为,内容完全相同,或者,内容相似度过高的语料元素。另外,按照语料元素对文档进行拆分,使得分词模型训练装置可以以语料元素为单位确定语料元素的类型。
本实施例中,从各个类型对应的语料元素集中抽取语料元素,使得待训练语料元素集中包括各个类型的语料元素,语料元素的类型比较全面;待训练语料元素集中,每个类型的语料元素数量满足预设阈值,使得待训练语料元素集中,各种类型的语料元素数量相同或者相差不大;从而可以基于各种类型的语料元素对分词模型进行训练,避免采用极多相同类型相似内容的训练语料对分词模型进行训练,进而提高训练得到的分词模型的准确度。
其中,预设阈值可以为数量阈值、差值范围或者比值范围。在预设阈值为数量阈值的情况下,每个类型的语料元素数量需要满足该数量阈值;在预设阈值为差值范围的情况下,任意两个类型的语料元素数量之间的差值需要位于预设差值范围内;在预设阈值为比值范围的情况下,任意两个类型的语料元素数量之间的比值位于预设比值范围内。
本实施例中,抽取模块43具体可以用于,针对每个类型对应的语料元素集,在第一次抽取语料元素时,从语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对语料元素集中的每个剩余语料元素,计算剩余语料元素与已抽取的各个语料元素之间的距离之和;将剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对语料元素集中的每个剩余语料元素,计算剩余语料元素与已抽取的各个语料元素之间的最小距离;将剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
例如,在语料元素集中包括:A、B、C、D四个语料元素的情况下,其中一种抽取语料元素的方式可以为,在第一次抽取语料元素时,从语料元素集中随机抽取A;在第二次抽取语料元素时,确定B、C、D与A之间的距离,将距离最大的C确定为第二次抽取的语料元素;在第三次抽取语料元素时,计算B与A的距离以及B与C的距离之和作为第一距离,计算D与A的距离以及D与C的距离之和作为第二距离,若第二距离大于第一距离,则将D确定为第三次抽取的语料元素;依次类推。
另外一种抽取语料元素的方式可以为,在第一次抽取语料元素时,从语料元素集中随机抽取A;在第二次抽取语料元素时,确定B、C、D与A之间的距离,将距离最大的C确定为第二次抽取的语料元素;在第三次抽取语料元素时,将B与A之间的距离以及B与C之间的距离的最小值作为第三距离,将D与A之间的距离以及D与C之间的距离的最小值作为第四距离,若第三距离小于第四距离,则将D确定为第三次抽取的语料元素;依次类推。
另外,为了进一步提高分词模型的准确度,对待训练语料元素集中的各个语料元素进行分词以及词性标注之前,可以判断待训练语料元素集中包括的语料元素的类型数量与总类型数量之间的比值是否大于预设比值阈值;在待训练语料元素集中包括的语料元素的类型数量与总类型数量之间的比值大于预设比值阈值时,可以确保所有类型或者较多类型的语料元素用于分词模型的训练,进一步提高分词模型的准确度。在分词模型的目标准确度确定的情况下,也可以减少所需要的语料元素的数量,从而降低人工成本。
本实施例中,词性标注模块44可以将待训练语料元素集中的各个语料元素提供给用户,由用户对各个语料元素进行手动分词以及词性标注,获取标注后的待训练语料元素集。或者,为了提高分词模型训练效率,词性标注模块44也可以用于,将所述待训练语料元素集中的各个语料元素输入所述分词模型,获取所述分词模型输出的预标注语料元素集;对所述预标注语料集中的各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集。例如,可以在第一次对分词模型进行训练时,将待训练语料元素集中的各个语料元素提供给用户,由用户对各个语料元素进行手动分词以及词性标注,获取标注后的待训练语料元素集对分词模型进行训练;在第二次或者更多次对分词模型进行训练时,获取待训练语料元素集,将待训练语料元素集中的各个语料元素输入分词模型,获取分词模型输出的预标注语料元素集;将预标注语料集中的各个语料元素提供给用户,由用户对各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集对分词模型进行训练,从而减少分词以及词性标注过程中的人工标注量。
另外,需要说明的是,分词模型训练装置可以依次从各个类型对应的语料元素集中抽取语料元素,分配给各个用户进行手动分词以及词性标注,从而实现采用各种类型的语料元素对分词模型进行训练,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
进一步的,在上述实施例的基础上,所述的装置还可以包括:校验模块;
所述校验模块,用于对所述分词模型进行校验,获取所述分词模型的准确度;
所述训练模块45,还用于在所述分词模型的准确度未达到设定的准确度阈值时,从各个类型对应的语料元素集中重新抽取语料元素,对所述分词模型进行训练,直至所述分词模型的准确度达到所述准确度阈值为止。
其中,校验模块对分词模型进行校验的过程具体可以为,获取校验语料,校验语料中包括:至少一篇文档,和/或,至少一个语料元素;其中,校验语料未经过分词以及词性标注;将校验语料输入分词模型,将分词模型的输出与经过人工分词以及词性标注的校验语料进行比对,确定分词模型的准确度。
进一步的,在上述实施例的基础上,所述的装置还可以包括:输入模块;
所述获取模块,还用于在所述分词模型的准确度达到所述准确度阈值时,获取待标注语料;
所述输入模块,用于将所述待标注语料输入所述分词模型,得到所述待标注语料的词性标注结果。
本实施例中,通过采用各种类型的语料元素对分词模型进行训练,提高了训练得到的分词模型的准确度,减少得到一定准确度的分词模型所需要的语料元素数量,从而减少对语料元素进行分词以及词性标注的工作量;而在训练过程中采用分词模型对语料元素进行预标注,能进一步减轻对语料元素进行分词以及词性标注的工作量,进而减少了对语料元素进行分词以及词性标注的时间,极大的加快了对分词模型的训练速度。
本发明实施例的分词模型训练装置,通过获取训练语料;对训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
图5为本发明实施例提供的另一种分词模型训练装置的结构示意图。如图5所示,在图4所示实施例的基础上,所述拆分模块42包括:拆分单元421、切割单元422、计算单元423和聚类单元424。
其中,拆分单元421,用于对所述至少一篇文档进行拆分,获取至少一个语料元素;
切割单元422,用于针对每个语料元素,采用N元模型对所述语料元素进行切割,获取所述语料元素中的切割词;
计算单元423,用于根据所述切割词,计算任意两个语料元素之间的距离;
聚类单元424,用于根据各个语料元素之间的距离,对所述至少一个语料元素进行聚类,得到各个类型对应的语料元素集。
其中,N元模型具体可以为N-gram模型,该模型的输入为语料元素,输出为语料元素中的切割词。N的取值可以为2或者3等。例如,在第一语料元素为S1=BABABCDCDEFCE;第二语料元素S2=ABEDCEABAC,N的取值为2的情况下,采用N-gram模型对第一语料元素S1切割得到的切割词集合为S′1={BA,AB,BA,AB,BC,CD,DC,CD,DE,EF,FC,CE};对第二语料元素S2切割得到的切割词集合为S′2={AB,BE,ED,DC,CE,EA,AB,BA,AC}。分别统计S′1、S′2中出现的切割词的数量。其中,A,B,C,D,E分别代表不同的字或者符号。
对应的,S1和S2之间的距离的计算公式可以如以下公式(1)所示。
Figure BDA0001528429240000161
其中,dis(s1,s2)表示S1和S2之间的距离,N-gram∈s1,s2表示同时出现在S1和S2中的切割词;Num1(N-gram)表示相应切割词在S1中的出现次数;Num2(N-gram)表示相应切割词在S2中的出现次数;
Figure BDA0001528429240000162
表示各切割词在S1中的出现次数与在S2中的出现次数的乘积的和,例如,S1和S2之间的距离具体可以如以下公式(2)所示。
Figure BDA0001528429240000163
另外,本实施例中,各语料元素之间的距离计算公式并不限定为上述公式(1),只要距离计算公式中的分母为随着S1和S2中相同词语数目增多而增多的增函数就可以,例如,S1和S2之间的距离的计算公式还可以如以下公式(3)所示。
Figure BDA0001528429240000164
例如,在语料元素为单个句子的情况下,分词模型训练装置获取各个类型对应的语料元素集的过程具体可以如图3所示,对训练语料中的文档进行拆分,得到多个句子;将多个句子通过N-gram模型进行切割,并输入聚类模型,得到各个类型对应的句子集合;依次从各个类型对应的句子集合中抽取句子,分配给标注者进行分词以及词性标注,进而根据标注后的句子对分词模型进行训练。
其中,依次从各个类型对应的句子集合中抽取句子的过程具体可以为,从第一个类型对应的句子集合中抽取N个句子,从第二个类型对应的句子集合中抽取N个句子,依次类推,当各个类型对应的句子集合抽取完毕时,可以重复上述过程,重新从第一个类型对应的句子集合中抽取M个句子,从第二个类型对应的句子集合中抽取M个句子,依次类推,直至结束抽取。其中,N、M可以为正整数。
本发明实施例的分词模型训练装置,通过获取训练语料;对至少一篇文档进行拆分,获取至少一个语料元素;针对每个语料元素,采用N元模型对语料元素进行切割,获取语料元素中的切割词;根据切割词,计算任意两个语料元素之间的距离;根据各个语料元素之间的距离,对至少一个语料元素进行聚类,得到各个类型对应的语料元素集;从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;待训练语料元素集中,每个类型的语料元素数量满足预设阈值;对待训练语料元素集中的各个语料元素进行分词以及词性标注;根据标注后的待训练语料集对分词模型进行训练,从而能够采用各种类型的语料元素对分词模型进行训练,避免训练语料集中存在大量类型相同且内容相似的训练语料的情况,避免训练语料类型不全面,或者各类型的训练语料的数量差别太大的情况,提高了训练得到的分词模型的准确度,降低了人工成本,提高了分词模型的训练效率。
为了实现上述实施例,本发明还提出另一种分词模型训练装置,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器执行所述程序时实现上述实施例中提供的分词模型训练方法。
为了实现上述实施例,本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的分词模型训练方法。
为了实现上述实施例,本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种分词模型训练方法,所述方法包括:
获取训练语料;
对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
根据所述标注后的待训练语料集对分词模型进行训练。
图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备72仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备72以通用计算设备的形式表现。计算机设备72的组件可以包括但不限于:一个或者多个处理器或者处理单元76,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元76)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备72典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备72访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器62。计算机设备72可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统64可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video DiscRead OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块32的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块32包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块32通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备72也可以与一个或多个外部设备74(例如键盘、指向设备、显示器54等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器72交互的设备通信,和/或与使得该计算机系统/服务器72能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口52进行。并且,计算机设备72还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备72的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备72使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元76通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种分词模型训练方法,其特征在于,该分词模型训练方法的执行主体为分词模型训练装置,所述方法包括:
获取训练语料;
对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
根据所述标注后的待训练语料集对分词模型进行训练;
所述对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集,包括:
对所述至少一篇文档进行拆分,获取至少一个语料元素;
针对每个语料元素,采用N元模型对所述语料元素进行切割,获取所述语料元素中的切割词;
根据任意两个语料元素中相同切割词的数量,计算所述任意两个语料元素之间的距离;
根据各个语料元素之间的距离,对所述至少一个语料元素进行聚类,得到各个类型对应的语料元素集;
所述从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集,包括:
针对每个类型对应的语料元素集,在第一次抽取语料元素时,从所述语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的距离之和;将所述剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的最小距离;将所述剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
2.根据权利要求1所述的方法,其特征在于,所述语料元素为:至少一个句子、至少一个段落或者整篇文章。
3.根据权利要求1所述的方法,其特征在于,所述对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集,包括:
将所述待训练语料元素集中的各个语料元素输入所述分词模型,获取所述分词模型输出的预标注语料元素集;
对所述预标注语料元素 集中的各个语料元素的分词结果和词性标注结果进行校正,得到标注后的待训练语料元素集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的待训练语料集对分词模型进行训练之后,还包括:
对所述分词模型进行校验,获取所述分词模型的准确度;
在所述分词模型的准确度未达到设定的准确度阈值时,从各个类型对应的语料元素集中重新抽取语料元素,对所述分词模型进行训练,直至所述分词模型的准确度达到所述准确度阈值为止。
5.根据权利要求4所述的方法,其特征在于,还包括:
在所述分词模型的准确度达到所述准确度阈值时,获取待标注语料;
将所述待标注语料输入所述分词模型,得到所述待标注语料的词性标注结果。
6.一种分词模型训练装置,其特征在于,包括:
获取模块,用于获取训练语料;
拆分模块,用于对所述训练语料中的至少一篇文档进行拆分,获取各个类型对应的语料元素集;所述语料元素集中包括:对所述文档拆分得到的相应类型的至少一个语料元素;
抽取模块,用于从各个类型对应的语料元素集中抽取语料元素,得到待训练语料元素集;所述待训练语料元素集中,每个类型的语料元素数量满足预设阈值;
词性标注模块,用于对所述待训练语料元素集中的各个语料元素进行分词以及词性标注,得到标注后的待训练语料元素集;
训练模块,用于根据所述标注后的待训练语料元素 集对分词模型进行训练;
所述拆分模块具体用于:
对所述至少一篇文档进行拆分,获取至少一个语料元素;
针对每个语料元素,采用N元模型对所述语料元素进行切割,获取所述语料元素中的切割词;
根据任意两个语料元素中相同切割词的数量,计算所述任意两个语料元素之间的距离;
根据各个语料元素之间的距离,对所述至少一个语料元素进行聚类,得到各个类型对应的语料元素集;
所述抽取模块具体用于:
针对每个类型对应的语料元素集,在第一次抽取语料元素时,从所述语料元素集中随机抽取语料元素;
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的距离之和;将所述剩余语料元素中距离之和的最大值对应的语料元素确定为第二次或者多次抽取的语料元素;或者,
在第二次或者多次抽取语料元素时,针对所述语料元素集中的每个剩余语料元素,计算所述剩余语料元素与已抽取的各个语料元素之间的最小距离;将所述剩余语料元素中最小距离的最大值对应的语料元素确定为第二次或者多次抽取的语料元素。
7.一种分词模型训练装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机 程序时实现如权利要求1-5中任一所述的分词模型训练方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的分词模型训练方法。
CN201711450699.1A 2017-12-27 2017-12-27 分词模型训练方法和装置、及存储介质 Active CN108038108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711450699.1A CN108038108B (zh) 2017-12-27 2017-12-27 分词模型训练方法和装置、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711450699.1A CN108038108B (zh) 2017-12-27 2017-12-27 分词模型训练方法和装置、及存储介质

Publications (2)

Publication Number Publication Date
CN108038108A CN108038108A (zh) 2018-05-15
CN108038108B true CN108038108B (zh) 2021-12-10

Family

ID=62097627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711450699.1A Active CN108038108B (zh) 2017-12-27 2017-12-27 分词模型训练方法和装置、及存储介质

Country Status (1)

Country Link
CN (1) CN108038108B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446300B (zh) * 2018-09-06 2021-04-20 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备
CN111382569B (zh) * 2018-12-27 2024-05-03 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
CN110442859B (zh) * 2019-06-28 2023-05-26 中国人民解放军国防科技大学 标注语料生成方法、装置、设备及存储介质
CN111177321B (zh) * 2019-12-27 2023-10-20 东软集团股份有限公司 一种确定语料的方法、装置、设备及存储介质
CN113378562B (zh) * 2020-03-10 2023-09-19 中国移动通信集团辽宁有限公司 分词处理方法、装置、计算设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
WO2010016109A1 (ja) * 2008-08-05 2010-02-11 富士通株式会社 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
CN103823824B (zh) * 2013-11-12 2017-04-05 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
US11334789B2 (en) * 2015-03-17 2022-05-17 Qualcomm Incorporated Feature selection for retraining classifiers
CN104866472B (zh) * 2015-06-15 2017-10-27 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105488025B (zh) * 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
US9836183B1 (en) * 2016-09-14 2017-12-05 Quid, Inc. Summarized network graph for semantic similarity graphs of large corpora
CN107273357B (zh) * 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107276805B (zh) * 2017-06-19 2020-06-05 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于句子聚类的中文文本自动摘要算法的研究;杨毅;《微型电脑应用》;20170831;第33卷(第8期);第54-56页 *
术语定义的聚类研究;张榕;《中国科技术语》;20110331(第1期);第14-18页 *

Also Published As

Publication number Publication date
CN108038108A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038108B (zh) 分词模型训练方法和装置、及存储介质
CN108733779B (zh) 文本配图的方法和装置
List et al. Sequence comparison in computational historical linguistics
US10169325B2 (en) Segmenting and interpreting a document, and relocating document fragments to corresponding sections
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
US10176889B2 (en) Segmenting and interpreting a document, and relocating document fragments to corresponding sections
CN109710759B (zh) 文本切分方法、装置、计算机设备和可读存储介质
CN104978354B (zh) 文本分类方法和装置
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN107766325B (zh) 文本拼接方法及其装置
CN112464659A (zh) 基于知识图谱的辅助教学方法、装置、设备及存储介质
US20150066474A1 (en) Method and Apparatus for Matching Misspellings Caused by Phonetic Variations
US9811517B2 (en) Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
US20140255886A1 (en) Systems and Methods for Content Scoring of Spoken Responses
CN109033074B (zh) 新闻摘要生成方法、装置、设备及计算机可读介质
WO2014117553A1 (en) Method and system of adding punctuation and establishing language model
JP5751431B2 (ja) 不整合検出システム、方法、およびプログラム
Zweigenbaum et al. Multiple Methods for Multi-class, Multi-label ICD-10 Coding of Multi-granularity, Multilingual Death Certificates.
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN114462424A (zh) 一种文章段落分析注释方法、系统、可读介质及设备
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
CN109614494B (zh) 一种文本分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant