CN116151220A - 分词模型训练方法、分词处理方法和装置 - Google Patents

分词模型训练方法、分词处理方法和装置 Download PDF

Info

Publication number
CN116151220A
CN116151220A CN202210916373.8A CN202210916373A CN116151220A CN 116151220 A CN116151220 A CN 116151220A CN 202210916373 A CN202210916373 A CN 202210916373A CN 116151220 A CN116151220 A CN 116151220A
Authority
CN
China
Prior art keywords
word
word segmentation
segmented
text
sample sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210916373.8A
Other languages
English (en)
Inventor
李长林
肖冰
曹磊
罗奇帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210916373.8A priority Critical patent/CN116151220A/zh
Publication of CN116151220A publication Critical patent/CN116151220A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种分词模型训练方法、分词处理方法和装置,方法包括:获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。本申请能够提升文本分词的准确率和速率。

Description

分词模型训练方法、分词处理方法和装置
技术领域
本申请涉及深度学习技术领域,尤其涉及一种分词模型训练方法、分词处理方法和装置。
背景技术
在英文中,单词与单词之间是有明显的分隔符号的。自然语言处理对于英文的分词处理,只需要简单的操作即可将一个英文句子准确的划分为若干个单词而不需要考虑这个单词是否为新词。与英文不同的是,中文用于表达意思的最小语言单位为词,词与词之间没有明显的分隔符号,因此自然语言处理中对中文文本的首要处理操作为分词。
自然语言处理过程要求计算机能准确地提炼出句子所表达的含义,处理过程涉及句法、语义成分、语义结构、语境等方面。这一切的基础都是基于将一个句子准确地切分为多个词语的组合。在更深—层自然语言处理过程中,譬如个性化推荐、情感分析、主题分类、舆情分析等,都需要准确率较高的分词效果作为前提保证。而新词的出现往往会对现有分词软件造成干扰,导致分词效果不理想,进而影响了后续对中文文本的处理。如何训练分词模型以提升分词准确性,是本申请所要解决的技术问题。
发明内容
本申请实施例的目的是提供一种分词模型训练方法、分词处理方法和装置,有利于提升文本分词的准确率和处理效率,解决常用方法中流程复杂、效率低、限制词长度等问题。
第一方面,提供了一种分词模型训练方法,包括:
获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
第二方面,提供了一种分词处理方法,包括:
获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
第三方面,提供了一种分词模型训练装置,包括:
第一获取模块,获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第一生成模块,根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
第一训练模块,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
第四方面,提供了一种分词处理装置,包括:
第二获取模块,获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第二处理模块,将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
第五方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面或第二方面的方法的步骤。
第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面的方法的步骤。
在本申请实施例中,通过获取与待分词文本相关联的词库,词库包括多个分词及各分词对应的词频,分词包括构成待分词文本的至少部分词语,词频用于指示对应的分词在待分词文本中出现的次数;根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注,分词标注用于指示对样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,训练后的分词模型用于对待分词文本进行分词处理。可见,本申请通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。本申请中不限制分词的长度,能用于对不同长度的词实现准确划分。另外,本申请能够灵活应用于多种领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之一。
图2是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之二。
图3是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之三。
图4是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之四。
图5是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之五。
图6是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之六。
图7是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之七。
图8是本申请的一个实施例提供的一种分词模型训练方法的流程示意图之八。
图9是本申请的一个实施例提供的一种分词处理方法的流程示意图。
图10是本申请的一个实施例提供的一种分词模型训练装置的结构示意图。
图11是本申请的一个实施例提供的一种分词处理装置的结构示意图。
图12是本申请的一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
深度学习技术可以应用于语句分词的场景中,通过训练分词模型来对待分词句子执行分词,从而有利于进一步解析句子的语法、成分、表意等。其中,可以采用基于规则的分词方法,或是基于统计的分词方法进行分词。
其中,基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板,然后匹配文本,这种方法准确率高,针对性强,但规则一般都是领域相关的,而且手工编写和维护规则复杂性相对较高,通常不会直接使用规则,而是作为一个附加模块与其他方法结合应用,具有局限性。
基于统计的分词方法是指通过大量的实验语料计算词语的词频、成词概率、左右邻接熵、邻接变化数等统计特征来识别文本中的词语。基于统计的方法较为灵活,不受领域的限制、易扩展且可移植性较好,但存在数据稀疏和准确率较低的缺点。
举例而言,对于上述基于统计的分词方法,虽然在一些方面具有优势,但通常对词的长度有限制,例如限定词的最长长度。而且,统计中的左右熵的计算往往导致整个分词流程效率低下。另外,还存在数据稀疏和准确率较低的缺点。
为了解决现有技术中存在的问题,本申请实施例提供一种分词模型训练方法,如图1所示,包括:
S11:获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数。
不同词库中存储有不同领域的专有词汇,例如有包括生活中常用词语的词库,有包括金融领域的技术词汇的词库,有包括通信领域的技术词汇的词库,在本申请实例中,可以根据待分词文本所属的领域选择相对应的领域词库,获取的词库可以是中文词库。其中,词库中包括多个分词以及各分词对应的词频,词库中的分词包括构成待分词文本的至少部分词语。换言之,词库与待分词文本中包含共有词语。
词库中包含有各分词对应的词频,该词频用于指示该分词在待分词文本中出现的次数。通常而言,一个词在不同的应用领域中的词频往往不同。该词频可以通过多种形式表达,例如,以正整数的形式表达分词在待分词文本中出现的次数。
S12:根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果。
本步骤中,将词库中的分词作为句子的成分以构成样本句子,得到预设数量个样本句子。上述预设数量可以根据实际需求预先设定。
其中,可以根据分词对应的词频从词库中选出分词以排列构成样本句子。分词被选中的概率可以与分词的词频正相关,即分词的词频越高,该分词被选中的概率越高。
在本步骤中可以先根据分词对应的词频选出若干个分词,以作为构成样本句子的成分。然后,对选出的若干个分词进行排列以组成一个样本句子。可选的,也可以根据分词的数量添加标点,以生成包含标点的样本句子。
可选的,词库中的分词可以被重复选取。比如,生成的多个样本句子中都包含同一个分词。再比如,生成的一个样本句子中包含多个相同的分词。
在本申请中,由于是根据词库中的分词生成样本句子,在组合样本句子的同时,可以保留分词的标记,以实现对样本句子进行分词标注。这些分词标注用于标识句子是由哪些分词构成的,也能表示该样本句子进行分词的“正确答案”。
可选的,本步骤中可以通过自动标注的方式对上述样本句子进行分词标注。标注的格式可以选择“BIO”或“BMESO”等格式。此步的自动标注,可以节省人力物力,也可以避免错标、漏标等问题。
S13:基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
将分词标注后的多个样本句子作为训练样本,输入待训练的分词模型执行训练,以得到分词模型,通过带有分词标注的样本句子,能有效训练分词模型划分句子中分词的能力。
本申请中应用的模型例如可以是长短期记忆(Long short-term memory,LSTM)、预训练语言模型BERT(Encoder Representation from Transformers)等模型。
通过本申请实施例提供的方案,根据词库中分词的词频生成样本句子,能使样本句子中分词的词频与待分词文本中的词频拟合,从而使训练得到的分词模型能准确有效执行分词,使分词结果更符合领域内真实的使用习惯,达到提升分词准确性的效果。
通过本申请实施例提供的实例,能针对于中文文本的特点,基于待分词文本关联的词库生成样本句子,有效提升文本分词的准确性。分词模型针对于待分词文本训练得到,能对待分词文本执行准确分词,并且具有较高的处理效率。
与常用方法中流程复杂的模型训练方法相比,本申请实例具有自动化生成优质样本句子的优点,训练以及应用效率高。而且,本申请实例中对分词的长度没有限制,能对待分词文本中不通长度的词语实现灵活划分。
本申请实例通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。另外,通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。
而且,本申请实例基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。
除此之外,本申请实例中不限制分词的长度,能用于对不同长度的词实现准确划分。
另外,本申请实例能够灵活应用于多种领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
基于上述实施例提供的方案,可选的,如图2所示,所述待分词文本包括多个待分词句子,上述步骤S11,包括:
S21:获取与所述多个待分词句子中每个句子都包含共有分词的词库。
在本实例中,待分词文本中包括多个待分词句子,其中,任一待分词句子是将要利用分词模型执行分词的句子。在实际应用中,待分词的也可以是一篇文章、几个段落等。对于文章或段落,可以先根据标点符号拆分为多个待分词句子,以获取待分词文本。
另外,待分词文本中的多个待分词句子可以是基于顺序排列的,该顺序可以由待分词句子在原有文章或段落中的位置决定。
在待分词文本中,任一待分词句子都由至少一个分词构成。本步骤中获取的词库与每个句子都包含共有分词,使获取到的词库包含的分词与待分词文本相匹配,进而能在随后的步骤中生成与待分词文本更接近的样本句子,以提升训练后的分词模型对待分词文本中每个句子的分词准确性。
S22:根据所述词库中的各分词在所述待分词文本中出现的次数确定所述各分词对应的词频。
不同的领域中应用的词语多有不同,在本申请实例中,针对待分词文本获取相关联的词库,使词库中的分词与待分词文本中应用的词语相近。
在实际应用中,可以根据待分词文本涉及的领域来选择关联的词库。比如说,待分词文本涉及工业领域,那么可以获取工业领域内的词库,使获取到的词库中的分词与待分词文本中应用的词语相近。
具体的,可以通过检索的方式确定词库中的分词在待分词文本中出现的次数,将该次数确定为分词的词频。
在实际应用中,还可以根据分词的日常应用频率以及该分词在待分词文本中出现的次数共同确定该分词的词频。
举例而言,如果词库中的所有词均在待分词文本中出现过,那么就以词出现的次数作为该词的词频。比如说,“投诉”在待分词文本中出现10次,即“投诉”的词频为10。
如果词库中有至少部分分词在待分词文本中没有出现过,那么这些没出现过的分词的词频为1,所有出现过的词的词频为出现的次数+1。
通过本申请实施例提供的方案,获取的词库与每个待分词句子都包含共有分词,根据各个分词在待分词文本中出现的次数来确定词频,能使确定的词频表示该分词在待分词文本中出现的频率。
本申请实例从分词以及词频这两方面使词库与待分词文本相匹配,进而使生成的样本句子更接近于待分词句子,能使随后步骤中训练得到的分词模型对待分词文本具有更高的分词准确性。
基于上述实施例提供的方案,可选的,如图3所示,上述步骤S12,包括:
S31:确定所述待分词文本中包含的待分词句子的数量M。
对于包含有标点符号的待分词文本,可以基于标点符号来确定待分词文本中包含的待分词句子的数量M。比如说,根据待分词文本中的点号对待分词文本进行划分,得到多个待分词句子以确定数量M。
部分待分词文本可能具有特殊的格式,比如,以空格、回车等格式符划分待分词文本,得到多个待分词句子以确定数量M。
S32:根据所述待分词句子的数量M确定待生成的样本句子的数量N,其中,N与M为正整数,N与M的比值大于预设比值。
举例而言,假设预设比值是1/3,那么,样本句子生成的总数N的取值大于M/3,即样本句子生成的总数N大于待分词文本中的待分词句子数目M的三分之一。上述预设比值可以根据词库中分词数量、待分词句子数量等参数相应调整。
S33:根据所述词库中的分词及其对应的词频生成N个样本句子,并对所述N个样本句子进行分词标注。
通常而言,如果待分词文本中包含的待分词句子越多,词语越复杂,对其执行分词的模型也越难训练。对此,本申请实施例根据待分词文本中包含的待分词句子数量来确定生成多少样本句子,从而以合适数量的样本句子对分词模型执行训练,优化训练后的分词模型的分词效果。
基于上述实施例提供的方案,可选的,如图4所示,上述步骤S12,包括:
S41:确定所述待分词文本的字数集合,其中,所述待分词文本中每个待分词句子的字数值均属于所述字数集合。
在本步骤中,根据待分词文本中各个待分词句子确定上述字数集合,字数集合中的各项均为正整数,用以表征待分词句子的字数。可选的,本实例中所述的字数集合中不包含重复的项。
S42:将所述词库中分词的总字数与所述词库中分词的总数量的比值确定为分词平均长度。
本实施例中上述步骤S41和步骤S42的执行顺序可以调换,或者,也可以同步执行。本步骤中确定词库中的分词的平均长度,一个词语可能由多个字组成,比如说,“电阻”是由2个字组成的分词,“集成电路”是由4个字组成的分词,这两个分词的总字数为6(即2与4的和),分词的总数量为2(即上述“电阻”和“集成电路”这两个词的数量),其比值为3,即这两个词的分词平均长度为3。在本步骤中将词库中包含的分词的总字数与词库中分词的总数量的比值确定为分词平均长度。
在实际应用中,计算得到的比值可能是非整数,可以直接应用非整数的分词平均长度。或者,也可以采用四舍五入、上舍入或下舍入等方式确定出整数作为分词平均长度。
S43:根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,其中,生成的样本句子包含的分词数量为所述字数集合内的随机数与所述分词平均长度的比值。
具体到每一个句子的生成,样本句子的长度L用一个随机数x来确定,满足下式:L=x/l。
其中,样本句子的长度为L,表示该样本句子包含L个分词。l表示词库中词的平均长度,随机数x的值从上述字数集合中随机抽选。例如,从字数集合中抽选x为5,分词平均长度l为2,根据上式x/l为2.5。
可选的,计算得到的比值为非整数时,还可以通过四舍五入、上舍入或下舍入等方式对比值取整,以确定出便于后续处理的分词数量。举例而言,样本句子的长度L满足下式:L=ROUNDUP(x/l)。
其中,ROUNDUP()表示向上取整,基于上述实例,在确定出x/l为2.5之后,对2.5向上舍入可以计算得到样本句子的长度L为3。
通过本申请实施例提供的方案,能确定生成样本句子的长度。其中,基于分词的平均长度、字数集合中的随机数来确定句子的长度,能使确定的句子长度与待分词句子相近,从而更好地训练模型,提高训练后模型对待分词句子的分词准确性。
基于上述实施例提供的方案,可选的,如图5所示,上述步骤S41之后,还包括:
S51:将所述字数集合分为多个字数子集,任一字数子集中包含至少一个待分词句子的字数值。
举例而言,假设字数集合中的字数值为大于或等于1且小于或等于40的整数。那么,本步骤中可以将字数集合分为[1,10]、[11,30]、[31,max]这三个字数子集,本例中max为40。
应理解的是,上述区间可以用于标记区分不同的字数子集,比如说,[1,10]是指字数子集中的各项字数值属于该区间的字数子集。但并不是限定待分词文本中的待分词句子必然具有1~10这10种长度。
举例而言,[1,10]字数子集中具体可以包含1,4,6,8,9这5个元素,用以表示待分词文本中有至少一个待分词句子的长度是1、有至少一个待分词句子的长度是4、有至少一个待分词句子的长度是6、有至少一个待分词句子的长度是8、有至少一个待分词句子的长度是9。即上述[1,10]字数子集具体可以表示为{1,4,6,8,9}。
S52:分别确定所述多个字数子集对应的权重,其中,任一字数子集对应的权重表征所述待分词文本中的待分词句子的字数值属于对应的字数子集的概率。
举例而言,待分词文本中共有100个待分词句子。其中,长度范围为[1,10]的有20个,占比为20%。长度范围为[11,30]的占比为50%,长度范围[31,max]的占比为30%。相应的,可以将各长度范围对应的占比百分数作为对应的字数子集的权重。即[1,10]字数子集对应的权重为0.2,[11,30]字数子集对应的权重为0.5,[31,max]字数子集对应的权重为0.3。
其中,上述步骤S43,包括:
S53:根据所述字数集合中各个字数子集对应的权重确定目标字数子集。
本步骤中确定的目标字数子集是根据权重从上述字数集合中选出的一个字数子集,字数子集被选为目标字数子集的概率与其对应的权重正相关。在本例中,假设根据对应的权重确定的目标字数子集是[11,30]的字数子集。
S54:从所述目标字数子集中抽选随机数,根据所述随机数以及所述分词平均长度确定目标样本句子包含的分词的目标数量。
本步骤从选取的目标字数子集中抽选随机数,举例而言,假设目标字数子集为[11,30]字数子集,在本步骤中,从该字数子集包含的元素中随机抽选一个作为随机数。随后,将抽选出的随机数与分词平均长度的比值确定为目标样本句子包含的分词的目标数量。
S55:根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注。
通过上述步骤,合理地选择目标字数子集并抽选随机数确定分词的数量,以构建目标样本句子。其中,构建句子的每一个分词在词库中被选中的概率与分词对应的权重有关,词的权重的大小取决于该词的词频的大小。假设该句子的长度为L,然后依据词的权重选出L个词,最后使用L个词随机排列组合成该目标样本句子。
例如,待分词文本中共有100个待分词句子,每个待分词句子的长度均为正整数。其中,长度范围为[1,10]的占比为20%,长度范围为[11,30]的占比为50%,长度范围[31,max]的占比为30%,则随机数x的值取自[1,10]的概率为20%,取自[11,30]的概率为50%,取自[31,max]的概率为30%,max表示待分词文本中句子的最大长度。
通过本申请实例,能够以分词的词频作为权重,使分词被选中的概率与分词的使用频率相对应,从而生成与待分词句子更接近的目标样本句子,进而使训练后的分词模型针对待分词文本具有更有的分词准确性。
可选的,上述字数集合也可以分为更多的子集,比如说,字数集合中每个字数值都划分为单独的子集,对于任一个字数值都有一个对应的权重。
基于上述实施例提供的方案,可选的,如图6所示,上述步骤S55,包括:
S61:根据词频从所述词库中选出目标数量个目标分词,其中,分词被选出的概率与分词的词频正相关。
本申请实例中以分词的词频作为权重,使分词被选中的概率与分词的使用频率相对应,从而生成与待分词句子更接近的目标样本句子,进而使训练后的分词模型针对待分词文本具有更有的分词准确性。
S62:对所述目标分词随机排列组合生成预构建的第一目标样本句子。
在选出目标数量个目标分词后,对这些目标分词按随机顺序排列,以生成包含连续的目标数量个目标分词的第一目标样本句子。
S63:根据所述目标数量对所述预构建的第一目标样本句子添加标点,生成第二目标样本句子,并对所述第二目标样本句子进行分词标注,其中,对所述预构建的第一目标样本句子添加的标点的数量与所述目标数量正相关。
本申请实施例提供的方案能生成包含标点的样本句子。每个句子中需要添加标点的个数取决于该句子的长度。举例,长度范围为[1,10]的在句子尾部添加1个标点;长度范围为[11,30]的在句子尾部添加1个标点,在句子中词之间随机添加1个标点;长度范围[31,max]的在句子尾部添加1个标点,在句子中词之间随机添加2个标点。其中,标点添加的类型可在{,。?!}中随机选择。
通过本申请实施例提供的方案,生成的第二目标样本句子包含有与该句子长度相匹配的标点,使生成的第二目标样本句子与实际应用中包含标点的句子更接近,从而使生成的第二目标样本句子与待分词句子相似,使训练后的分词模型能更准确地对待分词文本执行分词。
基于上述实施例提供的方案,可选的,如图7所示,上述步骤S13包括:
S71:针对每个样本句子,将所述样本句子输入阶段性训练的分词模型,以得到所述样本句子的预测分词处理结果。
在本实例中,对分词模型执行阶段性训练。比如说,预先设定迭代次数,对待训练的分词模型执行预定数量的迭代训练,以得到阶段性训练的分词模型。在本步骤中,将每个样本句子输入上述阶段性训练的分词模型,以得到样本句子的预测分词处理结果。该预测分词处理结果可以表征上述阶段性训练的分词模型的分词准确性。
S72:根据所述样本句子的预测分词处理结果和分词标注,确定所述样本句子的预测分词处理结果的正确率。
通过上述步骤可以得到阶段性训练的分词模型对每个样本句子分别预测的分词处理结果,在本步骤中,对每个样本句子的预测分词处理结果与该样本句子的分词标注进行比较,以判断阶段性训练的分词模型是否正确执行了分词。
举例而言,如果对应于同一个样本句子的预测分词处理结果和分词标注一致,则确定阶段性训练的分词模型对该样本句子的分词处理正确。如果对应于同一个样本句子的预测分词处理结果相较于分词标注存在错分、漏分等不一致的情况,则确定阶段性训练的分词模型对该样本句子的分词处理错误。在本方案中,可以将处理正确的样本句子的数量与输入阶段性训练的分词模型的样本句子总数量的比值确定为预测分词处理结果的正确率。
另外,在实际应用中也可以根据实际情况调整分词处理正确的标准。比如说,对应于同一个样本句子的预测分词处理结果与分词标注的一致性大于80%则确定该样本句子分词处理正确。
或者,错分、漏分等不一致的情况小于两处则确定该样本句子分词处理正确。
可选的,对于预测分词处理结果与分词标注不一致的样本句子,还可以通过人工审核的方式进一步判断分词模型是否对给样本句子分词处理错误,以提升正确率的准确性。
S73:当所述预测分词处理结果的正确率低于预设正确率时,调整样本句子的生成参数,以重新生成样本句子并对所述阶段性训练的分词模型进行迭代训练,得到训练后的分词模型,所述生成参数包括分词对应的词频和样本句子数量中的至少一种
在本步骤中,如果上述正确率低于预设正确率,则表明阶段性训练的分词模型的分词能力不达标,不能准确执行分词处理,需要进一步迭代训练。
随后,调整样本句子的生成参数,以重新生成样本句子并进一步对阶段性训练的分词模型进行迭代训练,直至训练出正确率超过预设正确率的分词模型,以满足实际应用需求。
除了上述正确率以外,还可以根据实际需求设定更多的分词效果指标,以进一步判断分词模型是否满足实际应用需求。比如说,还可以预设分词处理速度,用以提高分词模型的分词效率。
可选的,上述样本句子的生成参数包括分词对应的词频和样本句子数量中的至少一种。
由于语言发展、词语的使用频率具有一定时效性。原有的高频词语可能变为低频词语,也可能出现一些新的词汇来代替旧有词汇。因此,基于词库生成样本句子可能与现有应用的句子存在一定偏差。基于此,可以根据实际应用中词语使用的变化,对分词对应的词频进行调整,使调整后的分词对应的词频更接近模型实际应用场景中词语的使用频率。随后,可以基于调整后的词频生成新的样本句子,以对阶段性分词模型做进一步迭代训练,优化训练后的分词模型的分词性能。
另外,用于训练模型的样本句子的数量也影响着模型的分词准确性。如果样本句子数量较少,导致模型训练不足,也会导致模型分词效果不佳。在这种情况下,可以增加样本句子的数量,例如采用数据增强方式生成新的样本句子。
在调整上述生成参数并生成新的样本句子之后,可以应用新的样本句子对分词模型执行迭代训练,以优化分词模型的分词效果。通过本申请实施例提供的方案,能基于分词模型的分词效果执行迭代训练,进一步提升分词模型的分词能力。
进一步的,还可以根据实际错分的词语在词库中进行强化,以生成新的样本句子,对分词模型执行强化训练。比如说,对错分的词语添加的规则可以为:如果词库中已存在该词,则把该词的词频加大,取值方法可以是将原始词频增加一倍。如果词库中不存在该词,则把该词加入到词库中,并根据实际需求设定该词的词频。
本申请实施例提供的方案,参见图8,通过获取词库、统计词频、句子生成、自动标注、模型训练、迭代优化等部分提升文本分词的准确率和速率。其中,无需人工标注,无需领域知识,即可得到一个准确率较好的分词模型。
而且,分词模型具备结构简单、易于理解、速率快、优化迭代简便的优势。而且,该分词模型可以不限制词的长度,能较好的解决未登录词,具备良好的迁移性、通用性、可扩展性。
其中,获取词库部分用于句子生成,一个大而全且来源与待分词文本相近的词库,对分词的准确率有着促进作用。统计词频部分,通过设计词频的统计规则,可以使生成的样本句子更加近似待分词文本中的待分词句子,这同样可以增加分词模型的分词准确率。句子生成部分,通过设计句子生成的规则,生成的句子多样化的同时更加近似待分词文本中的样本(例如句子长短的分布,词的出现频率等),这同样可以增加分词模型的分词准确率。自动标注部分,相比传统方法可以节省人力物力,也可以避免错标、漏标等问题。模型训练与迭代优化部分,可以进一步提升分词模型的准确率。
本申请实例通过微调可以适应别的任务或者应用场景,也可以将其他优秀的方案嵌入到实施逻辑中,因此具备良好的迁移性、通用性、可扩展性。举例,分词之后,可以在本申请实例的基础上,分词后统计词频,通过设置词频阈值,进行过滤,就可以用于新词发现,或者将新词加入到词库中,进而丰富词库。能有效解决流程复杂、效率低、限制词长度等文本分词问题。
下面结合实际应用场景说明本申请实例。举例而言,本申请实例可以应用于网络文章的识别与分类。由于网络文章内容繁杂,涉及领域众多,仅通过单一的分词模型难以实现准确分类。通过本申请实施例提供的方案,能有效提高分词准确性。
具体的,对于待分词的网络文章,通过本申请实施例提供的分词模型训练方法,首先获取与待分词的网络文章相关联的词库。假设待分词的网络文章涉及经济领域,那么,可以获取包含经济领域专有词汇的词库,词库包括多个分词及各分词对应的词频,使词库中包含有待分词的网络文章中的词汇,且词库中的词频表征对应的分词在待分词的网络文章中出现的次数。
然后,根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注。由于词库中包含有经济领域的专有词汇,所以生成的样本句子能接近于同属于经济领域的待分词的网络文章中的句子。
接着,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,以得到训练后的分词模型。
随后,将待分词的网络文章输入上述训练后的分词模型,以通过训练后的分词模型对上述待分词的网络文章进行分词处理。
由于本申请实例中获取的词库是与待分词的网络文章同属于经济领域的词库,词库中包含有经济领域的专有名词,从而使生成的样本句子更接近于待分词的网络文章中包含的待分词句子,进而使训练后的分词模型能更准确地对经济领域的网络文章进行准确分词。
可选的,对于同属于经济领域的其他文本文献,也可以采用上述训练后的分词模型执行分词处理,无需重新训练分词模型。
为了解决现有技术中存在的问题,本申请实施例还提供一种分词处理方法,如图9所示,包括:
S91:获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数。
本步骤中训练后的分词模型可以是根据上述任一种实施例的分词模型训练方法训练得到的。待分词文本具体可以是网络小说、新闻报道、留言评论等文本。
对于包含有特殊格式的待分词文本,可以首先对待分词文本的格式执行统一,以便后续输入分词模型进行处理。其中,格式的统一例如可以包括将待分词文本根据标点符号或段落标识划分为多个待分词句子,以按照待分词文本的中的次序逐个将待分词句子输入分词模型,以逐句执行分词处理。
S92:将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
其中,用于训练分词模型的样本句子是根据词库中的分词自动生成的,并且,自动实现样本句子的分词标注,无需人工标注,能训练出准确率高的分词模型。
而且,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,能使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。
而且,分词模型不限制分词的长度,能用于对不同长度的词实现准确划分。通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
在本步骤中,将待分词文本输入上述训练后的分词模型,该分词模型能高效准确地对待分词文本执行分词,并输出分词处理结果,该分词处理结果能表达上述待分词文本的划分结果。
进一步的,分词模型输出的分词处理结果还可以用于文本校对、文本解析处理等,下面结合实际应用场景举例说明。
比如说,本申请实例得到的待分词文本的分词处理结果可以应用于对该待分词文本执行语义解析。
具体的,根据分词处理结果可以将待分词文本划分为多个分词,通过预训练的模型识别各个分词的语义可以得到各句子中分词表达的语义,进而确定出句子的整体含义以及文本的整体含义。
再比如说,本申请实例得到的待分词文本的分词处理结果可以应用于对该待分词文本执行校对。具体的,根据分词处理结果筛选出包含分词数量过多的分词结果异常的句子,进而可以通过人工校对的方式检查其中是否存在由于笔误导致的错别字。
或者,本申请实例得到的待分词文本的分词处理结果还可以用于进一步统计文本中各分词的词频。其中,词频过低的词语可能是由于笔误而写错的词语,便于有针对性地进行修改。
除此以外,本申请实例得到的待分词文本的分词处理结果还可以用于对待分词文本执行优化、搜索关联的其他文本等,可以根据实际需求灵活应用。
为了解决现有技术中存在的问题,本申请实施例还提供一种分词模型训练装置100,如图10所示,包括:
第一获取模块101,获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第一生成模块102,根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
第一训练模块103,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
通过本申请实施例提供的装置,获取与待分词文本相关联的词库,词库包括多个分词及各分词对应的词频,分词包括构成待分词文本的至少部分词语,词频用于指示对应的分词在待分词文本中出现的次数;根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注,分词标注用于指示对样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,训练后的分词模型用于对待分词文本进行分词处理。
其中,通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。
本申请实例通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。
本申请实例基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。
本申请实例中不限制分词的长度,能用于对不同长度的词实现准确划分。
另外,本申请实例能够灵活应用于多种领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
其中,本申请实施例提供的装置中的上述模块还可以实现上述一种分词模型训练方法实施例提供的方法步骤。或者,本申请实施例提供的装置还可以包括除上述模块以外的其他模块,用以实现上述一种分词模型训练方法实施例提供的方法步骤。且本申请实施例提供的装置能够实现上述一种分词模型训练方法实施例所能达到的技术效果。
为了解决现有技术中存在的问题,本申请实施例还提供一种分词处理装置110,如图11所示,包括:
第二获取模块111,获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第二处理模块112,将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
通过本申请实施例提供的装置,训练后的分词模型执行分词处理,能对待分词文本执行准确高效分词。
得到的分词处理结果能表达上述待分词文本的划分结果。该分词处理结果可以用于对上述待分词文本做进一步处理,例如用于文本校对、文本解析处理等。
其中,本申请实施例提供的装置中的上述模块还可以实现上述一种分词处理方法实施例提供的方法步骤。或者,本申请实施例提供的装置还可以包括除上述模块以外的其他模块,用以实现上述一种分词处理方法实施例提供的方法步骤。且本申请实施例提供的装置能够实现上述一种分词处理方法实施例所能达到的技术效果。
进一步地,对应上述图1至图9所示的方法,基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备用于执行上述的一种分词模型训练方法或一种分词处理方法,如图12所示。
电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1201和存储器1202,存储器1202中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1202可以是短暂存储或持久存储。存储在存储器1202的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器1201可以设置为与存储器1202通信,在电子设备上执行存储器1202中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1203,一个或一个以上有线或无线网络接口1204,一个或一个以上输入输出接口1205,一个或一个以上键盘1206等。
在一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
本申请实施例中的电子设备,通过获取与待分词文本相关联的词库,词库包括多个分词及各分词对应的词频,分词包括构成待分词文本的至少部分词语,词频用于指示对应的分词在待分词文本中出现的次数;根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注,分词标注用于指示对样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,训练后的分词模型用于对待分词文本进行分词处理。
其中,通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。
本申请实例通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。
本申请基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。本申请中不限制分词的长度,能用于对不同长度的词实现准确划分。
另外,本申请能够灵活应用于多种领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
在另一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
本申请实施例中的电子设备,通过训练后的分词模型执行分词处理,能对待分词文本执行准确高效分词。得到的分词处理结果能表达上述待分词文本的划分结果。该分词处理结果可以用于对上述待分词文本做进一步处理,例如用于文本校对、文本解析处理等。
需要说明的是,本说明书中关于电子设备的实施例与本说明书中关于分词模型训练方法、分词处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图9所示的方法,基于相同的技术构思,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时,通过获取与待分词文本相关联的词库,词库包括多个分词及各分词对应的词频,分词包括构成待分词文本的至少部分词语,词频用于指示对应的分词在待分词文本中出现的次数;根据词库中的分词及其对应的词频生成预设数量的样本句子,并对样本句子进行分词标注,分词标注用于指示对样本句子进行切分得到的分词处理结果;基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,训练后的分词模型用于对待分词文本进行分词处理。
其中,通过基于待分词文本关联的词库生成样本句子,能使训练后的分词模型适配于待分词文本,提升文本分词的准确率和速率。
本申请通过根据词库中的分词自动生成用于训练分词模型的样本句子,以及自动实现样本句子的分词标注,无需人工标注,能高效生成样本句子,用以训练出准确率高的分词模型。
本申请基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,使训练得到的分词模型结构简单且易于理解,具有速率快以及优化迭代简便的优势。
本申请中不限制分词的长度,能用于对不同长度的词实现准确划分。
另外,本申请能够灵活应用于多种领域,通过获取待分词文本相关联的词库生成适用于实际应用领域的样本句子,进而训练得到适用于实际应用领域的分词模型,具有良好的迁移性、通用性以及可扩展性。
另一种具体的实施例,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
本申请实施例中的电子设备,通过训练后的分词模型执行分词处理,能对待分词文本执行准确高效分词。得到的分词处理结果能表达上述待分词文本的划分结果。该分词处理结果可以用于对上述待分词文本做进一步处理,例如用于文本校对、文本解析处理等。
需要说明的是,本说明书中关于电子设备的实施例与本说明书中关于分词模型训练方法、分词处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的方法的实施,重复之处不再赘述。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于分词模型训练方法、分词处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的分词模型训练方法、分词处理方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个的实施例而已,并不用于限制本说明书一个或多个。对于本领域技术人员来说,本说明书一个或多个可以有各种更改和变化。凡在本说明书一个或多个的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个的权利要求范围之内。

Claims (12)

1.一种分词模型训练方法,其特征在于,包括:
获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
2.如权利要求1所述的方法,其特征在于,所述待分词文本包括多个待分词句子,所述获取与待分词文本相关联的词库,包括:
获取与所述多个待分词句子中每个句子都包含共有分词的词库;
根据所述词库中的各分词在所述待分词文本中出现的次数确定所述各分词对应的词频。
3.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,包括:
确定所述待分词文本中包含的待分词句子的数量M;
根据所述待分词句子的数量M确定待生成的样本句子的数量N,其中,N与M为正整数,N与M的比值大于预设比值;
根据所述词库中的分词及其对应的词频生成N个样本句子,并对所述N个样本句子进行分词标注。
4.如权利要求2所述的方法,其特征在于,所述根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:
确定所述待分词文本的字数集合,其中,所述待分词文本中每个待分词句子的字数值均属于所述字数集合;
将所述词库中分词的总字数与所述词库中分词的总数量的比值确定为分词平均长度;
根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,其中,生成的样本句子包含的分词数量为所述字数集合内的随机数与所述分词平均长度的比值。
5.如权利要求4所述的方法,其特征在于,所述确定所述待分词文本的字数集合之后,还包括:
将所述字数集合分为多个字数子集,任一字数子集中包含至少一个待分词句子的字数值;
分别确定所述多个字数子集对应的权重,其中,任一字数子集对应的权重表征所述待分词文本中的待分词句子的字数值属于对应的字数子集的概率;
其中,所述根据所述字数集合、所述分词平均长度、所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,包括:
根据所述字数集合中各个字数子集对应的权重确定目标字数子集;
从所述目标字数子集中抽选随机数,根据所述随机数以及所述分词平均长度确定目标样本句子包含的分词的目标数量;
根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注。
6.如权利要求5所述的方法,其特征在于,所述根据所述词库构建包含目标数量个分词的目标样本句子,并对所述目标样本句子进行分词标注,包括:
根据词频从所述词库中选出目标数量个目标分词,其中,分词被选出的概率与分词的词频正相关;
对所述目标分词随机排列组合生成预构建的第一目标样本句子;
根据所述目标数量对所述预构建的第一目标样本句子添加标点,生成第二目标样本句子,并对所述第二目标样本句子进行分词标注,其中,对所述预构建的第一目标样本句子添加的标点的数量与所述目标数量正相关。
7.如权利要求1所述的方法,其特征在于,所述基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,包括:
针对每个样本句子,将所述样本句子输入阶段性训练的分词模型,以得到所述样本句子的预测分词处理结果;
根据所述样本句子的预测分词处理结果和分词标注,确定所述样本句子的预测分词处理结果的正确率;
当所述预测分词处理结果的正确率低于预设正确率时,调整样本句子的生成参数,以重新生成样本句子并对所述阶段性训练的分词模型进行迭代训练,得到训练后的分词模型,所述生成参数包括分词对应的词频和样本句子数量中的至少一种。
8.一种分词处理方法,其特征在于,包括:
获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
9.一种分词模型训练装置,其特征在于,包括:
第一获取模块,获取与待分词文本相关联的词库,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第一生成模块,根据所述词库中的分词及其对应的词频生成预设数量的样本句子,并对所述样本句子进行分词标注,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果;
第一训练模块,基于分词标注后的多个样本句子对待训练的分词模型进行迭代训练,得到训练后的分词模型,所述训练后的分词模型用于对所述待分词文本进行分词处理。
10.一种分词处理装置,其特征在于,包括:
第二获取模块,获取待分词文本和训练后的分词模型,其中,所述训练后的分词模型根据分词标注后的多个样本句子对待训练的分词模型进行迭代训练得到,所述多个样本句子为预设数量的样本句子中的多个样本句子,所述分词标注用于指示对所述样本句子进行切分得到的分词处理结果,所述预设数量的样本句子根据与所述待分词文本相关联的词库中的分词及其对应的词频生成,所述词库包括多个分词及各分词对应的词频,所述分词包括构成所述待分词文本的至少部分词语,所述词频用于指示对应的分词在所述待分词文本中出现的次数;
第二处理模块,将所述待分词文本输入所述训练后的分词模型,得到所述待分词文本的分词处理结果。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项或权利要求8所述的方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项或权利要求8所述的方法的步骤。
CN202210916373.8A 2022-08-01 2022-08-01 分词模型训练方法、分词处理方法和装置 Pending CN116151220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210916373.8A CN116151220A (zh) 2022-08-01 2022-08-01 分词模型训练方法、分词处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210916373.8A CN116151220A (zh) 2022-08-01 2022-08-01 分词模型训练方法、分词处理方法和装置

Publications (1)

Publication Number Publication Date
CN116151220A true CN116151220A (zh) 2023-05-23

Family

ID=86349477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210916373.8A Pending CN116151220A (zh) 2022-08-01 2022-08-01 分词模型训练方法、分词处理方法和装置

Country Status (1)

Country Link
CN (1) CN116151220A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN117591698A (zh) * 2024-01-19 2024-02-23 腾讯科技(深圳)有限公司 视频检索模型的训练方法、视频检索方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN116522908B (zh) * 2023-07-04 2023-12-05 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN117591698A (zh) * 2024-01-19 2024-02-23 腾讯科技(深圳)有限公司 视频检索模型的训练方法、视频检索方法、装置及设备
CN117591698B (zh) * 2024-01-19 2024-04-26 腾讯科技(深圳)有限公司 视频检索模型的训练方法、视频检索方法、装置及设备

Similar Documents

Publication Publication Date Title
US11928434B2 (en) Method for text generation, device and storage medium
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
TWI636452B (zh) 語音識別方法及系統
CN102227724B (zh) 对于音译的机器学习
CN108287858A (zh) 自然语言的语义提取方法及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
CN111492364B (zh) 数据标注方法、装置及存储介质
CN112765359B (zh) 一种基于少样本的文本分类方法
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN114997167A (zh) 简历内容提取方法及装置
CN114492390A (zh) 基于关键词识别的数据扩充方法、装置、设备及介质
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination