CN111090996B - 一种分词的方法、装置及存储介质 - Google Patents

一种分词的方法、装置及存储介质 Download PDF

Info

Publication number
CN111090996B
CN111090996B CN201911214054.7A CN201911214054A CN111090996B CN 111090996 B CN111090996 B CN 111090996B CN 201911214054 A CN201911214054 A CN 201911214054A CN 111090996 B CN111090996 B CN 111090996B
Authority
CN
China
Prior art keywords
word
words
model training
correlation
arbitrary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911214054.7A
Other languages
English (en)
Other versions
CN111090996A (zh
Inventor
张少阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911214054.7A priority Critical patent/CN111090996B/zh
Publication of CN111090996A publication Critical patent/CN111090996A/zh
Application granted granted Critical
Publication of CN111090996B publication Critical patent/CN111090996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种分词的方法、装置及存储介质,对于待分词的文本中的任意一个待分词的字,首先获得该字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。分词模型是一个字组对应一个,不是一个字对应一个,因此,对于具有共性的字归为一个字组,该字组对应同一个分词模型。这样分词模型的数量就会大大降低,因此,训练分词模型的过程就会简单,耗时较少,对于训练分词模型的机器性能要求较低。

Description

一种分词的方法、装置及存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种分词的方法、装置及存储介质。
背景技术
分词技术是自然语言处理领域中的一项重要技术。所谓分词,就是将句子切分为一个一个的单独的词。以中文分词为例,分词的目的就是将文本中每一句话切分为一个一个单独的中文词语。目前,分词技术已经被广泛应用于机器翻译、语音识别、文本摘要、文本检索等自然语言处理的应用分支中。分词的质量直接影响以上各项应用的结果的准确性。以语音识别为例,分词的质量越高,则应用分词技术进行语音识别的准确性越高。
现有的一种分词方法是一个字对应一个分词模型,对于分词模型的训练量特别巨大,训练过程耗时比较久,对于机器性能要求较高。
发明内容
本申请提供了一种分词的方法、装置及存储介质,利用较少的分词模型便可以准确分词,分词模型训练过程简单,耗时较少。
本申请第一方面,提供一种分词的方法,包括:
获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;
利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。
可选地,各个模型训练字组通过预先对样本中的任意字进行训练获得,具体包括:
根据字与相邻字的相关性获得任意两个字的特征分布相关性;根据字向量获得所述任意两个字的语义相似度;根据字的权重参数向量获得所述任意两个字的构词规律相似性;
根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
可选地,所述根据字与相邻字的相关性获得任意两个字的特征分布相关性,包括:
获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;
获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;
获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
可选地,在所述根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性,之前还包括:
确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。
可选地,根据字向量获得所述任意两个字的语义相似度,具体包括:
获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。
可选地,根据字的权重参数向量获得所述任意两个字的构词规律相似性,具体包括:
利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量和所述任意两个字中第二个字B的权重参数向量;
获得所述任意两个字中第一个字A的权重参数向量和所述任意两个字中所述第二个字B的权重参数向量的余弦相似度作为所述任意两个字的构词规律相似性。
可选地,根据所述综合相关性确定所述任意两个字的模型训练字组,具体包括:
当所述综合相关性大于或等于预设综合阈值时,确定所述任意两个字中有一个字属于已有的模型训练字组,则将另一个字也划分到同一个模型训练字组,反之为所述任意两个字新建一个模型训练字组;
当所述综合相关性小于所述预设综合阈值时,为所述任意两个字中未被分组的字新建模型训练字组。
本申请第二方面,提供一种分词的装置,包括:
模型训练字组确定模块,用于获得待分词的字所在的模型训练字组;各个模型训练字组为模型训练字组获取模块预先对样本中的任意字进行分析获得的,每个模型训练字组对应一个分词模型;
分词模块,用于利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。
可选地,模型训练字组获取模块,具体包括:
第一获取单元,用于根据字与相邻字的相关性获得任意两个字的特征分布相关性;
第二获取单元,用于根据字向量获得所述任意两个字的语义相似度
第三获取单元,用于根据字的权重参数向量获得所述任意两个字的构词规律相似性;
第四获取单元,用于根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
模型训练字组获取单元,用于根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
可选地,第一获取单元具体用于获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
可选地,装置还包括:
确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。
可选地,第二获取单元,具体用于获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。
可选地,第三获取单元,具体用于利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量和所述任意两个字中第二个字B的权重参数向量;获得所述任意两个字中第一个字A的权重参数向量和所述任意两个字中所述第二个字B的权重参数向量的余弦相似度作为所述任意两个字的构词规律相似性。
可选地,模型训练字组获取单元,具体用于当所述综合相关性大于或等于预设综合阈值时,确定所述任意两个字中有一个字属于已有的模型训练字组,则将另一个字也划分到同一个模型训练字组,反之为所述任意两个字新建一个模型训练字组;当所述综合相关性小于所述预设综合阈值时,为所述任意两个字中未被分组的字新建模型训练字组。
本申请第三方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当所述程序被处理器运行时,实现如前述第一方面提供的分词的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例为实现分词,对于待分词的文本中的任意一个待分词的字,首先获得待分词的字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。依照上述方法对待分词的文本中每个待分词的字进行分词,即可将整个待分词的文本分词完毕。在本申请技术方案中,已经预先对样本中的任意字进行分析获得了各个模型训练字组,并且每个模型训练字组对应一个分词模型,因此在已知待分词的字所在的模型训练字组的情况下,根据模型训练字组与分词模型之间的对应关系,即可唯一地确定出为该待分词的字进行分词时应当采用的分词模型。
本申请实施例提供的分词方法,是利用预先训练的分词模型进行分词,而且分词模型是一个字组对应一个,不是一个字对应一个。因此,对于具有共性的字归为一个字组,该字组对应同一个分词模型。这样分词模型的数量就会大大降低,因此,训练分词模型的过程就会简单,耗时较少,对于训练分词模型的机器性能要求较低。
附图说明
图1为本申请实施例提供的一种分词的方法流程图;
图2为本申请实施例提供的一种对字划分并获得模型训练字组的方法流程图;
图3为本申请实施例提供的步骤201的一种示例实现方式流程图;
图4为本申请实施例提供的一种分词的装置的结构示意图;
图5为本申请实施例提供的一种模型训练字组获取模块的结构示意图;
图6为本申请实施例提供的一种分词的设备硬件结构图。
具体实施方式
正如前文所述,目前的分词方法中通常是一个字对应于一个分词模型。例如,当需要对字A进行分词时,选用字A对应的分词模型;而当需要对字B进行分词时,再选用字B对应的分词模型。按照每个字训练其对应的模型,则训练获得的模型数量非常庞大,并且训练耗时长,效率低,对及其性能的要求较高。
针对这一问题,本申请中提供一种分词的方法、装置及存储介质。本申请技术方案中,预先地建立了多个分词模型,每个分词模型对应一个模型训练字组,对于待分词的字,确定出待分词的字所在的模型训练字组,再利用该字组对应的分词模型对该待分词的字进行分词。在本申请实施例方案中,一个模型训练字组对应一个分词模型,并且同一模型训练字组中包含的字之间具备共性,因此,当需要对文本中某一模型训练字组的任意字进行分词时,均可采用该模型训练字组对应的分词模型。该方案减少了需要训练的分词模型的数量,训练分词模型耗时较少,对于训练分词模型的机器性能要求较低。
为便于理解,下面结合实施例和附图对本申请技术方案进行详细描述。
方法实施例:
参见图1,该图为本申请实施例提供的一种分词的方法。
如图1所示,本实施例提供的分词方法,包括:
步骤101:获得待分词的字所在的模型训练字组。
需要说明的是,本实施例预先对样本中任意字进行分析,获得各个模型训练字组。作为示例,可以是对样本中任意字之间的共性进行分析,将具备相互共性较多的字划分到同一个模型训练字组中。每个模型训练字组中至少包括一个字。不同的模型训练字组中包括的字不同。本申请实施例中,字的形式不限,可以是汉字、字母或符号等。
作为一示例,第一模型训练字组包括的字有:“男”和“女”,也就是说,本实施例预先将“男”和“女”划分到第一模型训练字组中。“男”和“女”的划分时序可以同步,也可以不同步。作为另一示例,第二模型训练字组包括的字有:“德”和“俄”,也就是说,预先将“德”和“俄”划分到第二模型训练字组中,“德”和“俄”的划分时序可以同步,也可以不同步。
通过预先的划分操作,可以确定任意字与所在的模型训练字组的对应关系。因此,当需要对待分词的字进行分词时,利用任意字与所在的模型训练字组的对应关系,可以确定待分词的字所在的模型训练字组。例如,待分词的字是“俄”,利用任意字与所在的模型训练字组的对应关系可以确定“俄”所在的模型训练字组是第二模型训练字组。
本步骤中,待分词的字可以是待分词的文本中任意一个字。待分词的文本可以是一个句子、一个语段或一篇文章。
步骤102:利用待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。
本实施例中,每一个模型训练字组对应于一个分词模型。预先利用模型训练字组训练得到了该模型训练字组对应的分词模型。作为示例,第一模型训练字组对应于第一分词模型,第二模型训练字组对应于第二分词模型。
由于预先训练了各个模型训练字组分别对应的分词模型,因此,在执行步骤101确定待分词的字所在的模型训练字组后,利用模型训练字组与分词模型之间的对应关系,可以确定待分词的字所在的模型训练字组对应的分词模型,进而利用该分词模型对待分词的字进行分词。
例如,待分词的字是“俄”,“俄”所在的模型训练字组是第二模型训练字组,第二模型训练字组对应的分词模型是第二分词模型。本步骤即可利用第二分词模型对“俄”进行分词。
以上为本申请实施例提供的分词的方法。为实现分词,对于待分词的文本中的任意一个待分词的字,首先获得待分词的字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。依照上述方法对待分词的文本中每个待分词的字进行分词,即可将整个待分词的文本分词完毕。在本申请技术方案中,已经预先对样本中的任意字进行分析获得了各个模型训练字组,并且每个模型训练字组对应一个分词模型,因此在已知待分词的字所在的模型训练字组的情况下,根据模型训练字组与分词模型之间的对应关系,即可唯一地确定出为该待分词的字进行分词时应当采用的分词模型。
本申请实施例提供的分词方法,是利用预先训练的分词模型进行分词,而且分词模型是一个字组对应一个,不是一个字对应一个。对于具有共性的字归为一个字组,该字组对应同一个分词模型。例如,如果有十个不同的字具备共性,可以划分为同一个模型训练字组,并基于该字组训练出一个分词模型,那么在需要对这十个字中任意一个字进行分词时,均可以采用该分词模型来实现分词。可见,该方法减少了分词模型的数量,因此,训练分词模型的过程就会简单省时,对于训练分词模型的机器性能要求较低。
此外,由于分词模型是预先训练好的,因此在需要对待分词的字进行分词时,只需调取对应的分词模型使用,从而提升了分词过程的便利性,提升分词速度和效率,提升用户的体验。
为便于理解以上实施例中对样本中的任意字进行分析并获得各个模型训练字组的过程,下面结合实施例和附图对这一过程的具体实现进行描述。
参见图2,该图为本申请实施例提供的一种对字分析并获得模型训练字组的方法流程图。
如图2所示,本实施例提供的对字分析并获得模型训练字组的方法,包括:
步骤201:根据字与相邻字的相关性获得任意两个字的特征分布相关性。
本实施例方法在实现之前,预先获取了大量的样本,样本可能来源于多种领域,例如科技领域、艺术领域、体育领域等。每个样本中包含多个字。样本中,字的上下文包含了若干字,本实施例将字的上下文包含的字称为该字的相邻字(也可称为特征),字的相邻字形式不限,可以是汉字、字母或字符等。字的相邻字的分布反映出该字的使用环境或使用规律。本步骤是通过字与相邻字的相关性获得任意两个字的特征分布相关性,进而分析任意两个字在使用环境上的联系或在使用规律上的联系。
参见图3,该图为步骤201的一种示例实现方式的流程图。在本实例实现方式中,步骤201中描述的任意两个字各自以A和B来表示。
如图3所示,步骤201可以具体包括:
步骤2011:获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字。
实际应用中,可以为第一个字A和第二个字B分别指定窗口大小。作为示例,第一个字A的窗口称为第一窗口,第二个字B的窗口称为第二窗口,设定第一窗口和第二窗口的大小均为5。窗口的大小决定了相邻字的选取范围。第一窗口中,A作为第一窗口的中间的字,第一窗口中A、第一个字A之前和之后的相邻字的数目之和等于第二窗口的大小;同理,第二窗口中,B作为第二窗口的中间的字,第二窗口中B、第二个字B之前和之后的相邻字的数目之和等于第二窗口的大小。
作为示例,第一个字A为“像”,第二个字B为“母”。样本如下:
“我爱我的祖国,就我爱我的家。父亲和亲告诉我,有国才有家。”
由于第一窗口和第二窗口的大小均为5,因此,第一个字“像”在以上样本中有5个相邻字(即i=5),分别是:,、就、像、我、爱。第二个字“母”在以上样本中有4个相邻字(即j=4),分别是:亲、和、母、告,这是因为尽管第二窗口中“亲”出现了两次,但是属于同一特征。
可以理解的是,在以上示例中,样本较短,因此第一个字“像”和第二个字“母”各自在该样本中出现一次。实际应用中,如果第一个字“像”出现的次数大于1,则i可能大于5;如果第二个字“母”出现的次数大于1,则j可能大于4。也就是说,步骤2011中是基于样本所有出现过的第一个字A来获取其i个相邻字,并且是基于样本所有出现过的第二个字B来获取其j个相邻字。
在以上示例中,设置第一窗口与第二窗口的大小相同。具体实现时,还可以根据实际需要,设置不同大小的第一窗口和第二窗口,例如将第一窗口和第二窗口的大小分别设为7。
步骤2012:获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数。
假设第一个字A的相邻字共i个,分别是m1,m2,…,mi;第二个字B的相邻字共j个,分别是n1,n2,…,nj。本实施例中,用(m1,m2,…,mi)∩(n1,n2,…,nj)表示A的i个相邻字和B的j个相邻字中的相同相邻字的个数。
可以理解的是,如果第一个字A的i个相邻字与第二个字B的j个相邻字中相互没有相同的相邻字,则(m1,m2,…,mi)∩(n1,n2,…,nj)为0;如果第一个字A的i个相邻字与第二个字B的j个相邻字中相互存在相同的相邻字,则(m1,m2,…,mi)∩(n1,n2,…,nj)不为零。例如,m1与n2相同,m2与nj相同,则(m1,m2,…,mi)∩(n1,n2,…,nj)等于2。
步骤2013:获得相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
以下公式(1)为本申请实施例提供的任意两个字的特征分布相关性p:
Figure BDA0002298988770000091
在公式(1)中,(m1,m2,…,mi)∩(n1,n2,…,nj)表示任意两个字中第一个字A的i个相邻字和第二个字B的j个相邻字中的相同相邻字的个数;max{i,j}表示i和j的较大值。即若i>j,则公式(1)中分母等于i;若j>i,则公式(1)中分母等于j;若i=j,则公式(1)中分母等于i且等于j。
根据公式(1)可知,对于任意两个字A和B,如果i和j已定,则这两个字A和B的相同相邻字的个数越多,A和B的特征分布相关性p越大。可以理解为,p越大,表示A与B各自的使用环境或使用规律越相似。
通常来说,样本的数据量越大,获得的统计结果越准确。但是实际应用中可能会存在这样一个问题:因为数据量较大,使本不具有相似使用规律的两个字也具备了较多的相同相邻字。这样就有可能因为本步骤获得的任意两个字的特征分布相关性p过高,影响后续分析获得模型训练字组的准确性。为避免这一问题,本实施例中,还可以设定预设值,确定任意两个字的特征分布相关性p小于预设值时,赋值p=0。
例如,预设值为0.6,如果利用以上公式(1)计算任意两个字的特征分布相关性p大于或等于0.6,则保留计算结果;如果任意两个字的特征分布相关性p小于0.6,则重设该两个字的特征分布相关性p=0。实际应用中,预设值不限于取0.6,还可以根据实际需要设置为其他大小,例如设为0.3或0.4等,故此处对采用的预设值的具体大小不进行限定。
本实施例中,通过在确定任意两个字的特征分布相关性p小于预设值时,赋值任意两个字的特征分布相关性p为0,能够避免使用环境或使用规律不相关的两个字的特征分布相关性p影响模型训练字组分组准确性的问题。从而提升分析获得的模型训练字组的准确性。
步骤202:根据字向量获得所述任意两个字的语义相似度。
字本身具有语义信息,字的语义信息也对分词的结果有影响。作为示例,汉字“男”和“女”通常用来指示性别。可以理解的是,“男”和“女”的语义具有相似性,各自的用法也相似,例如:“男孩”和“女孩”,“男人”和“女人”,“男厕”和“女厕”等。由此可见,语义相似性也可以用于挖掘构词规律。
本步骤,即是通过字向量获得任意两个字的语义相似度。语义相似度越大,表示两个字的语义越相似;而语义相似度越小,则表示两个字的语义差距越大。
字向量可以反映字的语义信息。作为一种示例形式,可以通过预先建立的word2vec模型来生成每个字的字向量。建立word2vec模型属于比较成熟的技术,因此对于word2vec模型的建立过程不再赘述。
当需要获得任意两个字(第一个字为A,第二个字为B)的语义相似性时,利用第一个字A的字向量和第二个字B的字向量获得两个字向量的余弦相似度,将该余弦相似度作为两个字A和B的语义相似度。语义相似度cosembedding的表达式如下:
cosembedding=cos(vecA,vecB) 公式(2)
公式(2)中,vecA表示任意两个字中第一个字A的字向量,vecB表示第二个字B的字向量,cos(vecA,vecB)表示字向量vecA与vecB的余弦相似度。获取两个向量之间的余弦相似度属于比较成熟的技术,因此对于公式(2)的实现过程不再详细描述。
步骤203:根据字的权重参数向量获得所述任意两个字的构词规律相似性。
本实施例中还通过分析任意两个字的构词规律相似性,提升后续模型训练字组的分组准确性。
字的多模型分词技术属于比较成熟的技术,在利用多模型分词技术进行分词时,每个字对应一个模型。利用多模型分词方法对样本中任意一个字进行处理,即是使用该字对应的模型对该字进行分词,该方法可以得到该字的权重参数向量。权重参数向量中的元素数量与设置的权重参数种类相关,在应用多模型分词方法的情况下,如果预先设置了N种权重参数,则应用多模型分词方法得到的字的权重参数向量包括N个元素,权重参数向量中每一个元素对应为一种权重参数的具体数值。
步骤203在具体实现时,可以利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量WA和所述任意两个字中第二个字B的权重参数向量WB;其后,利用第一个字A的权重参数向量WA和第二个字B的权重参数向量WB获得两个向量的余弦相似度,并将该余弦相似度作为所述任意两个字A和B的构词规律相似性。
构词规律相似性cosweight的表达式如下:
cosweight=cos(WA,WB) 公式(3)
公式(3)中,cos(WA,WB)表示权重参数向量WA与权重参数向量WB的余弦相似度。获取两个向量之间的余弦相似度属于比较成熟的技术,因此对于公式(3)的实现过程不再详细描述。
本实施例中,步骤201-203可以按照一定的先后顺序执行,也可以同时执行。图2所示的步骤201-203的执行顺序仅为示例,在此对步骤201-203的执行顺序不进行具体限定。
在以上步骤201-203中,通过获取任意两个字的特征分布相关性,从特征分布维度挖掘任意两个字的上下文内容的相关性,进而挖掘使用环境或使用规律具有关联的字;通过获取任意两个字的语义相似度,从语义维度挖掘具备语义关联的字;通过获取任意两个字的构词规律相似性,从构词规律的维度挖掘具备相似构词特点的字。可见,特征分布相关性、语义相似度和构词规律相似性均有益于捕捉字与字之间的共性,从而准确分析获得模型训练字组。本实施例中,在进行模型训练字组划分时,依据前述步骤201-203分别获得的任意两个字的特征分布相关性、语义相似度和构词规律相似性,具体实现可以参照以下步骤204-205。
步骤204:根据任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性。
本实施例中引入综合相关性这一概念。为特征分布相关性、语义相似度和构词规律相似性分别配以第一权重α、第二权重β和第三权重γ。其中,第一权重α、第二权重β和第三权重γ满足公式(4):
α+β+γ=1 公式(4)
在公式(4)中,第一权重α和第二权重β均为正值,第三权重γ为正值或0。本步骤可以通过公式(5)获得任意两个字的综合相关性cossum,任意两个字的综合相关性cossum的取值在[-1,1]区间内。
cossum=α×p+β×cosembedding+γ×cosweight 公式(5)
公式(5)中,p、cosembedding和cosweight分别为任意两个字A和B的特征分布相关性、语义相似度和构词规律相似性;α表示特征分布相关性p对应的第一权重,β表示语义相似度对应的第二权重,γ表示构词规律相似性对应的第三权重。
需要说明的是,本实施例中第一权重α、第二权重β和第三权重γ可以按照实际需求进行设置。例如,设置α=0.3,β=0.4,γ=0.3;或者设置α=0.5,β=0.3,γ=0.2。因此,此处对于第一权重α、第二权重β和第三权重γ的具体数值不进行限定。实际应用中,可以将第三权重γ设置为0或者非常逼近0的正值,例如0.01、0.02等。
结合公式(5)可知,本实施例中通过将任意两个字A和B的特征分布相关性、语义相似度和构词规律相似性进行加权融合,得到任意两个字A和B的综合相关性。
本实施例中,直接利用没有分词的文本就可以分别获得任意两个字的特征分布相关性和语义相似度,而无需在此之前对文本进行分词,因此,获得的任意两个字的特征分布相关性和语义相似度的难度较小,方便快捷。另外,由于特征分布相关性和语义相似度不是依据分好词的数据获得的,因此,特征分布相关性和语义相似度各自对于不同领域的文本具有较高的适用性。综合相关性中融合了特征分布相关性和语义相似度,因此具备了特征分布相关性和语义相似度在获取过程以及跨领域应用方面的优势。
步骤205:根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
本步骤在实现时,可以首先设定一个预设综合阈值。对于文本中所有字以所有可能的方式两两结合作为一对,依照前述步骤201-204求取每一对字对应的综合相关性,并按照综合相关性进行从大到小排序。按照综合相关性从大到小的顺序,将每个综合相关性对应的两个字划分到相应的模型训练字组中。需要说明的是,当最大的综合相关性对应的两个字已经划分完毕后,即将排序中剩余的最大的综合相关性对应的两个字进行划分。下面假设最大的(或者剩余的最大的)综合相关性对应的两个字为A和B,以此示例进行描述。
具体实现时,将A和B的综合相关性与该预设综合阈值进行比较。具体地:
(1)如果A和B的综合相关性大于或等于预设综合阈值,则表示综合相关性对应的两个字的综合相关性较高。如果两个字中有一个字属于已有的模型训练字组,则将另一个字也划分到同一个模型训练字组。例如,A属于第一模型训练字组,则将B也划分到第一模型训练字组中。
(2)如果A和B的综合相关性大于或等于预设综合阈值,则表示综合相关性对应的两个字的综合相关性较高。如果两个字中每个字都不属于任何一个已有的模型训练字组,则表示A与已有的模型训练字组中包含的字的综合相关性较低,且B与已有的模型训练字组中包含的字的综合相关性较低。因此,为A和B重新建立一个模型训练字组。例如,在对A和B进行分组前,已有第一模型训练字组和第二模型训练字组,由于A和B均不属于任意一个模型训练字组,因此可以创建一个第三模型训练字组,执行本实施例方法后,第三模型训练字组包括:A和B。
(3)如果A和B的综合相关性小于预设综合阈值,则表示综合相关性对应的两个字的综合相关性较低。如果A与B以外的其他字的综合相关性大于或等于预设综合阈值,则显然A已经被分组到某一模型训练字组中;同理,如果B与A以外的其他字的综合相关性大于或等于预设综合阈值,则显然B已经被分组到某一模型训练字组中。
在A和B的综合相关性小于预设综合阈值的情况下:
①如果A未被分组而B已经被分组,则将A划分到一个新的模型训练字组;
②如果B未被分组而A已经被分组,则将B划分到一个新的模型训练字组;
③如果A和B均未被分组,则将A和B分别划分到两个不同的新的模型训练字组。
通过执行以上步骤,将A和B划分到模型训练字组中,其后可以将综合相关性序列中剩余的最大的综合相关性对应的两个字按照上述方式进行划分,直到样本中所有的字都已经被划分完毕。
本实施例通过以上步骤201-205,将样本中的每一个字划分至相应的模型训练字组中。由于本实施例将字与字之间的综合相关性作为划分模型训练字组的依据,并且综合相关性中结合了字与字之间的特征分布相关性,因此本实施例挖掘了字的上下文环境的相关性对构词规律的影响;由于综合相关性还结合了字与字之间的语义相似度,因此本实施例还挖掘了字本身具有的语义信息的相关性对构词规律的影响。可见,本实施例提供的方法通过多个维度使得对构词规律的挖掘更加完善,将样本中的字有效划分到多个模型训练字组中,更加准确地实现分组。
模型训练字组划分完成后,即可基于每一个模型训练字组分别建立分词模型。当需要对某个待分词的字进行分词时,只需确定出其所属的模型训练字组对应的分词模型,利用该分词模型即可实现分词。例如,准确地将该待分词的字与其前面的一个字分割,将该待分词的字作为下一个词的词首;或者,将该待分词的字与其前面的一个字相组合,即组合成词或者词的一部分。
本申请实施例通过获取任意两个字的综合相似性,并基于字与字之间的综合相似性划分模型训练字组,捕捉到了字与字之间的共性和特性。例如,共性多于特性的字被划分到同一模型训练字组中,特性多于共性的字被划分到不同的模型训练字组中。由于分词模型是基于模型训练字组建立的,因此分词模型能够在特征分布、语义和构词规律多个维度的共性和特性准确判断是否应当进行分词,进而提升了分词的准确性。特征分布相关性以及语义相似度分别对文本领域具有较低的敏感性,从而保证了分词模型应用在对不同领域文本进行分词时具有较高的稳定性,提升分词质量。另外,本实施例中,分词模型是依据模型训练字组建立而成,而非依据每一个字建立一个模型,因此在具备较好的跨领域应用能力的同时,还减少了模型的数量并降低了模型的复杂度,提升分词的效率。
基于前述实施例提供的分词的方法,相应地,本申请还提供一种分词的装置。下面结合实施例和附图对该装置的具体实现进行描述。
装置实施例:
参见图4,该图为本申请实施例提供的一种分词的装置的结构示意图。
如图4所示,本实施例提供的分词的装置,包括:模型训练字组确定模块401、模型训练字组获取模块402和分词模块403;
其中,模型训练字组确定模块401,用于获得待分词的字所在的模型训练字组;各个模型训练字组为模型训练字组获取模块402预先对样本中的任意字进行分析获得的,每个模型训练字组对应一个分词模型;
分词模块403,用于利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。
以上为本申请实施例提供的分词的装置。为实现分词,对于待分词的文本中的任意一个待分词的字,首先获得待分词的字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。依照上述装置对待分词的文本中每个待分词的字进行分词,即可将整个待分词的文本分词完毕。在本申请技术方案中,已经预先对样本中的任意字进行划分获得了各个模型训练字组,并且每个模型训练字组对应一个分词模型,因此在已知待分词的字所在的模型训练字组的情况下,根据模型训练字组与分词模型之间的对应关系,即可唯一地确定出为该待分词的字进行分词时应当采用的分词模型。
本申请实施例提供的分词装置,是利用预先训练的分词模型进行分词,而且分词模型是一个字组对应一个,不是一个字对应一个。因此,对于具有共性的字归为一个字组,该字组对应同一个分词模型。这样分词模型的数量就会大大降低,因此,训练分词模型的过程就会简单,耗时较少,对于训练分词模型的机器性能要求较低。
此外,由于分词模型是预先训练好的,因此在需要对待分词的字进行分词时,只需调取对应的分词模型使用,从而提升了分词过程的便利性,提升分词速度和效率,提升用户的体验。
为便于理解以上实施例中对样本中的任意字进行分析并获得各个模型训练字组的过程,下面结合图5描述本实施中模型训练字组获取模块的具体实现方式。
参见图5,该图为本实施例提供的一种模型训练字组获取模块的结构示意图。
如图5所示,所述模型训练字组获取模块,具体包括:
第一获取单元4021,用于根据字与相邻字的相关性获得任意两个字的特征分布相关性;
第二获取单元4022,用于根据字向量获得所述任意两个字的语义相似度
第三获取单元4023,用于根据字的权重参数向量获得所述任意两个字的构词规律相似性;
第四获取单元4024,用于根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
模型训练字组获取单元4025,用于根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
作为一种可能的实现方式,第一获取单元4021,具体用于获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
通常来说,数据量越大,获得的统计结果越准确。但是实际应用中可能会存在这样一个问题,就是由于数据量较大,本身不具有相似使用规律的两个字也具备较多的相同相邻字。这样就有可能因为本步骤获得的任意两个字的特征分布相关性p过高,影响后续模型训练字组分组的准确性。为避免这一问题,本实施例中,装置还可以包括:
相关性重置单元,用于在确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。
通过在确定任意两个字的特征分布相关性p小于预设值时,赋值任意两个字的特征分布相关性p为0,能够防止使用环境或使用规律不相关的两个字,其特征分布相关性p影响模型训练字组分组的准确性。从而提升模型训练字组分组的准确性。
字本身具有语义信息,字的语义信息也对分词的结果有影响。可选地,第二获取单元4022,具体用于获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。
本实施例中还通过分析任意两个字的构词规律相似性,提升后续模型训练字组的分组准确性。可选地,第三获取单元4023,具体用于利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量和所述任意两个字中第二个字B的权重参数向量;获得所述任意两个字中第一个字A的权重参数向量和所述任意两个字中所述第二个字B的权重参数向量的余弦相似度作为所述任意两个字的构词规律相似性。
以上第一获取单元4021、第二获取单元4022和第三获取单元4023,分别通过获取任意两个字的特征分布相关性,从特征分布维度挖掘任意两个字的上下文内容的相关性,进而挖掘使用环境或使用规律具有关联的字;通过获取任意两个字的语义相似度,从语义维度挖掘具备语义关联的字;通过获取任意两个字的构词规律相似性,从构词规律的维度挖掘具备相似构词特点的字。可见,特征分布相关性、语义相似度和构词规律相似性均有益于模型训练字组的划分。
模型训练字组获取单元4025,具体用于当所述综合相关性大于或等于预设综合阈值时,确定所述任意两个字中有一个字属于已有的模型训练字组,则将另一个字也划分到同一个模型训练字组,反之为所述任意两个字新建一个模型训练字组;当所述综合相关性小于所述预设综合阈值时,为所述任意两个字中未被分组的字新建模型训练字组。
由于本实施例将字与字之间的综合相关性作为划分模型训练字组的依据,并且综合相关性中结合了字与字之间的特征分布相关性,因此本实施例挖掘了字的上下文环境的相关性对构词规律的影响;由于综合相关性还结合了字与字之间的语义相似度,因此本实施例还挖掘了字本身具有的语义信息的相关性对构词规律的影响。可见,本实施例提供的装置通过多个维度使得对构词规律的挖掘更加完善,将样本中的字有效划分到多个模型训练字组中,更加准确地实现分组。
本申请实施例通过获取任意两个字的综合相似性,并基于字与字之间的综合相似性划分模型训练字组,捕捉到了字与字之间的共性和特性。例如,共性多于特性的字被划分到同一模型训练字组中,特性多于共性的字被划分到不同的模型训练字组中。由于分词模型是基于模型训练字组建立的,因此分词模型能够在特征分布、语义和构词规律多个维度的共性和特性准确判断是否应当进行分词,进而提升了分词的准确性。特征分布相关性以及语义相似度分别对文本领域具有较低的敏感性,从而保证了分词模型应用在对不同领域文本进行分词时具有较高的稳定性,提升分词质量。另外,本实施例中,分词模型是依据模型训练字组建立而成,而非依据每一个字建立一个模型,因此在具备较好的跨领域应用能力的同时,还降低了模型的数量和模型的复杂度,提升分词的效率。
基于前述实施例提供的分词的方法和装置,本申请实施例还提供了一种计算机可读存储介质。
该存储介质上存储有程序,该程序被处理器执行时实现本申请前述方法实施例保护的分词的方法中部分或全部步骤。
该存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
基于前述实施例提供的分词的方法、装置和存储介质,本申请实施例提供了一种处理器。该处理器用于运行程序,其中,所述程序运行时执行前述方法实施例保护的分词的方法中部分或全部步骤。
基于前述实施例提供的存储介质和处理器,本申请还提供了一种分词的设备。
参见图6,该图为本实施例提供的分词的设备硬件结构图。
如图6所示,分词的设备包括:存储器601、处理器602、通信总线603和通信接口604。
其中,存储器601上存储有可在处理器上运行的程序,程序执行时实现本申请前述方法实施例提供的分词的方法中部分或全部步骤。存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
该设备中,处理器602与存储器601通过通信总线传输信令、逻辑指令等。该设备能够通过通信接口604与其它设备进行通信交互。
通过程序执行上述方法,降低训练分词模型的过程的繁琐程度,训练模型更加简单省时,同时降低了对于训练分词模型的机器性能的要求。
此外,由于分词模型是预先训练好的,因此在需要对待分词的字进行分词时,只需调取对应的分词模型使用,从而提升了分词过程的便利性,提升分词速度和效率,提升用户的体验。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种分词的方法,其特征在于,包括:
获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;
利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词;
其中,所述各个模型训练字组通过预先对样本中的任意字进行训练获得,具体包括:
根据字与相邻字的相关性获得任意两个字的特征分布相关性;根据字向量获得所述任意两个字的语义相似度;根据字的权重参数向量获得所述任意两个字的构词规律相似性;
根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
2.根据权利要求1所述的方法,其特征在于,所述根据字与相邻字的相关性获得任意两个字的特征分布相关性,包括:
获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;
获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;
获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性,之前还包括:
确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。
4.根据权利要求1所述的方法,其特征在于,所述根据字向量获得所述任意两个字的语义相似度,具体包括:
获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据字的权重参数向量获得所述任意两个字的构词规律相似性,具体包括:
利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量和所述任意两个字中第二个字B的权重参数向量;
获得所述任意两个字中第一个字A的权重参数向量和所述任意两个字中所述第二个字B的权重参数向量的余弦相似度作为所述任意两个字的构词规律相似性。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述综合相关性确定所述任意两个字的模型训练字组,具体包括:
当所述综合相关性大于或等于预设综合阈值时,确定所述任意两个字中有一个字属于已有的模型训练字组,则将另一个字也划分到同一个模型训练字组,反之为所述任意两个字新建一个模型训练字组;
当所述综合相关性小于所述预设综合阈值时,为所述任意两个字中未被分组的字新建模型训练字组。
7.一种分词的装置,其特征在于,包括:
模型训练字组确定模块,用于获得待分词的字所在的模型训练字组;各个模型训练字组为模型训练字组获取模块预先对样本中的任意字进行分析获得的,每个模型训练字组对应一个分词模型;
分词模块,用于利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词;
其中,所述模型训练字组获取模块,具体包括:
第一获取单元,用于根据字与相邻字的相关性获得任意两个字的特征分布相关性;
第二获取单元,用于根据字向量获得所述任意两个字的语义相似度
第三获取单元,用于根据字的权重参数向量获得所述任意两个字的构词规律相似性;
第四获取单元,用于根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
模型训练字组获取单元,用于根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述程序被处理器运行时,实现如权利要求1-6任一项所述的分词的方法。
CN201911214054.7A 2019-12-02 2019-12-02 一种分词的方法、装置及存储介质 Active CN111090996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911214054.7A CN111090996B (zh) 2019-12-02 2019-12-02 一种分词的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911214054.7A CN111090996B (zh) 2019-12-02 2019-12-02 一种分词的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111090996A CN111090996A (zh) 2020-05-01
CN111090996B true CN111090996B (zh) 2023-07-14

Family

ID=70393891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911214054.7A Active CN111090996B (zh) 2019-12-02 2019-12-02 一种分词的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111090996B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949298B (zh) * 2021-02-26 2022-10-04 维沃移动通信有限公司 分词方法、装置、电子设备和可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013108073A2 (en) * 2011-12-06 2013-07-25 Perception Partners, Inc. Text mining analysis and output system
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109492217B (zh) * 2018-10-11 2024-07-05 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备

Also Published As

Publication number Publication date
CN111090996A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN103123618B (zh) 文本相似度获取方法和装置
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN109710916B (zh) 一种标签提取方法、装置、电子设备及存储介质
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN105740236B (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
CN105893478A (zh) 一种标签提取方法及设备
CN104331523B (zh) 一种基于概念对象模型的问句检索方法
CN106445918B (zh) 一种中文地址处理方法及系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN105446955A (zh) 一种自适应的分词方法
CN110188359B (zh) 一种文本实体抽取方法
CN107392311A (zh) 序列切分的方法和装置
CN111046662B (zh) 分词模型的训练方法、装置、系统和存储介质
CN111444695B (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN111090996B (zh) 一种分词的方法、装置及存储介质
CN107341152B (zh) 一种参数输入的方法及装置
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN104572633A (zh) 一种确定多义词词义的方法
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant