CN112052671B - 负样本采样方法、文本处理方法、装置、设备及介质 - Google Patents

负样本采样方法、文本处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112052671B
CN112052671B CN201910490384.2A CN201910490384A CN112052671B CN 112052671 B CN112052671 B CN 112052671B CN 201910490384 A CN201910490384 A CN 201910490384A CN 112052671 B CN112052671 B CN 112052671B
Authority
CN
China
Prior art keywords
text
word
words
corpus
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910490384.2A
Other languages
English (en)
Other versions
CN112052671A (zh
Inventor
叶宇潇
邱立坤
付彬
邓拯宇
李杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910490384.2A priority Critical patent/CN112052671B/zh
Publication of CN112052671A publication Critical patent/CN112052671A/zh
Application granted granted Critical
Publication of CN112052671B publication Critical patent/CN112052671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种负样本采样方法、文本处理方法、装置、设备及介质,所述的负样本采样方法包括:获取文本语料;对所述文本语料进行分词,得到所述文本语料的分词结果;从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。根据本发明实施例,采样的负样本可以适用于文本语料所属的领域。

Description

负样本采样方法、文本处理方法、装置、设备及介质
技术领域
本发明属于计算机领域,尤其涉及一种负样本采样方法、文本处理方法、装置、设备及介质。
背景技术
在自然语言处理具体的业务场景中,经常需要对一些专业领域的文本进行分词。为了对专业领域的文本进行分词,需要重建在训练通用领域分词器时使用的复杂的神经网络分词模型。
重建分词模型时的负样本大多来自人民日报等通用新闻领域,但是,如果使用这些通用领域采样的负样本训练分词器,那么训练出的分词器在一些专业领域上往往表现较差,即在通用领域采样的负样本无法适用于一些专业领域。
发明内容
本发明实施例提供一种负样本采样方法、文本处理方法、装置、设备及介质,能够解决在通用领域采样的负样本无法适用于专业领域的问题。
第一方面,本发明实施例提供一种负样本采样方法,其中,所述的方法包括:
获取文本语料;
对所述文本语料进行分词,得到所述文本语料的分词结果;
从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;
其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。
第二方面,本发明实施例提供了一种文本处理方法,其中,所述的方法包括:
对待处理文本进行分词,得到多条分词路径;
使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,以确定所述待处理文本的目标分词路径;
其中,所述经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,所述负样本是从文本语料中获取的文本片段,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段,所述文本片段与所述文本语料的分词结果中的每个词均不相同。
第三方面,本发明实施例提供了一种负样本采样装置,其中,所述的装置包括:
语料获取模块,用于获取文本语料;
分词模块,用于对所述文本语料进行分词,得到所述文本语料的分词结果;
文本片段获取模块,用于从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;
其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。
第四方面,本发明实施例提供了一种文本处理装置,其中,所述的装置包括:
路径划分模块,用于对待处理文本进行分词,得到多条分词路径;
路径确定模块,用于使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,以确定所述待处理文本的目标分词路径;
其中,所述经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,所述负样本是从文本语料中获取的文本片段,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段,所述文本片段与所述文本语料的分词结果中的每个词均不相同。
第五方面,本发明实施例提供了一种计算设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现所述的负样本采样方法或者文本处理方法。
第六方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现所述的负样本采样方法或者文本处理方法。
本发明实施例的负样本采样方法、文本处理方法、装置、设备及介质,能够从文本语料中对负样本进行采样,采样的负样本可以适用于该文本语料所属的领域,进而可以利用该负样本实现在该领域上的准确分词。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的负样本采样方法的流程示意图;
图2是本发明一个实施例提供的文本处理方法的流程示意图;
图3是本发明一个实施例提供的文本划分的原理示意图;
图4是本发明另一个实施例提供的文本处理方法的流程示意图;
图5是本发明一个实施例提供的负样本采样装置的结构示意图;
图6是本发明一个实施例提供的文本处理装置的结构示意图;
图7是本发明一个实施例提供的计算设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本发明实施例提供了一种负样本采样方法、文本处理方法、装置、设备及介质。下面首先对本发明实施例所提供的负样本采样方法进行介绍。
图1示出了本发明一个实施例提供的负样本采样方法的流程示意图。如图1所示,负样本采样方法包括:
S101,获取文本语料。
S102,对文本语料进行分词,得到文本语料的分词结果。
其中,可以使用现有技术中的分词技术对文本语料进行分词,比如使用通用领域的分词器(比如,基线分词器,Baseline Segmenter)进行分词。分词结果中的词可以是由单个字形成的词或者由多个字形成的词。文本语料可以是同一领域的文本语料,比如,文本语料都是通信领域的文本语料。
S103,从文本语料中获取多个文本片段,作为文本语料的负样本。
其中,文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;多个文本片段中的每个文本片段与分词结果中的每个词均不相同。单个字可以形成一个文本片段,多个字也可以形成一个文本片段。如果由多个字形成的一个文本片段,那么该多个字在文本语料中可以是连续出现的多个字。
研究中实际观测或调查的一部分个体称为样本(sample)。机器训练时需要用到样本,样本分为正样本和负样本,负样本是相对于正样本而言的,正样本是用于告诉机器什么样的数据点的类别是1,负样本是用于告诉机器什么样的数据点的类别是0。把正负样本放在一起,就组成了一个数据集,并从中抽取一部分或者全部。这就是训练集,通过训练集对机器进行训练。比如,在训练文本分词模型时,在文本中是词的文本片段是正样本,在文本中不是词的文本片段是负样本,比如,“相同”是一个词,是正样本,“分还”不是一个词,是负样本。在本发明实施例中,能够从文本语料中对负样本进行采样,采样的负样本可以适用于该文本语料所属的领域,进而可以利用该负样本实现在该领域上的准确分词。
如果该文本语料是属于同一领域的文本语料,那么该负样本是该领域的负样本。提供某一领域的文本语料,即可实现针对该领域的负样本的采样。
在本发明的一个实施例中,在采样负样本之后,使用该负样本对已有词向量重新训练,得到训练后的词向量,训练后的词向量可以更加准确地反映出对应的词在本领域上的表示。训练后的词向量可以用于对本领域的文本进行更加准确地分词。
在本发明的另一个实施例中,在采样负样本之后,使用该负样本重建分词模型,该分词模型可以是在训练通用领域分词器时使用的神经网络分词模型。
本发明实施例的负样本采样方法可以应用于专业领域中,比如生物领域、通信领域等。当然,本发明实施例的负样本采样方法并不限应用于专业领域,还可以应用于通用领域。
在本发明的一个实施例中,多个文本片段中的每个文本片段属于词典中收录的词。词典中收录的词可以是单个字形成的词或者多个字形成的词。
文本片段属于词典中收录的词,这样便于针对文本片段进行处理。比如,从文本语料中获取某个词作为负样本,该词属于词典中收录的词,说明该词的词向量已知。这样可以根据该词的负样本对该词的词向量重新进行训练,得到该词训练后的词向量,进而进行后续处理。
在本发明的一个实施例中,S102包括:
对于分词结果中的目标词,该目标词可以是分词结果中的任意的一个词,在文本语料中提取目标词的上下文,该上下文包括:在目标词的左右窗口中的词;在该上下文中提取与分词结果中的每个词均不相同的文本片段,作为文本语料的负样本。
其中,在该上下文中提取与分词结果中的每个词均不相同的文本片段作为目标词的负样本。
在本发明的一个实施例中,S102包括:
在分词结果中选择高频词,高频词是在文本语料中的出现次数大于或等于预定次数(比如10次)的词;将高频词拆分为至少第一文本片段和第二文本片段;如果至少第一文本片段和第二文本片段分别与分词结果中的每个词均不相同,将至少第一文本片段和第二文本片段均作为文本语料的负样本。
其中,该至少第一文本片段和第二文本片段之间互为负样本。高频词为至少两个字的词,这样可以实现词的拆分。
比如,将高频词拆分成两个文本片段,这两个文本片段之间互为负样本,即第一文本片段的负样本包括第二文本片段,第二文本片段的负样本包括第一文本片段。
再比如,将高频词拆分成三个文本片段,这三个文本片段分别是第一、第二、第三文本片段,第一文本片段的负样本包括第二文本片段和第三文本片段,第二文本片段的负样本包括第一文本片段和第三文本片段,第三文本片段的负样本包括第一文本片段和第二文本片段。
如果高频词有多种拆分结果,该多种拆分结果互为负样本。比如,高频词为“第一次”,一种拆分结果是将“第一次”拆分成单个字“第”、“一”和“次”,另一种拆分结果是将“第一次”拆分成“第一”和“次”,那么“第”、“一”、“次”和“第一”中的任两个互为负样本。
从以上可以看出,有两种方式实现S102,第一种是基于上下文获取文本片段,另一种是对词进行拆分得到文本片段。
下面通过一个例子对这两种方式进行说明。
比如,文本语料为“武汉市长江大桥正式通车”,该文本语料的分词结果为:“武汉”、“市”、“长江”、“大桥”、“正式”、“通车”。
1、基于上下文提取目标词的文本片段:假设目标词为“大桥”,窗口大小是2,“大桥”的左窗口中的词为“市”、“长江”,“大桥”的右窗口中的词为“正式”、“通车”,那么“长江”的上文为“市长江”,“长江”的下文为“正式通车”,“长江”的上下文为“市长江”和“正式通车”。
在该上下文中提取文本片段“市长”、“江”、“正”、“式通”和“车”等。由于“式通”不属于词典中收录的词,因此将“式通”排除掉。“市长”属于词典中收录的词,而且与文本语料的分词结果中的词都不相同,因此“市长”是“大桥”的负样本。“江”属于词典中收录的词,而且文本语料的分词结果中的词是“长江”,“江”与“长江”不相同,即“江”与文本语料的分词结果中的词都不相同,因此“江”是“大桥”的负样本。以此类推,可以得出“市长”、“江”、“正”和“车”属于词典中收录的词、而且与文本语料的分词结果中的词都不相同,即“大桥”的负样本包括“市长”、“江”、“正”和“车”。
2、基于拆分提取负样本:假设高频词是“大桥”,将“大桥”拆分成单个字,即将“大桥”拆分成“大”和“桥”,“大”和“桥”互为负样本,即“大”的负样本包括“桥”,“桥”的负样本包括“大”。
图2是本发明一个实施例提供的文本处理方法的流程示意图。如图2,该文本处理方法包括:
S201,对待处理文本进行分词划分,得到多条分词路径。
在一个实施例中,待处理文本可以是上述文本语料;在另一个实施例中,待处理文本可以是与上述文本语料不同的其他文本。待处理文本是中文文本。
S202,使用经过训练的词向量,计算多条分词路径中的每条分词路径为正确路径的概率,以确定待处理文本的目标分词路径;其中,经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,负样本是从文本语料中获取的文本片段,文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段,文本片段与文本语料的分词结果中的每个词均不相同。该负样本可以是基于上述负样本采样方法得到的负样本。
在采用上述的负样本采样方法得到负样本之后,使用该负样本对已有词向量重新训练,得到训练后的词向量,从而实现文本的分词。
本发明实施例可以应用在某一领域的文本分词,具体地,使用上述的负样本采样方法得到该领域的负样本,利用该负样本对词向量进行训练,训练后的词向量可以比较准确地反映出词在该领域的表示。利用训练后的词向量对该领域的文本进行分词,有效地提高了该领域的文本的分词效果。
在现有技术中,通过重建在训练通用领域分词器时使用的复杂的神经网络分词模型,实现对专业领域的分词。而且在重建神经网络分词模型时需要用到目标领域的标注数据。
相比较而言,在本发明实施例中,训练词向量,利用训练好的词向量即可对文本进行分词,不需要重建复杂的神经网络分词模型,简化分词流程。而且由于训练词向量是无监督学习,所以不需要目标领域的标注数据,进而节省了为标注数据而花费的时间和费用。
本发明实施例可以应用在专业领域,对专业领域的文本分词。除此之外,本发明实施例还可以应用在通用领域,对通用领域的文本分词。
在本发明的一个实施例中,上述的文本处理方法还包括:
基于动态规划的算法,对待处理文本进行分词划分,并且在进行分词划分的过程中,对待处理文本的分词路径进行剪枝。
其中,在进行分词划分的过程中,当对待处理文本的一部分文本进行分词划分时,计算各个分词路径为正确路径的概率,对于概率小于预定概率的路径进行剪枝,或者对概率最小的路径进行剪枝。剪枝的方式包括错误率降低剪枝(Reduced-Error Pruning,REP)、悲观错误剪枝(Pesimistic-Error Pruning,PEP)、代价复杂度剪枝(Cost-ComplexityPruning,CCP)。
在本发明的一个实施例中,S202包括S2021至S2023。
S2021,在经过训练的词向量中进行查询,得到按照当前分词路径划分得到的词对应的词向量。
S2022,使用划分得到的词对应的词向量,进行相似度计算,确定划分得到的词在待处理文本中是词的概率。
在本发明的一个实施例中,S2022包括:
计算划分得到的词对应的词向量和至少一个相关向量之间的相似度的平均值,作为该划分得到的词在待处理文本中是词的概率。
作为一个示例,计算划分得到的词对应的词向量和相关向量之间的余弦相似度,作为划分得到的词对应的词向量和相关向量之间的相似度。作为另一个示例,计算划分得到的词对应的词向量和相关向量之间的距离,得到划分得到的词对应的词向量和相关向量之间的相似度,该距离可以是杰卡德距离(Jaccard Distance)或者闵可夫斯基距离(Minkowski Distance)。
上述至少一个相关向量包括:开始标志位对应的向量和/或左相邻词对应的词向量,开始标志位为在划分得到的词的左窗口中的开始标志位,左相邻词是在划分得到的词的左窗口中的词。
因为是基于动态规划的算法进行分词划分,所以,相关向量包括词之前的词或开始标志位对应的向量。
比如,划分得到的词M,在待处理文本中词M所在的句子是句子P,窗口大小是2。词M在句子P中的位置不同,词M的相关向量不同。
如果词M是句子P中的第一个词,那么相关向量包括:开始标志位对应的向量。
如果词M是句话P中的第二个词,那么相关向量包括:开始标志位对应的向量以及句话P中的第一个词(即句子P中的在词M之前的一个词)。
如果词M是句子P中的第三个词或者第三个词之后的词,那么相关向量包括:句子P中在词M之前的且与词M相邻的两个词。
S2023,根据划分得到的词在待处理文本中是词的概率,得到当前分词路径为正确路径的概率。
其中,在得到划分得到的各个词在待处理文本中是词的概率之后,计算划分得到的词在待处理文本中是词的概率的平均值,作为当前分词路径为正确路径的概率。
下面通过一个具体的例子进一步地说明如何使用训练好的词向量对待处理文本进行分词。
比如,待处理文本为“武汉市长江大桥正式通车”,如图3所示,BOS表示开始标志位,S表示栈,B表示缓冲。t表示时间,t=0、1、2、3代表的是一个时间序列。
1、当t=0时,S=[BOS],B为空,开始对待处理文本进行分词。
2、当t=1时,S=[BOS],B=[武],缓冲待处理文本的第一个字。
3、当t=2时,待处理文本的前两个字有两种划分方式:
(1)第一种划分方式301是“武”进入到栈中,并且缓冲“汉”,即S=[BOS,武],B=[汉],这种方式是将待处理文本的前两个字划分成单个的字“武”和“汉”。
(2)第二种划分方式302是栈中的内容不变,缓冲“汉”,即S=[BOS],B=[武汉],这种方式是将待处理文本的前两个字划分在一起,形成一个词“武汉”。
4、当t=3时,对待处理文本的前三个字有四种划分方式:
(1)第一种方式303是在划分方式301的基础上继续划分,栈中的内容不变,缓冲“市”,即S=[BOS,武],B=[汉市],这种划分方式是将待处理文本的前三个字划分成“武”、“汉市”。
(2)第二种方式304是在划分方式301的基础上继续划分,“汉”进入到栈中,并且缓冲“市”,即S=[BOS,武,汉],B=[市],这种划分方式是将待处理文本的前三个字划分成“武”、“汉”、“市”。
(3)第三种方式305是在划分方式302的基础上继续划分,栈中的内容不变,缓冲“市”,即S=[BOS],B=[武汉市],这种划分方式是将待处理文本的前三个字划分成“武汉市”。
(4)第四种方式306是在划分方式302的基础上继续划分,“汉”进入到栈中,并且缓冲“市”,即S=[BOS,武汉],B=[市],这种划分方式是将待处理文本的前三个字划分成“武汉”、“市”。
以上就是对待处理文本的前三个字的划分,对待处理文本的后面的字进行划分的方式与该划分方式类似,在此不再赘述。
如果将待处理文本中的“武汉市长江大桥”按照下面路径进行划分,S=[BOS,武汉,市,长江,大桥],窗口大小为2,通过以下方式计算该路径为正确路径的概率:
P(武汉)=cos(武汉,BOS) (1)
P(市)=(cos(市,武汉)+cos(市,BOS))/2 (2)
P(长江)=(cos(长江,市)+cos(长江,武汉))/2 (3)
P(大桥)=(cos(大桥,长江)+cos(大桥,市))/2 (4)
P(H7)=(P(武汉)+P(市)+P(长江)+P(大桥))/4 (5)
其中,cos(A,B)表示A对应的向量与B对应的向量之间的余弦相似度,比如,cos(武汉,BOS)表示“武汉”对应的词向量与BOS对应的向量之间的余弦相似度;P(Z)表示划分得到的词Z在待处理文本中是词的概率;比如,P(武汉)表示划分得到的“武汉”这个词在待处理文本中是词的概率。P(H7)表示上述划分的路径S=[BOS,武汉,市,长江,大桥]为正确路径的概率。
对于公式(1),由于“武汉”是该词所在句子中的第一个词,“武汉”之前有开始标志位,因此P(武汉)是“武汉”对应的词向量与开始标志位对应的向量之间的余弦相似度。
对于公式(2),由于在“市”所在句子中,“市”的左窗口中有词“武汉”和开始标志位,因此P(市)是两个余弦相似度的平均值,这两个余弦相似度分别是“市”对应的词向量与开始标志位对应的向量之间的余弦相似度以及“市”对应的词向量与“武汉”对应的词向量之间的余弦相似度。
对于公式(3),由于在“长江”所在句子中,“长江”的左窗口中的两个词是“武汉”和“市”,因此P(长江)是两个余弦相似度的平均值,这两个余弦相似度分别是“长江”对应的词向量与“武汉”对应的词向量之间的余弦相似度以及“长江”对应的词向量与“市”对应的词向量之间的余弦相似度。
在对待处理文本进行划分的过程中,比如,在图3中,划分完待处理文本的前三个字,这三个字有四种分词路径,计算每种分词路径为正确路径的概率,删除概率最小的分词路径303,从而实现分词路径的剪枝。
下面通过表1中的实验数据来说明本发明实施例的文本处理方法的技术效果。
表1
在表1中,DL表示斗罗大陆相关的文本,FR表示凡人修仙传相关的文本,ZX表示诛仙相关的文本,DM表示皮肤病相关的文本,PT表示专利相关的文本。从表1中数据可以看出,针对这些不同类型的文本,本发明实施例的分词准确率要大于基线分词器的分词准确率,因此本发明实施例的分词效果较好。
图4是本发明另一个实施例提供的文本处理方法的流程示意图。如图4,该文本处理方法包括:
S401,使用基线分词器对某一领域的文本语料T进行分词,得到文本语料的分词结果T’。
S402,利用文本语料的分词结果T’,进行负样本的采样。其中,可以采用上述的负样本采样方法进行采样,由于上述已经详细说明了负样本采样方法,在此不再重复赘述。
S403,将采样的负样本输入到词向量模型(Embedding Model)中,以使用采样的负样本对已有词向量进行训练,得到训练后的词向量,该训练后的词向量反映了对应的词在本领域上的表现。
其中,词向量模型可以包括word2vec或者Glove。其中,word2vec是一群用来产生词向量的相关模型,可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。Glove也是一种词向量模型。
S404,分词器利用训练后的词向量对文本语料T重新进行分词,分词器输出重新分词的结果。
另外,分词器可以利用训练后的词向量对本领域的其他文本语料进行分词。
图5是本发明一个实施例提供的负样本采样装置的结构示意图。如图5所示,该负样本采样装置500包括:语料获取模块501、分词模块502和文本片段获取模块503。
语料获取模块501用于获取文本语料。
分词模块502用于对文本语料进行分词,得到所述文本语料的分词结果。
文本片段获取模块503用于从所述文本语料中获取多个文本片段,作为所述文本语料的负样本。
其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。
在本发明的一个实施例中,所述每个文本片段属于词典中收录的词。
在本发明的一个实施例中,文本片段获取模块503包括:
第一提取模块,用于对于所述分词结果中的目标词,在所述文本语料中提取所述目标词的上下文,所述上下文包括:在所述目标词的左右窗口中的词。
第二提取模块,用于在所述上下文中提取与所述分词结果中的每个词均不相同的文本片段,作为所述文本语料的负样本。
在本发明的一个实施例中,文本片段获取模块503包括:
高频词选择模块,用于在所述分词结果中选择高频词,所述高频词是在所述文本语料中的出现次数大于或等于预定次数的词。
词拆分模块,用于将所述高频词拆分为至少第一文本片段和第二文本片段。
负样本采样模块,用于如果所述至少第一文本片段和第二文本片段分别与所述分词结果中的每个词均不相同,将所述至少第一文本片段和第二文本片段均作为所述文本语料的负样本。
图6是本发明一个实施例提供的文本处理装置的结构示意图。如图6所示,该文本处理装置600包括:路径划分模块601和路径确定模块602。
路径划分模块601用于对待处理文本进行分词划分,得到多条分词路径。
路径确定模块602用于使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,以确定所述待处理文本的目标分词路径;
其中,所述经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,所述负样本是基于上述的负样本采样方法得到的负样本。
在本发明的一个实施例中,路径确定模块602包括:
词向量查询模块,用于在所述经过训练的词向量中进行查询,得到按照当前分词路径划分得到的词对应的词向量。
词概率确定模块,用于使用所述划分得到的词对应的词向量,进行相似度计算,确定所述划分得到的词在所述待处理文本中是词的概率。
路径概率确定模块,用于根据所述划分得到的词在所述待处理文本中是词的概率,得到所述当前分词路径为正确路径的概率。
在本发明的一个实施例中,词概率确定模块用于计算所述划分得到的词对应的词向量和至少一个相关向量之间的相似度的平均值,作为所述划分得到的词在所述待处理文本中是词的概率。
其中,所述至少一个相关向量包括:开始标志位对应的向量和/或左相邻词对应的词向量,所述开始标志位为在所述划分得到的词的左窗口中的开始标志位,所述左相邻词是在所述划分得到的词的左窗口中的词。
在本发明的一个实施例中,路径概率确定模块用于计算按照所述当前分词路径划分得到的词在所述待处理文本中是词的概率的平均值,作为所述当前分词路径为正确路径的概率。
在本发明的一个实施例中,路径划分模块601用于基于动态规划的算法,对所述待处理文本进行分词划分。
文本处理装置还包括剪枝模块,用于在进行分词划分的过程中,对所述待处理文本的分词路径进行剪枝。
图7是本发明一个实施例提供的计算设备的硬件结构示意图。
计算设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关容灾设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的任意一种负样本采样方法或文本处理方法。
在一个示例中,计算设备还可包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将计算设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该计算设备可以执行本发明实施例中的负样本采样方法或文本处理方法,从而实现结合图1、图2、图5和图6描述的方法和装置。
另外,结合上述实施例中的负样本采样方法或文本处理方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种负样本采样方法或文本处理方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (14)

1.一种负样本采样方法,其中,所述的方法包括:
获取文本语料;
对所述文本语料进行分词,得到所述文本语料的分词结果;
从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;
其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。
2.根据权利要求1所述的方法,其中,所述每个文本片段属于词典中收录的词。
3.根据权利要求1或2所述的方法,其中,从所述文本语料中获取多个文本片段,作为所述文本语料的负样本,包括:
对于所述分词结果中的目标词,在所述文本语料中提取所述目标词的上下文,所述上下文包括:在所述目标词的左右窗口中的词;
在所述上下文中提取与所述分词结果中的每个词均不相同的文本片段,作为所述文本语料的负样本。
4.根据权利要求1或2所述的方法,其中,从所述文本语料中获取多个文本片段,作为所述文本语料的负样本,包括:
在所述分词结果中选择高频词,所述高频词是在所述文本语料中的出现次数大于或等于预定次数的词;
将所述高频词拆分为至少第一文本片段和第二文本片段;
如果所述至少第一文本片段和第二文本片段分别与所述分词结果中的每个词均不相同,将所述至少第一文本片段和第二文本片段均作为所述文本语料的负样本。
5.一种文本处理方法,其中,所述的方法包括:
对待处理文本进行分词,得到多条分词路径;
使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,以确定所述待处理文本的目标分词路径;
其中,所述经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,所述负样本是从文本语料中获取的文本片段,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段,所述文本片段与所述文本语料的分词结果中的每个词均不相同。
6.根据权利要求5所述的方法,其中,使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,包括:
在所述经过训练的词向量中进行查询,得到按照当前分词路径划分得到的词对应的词向量;
使用所述划分得到的词对应的词向量,进行相似度计算,确定所述划分得到的词在所述待处理文本中是词的概率;
根据所述划分得到的词在所述待处理文本中是词的概率,得到所述当前分词路径为正确路径的概率。
7.根据权利要求6所述的方法,其中,计算所述划分得到的词对应的词向量和至少一个相关向量之间的相似度的平均值,作为所述划分得到的词在所述待处理文本中是词的概率;
其中,所述至少一个相关向量包括:开始标志位对应的向量和/或左相邻词对应的词向量,所述开始标志位为在所述划分得到的词的左窗口中的开始标志位,所述左相邻词是在所述划分得到的词的左窗口中的词。
8.根据权利要求6所述的方法,其中,计算按照所述当前分词路径划分得到的词在所述待处理文本中是词的概率的平均值,作为所述当前分词路径为正确路径的概率。
9.根据权利要求5所述的方法,其中,基于动态规划的算法,对所述待处理文本进行分词划分,并且在进行分词划分的过程中,对所述待处理文本的分词路径进行剪枝。
10.根据权利要求5所述的方法,其中,所述待处理文本所属的领域与所述文本语料所属的领域相同。
11.一种负样本采样装置,其中,所述的装置包括:
语料获取模块,用于获取文本语料;
分词模块,用于对所述文本语料进行分词,得到所述文本语料的分词结果;
文本片段获取模块,用于从所述文本语料中获取多个文本片段,作为所述文本语料的负样本;
其中,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段;所述多个文本片段中的每个文本片段与所述分词结果中的每个词均不相同。
12.一种文本处理装置,其中,所述的装置包括:
路径划分模块,用于对待处理文本进行分词,得到多条分词路径;
路径确定模块,用于使用经过训练的词向量,计算所述多条分词路径中的每条分词路径为正确路径的概率,以确定所述待处理文本的目标分词路径;
其中,所述经过训练的词向量是使用负样本对已有词向量重新训练得到的训练后的词向量,所述负样本是从文本语料中获取的文本片段,所述文本片段包括由单个字形成的文本片段和/或由多个字形成的文本片段,所述文本片段与所述文本语料的分词结果中的每个词均不相同。
13.一种计算设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-10任意一项所述的方法。
14.一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的方法。
CN201910490384.2A 2019-06-06 2019-06-06 负样本采样方法、文本处理方法、装置、设备及介质 Active CN112052671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910490384.2A CN112052671B (zh) 2019-06-06 2019-06-06 负样本采样方法、文本处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910490384.2A CN112052671B (zh) 2019-06-06 2019-06-06 负样本采样方法、文本处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112052671A CN112052671A (zh) 2020-12-08
CN112052671B true CN112052671B (zh) 2023-10-27

Family

ID=73609574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910490384.2A Active CN112052671B (zh) 2019-06-06 2019-06-06 负样本采样方法、文本处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112052671B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980211A (zh) * 2010-11-12 2011-02-23 百度在线网络技术(北京)有限公司 一种机器学习模型及其建立方法
CN107168951A (zh) * 2017-05-10 2017-09-15 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN108304509A (zh) * 2018-01-19 2018-07-20 华南理工大学 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980211A (zh) * 2010-11-12 2011-02-23 百度在线网络技术(北京)有限公司 一种机器学习模型及其建立方法
CN107168951A (zh) * 2017-05-10 2017-09-15 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN108304509A (zh) * 2018-01-19 2018-07-20 华南理工大学 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于表示学习的中文分词算法探索;来斯惟;徐立恒;陈玉博;刘康;赵军;;中文信息学报(05);全文 *

Also Published As

Publication number Publication date
CN112052671A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111292752B (zh) 一种用户意图识别方法、装置、电子设备及存储介质
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN116543221B (zh) 关节病变智能检测方法、装置、设备及可读存储介质
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
US11145308B2 (en) Symbol sequence estimation in speech
CN111859948B (zh) 语言识别、语言模型训练、字符预测方法及装置
CN111581346A (zh) 一种事件抽取方法和装置
CN111753546B (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
CN114912418A (zh) 一种基于多元语义特征和掩码策略的文本纠错方法和系统
CN112052671B (zh) 负样本采样方法、文本处理方法、装置、设备及介质
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN116542254A (zh) 风洞试验数据异常决策方法、装置、电子设备及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN112634878B (zh) 语音识别后处理方法和系统及相关设备
CN114863574A (zh) 手写签名识别方法、装置、设备、介质及程序产品
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备
CN116720123B (zh) 一种账户识别方法、装置、终端设备及介质
CN114385809B (zh) 实体文本提取模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant