CN107729322B - 分词方法及装置、建立句子向量生成模型方法及装置 - Google Patents

分词方法及装置、建立句子向量生成模型方法及装置 Download PDF

Info

Publication number
CN107729322B
CN107729322B CN201711080184.7A CN201711080184A CN107729322B CN 107729322 B CN107729322 B CN 107729322B CN 201711080184 A CN201711080184 A CN 201711080184A CN 107729322 B CN107729322 B CN 107729322B
Authority
CN
China
Prior art keywords
sentence
word segmentation
vector
word
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711080184.7A
Other languages
English (en)
Other versions
CN107729322A (zh
Inventor
英高海
林载辉
赵舒阳
朱德明
李坤
李冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201711080184.7A priority Critical patent/CN107729322B/zh
Publication of CN107729322A publication Critical patent/CN107729322A/zh
Application granted granted Critical
Publication of CN107729322B publication Critical patent/CN107729322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将若干初步分词结果中的词语转化为词向量;将每一初步分词结果的词向量输入句子向量生成模型,以得到每一初步分词结果的第一句子向量;根据预设算法计算待分词句子的标准句子向量;将与标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为待分词句子的最终分词结果;其中,句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。本发明得到的分词结果能够有效表达语义,提高了分词的效率与准确率。

Description

分词方法及装置、建立句子向量生成模型方法及装置
技术领域
本发明涉及人工智能领域,尤其涉及一种分词方法及装置、建立句子向量生成模型方法及装置。
背景技术
在自然语言处理中,文本分词是其他语义分析处理的前提和基础。对英文文本,词自然地以空格为划分标志,而对中文文本,词的划分并没有固定的标志或规则,因为中文词语的构成往往包含了人的主观意志与应用语境。也因此,对同一个中文文本,可以有多种不同的分词结果,其中有一个分词结果,它的语义通常更为接近句子的“真实”语义。而现今常见的分词系统有中科院的NLPIR汉语分词系统以及结巴分词系统等,本发明人在实施过程中发现,现有技术中存在以下技术问题:现有技术通常都是通用型的分词工具,对特定领域的中文文本,其默认的分词结果,往往效果欠佳,难以较好地表达真实的语义。
发明内容
本发明实施例提供一种分词方法及装置、建立句子向量生成模型方法及装置,能有效解决现有技术中分词结果无法表达真实语义的问题,得到的分词结果能够有效表达语义,提高了分词的效率与准确率。
本发明实施例提供一种分词方法,包括:
通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
将所述若干初步分词结果中的词语转化为词向量;
将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;
根据预设算法计算所述待分词句子的标准句子向量;
将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;
其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。
本发明实施例所提供的一种分词方法,通过对待分词句子通过分词技术得到若干初步分词结果后,将每一初步分词结果的词语转化为词向量后输入到句子向量生成模型中,获取与每一初步分词结果对应的句子向量,另一方面,通过预设算法直接获取待分词句子的句子向量作为标准句子向量,然后将每一初步分词结果对应的句子向量与标准句子向量进行相似度比较,将相似度最高的初步分词结果做为最终分词结果。本实施例使用了循环神经网络来生成句子向量,生成的句子向量包含了词与词之间的语义依赖关系,基于分词结果与句子的语义相似度的,得到的分词结果能够有效表达语义,提高了分词结果优选的效率与准确率。
进一步的,所述将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:
计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;
比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。
进一步的,所述根据预设算法计算所述待分词句子的标准句子向量包括:
根据sentence2vec算法计算所述待分词句子的标准句子向量。
进一步的,所述将所述若干初步分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;
所述获取词向量模型的过程包括:
获取所述目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的生成过程包括:
获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
根据预设选取标准从所述若干分词结果中选取标准分词结果;
将所述标准分词结果中的词语转化为词向量;
根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;
搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
相应的,本发明实施例还提供一种建立句子向量生成模型方法,包括:
获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
根据预设选取方式从所述若干分词结果中选取标准分词结果;
将所述标准分词结果中的词语转化为词向量;
根据预设算法计算所述句子语料库中的每一句子的标准句子向量;
搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
本发明实施例所提供的句子向量生成模型,通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的句子向量生成模型,使用了循环神经网络来生成句子向量,使得生成的句子向量包含了词与词之间的语义依赖关系。
进一步的,所述将所述标准分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;
所述获取词向量模型的过程包括:
获取所述目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:
根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
进一步的,所述搭建循环神经网络包括:
以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
相应的,本发明实施例还提供一种分词装置,包括:
第一初步分词单元,用于通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
词向量转化单元,用于将所述若干初步分词结果中的词语转化为词向量;
第一句子向量转化单元,用于将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;其中,所述向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的。
标准句子向量转化单元,用于根据预设算法计算所述待分词句子的标准句子向量;
最终分词结果确定单元,用于将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果。
相应的,本发明实施例还提供一种建立句子向量生成模型装置,包括:
第二初步分词单元,用于获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
标准分词结果选定单元,用于根据预设选取方式从所述若干分词结果中选取标准分词结果;
第二词向量转化单元,用于将所述最终分词结果中的词语转化为词向量;
第二标准句子向量单元,用于根据预设算法计算所述句子语料库中的每一句子的句子向量;
句子向量生成模型单元,用于搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
附图说明
图1是本发明实施例1提供的一种分词方法的步骤示意图;
图2是本发明实施例1提供的一种分词方法的整体的流程示意图;
图3是本发明实施例1提供的一种分词方法中关于建立句子向量生成模型的流程示意图;
图4是本发明实施例2提供的一种建立句子向量生成模型方法的步骤示意图;
图5是本发明实施例3提供的一种分词装置的结构示意图;
图6是本发明实施例4提供的一种建立句子向量生成模型装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1提供的一种分词方法,可参见图1和图2,图1是本实施例1的流程示意图,图2是本实施例整体的流程示意图;包括:
S1、通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
S2、将所述若干初步分词结果中的词语转化为词向量;
S3、将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;
S4、根据预设算法计算所述待分词句子的标准句子向量;
S5、将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;具体,可以如图2所示,计算出每一第一句子向量与所述标准句子向量的相似度Si(i为整数,i=1,2,3…),通过确定相似度Si最高的第一句子向量所对应的标准句子向量为最终分词结果。
其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。可以理解为,通常,句子语料库中每一句子的标准分词结果中包含了若干词语,将每一句子的标准分词结果的若干词语转化为词向量形式作为循环神经网络的输入,将每一句子通过预设算法直接计算得到的标准分子向量作为循环神经网络的输出,训练该循环神经网络,从而得到所述句子向量生成模型。
需要说明的是,这里的句子语料库包括若干来源于目标领域的文本资料的句子,句子语料库与待分词句子的目标领域相同。
具体的,每一句子的标准分词结果为根据设计者的所制定的标准所确定的标准分词结果,可以通过现有的分词技术来进行分词获得若干分词结果,然后基于该制定的标准来选取适合的标准分词结果;通常,该标准为基于最贴近句子本身语义的分词结果选择标准,进一步的,可以接收由人工的分词选择结果作为标准分词结果。
现今常见的分词系统有中科院的NLPIR汉语分词系统以及结巴分词系统等,都是属于通用型的分词工具,对特定领域的中文文本,其默认的分词结果,往往效果欠佳,难以较好地表达准确的语义。不过,这些分词系统所采用的分词技术可以根据句子的词法结构,同时给出多种可能的分词结果,以供人们后续选择最优的分词结果。
本发明实施例中,所采用词向量技术可以将非结构化的词映射到一个维度固定的词向量空间,用词向量空间中的点表示某一特定的词,并且,以该向量空间中不同点之间的距离(如欧式距离或余弦距离)大小来衡量词与词之间的相似度,距离越小,词的语义越接近。这样,词就转化成了可在语义层面较为准确地刻画词的语义相似度的词向量形式。类似地,句子向量也是用向量空间的点代表某一句子,利用点之间的距离衡量句子之间的语义相似度。
另一个方面,经过观察发现,在自然语言处理中,循环神经网络是一种优秀的算法选择,可以较好的处理在时间维度上有依赖或承继关系的问题,而同一个句子中的词语之间是相互依赖的,这与循环神经网络的应用情形相吻合。
因此,本实施例基于上述思考发现,设计一个通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的句子向量生成模型,使用了循环神经网络来生成句子向量,使得生成的句子向量包含了词与词之间的语义依赖关系,克服了由词向量简单叠加获取句子向量时,没有考虑词与词之间语义依赖关系的问题。
另外,本实施例对待分词句子通过分词技术得到若干初步分词结果后,将每一初步分词结果的词语转化为词向量后输入到句子向量生成模型中,获取与每一初步分词结果对应的句子向量,另一方面,通过预设的算法直接获取待分词句子的句子向量作为标准句子向量,然后将每一初步分词结果对应的句子向量与标准句子向量进行相似度比较,将相似度最高的初步分词结果做为最终分词结果。本实施例基于分词结果与句子的语义相似度的,这不仅符合了人工选择分词结果的经验逻辑,还大大减少了人工选择分词结果的工作量,以及人工选择的主观随意性,提高了分词结果优选的效率与准确率。
进一步的,步骤S1所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,为本实施例的初步分词处理提供技术支持,获取所有可能的初步分词结果。这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
进一步的,步骤S2中所述将所述若干初步分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;其中,所述获取词向量模型的过程包括:
S201、获取所述目标领域的文本语料库;
S202、对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理,所述文本语料库为通过网络爬虫获取的所述目标领域的资料的文本数据所构建的;
S203、通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,为易于理解,可以参见图3中关于步骤S3中所采用的所述向量生成模型的建立过程的流程示意图,具体建立过程包括:
S301、获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
S302、根据预设选取标准从所述若干分词结果中选取标准分词结果;
S303、将所述标准分词结果中的词语转化为词向量;即得到每一句子中所包含的多个词语的词向量;
S304、根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;
S305、搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
进一步的,步骤S303中将所述标准分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;其中,所述获取词向量模型的过程包括:
S3031、获取所述目标领域的文本语料库;具体的,通过网络爬虫获得目标领域的新闻、专业文献和杂志等文本资料的文本数据,通过所获得的文本数据组建文本语料库。
S3032、对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
S3033、通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
其中,步骤S3032中所涉及的去停用词处理是指根据一个已有的停用词表(一个停用词表包含多个词,这些词通常不具有实质性的语义,比如“的”、“了”等),当文本语料库中出现与停用词表相同的词时,则将该词从文本语料库中剔除掉。
步骤S3031~步骤S3033的词向量模型建立过程和步骤S201~步骤S203所建立的词向量模型建立过程是一样的,所起的作用也是相同的,也都是同一目标领域的句子资料库所建立的;因此,在前期获取句子向量生成模型的过程中,所建立的词向量模型可以运用于后面对待分词句子的分词结果的词向量转化过程中。即,在步骤S2中可直接利用句子向量生成模型的过程中所建立的词向量模型,无需重复建立。
步骤S304中所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
进一步的,步骤S305中所述搭建循环神经网络包括:以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
需要解释的是,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,步骤S4中根据预设算法计算所述待分词句子的标准句子向量包括:根据sentence2vec算法计算所述待分词句子的标准句子向量。
进一步的,步骤S5中将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:
S51、计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;
S52、比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。
需要解释的是:余弦距离,也余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。欧氏距离(也称欧几里得度量(euclidean metric))是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
本实施例基于分词结果与句子的语义相似度的,生成的句子向量包含了词与词之间的语义依赖关系,基于分词结果与句子的语义相似度的,得到的分词结果能够有效表达语义,减少了人工选择分词结果的工作量,以及人工选择的主观随意性,提高了分词结果优选的效率与准确率。
相应的,本发明实施例2还提供的一种建立句子向量生成模型方法,参见图4,图4是本发明实施例2的步骤流程图,还可以参见图3中,图3为建立句子向量生成模型的流程示意图,本实施例2包括步骤:
S11、获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
S12、根据预设选取方式从所述若干分词结果中选取标准分词结果;
S13、将所述标准分词结果中的词语转化为词向量;
S14、根据预设算法计算所述句子语料库中的每一句子的标准句子向量;
S15、搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
步骤S11所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,为本实施例的初步分词处理提供技术支持,获取所有可能的初步分词结果。这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
具体的,每一句子的标准分词结果为根据设计者的所制定的标准所确定的标准分词结果,可以通过现有的分词技术来进行分词获得若干分词结果,然后基于该制定的标准来选取适合的标准分词结果;通常,该标准为基于最贴近句子本身语义的分词结果选择标准,进一步的,可以接收由人工的分词选择结果作为标准分词结果。
步骤S13中,所述将所述标准分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;
其中,所述获取词向量模型的过程可包括:
S131、获取所述目标领域的文本语料库;具体的,通过网络爬虫获得目标领域的新闻、专业文献和杂志等文本资料的文本数据,通过所获得的文本数据组建文本语料库。
S132、对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
S133、通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,步骤S14,所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:
根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
步骤S15中搭建循环神经网络包括:以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
需要解释的是,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
需要说明的是,本实施例的句子语料库包括若干来源于目标领域的文本资料的句子,句子语料库与文本语料库的目标领域相同。
现今常见的分词系统有中科院的NLPIR汉语分词系统以及结巴分词系统等,都是属于通用型的分词工具,对特定领域的中文文本,其默认的分词结果,往往效果欠佳,难以较好地表达准确的语义。不过,这些分词系统所采用的分词技术可以根据句子的词法结构,同时给出多种可能的分词结果,以供人们后续选择最优的分词结果。在自然语言处理中,循环神经网络是一种优秀的算法选择,可以较好的处理在时间维度上有依赖或承继关系的问题,而同一个句子中的词语之间是相互依赖的,这与循环神经网络的应用情形相吻合。
因此,本实施例基于上述思考发现,设计一个通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的句子向量生成模型,使用了循环神经网络来生成句子向量,使得生成的句子向量包含了词与词之间的语义依赖关系,克服了由词向量简单叠加获取句子向量时,没有考虑词与词之间语义依赖关系的问题。
基于本实施例2所得到句子向量生成模型可以适用于实施例1的分词方法中,具体的,对待分词句子通过分词技术得到若干初步分词结果后,将每一初步分词结果的词语转化为词向量后输入到句子向量生成模型中,获取与每一初步分词结果对应的句子向量,另一方面,通过预设的算法直接获取待分词句子的句子向量作为标准句子向量,然后将每一初步分词结果对应的句子向量与标准句子向量进行相似度比较,将相似度最高的初步分词结果作为最终分词结果。本实施例基于分词结果与句子的语义相似度的,这不仅符合了人工选择分词结果的经验逻辑,还大大减少了人工选择分词结果的工作量,以及人工选择的主观随意性,提高了分词结果优选的效率与准确率。
本实施例2所生成的句子向量生成模型,能够使输入的词向量对应输出的句子向量能够考虑词与词之间的语义依赖关系,从而运用于本发明实施例1分词方法中,与标准句子向量进行比较来确定最优分词结果时,能够考虑句子语义来确定分词结果,提高分词结果的准确性。
相应的,本发明实施例3还提供一种分词装置,参见图所示,图包括:
第一初步分词单元11,用于通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
词向量转化单元12,用于将所述若干初步分词结果中的词语转化为词向量;
第一句子向量转化单元13,用于将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;其中,所述向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。
标准句子向量转化单元14,用于根据预设算法计算所述待分词句子的标准句子向量;
最终分词结果确定单元15,用于将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果。
其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。可以理解为,通常,句子语料库中每一句子的标准分词结果中包含了若干词语,将每一句子的标准分词结果的若干词语转化为词向量形式作为循环神经网络的输入,将每一句子通过预设算法直接计算得到的标准分子向量作为循环神经网络的输出,训练该循环神经网络,从而得到所述句子向量生成模型。
需要说明的是,这里的句子语料库包括若干来源于目标领域的文本资料的句子,句子语料库与待分词句子的目标领域相同。
具体的,每一句子的标准分词结果为根据设计者的所制定的标准所确定的标准分词结果,可以通过现有的分词技术来进行分词获得若干分词结果,然后基于该制定的标准来选取适合的标准分词结果;通常,该标准为基于最贴近句子本身语义的分词结果选择标准,进一步的,可以接收由人工的分词选择结果作为标准分词结果。
进一步的,第一初步分词单元11所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,为本实施例的初步分词处理提供技术支持,获取所有可能的初步分词结果。这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
进一步的,词向量转化单元12中所述将所述若干初步分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;其中,所述获取词向量模型的过程包括:
获取所述目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理,所述文本语料库为通过网络爬虫获取的所述目标领域的资料的文本数据所构建的;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,第一句子向量转化单元13中所采用的所述向量生成模型的可通过如下过程建立:
获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
根据预设选取标准从所述若干分词结果中选取标准分词结果;
将所述标准分词结果中的词语转化为词向量;即得到每一句子中所包含的多个词语的词向量;
根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;
搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
其中,将所述标准分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;其中,所述获取词向量模型的过程包括:
进一步的,第一句子向量转化单元13中获取所述目标领域的文本语料库;具体的,通过网络爬虫获得目标领域的新闻、专业文献和杂志等文本资料的文本数据,通过所获得的文本数据组建文本语料库。
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
其中,去停用词处理是指根据一个已有的停用词表(一个停用词表包含多个词,这些词通常不具有实质性的语义,比如“的”、“了”等),当文本语料库中出现与停用词表相同的词时,则将该词从文本语料库中剔除掉。
具体的,第一句子向量转化单元13中所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
具体的,第一句子向量转化单元13中所述搭建循环神经网络包括:以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
需要解释的是,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,标准句子向量转化单元14中根据预设算法计算所述待分词句子的标准句子向量包括:根据sentence2vec算法计算所述待分词句子的标准句子向量。
进一步的,最终分词结果确定单元15中将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:
计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;
比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。
本实施例3使用了循环神经网络来生成句子向量,使得生成的句子向量包含了词与词之间的语义依赖关系,基于分词结果与句子的语义相似度的,得到的分词结果能够有效表达语义,提高了分词结果优选的效率与准确率。
相应的,本发明实施例4还提供一种建立句子向量生成模型装置,包括:
第二初步分词单元21,用于获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
标准分词结果选定单元22,用于根据预设选取方式从所述若干分词结果中选取标准分词结果;
第二词向量转化单元23,用于将所述最终分词结果中的词语转化为词向量;
第二标准句子向量单元24,用于根据预设算法计算所述句子语料库中的每一句子的句子向量;
句子向量生成模型单元25,用于搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
进一步的,第二初步分词单元21所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,为本实施例的初步分词处理提供技术支持,获取所有可能的初步分词结果。这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
进一步的,标准分词结果选定单元22中每一句子的标准分词结果为根据设计者的所制定的标准所确定的标准分词结果,可以通过现有的分词技术来进行分词获得若干分词结果,然后基于该制定的标准来选取适合的标准分词结果;通常,该标准为基于最贴近句子本身语义的分词结果选择标准,进一步的,可以接收由人工的分词选择结果作为标准分词结果。
进一步的,第二词向量转化单元23中所述将所述标准分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;
其中,所述获取词向量模型的过程可包括:
获取所述目标领域的文本语料库;具体的,通过网络爬虫获得目标领域的新闻、专业文献和杂志等文本资料的文本数据,通过所获得的文本数据组建文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
进一步的,第二标准句子向量单元24所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
进一步的,句子向量生成模型单元25中搭建循环神经网络包括:以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
需要解释的是,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
需要说明的是,本实施例的句子语料库包括若干来源于目标领域的文本资料的句子,句子语料库与文本语料库的目标领域相同。
基于本实施例4所得到句子向量生成模型可以适用于实施例3的分词装置中,具体的,对待分词句子通过分词技术得到若干初步分词结果后,将每一初步分词结果的词语转化为词向量后输入到句子向量生成模型中,获取与每一初步分词结果对应的句子向量,另一方面,通过预设的算法直接获取待分词句子的句子向量作为标准句子向量,然后将每一初步分词结果对应的句子向量与标准句子向量进行相似度比较,将相似度最高的初步分词结果作为最终分词结果。本实施例基于分词结果与句子的语义相似度的,这不仅符合了人工选择分词结果的经验逻辑,还大大减少了人工选择分词结果的工作量,以及人工选择的主观随意性,提高了分词结果优选的效率与准确率。
本实施例4所生成的句子向量生成模型,能够使输入的词向量对应输出的句子向量能够考虑词与词之间的语义依赖关系,从而运用于本发明实施例1分词方法中,与标准句子向量进行比较来确定最优分词结果时,能够考虑句子语义来确定分词结果,提高分词结果的准确性。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (11)

1.一种分词方法,其特征在于,包括:
通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
将所述若干初步分词结果中的词语转化为词向量;
将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;
根据预设算法计算所述待分词句子的标准句子向量;
将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;
其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。
2.如权利要求1所述的一种分词方法,其特征在于,所述将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:
计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;
比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。
3.如权利要求1所述的一种分词方法,其特征在于,所述根据预设算法计算所述待分词句子的标准句子向量包括:
根据sentence2vec算法计算所述待分词句子的标准句子向量。
4.如权利要求1所述的一种分词方法,其特征在于,所述将所述若干初步分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;
所述获取词向量模型的过程包括:
获取目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
5.如权利要求1所述的一种分词方法,其特征在于,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的生成过程包括:
获取目标领域的所述句子语料库,并对所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
根据预设选取标准从所述若干分词结果中选取标准分词结果;
将所述标准分词结果中的词语转化为词向量;
根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;
搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
6.一种建立句子向量生成模型方法,其特征在于,包括:
获取目标领域的句子语料库,对句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
根据预设选取方式从所述若干分词结果中选取标准分词结果;
将所述标准分词结果中的词语转化为词向量;
根据预设算法计算所述句子语料库中的每一句子的标准句子向量;
搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
7.如权利要求6所述的一种建立句子向量生成模型方法,其特征在于,所述将所述标准分词结果中的词语转化为词向量包括:
获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;
所述获取词向量模型的过程包括:
获取所述目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;
通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。
8.如权利要求6所述的一种建立句子向量生成模型方法,其特征在于,所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:
根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。
9.如权利要求6所述的一种建立句子向量生成模型方法,其特征在于,所述搭建循环神经网络包括:
以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。
10.一种分词装置,其特征在于,包括:
第一初步分词单元,用于通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;
词向量转化单元,用于将所述若干初步分词结果中的词语转化为词向量;
第一句子向量转化单元,用于将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;其中,所述向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的;
标准句子向量转化单元,用于根据预设算法计算所述待分词句子的标准句子向量;
最终分词结果确定单元,用于将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果。
11.一种建立句子向量生成模型装置,其特征在于,包括:
第二初步分词单元,用于获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;
标准分词结果选定单元,用于根据预设选取方式从所述若干分词结果中选取标准分词结果;
第二词向量转化单元,用于将所述标准分词结果中的词语转化为词向量;
第二标准句子向量单元,用于根据预设算法计算所述句子语料库中的每一句子的标准句子向量;
句子向量生成模型单元,用于搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。
CN201711080184.7A 2017-11-06 2017-11-06 分词方法及装置、建立句子向量生成模型方法及装置 Active CN107729322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711080184.7A CN107729322B (zh) 2017-11-06 2017-11-06 分词方法及装置、建立句子向量生成模型方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711080184.7A CN107729322B (zh) 2017-11-06 2017-11-06 分词方法及装置、建立句子向量生成模型方法及装置

Publications (2)

Publication Number Publication Date
CN107729322A CN107729322A (zh) 2018-02-23
CN107729322B true CN107729322B (zh) 2021-01-12

Family

ID=61221744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711080184.7A Active CN107729322B (zh) 2017-11-06 2017-11-06 分词方法及装置、建立句子向量生成模型方法及装置

Country Status (1)

Country Link
CN (1) CN107729322B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322895B (zh) * 2018-03-27 2021-07-09 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN108470290A (zh) * 2018-03-28 2018-08-31 百度在线网络技术(北京)有限公司 广告检测方法、装置及服务器
CN108874761A (zh) * 2018-05-31 2018-11-23 阿里巴巴集团控股有限公司 一种智能写作方法和装置
CN108920604B (zh) 2018-06-27 2019-08-13 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109344399B (zh) * 2018-09-14 2023-02-03 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN109740143B (zh) * 2018-11-28 2022-08-23 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
CN111489754B (zh) * 2019-01-28 2024-06-25 国家电网有限公司客户服务中心 一种基于智能语音技术的话务数据分析方法
CN111489743B (zh) * 2019-01-28 2024-06-25 国家电网有限公司客户服务中心 一种基于智能语音技术的运营管理分析系统
CN109948159B (zh) * 2019-03-15 2023-05-30 合肥讯飞数码科技有限公司 一种文本数据生成方法、装置、设备及可读存储介质
CN110009064A (zh) * 2019-04-30 2019-07-12 广东电网有限责任公司 一种基于电网领域的语义模型训练方法及装置
CN110287312B (zh) * 2019-05-10 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN110990451B (zh) * 2019-11-15 2023-05-12 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN112149418A (zh) * 2020-09-23 2020-12-29 西藏民族大学 一种基于词向量表示学习的中文分词方法及系统
CN113221557A (zh) * 2021-05-28 2021-08-06 中国工商银行股份有限公司 一种基于神经网络的数据贯标管理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462051B (zh) * 2013-09-12 2018-10-02 腾讯科技(深圳)有限公司 分词方法及装置
CN105701120B (zh) * 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
CN106484664B (zh) * 2016-10-21 2019-03-01 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106919673B (zh) * 2017-02-21 2019-08-20 浙江工商大学 基于深度学习的文本情绪分析系统

Also Published As

Publication number Publication date
CN107729322A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729322B (zh) 分词方法及装置、建立句子向量生成模型方法及装置
CN106557563B (zh) 基于人工智能的查询语句推荐方法及装置
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN107291684B (zh) 语言文本的分词方法和系统
CN106844368A (zh) 用于人机对话的方法、神经网络系统和用户设备
KR20170053527A (ko) 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
WO2019226954A1 (en) Training sequence generation neural networks using quality scores
CN111310440A (zh) 文本的纠错方法、装置和系统
CN110633360B (zh) 一种语义匹配的方法以及相关装置
JP2018206261A (ja) 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN104536979A (zh) 主题模型的生成方法及装置、主题分布的获取方法及装置
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
WO2019160096A1 (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN112100374A (zh) 文本聚类方法、装置、电子设备及存储介质
CN114722833B (zh) 一种语义分类方法及装置
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN105589843B (zh) 一种文本字串匹配方法及系统
CN116432608A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
JP6261669B2 (ja) クエリ校正システムおよび方法
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant