CN110348022A - 一种相似度分析的方法、装置、存储介质及电子设备 - Google Patents

一种相似度分析的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110348022A
CN110348022A CN201910650440.4A CN201910650440A CN110348022A CN 110348022 A CN110348022 A CN 110348022A CN 201910650440 A CN201910650440 A CN 201910650440A CN 110348022 A CN110348022 A CN 110348022A
Authority
CN
China
Prior art keywords
participle
vector
font
word
style characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910650440.4A
Other languages
English (en)
Inventor
孟昱先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shannon Huiyu Technology Co Ltd
Original Assignee
Beijing Shannon Huiyu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shannon Huiyu Technology Co Ltd filed Critical Beijing Shannon Huiyu Technology Co Ltd
Priority to CN201910650440.4A priority Critical patent/CN110348022A/zh
Publication of CN110348022A publication Critical patent/CN110348022A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种相似度分析的方法、装置、存储介质及电子设备,其中,该方法包括:获取待比较的第一文本和第二文本,以及第一分词和第二分词;确定第一分词中所包含的第一字在多种字体下的第一字图像,并确定第一字形向量;同理确定第二分词的第二字形向量;根据第一分词所包含的所有第一字的第一字形向量生成第一分词向量,同理生成第二分词向量;根据所有第一分词向量和所有第二分词向量确定第一文本与第二文本之间的相似度。通过本发明实施例提供的相似度分析的方法、装置、存储介质及电子设备,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性。

Description

一种相似度分析的方法、装置、存储介质及电子设备
技术领域
本发明涉及自然语言理解处理技术领域,具体而言,涉及一种相似度分析的方法、装置、存储介质及电子设备。
背景技术
随着自然语言理解处理技术的发展,出现了越来越多的文本处理需求,比如在文档复制检查、信息检索和机器翻译等场景需要判断两个文本是否相同。
传统判断两个文本是否相同的方法是基于语义相似度进行计算;例如基于词语共现信息得到词向量,再通过词向量进行语义相似度分析。虽然基于语义相似度的判断方法与人对自然语言的理解较为符合,但是该传统方法在判断一些含有罕见词的语句时,由于词语共现次数过少难以获取足够的信息,导致语义相似分析不准确。例如,“邓紫棋”和“邓紫琪”之间的语义相似度可能过低,容易将二者识别为不相关的词语。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种相似度分析的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种相似度分析的方法,包括:
获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;
确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;
根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;
根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
在一种可能的实现方式中,所述确定所述第一字图像的第一字形特征包括:
基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;
根据所述第一中间字形特征生成所述第一字图像的第一字形特征。
在一种可能的实现方式中,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。
在一种可能的实现方式中,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:
在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。
在一种可能的实现方式中,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;
在拼接的维度上对所述第一词形张量进行池化处理,生成M维的第一词形向量,并根据所述第一词形向量生成所述第一分词的第一分词向量。
在一种可能的实现方式中,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
确定所述第一分词的第一语义向量,根据所述第一语义向量以及所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量。
第二方面,本发明实施例还提供了一种相似度分析的装置,包括:
文本获取模块,用于获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;
字形向量生成模块,用于确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;
分词向量生成模块,用于根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;
相似度分析模块,用于根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
在一种可能的实现方式中,所述字形向量生成模块确定所述第一字图像的第一字形特征包括:
基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;
根据所述第一中间字形特征生成所述第一字图像的第一字形特征。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的相似度分析的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的相似度分析的方法。
本发明实施例上述第一方面提供的方案中,提取在相应字体下的字图像的字形特征,并结合多种字体下的字图像的字形特征综合确定每个字的字形特征,进而可以确定包含一个或多个字的分词的字形特征,并生成包含字形特征的分词向量,之后基于该分词向量即可判断两个分词或两个文本之间字形特征的相似度,判断二者是否相似。本实施例中结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性;尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种相似度分析的方法的流程图;
图2示出了本发明实施例所提供的相似度分析的方法中,卷积神经网络的一种结构示意图;
图3示出了本发明实施例所提供的一种相似度分析的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行相似度分析的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种相似度分析的方法,通过分词的字形特征来判断两个文本是否相同或相似。参见图1所示,该方法包括:
步骤101:获取待比较的第一文本和第二文本,并确定第一文本的第一分词和第二文本的第二分词。
本发明实施例中,第一文本和第二文本为两个需要比较相似度的文本。在获取到第一文本和第二文本后,即可分别对第一文本和第二文本进行分词处理,进而可以确定第一文本的第一分词和第二文本的第二分词;该分词处理过程具体可通过分词模型实现。其中,第一分词指的是第一文本的分词,第一分词的数量可以是多个;相应的,第二分词指的是第二文本的分词,第二分词的数量也可以是多个。例如,第一文本是“邓紫棋唱功怎么样”,第二文本是“邓紫琪唱功如何”,分词处理后分别为“邓紫棋唱功怎么样”和“邓紫琪唱功如何”,则“邓紫棋”、“唱功”、“怎么样”均为第一分词,“邓紫琪”、“唱功”、“如何”均为第二分词。此外,本领域技术人员可以理解,第一文本和第二文本也可以为分词后的文本,此时不需要分词处理过程即可以得到相应的第一分词和第二分词。
步骤102:确定第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定第一字图像的第一字形特征,根据第一字的多个第一字图像的第一字形特征生成第一字的第一字形向量;确定第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定第二字图像的第二字形特征,根据第二字的多个第二字图像的第二字形特征生成第二字的第二字形向量。
本发明实施例中,利用多种字体的字图像来生成包含字形特征的字形向量,为方便描述,本实施例中主要以第一分词为例展开说明。第一分词中可能包含一个字也可能包含多个字,本实施例中将第一分词中包含字称为“第一字”,该第一字在不同的字体下对应不同的写法,从而可以对应不同的图像,即第一字图像。例如,第一分词“邓紫棋”中的第一字“棋”在宋体、楷体、隶书等字体下对应不同的字形,从而可以将不同字体下的第一字“棋”的写法转换为图像,即第一字图像,该第一字图像可以为灰度图片,也可以为二值化的黑白图片。可选的,每个第一字图像是长为L、宽为W的数字张量,每个数字的取值范围为0~255。需要说明的是,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。
在确定第一字不同字体的第一字图像之后,即可提取出第一字图像中包含的字形特征,即第一字形特征。具体的,可以基于卷积神经网络提取字形特征,即将第一字图像作为卷积神经网络的输入,该卷积神经网络即可输出相应的第一字形特征。在确定每个字体下的第一字形特征之后,综合第一字的多个第一字形特征即可生成第一字的第一字形向量。其中,具体可以通过批归一化和全连接神经网络将同一个字的不同字体的字形特征融合到一起,生成综合多个字体的不同字形特征的第一字形向量,该第一字形向量可以更好地表示该第一字在不同字体下的字形特征。
同理,与生成第一字的第一字形向量相同,本实施例中也可以生成第二分词中第二字的字形向量,即第二字形向量。生成第二字形向量的过程与生成第一字形向量的过程基本相同,此处不做赘述。
步骤103:根据第一分词所包含的所有第一字的第一字形向量生成第一分词的第一分词向量,根据第二分词所包含的所有第二字的第二字形向量生成第二分词的第二分词向量。
本发明实施例中,由于第一分词中可能包含多个字,即包含多个第一字,此时需要结合第一分词中所包含的所有第一字的第一字形向量来生成第一分词向量。例如,第一分词“邓紫棋”包含3个第一字,分别为“邓”、“紫”、“棋”,此时需要结合三个第一字“邓”、“紫”、“棋”的第一字形向量来生成第一分词向量,该第一分词向量包含该第一分词中所有字的字形特征。同理,也可以根据第二分词所包含的所有第二字的第二字形向量生成第二分词的第二分词向量,此处不做赘述。
步骤104:根据第一文本的所有第一分词向量和第二文本的所有第二分词向量确定第一文本与第二文本之间的相似度。
本发明实施例中,由于第一分词向量包含第一分词中所有字的字形特征,第二分词向量包含第二分词中所有字的字形特征,基于该第一分词向量和第二分词向量即可判断第一分词与第二分词之间的相似度;进一步的,根据第一文本所有的第一分词向量和第二文本所有的第二分词向量可以确定第一文本与第二文本之间的相似度。例如,第一分词为“邓紫棋”,第二分词为“邓紫琪”,由于二者的字形相近,基于包含字形特征的第一分词向量和第二分词向量也可以认为二者的相似度较高。具体的,可以运用双边多角度匹配神经网络(Bilateral Multi-Perspective Matching,BiMPM)对两个文本的分词向量进行编码与匹配,最终得到两个文本含义相同的概率。
优选的,可以结合分词的字形特征和语义特征综合确定两个分词或两个文本之间的相似度。具体的,上述步骤103“根据第一分词所包含的所有第一字的第一字形向量生成第一分词的第一分词向量”包括:确定第一分词的第一语义向量,根据第一语义向量以及第一分词所包含的所有第一字的第一字形向量生成第一分词的第一分词向量。
本发明实施例中,利用第一分词所包含的所有第一字的第一字形向量可以生成包含第一分词字形特征的第一词形向量,结合该第一词形向量和第一语义向量即可生成第一分词向量。其中,第一语义向量为包含该第一分词的语义特征的向量,该第一语义向量具体可通过循环神经网络来确定,也可采用其他方式,获取分词的语义向量是现有的成熟技术,此处不做赘述。通过包含分词的字形特征和语义特征的分词向量,可以更加准确地判断两个分词或两个文本之间的相似度。
本发明实施例提供的一种相似度分析的方法,提取在相应字体下的字图像的字形特征,并结合多种字体下的字图像的字形特征综合确定每个字的字形特征,进而可以确定包含一个或多个字的分词的字形特征,并生成包含字形特征的分词向量,之后基于该分词向量即可判断两个分词或两个文本之间字形特征的相似度,判断二者是否相似。本实施例中结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性;尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。
在上述实施例的基础上,为了更好地提取字形特征,上述步骤102“确定第一字图像的第一字形特征”包括:
步骤A1:基于卷积神经网络的中间卷积层生成第一字图像的c×c×H的第一中间字形特征;卷积神经网络至少包含一个中间卷积层,中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为第一中间字形特征的深度。
步骤A2:根据第一中间字形特征生成第一字图像的第一字形特征。
本发明实施例中,基于卷积神经网络来提取字的字形特征,为了更好地提取出字形特征,本实施例中将字分为至少四部分来提取字形特征。具体的,该卷积神经网络中至少存在一个能够输出c×c×H向量的卷积层,即步骤A1中的中间卷积层,该中间卷积层可以提取出c×c个部分的特征。若c=2,则可以将字图像分割为四部分,从而可以捕捉该字在每个部分的字形特征。特别的,若该字为汉字,利用c×c×H的第一中间字形特征还可以捕捉汉字的偏旁部首信息。
可选的,上述步骤A1“基于卷积神经网络的中间卷积层生成第一字图像的c×c×H的第一中间字形特征”包括:基于H个1×1的卷积核,将中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。
本发明实施例中,卷积神经网络的中间卷积层的输入为c×c的向量,其中,该输入的深度可以为1,也可以为其他值,本实施例对此不做限定。该中间卷积层通过1×1的卷积核对输入向量进行卷积处理,从而可以输出c×c×H的向量,即第一中间字形特征。本实施例中通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。
需要说明的是,卷积神经网络每一层的输出本质上是向量或张量,即本实施例中的“第一字形特征”、“第一中间字形特征”等均可以用向量或张量的形式表示。
可选的,基于分组卷积的方式生成第一字形特征。具体的,上述步骤A2“根据第一中间字形特征生成第一字图像的第一字形特征”包括:
在深度方向上将第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的子字形特征进行卷积处理,并根据所有组的子字形特征的卷积处理结果生成第一字图像的第一字形特征,第一字形特征为1×1×K的向量,K为第一字形特征的深度。
本发明实施例中,在深度方向上将c×c×H的第一中间字形特征分为多组,分别对每组进行卷积处理,最后再基于所有的卷积处理结果组合生成第一字形特征。例如,在深度方向上将第一中间字形特征分为两组,两组的子字形特征分别为c×c×h1和c×c×h2,且h1+h2=H。之后即可基于相应的卷积核进行卷积处理。其中,为了生成1×1×K的第一字形特征,此时的卷积核可以为c×c的卷积核。采用分组卷积的方式生成第一字形特征,可以降低卷积神经网络模型的参数量,提高训练效率。
下面通过一个实施例详细介绍通过卷积神经网络确定第一字形特征的过程。
参见图2所示,图2示出了卷积神经网络的一种结构示意图。首先将长度为L、宽度为W的第一字图像输入至卷积神经网络中,之后经过卷积处理和池化处理可以在中间某个层输出c×c的向量,图2中以3×3卷积和最大池化为例说明。再之后,利用1×1的卷积核在中间卷积层进行卷积处理,从而生成c×c×H的第一中间字形特征,图2中以c=2为例说明,即第一中间字形特征为2×2×H的向量。最后通过分组卷积生成最终的第一字形特征,图2中以第一字形特征的深度K为4H为例说明,即第一字形特征为1×1×4H的向量。在确定每个第一字图像的第一字形特征之后,即可将同一个第一字的所有字体的第一字形特征融合在一起,生成综合多个字体的不同字形特征的第一字形向量。
本领域技术人员可以理解,基于同样的方式可以确定第二字的第二字形向量。即,上述步骤102“确定第二字图像的第二字形特征”包括:基于卷积神经网络的中间卷积层生成第二字图像的c×c×H的第二中间字形特征;卷积神经网络至少包含一个中间卷积层,中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为第二中间字形特征的深度。根据第二中间字形特征生成第二字图像的第二字形特征。
同样的,上述步骤“基于卷积神经网络的中间卷积层生成第二字图像的c×c×H的第二中间字形特征”包括:基于H个1×1的卷积核,将中间卷积层的c×c的输入向量转换为c×c×H的第二中间字形特征。
上述步骤“根据第二中间字形特征生成第二字图像的第二字形特征”包括:在深度方向上将第二中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的子字形特征进行卷积处理,并根据所有组的子字形特征的卷积处理结果生成第二字图像的第二字形特征,第二字形特征为1×1×K的向量,K为第二字形特征的深度。
其中,由于对于第一分词和第二分词,二者使用相同的卷积神经网络来提取字形特征,故二者的H和K相同,即,H是第一中间字形特征的深度,也是第二中间字形特征的深度;K同理。
在上述实施例的基础上,上述步骤103“根据第一分词所包含的所有第一字的第一字形向量生成第一分词的第一分词向量”包括:
步骤B1:对所有第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为第一字的个数,M为第一字形向量的深度。
本发明实施例中,第一字形向量是综合多个第一字形特征后所确定的向量,为方便理解,本实施例中以第一字形向量为1×1×M的向量为例说明,M即为第一字形向量的深度。由于第一分词中包含多个第一字,此时可以对第一分词中所有的第一字进行拼接处理,该拼接处理过程为沿着垂直于深度方向的方向进行拼接,即生成N×M的第一词形张量。若第一字形向量为1×1×M的向量,则该N×M的第一词形张量实际上为N×M的矩阵。可选的,第一字形向量与第一字形特征的结构相同,第一字形向量也是1×1×K的向量,即K=M。
步骤B2:在拼接的维度上对第一词形张量进行池化处理,生成M维的第一词形向量,并根据第一词形向量生成第一分词的第一分词向量。
本发明实施例中,将N×M的第一词形张量池化处理为M维的向量,即第一词形向量。其中,“拼接的纬度”指的是将N个第一字形向量进行拼接时的维度。例如,第一字形向量为1×1×M的向量,拼接后的张量为N×M的第一词形张量,该张量为N行M列的矩阵,相应的拼接的纬度是沿着列方向的维度,则在池化时将该N×M矩阵的每一列(共M列)作为一组进行池化处理,最终生成M维的第一词形向量。其中,该池化处理具体可以是最大池化处理。
同样的,基于与上述步骤B1-B2相似的过程,也可以确定第二分词的第二分词向量。具体的,上述步骤103“根据第二分词所包含的所有第二字的第二字形向量生成第二分词的第二分词向量”包括:
对所有第二字的第二字形向量进行拼接处理,生成N×M的第二词形张量,N为第二字的个数,M为第二字形向量的深度。在拼接的维度上对第二词形张量进行池化处理,生成M维的第二词形向量,并根据第二词形向量生成第二分词的第二分词向量。
本发明实施例提供的一种相似度分析的方法,提取在相应字体下的字图像的字形特征,并结合多种字体下的字图像的字形特征综合确定每个字的字形特征,进而可以确定包含一个或多个字的分词的字形特征,并生成包含字形特征的分词向量,之后基于该分词向量即可判断两个分词或两个文本之间字形特征的相似度,判断二者是否相似。本实施例中结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性;尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。通过包含分词的字形特征和语义特征的分词向量,可以更加准确地判断两个分词或两个文本之间的相似度。通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;利用c×c×H的向量可以有效提取字形特征;采用分组卷积的方式生成字形特征,可以降低卷积神经网络模型的参数量,提高训练效率。
以上详细介绍了相似度分析的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种相似度分析的装置,参见图3所示,包括:
文本获取模块31,用于获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;
字形向量生成模块32,用于确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;
分词向量生成模块33,用于根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;
相似度分析模块34,用于根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
在上述实施例的基础上,所述字形向量生成模块32确定所述第一字图像的第一字形特征包括:
基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;
根据所述第一中间字形特征生成所述第一字图像的第一字形特征。
在上述实施例的基础上,所述字形向量生成模块32基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。
在上述实施例的基础上,所述字形向量生成模块32根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:
在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。
在上述实施例的基础上,所述分词向量生成模块33根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;
在拼接的维度上对所述第一词形张量进行池化处理,生成M维的第一词形向量,并根据所述第一词形向量生成所述第一分词的第一分词向量。
在上述实施例的基础上,所述分词向量生成模块33根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
确定所述第一分词的第一语义向量,根据所述第一语义向量以及所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量。
本发明实施例提供的一种相似度分析的装置,提取在相应字体下的字图像的字形特征,并结合多种字体下的字图像的字形特征综合确定每个字的字形特征,进而可以确定包含一个或多个字的分词的字形特征,并生成包含字形特征的分词向量,之后基于该分词向量即可判断两个分词或两个文本之间字形特征的相似度,判断二者是否相似。本实施例中结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性;尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致判断不准确的缺陷。通过包含分词的字形特征和语义特征的分词向量,可以更加准确地判断两个分词或两个文本之间的相似度。通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;利用c×c×H的向量可以有效提取字形特征;采用分组卷积的方式生成字形特征,可以降低卷积神经网络模型的参数量,提高训练效率。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的相似度分析的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的相似度分析的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种相似度分析的方法,其特征在于,包括:
获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;
确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;
根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;
根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一字图像的第一字形特征包括:
基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;
根据所述第一中间字形特征生成所述第一字图像的第一字形特征。
3.根据权利要求2所述的方法,其特征在于,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:
在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
对所有所述第一字的第一字形向量进行拼接处理,生成N×M的第一词形张量,N为所述第一字的个数,M为所述第一字形向量的深度;
在拼接的维度上对所述第一词形张量进行池化处理,生成M维的第一词形向量,并根据所述第一词形向量生成所述第一分词的第一分词向量。
6.根据权利要求1-5任一所述的方法,其特征在于,所述根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量包括:
确定所述第一分词的第一语义向量,根据所述第一语义向量以及所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量。
7.一种相似度分析的装置,其特征在于,包括:
文本获取模块,用于获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;
字形向量生成模块,用于确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;
分词向量生成模块,用于根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;
相似度分析模块,用于根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
8.根据权利要求7所述的装置,其特征在于,所述字形向量生成模块确定所述第一字图像的第一字形特征包括:
基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;
根据所述第一中间字形特征生成所述第一字图像的第一字形特征。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的相似度分析的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任意一项所述的相似度分析的方法。
CN201910650440.4A 2019-07-18 2019-07-18 一种相似度分析的方法、装置、存储介质及电子设备 Pending CN110348022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650440.4A CN110348022A (zh) 2019-07-18 2019-07-18 一种相似度分析的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650440.4A CN110348022A (zh) 2019-07-18 2019-07-18 一种相似度分析的方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN110348022A true CN110348022A (zh) 2019-10-18

Family

ID=68178778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650440.4A Pending CN110348022A (zh) 2019-07-18 2019-07-18 一种相似度分析的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110348022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801217A (zh) * 2021-03-19 2021-05-14 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质
CN114004234A (zh) * 2020-07-28 2022-02-01 深圳Tcl数字技术有限公司 一种语义识别方法、存储介质及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN108509410A (zh) * 2017-02-27 2018-09-07 广东神马搜索科技有限公司 文本语义相似度计算方法、装置及用户终端
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509410A (zh) * 2017-02-27 2018-09-07 广东神马搜索科技有限公司 文本语义相似度计算方法、装置及用户终端
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004234A (zh) * 2020-07-28 2022-02-01 深圳Tcl数字技术有限公司 一种语义识别方法、存储介质及终端设备
CN112801217A (zh) * 2021-03-19 2021-05-14 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质
CN112801217B (zh) * 2021-03-19 2021-07-06 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质

Similar Documents

Publication Publication Date Title
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
JP7193252B2 (ja) 画像の領域のキャプション付加
CN113627482B (zh) 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN108154167A (zh) 一种汉字字形相似度计算方法
CN110362832B (zh) 一种段落合并的方法、装置、存储介质及电子设备
CN108509427A (zh) 文本数据的数据处理方法及应用
CN115860006B (zh) 一种基于语义句法的方面级情感预测方法及装置
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN110489424A (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
Huang Deep paper gestalt
CN108334910A (zh) 一种事件检测模型训练方法以及事件检测方法
CN111182367A (zh) 一种视频的生成方法、装置及计算机系统
CN110232123A (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN105809090A (zh) 一种人脸性别特征提取的方法及系统
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN110348022A (zh) 一种相似度分析的方法、装置、存储介质及电子设备
Fang et al. Image captioning with word level attention
CN110929640A (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN116958957A (zh) 多模态特征提取网络的训练方法及三维特征表示方法
CN114003758A (zh) 图像检索模型的训练方法和装置以及检索方法和装置
Kaddoura A Primer on Generative Adversarial Networks
US20210374490A1 (en) Method and apparatus of processing image, device and medium
CN110020638A (zh) 人脸表情识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018

RJ01 Rejection of invention patent application after publication