CN112632971A - 一种用于实体匹配的词向量训练方法与系统 - Google Patents
一种用于实体匹配的词向量训练方法与系统 Download PDFInfo
- Publication number
- CN112632971A CN112632971A CN202011503759.3A CN202011503759A CN112632971A CN 112632971 A CN112632971 A CN 112632971A CN 202011503759 A CN202011503759 A CN 202011503759A CN 112632971 A CN112632971 A CN 112632971A
- Authority
- CN
- China
- Prior art keywords
- entity
- type
- sampling
- attribute
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于实体匹配的词向量训练方法与系统,所述方法包括:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;将第一实体集合和第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,将采样的结果加入到训练样本集合中;将相同类别型属性的值进行合并、计数和采样,将采样的结果加入到训练样本集合中;将所有文本属性的属性值作为单独的样本加入到训练样本集合中;将每个实体的所有属性值拼接起来作为单独的样本加入到训练样本集合中;通过训练样本集合训练词向量。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用于实体匹配的词向量训练方法与系统。
背景技术
目前,各种各样的领域都在产生着大量的数据,例如电商、社交、出行、餐饮等等。这些数据中包含着大量有价值的信息,这些信息可以帮助企业提升运行效率、改善用户体验。但是,在大数据时代如何更好的利用这些数据面临着一个巨大的挑战,那就是多源数据集成。由于各个企业,甚至是同一企业的各个部门均会按照自己的需求来建立独立的数据库,而这些数据库之间很可能会存在冗余的信息。因此,将多个不同来源、不同形式的数据库集成在一起,提供统一的数据视图有着重要的价值。
在数据集成的领域中存在着一个重要的问题,称为实体匹配(Entity Matching)或者实体消解(Entity Resolution)。实体匹配的目标是确定数据库中的两个实体是否指向现实世界中的同一实体。例如:给定两个实体,分别为实体1(姓名:张三,年龄:30,住址:北京市朝阳区,职业:程序员)、实体2(姓名:张三,年龄:31,住址:北京市海淀区,职业:程序员)。那么实体1和实体2是否指的是同一个人呢?这就是实体匹配面临的问题。
在自然语言处理领域,数字不是十分常见且通常也不会显著的影响各类自然语言处理任务。但是在实体匹配领域,通常会包含许多的数值列,这些列中的数字有可能极大的影响匹配结果。例如两个产品的价格如果相差极大,那么不论这些产品的其他信息如何的相近,其很大概率都不是同一款产品。目前的词向量方法并不能有效的提供数字的向量表示。举例来说,与数字“1”词向量最相近的词向量是数字“11”,而不是数字“2”。显然,这样的词向量很难为实体匹配提供帮助,甚至还会影响实体匹配的结果。
另外,在实体匹配中存在着许多列,其保存的信息只是较短的单词,例如姓名、产品品牌等,这里将这些词统称为类别词。这些单词有一个明显的特征,即其表示的形式和内容与其所在的列具有相当大的相关性。目前的词向量训练方法并没有将这部分的信息考虑进来。
发明内容
本发明针对现有技术的不足,提出一种用于实体匹配的词向量训练方法与系统。
第一方面,本申请实施例提供了一种用于实体匹配的词向量训练方法,包括:
属性类型划分步骤:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成步骤:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成步骤:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练步骤:通过所述训练样本集合训练词向量。
上述用于实体匹配的词向量训练方法,其中,所述数值型样本生成步骤包括:
数值型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成步骤:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样步骤:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加步骤:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
上述用于实体匹配的词向量训练方法,其中,所述序列采样步骤中还包括:所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
上述用于实体匹配的词向量训练方法,其中,所述类别型样本生成步骤包括:
类别型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数步骤:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样步骤:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加步骤:将所述集合转换为文本并加入所述训练样本集合中。
上述用于实体匹配的词向量训练方法,其中,所述类别型样本生成步骤还包括:若样本数没有达到用户指定值,则返回所述类别采样步骤,直至样本数达到用户指定值。
第二方面,本申请实施例提供了一种用于实体匹配的词向量训练系统,包括:
属性类型划分模块:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成模块:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成模块:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成模块:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成模块:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练模块:通过所述训练样本集合训练词向量。
上述用于实体匹配的词向量训练系统,其中,所述数值型样本生成模块包括:
数值型属性合并单元:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成单元:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样单元:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加单元:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
上述用于实体匹配的词向量训练系统,其中,所述序列采样单元中还包括:所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
上述用于实体匹配的词向量训练系统,其中,所述类别型样本生成模块包括:
类别型属性合并单元:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数单元:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样单元:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加单元:将所述集合转换为文本并加入所述训练样本集合中。
上述用于实体匹配的词向量训练系统,其中,所述类别型样本生成模块还包括:若样本数没有达到用户指定值,则返回所述类别采样单元,直至样本数达到用户指定值。
与现有技术相比,本发明的优点和积极效果在于:
1.本发明将实体属性分为数值型、类别型和文本型,并针对不同类型的属性提出了对应的样本生成方法,从而改善了词向量中数字的表示,从而使数学上相近的数字,其词向量同样相近;同时改善了像品牌、姓名这种类别属性中的类别词的表示。
2.本发明在改善词向量中的数字和类别词的表示的基础上,不影响其他词的向量表示,最终结合多种方法生成的样本进行词向量训练,提升了实体匹配模型的准确率。
附图说明
图1为本发明提供的一种用于实体匹配的词向量训练方法的步骤示意图;
图2为本发明提供的基于图1中步骤S2的流程图;
图3为本发明提供的基于图1中步骤S3的流程图;
图4为本发明提供的一种用于实体匹配的词向量训练方法一实施例流程示意图;
图5为本发明提供的数值型数据的样本生成示例;
图6为本发明提供的类别型数据的样本生成示例;
图7为本发明提供的一种用于实体匹配的词向量训练系统的框架图;
其中,附图标记为:
11、属性类型划分模块;12、数值型样本生成模块;121、数值型属性合并单元;122、序列生成单元;123、序列采样单元;124、序列添加单元;13、类别型样本生成模块;131、类别型属性合并单元;132、计数单元;133、类别采样单元;134、文本添加单元;14、文本型样本生成模块;15、实体样本生成模块;16、词向量训练模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明将实体的属性划分为数值型、类别型和文本型三种类型,针对不同类型的属性提出了对应的样本生成方法,最终结合多种方法生成的样本进行词向量训练。
现有的实体匹配技术中最常见的方法是基于词向量的深度学习模型。这种方法的核心包含两个部分:(a)使用词向量对实体进行表示;(b)使用深度模型来学习实体间的两两匹配关系。本发明主要是针对(a)的改进,因此这里对现有的词向量技术进行简要的介绍。
(1)预训练词向量技术
预训练词向量是自然语言处理中一项重要且基础的技术,该技术的目标是将自然语言中的单词转换成一个向量,并使该向量中包含一定的语法及语义信息,这样就可以将单词间的语义相似性转换为可以使用数学计算的向量相似性。举例来说,如果使用“v(单词)”来表示某个单词的词向量,那么在大规模语料上获得的词向量应该满足等式,v(国王)-v(女王)≈v(男性)-v(女性)。上述等式表明了一个语义的信息,即国王与女王的差别与男性和女性的差别比较接近。
最常见的词向量训练工具是Word2Vec,其主要包含了CBOW和Skip-Gram两种词向量的训练方式。无论是CBOW还是Skip-Gram,其核心思想是一个单词的含义由包围该单词的上下文来决定的。
(2)实体匹配中的预训练词向量技术
在实体匹配任务中,通常有两种使用词向量的方法。
第一种方法是直接使用由大规模外部语料训练出的词向量。由于训练这类词向量的语料通常覆盖的范围广且规模大,因此这些词向量往往能够更加精准的表示常见词的含义,提高实体匹配的效果。
第二种方法是使用本地语料训练词向量。在一些领域性比较强的实体匹配任务中,使用外部语料训练的词向量常常效果不是很好,例如产品信息匹配。这主要是因为存在着许多没有词向量的单词,即Out-of-Vocabulary的问题。所以,在这类实体匹配任务中需要使用本地语料来训练词向量。这种方法会将实体直接转换为一条文本,然后按文本的方式来训练词向量。例如:给定一个实体:
那么这个实体对应的文本为:
“智能手机200XYZ这是一款2020年推出的新款手机。500”
这样就能将所有的实体转换为文本,进而获得本地词向量。
实施例一:
参照图1所示,图1为本发明提供的一种用于实体匹配的词向量训练方法的步骤示意图。如图1所示,本实施例揭示了一种用于实体匹配的词向量训练方法(以下简称“方法”)的具体实施方式。
具体而言,本实施例所揭示的方法主要包括以下步骤:
首先,给定两个实体集合,第一实体集合和第二实体集合,且第一实体集合和第二实体集合中的实体具有相同的属性。同时,给定一个初始化为空的训练样本集合。
步骤S1:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合。
具体而言,数值型属性是指那些属性值为数字且两两可以进行大小比较的属性;类别型属性是指那些属性值长度较短且具有固定格式的属性,例如品牌、姓名等;文本型属性是指那些属性值长度不确定且没有固定格式的属性,例如产品描述等。
然后参照图2,执行步骤S2:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中。
其中,步骤S2具体包括以下内容:
步骤S21:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并。
步骤S22:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列。
步骤S23:对所有的所述序列分别进行一种基于滑动窗口的采样。
步骤S24:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
具体而言,所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束,将对所有有序序列采样的结果均加入到训练样本集合中。
然后参照图3,执行步骤S3:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中。
其中,步骤S3具体包括以下内容:
步骤S31:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并。
步骤S32:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数。
步骤S33:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合。
步骤S34:将所述集合转换为文本并加入所述训练样本集合中。
具体而言,将第一实体集合和第二实体集合中相同类别型属性的值进行合并,合并过程与步骤S21类似。在进行计数的过程中,例如对于产品信息中的品牌属性,那么统计的便是各类品牌的出现次数。
若最后得到的样本数没有达到用户指定值,则返回所述步骤S33,直至样本数达到用户指定值。
然后执行步骤S4:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中。
步骤S5:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中。
最后执行步骤S6:通过所述训练样本集合训练词向量。
本发明中不涉及具体的词向量训练算法,所有可以用于训练词向量的算法均可以用于训练本发明中的词向量。这些算法包括但不限于:skip-gram、CBOW、fastText等。
以下,请参照图4至图6。图4为本发明提供的一种用于实体匹配的词向量训练方法一实施例流程示意图,结合图4,具体说明本方法的应用流程如下:
首先,给定两个实体集合D和D',且D和D'中的实体具有相同的属性{A1,...,An},其中n表示属性的数量。D[Ai]表示实体集合D在属性Ai上的所有取值。S表示训练样本集合,其初始化为空。整个发明分为几个步骤:
步骤1.属性类型划分
将所有属性{A1,...,An}人工分类为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,最终得到数值型属性集合N={A11,...,A1i}、类别型属性集合C={A21,...,A2j}和文本型属性集合T={A31,...,A3k},其中i+j+k=n。
步骤2.数值型属性的样本生成
步骤2.1:将实体集合D和D'中相同数值型属性的值进行合并,即D[A11]与D'[A11]合并为D”[A11]、D[A12]与D'[A12]合并为D”[A12]、以此类推直至D[A1i]与D'[A1i]合并为D”[A1i]。
步骤2.2:对合并后的数值型属性进行去重和排序,得到i个有序的序列{a1,...,ai}。例如,对于合并后的属性D”[A11]进行去重和排序后,得到有序序列a1=[a1,1,a1,2,...,a1,m],其中a1,1≤a1,2≤...≤a1,m。
步骤2.3:对所有的有序序列{a1,...,ai}分别进行一种基于滑动窗口的采样。这里以有序序列a1=[a1,1,a1,2,...,a1,m]举例,假设滑动窗口的长度为p=10,每次窗口移动的距离q=5,那么采样得到的样本为[a1,1,a1,2,...,a1,10],[a1,5,a1,6,...,a1,15],[a1,10,a1,11,...,a1,20],…,直至窗口移动到整个有序序列的末尾。
步骤2.4:将对所有有序序列采样的结果均加入到训练样本集合S中。
步骤3.类别型属性的样本生成
步骤3.1:将实体集合D和D'中相同类别型属性的值进行合并(类似步骤2.1);
步骤3.2:对合并后的类别型属性的值进行计数,统计各个类别出现的次数。例如对于产品信息中的品牌属性,统计各类品牌的出现次数;
步骤3.3:将类别出现的次数作为权重进行不放回采样,获得r个类别组成的集合,将该集合转换为文本并加入训练样本集S中;
步骤3.4:重复t次步骤3.3,其中次数t由用户指定。
步骤4.文本型属性的样本生成
将所有文本属性的属性值作为单独的样本加入到训练样本集S中。
步骤5.实体作为样本进行生成
将每个实体的所有属性值拼接起来作为单独的样本加入到训练样本集S中。
步骤6.训练词向量
使用最终的训练样本集S来训练词向量。
图4以流程图的形式展示了本发明的主要步骤。图5和图6分别展示了数值型属性和类别型属性生成样本的例子。
实施例二:
结合实施例一所揭示的一种用于实体匹配的词向量训练方法,本实施例揭示了一种用于实体匹配的词向量训练系统(以下简称“系统”)的具体实施示例。
参照图7所示,所述系统包括:
属性类型划分模块11:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成模块12:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成模块13:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成模块14:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成模块15:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练模块16:通过所述训练样本集合训练词向量。
具体而言,所述数值型样本生成模块12包括:
数值型属性合并单元121:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成单元122:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样单元123:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加单元124:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
具体而言,在序列采样单元123中,所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
具体而言,所述类别型样本生成模块13包括:
类别型属性合并单元131:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数单元132:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样单元133:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加单元134:将所述集合转换为文本并加入所述训练样本集合中。
具体而言,所述类别型样本生成模块13还包括:若样本数没有达到用户指定值,则返回所述类别采样单元133,直至样本数达到用户指定值。
本实施例所揭示的一种用于实体匹配的词向量训练系统与实施例一所揭示的一种用于实体匹配的词向量训练方法中其余相同部分的技术方案,请参照实施例一所述,在此不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本发明将实体属性分为数值型、类别型和文本型,并针对不同类型的属性提出了对应的样本生成方法,从而改善了词向量中数字和类别词的表示。而且在改善词向量中的数字和类别词的表示的基础上,不影响其他词的向量表示,最终结合多种方法生成的样本进行词向量训练,提升了实体匹配模型的准确率。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用于实体匹配的词向量训练方法,其特征在于,包括:
属性类型划分步骤:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成步骤:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成步骤:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练步骤:通过所述训练样本集合训练词向量。
2.根据权利要求1所述的用于实体匹配的词向量训练方法,其特征在于,所述数值型样本生成步骤包括:
数值型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成步骤:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样步骤:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加步骤:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
3.根据权利要求2所述的用于实体匹配的词向量训练方法,其特征在于,所述序列采样步骤中还包括:所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
4.根据权利要求1所述的用于实体匹配的词向量训练方法,其特征在于,所述类别型样本生成步骤包括:
类别型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数步骤:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样步骤:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加步骤:将所述集合转换为文本并加入所述训练样本集合中。
5.根据权利要求4所述的用于实体匹配的词向量训练方法,其特征在于,所述类别型样本生成步骤还包括:若样本数没有达到用户指定值,则返回所述类别采样步骤,直至样本数达到用户指定值。
6.一种用于实体匹配的词向量训练系统,其特征在于,包括:
属性类型划分模块:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成模块:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成模块:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成模块:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成模块:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练模块:通过所述训练样本集合训练词向量。
7.根据权利要求6所述的用于实体匹配的词向量训练系统,其特征在于,所述数值型样本生成模块包括:
数值型属性合并单元:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成单元:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样单元:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加单元:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
8.根据权利要求7所述的用于实体匹配的词向量训练系统,其特征在于,所述序列采样单元中还包括:所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
9.根据权利要求6所述的用于实体匹配的词向量训练系统,其特征在于,所述类别型样本生成模块包括:
类别型属性合并单元:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数单元:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样单元:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加单元:将所述集合转换为文本并加入所述训练样本集合中。
10.根据权利要求9所述的用于实体匹配的词向量训练系统,其特征在于,所述类别型样本生成模块还包括:若样本数没有达到用户指定值,则返回所述类别采样单元,直至样本数达到用户指定值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011503759.3A CN112632971B (zh) | 2020-12-18 | 2020-12-18 | 一种用于实体匹配的词向量训练方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011503759.3A CN112632971B (zh) | 2020-12-18 | 2020-12-18 | 一种用于实体匹配的词向量训练方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632971A true CN112632971A (zh) | 2021-04-09 |
CN112632971B CN112632971B (zh) | 2023-08-25 |
Family
ID=75316983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011503759.3A Active CN112632971B (zh) | 2020-12-18 | 2020-12-18 | 一种用于实体匹配的词向量训练方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632971B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190527A1 (zh) * | 2016-05-06 | 2017-11-09 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
US20220198287A1 (en) * | 2019-04-30 | 2022-06-23 | Siemens Aktiengesellschaft | Classification model for controlling a manufacturing process |
-
2020
- 2020-12-18 CN CN202011503759.3A patent/CN112632971B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190527A1 (zh) * | 2016-05-06 | 2017-11-09 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
US20220198287A1 (en) * | 2019-04-30 | 2022-06-23 | Siemens Aktiengesellschaft | Classification model for controlling a manufacturing process |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
苏静;袁小群;王星;: "国外面向用户的科技出版平台构建要素与展望", 科技管理研究, no. 17 * |
Also Published As
Publication number | Publication date |
---|---|
CN112632971B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255031B (zh) | 基于知识图谱的数据处理方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN112036177A (zh) | 基于多模型融合的文本语义相似度信息处理方法及系统 | |
CN108073576A (zh) | 智能搜索方法、搜索装置以及搜索引擎系统 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN113159187A (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |