CN106066856A

CN106066856A - 一种基于编辑距离以及词频和词向量的实体关系识别方法

Info

Publication number: CN106066856A
Application number: CN201610349298.6A
Authority: CN
Inventors: 段大高; 赵宁; 韩忠明
Original assignee: Beijing Technology and Business University
Current assignee: HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2016-11-02
Anticipated expiration: 2036-05-24
Also published as: CN106066856B

Abstract

本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法：步骤一：获取文本数据；步骤二：采用分词软件进行分词，对分词后的文本进行每个词个数的统计；步骤三：调整词向量的维数、窗口大小，进行词向量的训练；步骤四：利用训练好的词向量，对词进行聚合；步骤五：对步骤四中获得的实体进行编辑距离的计算，结合步骤一中得到的词频，进而得到给定实体词的别名或简称；基于编辑距离，在步骤四的基础上，计算给定实体词到其它实体的d_[i,j]值，结合步骤一获取每个实体词的个数；经加权平均得到G(X)，即：获取给定实体词的前n个最可能的简称，通过比重可以看出其关系强度，便可得到给定实体词的别名或简称。

Description

一种基于编辑距离以及词频和词向量的实体关系识别方法

技术领域

本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法，它应用于WEB数据挖掘、实体识别，搜索引擎等方面，属于数据挖掘技术领域。

背景技术

当今社会，随着科技的迅速发展，特别是互联网技术的发展，人民生活水平的提高，使用互联网的人群越来越多，随之而来的就是搜索引擎的到来，但是以往的搜索体验并不是很好，特别是对于非专业人士，以及娱乐活动不是很多的群众，往往在搜索引擎中搜索的并不是自己想要的东西，但这种东西在广大群体中，是被广为流传的，随之面临的问题便是，搜索引擎对于实体的识别以及关系的建立，其目的就是让系统知道用户检索的实体别名信息，反馈的都是一种其全称信息，增强了系统的健壮性。

实体识别以及关系的建立，在一定程度上，提高了系统的效率，并极大的提高了用户的搜索体验，在实际生活中，往往搜索的都是答非所问，其原因大都是因为，系统未能将实体联系起来，本发明主要解决根据中文组织机构名对公司名称以及公司所对应的简称进行识别问题，结果表明，本发明能获得很好的效果。

发明内容

1、目的：为了识别出实体的其他别名、缩略名，在搜索引擎中检索出自己最想要的信息，提出了一种基于编辑距离以及词频和词向量的实体关系识别方法。

本发明的原理是：首先进行自然语言的处理，获取分词结果并统计词频，就是对每个实体在文本中出现的次数进行统计并记录下来，根据分词的结果，基于词的上下文训练词向量，在得到词向量的基础上，对获取的词向量进行聚合操作，得到词向量上最近的m个实体，基于分词以及词在文本中出现次数的基础上,对m个实体,通过计算给定实体与文本中的其他实体之间的编辑距离以及词频，最终获得与给定实体关系最强的实体即给定实体的别名或简称，以及在得知别名的情况下获取实体的全称信息，随着信息的不断融入，进而得到给定实体的其他信息。

2、技术方案：本发明提供的技术方案如下：

本发明是一种基于编辑距离以及词频和词向量的实体关系识别方法，该方法具体步骤如下：

步骤一：获取文本数据。

步骤二：采用分词软件进行分词，基于分词的基础上，对分词后的文本进行每个词个数的统计，并记录下来。

步骤三：采用Google的word2vec模型，调整词向量的维数、窗口大小，进行词向量的训练，窗口大小即在一句话中给定实体词的前后几个词，它是基于词的上下文训练方法。经过word2vec训练后的每个词向量为如下形式：

w_m(v_m1,v_m2,v_m3,v_m4,……,v_mn)

其中，w表示文本中的词，m表示词的序号，v表示w的词向量，1,2…n：表示词向量的维数，可以根据需要，设置词向量的维数，即设置n的值，本文训练的词向量采用400维，即n＝400。

步骤四：利用训练好的词向量，对词进行聚合，即获取给定实体词，在词向量上分别计算到其它实体的距离，根据距离，进而得到距离给定实体词关系最近的实体，其目的在于增强了实体关系的抽取，本文采用在获取词向量的基础上，:

先获取离给定实体词W_E最近的x个实体:

实体词W_E:W_E(v_E1,v_E2,v_E3,v_E4,....,v_En)

实体词w₁:w₁(v₁₁,v₁₂,v₁₃,v₁₄,....,v_1n)

x₁＝(v_E1-v₁₁),x₂＝(v_E2-v₁₂),x₃＝(v_E3-v₁₃),…,x_m＝(v_En-v_1n) (1)

d i s = \sqrt[2]{{x_{1}}^{2} + {x_{2}}^{2} + {x_{3}}^{2} + {x_{4}}^{2} + ... + {x_{m}}^{2}} - - - (2)

其中，x₁表示词向量在第一维的分量差，dis表示W_E与w₁在词向量上的距离，依次迭代计算公式(1)与公式(2),获取最近的x个实体，本文x取100:

实体词w₁:w₁(v₁₁,v₁₂,v₁₃,v₁₄,....,v_1n)

实体词w₂:w₂(v₂₁,v₂₂,v₂₃,v₂₄,....,v_2n)

实体词w₃:w₂(v₃₁,v₃₂,v₃₃,v₃₄,....,v_3n)

实体词w_x:w_x(v_x1,v_x2,v_x3,v_x4,....,v_xn)

步骤五：对步骤四中获得的实体进行编辑距离的计算，结合步骤一中得到的词频，进而得到给定实体词的别名或简称，其编辑距离主要公式如下：

d_{[i, j]} = \{\begin{matrix} 0 & i = 0 o r j = 0 \\ \min (d_{[i - 1, j]} + 1, d_{[i, j - 1]} + 1, d_{[i - 1, j - 1]}) & x_{i} = y_{j} \\ \min (d_{[i - 1, j]} + 1, d_{[i, j - 1]} + 1, d_{[i - 1, j - 1]} + 1) & x_{i} &NotEqual; y_{j} \end{matrix}

其中d_[i-1,j]+1代表给定实体词插入一个字符，d_[i,j-1]+1代表给定实体词删除一个词，然后当x_i＝y_j时，不需要代价，所以和上一步d_[i-1,j-1]代价相同，否则+1，接着d_[i,j]是以上三者中最小的一项。基于编辑距离，在步骤四的基础上，计算给定实体词到其它实体的d_[i,j]值，结合步骤一获取每个实体词的个数。

经加权平均得到G(X)，即：获取给定实体词的前n个最可能的简称，通过比重可以看出其关系强度，便可得到给定实体词的别名或简称：

G(X)＝(sort(f(dis_x1/x₁count),f(dis_x2/x₂count),f(dis_x3/x₃count)……f(dis_xn/x_ncount)))

sort:表示排序，从小到大排序。

dis_x1:表示给定实体词变换到实体x₁的编辑距离。

x_mcount:表示实体x_m在文中所出现的次数。

f(dis_x1/x₁count)：表示给定实体词对实体x₁的比重，换句话，就是说实体x₁，是给定实体词简称的可能性大小，值越小表示可能性越大。

3、优点及功效：本发明所提供的一种基于编辑距离以及词频和词向量的实体关系识别方法，它在大数据量的情况下，能够自动、快速、有效的进行实体识别并建立关系，进而获得实体相关信息；并且通过一定数量的样本学习之后，可以将该模型部署到搜索引擎以及影视行业，能够更快、准确的对用户输入实体简称进行有效的识别，极大的提高了系统的识别率，在一定程度上提升了用户的体验。

附图说明

图1所示为本发明方法的流程图。

图中符号说明如下：

K:表示给定实体名，根据距离公式，获得与该实体在词向量上最近的x个实体w₁,w₂,..,w_x：表示通过计算获得的实体词

具体实施方式

见图1，本发明一种基于词频编辑距离的实体关系识别方法，其具体实施步骤:

步骤一：抽取百度百科中的文本信息如：中博传媒有限公司

中博传媒有限公司，通常简称中博传媒，是中国第一家成功获得美国国际数据集团技术创业投资基金和新媒体基金(IDGVC、IDG NEW MEDIA)、鼎辉投资王功权先生、运时投资等风险投资的影视公司。

公司名称中博传媒有限公司成立时间1999年简称中博传媒投资发行《英雄》、《十面埋伏》成就唯一三次获得法国戛纳电影节大奖

1简介

2发展简史

3获得荣誉

简介编辑

中博传媒有限公司是中国第一批取得影视制作特许资质，专业从事影视投资、制作与发行，以及新媒体内容制作、传播与互动了大量颇具影响力的影视作品。

发展简史编辑

自1999年成立以来，公司投资制作的电影《危险关系》入选2012年第65届戛纳电影节导演双周单元、2012年第37届多伦多电影节主展映单元及2012年第17届釜山国际电影节GALA大师单元；投资制作的电影《成都，我爱你》获邀成为2009年第66届威尼斯电影节闭幕电影，的传媒公司。十年来，中博传媒率先在中国影视界确立国际化运营目标，立足中国本土，着力拓展亚洲电影市场，发行、投资制作并入选第14届釜山国际电影节GALA大师单元及第22届东京国际电影节亚洲之风单元；投资制作的电影《鬼子来了》获2000年第53届戛纳电影节评委会大奖；投资制作的韩国电影《哭泣的拳头》获2005年第58届戛纳电影节国际评论家协会奖；中博传媒是目前中国唯一三次获得法国戛纳电影节大奖的传媒机构。

中博传媒还投资发行了张艺谋电影《英雄》、《十面埋伏》、《满城尽带黄金甲》、《三枪拍案惊奇》、《山楂树之恋》，以及陈凯歌电影《无极》等众多国内大片；

中博传媒是中国第一家进入韩国本土电影市场的传媒企业，多年来在韩国进行影视投资、制作与发行。投资制作发行的韩国电影《外出》、《哭泣的拳头》、《食客》、《喜马拉雅》等，在韩国已累计超过10个亿人民币的票房收入，是韩国电影市场最大的华语电影发行商。中博传媒同时还联合韩国三大电视台(SBS、KBS、MBC)共同投资制作发行了多部中韩合作电视剧，开创了中韩合拍电视剧的先河。为中韩影视文化的交流贡献自己的力量。

2011年中博传媒签约韩国著名导演郭在容、许秦豪，成立韩国导演工作室，将韩国等亚洲因素引入电影制作，突出中博传媒亚洲电影的优势。自2011年起，每年将发行、投资、制作一部投资过亿的商业大片。

立足中国，辐射亚洲及全球，中博传媒致力成为亚洲最具竞争力的传媒机构。

步骤二：根据抽取百度百科中的文本信息，进行分词并做词频统计:

中博传媒有限公司通常简称中博传媒是中国第一家成功获得美国国际数据集团技术创业投资基金和新媒体基金鼎辉投资王功权先生运时投资等风险投资的影视公司成立时间简称中博传媒投资发行英雄十面埋伏成就唯一三次获得法国戛纳电影节大奖目录中博传媒是中国第一批取得影视制作特许资质专业从事影视投资制作与发行以及新媒体内容制作传播与互动了大量颇具影响力的影视作品发展简史编辑自成立以来公司投资制作的电影危险关系入选第届戛纳电影节导演双周单元年第届多伦多电影节主展映单元及年第届釜山国际电影节大师单元投资制作的电影成都我爱你获邀成为年第届威尼斯电影节闭幕电影的传媒公司十年来中博传媒率先在中国影视界确立国际化运营目标立足中国本土着力拓展亚洲电影市场发行投资制作并入选第届釜山国际电影节大师单元及第届东京国际电影节亚洲之风单元投资制作的电影鬼子来了获年第届戛纳电影节评委会大奖投资制作的韩国电影哭泣的拳头获第届戛纳电影节国际评论家协会奖中博传媒是目前中国唯一三次获得法国戛纳电影节大奖的传媒机构中博传媒还投资发行了张艺谋电影英雄十面埋伏满城尽带黄金甲三枪拍案惊奇山楂树之恋以及陈凯歌电影无极等众多国内大片中博传媒是中国第一家进入韩国本土电影市场的传媒企业多年来在韩国进行影视投资制作与发行投资制作发行的韩国电影外出哭泣的拳头食客喜马拉雅在韩国已累计超过人民币的票房收入是韩国电影市场最大的华语电影发行商中博传媒同时还联合韩国三大电视台共同投资制作发行了多部中韩合作电视剧开创了中韩合拍电视剧的先河中博传媒为中韩影视文化的交流贡献自己的力量年中博传媒签约韩国著名导演郭在容许秦豪成立韩国导演工作室将韩国等亚洲因素引入电影制作突出中博传媒亚洲电影的优势自年起每年将发行投资制作一部投资过亿的商业大片立足中国辐射亚洲及全球中博传媒致力成为亚洲最具竞争力的传媒机构

其对应分词的词频统计:

步骤三：根据word2vec对分词后的文本进行词向量的训练，其中维数设置为400，窗口大小设置为8:

训练后对应的词向量为(400维)：

步骤四：根据训练的词向量以公司名为中心，获取离中心距离最近的100个词:

中博传媒媒体中国短片作品中博之夜导演发行釜山传媒影视市场中博传媒有限公司韩国国际公司协会俄罗斯海参崴颁发第一个主办方及第新浪网多伦多台北电影风险投资十年交易……

步骤五：基于步骤一以及步骤四，对给定实体——中博传媒有限公司，计算给定实体与文本中其他实体的基于词频的编辑距离：

其中最可能的简称比重：0-100,其数值表示与中博传媒关系最近的实体，即本文要找到的实体，其关系强度依次递减。

Claims

1.一种基于编辑距离以及词频和词向量的实体关系识别方法，该方法具体步骤如下：

步骤一：获取文本数据；

步骤二：采用分词软件进行分词，基于分词的基础上，对分词后的文本进行每个词个数的统计，并记录下来；

步骤三：采用Google的word2vec模型，调整词向量的维数、窗口大小，进行词向量的训练，窗口大小即在一句话中给定实体词的前后几个词，它是基于词的上下文训练方法；经过word2vec训练后的每个词向量为如下形式：

w_m(v_m1,v_m2,v_m3,v_m4,……,v_mn)

其中，w表示文本中的词，m表示词的序号，v表示w的词向量，1,2…n：表示词向量的维数，可以根据需要，设置词向量的维数，即设置n的值；

步骤四：利用训练好的词向量，对词进行聚合，即获取给定实体词，在词向量上分别计算到其它实体的距离，根据距离，进而得到距离给定实体词关系最近的实体，

先获取离给定实体词W_E最近的x个实体:

实体词W_E:W_E(v_E1,v_E2,v_E3,v_E4,....,v_En)

实体词w₁:w₁(v₁₁,v₁₂,v₁₃,v₁₄,....,v_1n)

d i s = \sqrt[2]{{x_{1}}^{2} + {x_{2}}^{2} + {x_{3}}^{2} + {x_{4}}^{2} + ... + {x_{m}}^{2}} - - - (2)

其中，x₁表示词向量在第一维的分量差，dis表示W_E与w₁在词向量上的距离，依次迭代计算公式(1)与公式(2),获取最近的x个实体，

实体词w₁:w₁(v₁₁,v₁₂,v₁₃,v₁₄,....,v_1n)

实体词w₂:w₂(v₂₁,v₂₂,v₂₃,v₂₄,....,v_2n)

实体词w₃:w₂(v₃₁,v₃₂,v₃₃,v₃₄,....,v_3n)

实体词w_x:w_x(v_x1,v_x2,v_x3,v_x4,....,v_xn)

d_{[i, j]} = \{\begin{matrix} 0 & i = 0 o r j = 0 \\ \min (d_{[i - 1, j]} + 1, d_{[i, j - 1]} + 1, d_{[i - 1, j - 1]}) & x_{i} = y_{j} \\ \min (d_{[i - 1, j]} + 1, d_{[i, j - 1]} + 1, d_{[i - 1, j - 1]} + 1) & x_{i} &NotEqual; y_{j} \end{matrix}

其中d_[i-1,j]+1代表给定实体词插入一个字符，d_[i,j-1]+1代表给定实体词删除一个词，然后当x_i＝y_j时，不需要代价，所以和上一步d_[i-1,j-1]代价相同，否则+1，接着d_[i,j]是以上三者中最小的一项；基于编辑距离，在步骤四的基础上，计算给定实体词到其它实体的d_[i,j]值，结合步骤一获取每个实体词的个数；

sort:表示排序，从小到大排序；

dis_x1:表示给定实体词变换到实体x₁的编辑距离；

x_mcount:表示实体x_m在文中所出现的次数；