CN106066856A - 一种基于编辑距离以及词频和词向量的实体关系识别方法 - Google Patents

一种基于编辑距离以及词频和词向量的实体关系识别方法 Download PDF

Info

Publication number
CN106066856A
CN106066856A CN201610349298.6A CN201610349298A CN106066856A CN 106066856 A CN106066856 A CN 106066856A CN 201610349298 A CN201610349298 A CN 201610349298A CN 106066856 A CN106066856 A CN 106066856A
Authority
CN
China
Prior art keywords
entity
word
term vector
entity word
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610349298.6A
Other languages
English (en)
Other versions
CN106066856B (zh
Inventor
段大高
赵宁
韩忠明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201610349298.6A priority Critical patent/CN106066856B/zh
Publication of CN106066856A publication Critical patent/CN106066856A/zh
Application granted granted Critical
Publication of CN106066856B publication Critical patent/CN106066856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。

Description

一种基于编辑距离以及词频和词向量的实体关系识别方法
技术领域
本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法,它应用于WEB数据挖掘、实体识别,搜索引擎等方面,属于数据挖掘技术领域。
背景技术
当今社会,随着科技的迅速发展,特别是互联网技术的发展,人民生活水平的提高,使用互联网的人群越来越多,随之而来的就是搜索引擎的到来,但是以往的搜索体验并不是很好,特别是对于非专业人士,以及娱乐活动不是很多的群众,往往在搜索引擎中搜索的并不是自己想要的东西,但这种东西在广大群体中,是被广为流传的,随之面临的问题便是,搜索引擎对于实体的识别以及关系的建立,其目的就是让系统知道用户检索的实体别名信息,反馈的都是一种其全称信息,增强了系统的健壮性。
实体识别以及关系的建立,在一定程度上,提高了系统的效率,并极大的提高了用户的搜索体验,在实际生活中,往往搜索的都是答非所问,其原因大都是因为,系统未能将实体联系起来,本发明主要解决根据中文组织机构名对公司名称以及公司所对应的简称进行识别问题,结果表明,本发明能获得很好的效果。
发明内容
1、目的:为了识别出实体的其他别名、缩略名,在搜索引擎中检索出自己最想要的信息,提出了一种基于编辑距离以及词频和词向量的实体关系识别方法。
本发明的原理是:首先进行自然语言的处理,获取分词结果并统计词频,就是对每个实体在文本中出现的次数进行统计并记录下来,根据分词的结果,基于词的上下文训练词向量,在得到词向量的基础上,对获取的词向量进行聚合操作,得到词向量上最近的m个实体,基于分词以及词在文本中出现次数的基础上,对m个实体,通过计算给定实体与文本中的其他实体之间的编辑距离以及词频,最终获得与给定实体关系最强的实体即给定实体的别名或简称,以及在得知别名的情况下获取实体的全称信息,随着信息的不断融入,进而得到给定实体的其他信息。
2、技术方案:本发明提供的技术方案如下:
本发明是一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:
步骤一:获取文本数据。
步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来。
步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法。经过word2vec训练后的每个词向量为如下形式:
wm(vm1,vm2,vm3,vm4,……,vmn)
其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值,本文训练的词向量采用400维,即n=400。
步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,其目的在于增强了实体关系的抽取,本文采用在获取词向量的基础上,:
先获取离给定实体词WE最近的x个实体:
实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)
实体词w1:w1(v11,v12,v13,v14,....,v1n)
x1=(vE1-v11),x2=(vE2-v12),x3=(vE3-v13),…,xm=(vEn-v1n) (1)
d i s = x 1 2 + x 2 2 + x 3 2 + x 4 2 + ... + x m 2 2 - - - ( 2 )
其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,本文x取100:
实体词w1:w1(v11,v12,v13,v14,....,v1n)
实体词w2:w2(v21,v22,v23,v24,....,v2n)
实体词w3:w2(v31,v32,v33,v34,....,v3n)
实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)
步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下:
d [ i , j ] = 0 i = 0 o r j = 0 min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d [ i - 1 , j - 1 ] ) x i = y j min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d [ i - 1 , j - 1 ] + 1 ) x i ≠ y j
其中d[i-1,j]+1代表给定实体词插入一个字符,d[i,j-1]+1代表给定实体词删除一个词,然后当xi=yj时,不需要代价,所以和上一步d[i-1,j-1]代价相同,否则+1,接着d[i,j]是以上三者中最小的一项。基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数。
经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称:
G(X)=(sort(f(disx1/x1count),f(disx2/x2count),f(disx3/x3count)……f(disxn/xncount)))
sort:表示排序,从小到大排序。
disx1:表示给定实体词变换到实体x1的编辑距离。
xmcount:表示实体xm在文中所出现的次数。
f(disx1/x1count):表示给定实体词对实体x1的比重,换句话,就是说实体x1,是给定实体词简称的可能性大小,值越小表示可能性越大。
3、优点及功效:本发明所提供的一种基于编辑距离以及词频和词向量的实体关系识别方法,它在大数据量的情况下,能够自动、快速、有效的进行实体识别并建立关系,进而获得实体相关信息;并且通过一定数量的样本学习之后,可以将该模型部署到搜索引擎以及影视行业,能够更快、准确的对用户输入实体简称进行有效的识别,极大的提高了系统的识别率,在一定程度上提升了用户的体验。
附图说明
图1所示为本发明方法的流程图。
图中符号说明如下:
K:表示给定实体名,根据距离公式,获得与该实体在词向量上最近的x个实体w1,w2,..,wx:表示通过计算获得的实体词
具体实施方式
见图1,本发明一种基于词频编辑距离的实体关系识别方法,其具体实施步骤:
步骤一:抽取百度百科中的文本信息如:中博传媒有限公司
中博传媒有限公司,通常简称中博传媒,是中国第一家成功获得美国国际数据集团技术创业投资基金和新媒体基金(IDGVC、IDG NEW MEDIA)、鼎辉投资王功权先生、运时投资等风险投资的影视公司。
公司名称中博传媒有限公司成立时间1999年简称中博传媒投资发行《英雄》、《十面埋伏》成就唯一三次获得法国戛纳电影节大奖
目录
1简介
2发展简史
3获得荣誉
简介编辑
中博传媒有限公司是中国第一批取得影视制作特许资质,专业从事影视投资、制作与发行,以及新媒体内容制作、传播与互动了大量颇具影响力的影视作品。
发展简史编辑
自1999年成立以来,公司投资制作的电影《危险关系》入选2012年第65届戛纳电影节导演双周单元、2012年第37届多伦多电影节主展映单元及2012年第17届釜山国际电影节GALA大师单元;投资制作的电影《成都,我爱你》获邀成为2009年第66届威尼斯电影节闭幕电影,的传媒公司。十年来,中博传媒率先在中国影视界确立国际化运营目标,立足中国本土,着力拓展亚洲电影市场,发行、投资制作并入选第14届釜山国际电影节GALA大师单元及第22届东京国际电影节亚洲之风单元;投资制作的电影《鬼子来了》获2000年第53届戛纳电影节评委会大奖;投资制作的韩国电影《哭泣的拳头》获2005年第58届戛纳电影节国际评论家协会奖;中博传媒是目前中国唯一三次获得法国戛纳电影节大奖的传媒机构。
中博传媒还投资发行了张艺谋电影《英雄》、《十面埋伏》、《满城尽带黄金甲》、《三枪拍案惊奇》、《山楂树之恋》,以及陈凯歌电影《无极》等众多国内大片;
中博传媒是中国第一家进入韩国本土电影市场的传媒企业,多年来在韩国进行影视投资、制作与发行。投资制作发行的韩国电影《外出》、《哭泣的拳头》、《食客》、《喜马拉雅》等,在韩国已累计超过10个亿人民币的票房收入,是韩国电影市场最大的华语电影发行商。中博传媒同时还联合韩国三大电视台(SBS、KBS、MBC)共同投资制作发行了多部中韩合作电视剧,开创了中韩合拍电视剧的先河。为中韩影视文化的交流贡献自己的力量。
2011年中博传媒签约韩国著名导演郭在容、许秦豪,成立韩国导演工作室,将韩国等亚洲因素引入电影制作,突出中博传媒亚洲电影的优势。自2011年起,每年将发行、投资、制作一部投资过亿的商业大片。
立足中国,辐射亚洲及全球,中博传媒致力成为亚洲最具竞争力的传媒机构。
步骤二:根据抽取百度百科中的文本信息,进行分词并做词频统计:
中博传媒有限公司 通常 简称 中博传媒 是 中国 第一家 成功 获得 美国 国际数据集团 技术 创业 投资 基金 和 新媒体 基金 鼎辉 投资 王功权 先生 运时 投资等 风险投资 的 影视 公司 成立 时间 简称 中博传媒 投资 发行 英雄 十面 埋伏 成就 唯一 三次 获得 法国 戛纳 电影节 大奖 目录 中博传媒 是 中国 第一批 取得 影视 制作 特许资质 专业 从事 影视 投资 制作 与 发行 以及 新媒体 内容 制作 传播与 互动 了 大量颇具 影响力 的 影视 作品 发展 简史 编辑 自 成立以来 公司 投资制作 的 电影 危险关系 入选 第 届戛纳 电影节 导演 双周 单元 年 第 届 多伦多 电影节 主展 映 单元 及年 第 届 釜山国际电影节 大师 单元 投资 制作 的 电影 成都我爱你 获邀 成为 年 第届 威尼斯电影节 闭幕 电影 的 传媒公司 十年来 中博传媒率先 在 中国 影视界 确立国际化 运营 目标 立足 中国 本土 着力 拓展 亚洲 电影市场 发行 投资 制作 并 入选第 届 釜山国际电影节 大师 单元 及 第 届 东京国际电影节 亚洲 之风 单元 投资 制作的 电影 鬼子来了 获 年 第 届 戛纳电影节 评委会大奖 投资 制作 的 韩国 电影 哭泣的拳头 获 第 届 戛纳电影节 国际 评论家 协会奖中博传媒 是 目前 中国 唯一 三次 获得 法国戛纳电影节 大奖 的 传媒 机构 中博传媒 还 投资 发行 了 张艺谋 电影 英雄 十面埋伏 满城尽带黄金甲 三枪拍案惊奇 山楂树之恋 以及 陈凯歌 电影 无极 等 众多 国内大片 中博传媒 是 中国 第一家 进入 韩国 本土 电影 市场 的 传媒企业 多年来 在 韩国进行 影视 投资 制作 与 发行 投资制作 发行 的 韩国 电影 外出 哭泣的拳头 食客 喜马拉雅 在 韩国 已 累计 超过 人民币 的 票房 收入 是 韩国 电影 市场 最大 的 华语电影 发行商 中博传媒 同时 还联合 韩国 三 大 电视台 共同 投资 制作 发行了 多部中韩 合作 电视剧 开创了 中韩合拍 电视剧 的 先河 中博传媒 为 中韩 影视 文化 的交流 贡献 自己 的 力量 年 中博传媒 签约 韩国 著名 导演 郭在容 许秦豪 成立 韩国导演 工作室 将 韩国 等 亚洲因素 引入 电影 制作 突出 中博传媒 亚洲 电影 的 优势自 年 起 每年 将 发行 投资制作 一部 投资 过亿 的 商业 大片 立足 中国 辐射 亚洲及 全球 中博传媒 致力 成为 亚洲 最具 竞争力 的 传媒 机构
其对应分词的词频统计:
步骤三:根据word2vec对分词后的文本进行词向量的训练,其中维数设置为400,窗口大小设置为8:
训练后对应的词向量为(400维):
步骤四:根据训练的词向量以公司名为中心,获取离中心距离最近的100个词:
中博传媒媒体中国短片作品中博之夜导演发行釜山传媒影视市场中博传媒有限公司韩国国际公司协会俄罗斯海参崴颁发第一个主办方及第新浪网多伦多台北电影风险投资十年交易……
步骤五:基于步骤一以及步骤四,对给定实体——中博传媒有限公司,计算给定实体与文本中其他实体的基于词频的编辑距离:
其中最可能的简称比重:0-100,其数值表示与中博传媒关系最近的实体,即本文要找到的实体,其关系强度依次递减。

Claims (1)

1.一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:
步骤一:获取文本数据;
步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;
步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:
wm(vm1,vm2,vm3,vm4,……,vmn)
其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;
步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,
先获取离给定实体词WE最近的x个实体:
实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)
实体词w1:w1(v11,v12,v13,v14,....,v1n)
x1=(vE1-v11),x2=(vE2-v12),x3=(vE3-v13),…,xm=(vEn-v1n) (1)
d i s = x 1 2 + x 2 2 + x 3 2 + x 4 2 + ... + x m 2 2 - - - ( 2 )
其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,
实体词w1:w1(v11,v12,v13,v14,....,v1n)
实体词w2:w2(v21,v22,v23,v24,....,v2n)
实体词w3:w2(v31,v32,v33,v34,....,v3n)
实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)
步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下:
d [ i , j ] = 0 i = 0 o r j = 0 min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d [ i - 1 , j - 1 ] ) x i = y j min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d [ i - 1 , j - 1 ] + 1 ) x i ≠ y j
其中d[i-1,j]+1代表给定实体词插入一个字符,d[i,j-1]+1代表给定实体词删除一个词,然后当xi=yj时,不需要代价,所以和上一步d[i-1,j-1]代价相同,否则+1,接着d[i,j]是以上三者中最小的一项;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;
经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称:
G(X)=(sort(f(disx1/x1count),f(disx2/x2count),f(disx3/x3count)……f(disxn/xncount)))
sort:表示排序,从小到大排序;
disx1:表示给定实体词变换到实体x1的编辑距离;
xmcount:表示实体xm在文中所出现的次数;
f(disx1/x1count):表示给定实体词对实体x1的比重,换句话,就是说实体x1,是给定实体词简称的可能性大小,值越小表示可能性越大。
CN201610349298.6A 2016-05-24 2016-05-24 一种基于编辑距离以及词频和词向量的实体关系识别方法 Active CN106066856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610349298.6A CN106066856B (zh) 2016-05-24 2016-05-24 一种基于编辑距离以及词频和词向量的实体关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610349298.6A CN106066856B (zh) 2016-05-24 2016-05-24 一种基于编辑距离以及词频和词向量的实体关系识别方法

Publications (2)

Publication Number Publication Date
CN106066856A true CN106066856A (zh) 2016-11-02
CN106066856B CN106066856B (zh) 2019-05-21

Family

ID=57420756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610349298.6A Active CN106066856B (zh) 2016-05-24 2016-05-24 一种基于编辑距离以及词频和词向量的实体关系识别方法

Country Status (1)

Country Link
CN (1) CN106066856B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN107423285A (zh) * 2017-06-23 2017-12-01 广州市万隆证券咨询顾问有限公司 一种基于文本规则的公司简称识别方法及系统
CN108388597A (zh) * 2018-02-01 2018-08-10 深圳市鹰硕技术有限公司 会议摘要生成方法以及装置
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
US10853576B2 (en) 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286631A1 (en) * 2014-04-03 2015-10-08 GM Global Technology Operations LLC Automatic linking of requirements using natural language processing
CN105068999A (zh) * 2015-08-14 2015-11-18 浪潮集团有限公司 一种修正实体词识别的方法和装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
US20160098386A1 (en) * 2014-10-03 2016-04-07 At&T Intellectual Property I, L.P. System and method for unsupervised text normalization using distributed representation of words

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286631A1 (en) * 2014-04-03 2015-10-08 GM Global Technology Operations LLC Automatic linking of requirements using natural language processing
US20160098386A1 (en) * 2014-10-03 2016-04-07 At&T Intellectual Property I, L.P. System and method for unsupervised text normalization using distributed representation of words
CN105068999A (zh) * 2015-08-14 2015-11-18 浪潮集团有限公司 一种修正实体词识别的方法和装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106776562B (zh) * 2016-12-20 2020-07-28 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN107423285A (zh) * 2017-06-23 2017-12-01 广州市万隆证券咨询顾问有限公司 一种基于文本规则的公司简称识别方法及系统
CN107423285B (zh) * 2017-06-23 2020-08-28 广州市万隆证券咨询顾问有限公司 一种基于文本规则的公司简称识别方法及系统
CN108388597A (zh) * 2018-02-01 2018-08-10 深圳市鹰硕技术有限公司 会议摘要生成方法以及装置
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备
CN110162768B (zh) * 2018-03-09 2022-12-30 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
US10853576B2 (en) 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN109902286B (zh) * 2019-01-09 2023-12-12 千城数智(北京)网络科技有限公司 一种实体识别的方法、装置及电子设备
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN106066856B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN106066856A (zh) 一种基于编辑距离以及词频和词向量的实体关系识别方法
US11514242B2 (en) Method for automatically summarizing internet web page and text information
CN104199933B (zh) 一种多模态信息融合的足球视频事件检测与语义标注方法
CN103268339B (zh) 微博消息中命名实体识别方法及系统
Zhang et al. Extracting implicit features in online customer reviews for opinion mining
CN107122416A (zh) 一种中文事件抽取方法
WO2021128914A1 (zh) 商品短标题生成方法及装置
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
Pighin et al. Modelling events through memory-based, open-ie patterns for abstractive summarization
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
Deng et al. On the relationship between pollution reduction and export product quality: Evidence from Chinese firms
CN103064951A (zh) 一种舆情信息的地域识别方法和装置
CN107748745B (zh) 一种企业名称关键字提取方法
CN114036933A (zh) 基于法律文书的信息抽取方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN103455639A (zh) 一种识别微博突发热点事件的方法及装置
CN109920476A (zh) 基于混沌博弈算法的miRNA-疾病相关性预测方法
Sonalitha et al. Combined text mining: Fuzzy clustering for opinion mining on the traditional culture arts work
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法
CN103699370A (zh) 一种基于xml的问卷脚本语言设计和开发方法
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
CN104504104B (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
Demeure et al. Effect of the Zero-Covid Policy on Chinese FDI inflows and government’s response: Has the pandemic led to distinctive paradigm change in China’s Hypergrowth Approach to Development?
Kim et al. Word2Vec based spelling correction method of Twitter message

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211221

Address after: 410023 Room 101, building 3, wisdom Park, country garden, Xuehua village, bachelor street, Yuelu District, Changsha City, Hunan Province

Patentee after: HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.

Address before: 100048, Fu Cheng Road, Beijing, Haidian District, No. 33

Patentee before: BEIJING TECHNOLOGY AND BUSINESS University