CA3039280C - Procede de reconnaissance d'une entite nommee de texte de reseau en fonction d'une desambiguisation de probabilite de reseau neuronal - Google Patents

Procede de reconnaissance d'une entite nommee de texte de reseau en fonction d'une desambiguisation de probabilite de reseau neuronal Download PDF

Info

Publication number
CA3039280C
CA3039280C CA3039280A CA3039280A CA3039280C CA 3039280 C CA3039280 C CA 3039280C CA 3039280 A CA3039280 A CA 3039280A CA 3039280 A CA3039280 A CA 3039280A CA 3039280 C CA3039280 C CA 3039280C
Authority
CA
Canada
Prior art keywords
neural network
word
named entity
word vector
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CA3039280A
Other languages
English (en)
Other versions
CA3039280A1 (fr
Inventor
Yong Zhou
Bing Liu
Zhaoyu HAN
Zhongqiu WANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Publication of CA3039280A1 publication Critical patent/CA3039280A1/fr
Application granted granted Critical
Publication of CA3039280C publication Critical patent/CA3039280C/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé de reconnaissance d'une entité nommée de texte de réseau en fonction d'une désambiguïsation de probabilité de réseau neuronal. Le procédé comprend : la réalisation d'une segmentation de mots sur un corpus non marqué, à l'aide de Word2Vec afin d'extraire un vecteur de mots ; la conversion d'un corpus d'échantillons en une matrice de caractéristiques de mots et le fenêtrage de ce dernier ; la construction d'un réseau neuronal profond afin d'effectuer un apprentissage, et l'ajout d'une fonction softmax dans une couche de sortie du réseau neuronal afin d'effectuer un traitement de normalisation, de façon à obtenir une matrice de probabilité de la catégorie d'entité nommée correspondant à chaque mot ; et le refenêtrage de la matrice de probabilité et l'utilisation d'un modèle de champ aléatoire conditionnel afin d'effectuer une désambiguïsation, de façon à obtenir une annotation d'entité nommée finale. Dans une tâche de reconnaissance d'entité nommée de texte de réseau, un procédé d'apprentissage d'incrément de vecteur de mot sans changement de la structure d'un réseau neuronal est fourni, conformément à la caractéristique selon laquelle un vocabulaire de réseau et un nouveau vocabulaire existent dans ce dernier, et un procédé de désambiguïsation de probabilité est utilisé afin de traiter les problèmes d'une structure grammaticale non standard et de nombreux caractères mal écrits dans le texte de réseau. Ainsi, une précision plus élevée peut être obtenue.
CA3039280A 2017-05-27 2017-06-20 Procede de reconnaissance d'une entite nommee de texte de reseau en fonction d'une desambiguisation de probabilite de reseau neuronal Active CA3039280C (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710390409.2 2017-05-27
CN201710390409.2A CN107203511B (zh) 2017-05-27 2017-05-27 一种基于神经网络概率消歧的网络文本命名实体识别方法
PCT/CN2017/089135 WO2018218705A1 (fr) 2017-05-27 2017-06-20 Procédé de reconnaissance d'une entité nommée de texte de réseau en fonction d'une désambiguïsation de probabilité de réseau neuronal

Publications (2)

Publication Number Publication Date
CA3039280A1 CA3039280A1 (fr) 2018-12-06
CA3039280C true CA3039280C (fr) 2021-07-20

Family

ID=59905476

Family Applications (1)

Application Number Title Priority Date Filing Date
CA3039280A Active CA3039280C (fr) 2017-05-27 2017-06-20 Procede de reconnaissance d'une entite nommee de texte de reseau en fonction d'une desambiguisation de probabilite de reseau neuronal

Country Status (5)

Country Link
CN (1) CN107203511B (fr)
AU (1) AU2017416649A1 (fr)
CA (1) CA3039280C (fr)
RU (1) RU2722571C1 (fr)
WO (1) WO2018218705A1 (fr)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107832289A (zh) * 2017-10-12 2018-03-23 北京知道未来信息技术有限公司 一种基于lstm‑cnn的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107943788B (zh) * 2017-11-17 2021-04-06 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN110019648B (zh) * 2017-12-05 2021-02-02 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN108052504B (zh) * 2017-12-26 2020-11-20 浙江讯飞智能科技有限公司 数学主观题解答结果的结构分析方法及系统
CN108121702B (zh) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 数学主观题评阅方法及系统
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108563626B (zh) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108763192B (zh) * 2018-04-18 2022-04-19 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108805196B (zh) * 2018-06-05 2022-02-18 西安交通大学 用于图像识别的自动增量学习方法
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109255119B (zh) * 2018-07-18 2023-04-25 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109299458B (zh) * 2018-09-12 2023-03-28 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109446514B (zh) * 2018-09-18 2024-08-20 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657238B (zh) * 2018-12-10 2023-10-13 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN109858025B (zh) * 2019-01-07 2023-06-13 鼎富智能科技有限公司 一种地址标准化语料的分词方法及系统
CN109767817B (zh) * 2019-01-16 2023-05-30 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN109800437B (zh) * 2019-01-31 2023-11-14 北京工业大学 一种基于特征融合的命名实体识别方法
CN109992629B (zh) * 2019-02-28 2021-08-06 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN109858041B (zh) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN110083778A (zh) * 2019-04-08 2019-08-02 清华大学 学习分离表征的图卷积神经网络构建方法及装置
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN110245242B (zh) * 2019-06-20 2022-01-18 北京百度网讯科技有限公司 医学知识图谱构建方法、装置以及终端
CN110298043B (zh) * 2019-07-03 2023-04-07 吉林大学 一种车辆命名实体识别方法及系统
CN110750992B (zh) * 2019-10-09 2023-07-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110781646B (zh) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111008271B (zh) * 2019-11-20 2022-06-24 佰聆数据股份有限公司 一种基于神经网络的关键信息提取方法及系统
CN110993081B (zh) * 2019-12-03 2023-08-11 济南大学 一种医生在线推荐方法及系统
CN111091003B (zh) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN113139382A (zh) * 2020-01-20 2021-07-20 北京国双科技有限公司 命名实体识别方法及装置
CN111368545B (zh) * 2020-02-28 2024-04-30 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111477320B (zh) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111523323B (zh) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN111859937B (zh) * 2020-07-20 2024-07-30 上海汽车集团股份有限公司 一种实体识别方法及装置
CN112199953B (zh) * 2020-08-24 2024-06-28 广州九四智能科技有限公司 一种电话通话中信息提取方法、装置及计算机设备
RU2760637C1 (ru) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система извлечения именованных сущностей
CN112101041B (zh) * 2020-09-08 2022-02-15 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112765983A (zh) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 一种基于结合知识描述的神经网络的实体消歧的方法
CN112487816B (zh) * 2020-12-14 2024-02-13 安徽大学 一种基于网络分类的命名实体识别方法
CN112905742B (zh) * 2021-02-20 2022-07-29 厦门吉比特网络技术股份有限公司 基于语义模型神经网络识别新词汇的方法、装置
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN114218924A (zh) * 2021-07-27 2022-03-22 广东电力信息科技有限公司 一种基于bert模型的文本意图及实体联合识别方法
CN114519355A (zh) * 2021-08-25 2022-05-20 浙江万里学院 一种医药命名实体识别与实体规范化方法
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113934815A (zh) * 2021-09-18 2022-01-14 有米科技股份有限公司 基于神经网络的广告文案特征信息识别方法及装置
CN114036948B (zh) * 2021-10-26 2024-05-31 天津大学 一种基于不确定性量化的命名实体识别方法
CN114048749B (zh) * 2021-11-19 2024-02-02 北京第一因科技有限公司 一种适用于多领域的中文命名实体识别方法
CN114510943B (zh) * 2022-02-18 2024-05-28 北京大学 一种基于伪样本重放的增量式命名实体识别方法
WO2023204724A1 (fr) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Procédé d'analyse de document juridique
CN115587594B (zh) * 2022-09-20 2023-06-30 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN115905456B (zh) * 2023-01-06 2023-06-02 浪潮电子信息产业股份有限公司 一种数据识别方法、系统、设备及计算机可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US8239349B2 (en) * 2010-10-07 2012-08-07 Hewlett-Packard Development Company, L.P. Extracting data
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN105404632B (zh) * 2014-09-15 2020-07-31 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN104809176B (zh) * 2015-04-13 2018-08-07 中央民族大学 藏语实体关系抽取方法
CN105740349B (zh) * 2016-01-25 2019-03-08 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105868184B (zh) * 2016-05-10 2018-06-08 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Also Published As

Publication number Publication date
WO2018218705A1 (fr) 2018-12-06
CA3039280A1 (fr) 2018-12-06
CN107203511B (zh) 2020-07-17
CN107203511A (zh) 2017-09-26
RU2722571C1 (ru) 2020-06-01
AU2017416649A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
CA3039280C (fr) Procede de reconnaissance d'une entite nommee de texte de reseau en fonction d'une desambiguisation de probabilite de reseau neuronal
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN110472003B (zh) 基于图卷积网络的社交网络文本情感细粒度分类方法
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115309915B (zh) 知识图谱构建方法、装置、设备和存储介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN114519356A (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN117764084A (zh) 基于多头注意力机制与多模型融合的短文本情感分析方法
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
Mercan et al. Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Rajani Shree et al. POS tagger model for Kannada text with CRF++ and deep learning approaches
CN112818124A (zh) 一种基于注意力神经网络的实体关系抽取方法
Li et al. A recurrent neural network language model based on word embedding
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
Hung College admissions counseling using intelligent question answering system
CN113886530A (zh) 一种语义短语抽取方法及相关装置
Garrido et al. Information extraction on weather forecasts with semantic technologies
CN113704472A (zh) 基于主题记忆网络的仇恨和攻击性言论识别方法及系统
Meng et al. Design of Intelligent Recognition Model for English Translation Based on Deep Machine Learning
Prajapati et al. Empirical Analysis of Humor Detection Using Deep Learning and Machine Learning on Kaggle Corpus

Legal Events

Date Code Title Description
EEER Examination request

Effective date: 20190403