WO2018218705A1 - 一种基于神经网络概率消歧的网络文本命名实体识别方法 - Google Patents

一种基于神经网络概率消歧的网络文本命名实体识别方法 Download PDF

Info

Publication number
WO2018218705A1
WO2018218705A1 PCT/CN2017/089135 CN2017089135W WO2018218705A1 WO 2018218705 A1 WO2018218705 A1 WO 2018218705A1 CN 2017089135 W CN2017089135 W CN 2017089135W WO 2018218705 A1 WO2018218705 A1 WO 2018218705A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
word
named entity
network
corpus
Prior art date
Application number
PCT/CN2017/089135
Other languages
English (en)
French (fr)
Inventor
周勇
刘兵
韩兆宇
王重秋
Original Assignee
中国矿业大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国矿业大学 filed Critical 中国矿业大学
Priority to CA3039280A priority Critical patent/CA3039280C/en
Priority to AU2017416649A priority patent/AU2017416649A1/en
Priority to RU2019117529A priority patent/RU2722571C1/ru
Publication of WO2018218705A1 publication Critical patent/WO2018218705A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the network text cannot train a word vector space containing all words to train the neural network because of a large number of network vocabulary, new vocabulary, and typos.
  • the named entity corpus is downloaded from the data corpus as a sample corpus, the natural language tool is used to segment the reptile network text, and the corpus and sample corpus of the good word are used to pass the Word2Vec model in python.
  • the training of the word vector space is carried out.
  • the specific parameters are as follows: the length of the word vector is 200, the number of iterations is 25, the initial step is 0.025, and the minimum step is 0.0001.
  • the CBOW model is selected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。在网络文本的命名实体识别任务中,根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此,可产生较高的准确率。

Description

一种基于神经网络概率消歧的网络文本命名实体识别方法 技术领域
本发明涉及网络文本的处理及分析,尤其涉及一种基于神经网络概率消歧的网络文本命名实体识别的方法。
背景技术
网络使得信息的采集、传播的速度和规模达到空前的水平,实现了全球的信息共享与交互,它已经成为信息社会必不可少的基础设施。现代通信和传播技术,大大提高了信息传播的速度和广度。但与之俱来的问题和“副作用”是:汹涌而来的信息有时使人无所适从,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。如何从海量的网络文本中分析出互联网用户所关注的人物、地点、机构等命名实体,成为网上营销、群体情感分析等各种上层应用提供重要的支持信息。这使得面向网络文本的命名实体识别成为网络数据处理与分析中的一项重要的核心技术。
人们处理命名实体识别的方法研究主要分为两类,基于规则的方法(rule-based)和基于统计的方法(statistic-based)。随着机器学习理论的不断完善和计算性能的极大提高,基于统计学的方法更加受到人们青睐。
目前,命名实体识别应用的统计模型方法主要包括:隐马尔可夫模型、决策树、最大熵模型、支持向量机、条件随机场以及人工神经网络。人工神经网络在命名实体识别方面可以的到比条件随机场、最大熵模型等模型取得更好的结果,但实用仍以条件随机场、最大熵模型为主,如专利号CN201310182978.X使用条件随机场并结合命名实体库提出了对微博文本的命名实体识别方法及装置、专利号CN200710098635.X提出了一种利用字特征使用最大熵模型建模的命名实体识别方法。人工神经网络难以实用的原因在于人工神经网络在命名实体识别领域常需要将词转化成词向量空间中的向量,因此对于新生词汇无法得到对应的向量,所以无法得到大规模的实际应用。
基于上述现状,针对网络文本的命名实体识别主要存在以下问题:第一,网络文本因存在大量网络词汇、新生词汇、错别字,无法训练出包含所有词的词向量空间以训练神经网络。第二,网络文本存在的语言形式任意、语法结构不规范、错别字多等现象导致其命名实体识别准确率下降。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种增量提取词特征而不需要重新训练神经网络、同时概率消歧识别的基于神经网络概率消歧的网络文本命名实体识别方法,该方法通过训练神经网络,获取神经网络对词语所属命名实体类型的预测概率矩阵,对神经网络输出的预测矩阵再以概率模型进行消歧,提高了网络文本命名实体识别的准确性和 准确率。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵。将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
具体包括以下步骤:
步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词。
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练。
步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。将样本语料中的标签转成one-hot形式作为神经网络的输出。神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络。
步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型。
步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
优选的:所述Word2Vec工具的参数如下:词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
优选的:所述神经网络的参数如下:隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid函数。
优选的:将样本语料中的标签转成one-hot形式的方法:将样本语料中的”/o”、”/n”、”/p”标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”,在转换成one-hot的形式。
优选的:词向量窗口化的窗口大小为5。
优选的:神经网络训练时,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准。
本发明相比现有技术,具有以下有益效果:
可以增量提取出不需要重新训练神经网络的词向量,利用神经网络预测并用概率模型消歧,使得该方法在网络文本的命名实体识别中拥有更好的实用性、准确性和准确率。在网络文本的命名实体识别任务中,本发明根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。
附图说明
图1是根据本发明训练一个基于神经网络概率消歧的网络文本命名实体识别装置的流程图。
图2是根据本发明将词转化为词特征的流程图。
图3是根据本发明文本处理以及神经网络结构的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵。将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
具体包括以下步骤:
步骤1,通过网页爬虫无标签网络文本,并从各语料库下载有命名实体标注的语料作为样本语料,利用自然语言工具对无标签语料进行分词。
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练。
步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,作为神经网络的输入。将样本语料中的标签转成one-hot形式作为神经网络的输出,因为在文本处理任务中,一个命名实体可能被分割成多个词汇,所以为了保证识别出命名实体具完整性,标注形式采用IOB模式进行标注。
词汇为何类命名实体不能仅凭词汇本身判定,还需要依靠词汇所处上下文信息决定,因 此在建立神经网络时,我们引入窗口的概念,即在判断词汇的时候,将词汇及其固定长度上下文的特征信息都作为神经网络的输入,神经网络的输入不再是词特征向量的长度d,而是窗口w乘词特征长度d的二维矩阵。
神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率。调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络。
步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型。
步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量。
(1)将待转换词汇在已训练的词向量空间中匹配。
(2)若待转换词汇在词向量空间中能够匹配,则直接将词汇转换成对应词向量。
(3)若Word2Vec模型中不包含对应词汇,则备份词向量空间,防止增量学习产生的词空间偏移导致神经网络模型精度的下降,载入Word2Vec模型,获取不匹配词汇所在句子获取不匹配词汇所在句子,将其放入Word2Vec模型中进行增量训练,并获取词汇的词向量,利用备份的词向量空间,回溯模型。
对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
实例
从搜狗新闻网站爬虫网络文本,从数据堂语料库下载有命名实体语料作为样本语料,利用自然语言工具对爬虫网络文本进行分词,将分好词的语料与样本语料利用python中的gensim包通过Word2Vec模型进行词向量空间的训练,具体参数如下,词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
将样本语料的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量。作为每个词的特征。将数据堂提供样本语料中的”/o”、”/n”、”/p”等标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”等,并转换成one-hot的形式作为神经网络的输出。
设定窗口大小为5,即在考虑当前词的命名实体类别时,将其本身和前后各两个词的词 特征作为神经网络的输入,神经网络的输入为batchSize*1000的向量,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准,神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,暂时取概率最大值作为最终分类结果。调整神经网络中的结构、深度、节点数、步长、激活函数、初始值等参数,使神经网络取得较为良好的精确度,最终具体参数如下,隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid时可以产生良好的分类效果,准确度可以达到99.83%,最具代表性的人名、地名、机构名的F值可以达到93.4%、84.2%、80.4%。
将神经网络输出的预测矩阵取概率最大值作为最终分类结果的步骤移除,直接将概率矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出条件随机场各边的期望值,训练出对应的条件随机场模型,在使用条件随机场进行消歧后人名、地名、机构名的F值可以提升至94.8%、85.0%、82.0%。
通过上文的具体实施例可以看出,与传统的有监督的命名实体识别方法相比,本发明提供的基于神经网络概率消歧的文本命名实体识别方法,使用了一种可增量提取词特征而不产生词向量空间偏移的词向量转换方法,使神经网络可以应用在新词、错别字多的网络文本中。而且,本发明对神经网络输出的概率矩阵重新窗口化,采用条件随机场模型进行上下文消歧,可以较好的解决网络文本中错别字多、语法不规范的现象。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

  1. 一种基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
  2. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于,包括以下步骤:
    步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词;
    步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练;
    步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;将样本语料中的标签转成one-hot形式作为神经网络的输出;神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络;
    步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型;
    步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
  3. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述Word2Vec工具的参数如下:词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
  4. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述神经网络的参数如下:隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid函数。
  5. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将样本语料中的标签转成one-hot形式的方法:将样本语料中的”/o”、”/n”、”/p”标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”,在转换成one-hot的形式。
  6. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:词向量窗口化的窗口大小为5。
  7. 根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:神经网络训练时,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准。
PCT/CN2017/089135 2017-05-27 2017-06-20 一种基于神经网络概率消歧的网络文本命名实体识别方法 WO2018218705A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CA3039280A CA3039280C (en) 2017-05-27 2017-06-20 Method for recognizing network text named entity based on neural network probability disambiguation
AU2017416649A AU2017416649A1 (en) 2017-05-27 2017-06-20 Method for recognizing network text named entity based on neural network probability disambiguation
RU2019117529A RU2722571C1 (ru) 2017-05-27 2017-06-20 Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710390409.2 2017-05-27
CN201710390409.2A CN107203511B (zh) 2017-05-27 2017-05-27 一种基于神经网络概率消歧的网络文本命名实体识别方法

Publications (1)

Publication Number Publication Date
WO2018218705A1 true WO2018218705A1 (zh) 2018-12-06

Family

ID=59905476

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/089135 WO2018218705A1 (zh) 2017-05-27 2017-06-20 一种基于神经网络概率消歧的网络文本命名实体识别方法

Country Status (5)

Country Link
CN (1) CN107203511B (zh)
AU (1) AU2017416649A1 (zh)
CA (1) CA3039280C (zh)
RU (1) RU2722571C1 (zh)
WO (1) WO2018218705A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN110781646A (zh) * 2019-10-15 2020-02-11 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111008271A (zh) * 2019-11-20 2020-04-14 佰聆数据股份有限公司 一种基于神经网络的关键信息提取方法及系统
CN111368545A (zh) * 2020-02-28 2020-07-03 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111476022A (zh) * 2020-05-15 2020-07-31 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN112101041A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN113139382A (zh) * 2020-01-20 2021-07-20 北京国双科技有限公司 命名实体识别方法及装置
CN113343690A (zh) * 2021-06-22 2021-09-03 北京语言大学 一种文本可读性自动评估方法及装置
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN114048749A (zh) * 2021-11-19 2022-02-15 重庆邮电大学 一种适用于多领域的中文命名实体识别方法
CN115587594A (zh) * 2022-09-20 2023-01-10 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN115905456A (zh) * 2023-01-06 2023-04-04 浪潮电子信息产业股份有限公司 一种数据识别方法、系统、设备及计算机可读存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107832289A (zh) * 2017-10-12 2018-03-23 北京知道未来信息技术有限公司 一种基于lstm‑cnn的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107943788B (zh) * 2017-11-17 2021-04-06 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN110019648B (zh) * 2017-12-05 2021-02-02 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN108052504B (zh) * 2017-12-26 2020-11-20 浙江讯飞智能科技有限公司 数学主观题解答结果的结构分析方法及系统
CN108121702B (zh) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 数学主观题评阅方法及系统
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108563626B (zh) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108763192B (zh) * 2018-04-18 2022-04-19 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108805196B (zh) * 2018-06-05 2022-02-18 西安交通大学 用于图像识别的自动增量学习方法
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109255119B (zh) * 2018-07-18 2023-04-25 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109299458B (zh) * 2018-09-12 2023-03-28 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657238B (zh) * 2018-12-10 2023-10-13 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN109858025B (zh) * 2019-01-07 2023-06-13 鼎富智能科技有限公司 一种地址标准化语料的分词方法及系统
CN109767817B (zh) * 2019-01-16 2023-05-30 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109800437B (zh) * 2019-01-31 2023-11-14 北京工业大学 一种基于特征融合的命名实体识别方法
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN110083778A (zh) * 2019-04-08 2019-08-02 清华大学 学习分离表征的图卷积神经网络构建方法及装置
CN110245242B (zh) * 2019-06-20 2022-01-18 北京百度网讯科技有限公司 医学知识图谱构建方法、装置以及终端
CN110298043B (zh) * 2019-07-03 2023-04-07 吉林大学 一种车辆命名实体识别方法及系统
CN110750992B (zh) * 2019-10-09 2023-07-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110993081B (zh) * 2019-12-03 2023-08-11 济南大学 一种医生在线推荐方法及系统
CN111091003B (zh) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN111523323B (zh) * 2020-04-26 2022-08-12 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111859937A (zh) * 2020-07-20 2020-10-30 上海汽车集团股份有限公司 一种实体识别方法及装置
CN112199953A (zh) * 2020-08-24 2021-01-08 广州九四智能科技有限公司 一种电话通话中信息提取方法、装置及计算机设备
RU2760637C1 (ru) * 2020-08-31 2021-11-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система извлечения именованных сущностей
CN112765983A (zh) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 一种基于结合知识描述的神经网络的实体消歧的方法
CN112487816B (zh) * 2020-12-14 2024-02-13 安徽大学 一种基于网络分类的命名实体识别方法
CN112905742B (zh) * 2021-02-20 2022-07-29 厦门吉比特网络技术股份有限公司 基于语义模型神经网络识别新词汇的方法、装置
WO2023204724A1 (ru) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Способ анализа юридического документа

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US8239349B2 (en) * 2010-10-07 2012-08-07 Hewlett-Packard Development Company, L.P. Extracting data
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN105740349B (zh) * 2016-01-25 2019-03-08 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105868184B (zh) * 2016-05-10 2018-06-08 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563380A (zh) * 2019-01-25 2020-08-21 浙江大学 一种命名实体识别方法及其装置
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN109992629B (zh) * 2019-02-28 2021-08-06 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及系统
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109858041B (zh) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110781646B (zh) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN110781646A (zh) * 2019-10-15 2020-02-11 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111008271A (zh) * 2019-11-20 2020-04-14 佰聆数据股份有限公司 一种基于神经网络的关键信息提取方法及系统
CN111008271B (zh) * 2019-11-20 2022-06-24 佰聆数据股份有限公司 一种基于神经网络的关键信息提取方法及系统
CN113139382A (zh) * 2020-01-20 2021-07-20 北京国双科技有限公司 命名实体识别方法及装置
CN111368545B (zh) * 2020-02-28 2024-04-30 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111368545A (zh) * 2020-02-28 2020-07-03 北京明略软件系统有限公司 一种基于多任务学习的命名实体识别方法和装置
CN111477320A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111477320B (zh) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111476022A (zh) * 2020-05-15 2020-07-31 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
WO2021121198A1 (zh) * 2020-09-08 2021-06-24 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112101041A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN113343690A (zh) * 2021-06-22 2021-09-03 北京语言大学 一种文本可读性自动评估方法及装置
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN114048749B (zh) * 2021-11-19 2024-02-02 北京第一因科技有限公司 一种适用于多领域的中文命名实体识别方法
CN114048749A (zh) * 2021-11-19 2022-02-15 重庆邮电大学 一种适用于多领域的中文命名实体识别方法
CN115587594A (zh) * 2022-09-20 2023-01-10 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN115587594B (zh) * 2022-09-20 2023-06-30 广东财经大学 网络安全的非结构化文本数据抽取模型训练方法及系统
CN115905456A (zh) * 2023-01-06 2023-04-04 浪潮电子信息产业股份有限公司 一种数据识别方法、系统、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107203511A (zh) 2017-09-26
CA3039280A1 (en) 2018-12-06
CA3039280C (en) 2021-07-20
RU2722571C1 (ru) 2020-06-01
AU2017416649A1 (en) 2019-05-02
CN107203511B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
Feifei et al. Bert-based Siamese Network for Semantic Similarity
CN113869040A (zh) 一种电网调度的语音识别方法
Shelke et al. A novel approach for named entity recognition on Hindi language using residual bilstm network
Sinapoy et al. Comparison of lstm and indobert method in identifying hoax on twitter
Cai et al. Multi-view and attention-based bi-lstm for weibo emotion recognition
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN113157866B (zh) 一种数据分析方法、装置、计算机设备及存储介质
Mu et al. Synonym recognition from short texts: A self-supervised learning approach
Li et al. Sentiment Analysis of User Comment Text based on LSTM
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Wang et al. Aspect level sentiment classification with memory network using word sentiment vectors and a new attention mechanism AM-PPOSC

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17911449

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3039280

Country of ref document: CA

ENP Entry into the national phase

Ref document number: 2017416649

Country of ref document: AU

Date of ref document: 20170620

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17911449

Country of ref document: EP

Kind code of ref document: A1