CN105955954A - 一种基于双向递归神经网络的新企业名称发现方法 - Google Patents
一种基于双向递归神经网络的新企业名称发现方法 Download PDFInfo
- Publication number
- CN105955954A CN105955954A CN201610286706.8A CN201610286706A CN105955954A CN 105955954 A CN105955954 A CN 105955954A CN 201610286706 A CN201610286706 A CN 201610286706A CN 105955954 A CN105955954 A CN 105955954A
- Authority
- CN
- China
- Prior art keywords
- word
- prime
- leftarrow
- rightarrow
- neutral net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 24
- 230000002457 bidirectional effect Effects 0.000 title abstract 4
- 239000000284 extract Substances 0.000 claims abstract description 15
- 230000007935 neutral effect Effects 0.000 claims description 55
- 210000002569 neuron Anatomy 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 8
- 230000018109 developmental process Effects 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000149 penetrating effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000002360 preparation method Methods 0.000 abstract 1
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的新企业名称发现方法,本发明通过现有的企业名称数据自动标注样本来训练双向递归神经网络,通过双向递归神经网络的学习自动识别待处理文本中的企业名称,并将不属于现有企业名称的新企业名称提取出来,本发明通过对文本的基本元素,比如字、词、标点符号等进行特征的自动学习,克服了传统方式中需要手动设置特征的缺陷;不仅如此,本发明应用了双向传播的RNN使得待识别的自然语言序列的分类判断结果依赖了上下文信息,提取和判断的准备率更高,本发明方法通过已有数据特点来发现新的企业实体名称,在大数据分析领域特别是以企业为分析主体的数据分析领域中具有重要的应用价值。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的新企业名称发现方法。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起于繁荣离不开大量的信息数据分析,而信息分析的价值在于准确和敏锐,敏锐的分析要求及时快速的发现新的信息;但是直接从网页上获取到数据大部分都是非结构化的,为了使用这些数据,数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如做企业征信,最常见的任务就是从大篇幅文本当中提取公司的名字。
除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里,公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。此外随着市场经济的繁荣,新增加的企业主体不断出现,新的市场主体的也会随之出现在各种各样的网络数据或媒体新闻中,从海量的网页资讯中快速准确的发现和提取出新的机构名称,对于相关问题分析的及时性具有特别重要的意义。
传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模,进行文本分析识别和发现公司名。使用条件随机场,首先需要根据待识别实体的特点来设计构建特征模板,特征模板包括指定窗口大小上下文的一阶词或者多阶词组,词的前缀、后缀,词性标注等状态特征;特征模板的构造非常耗时耗力,识别结果对特征模板的依赖程度极大,而手动设置的特征模板往往仅依据部分样本的特点,通用性差;而且通常只能用到局部的上下文信息,各个特征模板的使用也是相互独立的,预测不能依赖更长的历史状态信息,也无法利用更长未来的信息反馈来纠正可能的历史错误;预测过程费时费力,预测结果难以实现全局最优。
为了提升信息分析的敏锐性,研究一套基于自动化学习的方法来发现新的企业名称流程是必须的。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于双向递归神经网络的新企业名称发现方法。利用已有的企业名称数据标注样本来训练所述双向递归神经网络,通过递归神经网络来对文本中的企业主体名称进行预测,发现待处理文本中的企业名称,并进一步提取出新的企业名称。本发明使用大量的已有数据来自动标注训练样本,极大的节省了神经网络使用过程中手动标注样本的时间成本,使得神经网络的使用过程更加简化。不仅如此通过双向递归神经网络预测企业主体名称时既依赖了前文信息又依赖了后文信息,预测的结果实现了全局优化,识别的可靠性更高;且无需手动设置特征模板,节省人力且通用性更好,可以在各种类型的文本中发现并提取新的企业名称,为相关信息的及时分析提供技术支撑。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于双向递归神经网络的新企业名称发现方法,通过现有的企业名称数据自动标注样本来训练双向递归神经网络,通过所述双向递归神经网络自动识别出待处理文本中的企业名称,并将其中新企业名称提取出来。
本发明方法包含以下实现步骤:
(1)使用现有企业名称列表数据来自动标注训练样本中的企业名称,并将企业名称分段标记为:开始部分、中间部分、结束部分,将企业主体名称以外的文字标记为无关部分;
(2)将经过人工标记的训练样本中的文字序列,先正向再反向输入所双向述递归神经网络中,来训练所述双向递归神经网络,所述双向递归神经网络采用以下向前算法公式:
I为向量化的字或者词的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为正向输入(文字序列从头至尾正向输入所述神经网络)时t时刻所述双向递归神经网络的隐含层神经元的输入,为反向输入(文字序列从尾至头反向输入所述神经网络)时t时刻所述双向递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为隐含层神经元的非线性激励函数,为(先正向再反向输入)t时刻输出层神经元的输入,为t时刻输出层神经元的输出,为一个概率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值,取值最大的神经元对应的分类为t时刻所述双向递归神经网络预测的对应字或词的最终分类。
具体的,和是各个维度值均为0的向量,T为输入序列的长度。
(3)将待分析文本中的文字序列输入到所述双向递归神经网络中,经过所述双向递归神经网络对输入的文字序列进行分类,将分类结果中相邻的属于企业名称部分的序列所对应的文字作为企业名称整体提取出来。
(4)将所述双向递归神经网络识别出来的企业名称与现有企业列表数据对比,将不属于现有企业名称的作为新的企业名称提取出来。
具体的,本发明方法包含对待处理文本进行分词处理的步骤,所述待处理文本包括标注文本和待分析文本。将待处理文本适当分词之后形成对应的文字序列,为后续处理提供便利。
进一步的,所述步骤(1)根据分词处理的结果,对需要标注的文本中的文字序列进行标注,将其中的企业名称根据分词结果分段标注为:开始部分、中间部分和结束部分,将其他的文字序列标注为无关部分。
进一步的,本发明方法中通过构建词典映射表来实现待处理文本序列中字或者词的向量化。
进一步的,在标注文本中选取35%的样本作为开发样本,65%的样本为训练样本。在所述双向递归神经网络训练过程中仅保留在开发集上识别准确率最高的模型。
与现有技术相比,本发明的有益效果:本发明提供一种基于双向递归神经网络的新企业名称发现方法,利用已有的企业名称数据标注样本来训练所述双向递归神经网络,通过递归神经网络来对文本中的企业主体名称进行预测,发现待处理文本中的企业名称,并进一步提取出新的企业名称。不仅如此,本发明方法还利用利用双向递归神经网络来对文本中的企业主体名称进行预测,本发明方法在预测企业名称时,在一次向前算法中先将文本序列从头至尾依次正向输入所述递归神经网络中,再从尾至头反向输入到所述递归神经网络中;在正向和反向输入的过程中各时刻双向递归神经网络的输入信号还包括上一时刻递归神经网络的输出信号。这样在预测企业主体名称时既依赖了前文信息又依赖了后文信息,预测的结果实现了全局优化,识别的可靠性更高。而且通过双向递归神经网络的处理方式,无需手动设置特征模板,节省人力且通用性更好,可以在各种类型的文本中发现并提取企业名称,识别的召回率较传统基于规则的处理方法显著提高。本发明在发现企业名称的基础上,对比现有企业名称数据库,将不属于现有数据的企业名称确定为新发现的企业名称,添加到企业名称数据库中,利用本发明方法在海量互联网数据信息中快速的发现新的企业名称,为相关信息的及时捕捉提供了技术支撑。
附图说明:
图1为本基于双向递归神经网络的新企业名称发现方法的实现过程示意图。
图2为本基于双向递归神经网络的新企业名称发现方法的实现信号流程示意图。
图3为本基于双向递归神经网络的新企业名称发现方法实施例1的实现信号流程示意图。
应该明白本发明说明书附图仅为示意性的,不代表真实的实施方式。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种基于双向递归神经网络的新企业名称发现方法,利用已有的企业名称数据标注样本来训练所述双向递归神经网络,通过递归神经网络来对文本中的企业主体名称进行预测,发现待处理文本中的企业名称,并进一步提取出新的企业名称。为了实现上述发明目的,本发明提供以下技术方案:
一种基于双向递归神经网络的新企业名称发现方法,通过双向递归神经网络来识别待处理文本中的企业主体名称,包含如图1所示的实现步骤:
(1)选取一定数量(比如5000件)的包含企业名称的文本,并利用现有的企业数据对文本中的企业名称字段进行自动标注,并根据企业名称的具体情况,将企业名称分段标注为开始部分、中间部分和结束部分。将其他不属于企业名称的部分标注为无关部分。具体的,将文本中的企业或者组织名称分段标注为B(开始部分)、M(中间部分)和E(结束部分),将其他不属于企业或者组织机构的文字标注为N(非企业名称),使用字母或者数字来标记文字序列,简单且易于处理,为后续相关序列的操作提供便利。使用现有企业数据来自动标注样本,进而进行神经网络的训练,极大的节省了神经网络在使用过程中人工标注样的人力和时间成本,简化了神经网络技术的应用过程。
(2)将经过人工标记的训练样本中的文字序列依次正向和反向输入到所述双向递归神经网络中,训练所述双向递归神经网络;(所述正向输入是指将序列中的字或者词,按照位置的前后顺利依次输入对应时刻的递归神经网络中,所述反向输入是指将序列中的字或者词倒序依次输入对应时刻的递归神经网中)所述双向归神经网络每个当前时刻的输入信号还包括上一时刻所述双向递归神经网络的输出信号,正向和反向信息传输入都结束后,停止递归。
(3)将待分析文档中的文字序列输入到所述双向递归神经网络中,经过所述双向递归神经网络对输入的文字序列进行分类,分别识别出待提取文字序列的类型(N、B、M或者E),将分类结果中两个相邻N之间的B M E序列对应的文字作为企业名称整体提取出来。
进一步的,本发明方法包含对待处理文本(所述待处理文本包括标注文本和待分析文本)进行分词处理的步骤。将待处理文本适当分词之后形成对应的文字序列,目前可用的分词工具很多比如说:斯坦福分词器、ICTCLAS、盘古分词、庖丁分词器……通过分词将较长的文本内容分解成相对独立的字词单元,使待处理文本内容离散化、序列化,为递归神经网络的应用提供基础。
进一步的,所述步骤(1)根据分词处理的结果,对训练样本中的企业主体名称进行相应的标注。
具体的,所述步骤(2)中,所述双向递归神经网络采用以下向前算法公式:
I为文字序列中的字或者词向量化后的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为正向输入(文字序列正向输入神经网络)时,t时刻所述双向递归神经网络的隐含层神经元的输入(本发明方法中所述双向递归神经网络的时刻序号与输入文字序列的位置序号相对应,比如所文字序列中处于第3位置的字或者词,对应输入第3时刻的双向递归神经网络中),为反向输入(文字序列反向输入神经网络)时,t时刻所述双向递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为为隐含层神经元的非线性激励函数,为t时刻输出层神经元的输入,可以看出结合了t时刻正向输入时隐含层神经元的输出信号和反向输入时的隐含层神经元的输出信号),的计算结果一直向前传播直到所述双向递归神经网络输出该时刻的分类结果;这样在计算当前时刻对应字或者词的分类结果时既结合了历史序列信息又结合了未来序列信息,依赖了整个文本的上下文信息而非局部信息,从而使得预测结果达到了全局最优。为t时刻输出层神经元的输出,为一个概率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值,通常取最大的神经元对应的分类为该时刻所述双向递归神经网络预测的最终分类。和是各个维度值均为0的向量,T为输入序列的长度。
根据该向前算法公式,本发明方法的信号流向如图2、图3所示(其中vec-a、vec-b、vec-c、vec-d、vec-e、vec-f、vec-g、vec-h、vec-i、vec-j、vec-k、vec-l、vec-m……vec-z等代表词典映射表中二维矩阵的行向量)。
从上述向前算法公式可以看出,本发明方法使用双向递归神经网络的方式在预测企业名称时,在一次向前算法中先将文本序列从头至尾依次正向输入所述递归神经网络中,再从尾至头反向输入到所述递归神经网络中;在正向和反向输入的过程中各时刻双向递归神经网络的输入信号包括该时刻向量化的字或者词信号和上一时刻递归神经网络的输出信号,仅在反向输入时所述双向递归神经网络才输出该时刻对应字或者词的分类结果。这样在预测企业主体名称时既依赖了前文信息又依赖了后文信息,预测的结果为实现了全局优化,识别的可靠性更高。而且通过双向递归神经网络的处理方式,无需手动设置特征模板,节省人力且通用性更好,可以在各种类型的文本中发现并提取企业名称,识别的召回率较传统基于规则的处理方法显著提高。
进一步的,本发明采用上述向前算法在所述双向递归神经网络中来逐层传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改各神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述双向递归神经网络模型已经训练完成。
进一步的,所述步骤(3)中,将所述双向递归神经网络分类结果中NBM…EN、NBM…N、NM…EN中BM…E、BM…、M…E对应的文字作为企业名称整体提取出来,其中M…为至少1个M组成的序列,这样就完成了企业名称的判断和提取。这样本发明方法不仅可以判断出命名规则的企业名称:BM…E,也可以发现非正式文本中的企业简称:BM…、M…E,比如说一家企业名称在正式文本为:“北京XXXX有限公司”而在非正式文本中则可能以“北京XXXX”的形式出现,省略了常规企业名称提取中所依赖的关键后缀:“企业”、“公司”、“集团”等,而通过本发明方法这样的简称或者缩写:BM…、M…E也可以被提取出来,极大的提高了企业名称发现的召回率,改善了企业名称提取不全而出现的信息漏判问题。
进一步的,本发明方法中通过构建词典映射表来实现待处理文本中字或者词的向量化。所述词典映射表为一个二维矩阵,其中每一个行向量对应一个字或者词,而这种行向量与字词的对应关系是在构建这个词典映射表时设置的。
进一步的,在人工标注文本的样本中选取35%的样本作为开发样本,65%的样本为训练样本。在所述双向递归神经网络训练过程中仅保留在开发集上识别准确率最高的模型。在神经网络的训练过程中使用开发集来验证训练的效果,可以防止神经网络训练模型的过拟合,保证神经网络的训练朝着正确的方向进行。
实施例1
比如在网络获取了如下的新闻文本:“2016年3月15日公告,公司第七届董事会第五次会议,审议通过了《关于公司及全资子公司投资成立子公司的议案》,公司拟成立的六家全资子公司分别为ABCD医疗投资管理有限公司、ABCD医药电子商务有限公司、ABCD投资基金管理有限公司、ABCD新能源有限公司、ABCD基础设施投资有限公司、ABCD投资有限公司。投资金额:总投资金额折合人民币约为6.3亿元。”经过分词得到:“2016年/3月/15日/公告/,/公司/第七/届/董事会/第五/次/会议/,/审议/通过了/《/关于/公司/及/全资/子公司/投资/成立/子公司/的/议案/》/,/公司/拟/成立/的/六家/全资/子公司/分别为/AB/CD/医疗/投资管理/有限公司/、/AB/CD/医药/电子商务/有限公司/、/AB/CD/投资/基金管理/有限公司/、/AB/CD/新能源/有限公司/、/AB/CD/基础设施/投资/有限公司/、/AB/CD/投资/有限公司/。/投资/金额/:/总/投资/金额/折合/人民币/约为/6.3亿元/。”将上述经过分词形成的文字序列,输入到所述双向递归神经中,经过所述递归神经网络的预测,输出:“NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNMMMMENMMMMENMMMMENMMMENMMMMENMMMMENNNNNNNNNNNN”将分类序列中的MMMME、MMMME、MMMME、MMME、MMMME、MMMME对应的文字序列:“ABCD医疗投资管理有限公司”、“ABCD医药电子商务有限公司”、“ABCD投资基金管理有限公司”、“ABCD新能源有限公司”、“ABCD基础设施投资有限公司”、“ABCD投资有限公司”作为企业名称整体提取出来。将上述提取出来的企业名称和现有的企业名称数据库进行对比,如果上述企业名称不存在与现有的企业名称数据库中,则将上述企业名称作为新的企业添加进入现有企业名称数据库中,为相关的数据分析提供基础。
Claims (10)
1.一种基于双向递归神经网络的新企业名称发现方法,其特征在于,通过现有的企业名称数据自动标注样本来训练双向递归神经网络,通过所述双向递归神经网络自动识别出待处理文本中的企业名称,并将其中新企业名称提取出来。
2.如权利要求1所述的方法,其特征在于,包含以下实现步骤:
(1)使用现有企业名称列表数据来自动标注训练样本中的企业名称,并将企业名称分段标记为:开始部分、中间部分、结束部分,将企业主体名称以外的文字标记为无关部分;
(2)将经过人工标记的训练样本中的文字序列,先正向再反向输入所双向述递归神经网络中,训练所述双向递归神经网络;
(3)将待分析文本中的文字序列,先正向再反向输入训练好的所述双向递归神经网络中,经过双向递归神经网络判断出文字序列中各个词或者字的类型,并将其中相邻的属于企业名称的开始中间结束部分对应的字词作为一个整体提取出来;
(4)将所述双向递归神经网络识别出来的企业名称与现有企业列表数据对比,将不属于现有企业名称的作为新的企业名称提取出来。
3.如权利要求2所述的方法,其特征在于,所述双向递归神经网络采用如下向前算法公式:
I为向量化的字或者词的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为正向输入时t时刻所述双向递归神经网络的隐含层神经元的输入,为反向输入时t时刻所述双向递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为为隐含层神经元的非线性激励函数,为t时刻输出层神经元的输入,为t时刻输出层神经元的输出,为一个概率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值。
4.如权利要求3所述的方法,其特征在于,和是各个维度值均为0的向量,其中T为输入文字序列的长度。
5.如权利要求1至4之一所述的方法,其特征在于,包含对待处理文本进行分词的过程,所述待处理文本包括标注文本和待分析文本。
6.如权利要求5所述的方法,其特征在于,通过构建词典映射表来实现待处理文本序列中字或者词的向量化,所述词典映射表为一个矩阵,其中的每个行向量对应一个字或者词,而行向量与字或者词的对应关系在构建所述词典映射时设置的。
7.如权利要求6所述的方法,其特征在于,在进行数据标注时,将待标注文本中的企业名称的开始部分标记为B、中间部分标记为M、结束部分标记为E,将企业主体名称以外的文字的无关部分标记为N。
8.如权利要求7所述的方法,其特征在于,所述步骤(3)中,将所述双向递归神经网络分类结果中NBM…EN、NBM…N、NM…EN中BM…E、BM…、M…E对应的文字作为企业名称整体提取出来,其中M…为至少1个M组成的序列。
9.如权利要求8所述的方法,其特征在于,在标注文本中选取35%的样本作为开发样本,65%的样本为训练样本。
10.如权利要求7所述的方法,其特征在于,在所述双向递归神经网络训练过程中仅保留在开发集上识别准确率最高的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286706.8A CN105955954A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的新企业名称发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286706.8A CN105955954A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的新企业名称发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105955954A true CN105955954A (zh) | 2016-09-21 |
Family
ID=56913660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610286706.8A Pending CN105955954A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的新企业名称发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105955954A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777336A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于深度学习的公司名成分抽取系统和方法 |
CN108428137A (zh) * | 2017-02-14 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 生成简称、校验电子金融业务合法性的方法及装置 |
CN108733828A (zh) * | 2018-05-24 | 2018-11-02 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
-
2016
- 2016-05-03 CN CN201610286706.8A patent/CN105955954A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
Non-Patent Citations (2)
Title |
---|
ALEX GRAVES等: "Speech recognition with deep recurrent neural networks", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
JASON P.C. CHIU 等: "Named Entity Recognition with Bidirectional LSTM-CNNs", 《ARXIV:1511.08308V1》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777336A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于深度学习的公司名成分抽取系统和方法 |
CN108428137A (zh) * | 2017-02-14 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 生成简称、校验电子金融业务合法性的方法及装置 |
CN108733828A (zh) * | 2018-05-24 | 2018-11-02 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
CN108733828B (zh) * | 2018-05-24 | 2020-06-05 | 北京金堤科技有限公司 | 公司名称的提取方法、装置和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975555A (zh) | 一种基于双向递归神经网络的企业简称提取方法 | |
CN105955952A (zh) | 一种基于双向递归神经网络的信息提取方法 | |
CN105976056A (zh) | 基于双向rnn的信息提取系统 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN107168945A (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析系统 | |
CN106202044A (zh) | 一种基于深度神经网络的实体关系抽取方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN108228568B (zh) | 一种数学题目语义理解方法 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN104298651A (zh) | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN105975987A (zh) | 一种基于全自动学习的企业行业分类方法 | |
CN108664589A (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN111326040B (zh) | 语文阅读理解智能测试和智能辅导系统和方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110825867A (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN105955954A (zh) | 一种基于双向递归神经网络的新企业名称发现方法 | |
CN105975456A (zh) | 一种企业实体名称分析识别系统 | |
Ghosh et al. | CARES: CAuse recognition for emotion in suicide notes | |
CN112685513A (zh) | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 | |
Gaheen et al. | Automated students arabic essay scoring using trained neural network by e-jaya optimization to support personalized system of instruction | |
CN115795056A (zh) | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160921 |