CN109492215A - 新闻实体识别方法、装置、计算机设备和存储介质 - Google Patents
新闻实体识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109492215A CN109492215A CN201811090023.0A CN201811090023A CN109492215A CN 109492215 A CN109492215 A CN 109492215A CN 201811090023 A CN201811090023 A CN 201811090023A CN 109492215 A CN109492215 A CN 109492215A
- Authority
- CN
- China
- Prior art keywords
- marked
- word vector
- obtains
- chinese character
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 259
- 238000013528 artificial neural network Methods 0.000 claims description 78
- 238000012549 training Methods 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 27
- 230000002457 bidirectional effect Effects 0.000 claims description 20
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种基于自然语言处理的新闻实体识别方法、装置、计算机设备和存储介质。该方法包括:获取待标注新闻语料数据,并获取待标注新闻语料数据中的每一个中文字符的字符序列;将字符序列输入到预先训练好的双向语言模型中获取输出值,得到中文字符的第一字向量;将字符序列输入到预设词向量模型中获取输出值,得到中文字符的第二字向量;合并第一字向量与第二字向量,得到中文字符对应的待标注字向量;将待标注字向量输入到预先训练好的实体识别模型,得到待标注新闻语料数据的最佳标签序列,并从最佳标签序列中提取出待标注新闻语料数据中的公司名称。采用本方法能够使得有歧义的公司名称的识别结果减少,提高公司名称识别结果的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种新闻实体识别方法、装置、计算机设备和存储介质。
背景技术
目前,对新闻语料中公司名称的识别的主导技术是监督式学习,例如传统的隐马尔科夫模型(HMMS)、条件随机场算法(Conditional Random Field algorithm,CRF)等机器学习方法,以及近几年被提出来的循环神经网络(Recurrent Neural Network,RNN)等人工神经网络方法,这些方法在序列标注方法上已经取得了较好的表现。但是,机器学习方法过度的依赖人工提取特征和特定的语言资源,神经网络方法虽然在模型中能够实现特征的自动抽取,但有需要大量的有标注或注释的语料进行参数训练,而新闻语料中的公司名称已标注或注释的语料相对而言较少,难以训练复杂的模型;而新闻语料中的公司名称常常会以公司名称的简称出现,或者会出现一些新的公司名称,利用该模型对新闻语料文本的公司名称的识别效果并不理想。
发明内容
基于此,有必要针对传统的新闻实体识别模型对公司名称的识别准确度低的技术问题,提供一种新闻实体识别方法、装置、计算机设备和存储介质。
一种新闻实体识别方法,所述方法包括:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
在其中一个实施例中,所述实体识别模型包括双向循环神经网络以及条件随机场模型;
所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤,包括:
将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;
将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。
在其中一个实施例中,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前,还包括:
建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;
获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;
将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。
在其中一个实施例中,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤,包括:
将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;
将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;
合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
在其中一个实施例中,所述得到所述双向语言模型的步骤之后,包括:
获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中文字符的字符序列,其中,所述新闻语料训练样本中的中文字符具有对应的字符标签;
将所述新闻语料训练样本中的字符序列分别输入至所述双向语言模型以及所述预设词向量模型中获取输出值,得到第三字向量以及第四字向量;
合并所述第三字向量与所述第四字向量,得到与所述新闻语料训练样本中的中文字符对应的字向量样本;
根据所述新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对所述实体识别模型进行有监督训练。
在其中一个实施例中,所述条件随机场模型中采用的标注规则为BIOES模式;
所述从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤,包括:
从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
一种新闻实体识别装置,所述装置包括:
新闻语料获取模块,用于获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
第一字向量获取模块,用于将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
第二字向量获取模块,用于将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
待标注字向量获取模块,用于合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
公司名称获取模块,用于将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
在其中一个实施例中,所述第一字向量获取模块用于将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
上述新闻实体识别方法、装置、计算机设备和存储介质,先通过双向语言模型获取待标注新闻语料数据中中文字符的第一字向量,然后将第一字向量与通过预设词向量模型获取的第二字向量进行级联合并,作为待标注新闻语料数据中中文字符的待识别字向量,用于新闻语料数据中公司名称的识别中,其中,第一字向量以及第二字向量有效表征中各个中文字符在待标注新闻语料中位置的语义以及语法含义,字符级别的知识能够为下游任务捕获到与语言相关的特征,在公司名称的识别过程中能够提供更多的语义特征,使得有歧义的公司名称的识别结果减少,提高公司名称识别结果的准确度。
附图说明
图1为本发明一个实施例中新闻实体识别方法的应用场景图;
图2为本发明一个实施例中新闻实体识别方法的流程示意图;
图3为本发明另一个实施例中新闻实体识别方法的流程示意图;
图4为本发明一个实施例中新闻实体识别装置的结构框图;
图5为本发明另一个实施例中新闻实体识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的新闻实体识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104接收终端102发送的新闻语料数据,利用双向语言模型将新闻语料数据中的中文字符转换为第一字向量,利用预设词向量模型将中文字符转换为第二字向量,然后将第一字向量以及第二字向量进行级联获取待识别字向量,将待识别字向量输入至实体识别模型中以获取新闻语料数据中的公司名称。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种新闻实体识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S210:获取待标注新闻语料数据,并获取待标注新闻语料数据中的每一个中文字符的字符序列。
本步骤中,字符序列可以独热码(One-Hot Encoder),即在一个字符序列中只存在一个1其余全为0的序列,每个中文字符对应于一个字符序列。具体的,服务器获取终端输入的待标注新闻语料数据,并将该待标注新闻语料数据分解成单个中文字符的形式,并将每一个中文字符转为对应的字符序列。
步骤S220:将字符序列输入到预先训练好的双向语言模型中获取输出值,得到中文字符的第一字向量。
本步骤中,服务器将每个中文字符对应的字符序列输入至双向语言模型中,根据双向语言模型的输出中获取中文字符的第一字向量,其中,双向语言模型可以使用无任何标注的文本语料数据进行提前无监督训练,无需依赖有标注的文本语料数据,利用双向语言模型实现对中文字符的编码获得的第一字向量,表征着该中文字符在句子位置中的上下文语义以及语法。
步骤S230:将字符序列输入到预设词向量模型中获取输出值,得到中文字符的第二字向量。
本步骤中,预设词向量模型可以是利用word2vce训练的基于字的嵌入模型,服务器将每个中文字符对应的字符序列输入至预设词向量模型中,根据预设词向量模型的输出中获取中文字符的第二字向量。
步骤S240:合并第一字向量与第二字向量,得到与待标注新闻语料数据中的中文字符对应的待标注字向量。
本步骤中,服务器中获得每个中文符号对应第一字向量以及第二字向量后,将第一字向量以及第二字向量进行拼接,获得每个中文字符的待标注字向量。具体的,待标注新闻语料数据中的中文字符对应的第一字向量表示为h1以及第二字向量表示为h2,则将第一字向量h1与第二字向量h2进行级联拼接,获得待标注字向量ht=[h1;h2]。
步骤S250:将待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到待标注新闻语料数据的最佳标签序列,并从最佳标签序列中提取出待标注新闻语料数据中的公司名称。
本步骤中,服务器获得待标注新闻语料中每个中文字符对应的待标注字向量以后,将待标注字向量依次输入至实体识别模型中,以获取待标注新闻语料中中文字符的最佳标签序列,并根据最佳标签序列中每个中文字符对应的标注标签,获取待标注新闻语料中的公司名称。
上述新闻实体识别方法中,先通过双向语言模型获取待标注新闻语料数据中中文字符的第一字向量,然后将第一字向量与通过预设词向量模型获取的第二字向量进行级联合并,作为待标注新闻语料数据中中文字符的待识别字向量,用于新闻语料数据中公司名称的识别中,其中,第一字向量以及第二字向量有效表征中各个中文字符在待标注新闻语料中位置的语义以及语法含义,字符级别的知识能够为下游任务捕获到与语言相关的特征,在公司名称的识别过程中能够提供更多的语义特征,使得有歧义的公司名称的识别结果减少,提高公司名称识别结果的准确度。
在其中一个实施例中,实体识别模型包括双向循环神经网络以及条件随机场模型;将待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到待标注新闻语料数据的最佳标签序列的步骤,包括:将待标注字向量输入到双向循环神经网络中,获取待标注新闻语料数据中的中文字符对应的特征向量;将特征向量输入至条件随机场模型中,获取待标注新闻语料数据的最佳标签序列。
本实施例中,服务器将待标注新闻语料数据中每个中文字符对应的待标注字向量输入至双向循环神经网络中,通过双向循环神经网络获取该中文字符的特征向量,该特征向量中的数据可以理解为该中文字符分类到各个类型标签的分数值;服务器将中文字符的特征向量输入至条件随机场模型中,通过条件随机场模型选择使得待标注新闻语料数据具有最高预测分数的、各中文字符最佳标签,从而获取待标注新闻语料数据的最佳标签序列。
具体的,双向循环神经网络包括前向循环神经网络层以及后向神经网络层;服务器将中文字符对应的待标注字向量ht输入至双向循环神经网络的前向循环神经网络层,根据当前待标注字向量ht的前一个待标注字向量ht-1的隐状态向量计算当前待标注字向量ht的前向隐状态向量并通过双向循环神经网络的后向循环神经网络层,根据当前待标注字向量ht的后一个待标注字向量ht+1的隐状态向量计算当前待标注字向量ht的后向隐状态向量然后将前向隐状态向量与后向隐状态向量进行拼接,获得待标注新闻语料数据中的中文字符对应的特征向量获得中文字符对应的特征向量xt后,将特征向量依次输入至条件随机场模型中,计算待标注新闻语料数据的最佳标签序列。
在其中一个实施例中,将字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前,还包括:建立一个双向递归神经网络模型,其中双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将无标注语料样本中的中文字符转化为对应的字符序列;将无标注语料样本的字符序列输入至双向的递归神经网络模型中,利用无标注语料样本的字符序列对前向递归神经网络隐含层以及后向递归神经网络隐含层进行无监督训练,得到双向语言模型。
本实施例中,无监督训练是指只将输入项的数据输入,而输出项的数据并不提供,也无须双向递归神经网络模型输出定义的输出项数据;双向语言模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;服务器在获取无标注语料样本后,将无标注语料样本中中文字符转化为对应的字符序列,并将这些字符序列作为输入项输入至双向递归神经网络模型中,双向递归神经网络模型的前向递归神经网络隐含层以及后向递归神经网络隐含层分别对输入的字符序列进行特征学习,以获取经过特征学习的双向语言模型。通过大量无标注语料样本训练的双向语言模型可以在给定前一个中文字符的情况下预测句子中下一个中文字符,在一定程度上表达了中文字符在句子内容中的语义和语法含义,为下游任务捕获更多与语言相关的特征,使得实体识别减少对专业领域中的标注数据的依赖,解决实体识别模型语料库不足的问题,使得实体识别模型更少依赖人工特征。
在其中一个实施例中,将字符序列输入到预先训练好的双向语言模型中获取输出值,得到中文字符的第一字向量的步骤,包括:将待标注新闻语料数据的字符序列输入至前向递归神经网络隐含层中,获取前向隐状态序列;将待标注新闻语料数据的字符序列输入至后向递归神经网络隐含层中,获取后向隐状态序列;合并前向隐状态序列以及后向隐状态序列生成中文字符的第一字向量。
本实施例中,服务器将待标注新闻语料数据中的中文字符的字符序列输入至双向语言模型中,通过前向递归神经网络隐含层,根据当前待标注字向量的前一个待标注字向量的隐状态向量计算当前待标注字向量的前向隐状态序列;并通过后向递归神经网络隐含层,根据当前待标注字向量的后一个待标注字向量的隐状态向量计算当前待标注字向量的后向隐状态序列,然后将前向隐状态序列与后向隐状态序列进行级联,获得第一字向量,其中,第一字向量包含着中文字符与前后中文字符的依赖关系,在后续对新闻文本语料进行实体识别时,能够提供更多与语言、语义相关的特征,有效识别公司名称任务减少对专业领域中的标注数据的依赖。
在其中一个实施例中,得到双向语言模型的步骤之后,包括:获取新闻语料训练样本,并获取新闻语料训练样本中的每一个中文字符的字符序列,其中,新闻语料训练样本中的中文字符具有对应的字符标签;将新闻语料训练样本中的字符序列分别输入至双向语言模型以及预设词向量模型中获取输出值,得到第三字向量以及第四字向量;合并第三字向量与第四字向量,得到与新闻语料训练样本中的中文字符对应的字向量样本;根据新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对实体识别模型进行有监督训练。
本实施例中,新闻语料训练样本中,各个公司名称已经对应的标注上实体标签;在获得双向语言模型以后,可以利用新闻语料训练样本对实体识别模型进行有监督训练,其中,通过双向语言模型获得的第三字向量包含着中文字符与前后中文字符的依赖关系,能够提供更多与语言、语义相关的特征,在进行实体识别模型的训练时,有效减少实体识别模型对专业领域中的标注数据的依赖,在新闻语料中的公司名称已标注或注释的语料相对而言较少的情况下,有效提高实体识别模型对待标注字向量的最佳标签的标注的准确性,从而提高待标注新闻语料数据中的公司名称识别的准确性。
在其中一个实施例中,条件随机场模型中采用的标注规则为BIOES模式;从最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤,包括:从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的公司名称。
本实施例中,BIOES模式下标签列表如下:B标签,即Begin,表示公司名称的开始字符;I标签,即Intermediate,表示公司名称的中间字符;E标签,即End,表示公司名称的结尾字符;S标签,即Single,表示单个字符;O标签,即Other,表示其他字符,用于标记无关字符;服务器在获取到待标注新闻语料数据中的最佳标签序列后,将连续标注的B标签、I标签以及E标签对应的中文字符确定为公司名称。
在一个实施例中,如图3所示,提供了一种新闻实体识别方法,包括以下步骤:
步骤S301:获取待标注新闻语料数据,并获取待标注新闻语料数据中的每一个中文字符的字符序列。
本步骤中,服务器获取终端输入的待标注新闻语料数据,并将该待标注新闻语料数据分解成单个中文字符的形式,并将每一个中文字符转为对应的字符序列;例如,服务器获取终端输入待标注新闻语料数据为“发展集团转型成功”,并将“发展集团转型成功”分解为单个中文字符形式,每个中文字符转为对应的字符序列ai,i=1,2,…,n,在本实施例中n=8,每个字符序列的维数可以根据具体情况设置。
步骤S302:将待标注新闻语料数据的字符序列输入至双向语言模型的前向递归神经网络隐含层中,获取前向隐状态序列。
具体的,服务器将待标注新闻语料数据每个中文字符对应的字符序列(a1,a2,a3,a4,a5,a6,a7,a8)输入至双向语言模型的前向循环神经网络层,根据当前字符序列ai的前一个字符序列ai-1的隐状态序列计算当前字符序列ai的前向隐状态序列获得待标注新闻语料数据中中文字符对应的前向隐状态序列
步骤S303:将待标注新闻语料数据的字符序列输入至双向语言模型的后向递归神经网络隐含层中,获取后向隐状态序列。
具体的,服务器同时将待标注新闻语料数据每个中文字符对应的字符序列(a1,a2,a3,a4,a5,a6,a7,a8)输入至双向语言模型的前向循环神经网络层,根据当前字符序列ai的后一个字符序列ai+1的隐状态序列计算当前字符序列ai的前向隐状态序列获得待标注新闻语料数据中中文字符对应的前向隐状态序列
步骤S304:合并前向隐状态序列以及后向隐状态序列生成中文字符的第一字向量。
具体的,前向隐状态序列与后向隐状态序列进行拼接,获得待标注新闻语料数据中的中文字符对应的第一字向量从而获得待标注新闻语料数据中中文字符对应的第一字向量(h1,1,h1,2,h1,3,h1,4,h1,5,h1,6,h1,7,h1,8)。
步骤S305:将字符序列输入到预设词向量模型中获取输出值,得到中文字符的第二字向量。
本步骤中,服务器将每个中文字符对应的字符序列ai输入至预设word2vce词向量模型中,根据word2vce词向量模型的输出中获取中文字符的第二字向量h2,i,从而获得待标注新闻语料数据中中文字符对应的第二字向量(h2,1,h2,2,h2,3,h2,4,h2,5,h2,6,h2,7,h2,8)。
步骤S306:合并第一字向量与第二字向量,得到与待标注新闻语料数据中的中文字符对应的待标注字向量。
本步骤中,服务器将待标注新闻语料数据中的中文字符对应的第一字向量h1,i以及第二字向量h2,i进行级联拼接,获得待标注字向量ht,i=[h1,i;h2,i]。
步骤S307:将待标注字向量输入到双向循环神经网络中,获取待标注新闻语料数据中的中文字符对应的特征向量。
步骤S308:将特征向量输入至条件随机场模型中,获取待标注新闻语料数据的最佳标签序列,其中,条件随机场模型中采用的标注规则为BIOES模式。
具体的,服务器将待标注新闻语料数据中每个中文字符对应的待标注字向量ht,i输入至双向循环神经网络中,通过双向循环神经网络获取该中文字符的特征向量,并将中文字符的特征向量输入至条件随机场模型中,通过条件随机场模型选择使得待标注新闻语料数据具有最高预测分数的、各中文字符最佳标签,从而获取待标注新闻语料数据的最佳标签序列,本实施例中,对于待标注新闻语料数据“发展集团转型成功”,最终获得的最佳标签序列为{B,I,I,E,O,O,O,O}。
步骤S309:从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
具体的,从待标注新闻语料数据“发展集团转型成功”最终提取得到企业名称“发展集团”。
上述新闻实体识别方法、装置、计算机设备和存储介质,先通过双向语言模型获取待标注新闻语料数据中中文字符的第一字向量,然后将第一字向量与通过预设词向量模型获取的第二字向量进行级联,作为待标注新闻语料数据中中文字符的待识别字向量,用于新闻语料数据中公司名称的识别中,其中,通过双向语言模型获取的第一字向量有效表征中各个中文字符在待标注新闻语料中位置的语义以及语法含义,能够为下游任务捕获很多与语言相关的特征,在公司名称的识别过程中能够提供更多的语义特征,使得有歧义的公司名称的识别结果减少,提高公司名称识别结果的准确度。
应该理解的是,虽然图2以及图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2以及图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图4所示,提供了一种新闻实体识别装置,包括:新闻语料获取模块410、第一字向量获取模块420、第二字向量获取模块430、待标注字向量获取模块440和公司名称获取模块450,其中:
新闻语料获取模块410,用于获取待标注新闻语料数据,并获取待标注新闻语料数据中的每一个中文字符的字符序列;
第一字向量获取模块420,用于将字符序列输入到预先训练好的双向语言模型中获取输出值,得到中文字符的第一字向量;
第二字向量获取模块430,用于将字符序列输入到预设词向量模型中获取输出值,得到中文字符的第二字向量;
待标注字向量获取模块440,用于合并第一字向量与第二字向量,得到与待标注新闻语料数据中的中文字符对应的待标注字向量;
公司名称获取模块450,用于将待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到待标注新闻语料数据的最佳标签序列,并从最佳标签序列中提取出待标注新闻语料数据中的公司名称。
在其中一个实施例中,第一字向量获取模块用于将待标注新闻语料数据的字符序列输入至前向递归神经网络隐含层中,获取前向隐状态序列;将待标注新闻语料数据的字符序列输入至后向递归神经网络隐含层中,获取后向隐状态序列;合并前向隐状态序列以及后向隐状态序列生成中文字符的第一字向量。
在其中一个实施例中,实体识别模型包括双向循环神经网络以及条件随机场模型;公司名称获取模块450用于将待标注字向量输入到双向循环神经网络中,获取待标注新闻语料数据中的中文字符对应的特征向量;将特征向量输入至条件随机场模型中,获取待标注新闻语料数据的最佳标签序列。
在其中一个实施例中,如图5所示,提供了一种新闻实体识别装置,新闻实体识别装置还包括双向语言模型构建模块460,双向语言模型构建模块460用于建立一个双向递归神经网络模型,其中双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将无标注语料样本中的中文字符转化为对应的字符序列;将无标注语料样本的字符序列输入至双向的递归神经网络模型中,利用无标注语料样本的字符序列对前向递归神经网络隐含层以及后向递归神经网络隐含层进行无监督训练,得到双向语言模型。
在其中一个实施例中,双向语言模型构建模块460还用于获取新闻语料训练样本,并获取新闻语料训练样本中的每一个中文字符的字符序列,其中,新闻语料训练样本中的中文字符具有对应的字符标签;将新闻语料训练样本中的字符序列分别输入至双向语言模型以及预设词向量模型中获取输出值,得到第三字向量以及第四字向量;合并第三字向量与第四字向量,得到与新闻语料训练样本中的中文字符对应的字向量样本;根据新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对实体识别模型进行有监督训练。
在其中一个实施例中,条件随机场模型中采用的标注规则为BIOES模式;公司名称获取模块450用于从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
关于新闻实体识别装置的具体限定可以参见上文中对于新闻实体识别方法的限定,在此不再赘述。上述新闻实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别新闻语料数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻实体识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
在其中一个实施例中,所述实体识别模型包括双向循环神经网络以及条件随机场模型;处理器执行计算机程序实现所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤时,具体实现以下步骤:将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。
在其中一个实施例中,处理器执行计算机程序实现所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤时,具体实现以下步骤:将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中文字符的字符序列,其中,所述新闻语料训练样本中的中文字符具有对应的字符标签;将所述新闻语料训练样本中的字符序列分别输入至所述双向语言模型以及所述预设词向量模型中获取输出值,得到第三字向量以及第四字向量;合并所述第三字向量与所述第四字向量,得到与所述新闻语料训练样本中的中文字符对应的字向量样本;根据所述新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对所述实体识别模型进行有监督训练。
在其中一个实施例中,所述条件随机场模型中采用的标注规则为BIOES模式;处理器执行计算机程序实现所述从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤时,具体实现以下步骤:从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
在其中一个实施例中,所述实体识别模型包括双向循环神经网络以及条件随机场模型;计算机程序被处理器执行实现所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤时,具体实现以下步骤:将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。
在其中一个实施例中,计算机程序被处理器执行实现所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤时,具体实现以下步骤:将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中文字符的字符序列,其中,所述新闻语料训练样本中的中文字符具有对应的字符标签;将所述新闻语料训练样本中的字符序列分别输入至所述双向语言模型以及所述预设词向量模型中获取输出值,得到第三字向量以及第四字向量;合并所述第三字向量与所述第四字向量,得到与所述新闻语料训练样本中的中文字符对应的字向量样本;根据所述新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对所述实体识别模型进行有监督训练。
在其中一个实施例汇总,所述条件随机场模型中采用的标注规则为BIOES模式;计算机程序被处理器执行实现所述从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤时,具体实现以下步骤:从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种新闻实体识别方法,所述方法包括:
获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
2.根据权利要求1所述的方法,其特征在于,所述实体识别模型包括双向循环神经网络以及条件随机场模型;
所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤,包括:
将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;
将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前,还包括:
建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;
获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;
将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤,包括:
将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;
将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;
合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
5.根据权利要求3所述的方法,其特征在于,所述得到所述双向语言模型的步骤之后,包括:
获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中文字符的字符序列,其中,所述新闻语料训练样本中的中文字符具有对应的字符标签;
将所述新闻语料训练样本中的字符序列分别输入至所述双向语言模型以及所述预设词向量模型中获取输出值,得到第三字向量以及第四字向量;
合并所述第三字向量与所述第四字向量,得到与所述新闻语料训练样本中的中文字符对应的字向量样本;
根据所述新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对所述实体识别模型进行有监督训练。
6.根据权利要求1所述的方法,其特征在于,所述条件随机场模型中采用的标注规则为BIOES模式;
所述从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤,包括:
从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。
7.一种新闻实体识别装置,其特征在于,所述装置包括:
新闻语料获取模块,用于获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;
第一字向量获取模块,用于将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;
第二字向量获取模块,用于将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;
待标注字向量获取模块,用于合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;
公司名称获取模块,用于将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。
8.根据权利要求7所述的装置,其特征在于,所述第一字向量获取模块用于将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述新闻实体识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述新闻实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811090023.0A CN109492215A (zh) | 2018-09-18 | 2018-09-18 | 新闻实体识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811090023.0A CN109492215A (zh) | 2018-09-18 | 2018-09-18 | 新闻实体识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492215A true CN109492215A (zh) | 2019-03-19 |
Family
ID=65689237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811090023.0A Pending CN109492215A (zh) | 2018-09-18 | 2018-09-18 | 新闻实体识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492215A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110245216A (zh) * | 2019-06-13 | 2019-09-17 | 出门问问信息科技有限公司 | 用于问答系统的语义匹配方法、装置、设备及存储介质 |
CN110348017A (zh) * | 2019-07-15 | 2019-10-18 | 苏州大学 | 一种文本实体检测方法、系统及相关组件 |
CN110399488A (zh) * | 2019-07-05 | 2019-11-01 | 深圳和而泰家居在线网络科技有限公司 | 文本分类方法及装置 |
CN110516251A (zh) * | 2019-08-29 | 2019-11-29 | 秒针信息技术有限公司 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
CN110837737A (zh) * | 2019-11-11 | 2020-02-25 | 中国电子科技集团公司信息科学研究院 | 能力词实体识别方法 |
CN110866394A (zh) * | 2019-10-12 | 2020-03-06 | 上海数禾信息科技有限公司 | 公司名称识别方法及装置、计算机设备及可读存储介质 |
CN111339319A (zh) * | 2020-03-02 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN111950277A (zh) * | 2019-04-30 | 2020-11-17 | 中移(苏州)软件技术有限公司 | 商情实体确定方法、装置和存储介质 |
CN112507190A (zh) * | 2020-12-17 | 2021-03-16 | 新华智云科技有限公司 | 一种财经快讯的关键词提取方法和系统 |
CN112711950A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 地址信息抽取方法、装置、设备及存储介质 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN112906370A (zh) * | 2019-12-04 | 2021-06-04 | 马上消费金融股份有限公司 | 意图识别模型训练方法、意图识别方法及相关装置 |
CN113761940A (zh) * | 2021-09-09 | 2021-12-07 | 杭州隆埠科技有限公司 | 新闻主体判断方法、设备及计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
-
2018
- 2018-09-18 CN CN201811090023.0A patent/CN109492215A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN109992782B (zh) * | 2019-04-02 | 2023-07-07 | 深圳市华云中盛科技股份有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN111950277A (zh) * | 2019-04-30 | 2020-11-17 | 中移(苏州)软件技术有限公司 | 商情实体确定方法、装置和存储介质 |
CN110245216A (zh) * | 2019-06-13 | 2019-09-17 | 出门问问信息科技有限公司 | 用于问答系统的语义匹配方法、装置、设备及存储介质 |
CN110399488A (zh) * | 2019-07-05 | 2019-11-01 | 深圳和而泰家居在线网络科技有限公司 | 文本分类方法及装置 |
CN110399488B (zh) * | 2019-07-05 | 2021-11-30 | 深圳数联天下智能科技有限公司 | 文本分类方法及装置 |
CN110348017A (zh) * | 2019-07-15 | 2019-10-18 | 苏州大学 | 一种文本实体检测方法、系统及相关组件 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
CN110516251A (zh) * | 2019-08-29 | 2019-11-29 | 秒针信息技术有限公司 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
CN110516251B (zh) * | 2019-08-29 | 2023-11-03 | 秒针信息技术有限公司 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN110866394A (zh) * | 2019-10-12 | 2020-03-06 | 上海数禾信息科技有限公司 | 公司名称识别方法及装置、计算机设备及可读存储介质 |
CN110837737A (zh) * | 2019-11-11 | 2020-02-25 | 中国电子科技集团公司信息科学研究院 | 能力词实体识别方法 |
CN112906370A (zh) * | 2019-12-04 | 2021-06-04 | 马上消费金融股份有限公司 | 意图识别模型训练方法、意图识别方法及相关装置 |
CN112906370B (zh) * | 2019-12-04 | 2022-12-20 | 马上消费金融股份有限公司 | 意图识别模型训练方法、意图识别方法及相关装置 |
CN111339319A (zh) * | 2020-03-02 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
CN111339319B (zh) * | 2020-03-02 | 2023-08-04 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
CN112507190A (zh) * | 2020-12-17 | 2021-03-16 | 新华智云科技有限公司 | 一种财经快讯的关键词提取方法和系统 |
CN112711950A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 地址信息抽取方法、装置、设备及存储介质 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN113761940A (zh) * | 2021-09-09 | 2021-12-07 | 杭州隆埠科技有限公司 | 新闻主体判断方法、设备及计算机可读介质 |
CN113761940B (zh) * | 2021-09-09 | 2023-08-11 | 杭州隆埠科技有限公司 | 新闻主体判断方法、设备及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492215A (zh) | 新闻实体识别方法、装置、计算机设备和存储介质 | |
CN110232183B (zh) | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN108427771B (zh) | 摘要文本生成方法、装置和计算机设备 | |
CN110852086B (zh) | 基于人工智能的古诗词生成方法、装置、设备及存储介质 | |
CN109446514B (zh) | 新闻实体识别模型的构建方法、装置和计算机设备 | |
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
Liu et al. | Latent attention for if-then program synthesis | |
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
CN110321566B (zh) | 中文命名实体识别方法、装置、计算机设备和存储介质 | |
CN112115267B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN110347799A (zh) | 语言模型训练方法、装置和计算机设备 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
US20170116521A1 (en) | Tag processing method and device | |
WO2020215694A1 (zh) | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN113886601B (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |