CN109657135B - 一种基于神经网络的学者用户画像信息抽取方法及模型 - Google Patents

一种基于神经网络的学者用户画像信息抽取方法及模型 Download PDF

Info

Publication number
CN109657135B
CN109657135B CN201811343553.1A CN201811343553A CN109657135B CN 109657135 B CN109657135 B CN 109657135B CN 201811343553 A CN201811343553 A CN 201811343553A CN 109657135 B CN109657135 B CN 109657135B
Authority
CN
China
Prior art keywords
sequence
text
label
word vector
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811343553.1A
Other languages
English (en)
Other versions
CN109657135A (zh
Inventor
林伟伟
游德光
吴梓明
温昂展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811343553.1A priority Critical patent/CN109657135B/zh
Publication of CN109657135A publication Critical patent/CN109657135A/zh
Application granted granted Critical
Publication of CN109657135B publication Critical patent/CN109657135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于神经网络的学者用户画像信息抽取方法,包含以下步骤:对网页进行文本预处理,并对网页进行结构调整和实体标注;对已识别网页所有文本节点及其字符分别构建词库表;对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分,计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建并进行模型训练。本发明能够实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。

Description

一种基于神经网络的学者用户画像信息抽取方法及模型
技术领域
本发明涉及画像信息抽取领域,特别涉及一种基于神经网络的学者用户画像信息抽取方法及模型。
背景技术
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了大幅度增长,用户画像成为大数据技术背景下最为重要的应用之一。作为用户画像提取的首要环节,用户信息抽取为之后的用户画像挖掘和分析奠定了基础,在很大程度上决定了最终模型的准确性和完整性。近年来,随着大数据技术的发展,也涌现了许多关于用户信息抽取模型的研究。在学者信息抽取方面,目前大部分研究是将其抽象为序列标注(Sequence Label)问题加以解决。Tang等人最早提出了基于树形条件随机场(Conditional Random Field,CRF)的模型对学者用户画像信息进行抽取。Collobert等人最早提出了基于窗口和句子维度的两种神经网络结构构建的序列标注模型。Gu等人则将主页识别和用户信息抽取整合为一个步骤,通过自定义Web检索规则和一种马尔可夫概率模型对文本实体进行分类抽取。在构建学者用户画像时,传统的基于人工编写规则或机器学习方法的信息抽取模型所面临的技术挑战有:1)学者个人主页的格式各式各样,有的是自定义制作的,有的是统一模版编写的,还有的是由学术搜索引擎自动生成的,传统基于规则和CRF模型的抽取方法无法自适应多种学者主页类型;2)传统信息抽取技术对抽取长度较短且具有固定模版特征的网页较为有效,而在识别网页中所在片段距离较长的文本节点时效果较差。传统模型将无法发现所在片段间隔较远的实体之间的依赖关系。
现如今Web中学术数据爆炸式增长,其中只有3%的学术数据包括语义标注信息,语义严重缺失阻碍了学术大数据进一步的探究和发展,也给学者用户信息抽取带来了全新的挑战。人工编写规则的抽取方法需要针对每一类页面编写特定的规则,且依赖于特定的领域知识,因此通用性非常差;传统机器学习方法虽然在一定程度上对该问题有所改善,但依然没有办法很好地处理网页中距离较长的文本节点。随着Web网页越来越多样化和复杂化,这些问题也越来越凸显出来,现有的方法不能很好地实现学者用户信息抽取。
发明内容
本发明的目的在于克服现有技术方法的不足,提供一种基于神经网络的学者用户画像信息抽取方法,该方法基于Bi-LSTM-CRF神经网络,通过循环神经网络自动提取文本实体的字符级和上下文特征,实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。
本发明的另一目的在于提供一种基于神经网络的学者用户画像信息抽取模型。
本发明的目的通过以下的技术方案实现:
一种基于神经网络的学者用户画像信息抽取方法,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:
S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;
S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;
S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;
S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;
S5.采用优化算法进行模型训练。加快模型的学习速率,选取出效果最佳的优化算法。
所述步骤S2,具体包含以下步骤:
S201.采用Word2Vec算法对文本节点进行训练得到词向量ww2v,ww2v构成词向量的第一部分;
S202.通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量wchars,该词向量代表了词语中字符级层面的特征,wchars构成词向量第二部分;
S203.将ww2v和wchars合并得到一个n维词向量w。
步骤S202中,所述词语中字符级层面的特征包括首字母大小写、字母顺序。
所述步骤S4,具体包含以下步骤:
S401.假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W∈Rr×k,每个词的得分向量为s∈Rr,计算公式s=W×h+b;
S402.设输入为节点序列w1,w2,...,wm∈Rn,对应的得分向量为s1,s2,...,sm,以及每个实体所对应的标签为y1,y2,...,ym,在这里增加一层线性CRF层来计算节点序列的标签概率分布,线性CRF层的损失计算公式如下:
Figure BDA0001863183860000031
其中,b和e分别对应起始标签和结尾标签的特征向量,T是状态转移矩阵,表示相邻标签之间的关联和转换关系;
S403.利用该式的递归性质,采用动态规划算法进行求解,时间步[t+1,...,m]的解为
Figure BDA0001863183860000032
每个时间步对应有r种状态转移,则时间步[t,...,m]的解可递归推算公式如下:
Figure BDA0001863183860000033
S404.将结果输入到softmax函数,得到标签序列的得分概率分布,定义所有可能序列的概率之和为下式:
Figure BDA0001863183860000034
设Zt(yt)为第t步时,以yt为标签起始的序列,同样根据递归的性质,将该步的概率分布计算过程转换公式如下:
Figure BDA0001863183860000035
最后得到标签序列的概率计算公式
Figure BDA0001863183860000036
S405.设
Figure BDA0001863183860000037
为正确的标注序列,定义模型的目标函数为上述序列概率的交叉熵(cross-entropy),交叉熵计算公式为:
Figure BDA0001863183860000038
对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列。
步骤S1中,所述文本信息包括头信息、无效标签、样式表、JS脚本。
本发明的另一目的通过以下的技术方案实现:
一种基于神经网络的学者用户画像信息抽取模型,包括输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层;其中,输入层负责接收预处理后的网页文本节点序列;词向量表示层将每个标签的文本节点转为一个n维向量,表示为词向量;节点序列表示层对文本节点和前后节点的上下文特征进行提取,对文本节点序列进行训练,得到包含节点序列上下文信息的词向量;标签序列CRF计算层计算节点序列的标签概率分布;输出层将模型输出训练;其中所述神经网络为Bi-LSTM-CRF神经网络。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明是基于Bi-LSTM-CRF神经网络,与传统信息抽取模型相比,本模型和方法利用长短期记忆网络(LSTM)本身具有序列特性,有效地解决了长文本网页中文本实体之间的长时期依赖关系问题。
(2)传统信息抽取模型依赖于模型特征和特定的领域知识,无法自适应多种学者网页类型,而本发明的模型无需人为定义模型特征,可以通过深度神经网络自动提取网页中文本节点的字符级和上下文特征,实现端到端的模型训练。
附图说明
图1为本发明所述一种基于神经网络的学者用户画像信息抽取方法的流程图。
图2为本发明所述一种基于神经网络的学者用户画像信息抽取方法的模型示意图。
图3为学者网页文本预处理示意图。
图4为标签文本节点表示为词向量示意图。
图5为标签序列CRF计算层计算标签概率示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于神经网络的学者用户画像信息抽取方法,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:
S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;
S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;
S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;
S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;
S5.采用优化算法进行模型训练。加快模型的学习速率,选取出效果最佳的优化算法。
如图2所示,基于Bi-LSTM-CRF神经网络的学者用户画像信息抽取模型和方法可以概括为输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层。其中,输入层负责接收预处理后的网页文本节点序列;词向量表示层将每个标签的文本节点转为一个n维向量,表示为词向量;节点序列表示层对文本节点和前后节点的上下文特征进行提取,对文本节点序列进行训练,得到包含节点序列上下文信息的词向量;标签序列CRF计算层计算节点序列的标签概率分布;输出层将模型输出训练。
虽然学者主页没有固定的格式,但主页之间描述的实体结构却有较大的相似性。为了构建一种自适应多种主页类型的抽取模型,先对网页进行文本预处理,并根据高质量的词典对网页进行结构调整和实体标注。由于网页中含有大量的冗余信息,先通过文本预处理将网页中头信息、无效标签、样式表、JS脚本等文本过滤掉,并删除空白和注释字符,提取得到简化后的内容体。我们根据需要提取的学者属性设定标注类型,如图3所示,如果标注类型为学者所在国家、所在单位、职称和Email,则需要事先整理好高质量的国家、单位和职称词典,并定义一个通用性较强的Email正则表达式。为了便于程序进行处理,将标注类型作为属性label标记在对应的标签上。
在词向量表示层中,对所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w=[ww2v,wchars]∈Rn。如图4所示,该词向量由两部分组成,第一部分本文采用Word2Vec算法训练得到,即
Figure BDA0001863183860000051
另一部分,是通过第一层Bi-LSTM网络对单词中每个字符特征进行提取生成的字符级别的词向量。定义单词w=[c1,c2,...,cp],其中每一个字母表示为向量/>
Figure BDA0001863183860000061
通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量/>
Figure BDA0001863183860000062
其中满足|d1|+|d2|=n。该词向量代表了词语中字符级层面的特征,如首字母大小写、字母顺序等。
文本节点所属标注类型还与其所处的网页位置有密切关系,因此在节点序列表示层中,模型对文本节点和前后节点的上下文特征进行提取。通过第二层Bi-LSTM网络对文本节点序列进行训练,得到包含节点序列上下文信息的词向量,表示为:h∈Rd。模型的每一个隐藏层对应一个输出,因此将节点序列作为模型输入,其中有m个文本节点:w1,w2,...wm∈Rn,对应输出m个词向量:h1,h2,...,hm∈Rk,向量包含了每个节点的上下文信息。
假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W∈Rr×k,每个词的得分向量为s∈Rr,计算公式s=W×h+b;其中,得分向量中对应的各个维度值s[i]代表每个节点被标记为第i个标签的得分。最后,模型根据得到的得分向量给每个节点标注相应的标签,可以直接输入到softmax层得到各标签概率,取概率最高的标签作为实体标注,但这种方案没有考虑标签前后之间的联系。为了考虑当前节点的标签和其相邻节点的标签的内在关联,如图5所示,增加一层线性CRF层来计算节点序列的标签概率分布。
设输入为节点序列w1,w2,...,wm∈Rn,对应的得分向量为s1,s2,...,sm,以及每个实体所对应的标签为y1,y2,...,ym,在这里增加一层线性CRF层来计算节点序列的标签概率分布,线性CRF层的损失计算如式
Figure BDA0001863183860000063
Figure BDA0001863183860000064
b和e分别对应起始标签和结尾标签的特征向量,T是状态转移矩阵,表示相邻标签之间的关联和转换关系;利用该式的递归性质,采用动态规划算法进行求解,时间步[t+1,...,m]的解为/>
Figure BDA0001863183860000065
每个时间步对应有r种状态转移,则时间步[t,...,m]的解可递归推算如式
Figure BDA0001863183860000066
Figure BDA0001863183860000067
将结果输入到softmax函数,得到标签序列的得分概率分布,定义所有可能序列的概率之和如式
Figure BDA0001863183860000071
设Zt(yt)为第t步时,以yt为标签起始的序列,同样根据递归的性质,将该步的概率分布计算过程转换为式
Figure BDA0001863183860000072
Figure BDA0001863183860000073
最后得到标签序列的概率计算公式/>
Figure BDA0001863183860000074
设/>
Figure BDA0001863183860000075
为正确的标注序列,定义模型的目标函数为上述序列概率的交叉熵(cross-entropy),交叉熵计算公式为/>
Figure BDA0001863183860000076
对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于神经网络的学者用户画像信息抽取方法,其特征在于,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:
S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;
S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;
S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;
S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;
S5.采用优化算法进行模型训练;
所述步骤S4,具体包含以下步骤:
S401.假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W∈Rr×k,每个词的得分向量为s∈Rr,计算公式s=W×h+b;
S402.设输入为节点序列w1,w2,...,wm∈Rn,对应的得分向量为s1,s2,...,sm,以及每个实体所对应的标签为y1,y2,...,ym,在这里增加一层线性CRF层来计算节点序列的标签概率分布,线性CRF层的损失计算公式如下:
Figure FDA0004084640990000011
其中,b和e分别对应起始标签和结尾标签的特征向量,T是状态转移矩阵,表示相邻标签之间的关联和转换关系;
S403.利用该式的递归性质,采用动态规划算法进行求解,时间步[t+1,...,m]的解为
Figure FDA0004084640990000012
每个时间步对应有r种状态转移,则时间步[t,...,m]的解可递归推算公式如下:
Figure FDA0004084640990000013
S404.将结果输入到softmax函数,得到标签序列的得分概率分布,定义所有可能序列的概率之和为下式:
Figure FDA0004084640990000021
设Zt(yt)为第t步时,以yt为标签起始的序列,同样根据递归的性质,将该步的概率分布计算过程转换公式如下:
Figure FDA0004084640990000022
最后得到标签序列的概率计算公式
Figure FDA0004084640990000023
S405.设
Figure FDA0004084640990000024
为正确的标注序列,定义模型的目标函数为上述序列概率的交叉熵,交叉熵计算公式为:
Figure FDA0004084640990000025
对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列。
2.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,所述步骤S2,具体包含以下步骤:
S201.采用Word2Vec算法对文本节点进行训练得到词向量ww2v,ww2v构成词向量的第一部分;
S202.通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量wchars,该词向量代表了词语中字符级层面的特征,wchars构成词向量第二部分;
S203.将ww2v和wchars合并得到一个n维词向量w。
3.根据权利要求2所述基于神经网络的学者用户画像信息抽取方法,其特征在于,步骤S202中,所述词语中字符级层面的特征包括首字母大小写、字母顺序。
4.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,步骤S1中,所述文本信息包括头信息、无效标签、样式表、JS脚本。
5.一种基于神经网络的学者用户画像信息抽取模型,应用于权利要求1至4中任一项所述的基于神经网络的学者用户画像信息抽取方法,其特征在于:包括输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层;其中,输入层负责接收预处理后的网页文本节点序列;词向量表示层将每个标签的文本节点转为一个n维向量,表示为词向量;节点序列表示层对文本节点和前后节点的上下文特征进行提取,对文本节点序列进行训练,得到包含节点序列上下文信息的词向量;标签序列CRF计算层计算节点序列的标签概率分布;输出层将模型输出训练;其中所述神经网络为Bi-LSTM-CRF神经网络。
CN201811343553.1A 2018-11-13 2018-11-13 一种基于神经网络的学者用户画像信息抽取方法及模型 Active CN109657135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811343553.1A CN109657135B (zh) 2018-11-13 2018-11-13 一种基于神经网络的学者用户画像信息抽取方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811343553.1A CN109657135B (zh) 2018-11-13 2018-11-13 一种基于神经网络的学者用户画像信息抽取方法及模型

Publications (2)

Publication Number Publication Date
CN109657135A CN109657135A (zh) 2019-04-19
CN109657135B true CN109657135B (zh) 2023-06-23

Family

ID=66110862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811343553.1A Active CN109657135B (zh) 2018-11-13 2018-11-13 一种基于神经网络的学者用户画像信息抽取方法及模型

Country Status (1)

Country Link
CN (1) CN109657135B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362823B (zh) * 2019-06-21 2023-07-28 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN110580284B (zh) * 2019-07-31 2023-08-18 平安科技(深圳)有限公司 一种实体消歧方法、装置、计算机设备及存储介质
CN110909864A (zh) * 2019-10-22 2020-03-24 北京大学 一种结合正则表达式和神经网络的自然语言任务处理方法和装置
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
CN111191092B (zh) * 2019-12-31 2023-07-14 腾讯科技(深圳)有限公司 标签确定方法和标签确定模型训练方法
US11886533B2 (en) * 2020-01-29 2024-01-30 Google Llc Transferable neural architecture for structured data extraction from web documents
CN111291576B (zh) * 2020-03-06 2022-07-01 腾讯科技(深圳)有限公司 神经网络内部表示信息量确定方法、装置、设备、介质
CN111444368B (zh) * 2020-03-25 2023-01-17 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN111625702A (zh) * 2020-05-26 2020-09-04 北京墨云科技有限公司 一种基于深度学习的页面结构识别抽取方法
CN111737949B (zh) * 2020-07-22 2021-07-06 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN112182413B (zh) * 2020-12-01 2021-02-19 三盟科技股份有限公司 一种基于教学大数据的智能推荐方法及服务器
CN113468887A (zh) * 2021-06-21 2021-10-01 上海交通大学 基于边界与片段分类的学者信息关系抽取方法和系统
CN113298188A (zh) * 2021-06-28 2021-08-24 深圳市商汤科技有限公司 字符识别及神经网络训练方法和装置
CN113360657B (zh) * 2021-06-30 2023-10-24 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113486178B (zh) * 2021-07-12 2023-12-01 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质
CN116248375B (zh) * 2023-02-01 2023-12-15 北京市燃气集团有限责任公司 一种网页登录实体识别方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108090223A (zh) * 2018-01-05 2018-05-29 牛海波 一种基于互联网信息的开放学者画像方法
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、系统及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108090223A (zh) * 2018-01-05 2018-05-29 牛海波 一种基于互联网信息的开放学者画像方法
CN108664589A (zh) * 2018-05-08 2018-10-16 苏州大学 基于领域自适应的文本信息提取方法、装置、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征融合的中文简历解析方法研究;陈毅等;《计算机工程与应用》;20181030(第10期);第245-254页 *
开放互联网中的学者画像技术综述;袁莎等;《计算机研究与发展》;20180915(第09期);第79-95页 *

Also Published As

Publication number Publication date
CN109657135A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657135B (zh) 一种基于神经网络的学者用户画像信息抽取方法及模型
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
Sun et al. Deep LSTM networks for online Chinese handwriting recognition
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN112464663A (zh) 一种多特征融合的中文分词方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
Jiang et al. Multilingual interoperation in cross-country industry 4.0 system for one belt and one road
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant