CN107358948B - 基于注意力模型的语言输入关联性检测方法 - Google Patents

基于注意力模型的语言输入关联性检测方法 Download PDF

Info

Publication number
CN107358948B
CN107358948B CN201710501293.5A CN201710501293A CN107358948B CN 107358948 B CN107358948 B CN 107358948B CN 201710501293 A CN201710501293 A CN 201710501293A CN 107358948 B CN107358948 B CN 107358948B
Authority
CN
China
Prior art keywords
word
training
neural network
language model
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710501293.5A
Other languages
English (en)
Other versions
CN107358948A (zh
Inventor
俞凯
曹迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201710501293.5A priority Critical patent/CN107358948B/zh
Publication of CN107358948A publication Critical patent/CN107358948A/zh
Application granted granted Critical
Publication of CN107358948B publication Critical patent/CN107358948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于注意力模型的语言输入关联性检测方法,通过采集训练语言模型所需的训练语料并进行预处理,并对语料中的每个词序列数据进行标注;然后使用标注后的训练序列对语言模型中的循环神经网络进行训练,再采用训练语料中所有数据集合对更新后的语言模型进行训练,当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成;最后使用训练后的语言模型对输入句子进行评分,从而得到词之间的关系。本发明采用基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时,在训练词向量时尝试引入语法和语义的信息,让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。

Description

基于注意力模型的语言输入关联性检测方法
技术领域
本发明涉及的是一种语音输入领域的技术,具体是一种基于注意力模型的语言输入关联性检测方法。
背景技术
近几年,对于基于循环神经网络的研究越发火热。基于门记忆单元的长短时间记忆神经网络(LSTM),门控循环单元神经网络(GRU)在自然语言处理的领域被广泛应用。LSTM神经网络中增加了记忆单元、输入门、输出门以及遗忘门,GRU神经网络增加了重置门以及更新门,这些门和记忆单元极大地提升了词与词之间长距离依赖关系建模的效果。
然而,这样的模型仍然有一些局限性。基于门的神经网络对于历史信息的建模,是编码在隐层内的,当需要隐层包含更多信息时,需要增加隐层节点数量,而这会导致整个模型的训练参数线性增长。同时,由于循环神经网络对历史信息的建模是隐含的,对于预测下一个词,模型无法显式给出该词与历史词的相关关系。
发明内容
本发明针对现有技术无法显式给出词之间的相关关系、增加隐藏节点会线性增加整个模型的参数量以及无法完全利用所有的历史信息等等缺陷,提出一种基于注意力模型的语言输入关联性检测方法,在模型中引入额外的控制单元,显式地输入历史序列以及额外信息,使用一种基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时,在训练词向量时尝试引入语法和语义的信息,让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。
本发明是通过以下技术方案实现的:
本发明涉及一种基于注意力模型的语言输入关联性检测方法,包括:
步骤S1:采集训练语言模型所需的训练语料并进行预处理。
所述的训练语料,采用但不限于领域相关的多个文字字符组成的句子集合。
所述的预处理,具体包括以下步骤:
①使用预先设置好的词表,即相关领域所有已知词汇的集合,将语料中的词汇转换成其在词表中对应的数字序号;将语料中未出现在词表中的词汇替换成<unk>,并返回相应序号,即词序列数据。
优选地,如语料中包含中文字符,收集的语料本身一般是不包含空格的,在未知词替换后,以词汇为单位,需要对语料进行分词,将一个句子以空格为分隔符,切成多个词汇片段。
②在语料集合的每个句子中,句首添加开始符号<s>,并在句尾添加结束符号</s>;
③选取出语料集合5~15%的部分数据作为验证集,防止模型过拟合。
可选的,处理数据时,可以只在句末添加<s>作为分割符号。
步骤S2:对语料中的每个词序列数据进行标注,具体为:
对于语言模型,标注即是需要预测的下一个词语,句子中的词序列是w1,w2,…,wn-1,wn,则训练序列为w1,w2,…,wn-1,对应的标注序列为w2,…,wn-1,wn
所述的训练序列和标注序列是一一对应且长度均为n-1,其中n为预处理后每个句子的词序列总数。
步骤S3:使用标注后的训练序列对语言模型中的循环神经网络进行训练,即以梯度回传的方式对语言模型中的循环神经网络的参数进行更新。
所述的语言模型包括:词向量层、循环神经网络、注意力模块以及解码模块,其中:词向量层接受当前时刻的词序号输入,输出对应的词向量,循环神经网络和注意力模块分别接收当前时刻的词向量,注意力模块接收来自循环神经网络的前一时刻的隐层状态,存储所有历史词向量,根据隐层状态与历史词向量的关系得到辅助词向量并输出至循环神经网络,循环神经网络根据输入序列和辅助词向量得到当前时刻的隐层状态并输出至解码模块进行解码,最终得到所预测词的概率分布。
所述的辅助词向量,通过以下方式得到:
1)计算关系权重
Figure BDA0001333752220000021
计算,其中:vT为神经网络中待训练的参数向量,wi为i时刻的词向量,ht-1为t-1时刻的隐层向量,Tanh为激活函数,Ww为词向量对应的待训练矩阵参数,Wh为隐层对应的待训练矩阵参数,bv为偏置参数;
所述的关系权重也可以是
Figure BDA0001333752220000022
其中w′t-1为上一时刻计算得到的辅助词向量,Ww′为上一时刻词向量对应的待训练矩阵参数。
所述的激活函数Tanh,可以使用sigmoid、relu等替代。
所述的偏置参数bv可以为零。
2)计算辅助词权重
Figure BDA0001333752220000023
然后根据
Figure BDA0001333752220000024
加权平均和求出辅助词向量,其中:
Figure BDA0001333752220000025
为i时刻的词向量对t时刻历史隐层的关系权重,exp为以e为底的指数函数,wi为i时刻的词向量。
所述的循环神经网络采用但不限于LSTM层。
所述的LSTM根据输入序列和辅助词向量得到当前时刻的隐层状态,即根据ft=σ(Wf[ht-1,wt,w′t]+bf),it=σ(Wi[ht-1,wt,w′t]+bi),ot=σ(Wo[ht-1,wt,w′t]+bo),
Figure BDA0001333752220000031
以及ht=ot*tanh(ct)计算获得,其中:wt为t时刻对应的词向量,w′t为上述步骤计算得到的t时刻对应的辅助词向量,ft是t时刻对应的遗忘门,it是t时刻对应的输入门,ot是t时刻对应的输出门,ct是t时刻对应的记忆单元,ht是t时刻对应的隐层,σ是sigmoid激活函数,tanh是tanh激活函数,W*是神经网络中待训练矩阵参数,b*是待训练的偏置参数。
所述的LSTM可以替换为其他循环神经网络,如使用tanh、sigmoid、relu等作为激活函数的循环网络神经网络隐层、门控循环单元神经网络(GRU)等。
所述的对神经网络的参数进行更新,优选使用批量随机梯度下降等算法。
步骤S4:采用训练语料中所有数据集合对步骤S3中更新后的语言模型进行训练,当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成。
所述的收敛,优选使用混淆度(PPL)作为衡量语言模型性能的方式,具体为:计算混淆度
Figure BDA0001333752220000032
其中:P(wi|hi)是i-1时刻神经网络输出的预测词wi对应的概率。
步骤S5:使用训练后的语言模型对输入句子进行评分,从而得到词之间的关系。
所述的评分具体为:采用训练后的模型对输入词序列进行计算,输出预测词的概率分布,得到对应标注单词关于其历史的条件概率;对于一个句子中每个词序列进行这样的操作,将这些概率相乘,即可获得整个句子的概率;最后通过对不同句子概率的排序,即为相应的评分。
技术效果
与现有技术相比,本发明改进了主流的基于长短时间记忆神经网络(LSTM)的语言模型,在神经网络中保存全局历史信息,并引入注意力机制(Attention),能够显式地提取词之间的关系,并提升语言模型的性能。其技术效果进一步包括:
1、使用基于注意力模型的方式,可以在少量增加模型参数的条件下,明显地提升语言模型的性能。
2、使用基于注意力模型的方式,可以显式地获得词与词之间的关系。
3、能够利用完整的历史信息进行下个词的预测。
附图说明
图1为本发明语言模型示意图;
图2为实施例中词与词之间关系示意图。
具体实施方式
本实施例包括以下步骤:
步骤101、采集训练语言模型所需的训练语料,并做预处理:首先需要考虑到应用的需求,针对对应的领域去采集语料数据,比如,最终需要对电话口语的相关语句进行评分,则需要采集电话口语的语料。将语料中的词汇转换成其在词表中对应的数字序号,将语料中未出现在词表中的词汇替换成<unk>,并返回相应序号。同时,选取出10%的部分数据作为验证集,防止模型过拟合。
步骤102、处理相应数据,生成相应标注。例如,词序列是w1,w2,…,wn-1,wn,则训练序列为w1,w2,…,wn-1,对应的标注序列为w2,…,wn-1,wn,其中:训练和标注序列是一一对应的,长度均为n-1,其中n为预处理后每个句子的词序列总数。
步骤103、使用搭建好的神经网络进行训练:使用如图1所示的搭建好的网络结构进行训练,在实验中,本发明采用的神经网络为LSTM,其中,词向量维度设为300,隐层维度设为300,注意力模块维度设为300,LSTM层数为1,训练中批量大小设为128,dropout率设为0.5。在训练模型的过程中,可以选择批量随机梯度下降的方法进行训练,在训练过程中观察在验证集上的性能,当验证集上性能出现了下降,则可以降低模型的学习率,继续训练。当学习率小于固定值后,停止训练过程。在实验中,本发明分别在三个数据集上,比较了4-Gram语言模型、LSTM语言模型、注意力模型以及插值的模型的PPL性能,本发明所述模型均取得了最佳的效果,如下表。
Figure BDA0001333752220000041
同时可以获得词与词之间的关系,见图2。
步骤104:可以使用训练好的语言模型对句子打分,并给出词之间的关系,即通过计算每个时刻的输出概率,求出句子中每个单词关于其历史的条件概率,将这些概率相乘,即可获得整个句子的概率。最后通过对不同句子概率的排序,可以做出相应的评分。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (12)

1.一种基于注意力模型的语言输入关联性检测方法,其特征在于,包括:
步骤S1:采集训练语言模型所需的训练语料并进行预处理;
步骤S2:对语料中的每个词序列数据进行标注;
步骤S3:使用标注后的训练序列对语言模型中的循环神经网络进行训练,即以梯度回传的方式或批量随机梯度下降方式对语言模型中的循环神经网络的参数进行更新;
步骤S4:采用训练语料中所有数据集合对更新后的语言模型进行训练,当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成;
步骤S5:使用训练后的语言模型对输入句子进行评分,从而得到词之间的关系。
2.根据权利要求1所述的方法,其特征是,所述的预处理,具体包括以下步骤:
①使用预先设置好的词表,即相关领域所有已知词汇的集合,将语料中的词汇转换成其在词表中对应的数字序号;将语料中未出现在词表中的词汇替换成<unk>,并返回相应序号,即词序列数据;
②在语料集合的每个句子中,句首添加开始符号<s>,并在句尾添加结束符号</s>;
③选取出语料集合5~15%的部分数据作为验证集,防止模型过拟合。
3.根据权利要求2所述的方法,其特征是,当语料中包含中文字符,收集的语料本身不包含空格,在未知词替换后,以词汇为单位,需要对语料进行分词,将一个句子以空格为分隔符,切成多个词汇片段。
4.根据权利要求1所述的方法,其特征是,对于语言模型,标注即是需要预测的下一个词语,句子中的词序列是w1,w2,...,wn-1,wn,则训练序列为w1,w2,...,wn-1,对应的标注序列为w2,...,wn-1,wn,n为预处理后每个句子的词序列总数。
5.根据权利要求1所述的方法,其特征是,所述的语言模型包括:词向量层、循环神经网络、注意力模块以及解码模块,其中:词向量层接受当前时刻的词序号输入,输出对应的词向量,循环神经网络和注意力模块分别接收当前时刻的词向量,注意力模块接收来自循环神经网络的前一时刻的隐层状态,存储所有历史词向量,根据隐层状态与历史词向量的关系得到辅助词向量并输出至循环神经网络,循环神经网络根据输入序列和辅助词向量得到当前时刻的隐层状态并输出至解码模块进行解码,最终得到所预测词的概率分布。
6.根据权利要求5所述的方法,其特征是,所述的辅助词向量,通过以下方式得到:
1)计算关系权重,该关系权重的激活函数为Tanh、sigmoid或relu函数;
2)计算辅助词权重
Figure FDA0002436323090000021
然后根据
Figure FDA0002436323090000022
加权平均和求出辅助词向量,其中:
Figure FDA0002436323090000023
为i时刻的词向量对t时刻历史隐层的关系权重,exp为以e为底的指数函数,wi为i时刻的词向量。
7.根据权利要求6所述的方法,其特征是,所述的关系权重为
Figure FDA0002436323090000024
Figure FDA0002436323090000025
计算,其中:vT为神经网络中待训练的参数向量,wi为i时刻的词向量,ht-1为t-1时刻的隐层向量,Tanh为激活函数,Ww为词向量对应的待训练矩阵参数,Wh为隐层对应的待训练矩阵参数,bv为偏置参数。
8.根据权利要求6所述的方法,其特征是,所述的关系权重
Figure FDA0002436323090000026
Figure FDA0002436323090000027
其中w′t-1为上一时刻计算得到的辅助词向量,Ww,为上一时刻词向量对应的待训练矩阵参数,vT为神经网络中待训练的参数向量,wi为i时刻的词向量,ht-1为t-1时刻的隐层向量,Tanh为激活函数,Ww为词向量对应的待训练矩阵参数,wh为隐层对应的待训练矩阵参数,bv为偏置参数。
9.根据权利要求1或5所述的方法,其特征是,所述的循环神经网络采用LSTM层,该LSTM根据输入序列和辅助词向量得到当前时刻的隐层状态,即根据ft=σ(Wf[ht-1,wt,w′t]+bf),it=σ(Wi[ht-1,wt,w′t]+bi),ot=σ(Wo[ht-1,wt,w′t]+bo),
Figure FDA0002436323090000028
Figure FDA0002436323090000029
以及ht=ot*tanh(ct)计算获得,其中:wt为t时刻对应的词向量,w′t为上述步骤计算得到的t时刻对应的辅助词向量,ft是t时刻对应的遗忘门,it是t时刻对应的输入门,ot是t时刻对应的输出门,ct是t时刻对应的记忆单元,ht是t时刻对应的隐层,σ是sigmoid激活函数,tanh是tanh激活函数,Wf、Wi、Wo、
Figure FDA00024363230900000210
分别表示神经网络中待训练矩阵参数,bf、bi、bo
Figure FDA00024363230900000211
分别表示待训练的偏置参数。
10.根据权利要求1或5所述的方法,其特征是,所述的循环神经网络采用tanh、sigmoid或relu作为激活函数的循环网络神经网络隐层或门控循环单元神经网络。
11.根据权利要求1所述的方法,其特征是,所述的收敛,使用混淆度作为衡量语言模型性能的方式,具体为:计算混淆度
Figure FDA0002436323090000031
其中:P(wi|hi)是i-1时刻神经网络输出的预测词wi对应的概率。
12.根据权利要求1所述的方法,其特征是,所述的评分具体为:采用训练后的模型对输入词序列进行计算,输出预测词的概率分布,得到对应标注单词关于其历史的条件概率;对于一个句子中每个词序列进行这样的操作,将这些概率相乘,即可获得整个句子的概率;最后通过对不同句子概率的排序,即为相应的评分。
CN201710501293.5A 2017-06-27 2017-06-27 基于注意力模型的语言输入关联性检测方法 Active CN107358948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710501293.5A CN107358948B (zh) 2017-06-27 2017-06-27 基于注意力模型的语言输入关联性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710501293.5A CN107358948B (zh) 2017-06-27 2017-06-27 基于注意力模型的语言输入关联性检测方法

Publications (2)

Publication Number Publication Date
CN107358948A CN107358948A (zh) 2017-11-17
CN107358948B true CN107358948B (zh) 2020-06-09

Family

ID=60272630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710501293.5A Active CN107358948B (zh) 2017-06-27 2017-06-27 基于注意力模型的语言输入关联性检测方法

Country Status (1)

Country Link
CN (1) CN107358948B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364066B (zh) * 2017-11-30 2019-11-08 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN110084356B (zh) * 2018-01-26 2021-02-02 赛灵思电子科技(北京)有限公司 一种深度神经网络数据处理方法和装置
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108491515B (zh) * 2018-03-26 2021-10-01 中国科学技术大学 一种用于校园心理咨询的句对匹配度预测方法
CN110597966A (zh) * 2018-05-23 2019-12-20 北京国双科技有限公司 自动问答方法及装置
CN108875807B (zh) * 2018-05-31 2022-05-27 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109086865B (zh) * 2018-06-11 2022-01-28 上海交通大学 一种基于切分循环神经网络的序列模型建立方法
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备
CN109472024B (zh) * 2018-10-25 2022-10-11 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN110517679B (zh) * 2018-11-15 2022-03-08 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN111435408B (zh) * 2018-12-26 2023-04-18 阿里巴巴集团控股有限公司 对话纠错方法、装置和电子设备
CN109902310A (zh) * 2019-01-15 2019-06-18 深圳中兴网信科技有限公司 词汇检测方法、词汇检测系统及计算机可读存储介质
CN109858004B (zh) * 2019-02-12 2023-08-01 四川无声信息技术有限公司 文本改写方法、装置及电子设备
CN111783431A (zh) * 2019-04-02 2020-10-16 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN110427456A (zh) * 2019-06-26 2019-11-08 平安科技(深圳)有限公司 一种词语联想的方法及装置
CN110569331A (zh) * 2019-09-04 2019-12-13 出门问问信息科技有限公司 一种基于上下文的关联性预测方法、装置及存储设备
CN111143518B (zh) * 2019-12-30 2021-09-07 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN111986730A (zh) * 2020-07-27 2020-11-24 中国科学院计算技术研究所苏州智能计算产业技术研究院 一种预测siRNA沉默效率的方法
CN112287665B (zh) * 2020-10-19 2024-05-03 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112884019B (zh) * 2021-01-29 2023-11-21 辽宁科技大学 一种基于融合门循环网络模型的图像转语言方法
CN113239354A (zh) * 2021-04-30 2021-08-10 武汉科技大学 一种基于循环神经网络的恶意代码检测方法及系统
CN113704477B (zh) * 2021-09-03 2022-10-18 华南理工大学 一种文本识别中识别网络与语言模型的联合优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106569618A (zh) * 2016-10-19 2017-04-19 武汉悦然心动网络科技股份有限公司 基于循环神经网络模型的滑动输入方法及系统
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention pooling-based convolutional neural network for sentence modelling;Er, Meng Joo等;《INFORMATION SCIENCES》;20161210;第373卷;92-96,122 *
基于 Attention-Based LSTM模型的文本分类技术的研究;张冲;《中国优秀硕士学位论文全文数据库信息科技辑》;20161015;I138-587 *

Also Published As

Publication number Publication date
CN107358948A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
Yao et al. An improved LSTM structure for natural language processing
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN107924680A (zh) 口语理解系统
CN111506732B (zh) 一种文本多层次标签分类方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN110263325A (zh) 中文分词系统
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110413987B (zh) 基于多个预测模型的标点符号预测方法及相关设备
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN111753088A (zh) 一种自然语言信息的处理方法
Yang et al. Recurrent neural network-based language models with variation in net topology, language, and granularity
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN110597968A (zh) 一种回复选择方法及装置
CN115630653A (zh) 一种基于BERT与BiLSTM的网络流行语情感分析方法
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架系统及方法
Huo et al. Terg: Topic-aware emotional response generation for chatbot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200623

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Co-patentee after: AI SPEECH Co.,Ltd.

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Co-patentee before: AI SPEECH Co.,Ltd.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right

Effective date of registration: 20201030

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Language Input Correlation Detection Method Based on Attention Model

Effective date of registration: 20230726

Granted publication date: 20200609

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right