CN109684626A - 语义识别方法、模型、存储介质和装置 - Google Patents

语义识别方法、模型、存储介质和装置 Download PDF

Info

Publication number
CN109684626A
CN109684626A CN201811365278.3A CN201811365278A CN109684626A CN 109684626 A CN109684626 A CN 109684626A CN 201811365278 A CN201811365278 A CN 201811365278A CN 109684626 A CN109684626 A CN 109684626A
Authority
CN
China
Prior art keywords
vector
semantics recognition
unit
recognition model
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811365278.3A
Other languages
English (en)
Inventor
杨志明
王来奇
王泳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Original Assignee
Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd filed Critical Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority to CN201811365278.3A priority Critical patent/CN109684626A/zh
Publication of CN109684626A publication Critical patent/CN109684626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种语义识别方法、存储介质和装置,包括:步骤11:将待分析文本转换为第一向量和第二向量后,分别执行步骤12和步骤13,第一向量为词向量矩阵,第二向量为字向量矩阵;步骤12:将第一向量输入第一卷积神经网络,输出第一特征向量;步骤13:将第二向量输入第二卷积神经网络,输出第二特征向量;步骤14:将第一特征向量和第二特征向量连接为第三特征向量;步骤15:将第三特征向量输入分类器,输出待分析文本的语义识别结果。基于本发明的方法,通过设置双通道卷积神经网络的特征提取,提高语义识别结果的准确率。

Description

语义识别方法、模型、存储介质和装置
技术领域
本发明涉及人工智能领域,特别涉及一种语义识别方法、模型、存储介质和装置。
背景技术
随着网络智能设备数量的迅猛发展,设备的形态也各种各样,交互方式也各有不同,尤其随着语音识别技术公司的崛起,语音识别技术越来越成熟,应用的范围也越来越广,基于语音的人机对话技术被普遍认为是更加自然的人机交互方式。
人机对话技术的一个关键任务就是如何让聊天机器人理解用户的语句意图并将用户的输入正确地分类到相应的领域中,其性能直接影响到特定领域的人机对话质量。
现有技术中,通常采用单通道卷积神经网络(Convolutional Neural Network,CNN)进行语义特征提取,但是单通道CNN存在视角单一的缺陷,不能充分学习到语句的特征信息和语义信息,从而导致后续语句意图分类的准确性较差,影响应用推广。
发明内容
有鉴于此,本发明提供一种语义识别方法、模型、存储介质和装置,以解决目前语义识别输出结果准确率不高的问题。
本发明提供一种语义识别方法,包括:
步骤11:将待分析文本转换为第一向量和第二向量后,分别执行步骤12和步骤13,第一向量为词向量矩阵,第二向量为字向量矩阵;
步骤12:将第一向量输入第一卷积神经网络,输出第一特征向量;
步骤13:将第二向量输入第二卷积神经网络,输出第二特征向量;
步骤14:将第一特征向量和第二特征向量连接为第三特征向量;
步骤15:将第三特征向量输入分类器,输出待分析文本的语义识别结果。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行中上述的语义识别方法中的步骤。
本发明还提供一种语义识别装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明还提供一种语义识别模型,包括:
词向量生成模块:将待分析文本转换为第一向量,第一向量为词向量矩阵;
字向量生成模块:将待分析文本转换为第二向量,第二向量为字向量矩阵;
第一卷积神经网络:当输入第一向量时,输出第一特征向量;
第二卷积神经网络:当输入第二向量时,输出第二特征向量;
连接模块:将第一特征向量和第二特征向量连接为第三特征向量;
分类器:当第三特征向量输入分类器时,输出待分析文本的语义识别结果。
本发明采用双通道卷积运算进行特征提取,一个通道传入字级别的词向量,另一个通道传入词级别的词向量,利用细粒度的字级别词向量辅助词级别词向量捕捉自然语句更深层次的语义信息,从而提到语义识别结果的准确率,较于其他算法具有一定的优势。
附图说明
图1为本发明语义识别方法的流程图;
图2图1中第一卷积神经网络或第二卷积神经网络的第一结构图;
图3图1中第一卷积神经网络或第二卷积神经网络的第二结构图;
图4为本发明语义识别模型的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明提供一种语义识别方法,包括:
步骤11(S11):将待分析文本转换为第一向量和第二向量后,分别执行步骤12和步骤13,第一向量为词向量矩阵,第二向量为字向量矩阵;
步骤12(S12):将第一向量输入第一卷积神经网络,输出第一特征向量;
步骤13(S13):将第二向量输入第二卷积神经网络,输出第二特征向量;
步骤14(S14):将第一特征向量和第二特征向量连接为第三特征向量;
步骤15(S15):将第三特征向量输入分类器,输出待分析文本的语义识别结果。
图1方法的特点在于步骤12和步骤13中的两个卷积神经网络通道,每个通道分别接收不同粒度的词向量和字向量;然后用卷积网络学习不同粒度的语义信息获取句子内部更深层次的抽象特征;最后把两个通道学习到的更深层次的抽象特征进行合并,达到利用细粒度的字级别的词向量辅助词级别词向量捕捉自然语句更深层次的语义信息的目的;最终用于决策自然语句想表达的意图,提高语义识别的准确率。
聊天机器人获取的日志数据中语句类型多样,传统的语句表示和基于统计的方法,仍停留在对词汇的表层处理,如词袋模型(Bag-Of-Words,BOW)或者是向量空间模型(Vector Space Model,VSM),这样的浅层模型默认单词之间相互独立,只包含词频信息,忽略了文章的上下文信息,无法表达语句内部以及语句之间的相关性,对语句的语义表达造成了极大的损失。词向量的出现避免了使用传统特征表示产生的一些问题。本发明针对这点,采用细粒度的字向量辅助词向量以捕捉句子中更深层次的语义信息。
字向量:字级别特征是以单个字作为句子的基本组成单位。字向量作为中文处理的基本单位,在语句分析中起着重要作用,使用字向量的目的主要是为了解决未登录词的问题。比如:“这个房间高大尚”分词的结果为“这个房间高大尚”,这个句子中“高大尚”为一个词,分词后把它切分为两个词,这样导致分词后的词组反而改变了句子的语义信息。为了减弱分词后带来的问题,卷积神经网络的一个通道采用字向量作为输入,通过细粒度的字向量辅助词向量捕捉句子深层次的语义信息。
词向量:词级别特征就是利用分词器对句子进行分词,以词(包含长度为1的词)作为句子的基本组成单位,并对应生成一组向量,这组向量中的每个词用n维向量进行表示。词向量在卷积神经网络中具有非常重要的作用。词向量可以获取句法和语义信息,对句子意图识别至关重要。
其中,第一向量(词向量)和第二向量(字向量)的生成方法优选word2vec。
通过预先训练word2vec生成的词向量和字向量可以避免直接生成词向量带来的参数过大问题,一定程度上避免过拟合。
假设词向量的维度为k,每个句子的长度为n,Xi为第i个词,一个长度为n的句子可以描述为:
其中为连接操作符,Xi:i+j表示词向量Xi,Xi+1,…,Xi+j组成的特征矩阵。对于输入的待分析文本,根据其索引值,从预训练word2vec的词向量库中,查找出对应词的词向量,生成词向量矩阵。
第一卷积神经网络和第二卷积神经网络包括卷积层和池化层。
其中,卷积层的主要目的是通过卷积操作实现对待分析文本的局部感知。本发明通过使用不同尺寸的卷积核对输入的词向量与字向量进行卷积运算,以尽可能的捕获更多的上下文信息。如图2所示,优选使用卷积核h=2,h=3和h=4三组不同的卷积单元,假设b为偏置项,Wh表示不同尺寸的卷积核对应的权重矩阵,D1和D2分别表示词向量通道和字向量通道,卷积后的输出为Ch,代表不同的卷积核输出的结果,计算公式如下:
Ch=f(Wh·Xi:i+h-1+b)h=2,3,4 (2)
为加快训练收敛速度,如图3所示,卷积层还可以包括激活单元,每个卷积单元对应设置一个激活单元,其中激活单元的激活函数优选Relu函数。
以步幅s=1的卷积为例,当卷积核在句子为n的待分析文本上滑动结束后,共得到n-h+1个输出。所以最终生成的一个特征图为:
C(1)=Ch1,Ch2,…Ch,n-h+1h=2,3,4 (3)
卷积神经网络中的池化层与卷积层对应设置,如图2或图3所示,第一池化单元与第一卷积单元对应,第二池化单元与第二卷积单元对应,第三池化单元与第三卷积单元对应。为了生成固定维度的特征向量以及减弱卷积操作之后带来的数据维度过高问题,需加入池化操作,本发明采用最大池化,对每个卷积单元的输出单独执行池化操作,经过最大池化操作后,卷积神经网络忽略弱的特征并提取出具有代表性的特征。最大池化公式如下:
C(2)=max(Ch,i) (4)
假设每组卷积核的数量为m,最终池化后输出的特征集合为:
C(3)=flatten
步骤14将第一卷积神经网络D1和第二卷积神经网络D2所提取的特征序列进行串联,整合出全局信息,形成最终的第三特征向量。
步骤15:将第三特征向量输入分类器,输出待分析文本的语义识别结果。其中分类器优选Softmax分类器,最终输出句子意图类别的预测值hθ(x),hθ(x)的定义如下:
其中hθ(x(i))表示第i个样本的预测值,wi与bi分别表示待训练的权重和偏置。
详细的语义识别算法流程如下所示。
实际应用中,图像、问句、音频、视频等数据大体上都是一些不完整、不一致的脏数据,无法直接用于语义识别或语义识别的结果差强人意。为了提高识别的质量,在步骤11前需要对数据进行相应的预处理操作,包括:
步骤10:待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。
其中预处理包括:缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。通过预处理操作后可以大大的提高待分析文本的质量,降低语义识别的时间。
数据编码:将语料中的字符串类型转化成数值类型。
真实世界的数据集通常都含有分类型变量(categorical value)的特征,而机器学习算法(包含本申请语义识别算法)处理的是数值类型的数据,因此需要对这些标称型属性进行处理。对于那些不具备序列型,也不能比较大小的属性,通常不能用简单的数值进行粗暴映射。因为属性的数值大小会影响到权重矩阵的计算,不存在大小关系的属性,其权重也不应该发生相应的变化,因此就需要用到数据编码。本发明优选One-Hot-Encoder编码技术把没有顺序的特征值使用一组二进制数字进行表示。其具有以下优点:
(1)One-Hot-Encoder可以将离散的无序特征的取值扩展到欧式空间,离散特征的某一个取值就对应欧式空间的某个点。在机器学习算法(包含本申请语义识别算法)中,特征之间的计算或者相似度计算非常重要的,并且这些计算均基于欧式空间。
(2)将离散的无序特征通过One-Hot-Encoder扩展到欧式空间转换,可以使两个特征之间的距离计算变的更加合理。
标准化操作:对于数据的规模变化较大的特征,在使用语义识别算法之前需要预先对数据集进行标准化操作,这样有利于提高算法效果,减少算法识别时间等。本发明优选Standardization方法把数据特征转化成高斯分布,使得特征的均值为0,方差为1,公式如下。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明任一的语义识别方法中的步骤。
本发明还提供一种语义识别装置,包括处理器和上述的非瞬时计算机可读存储介质。
进一步地,本发明还提供一种语义识别模型,如图4所示包括:
词向量生成模块:将待分析文本转换为第一向量,第一向量为词向量矩阵;
字向量生成模块:将待分析文本转换为第二向量,第二向量为字向量矩阵;
第一卷积神经网络:当输入第一向量时,输出第一特征向量;
第二卷积神经网络:当输入第二向量时,输出第二特征向量;
连接模块:将第一特征向量和第二特征向量连接为第三特征向量;
分类器:当第三特征向量输入分类器时,输出待分析文本的语义识别结果。
可选地,如图2所示,第一卷积神经网络和第二卷积神经网络包括卷积层和池化层,卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元,池化层至少包括:第一池化单元、第二池化单元和第三池化单元。
可选地,第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。
可选地,第一、第二、第三池化单元均执行最大池化操作。
进一步地,卷积层还包括:位于第一、第二、第三卷积单元之后的第一、第二、第三激活单元。
可选地,第一、第二、第三激活单元的激活函数为ReLU。
可选地,图4中的分类器为Softmax分类器。
可选地,图4中的词向量生成模块和/或字向量生成模块为word2vec。
可选地,图4还包括:
语料处理模块:待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。
进一步地,预处理包括:缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。
进一步地,数据编码采用One-Hot Endcoder。
下面介绍本发明相关的预先训练:
(一)word2vec
由于目前积累的语句多意图分类的数据量相对少,但在训练语义识别模型时参数量通常很大,为了避免模型陷入过拟合的危险,本发明采用预训练的词向量模型来减轻这一问题。最近的一些工作表明通过使用无监督学习得到的词向量模型,可以极大地提高模型的准确率,改善模型性能。
发明选用word2vec工具,进行无监督的词向量学习。word2vec实现了CBOW(continuous bag-of-words)和SG(skip-gram)两种结构,用于计算词语的向量表示。
对于字级别的词向量训练是以字作为句子的基本单位,为每个字训练一个词向量。对于词级别的词向量训练时,相对于英文数据来说,中文数据集需要利用Jieba分词工具对中文语料进行分词,以词作为句子的基本单位,为每个词训练一个词向量。预训练过程中的参数设置如表1所示。
表1
(二)语义识别模型的训练
本发明使用多值交叉熵(categorical_crossentropy)代价函数用于衡量语义识别模型的损失,采用小批量梯度递减方法(mini-batch Gradient Descent)对语义识别模型进行优化。多值交叉熵代价函数,以及用梯度递减的方法对多值交叉熵代价函数优化的公式如下:
Want minθJ(θ)
本发明针对单通道卷积神经网络(Convolutional Neural Network,CNN)视角单一,又不能充分学习到语句的特征信息和语义信息。在研究和分析了CNN算法的基础上,提出了本发明语义识别模型(Intent Classification Dual-channel ConvolutionalNeural Networks,ICDCNN)。该模型首先采用Word2vec工具进行词向量和字向量提取语句文本中的语义信息向量;然后采用两个不同的通道进行卷积运算,一个通道传入字级别的词向量,另一个通道传入词级别的词向量,利用细粒度的字级别词向量辅助词级别词向量捕捉自然语言语句更深层次的语义信息;最后通过设置不同尺寸的卷积核,学习语句内部更深层次的抽象特征。通过对比测试表明,本发明语义识别模型在识别中文数据集上取得了较高的准确率,较于其他算法具有一定的优势。
以下给出对比测试结果,选用iDeepWise数据集,且测试中采用回调函数,各模型的准确率如表2所示。
表2
需要说明的是,本发明的语义识别模型和语义识别装置实施例,与语义识别方法的实施例原理相同,相关之处可以互相参照。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (25)

1.一种语义识别方法,其特征在于,所述方法包括:
步骤11:将待分析文本转换为第一向量和第二向量后,分别执行步骤12和步骤13,所述第一向量为词向量矩阵,所述第二向量为字向量矩阵;
步骤12:将所述第一向量输入第一卷积神经网络,输出第一特征向量;
步骤13:将所述第二向量输入第二卷积神经网络,输出第二特征向量;
步骤14:将所述第一特征向量和第二特征向量连接为第三特征向量;
步骤15:将所述第三特征向量输入分类器,输出所述待分析文本的语义识别结果。
2.根据权利要求1所述的方法,其特征在于,所述第一卷积神经网络和第二卷积神经网络包括卷积层和池化层,所述卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元,所述池化层至少包括:第一池化单元、第二池化单元和第三池化单元。
3.根据权利要求2所述的方法,其特征在于,所述第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。
4.根据权利要求2所述的识别方法,其特征在于,所述第一、第二、第三池化单元均执行最大池化操作。
5.根据权利要求3所述的方法,其特征在于,所述卷积层还包括:位于所述第一、第二、第三卷积单元之后的第一、第二、第三激活单元。
6.根据权利要求5所述的识别方法,其特征在于,所述第一、第二、第三激活单元的激活函数为ReLU。
7.根据权利要求1所述的方法,其特征在于,所述分类器为Softmax分类器。
8.根据权利要求1所述的方法,其特征在于,所述将待分析文本转换为第一向量和第二向量后包括:基于word2vec,将待分析文本转换为第一向量和第二向量后。
9.根据权利要求1所述的方法,其特征在于,所述步骤11之前还包括:
步骤10:待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。
10.根据权利要求9所述的方法,其特征在于,所述预处理包括:缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。
11.根据权利要求9所述的方法,其特征在于,所述数据编码采用One-Hot Endcoder。
12.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至11中任一所述的语义识别方法中的步骤。
13.一种语义识别装置,其特征在于,包括处理器和如权利要求12所述的非瞬时计算机可读存储介质。
14.一种语义识别模型,其特征在于,包括:
词向量生成模块:将待分析文本转换为第一向量,所述第一向量为词向量矩阵;
字向量生成模块:将待分析文本转换为第二向量,所述第二向量为字向量矩阵;
第一卷积神经网络:当输入所述第一向量时,输出第一特征向量;
第二卷积神经网络:当输入所述第二向量时,输出第二特征向量;
连接模块:将所述第一特征向量和第二特征向量连接为第三特征向量;
分类器:当所述第三特征向量输入分类器时,输出所述待分析文本的语义识别结果。
15.根据权利要求14所述的语义识别模型,其特征在于,所述第一卷积神经网络和第二卷积神经网络包括卷积层和池化层,所述卷积层至少包括并行的第一卷积单元、第二卷积单元和第三卷积单元,所述池化层至少包括:第一池化单元、第二池化单元和第三池化单元。
16.根据权利要求15所述的语义识别模型,其特征在于,所述第一、第二、第三卷积单元的卷积核尺寸依次为2、3、4。
17.根据权利要求15所述的语义识别模型,其特征在于,所述第一、第二、第三池化单元均执行最大池化操作。
18.根据权利要求15所述的语义识别模型,其特征在于,所述卷积层还包括:位于所述第一、第二、第三卷积单元之后的第一、第二、第三激活单元。
19.根据权利要求18所述的语义识别模型,其特征在于,所述第一、第二、第三激活单元的激活函数为ReLU。
20.根据权利要求14所述的语义识别模型,其特征在于,所述分类器为Softmax分类器。
21.根据权利要求14所述的语义识别模型,其特征在于,所述词向量生成模块和/或所述字向量生成模块为word2vec。
22.根据权利要求14所述的语义识别模型,其特征在于,还包括:
语料处理模块:待分析语料经预处理、数据编码和标准化操作后转换为待分析文本。
23.根据权利要求22所述的语义识别模型,其特征在于,所述预处理包括:缺失值处理、非法字符过滤处理、停用词过滤、标签符号处理、数据词典的构建操作、和/或中文分词操作。
24.根据权利要求22所述的语义识别模型,其特征在于,所述数据编码采用One-HotEndcoder。
25.根据权利要求14至22任一所述的语义识别模型,其特征在于,所述语义识别模型训练时,使用多值交叉熵代价函数计算所述语义识别模型的损失,基于小批量梯度递减方法调整所述语义识别模型的参数。
CN201811365278.3A 2018-11-16 2018-11-16 语义识别方法、模型、存储介质和装置 Pending CN109684626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811365278.3A CN109684626A (zh) 2018-11-16 2018-11-16 语义识别方法、模型、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811365278.3A CN109684626A (zh) 2018-11-16 2018-11-16 语义识别方法、模型、存储介质和装置

Publications (1)

Publication Number Publication Date
CN109684626A true CN109684626A (zh) 2019-04-26

Family

ID=66184699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811365278.3A Pending CN109684626A (zh) 2018-11-16 2018-11-16 语义识别方法、模型、存储介质和装置

Country Status (1)

Country Link
CN (1) CN109684626A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245348A (zh) * 2019-05-17 2019-09-17 北京百度网讯科技有限公司 一种意图识别方法及系统
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110347793A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种中文语义解析方法及装置
CN110399912A (zh) * 2019-07-12 2019-11-01 广东浪潮大数据研究有限公司 一种字符识别的方法、系统、设备及计算机可读存储介质
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110851594A (zh) * 2019-10-08 2020-02-28 浙江工业大学 一种基于多通道深度学习模型的文本分类方法及其装置
CN111027667A (zh) * 2019-12-06 2020-04-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111160042A (zh) * 2019-12-31 2020-05-15 重庆觉晓教育科技有限公司 一种文本语义解析方法和装置
CN112069837A (zh) * 2020-09-17 2020-12-11 湖北亿咖通科技有限公司 一种基于神经网络的自然语言处理方法和电子设备
CN112287672A (zh) * 2019-11-28 2021-01-29 北京京东尚科信息技术有限公司 文本意图识别方法及装置、电子设备、存储介质
CN112464674A (zh) * 2020-12-16 2021-03-09 四川长虹电器股份有限公司 一种字级别的文本意图识别方法
CN113158643A (zh) * 2021-04-27 2021-07-23 广东外语外贸大学 一种新型文本可读性评估方法及系统
CN113343692A (zh) * 2021-07-15 2021-09-03 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN113627161A (zh) * 2021-08-09 2021-11-09 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备
CN113723114A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 基于多意图识别的语义分析方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110263323B (zh) * 2019-05-08 2020-08-28 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110245348A (zh) * 2019-05-17 2019-09-17 北京百度网讯科技有限公司 一种意图识别方法及系统
CN110245348B (zh) * 2019-05-17 2023-11-24 北京百度网讯科技有限公司 一种意图识别方法及系统
CN110347793A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种中文语义解析方法及装置
CN110399912A (zh) * 2019-07-12 2019-11-01 广东浪潮大数据研究有限公司 一种字符识别的方法、系统、设备及计算机可读存储介质
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
WO2021027533A1 (zh) * 2019-08-13 2021-02-18 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110580288B (zh) * 2019-08-23 2022-09-09 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110851594A (zh) * 2019-10-08 2020-02-28 浙江工业大学 一种基于多通道深度学习模型的文本分类方法及其装置
CN112287672A (zh) * 2019-11-28 2021-01-29 北京京东尚科信息技术有限公司 文本意图识别方法及装置、电子设备、存储介质
CN111027667B (zh) * 2019-12-06 2023-10-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111027667A (zh) * 2019-12-06 2020-04-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111160042A (zh) * 2019-12-31 2020-05-15 重庆觉晓教育科技有限公司 一种文本语义解析方法和装置
CN111160042B (zh) * 2019-12-31 2023-04-28 重庆觉晓科技有限公司 一种文本语义解析方法和装置
CN112069837A (zh) * 2020-09-17 2020-12-11 湖北亿咖通科技有限公司 一种基于神经网络的自然语言处理方法和电子设备
WO2022057406A1 (zh) * 2020-09-17 2022-03-24 湖北亿咖通科技有限公司 一种基于神经网络的自然语言处理方法和电子设备
CN112464674A (zh) * 2020-12-16 2021-03-09 四川长虹电器股份有限公司 一种字级别的文本意图识别方法
CN113158643A (zh) * 2021-04-27 2021-07-23 广东外语外贸大学 一种新型文本可读性评估方法及系统
CN113158643B (zh) * 2021-04-27 2024-05-28 广东外语外贸大学 一种新型文本可读性评估方法及系统
CN113343692A (zh) * 2021-07-15 2021-09-03 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN113343692B (zh) * 2021-07-15 2023-09-12 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN113627161A (zh) * 2021-08-09 2021-11-09 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备
CN113627161B (zh) * 2021-08-09 2024-06-04 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备
CN113723114A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 基于多意图识别的语义分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109684626A (zh) 语义识别方法、模型、存储介质和装置
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
Hazarika et al. Self-attentive feature-level fusion for multimodal emotion detection
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN113592251B (zh) 一种多模态融合的教态分析系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
CN115455136A (zh) 智能数字人营销交互方法、装置、计算机设备及存储介质
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN107992468A (zh) 一种基于lstm的混合语料命名实体识别方法
CN114742047A (zh) 基于最大概率填充和多头注意力机制的文本情感识别方法
CN113254429B (zh) 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN113312907B (zh) 基于混合神经网络的远程监督关系抽取方法及装置
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination