CN110472230B - 中文文本的识别方法及装置 - Google Patents

中文文本的识别方法及装置 Download PDF

Info

Publication number
CN110472230B
CN110472230B CN201910625565.1A CN201910625565A CN110472230B CN 110472230 B CN110472230 B CN 110472230B CN 201910625565 A CN201910625565 A CN 201910625565A CN 110472230 B CN110472230 B CN 110472230B
Authority
CN
China
Prior art keywords
expression
chinese text
trunk
vector
rete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910625565.1A
Other languages
English (en)
Other versions
CN110472230A (zh
Inventor
张懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910625565.1A priority Critical patent/CN110472230B/zh
Publication of CN110472230A publication Critical patent/CN110472230A/zh
Application granted granted Critical
Publication of CN110472230B publication Critical patent/CN110472230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种中文文本的识别方法及装置,其中,该方法包括:采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;采用通过Encoder‑Decoder模型识别所述表述主干的表达含义;将所述表达含义确定为所述目标中文文本的识别结果。通过本发明,解决了现有技术中不能识别复杂句式的中文文本的技术问题。

Description

中文文本的识别方法及装置
技术领域
本发明涉及人工智能领域,具体而言,涉及一种中文文本的识别方法及装置。
背景技术
现有技术中,NLP(Natural Language Processing,自然语言处理)深度学习训练的分类/回归器更多的是针对文本整体,而在自然语言中,中文的描述非常丰富,比喻、借代、比拟等“反科学常识”修辞手法比比皆是,如何在复杂的中文辞藻中,判断表述的主干,抽取有实际意义的陈述是亟待解决的问题。
针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种中文文本的识别方法及装置,用于解决现有技术中不能识别复杂句式的中文文本的技术问题。
根据本发明的一个实施例,提供了一种中文文本的识别方法,包括:采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;采用通过Encoder-Decoder模型识别所述表述主干的表达含义;将所述表达含义确定为所述目标中文文本的识别结果。
可选的,采用预设推荐网络提取目标中文文本的表述主干包括:采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。
可选的,采用自匹配推荐网络提取目标中文文本的第一表述主干包括:采用预设语料库建立模糊规则库;采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。
可选的,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果,包括:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个rete flag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行rete flag的更新,将rete flag为true的模糊规则的结论作为模糊推理结果。
可选的,采用自注意力推荐网络提取目标中文文本的第二表述主干包括:针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。
可选的,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用编码器Encoder将所述表述主干编码成一个上下文向量c;将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
可选的,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用Encoder函数将所述表述主干编码成一个上下文向量c;采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
根据本发明的另一个实施例,提供了一种中文文本的识别装置,包括:提取模块,用于采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;识别模块,用于采用通过Encoder-Decoder模型识别所述表述主干的表达含义;确定模块,用于将所述表达含义确定为所述目标中文文本的识别结果。
可选的,所述提取模块包括:提取单元,用于采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;选择单元,用于在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。
可选的,所述提取单元包括:第一构建子单元,用于采用预设语料库建立模糊规则库;处理子单元,用于采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;确定子单元,用于将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。
可选的,所述处理子单元还用于:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个rete flag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行rete flag的更新,将rete flag为true的模糊规则的结论作为模糊推理结果。
可选的,所述提取单元包括:第二构建子单元,用于针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;合成子单元,用于利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;选择子单元,用于依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。
可选的,所述识别模块包括:编码单元,用于采用编码器Encoder将所述表述主干编码成一个上下文向量c;第一解码单元,用于将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
可选的,所述识别模块包括:编码单元,用于采用Encoder函数将所述表述主干编码成一个上下文向量c;第二解码单元,用于采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,采用预设推荐网络提取目标中文文本的表述主干,采用通过Encoder-Decoder模型识别所述表述主干的表达含义,最后将所述表达含义确定为所述目标中文文本的识别结果,通过引入推荐网络来定位并提取中文文本中的表述主干,并通过Encoder-Decoder模型识别表述主干的表达含义,解决了现有技术中不能识别复杂句式的中文文本的技术问题,提高了对中文文本的识别率和准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种中文文本的识别终端结构框图;
图2是根据本发明实施例的一种中文文本的识别方法的流程图;
图3是本发明实施例编码得到上下文向量的示意图;
图4是本发明采用实施方式一解码输出的示意图;
图5是本发明采用实施方式二解码输出的示意图;
图6是根据本发明实施例的中文文本的识别装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的一种中文文本的识别终端结构框图。如图1所示,终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种中文文本的识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种中文文本的识别方法,图2是根据本发明实施例的一种中文文本的识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;
步骤S204,采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
本实施例的Encoder-Decoder模型也叫Seq2Seq模型,是RNN的一个变种:N vs M(输入与输出序列长度不同)。
步骤S206,将所述表达含义确定为所述目标中文文本的识别结果。
通过上述步骤,采用预设推荐网络提取目标中文文本的表述主干,采用通过Encoder-Decoder(编码-解码)模型识别所述表述主干的表达含义,最后将所述表达含义确定为所述目标中文文本的识别结果,通过引入推荐网络来定位并提取中文文本中的表述主干,并通过Encoder-Decoder模型识别表述主干的表达含义,解决了现有技术中不能识别复杂句式的中文文本的技术问题,提高了对中文文本的识别率和准确率。
本实施例在采用预设推荐网络提取目标中文文本的表述主干之前,还包括:设置区域推荐网络,其中,所述区域推荐网络用于定位长文本中的表述主干,还可以使用海量的样本文件对区域推荐网络进行训练学习,样本的输入为“完整的长文本”,输出为人工提炼后的“表述主干”,本方案的区域推荐网络包括self-matching(自匹配)和self-attention(自注意力)机制。
本实施例的一个实施方式中,采用预设推荐网络提取目标中文文本的表述主干包括:
S11,采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;
在一个实施方式中,采用自匹配推荐网络提取目标中文文本的第一表述主干包括:采用预设语料库建立模糊规则库;采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。具体的,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果,包括:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个rete flag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行rete flag的更新,将rete flag为true的模糊规则的结论作为模糊推理结果。在此结合示例对自匹配机制进行解释:
1)建立模糊规则库;
2)采用高斯隶属度函数将中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;
将中文文本进行多种方式的提炼,如随意组合多个单词,得到多个可能是表述主干的事实项,然后依次与预设的数据库和规则库进行匹配,匹配成功则为可用的表述主干,可以选择字数符合预定条件(如字数最少)的最为最终的表述主干。具体包括:
(21)构建rete模糊模式:[PF]表示模糊规则前件元素,P为参数名称,F为模糊量词,则P和F均为测试域,将P和F相互连接,便构成了rete模糊模式;这里根据已有的语料库,构建了各个单词与其他单词的所有有意义的组合方式,如“中”,可以与“中国”进行组合,不可能与“中家”形成有意义的组合,则句子中包括“中家”的事实项不匹配;
(22)构建rete连接网络:连接网将模糊规则中具有归属关系(如,的,之)的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个reteflag标识来记录该连接网是否匹配成功,如果匹配成功,则reteflag为true;反之,则为false;这里也是根据已有的语料库,构建了各个词组与其他单词或词组的所有有意义的连接情况,如“问题”,可以使用连接词与“重点”进行连接,不可能与“你好”进行意义的连接,则句子中包括“问题的你好”的事实项不匹配;
(23)rete网络匹配:将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,然后再根据α寄存器的更新情况进行reteflag的更新,将reteflag为true的模糊规则的结论作为模糊推理结果。
3)将模糊推理结果进行去模糊化得出最终推理结果;去模糊化是人工干预的可选过程,在得到多个模糊推理结果时,可以人工选择一个。
4)将最终推理结果确定为表述主干。
在另一个实施方式中,采用自注意力推荐网络提取目标中文文本的第二表述主干包括:针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。在此结合示例对自注意力机制进行解释:
步骤1:为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;原始向量即该单词本身的词向量;本文中,以时序输入了一句话,上下文向量(context vector)相当于一个表征,表示为各个词语的加权语境向量,也就是说,这个向量使得,这句话中的某个词,与其他词语之间存在上下文关系。举个例子:针对某一单词"苹果",文本序列1=“我买了六斤苹果。”文本序列2=“我买了一个苹果7。”上面两个文本序列中都出现了“苹果”这个词,但是在不同的句子中,含义显示是不同的,一个属于水果领域,一个属于电子产品呢领域,这个时候就需要使用单词的上下文向量来限定和区分,该向量用于限定单词所在文本的语境和领域(创建与语境和领域对应的向量),结合单词的原始向量和上下文向量即可得到清楚表述单词意思的词向量。结合向量即两个向量的乘积。
步骤2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征;合成句子向量的过程包括:使用非对称卷积神经网络,把j×d(j,d分别为单词i的原始向量和上下文向量)个卷积分成1×d和j×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积(卷积是一种运算方法,卷积滤波器就是利用卷积运算的原理来构成滤波器,来提取特征,本实施例是指对1×d和j×1进行卷积,最终提取句子向量的特征),得到对应的特征映射(feature map),对句子的每一个单词进行相同的处理,得到多个特征映射,利用频道对多个feature map进行合成,最终得到句子向量。合成文档向量的过程包括:利用双向循环神经网络是指同时考虑历史数据和未来数据的网络,类似与上下文中的上文和下文,在本方案指在生成文档向量时,同时考虑当前句子之前的句子和之后的句子的句子向量,在生成文档向量时,不是简单的使用句子向量相加,而是在句子向量上添加句子顺序(句子在文档中的先后顺序)的特征后再相加各个句子向量。在句子向量上添加句子顺序时,在向量起始位置添加用于描述句子顺序的顺序标识(如第2段第3句,或者文档的各个句子分配一个唯一序号,在句子向量上添加句子顺序时,在向量起始位置添加对应序号)。
步骤3:依次删除文档中的任一单词,然后计算源文档与删除后文档的相似度(通过比较向量特征来计算相似度),选择相似度最小的n个词按照其在文档中的原时序组合成表述主干。其中,包括单词的源文档与删除该单词后的文档比较,相似度越小,反差越大,说明该词越不可缺少,是组成语义,影响整个句子表述重要成分。如,我昨天晚上回家了,删除“回家”要比删除“昨天”对整个文档的意义影响要大,则“回家”更重要,更适合组合成表述主干。
S12,在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干。优先级通过预定条件来预先设定,预定条件包括:一定的语法结构(如是否包括主谓宾,是否有从句结构等),一定的字数范围。如可以优先选择语法结构为主谓宾的表述主干,优先选择总字数在3~10的表述主干。
在一个示例中,表述主干为“我给你钱”,即Encoder-Decoder模型的输入数据。
原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,例如在本实施例的文本识别中,源语言和识别出的目标语言的句子往往并没有相同的长度。为此,Encoder-Decoder结构先将输入数据编码成一个上下文向量(context vector)c:编码得到c有多种方式,一种方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换,然后根据预设权重生成c,图3是本发明实施例编码得到上下文向量的示意图。其中,x1-x4(分别为“我”“给”“你”“钱”)为输入,y1-y3为Encoder-Decoder模型的输出。计算得到c之后,就用另一个RNN网络对其进行解码,这部分RNN网络被称为Decoder。本实施例包括以下两种方式:
实施方式一,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用编码器Encoder将所述表述主干编码成一个上下文向量c;将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
通过将c当做之前的初始状态h0输入到Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果,该模型注重的是表述主干中每个词性的独立含义,过滤定语,从句,宾补等句子结构,y1-y3为“我给钱”,如图4所示,图4是本发明采用实施方式一解码输出的示意图。
实施方式二,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:采用Encoder函数将所述表述主干编码成一个上下文向量c;采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
通过将c当作Decoder中每一步的输入,Decoder的第一级解码函数的输入为c,输出为y1,第二级函数的输入为c和y1,输出为y2,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果,该模型综合了表述主干中每个词性和完整表述的含义,过滤掉“多余”的词性,y1-y3为“给你钱”,过滤了主语,如图5所示,图5是本发明采用实施方式二解码输出的示意图。
可选地,上述步骤的执行主体可以为客户端或服务器等,客户端可以是移动终端,PC等,服务器可以是数据服务器,策略服务器等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种中文文本的识别装置,可以是终端或服务器,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的中文文本的识别装置的结构框图,如图6所示,该装置包括:提取模块60,识别模块62,确定模块64,其中,
提取模块60,用于采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;
识别模块62,用于采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
确定模块64,用于将所述表达含义确定为所述目标中文文本的识别结果。
可选的,所述提取模块包括:提取单元,用于采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;选择单元,用于在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围。
可选的,所述提取单元包括:第一构建子单元,用于采用预设语料库建立模糊规则库;处理子单元,用于采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果;确定子单元,用于将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。
可选的,所述处理子单元还用于:构建rete模糊模式,以及构建rete连接网络,其中,rete连接网络将模糊规则中具有归属关系的rete模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个rete flag标识来记录该连接网是否匹配成功;将事实项与rete模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α寄存器中,并根据α寄存器的更新状态进行rete flag的更新,将rete flag为true的模糊规则的结论作为模糊推理结果。
可选的,所述提取单元包括:第二构建子单元,用于针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;合成子单元,用于利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;选择子单元,用于依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数。
可选的,所述识别模块包括:编码单元,用于采用编码器Encoder将所述表述主干编码成一个上下文向量c;第一解码单元,用于将c作为初始状态h0输入到解码器Decoder的第一级解码函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
可选的,所述识别模块包括:编码单元,用于采用Encoder函数将所述表述主干编码成一个上下文向量c;第二解码单元,用于采用Decoder函数将c当作Decoder中每一级函数的输入,同时将前一级函数的输出作为后一级函数的输入,依次得到所有函数的输出,依次计算得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
需要说明的是,终端和服务器仅是方案在执行主体上的差异,上述识别终端中的各个示例和可选方案同样适应在服务器中,并产生相同的技术效果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;
S2,采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
S3,将所述表达含义确定为所述目标中文文本的识别结果。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括以下至少之一:自匹配推荐网络,自注意力推荐网络;
S2,采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
S3,将所述表达含义确定为所述目标中文文本的识别结果。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种中文文本的识别方法,其特征在于,包括:
采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括自匹配推荐网络和自注意力推荐网络;
所述采用预设推荐网络提取目标中文文本的表述主干,包括:
采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;
所述采用自注意力推荐网络提取目标中文文本的第二表述主干,包括:
针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;
利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;
依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数;
在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围;
采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
将所述表达含义确定为所述目标中文文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,采用自匹配推荐网络提取目标中文文本的第一表述主干包括:
采用预设语料库建立模糊规则库 ;
采用高斯隶属度函数将所述目标中文文本进行模糊化处理得到事实项,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果 ;
将模糊推理结果进行去模糊化得出最终推理结果,并将所述最终推理结果确定为所述第一表述主干。
3.根据权利要求2所述的方法,其特征在于,采用rete算法将事实项与模糊规则库中的规则进行匹配,得到模糊推理结果,包括:
构建 rete 模糊模式,以及构建 rete 连接网络 ,其中,rete 连接网络将模糊规则中具有归属关系的 rete 模糊模式作为一个集合,实现对模糊规则前件的构建,每个连接网设置一个 rete flag 标识来记录该连接网是否匹配成功;
将事实项与 rete 模糊模式的测试域进行匹配,并将匹配成功的事实项存储到对应的α 寄存器中,并根据 α 寄存器的更新状态进行 rete flag 的更新,将 rete flag 为true 的模糊规则的结论作为模糊推理结果。
4.根据权利要求1所述的方法,其特征在于,采用通过Encoder-Decoder模型识别所述表述主干的表达含义包括:
采用编码器将所述表述主干编码成一个上下文向量c;
将c作为初始状态h0输入到解码器的第一级函数,然后将第一级函数的输出作为第二级函数的输入,依次得到所有函数的输出,将所有函数的输出集合作为Decoder的解码结果。
5.一种中文文本的识别装置,其特征在于,包括:
提取模块,用于采用预设推荐网络提取目标中文文本的表述主干,其中,所述预设推荐网络包括自匹配推荐网络和自注意力推荐网络;
所述提取模块包括提取单元,用于采用自匹配推荐网络提取目标中文文本的第一表述主干,以及采用自注意力推荐网络提取目标中文文本的第二表述主干;所述采用自注意力推荐网络提取目标中文文本的第二表述主干,包括:针对每个单词创建一个上下文向量,并使用所述上下文向量和单词的原始向量构建组合向量;利用非对称卷积神经网络对所有单词的组合向量进行合成形成句子向量,利用双向门循环神经网络对所有句子的句子向量进行合成形成文档向量;依次删除文档向量中的任一单词的组合向量,并计算源文档与删除后文档的相似度,选择相似度最小的n个单词按照其在文档中的原时序组合成第二表述主干,其中,n为大于1的整数;选择单元,用于在所述第一表述主干和所述第二表述主干中根据预设条件选择一个优先级高的表述主干,其中,所述预设条件包括以下之一:表述主干的语法结构、表述主干的字数范围;
识别模块,用于采用通过Encoder-Decoder模型识别所述表述主干的表达含义;
确定模块,用于将所述表达含义确定为所述目标中文文本的识别结果。
6.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至4任一项中所述的方法。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4任一项中所述的方法。
CN201910625565.1A 2019-07-11 2019-07-11 中文文本的识别方法及装置 Active CN110472230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625565.1A CN110472230B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625565.1A CN110472230B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Publications (2)

Publication Number Publication Date
CN110472230A CN110472230A (zh) 2019-11-19
CN110472230B true CN110472230B (zh) 2023-09-05

Family

ID=68508014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625565.1A Active CN110472230B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110472230B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914568B (zh) * 2020-07-31 2024-02-06 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN115249017B (zh) * 2021-06-23 2023-12-19 马上消费金融股份有限公司 文本标注方法、意图识别模型的训练方法及相关设备
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678617A (zh) * 2013-12-17 2014-03-26 北京哈工大计算机网络与信息安全技术研究中心 一种基于流计算的移动感知上下文处理系统及方法
CN105787563A (zh) * 2014-12-18 2016-07-20 中国科学院沈阳自动化研究所 一种基于自学习机制的快速匹配模糊推理方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109409307A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于时空上下文分析的在线视频行为检测系统及其方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001070B2 (en) * 2007-12-17 2011-08-16 Honeywell International Inc. Object oriented rule-based system and method
US20180053114A1 (en) * 2014-10-23 2018-02-22 Brighterion, Inc. Artificial intelligence for context classifier

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678617A (zh) * 2013-12-17 2014-03-26 北京哈工大计算机网络与信息安全技术研究中心 一种基于流计算的移动感知上下文处理系统及方法
CN105787563A (zh) * 2014-12-18 2016-07-20 中国科学院沈阳自动化研究所 一种基于自学习机制的快速匹配模糊推理方法
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109409307A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于时空上下文分析的在线视频行为检测系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全局自匹配机制的短文本摘要生成方法;吴仁守 等;《软件学报(网络首发)》;1-14 *

Also Published As

Publication number Publication date
CN110472230A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
Zhou et al. End-to-end learning of semantic role labeling using recurrent neural networks
CN110472230B (zh) 中文文本的识别方法及装置
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111914067B (zh) 中文文本匹配方法及系统
US20140236577A1 (en) Semantic Representations of Rare Words in a Neural Probabilistic Language Model
CN111898364B (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
US11687716B2 (en) Machine-learning techniques for augmenting electronic documents with data-verification indicators
CN110019758B (zh) 一种核心要素提取方法、装置及电子设备
CN109933656A (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
KR101923780B1 (ko) 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN113392197B (zh) 问答推理方法、装置、存储介质及电子设备
CN113283238A (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN111506709A (zh) 实体链接方法、装置、电子设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117076688A (zh) 基于领域知识图谱的知识问答方法及其装置、电子设备
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN113868417A (zh) 一种敏感评论识别方法、装置、终端设备和存储介质
CN114706943A (zh) 意图识别的方法、装置、设备和介质
CN113722477A (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN111159339A (zh) 一种文本匹配处理方法和装置
Alvarado et al. Detecting Disaster Tweets using a Natural Language Processing technique
US20230401391A1 (en) Machine translation method, devices, and storage media
CN112597289B (zh) 问询信息分类方法、模型训练方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant