CN110502741B - 中文文本的识别方法及装置 - Google Patents

中文文本的识别方法及装置 Download PDF

Info

Publication number
CN110502741B
CN110502741B CN201910625020.0A CN201910625020A CN110502741B CN 110502741 B CN110502741 B CN 110502741B CN 201910625020 A CN201910625020 A CN 201910625020A CN 110502741 B CN110502741 B CN 110502741B
Authority
CN
China
Prior art keywords
groups
interest
determining
chinese text
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910625020.0A
Other languages
English (en)
Other versions
CN110502741A (zh
Inventor
张懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910625020.0A priority Critical patent/CN110502741B/zh
Publication of CN110502741A publication Critical patent/CN110502741A/zh
Application granted granted Critical
Publication of CN110502741B publication Critical patent/CN110502741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种中文文本的识别方法及装置,其中,该方法包括:获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;使用预设句法分析模型确定所述多个第二意群的意群次序特征;基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。通过本发明,解决了现有技术中不能识别复杂句式的中文文本的技术问题。

Description

中文文本的识别方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种中文文本的识别方法及装置。
背景技术
现有技术中,NLP (Natural Language Processing,自然语言处理)领域中深度学习里针对英文的上下文嵌入层十分时髦,在学术界罕有类似的中文相关的嵌入方式。由于中文的行文风格和英文并不相似,直接套用效果不佳。尤其是中文的字词次序特征含义模糊,行文中常有倒装,以至于传统的RNN(循环神经网络,Recurrent Neural Network)学习并不能有效获取中文的行文含义。
针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种中文文本的识别方法及装置,以至少解决现有技术中不能识别复杂句式的中文文本的技术问题。
根据本发明的一个实施例,提供了一种中文文本的识别方法,包括:获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;使用预设句法分析模型确定所述多个第二意群的意群次序特征;基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选的,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群包括:在预设神经网络模型中构建嵌入层;将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;将所述嵌入层的输出结果确定为所述多个第二意群。
可选的,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本包括:根据所述意群次序特征确定各个第二意群的排列顺序;按照所述排列顺序编排所述多个第二意群。
可选的,获取目标中文文本中的多个第一意群包括:将所述目标中文文本进行分词处理,得到多个概念单位;将所述多个概念单位输入至CRF线性链的以下势函数,输出所述多个第一意群:
其中,为转移特征函数,对应相邻的隐层节点,/>为状态特征函数,对应每一对隐层和显层节点,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息。
可选的,使用预设句法分析模型确定目标中文文本中多个所述第二意群的意群次序特征包括:采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系;根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征。
可选的,采用预设句法分析模型确定所述目标中文文本的句法结构包括:确定所述目标中文文本的语法体系;根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
可选的,采用预设句法分析模型确定所述多个第二意群之间的依存关系包括:确定所述目标中文文本中的核心动词;以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
根据本发明的另一个实施例,提供了一种中文文本的识别装置,包括:获取模块,用于获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;选择模块,用于采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;确定模块,用于使用预设句法分析模型确定所述多个第二意群的意群次序特征;识别模块,用于基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选的,所述选择模块包括:构建单元,用于在预设神经网络模型中构建嵌入层;查找单元,用于将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;确定单元,用于将所述嵌入层的输出结果确定为所述多个第二意群。
可选的,所述识别模块包括:确定单元,用于根据所述意群次序特征确定各个第二意群的排列顺序;编排单元,用于按照所述排列顺序编排所述多个第二意群。
可选的,所述获取模块包括:分词单元,用于将所述目标中文文本进行分词处理,得到多个概念单位;处理单元,用于将所述多个概念单位输入至CRF线性链的以下势函数,输出所述多个第一意群:
其中,为转移特征函数,对应相邻的隐层节点,/>为状态特征函数,对应每一对隐层和显层节点,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息。
可选的,所述确定模块包括:第一确定单元,用于采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系;第二确定单元,用于根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征。
可选的,所述第一确定单元包括:第一确定子单元,用于确定所述目标中文文本的语法体系;分析子单元,用于根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
可选的,所述第一确定单元包括:第二确定子单元,用于确定所述目标中文文本中的核心动词;构建子单元,用于以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取目标中文文本中的多个第一意群,然后采用注意力机制从多个第一意群中选择符合预定条件的多个第二意群,使用预设句法分析模型确定多个第二意群的意群次序特征,最后基于多个第二意群和意群次序特征识别目标中文文本,针对中文的行文特征,提取其包含的意群,并进行句法分析得到意群次序特征,解决了现有技术中不能识别复杂句式的中文文本的技术问题,提高了对中文文本的识别率和准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种中文文本的识别移动终端的硬件结构框图;
图2是根据本发明实施例的中文文本的识别方法的流程图;
图3是本本发明实施例确定意群次序特征的流程示意图;
图4是根据本发明实施例的中文文本的识别装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种中文文本的识别移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的中文文本的识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种中文文本的识别方法,图2是根据本发明实施例的中文文本的识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;
步骤S204,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
步骤S206,使用预设句法分析模型确定所述多个第二意群的意群次序特征;
步骤S208,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
通过上述步骤,获取目标中文文本中的多个第一意群,然后采用注意力机制从多个第一意群中选择符合预定条件的多个第二意群,使用预设句法分析模型确定多个第二意群的意群次序特征,最后基于多个第二意群和意群次序特征识别目标中文文本,针对中文的行文特征,提取其包含的意群,并进行句法分析得到意群次序特征,解决了现有技术中不能识别复杂句式的中文文本的技术问题,提高了对中文文本的识别率和准确率。
本实施例采用条件随机场(CRF,Conditional Random Fields)线性链获取待识别的中文文本(目标中文文本)的多个意群;在中文中,意群(sense group)是指几个相邻的、在意义和语法结构上紧密联系、表示整体意思的一组词语,意群由单词组成的表意单位,介于单词和句子之间的结构。意群可以由一个单词、词组或短语组成,也可以由一个从句,或一定的语法结构组成。句中的意群在内部表现为语法关系密切,外部表现为读音中间不能停顿,意群在表达意思中具有相对完整性。意群也就是我们通常说的句子切分的具有相对完整性的成分。意群其实就是概念的组合。概念并不是无序的组合,而是根据一定的关系组合在一起的。所以意群和单个概念(单词、词组或短语)相比,意群包含一个或多个单个概念。
在一个可选的实施方式中,获取目标中文文本中的多个第一意群包括:
S11,将所述目标中文文本进行分词处理,得到多个概念单位;
S12,将所述多个概念单位输入至CRF线性链的以下势函数,输出所述多个第一意群:
其中,为转移特征函数,对应相邻的隐层节点,所以它和/>,/>有关,/>为状态特征函数,对应每一对隐层和显层节点,所以它和/>,x有关,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息。Tk和sl,取值为1和0,满足条件为1,否则为0。就是我们对前一个位置对当前的影响和当前位置都设定一个函数,如果满足了我们的函数,那么我们认为这个预测是相对有效的,返回1,所有函数对当前预测返回一个值,再除以规范化因子,就能得到我们预测的意群的概率,我们选出概率最大的文本序列作为预测的结果,作为意群。
将待识别中文文本拆分为单个概念,并量化为单个概念的语义特征信息X={X1,X2,...,Xi},为输入量, Y={y1,y2,...,}为X对应的输出标签序列,为输出量。Y={y1,y2,...,/>}是中文文本所有的意群序列,在此只需要求出在概率P(x丨y)大于一定值的情况下,每个单词最有可能归属的意群,yi-1为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群。
在本实施例的一个实施方式中,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群包括:
S21,在预设神经网络模型中构建嵌入层;
嵌入层被定义为神经网络的第一个隐藏层。构建嵌入层需要指定以下3个参数:
1.input_dim:这是文本数据中词汇的大小。例如,如果你的数据是整数编码为0-10之间的值,则词表的大小将为11个字。
2.output_dim:这是嵌入单词的向量空间的大小。它为每个单词定义了该层的输出向量的大小。例如,它可以是32或100甚至更大。
3.input_length:这是输入序列的长度。例如,如果你的所有输入文档包含1000个单词,则为1000。
嵌入层在本实施例中的作用在于降维,采用attention机制(注意力机制)对所述多个意群进行识别,得到符合预定条件的目标意群,增加attention机制对嵌入意群进行识别学习,可以过滤无意义的词或意群。
Attention模型的基本表述可以这样理解成:当我们人在看一样东西的时候,我们当前时刻关注的一定是我们当前正在看的这样东西的某一地方,换句话说,当我们目光移到别处时,注意力随着目光的移动也在转移。这意味着,当人们注意到某个目标或某个场景时,该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。这一点在中文理解中同样成立:当我们试图描述一件事情,我们当前时刻说到的单词和句子和正在描述的该事情的对应某个片段最相关,而其他部分随着描述的进行,相关性也在不断地改变。
S22,将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;
本实施例中,对于 Attention的作用角度出发,我们就可以从两个角度来分类Attention种类:空间注意力 Spatial Attention,时间注意力 Temporal Attention。
步骤包括:查找待识别中文文本的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为目标意群,或者将与所述空间属性词相关的意群确定为目标意群。本实施例中的时间属性词即时间,日期等描述性的词,如之前,以后,早上,9:30等,与所述时间属性词相关的意群即包括时间属性词的意群,空间属性词即位置,地点等描述性的词,如家里,学校,美国等,与所述空间属性词相关的意群即包括空间属性词的意群。
S23,将所述嵌入层的输出结果确定为所述多个第二意群。
图3是本本发明实施例确定意群次序特征的流程示意图,如图3所示,使用预设句法分析模型确定目标中文文本中多个所述第二意群的意群次序特征包括:
S302,采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系;
下面对句法结构和依存关系分别进行解释和说明:
在一个示例中,采用预设句法分析模型确定所述目标中文文本的句法结构包括:确定所述目标中文文本的语法体系;根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
在另一个示例中,采用预设句法分析模型确定所述多个第二意群之间的依存关系包括:确定所述目标中文文本中的核心动词;以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
句法分析是自然语言处理中的关键技术,本实施例的预设句法分析模型用于确定句子的句法结构或者句子中词汇之间的依存关系。其中,意群次序特征可以理解为多个意群的排序顺序或者组合方式。
句法结构包括两方面的内容:一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;二是句法分析技术,即根据确定的语法体系,按照句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
词汇之间的依存关系是通过分析语言单位内成分之间的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分,而动词本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者(动词)。本实施例中,词汇之间的依存关系包含以下五个约束条件:
(1)一个句子中只有一个成分是独立的
(2)句子的其他成分都从属于某一成分
(3)任何一个成分都不能依存于两个或两个以上的成分
(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分
(5)中心成分左右两边的其他成分相互不发生关系
本实施例中的语法结构示例如表1所示:
表1
在按照上述预设的语法结构确定目标意群的语法体系后,按照其语法结构确定每个目标意群的词性(主语、谓语、宾语、定语等),再将多个目标意群按照其词性进行按序(主谓宾)组合。
S304,根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征。
在本实施例中,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本包括:根据所述意群次序特征确定各个第二意群的排列顺序;按照所述排列顺序编排所述多个第二意群。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种中文文本的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的中文文本的识别装置的结构框图,如图4所示,该装置包括:获取模块40,选择模块42,确定模块44,识别模块46,其中,
获取模块40,用于获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;
选择模块42,用于采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
确定模块44,用于使用预设句法分析模型确定所述多个第二意群的意群次序特征;
识别模块46,用于基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选的,所述选择模块包括:构建单元,用于在预设神经网络模型中构建嵌入层;查找单元,用于将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;确定单元,用于将所述嵌入层的输出结果确定为所述多个第二意群。
可选的,所述识别模块包括:确定单元,用于根据所述意群次序特征确定各个第二意群的排列顺序;编排单元,用于按照所述排列顺序编排所述多个第二意群。
可选的,所述获取模块包括:分词单元,用于将所述目标中文文本进行分词处理,得到多个概念单位;处理单元,用于将所述多个概念单位输入至CRF线性链的以下势函数,输出所述多个第一意群:
其中,为转移特征函数,对应相邻的隐层节点,/>为状态特征函数,对应每一对隐层和显层节点,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息。
可选的,所述确定模块包括:第一确定单元,用于采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系;第二确定单元,用于根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征。
可选的,所述第一确定单元包括:第一确定子单元,用于确定所述目标中文文本的语法体系;分析子单元,用于根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
可选的,所述第一确定单元包括:第二确定子单元,用于确定所述目标中文文本中的核心动词;构建子单元,用于以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;
S2,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
S3,使用预设句法分析模型确定所述多个第二意群的意群次序特征;
S4,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;
S2,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
S3,使用预设句法分析模型确定所述多个第二意群的意群次序特征;
S4,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中文文本的识别方法,其特征在于,包括:
将目标中文文本进行分词处理,得到多个概念单位;将所述多个概念单位输入至CRF线性链的以下势函数,输出多个第一意群:,其中,/>为转移特征函数,对应相邻的隐层节点,/>为状态特征函数,对应每一对隐层和显层节点,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息;
采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系,包括:确定所述目标中文文本的语法体系,根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系;
根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征;
基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
2.根据权利要求1所述的方法,其特征在于,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群包括:
在预设神经网络模型中构建嵌入层;
将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;
将所述嵌入层的输出结果确定为所述多个第二意群。
3.根据权利要求1所述的方法,其特征在于,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本包括:
根据所述意群次序特征确定各个第二意群的排列顺序;
按照所述排列顺序编排所述多个第二意群。
4.根据权利要求1所述的方法,其特征在于,采用预设句法分析模型确定所述多个第二意群之间的依存关系包括:
确定所述目标中文文本中的核心动词;
以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
5.一种中文文本的识别装置,其特征在于,包括:
获取模块,用于将目标中文文本进行分词处理,得到多个概念单位;将所述多个概念单位输入至CRF线性链的以下势函数,输出多个第一意群:,其中,/>为转移特征函数,对应相邻的隐层节点,/>为状态特征函数,对应每一对隐层和显层节点,/>和/>分别是/>()和/>()对应的权值,Z(x)是规范化因子,/>为当前单词与后一个词组成的意群,/>为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息;
选择模块,用于采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;
确定模块,用于采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系,包括:确定所述目标中文文本的语法体系,根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系;以及,
根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征;
识别模块,用于基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
6.根据权利要求5所述的装置,其特征在于,
所述选择模块包括:构建单元,用于在预设神经网络模型中构建嵌入层;查找单元,用于将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;确定单元,用于将所述嵌入层的输出结果确定为所述多个第二意群。
7.根据权利要求5所述的装置,其特征在于,
所述识别模块包括:确定单元,用于根据所述意群次序特征确定各个第二意群的排列顺序;编排单元,用于按照所述排列顺序编排所述多个第二意群。
8.根据权利要求7所述的装置,其特征在于,
所述确定单元,用于确定所述目标中文文本中的核心动词;以所述核心动词所在的意群为支配意群,除所述支配意群之外的其他第二意群集合为受支配意群,建立所述多个第二意群之间的依存关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201910625020.0A 2019-07-11 2019-07-11 中文文本的识别方法及装置 Active CN110502741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625020.0A CN110502741B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625020.0A CN110502741B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Publications (2)

Publication Number Publication Date
CN110502741A CN110502741A (zh) 2019-11-26
CN110502741B true CN110502741B (zh) 2023-11-17

Family

ID=68585595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625020.0A Active CN110502741B (zh) 2019-07-11 2019-07-11 中文文本的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110502741B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1114066A (zh) * 1994-05-08 1995-12-27 刘树根 意群输入、编辑和字词语码
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
CN108287818A (zh) * 2018-01-03 2018-07-17 小草数语(北京)科技有限公司 裁判文书中金额的提取方法、装置和电子设备
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2626555C2 (ru) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение сущностей из текстов на естественном языке

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1114066A (zh) * 1994-05-08 1995-12-27 刘树根 意群输入、编辑和字词语码
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
CN108287818A (zh) * 2018-01-03 2018-07-17 小草数语(北京)科技有限公司 裁判文书中金额的提取方法、装置和电子设备
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文文本的意群分类算法;李志彤;易军凯;;计算机工程(08);第210-213+220页 *

Also Published As

Publication number Publication date
CN110502741A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US20200301954A1 (en) Reply information obtaining method and apparatus
CN113127624B (zh) 问答模型的训练方法及装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111222305A (zh) 一种信息结构化方法和装置
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112527998A (zh) 一种答复推荐方法、答复推荐装置及智能设备
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111539209A (zh) 用于实体分类的方法和装置
CN113821605A (zh) 一种事件抽取方法
CN110807323A (zh) 情绪向量的生成方法及装置
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN110502741B (zh) 中文文本的识别方法及装置
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN112765330A (zh) 文本数据处理方法、装置、电子设备和存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant