CN110909549B - 对古汉语进行断句的方法、装置以及存储介质 - Google Patents

对古汉语进行断句的方法、装置以及存储介质 Download PDF

Info

Publication number
CN110909549B
CN110909549B CN201911084236.7A CN201911084236A CN110909549B CN 110909549 B CN110909549 B CN 110909549B CN 201911084236 A CN201911084236 A CN 201911084236A CN 110909549 B CN110909549 B CN 110909549B
Authority
CN
China
Prior art keywords
ancient chinese
chinese
ancient
text
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911084236.7A
Other languages
English (en)
Other versions
CN110909549A (zh
Inventor
胡韧奋
李绅
诸雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Publication of CN110909549A publication Critical patent/CN110909549A/zh
Application granted granted Critical
Publication of CN110909549B publication Critical patent/CN110909549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种对古汉语进行断句的方法、装置以及存储介质。其中,该方法包括:接收与待断句的古汉语文本对应的古汉语信息;根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。

Description

对古汉语进行断句的方法、装置以及存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种对古汉语进行断句的方法、装置以及存储介质。
背景技术
古诗文在传统文献中通常是逐字连结而成,中间鲜有断句。目前大量古籍文献,因为缺少人力,尚处于未经整理状态。而断句问题未解决,注释、评论、翻译等工作更无人问津。此外,在古代文言表达中往往单字成词,每个单字词可承载的意义极为丰富,其同形词和一词多义现象较现代汉语更为突出,为汉语识别带来挑战。目前最广泛的方法是通过人工的方式来断句,这种方法不仅耗时且低效,并且对专家知识有极高要求,因此容易出现错误,以致影响语义理解。
自然语言处理技术的发展使得自动断句成为可能,例如,可以采用双向循环神经网络结合词向量(例如word2vec)进行古文断句。但是传统的词向量表示方法仍然面临一个突出的问题:即仅能为每个词获取一个词向量,无法区分同形词和多义词的不同义项,导致对古汉语文本意义和语境信息理解并不充分。此外,现有的模型对同形词和一词多义现象缺乏处理手段,也会进一步导致对古汉语文本意义和语境信息理解并不充分,使得断句效果与实用尚有距离。
针对上述的现有技术中存在的对古汉语文本意义和语境信息理解不充分,因此无法精准地对古汉语进行断句的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种对古汉语进行断句的方法、装置以及存储介质,以解决现有技术中存在的古汉语中同形词和一词多义现象较多,因此无法精准地对古汉语进行断句的技术问题。
根据本公开实施例的一个方面,提供了一种对古汉语进行断句的方法,包括:接收与待断句的古汉语文本对应的古汉语信息;根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种对古汉语进行断句的装置,包括:信息接收模块,用于接收与待断句的古汉语文本对应的古汉语信息;第一生成模块,用于根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及第二生成模块,用于根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
根据本公开实施例的另一个方面,还提供了一种对古汉语进行断句的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供以下处理步骤的指令:接收与待断句的古汉语文本对应的古汉语信息;根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
在本公开实施例中,首先根据接收到的古汉语信息生成对应的第一向量集合,其中第一向量集合中的每个向量为古汉语文本中每个字对应的向量,并且每个向量与汉字在古汉语文本的语境中的含义关联。然后,利用预先设置的计算模型对第一向量集合进行计算,生成用于对古汉语文本进行断句的标记信息。最终实现了对古汉语进行断句的目的,由于每个汉字对应的向量与古汉语的语境含义关联,因此在生成标记信息的过程中可以充分利用语境信息进行断句。与现有技术相比,达到了精准断句的技术效果。进而解决了现有技术中存在的对古汉语文本意义和语境信息理解不充分的技术问题。
附图说明
此处所使用的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的对古汉语进行断句的方法的流程示意图;
图3A是根据本公开实施例1所述,利用BERT模型,根据输入的古汉语文本,生成相应的字符向量、片段向量以及位置向量的示意图;
图3B是根据本公开实施例1所述,利用BERT模型,根据字符向量、片段向量以及位置向量生成与古汉语文本对应的语境向量的示意图;
图4A是根据本公开实施例1所述的一个生成标记信息的模型的结构示意图;
图4B是根据本公开实施例1所述的另一个生成标记信息的模型的结构示意图;
图4C是根据本公开实施例1所述的另一个生成标记信息的模型的结构示意图;
图5A是根据本公开实施例1所述的全连接层与softmax分类器的一种连接关系的示意图;
图5B是根据本公开实施例1所述的全连接层与softmax分类器的另一种连接关系的示意图;
图5C是根据本公开实施例1所述的卷积神经网络的示意图;
图5D是根据本公开实施例1所述的卷积神经网络中全连接层与softmax分类器的一种连接关系的示意图;
图5E是根据本公开实施例1所述的卷积神经网络中全连接层与softmax分类器的另一种连接关系的示意图;
图6是根据本公开实施例2所述的对古汉语进行断句装置的示意图;以及
图7是根据本公开实施例3所述的对古汉语进行断句装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种对古汉语进行断句的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的计算设备10中执行。图1示出了一种用于实现对古汉语进行断句的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备10中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的对古汉语进行断句的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的对古汉语进行断句的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备10的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备10可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备10中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种对古汉语进行断句的方法,图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:接收与待断句的古汉语文本对应的古汉语信息;
S204:根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及
S206:根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
正如背景技术中所述的,自然语言处理技术的发展使得自动断句成为可能,但是,现有的模型对古汉语中同形词和一词多义现象缺乏处理手段,导致对古汉语文本意义和语境信息理解并不充分,使得断句效果与实用尚有距离。
针对背景技术中存在的问题,在本实施例中,计算设备10首先接收与待断句的古汉语文本对应的古汉语信息(S202)。该信息可以是古汉语文本本身,例如:君子食无求饱居无求安。当然该信息也可以是与该古汉语文本对应的词向量序列。
进一步地,计算设备根据所接收的古汉语信息生成第一向量集合。其中第一向量集合为每个汉字对应的向量,例如:“君”对应向量C,“子”对应向量C,以此类推,从而每个汉字对应的向量共同构成第一向量集合{C,C,C,C,C,C,C,C,C,C}。并且,第一向量集合中的每个向量与汉字在古汉语文本的语境中的含义关联。即第一集合中的每个向量都是有含义关联的,并对应古汉语文本语境。例如:“君”字对应的向量C与“君”字在“君子食无求饱居无求安”这句古汉语的含义相关联。同样,“安”字对应的向量C与“安”字在这句古汉语的含义相关联。然后,计算设备10根据第一向量集合(每个汉字对应的向量),利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。例如:上述的古汉语文本对应的标记信息为:“OOOOOSOOOO”。其中,该标记信息中的每一个字符与古汉语文本中的一个汉字对应,“O”表示对应的汉字后面不进行断句,“S”表示对应的汉字后面进行断句。
从而通过这种方式,本实施例的技术方案首先根据接收到的古汉语信息生成对应的第一向量集合,其中第一向量集合中的每个向量为古汉语文本中每个字对应的向量,并且每个向量与汉字在古汉语文本的语境中的含义关联。然后,利用与预先设置的计算模型对第一向量集合进行计算,生成用于对古汉语文本进行断句的标记信息。实现了对古汉语进行断句的目的,由于每个汉字对应的向量与古汉语的语境含义关联,因此在生成标记信息的过程中可以充分利用语境信息进行断句。与现有技术相比,达到了精准断句的技术效果。进而解决了现有技术中存在的古汉语中同形词和一词多义现象较多,因此无法精准地对古汉语进行断句的技术问题。
可选地,古汉语信息包括古汉语文本,并且根据古汉语信息,生成第一向量集合的操作,包括:根据古汉语文本,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
具体地,古汉语信息可以包括古汉语文本,例如:古汉语文本为“君子食无求饱居无求安”。在本实施例中,计算设备10可以利用基于多注意力机制的深层神经网络模型,根据该古汉语文本,生成对应的第一向量集合。具体地,参考图3所示,基于多注意力机制的深层神经网络模型例如可以是BERT模型(基于Transformer的双向编码表示,“BidirectionalEncoder Representation from Transformers”)。其中,BERT模型采用12或者24层Transformer模型进行特征学习,每层Transformer包括多头自注意力和全连接神经网络组成,此外每个网络的输出层均经过归一化操作。其中,多头自注意力网络中每个隐单元的输入均由上一层隐单元输出加权平均得到,使得每个隐单元均能和上一层所有隐单元直接关联,因此,每个隐单元都可以较好的编码全局语义信息。
参考图3A所示,BERT模型在接收输入的古汉语文本“君子食无求饱居无求安”后,会将该输入的古汉语文本转换成对应的字符向量(Token Embeddings)、片段向量(SegmentEmbeddings)以及位置向量(Position Embeddings)。例如,与“君”字对应的字符向量为E,片段向量为EA,位置向量为E1;与“子”字对应的字符向量为E,片段向量为EA,位置向量为E2,以此类推。其中字符向量、片段向量以及位置向量最开始均为随机初始化,在训练BERT模型过程中会迭代更新。
然后,参考图3B所示,BERT模型能够根据字符向量(Token Embeddings)、片段向量(Segment Embeddings)以及位置向量(Position Embeddings),生成与古汉语文本对应的语境向量。例如与“君”字对应的语境向量为C;与“子”字对应的语境向量为C,依次类推。其中语境向量不仅与古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联。从而,多个语境向量{C,C,C,C,C,C,C,C,C,C}构成了前面所述的第一向量集合。其中,通过BERT模型生成的第一向量集合中的每一个向量均为一个768维的语境向量。
从而,BERT模型可以联系上下文“理解”词义,为词语“订制”独一无二的语境向量。因此,与传统的同一词形仅能具有一个词向量的表示方法(例如word2vec)不同,BERT模型可以联系上下文“理解”词义,为每个汉字生成独一无二的语境表示向量,因而能够捕捉细粒度的词义信息。
下面的表1中以“安”字为例,给出了两种模型的最近邻信息:
表1“安”的最近邻实例
Figure BDA0002264884690000081
通过表1可以看到,基于word2vec模型的最近邻词语聚焦在标识“安宁”、“平安”、“使安定”意义的古汉语词汇上。而基于多注意力机制的深层神经网络模型(例如BERT模型)可以针对句中词语根据当前上下文给出语境向量标识,因而能够捕捉细粒度的词义信息。
参考图3B所示,计算设备10将与古汉语文本对应的字符向量、片段向量以及位置向量输入至基于多注意力机制的深层神经网络模型(例如BERT模型),从而可以生成语境向量(即第一向量集合)。
从而,计算设备10可以根据图3B中所示的语境向量,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
因此,在本实施例的方案中,由于利用基于多注意力机制的深层神经网络模型生成与古汉语文本的语境中的含义关联的第一向量集合,因此保证了标记信息的精确性。
此外作为替代例,古汉语信息不一定是古汉语文本本身,也可以包括与古汉语文本对应的第二向量集合,其中第二向量集合中的向量与古汉语文本中的汉字一一对应,并且根据古汉语信息,生成第一向量集合的操作,包括:根据第二向量集合,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
具体地,对于本领域技术人员来说,也可以根据与古汉语文本对应的第二向量的集合,例如可以将该第二向量集合作为初始向量输入到基于多注意力机制的深层神经网络模型(例如,但不限于BERT)中,得到相应的字符向量、片段向量以及位置向量,从而生成第一向量集合,即语境向量。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的全连接层以及softmax分类器,生成用于对古汉语文本进行断句的标记信息。
具体地,预先设置的计算模型是由全连接层(FCL)以及softmax分类器组成。参考图4A所示,全连接层连接在基于多注意力机制的深层神经网络模型(例如,BERT模型)之后,并且softmax分类器连接在全连接层之后。计算设备10在利用基于多注意力机制的深层神经网络模型(例如,BERT模型)生成第一向量集合(古汉语文本中每个汉字对应的语境向量)之后,计算设备利用全连接层以及softmax分类器对第一向量集合进行序列标注,通过softmax操作输出每个字上面是否断句的概率分布生成用于对古汉语文本进行断句的标记信息,从而可以利用基于多注意力机制的深层神经网络模型(例如,BERT模型)输出的高效语义表示完成对古汉语文本的断句操作。
其中,全连接层可以将输入的第一向量集合转换为一组特征向量。关于全连接层输出的特征向量维度,可以根据不同的情况进行不同的设定。
例如,参考图5A所示,全连接层将第一向量集合中的每个汉字对应的语境向量转换为一个二维向量,分别用于表示在该汉字位置处进行断句的分值和不进行断句的分值。然后,该二维向量经softmax函数变换:
Figure BDA0002264884690000091
从而,在每个汉字对应的位置输出一个二维概率向量,例如(Qo,Qs)。其中,Qo表示不断句的概率,Qs表示断句的概率,并且二者之和为1。在训练中,标准答案为(0,1)或(1,0),模型的输出向量通过交叉熵函数计算损失:
Figure BDA0002264884690000092
其中
Figure BDA0002264884690000101
为softmax函数输出向量中正确答案对应维度的数值,训练目标是使L尽可能小,即
Figure BDA0002264884690000102
接近1,另一个维度数值接近0,从而与标准答案接近。训练中,通过
Figure BDA0002264884690000103
梯度下降算法更新模型参数θ,其中η为学习率。
此外,参考图5B所示,作为全连接层的另一种输出形式,全连接层将第一向量集合中的每个汉字对应的语境向量转换为一个m维向量,分别用于表示在该汉字位置处所使用的标点符号的信息,例如m维向量中的第一维q0表示该位置处无标点的分值,其余q1至qm-1表示该位置处使用不同标点符号(例如逗号、感叹号以及句号等)的分值。
然后,与每个汉字对应的m维向量可以经softmax函数转换,得到在该汉字处所使用的标点符号的概率Q0至Qm-1。其中Q0表示该位置处无标点的概率,其余的概率值Q1至Qm-1用于表示该位置处所使用的不同标点符号(例如逗号、感叹号以及句号等)的概率值。所生成的用于对所述古汉语文本进行断句的标记信息,包括用于指示在所述古汉语文本中插入的标点符号的信息。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的条件随机场层,生成用于对古汉语文本进行断句的标记信息。
具体地,预先设置的计算模型是基于条件随机场(CRF)的模型。条件随机场是一种经典的序列标注模型,在中文分词、词性标注以及命名实体识别等自然语言处理任务中均有着广泛的应用。参考图4B所示,条件随机场层(CRF)连接在基于多注意力机制的深层神经网络模型(例如BERT模型)之后。计算设备在利用基于多注意力机制的深层神经网络模型(例如,BERT模型)生成第一向量集合(古汉语文本中每个汉字对应的语境向量)的情况下,利用条件随机场层对第一向量集合进行标注,生成用于对古汉语文本进行断句的标记信息。
尽管前面提到了,可以利用全连接层以及sofmax分类器对利用基于多注意力机制的深层神经网络模型生成的第一向量集合(即语境向量)进行标注,从而生成用于对古汉语文本进行断句的标记信息,但是其仍然存在收敛速度慢、未考虑标签之间的依赖关系等问题。
有鉴于此,本实施例的技术方案提出了利用条件随机场层对第一向量集合(即语境向量)进行标注。条件随机场(CRF)是一种经典的序列标注模型,能够在一系列序列标注任务中取得明显的效果提升,从而通过使用条件随机场(CRF)弥补了采用全连接层以及softmax分类器存在的收敛速度慢、未考虑标签之间的依赖关系等问题。
其中,条件随机场会输出与用于对古汉语文本进行断句的概率最高的标记序列。作为示例,对于古汉语文本“君子食无求饱居无求安”,由于其有10个汉字,因此会存在210个可能的断句标记序列。给定第一向量集合,条件随机场通过如下公式计算每个标签序列的分值:
Figure BDA0002264884690000111
其中,x为输入的汉字序列,y为输出的断句标记序列,f函数计算标签从yi-1转移到yi的分值,g函数计算给定汉字序列x得到标签yi的分值,λ与μ是模型训练中需要学习的权重。
然后,条件随机场模型通过softmax函数将标签序列的分值转换成标签序列的概率,从而输出概率值最高的序列,作为用于对该古汉语文本进行断句的标记信息。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的卷积神经网络模型,生成用于对古汉语文本进行断句的标记信息。
具体地,预先设置的计算模型是卷积神经网络模型(CNN),参考图4C所示,卷积神经网络CNN连接在深层神经网络模型(例如BERT模型)之后,并且在卷积神经网络模型(CNN)还连接有全连接层以及softmax分类器。其中,卷积神经网络的卷积层可以包括多个(例如100个)宽度为3且高度为768的卷积核(其高度768对应于第一向量集合中向量的维数768)。在基于多注意力机制的深层神经网络模型(例如,BERT模型)生成第一向量集合(古汉语文本中每个汉字对应的语境向量)的情况下,计算设备10可以利用卷积神经网络CNN通过卷积对两侧上下文信息进行编码,
其中,图5C示出了卷积神经网络的结构。参考图5C所示,该CNN模型的卷积层包括多个(100个)768*3的卷积核。从而利用该多个卷积核对由第一向量集合构成的矩阵进行卷积操作,并得到多个特征向量。多个特征向量经过池化层后分别转换成更低维度的向量,并且多个更低维度的向量拼接后经全连接层以及softmax分类器后,得到标记信息。
具体地,参考图5D所示,卷积神经网络的全连接层例如可以针对每个汉字输出一个二维向量,分别用于表示在该汉字位置处进行断句的分值和不进行断句的分值。然后,该二维向量经softmax函数变换:
Figure BDA0002264884690000121
从而,在每个汉字对应的位置输出一个二维概率向量,例如(Qo,Qs)。其中,Qo表示不断句的概率,Qs表示断句的概率,并且二者之和为1。在训练中,标准答案为(0,1)或(1,0),模型的输出向量通过交叉熵函数计算损失:
Figure BDA0002264884690000122
其中
Figure BDA0002264884690000123
为softmax函数输出向量中正确答案对应维度的数值,训练目标是使L尽可能小,即
Figure BDA0002264884690000124
接近1,另一个维度数值接近0,从而与标准答案接近。训练中,通过
Figure BDA0002264884690000125
梯度下降算法更新模型参数θ,其中η为学习率。
此外,参考图5E所示作为全连接层的另一种输出形式,全连接层针对每个汉字输出一个m维向量,分别用于表示在该汉字位置处所使用的标点符号的信息,例如m维向量中的第一维q0表示该位置处无标点的分值,其余q1至qm-1表示该位置处使用不同标点符号(例如逗号、感叹号以及句号等)的分值。
然后,与每个汉字对应的m维向量可以经softmax函数转换,得到在该汉字处所使用的标点符号的概率Q0至Qm-1。其中Q0表示该位置处无标点的概率,其余的概率值Q1至Qm-1用于表示该位置处所使用的不同标点符号(例如逗号、感叹号以及句号等)的概率值。所生成的用于对所述古汉语文本进行断句的标记信息,包括用于指示在所述古汉语文本中插入的标点符号的信息。
尽管上面所述,可以利用基于多注意力机制的深层神经网络模型(例如,BERT模型)与条件随机场模型(CRF模型)连接,从而可以得到对古汉语的比较好的断句效果。但是条件随机场模型(CRF模型)预测时仅能考虑当前位置及之前位置的特征,未能充分利用上下文信息进行断句,从而容易造成一些断句错误。例如:
当采用BERT+CRF对古汉语“行未三四十里忽乌刺赤者急下马拜跪伏其言侏离莫能晓而其意则甚哀窘”进行断句时,会产生错误的标记信息“行未三四十里○忽乌刺赤者急下马跪拜●伏其言●侏离莫能晓○而其意则甚哀窘”。其中“○”为正确断句,“●”为错误断句。
该例中断句重点有二:一是“跪”、“拜”和“伏”为连续的动作;二是“其言”与后文的“其意”呼应,均应作主语。
但是由于条件随机场模型(CRF模型)预测时仅能考虑当前位置及之前位置的特征,从而不能充分利用上下文信息进行断句,因此不能有效地满足以上的句读重点。从而出现了断句错误。
当通过在BERT模型基础上引入卷积神经网络做特征提取,并基于其编码结果利用全连接层实现断句标记信息分类时,由于卷积神经网络模型能够通过卷积对两侧上下文信息进行编码,综合决策后做出正确的断句决策,结果如下所示:
“行未三四十里○忽乌刺赤者急下马跪拜伏○其言侏离莫能晓○而其意则甚哀窘”。
下面表2给出了现有断句模型(双向循环神经网络bi-GRU模型)以及本实施例中的断句模型的实验结果。
表2断句模型实验结果
Figure BDA0002264884690000131
从测试数据结果看,本实施例所采用基于多注意力机制的深层神经网络模型+全连接层(例如BERT+FCL)、基于多注意力机制的深层神经网络模型+条件随机场层(例如BERT+CRF)以及基于多注意力机制的深层神经网络模型+卷积神经网络(例如BERT+CNN)进行古汉语的断句,相对于现有技术的模型(例如双向循环神经网络结合词向量的方法),均体现出了更有益的断句效果。
此外还需要补充说明的是,在训练与测试模型的过程中,是从Github中华古诗词数据库中获取带标点的古诗词数据,其中诗311691首,词20643首,从殆知阁语料库中获取带标点的文言文语料8163988句作为训练语料。从中选取10%作为测试集,针对数量较多的古诗文和文言文数据,各取5000条作为测试集,其余诗、词、文言文作为训练集,并从训练集中随机抽取10000条作为验证集。
其中BERT模型训练采用12层Transformer模型,hidden size为768,自注意力机制的head数量为12,总参数为1.1亿,采用4块1080ti型号的GPU并行训练100万步得到该模型。在断句模型上(计算模型),以双向循环神经网络(bi-GRU)作为基线模型,将GRU的hiddensize设置为256,此外考虑到训练数据的规模,另外增加一组hidden size为2048的实验。此外,基于条件随机场CRF的计算模型中,CRF层采用Tensorflow默认设置,卷积神经网络的计算模型使用100个宽度为3的卷积核用于抽取特征。所有模型均训练到验证集收敛为止。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。所述存储介质104包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
从而根据本实施例,实现了对古汉语进行断句的目的,由于每个汉字对应的向量与古汉语的语境含义关联,因此在生成标记信息的过程中可以充分利用语境信息进行断句。与现有技术相比,达到了精准断句的技术效果。进而解决了现有技术中存在的古汉语中同形词和一词多义现象较多,因此无法精准地对古汉语进行断句的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图6示出了根据本实施例所述的对古汉语进行断句的装置600,该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置600包括:信息接收模块610,用于接收与待断句的古汉语文本对应的古汉语信息;第一生成模块620,用于根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及第二生成模块630,用于根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
可选地,古汉语信息包括古汉语文本,并且第一生成模块620,包括:第一生成子模块,用于根据古汉语文本,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
可选地,古汉语信息包括与古汉语文本对应的第二向量集合,其中第二向量集合中的向量与古汉语文本中的汉字一一对应,并且第一生成模块620,包括:第三生成子模块,用于根据第二向量集合,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
可选地,第三生成子模块,包括:第一生成单元,用于根据第一向量集合,利用预先设置的条件随机场层,生成用于对古汉语文本进行断句的标记信息。
可选地,第三生成子模块,包括:第二生成单元,用于根据第一向量集合,利用预先设置的全连接层以及softmax分类器,生成用于对古汉语文本进行断句的标记信息。
可选地,第三生成子模块,包括:第三生成单元,用于根据第一向量集合,利用预先设置的卷积神经网络模型,生成用于对古汉语文本进行断句的标记信息。
从而根据本实施例,通过对古汉语进行断句的装置600,实现了对古汉语进行断句的目的,由于每个汉字对应的向量与古汉语的语境含义关联,因此在生成标记信息的过程中可以充分利用语境信息进行断句。与现有技术相比,达到了精准断句的技术效果。进而解决了现有技术中存在的古汉语中同形词和一词多义现象较多,因此无法精准地对古汉语进行断句的技术问题。
实施例3
图7示出了根据本实施例所述的对古汉语进行断句的装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:处理器710;以及存储器720,与处理器710连接,用于为处理器710提供处理以下处理步骤的指令:接收与待断句的古汉语文本对应的古汉语信息;根据古汉语信息,生成第一向量集合,其中第一向量集合中的向量与古汉语文本中的汉字对应,并且与汉字在古汉语文本的语境中的含义关联;以及根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息。
可选地,古汉语信息包括古汉语文本,并且根据古汉语信息,生成第一向量集合的操作,包括:根据古汉语文本,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
可选地,古汉语信息包括与古汉语文本对应的第二向量集合,其中第二向量集合中的向量与古汉语文本中的汉字一一对应,并且根据古汉语信息,生成第一向量集合的操作,包括:根据第二向量集合,利用基于多注意力机制的深层神经网络模型,生成第一向量集合。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的条件随机场层,生成用于对古汉语文本进行断句的标记信息。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的全连接层以及softmax分类器,生成用于对古汉语文本进行断句的标记信息。
可选地,根据第一向量集合,利用预先设置的计算模型,生成用于对古汉语文本进行断句的标记信息的操作,包括:根据第一向量集合,利用预先设置的卷积神经网络模型,生成用于对古汉语文本进行断句的标记信息。
从而根据本实施例,通过对古汉语进行断句的装置700,实现了对古汉语进行断句的目的,由于每个汉字对应的向量与古汉语的语境含义关联,因此在生成标记信息的过程中可以充分利用语境信息进行断句。与现有技术相比,达到了精准断句的技术效果。进而解决了现有技术中存在的古汉语中同形词和一词多义现象较多,因此无法精准地对古汉语进行断句的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种对古汉语进行断句的方法,其特征在于,包括:
接收与待断句的古汉语文本对应的古汉语信息;
根据所述古汉语信息,生成第一向量集合,其中所述第一向量集合中的向量与所述古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联;以及
根据所述第一向量集合利用预先设置的第一全连接层以及第一softmax分类器集合,或者利用预先设置的卷积神经网络模型,生成用于对所述古汉语文本进行断句的标记信息,其中所述标记信息包含与所述古汉语文本中的每个汉字对应的标记信息,其中所述卷积神经网络模型包括依次设置的卷积神经网络、第二全连接层和第二softmax分类器集合,所述第一softmax分类器集合与所述第二softmax分类器集合分别包括多个softmax分类器,并且其中
所述第一全连接层或所述第二全连接层生成与所述古汉语文本中的汉字分别对应的分值向量,所述分值向量中的元素用于表示在相应汉字位置处进行断句的分值和不进行断句的分值,并且所述第一softmax分类器集合或所述第二softmax集合中的softmax分类器分别用于根据相应的分值向量生成与相应的汉字对应的概率向量,所述概率向量中的元素用于表示相应的汉字位置处进行断句的概率和不进行断句的概率。
2.根据权利要求1所述的方法,其特征在于,所述古汉语信息包括所述古汉语文本,并且根据所述古汉语信息,生成第一向量集合的操作,包括:
根据所述古汉语文本,利用基于多注意力机制的深层神经网络模型,生成所述第一向量集合。
3.根据权利要求1所述的方法,其特征在于,所述古汉语信息包括与所述古汉语文本对应的第二向量集合,其中所述第二向量集合中的向量与所述古汉语文本中的汉字一一对应,并且
根据所述古汉语信息,生成第一向量集合的操作,包括:根据所述第二向量集合,利用基于多注意力机制的深层神经网络模型,生成所述第一向量集合。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所生成的用于对所述古汉语文本进行断句的标记信息,包括用于指示在所述古汉语文本中插入的标点符号的信息。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。
6.一种对古汉语进行断句的装置,其特征在于,包括:
信息接收模块,用于接收与待断句的古汉语文本对应的古汉语信息;
第一生成模块,用于根据所述古汉语信息,生成第一向量集合,其中所述第一向量集合中的向量与所述古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联;以及
第二生成模块,用于根据所述第一向量集合,利用预先设置的第一全连接层以及第一softmax分类器集合,或者利用预先设置的卷积神经网络模型,生成用于对所述古汉语文本进行断句的标记信息,其中所述标记信息包含与所述古汉语文本中的每个汉字对应的标记信息,其中所述卷积神经网络模型包括依次设置的卷积神经网络、第二全连接层和第二softmax分类器集合,所述第一softmax分类器集合与所述第二softmax分类器集合分别包括多个softmax分类器,并且其中
所述第一全连接层或所述第二全连接层生成与所述古汉语文本中的汉字分别对应的分值向量,所述分值向量中的元素用于表示在相应汉字位置处进行断句的分值和不进行断句的分值,并且所述第一softmax分类器集合或所述第二softmax集合中的softmax分类器分别用于根据相应的分值向量生成与相应的汉字对应的概率向量,所述概率向量中的元素用于表示相应的汉字位置处进行断句的概率和不进行断句的概率。
7.一种对古汉语进行断句的装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
接收与待断句的古汉语文本对应的古汉语信息;
根据所述古汉语信息,生成第一向量集合,其中所述第一向量集合中的向量与所述古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联;以及
根据所述第一向量集合,利用预先设置的第一全连接层以及第一softmax分类器集合,或者利用预先设置的卷积神经网络模型,生成用于对所述古汉语文本进行断句的标记信息,其中所述标记信息包含与所述古汉语文本中的每个汉字对应的标记信息,其中所述卷积神经网络模型包括依次设置的卷积神经网络、第二全连接层和第二softmax分类器集合,所述第一softmax分类器集合与所述第二softmax分类器集合分别包括多个softmax分类器,并且其中
所述第一全连接层或所述第二全连接层生成与所述古汉语文本中的汉字分别对应的分值向量,所述分值向量中的元素用于表示在相应汉字位置处进行断句的分值和不进行断句的分值,并且所述第一softmax分类器集合或所述第二softmax集合中的softmax分类器分别用于根据相应的分值向量生成与相应的汉字对应的概率向量,所述概率向量中的元素用于表示相应的汉字位置处进行断句的概率和不进行断句的概率。
CN201911084236.7A 2019-10-11 2019-11-07 对古汉语进行断句的方法、装置以及存储介质 Active CN110909549B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019109650116 2019-10-11
CN201910965011 2019-10-11

Publications (2)

Publication Number Publication Date
CN110909549A CN110909549A (zh) 2020-03-24
CN110909549B true CN110909549B (zh) 2021-05-18

Family

ID=69816445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084236.7A Active CN110909549B (zh) 2019-10-11 2019-11-07 对古汉语进行断句的方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN110909549B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN111709243B (zh) * 2020-06-19 2023-07-07 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111859916B (zh) * 2020-07-28 2023-07-21 中国平安人寿保险股份有限公司 古诗关键词提取、诗句生成方法、装置、设备及介质
CN112002328B (zh) * 2020-08-10 2024-04-16 中央广播电视总台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答系统的多轮智能问答交互方法
CN112613316B (zh) * 2020-12-31 2023-06-20 北京师范大学 一种生成古汉语标注模型的方法和系统
CN112906366B (zh) * 2021-01-29 2023-07-07 深圳力维智联技术有限公司 基于albert的模型构建方法、装置、系统及介质
CN113505248B (zh) * 2021-07-14 2023-09-01 朱本军 文档中古汉语时间的转换方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019788A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 文本分类方法及装置
CN108932226A (zh) * 2018-05-29 2018-12-04 华东师范大学 一种对无标点文本添加标点符号的方法
CN109815333B (zh) * 2019-01-14 2021-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN109829159B (zh) * 2019-01-29 2020-02-18 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110032648B (zh) * 2019-03-19 2021-05-07 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110309306B (zh) * 2019-06-19 2022-08-26 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CRF和半监督学习的维吾尔文命名实体识别;王路路等;《中文信息学报》;20181130;第32卷(第11期);第16-21页 *

Also Published As

Publication number Publication date
CN110909549A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN109522553B (zh) 命名实体的识别方法及装置
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN110245257B (zh) 推送信息的生成方法及装置
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111241237A (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN111382231B (zh) 意图识别系统及方法
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112131881A (zh) 信息抽取方法及装置、电子设备、存储介质
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN113486173A (zh) 文本标注神经网络模型及其标注方法
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant