CN115577680B - 古籍文本断句方法与装置、古籍文本断句模型训练方法 - Google Patents
古籍文本断句方法与装置、古籍文本断句模型训练方法 Download PDFInfo
- Publication number
- CN115577680B CN115577680B CN202211567901.XA CN202211567901A CN115577680B CN 115577680 B CN115577680 B CN 115577680B CN 202211567901 A CN202211567901 A CN 202211567901A CN 115577680 B CN115577680 B CN 115577680B
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- ancient book
- training
- stylized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种古籍文本断句方法与装置、古籍文本断句模型训练方法,上述古籍文本断句方法包括:将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后输出初编码字向量;基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量;将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后输出风格化特征向量;对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵;基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出目标古籍文本。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种古籍文本断句方法与装置、古籍文本断句模型训练方法。
背景技术
文博领域存在大量的古籍,但古籍中无标点符号,而标点符号是书面语言不可或缺的部分,为了增强古籍数字化文字识别结果的可读性,便于理解古籍记载内容,以及后续的存储及使用,自动句读技术的应用越来越广泛。
目前自动句读技术中多是应用于现代文处理的,由于古籍文本语言风格较现代语言存在较大差异,且包含异体字、繁体字,现有的自动句读技术对古籍文本的断句识别准确度较低。
发明内容
有鉴于此,本发明提供了一种古籍文本断句方法与装置、古籍文本断句模型训练方法,以至少部分解决上述技术问题。
本发明的一方面提供了一种古籍文本断句方法,包括:
将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后,输出初编码字向量,其中,预处理古籍文本是对原始古籍文本进行预处理后得到的,原始古籍文本和预处理古籍文本中不包括标点符号,原始古籍文本中包括简体字、异体字和繁体字,预处理古籍文本中不包括异体字和繁体字;
基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
根据本发明的实施例,对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵包括:
对风格化特征向量进行头尾语义特征提取后得到头特征向量以及尾特征向量,其中头特征向量用于表征预处理古籍文本中的各个汉字是否具有断句开始特征,尾特征向量用于表征预处理古籍文本中的各个汉字是否具有断句结束特征;
对头特征向量和尾特征向量进行双仿射注意力机制处理后得到特征结果矩阵。
根据本发明的实施例,对风格化特征向量进行头尾语义特征提取后得到头特征向量以及尾特征向量包括:
将风格化特征向量分别输入头多层感知机和尾多层感知机,以便通过头多层感知机对风格化特征向量进行头特征提取后输出头特征向量、以及通过尾多层感知机对风格化特征向量进行尾特征提取后输出尾特征向量。
根据本发明的实施例,基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量包括:
将原始古籍文本中汉字的字型结构特征转化为字符表征向量;
将初编码字向量和字符表征向量进行特征融合后得到融合特征向量。
根据本发明的实施例,还包括,在将预处理古籍文本输入语言模型之前:
获取原始古籍文本;
根据预先建立的字符特征映射表,将原始古籍文本中的异体字和繁体字替换为简体字后得到预处理古籍文本,其中字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系;
其中,字符特征映射表还包括每个汉字的字型结构特征,字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码。
根据本发明的实施例,预定类别的断句语义特征至少包括以下类别:无断句语义特征、逗号语义特征、句号语义特征、书名号语义特征、双引号语义特征;
特征结果矩阵的元素Aij的数值为以下之一:第一数值,第二数值,第三数值,第四数值,第五数值,其中第一数值与无断句语义特征关联,第二数值与逗号语义特征关联、第三数值与句号语义特征关联、第四数值与书名号语义特征关联、第五数值与双引号语义特征关联。
本发明的另一方面提供了一种古籍文本断句模型训练方法,包括:
获取原始古籍训练文本,其中,原始古籍训练文本中包括标点符号、简体字、繁体字和异体字;
根据预先建立的字符特征映射表,将原始古籍训练文本中的异体字和繁体字替换为简体字、将原始古籍训练文本中的标点符号去除、并且将原始古籍训练文本中的部分简体字替换为预设标识符后得到预处理古籍训练文本,其中字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系,字符特征映射表还包括每个汉字的字型结构特征,字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码;
根据原始古籍训练文本建立标签矩阵,其中标签矩阵的元素Mij的数值用于表征:按照原始古籍训练文本中标点符号的断句规律,原始古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
将预处理古籍训练文本输入待训练语言模型,以便待训练语言模型对预处理古籍训练文本进行初编码后,输出初编码字训练向量;
基于初编码字训练向量和原始古籍训练文本中的汉字的字型结构特征对应的字符表征向量,获得融合特征训练向量,其中融合特征训练向量为基于上下文语义特征和字型结构特征的向量表示;
将融合特征训练向量输入待训练风格化编码网络,以便通过待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量;
对风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵,训练特征结果矩阵的元素Nij的数值用于表征预处理古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
计算训练特征结果矩阵和标签矩阵之间的交叉熵损失值,当交叉熵损失值满足预设条件时,得到经训练得到的古籍文本断句模型。
根据本发明的实施例,将融合特征训练向量输入待训练风格化编码网络,以便通过待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量包括:
随机关闭待训练风格化编码网络中的部分网络节点后得到第一待训练风格化编码网络;
随机关闭待训练风格化编码网络中的部分网络节点后得到第二待训练风格化编码网络;
将融合特征训练向量分两次分别输入第一待训练风格化编码网络和第二待训练风格化编码网络,以便通过第一待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出第一风格化特征训练向量、以及通过第二待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出第二风格化特征训练向量;
其中,风格化特征训练向量包括第一风格化特征训练向量和第二风格化特征训练向量。
根据本发明的实施例,对风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵包括:
将第一风格化特征训练向量和第二风格化特征训练向量输入待训练头多层感知机,以便通过待训练头多层感知机对第一风格化特征训练向量和第二风格化特征训练向量进行头特征提取后输出第一头特征训练向量和第二头特征训练向量,其中第一头特征训练向量和第二头特征训练向量用于表征预处理古籍训练文本中的各个汉字是否具有断句开始特征;
将第一风格化特征训练向量和第二风格化特征训练向量输入待训练尾多层感知机,以便通过待训练尾多层感知机对第一风格化特征训练向量和第二风格化特征训练向量进行尾特征提取后输出第一尾特征训练向量和第二尾特征训练向量,其中第一尾特征训练向量和第二尾特征训练向量用于表征预处理古籍训练文本中的各个汉字是否具有断句结束特征;
对第一头特征训练向量和第一尾特征训练向量进行双仿射注意力机制处理后输出第一训练结果矩阵、以及对第二头特征训练向量和第二尾特征训练向量进行双仿射注意力机制处理后输出第二训练结果矩阵;
其中,训练特征结果矩阵包括第一训练结果矩阵和第二训练结果矩阵,计算训练特征结果矩阵和标签矩阵之间的交叉熵损失值包括:分别计算第一训练结果矩阵和第二训练结果矩阵与标签矩阵之间的交叉熵损失值。
本发明的又一方面提供了一种古籍文本断句装置,包括第一输入输出模块、融合模块、第二输入输出模块、转换映射模块、断句模块。
其中,第一输入输出模块,用于将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后,输出初编码字向量,其中,预处理古籍文本是对原始古籍文本进行预处理后得到的,原始古籍文本和预处理古籍文本中不包括标点符号,原始古籍文本中包括简体字、异体字和繁体字,预处理古籍文本中不包括异体字和繁体字;
融合模块,用于基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
第二输入输出模块,用于将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
转换映射模块,用于对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
断句模块,用于基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
附图说明
图1是根据本发明实施例的古籍文本断句方法的应用场景图;
图2是根据本发明一实施例的古籍文本断句方法的流程图;
图3是根据本发明另一实施例的古籍文本断句方法的流程图;
图4是根据本发明实施例的古籍文本断句装置的结构框图;
图5是根据本发明实施例的适于实现古籍文本断句方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
文博领域存在大量的古籍,但古籍中无标点符号,而标点符号是书面语言不可或缺的部分,为了增强古籍数字化文字识别结果的可读性,便于理解古籍记载内容,以及后续的存储及使用,自动句读技术的应用越来越广泛。
目前自动句读技术中多是应用于现代文处理的,由于古籍文本语言风格较现代语言存在较大差异,语言简短,一字多义,文字类别多、包含异体字等,这成为自动句读的难点,现有的自动句读技术对古籍文本的断句识别准确度较低。
例如,相关技术中自动句读可通过深度学习方法实现,目前深度学习方法主要是通过序列标注句子,预训练模型是在通用训练集上训练的得到的,词库中古文少,且语句风格与古文不同。相关技术中通过增加词库数量来解决OOV(out of vocabulary未登录词)问题,在古文、以及在四库全书上训练得到预训练模型,但由于词库中新增的古代异体字在语句中出现词频少,会导致模型训练出的新增古文过拟合,未见过的异体字仍然不知其语义,并未真正学习到新增词汇的语义,且现有模型均使用序列标注,没有考虑到标点符号之间的语义包含关系,和成对关系。
有鉴于此,本发明提供了一种古籍文本断句方法,包括:
将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后,输出初编码字向量,其中,预处理古籍文本是对原始古籍文本进行预处理后得到的,原始古籍文本和预处理古籍文本中不包括标点符号,原始古籍文本中包括简体字、异体字和繁体字,预处理古籍文本中不包括异体字和繁体字;
基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
图1是根据本发明实施例的古籍文本断句方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
在本发明的应用场景下,用户可以使用终端设备101、102、103通过网络104与服务器105交互,向服务器105发起用于获取古籍文本断句结果的请求,响应于用户请求,服务器105执行本发明实施例的事件信息生成方法,例如,将预处理古籍文本输入语言模型,通过语言模型输出初编码字向量、基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量、将融合特征向量输入风格化编码网络,通过风格化编码网络输出风格化特征向量、对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵、最后基于对特征结果矩阵进行解码处理后得到的解码结果对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,输出包含标点符号的目标古籍文本,并通过终端设备101、102、103向用户返回包含标点符号的目标古籍文本。
需要说明的是,本发明实施例所提供的古籍文本断句方法一般可以由服务器105执行。相应地,本发明实施例所提供的古籍文本断句装置一般可以设置于服务器105中。本发明实施例所提供的古籍文本断句方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的古籍文本断句装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图5对发明实施例的古籍文本断句方法进行详细描述。
图2是根据本发明一实施例的古籍文本断句方法的流程图。
如图2所示,该实施例的古籍文本断句方法包括操作S201~操作S205。
在操作S201,将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后,输出初编码字向量,其中,预处理古籍文本是对原始古籍文本进行预处理后得到的,原始古籍文本和预处理古籍文本中不包括标点符号,原始古籍文本中包括简体字、异体字和繁体字,预处理古籍文本中不包括异体字和繁体字。
在操作S202,基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中融合特征向量为基于上下文语义特征和字型结构特征的向量表示。
在操作S203,将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量。
在操作S204,对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j。
在操作S205,基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
根据本发明的实施例,原始古籍文本可以是待断句的无标点古籍文本,因原始古籍文本中包含大量异体字、繁体字,还包括少部分简体字,可以将原始古籍文本中的异体字和繁体字替换为相应的简体字后得到预处理古籍文本,进而通过执行本发明实施例的古籍文本断句方法,以预处理古籍文本为模型中各层网络的处理对象,得出对预处理古籍文本的断句结果,即可作为对原始古籍文本的断句结果。
根据本发明的实施例,在操作S201中,将预处理古籍文本输入语言模型,通过语言模型对预处理古籍文本进行初编码后输出初编码字向量。其中,语言模型可以是基于现代文的预训练语言模型,例如使用bert-base-cased预训练模型对文本进行编码。得到的初编码字向量为预处理古籍文本中每个字基于上下文的现代文语义特征的向量表示。
根据本发明的实施例,在操作S202中执行特征融合,将初编码字向量和原始古籍文本中的汉字的字型结构特征进行融合,以获得融合特征向量。因此,特征融合后得到的融合特征向量为基于上下文语义特征和字型结构特征的向量表示,如此,训练好的模型即可以识别到每个字的上下文语义特征,例如,可识别到其中包括的异体字、繁体字、简体字的字型结构特征。
根据本发明的实施例,在操作S203,通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量。因基于上述语言模型得到的编码向量是基于现代文予以得到的,不适用于古文风格,因此,进一步地通过风格化编码网络对融合特征向量进行古文风格化的特征转换,使得模型可更好地识别古文的语义,避免因对古文语义理解错误而出现错误的断句。风格化编码网络可采用Transformer网络,Transformer网络结构中的每一层可包括一个旋转位置编码的双向自注意力网络和一个多层感知机,旋转位置编码更好的融入相对位置。通过基于多层Transformer结构,对古籍语言文本进行学习,得到的风格化特征向量为融合了上下文古文语义以及字型结构的特征向量表示。
根据本发明的实施例,在操作S204,进一步对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵。通过该操作对上述风格化特征向量进行处理,使得模型可以更好地识别语句的头尾特征(语义的开始特征和结束特征)。并且,识别结果以矩阵的形式展现,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,由第i个汉字至第j个汉字的语句包括第i个汉字和第j个汉字。
例如,针对预处理古籍文本语句:“蒙山下有险”,经过本发明实施例的上述方法对其处理得到的特征结果矩阵中,A11=1表示预处理古籍文本中由第1个汉字至第1个汉字的语句,即仅包括第1个汉字“蒙”的语句具有逗号语义特征;在此基础上,A15=2表示预处理古籍文本中由第1个汉字至第5个汉字的语句“蒙山下有险”具有句号语义特征,且句号包含逗号语义,即第1个汉字至第5个汉字的语句表示整句话(其中第一个汉字后具有逗号语义);A24=0表示预处理古籍文本中由第2个汉字至第4个汉字的语句“山下有”无断句语义特征。
根据本发明的实施例,在操作S205,可进一步对特征结果矩阵进行解码处理,并根据解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号。
例如针对上例的预处理古籍文本语句:“蒙山下有险”的特征结果矩阵,A11=1,A25=2,其余Aij=0,根据解码结果进行添加标点符号还原得到目标古籍文本:“蒙,山下有险。”
再例如,针对预处理古籍文本语句:“或有人言乾坤卦”的特征结果矩阵,A57=3,A56=1,其余Aij=0,根据解码结果进行添加标点符号还原得到目标古籍文本:“或有人言《乾坤,卦》”。
根据本发明的实施例,通过上述方法在文本预处理阶段将原始古籍文本中的异体字和繁体字替换为相应的简体字后得到预处理古籍文本,基于预处理古籍文本进行处理,可降低异体字和繁体字对模型理解语义的影响,提高模型对语义理解的准确度。
根据本发明的实施例,因中文汉字多是象形字,象形字的字型结构特征对语义有较大影响,本发明实施例的上述方法通过将初编码字向量和原始古籍文本中汉字的字型结构特征进行融合,处理过程中保留了汉字的字型结构特征,使得模型同时获得对上下文语义以及字型结构特征的识别能力,进一步增强了模型对语义理解的准确度。
根据本发明的实施例,基于风格化编码网络对古籍语言文本进行古文风格化的特征转换,得到的风格化特征向量为融合了上下文古文语义以及字型结构的特征向量表示,进一步增强了模型对语义理解的准确度,使得模型可更好地识别古文的语义,避免因对古文语义理解错误而出现错误的断句。
根据本发明的实施例,基于上述处理,模型输出的断句结果是基于较为准确的语义理解得出的,因此相对于现有技术,断句的准确度得到了较好地提升。
根据本发明的实施例,通过上述方法得到的断句结果采用特征结果矩阵的形式表示,可以直接将成对出现的引号、书名号等进行统一,并可以很好的描述解决嵌套关系,更好的理解顿号、逗号、句号等之前的包含关系,能直接对整句或局部进行不同的语义理解,判别语义是否完整并进行分割,同时也降低了词库外字词对模型的影响。例如,针对古籍文本:“或有人言《乾坤,卦》”,特征结果矩阵中,A57=3,A56=1,可以很好地表示书名号和逗号的嵌套关系。
参考上述实施例的详细描述可知,相对目前已有的句读算法,上述实施例的古籍文本断句方法,可基于无标点古籍文本,综合考虑古籍的整体语义,实现对古文段落篇章,自动化语义断句分割,减小OOV(未登录词)问题的影响,并解决标点符号成对出现问题,更好的对古文语义进行分割,融合断句、书名提取(书名号断句)、引用等语义功能,对古籍自动句读有良好的效果。
根据本发明的实施例,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,预定类别的断句语义特征至少包括以下类别:无断句语义特征、逗号语义特征、句号语义特征、书名号语义特征、双引号语义特征。
特征结果矩阵的元素Aij的数值为以下之一:第一数值,第二数值,第三数值,第四数值,第五数值,其中第一数值与无断句语义特征关联,第二数值与逗号语义特征关联、第三数值与句号语义特征关联、第四数值与书名号语义特征关联、第五数值与双引号语义特征关联。
例如,A25=0表示预处理古籍文本中由第2个汉字至第5个汉字的语句无断句语义特征;A25=2表示预处理古籍文本中由第2个汉字至第5个汉字的语句具有句号语义特征;A35=4表示预处理古籍文本中由第3个汉字至第5个汉字的语句具有双引号语义特征。
需要说明的是,预定类别的断句语义特征包括的类别不限于上述列举的类型,例如还可包括冒号语义特征、问号语义特征等等。特征结果矩阵的元素Aij的数值也不限于上述列举的数值,例如还可包括第六数值、第七数值等等。
根据本发明的实施例,具体地,上述方法中,基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量包括:
操作1、将原始古籍文本中的汉字的字型结构特征转化为字符表征向量;例如,可采用embedding(词嵌入)的方式将汉字的字型结构特征转化为字符表征向量。其中,汉字的字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码。例如:“詺”字型结构特征中,结构类型为左右结构,二元组成包括:“言”“名”,笔画数为13。
操作2、将初编码字向量和字符表征向量进行特征融合后得到融合特征向量。融合得到的融合特征向量融合了上下文语义特征以及汉字的字型结构特征,增强了模型对语义理解的准确度。
根据本发明的实施例,原始古籍文本中包含大量异体字、繁体字,可以将原始古籍文本中的异体字、繁体字替换为相应的简体字后得到预处理古籍文本,基于此,上述方法还包括:在将预处理古籍文本输入语言模型之前,获取原始古籍文本;并根据预先建立的字符特征映射表,将原始古籍文本中的异体字和繁体字替换为简体字后得到预处理古籍文本,其中字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系。
此外,字符特征映射表中,针对每个汉字还添加其字型结构特征,字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码。字符特征映射表可以是根据字典中文字的异体字、繁体字、结构、二元组成、笔画、仓颉码等进行搜集整理形成的。通过预先建立字符特征映射表可方便地对文本进行异体字、繁体字替换以及字符特征读取,这种预处理方式减少了语言模型中的词汇表使用量。
根据本发明的实施例,在上述操作S204中,对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵具体可包括:
操作1、对风格化特征向量进行头尾语义特征提取后得到头特征向量以及尾特征向量,其中头特征向量用于表征预处理古籍文本中的各个汉字是否具有断句开始特征,尾特征向量用于表征预处理古籍文本中的各个汉字是否具有断句结束特征;具体地,将风格化特征向量分别输入头多层感知机和尾多层感知机,以便通过头多层感知机对风格化特征向量进行头特征提取后输出头特征向量、以及通过尾多层感知机对风格化特征向量进行尾特征提取后输出尾特征向量,即,使用单个字的特征向量表示作为输入,并进行两次前向传播作为不同分支,使得模型可以更好地识别语句的头尾特征(语义的开始特征和结束特征),以便于断句处理。
操作2、对头特征向量和尾特征向量进行双仿射注意力机制处理后得到特征结果矩阵。例如,可利用biaffine(双仿射)机制,将头特征向量和尾特征向量映射成矩阵的形式。
图3是根据本发明另一实施例的古籍文本断句方法的流程图。以下结合图3对本发明实施例的古籍文本断句方法进行示例性说明。
在数据与处理阶段,可预先建立字符特征映射表。具体地,可对文博领域内的公开古文文本数据进行搜集并清洗,根据字典中文字的异体字、繁体字、结构、二元组成、笔画、仓颉码等进行搜集整理形成字符特征映射表。字符特征映射表包括异体字与简体字的映射关系,繁体字与简体字的映射关系、每个汉字的字型结构特征。
如图3所示,可以根据字符特征映射表中的异体字与简体字的映射关系、繁体字与简体字的映射关系,将原始古籍文本中的异体字、繁体字替换为相应的简体字后得到无标点的预处理古籍文本。
之后,将无标点的预处理古籍文本输入预训练语言模型(bert-base-cased)对文本进行编码,输出初编码字向量,并进行特征融合,例如根据字符特征映射表中整理的汉字字型结构特征,采用embedding(词嵌入)的方式将汉字的字型结构特征转化为字符表征向量,将初编码字向量和字符表征向量进行特征融合后得到融合特征向量。
然后,将融合特征向量进行风格转换,使用Transformer网络对融合特征向量进行古文风格化的特征转换,识别古籍标点的语义特征,其中Transformer网络包括两层,每一层均包括一个旋转位置编码的双向自注意力网络和一个多层感知机。
再然后,分别使用两个多层感知机(头多层感知机和尾多层感知机)学习语义的开始特征和语义的结束特征。并使用双仿射(biaffine)注意力机制,将头特征向量和尾特征向量映射成特征结果矩阵。
最后,将模型输出的特征结果矩阵进行解码处理,并根据解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,输出添加标点的古籍文本。可以将模型返回结果以结构化的方式保存到数据库中,方便调用。
本发明的另一方面提供了一种古籍文本断句模型训练方法,包括:
操作1、获取原始古籍训练文本,其中,原始古籍训练文本中包括标点符号、简体字、繁体字和异体字;
操作2、根据预先建立的字符特征映射表,将原始古籍训练文本中的异体字和繁体字替换为简体字、将原始古籍训练文本中的标点符号去除、并且将原始古籍训练文本中的部分简体字替换为预设标识符后得到预处理古籍训练文本,其中字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系,字符特征映射表还包括每个汉字的字型结构特征,字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码;其中,预设标识符可采用词库外字符标识,例如:UNK。
操作3、根据原始古籍训练文本建立标签矩阵,其中标签矩阵的元素Mij的数值用于表征:按照原始古籍训练文本中标点符号的断句规律,原始古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
操作4、将预处理古籍训练文本输入待训练语言模型,以便待训练语言模型对预处理古籍训练文本进行初编码后,输出初编码字训练向量;
操作5、基于初编码字训练向量和原始古籍训练文本中的汉字的字型结构特征对应的字符表征向量,获得融合特征训练向量,其中融合特征训练向量为基于上下文语义特征和字型结构特征的向量表示;
操作6、将融合特征训练向量输入待训练风格化编码网络,以便通过待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量;
操作7、对风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵,训练特征结果矩阵的元素Nij的数值用于表征预处理古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
操作8、计算训练特征结果矩阵和标签矩阵之间的交叉熵损失值,当交叉熵损失值满足预设条件时,得到经训练得到的古籍文本断句模型。
根据本发明的实施例,上述模型训练方法与图2所示实施例的古籍文本断句方法的流程大体相同,不同之处在于,在数据预处理阶段使用了数据增强手段,训练文本(预处理古籍训练文本)中除不包含标点符号、异体字、繁体字被替换为简体字之外,其中的部分简体字还被替换为词库外字符标识。通过在训练时随机替换句子中的词为词库外字符标识,可通过训练提高模型对词库外词的理解能力。具体地,通过在训练语句中增加词库外字符标识,可使得模型通过训练后,对每个字语义的理解更多地基于上下文的语义得到,而非仅限于对字本身的理解得到,减小对词库外词的敏感性,使得模型对语义的学习能力得到提升。
根据本发明的实施例,通过在数据处理阶段替换异体字、繁体字,并当作同一个字进行训练,可获得该字的范化能力,减少词库外词对模型学习的影响。同时在数据准备阶段获取每个汉字字型结构特征作为特征输入,处理过程中保留了汉字的字型结构特征,使得模型同时学习到上下文语义以及字型结构特征,进一步增强了模型对古文语义的学习能力。
根据本发明的实施例,上述模型训练方法与图2所示实施例的古籍文本断句方法的不同之处还在于:区别与现有技术中的序列标注的方法,本发明实施例采用了span(片段排列)标注的训练方法及解码。标签矩阵和输出的训练特征结果矩阵均以矩阵的形式表示,可以直接将成对出现的引号、书名号等进行统一,并可以很好的描述解决嵌套关系,更好的理解顿号、逗号、句号等之前的包含关系,能直接对整句或局部进行不同的语义理解,判别语义是否完整并进行分割,同时也降低了词库外字词对模型的影响。
根据本发明的实施例,将融合特征训练向量输入待训练风格化编码网络,以便通过待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量包括以下操作:
操作1、随机关闭待训练风格化编码网络中的部分网络节点后得到第一待训练风格化编码网络。
操作2、随机关闭待训练风格化编码网络中的部分网络节点后得到第二待训练风格化编码网络。
操作3、将融合特征训练向量分两次分别输入第一待训练风格化编码网络和第二待训练风格化编码网络,以便通过第一待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出第一风格化特征训练向量、以及通过第二待训练风格化编码网络对融合特征训练向量进行古文风格化的特征转换后,输出第二风格化特征训练向量。
其中,风格化特征训练向量包括第一风格化特征训练向量和第二风格化特征训练向量;其中,上述训练方法还包括计算第一风格化特征训练向量和第二风格化特征训练向量之间的KL散度损失。
根据本发明的实施例,上述训练方法中采用了R-drop(随机丢弃)的方式对模型进行训练,随机关闭待训练风格化编码网络中的部分节点得到两个网络,同一特征向量两次输入这两个网络后进行特征转换,并在训练过程中使用KL散度作为两次输出的损失,尽量使得同一特征向量的两次输出结果的分布保持一致,能够更好学习到古籍关键语义特征,得到相关文博领域的高均匀性、一致性的基于字符的文本特征向量表示。
根据本发明的实施例,上述训练方法中,对风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵包括:
将第一风格化特征训练向量和第二风格化特征训练向量输入待训练头多层感知机,以便通过待训练头多层感知机对第一风格化特征训练向量和第二风格化特征训练向量进行头特征提取后输出第一头特征训练向量和第二头特征训练向量,其中第一头特征训练向量和第二头特征训练向量用于表征预处理古籍训练文本中的各个汉字是否具有断句开始特征;
将第一风格化特征训练向量和第二风格化特征训练向量输入待训练尾多层感知机,以便通过待训练尾多层感知机对第一风格化特征训练向量和第二风格化特征训练向量进行尾特征提取后输出第一尾特征训练向量和第二尾特征训练向量,其中第一尾特征训练向量和第二尾特征训练向量用于表征预处理古籍训练文本中的各个汉字是否具有断句结束特征;
对第一头特征训练向量和第一尾特征训练向量进行双仿射注意力机制处理后输出第一训练结果矩阵、以及对第二头特征训练向量和第二尾特征训练向量进行双仿射注意力机制处理后输出第二训练结果矩阵;
其中,训练特征结果矩阵包括第一训练结果矩阵和第二训练结果矩阵,计算训练特征结果矩阵和标签矩阵之间的交叉熵损失值包括:分别计算第一训练结果矩阵和第二训练结果矩阵与标签矩阵之间的交叉熵损失值。
根据本发明的实施例,通过使用单个字的特征向量表示作为输入,并进行两次前向传播作为不同分支,使得模型可以更好地学习语句的头尾特征(语义的开始特征和结束特征),以便于断句处理。
本发明的又一方面提供了一种古籍文本断句装置,图4是根据本发明实施例的古籍文本断句装置的结构框图。
如图4所示,该实施例的古籍文本断句装置,包括第一输入输出模块401、融合模块402、第二输入输出模块403、转换映射模块404、断句模块405。
其中,第一输入输出模块401,用于将预处理古籍文本输入语言模型,以便语言模型对预处理古籍文本进行初编码后,输出初编码字向量,其中,预处理古籍文本是对原始古籍文本进行预处理后得到的,原始古籍文本和预处理古籍文本中不包括标点符号,原始古籍文本中包括简体字、异体字和繁体字,预处理古籍文本中不包括异体字和繁体字;
融合模块402,用于基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
第二输入输出模块403,用于将融合特征向量输入风格化编码网络,以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
转换映射模块404,用于对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,特征结果矩阵的元素Aij的数值用于表征预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
断句模块405,用于基于对特征结果矩阵进行解码处理后得到的解码结果,对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
根据本发明的实施例,第一输入输出模块401、融合模块402、第二输入输出模块403、转换映射模块404、断句模块405中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一输入输出模块401、融合模块402、第二输入输出模块403、转换映射模块404、断句模块405中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一输入输出模块401、融合模块402、第二输入输出模块403、转换映射模块404、断句模块405中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图5是根据本发明实施例的适于实现古籍文本断句方法的电子设备的方框图。
如图5所示,根据本发明实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器 501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种古籍文本断句方法,其特征在于,包括:
将预处理古籍文本输入语言模型,以便所述语言模型对所述预处理古籍文本进行初编码后,输出初编码字向量,其中,所述预处理古籍文本是对原始古籍文本进行预处理后得到的,所述原始古籍文本和所述预处理古籍文本中不包括标点符号,所述原始古籍文本中包括简体字、异体字和繁体字,所述预处理古籍文本中不包括异体字和繁体字;
基于所述初编码字向量、所述原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中所述融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
将所述融合特征向量输入风格化编码网络,以便通过所述风格化编码网络对所述融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
对所述风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,所述特征结果矩阵的元素Aij的数值用于表征所述预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
基于对所述特征结果矩阵进行解码处理后得到的解码结果,对所述预处理古籍文本或所述原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
2.根据权利要求1所述的古籍文本断句方法,其特征在于,对所述风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵包括:
对所述风格化特征向量进行头尾语义特征提取后得到头特征向量以及尾特征向量,其中所述头特征向量用于表征所述预处理古籍文本中的各个汉字是否具有断句开始特征,所述尾特征向量用于表征所述预处理古籍文本中的各个汉字是否具有断句结束特征;
对所述头特征向量和所述尾特征向量进行双仿射注意力机制处理后得到所述特征结果矩阵。
3.根据权利要求2所述的古籍文本断句方法,其特征在于,对所述风格化特征向量进行头尾语义特征提取后得到头特征向量以及尾特征向量包括:
将所述风格化特征向量分别输入头多层感知机和尾多层感知机,以便通过所述头多层感知机对所述风格化特征向量进行头特征提取后输出所述头特征向量、以及通过所述尾多层感知机对所述风格化特征向量进行尾特征提取后输出所述尾特征向量。
4.根据权利要求1所述的古籍文本断句方法,其特征在于,基于所述初编码字向量、所述原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量包括:
将所述原始古籍文本中汉字的字型结构特征转化为字符表征向量;
将所述初编码字向量和所述字符表征向量进行特征融合后得到融合特征向量。
5.根据权利要求1所述的古籍文本断句方法,其特征在于,还包括,在将预处理古籍文本输入语言模型之前:
获取所述原始古籍文本;
根据预先建立的字符特征映射表,将所述原始古籍文本中的异体字和繁体字替换为简体字后得到所述预处理古籍文本,其中所述字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系;
其中,所述字符特征映射表还包括每个汉字的字型结构特征,所述字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码。
6.根据权利要求1所述的古籍文本断句方法,其特征在于:
所述预定类别的断句语义特征至少包括以下类别:无断句语义特征、逗号语义特征、句号语义特征、书名号语义特征、双引号语义特征;
所述特征结果矩阵的元素Aij的数值为以下之一:第一数值,第二数值,第三数值,第四数值,第五数值,其中所述第一数值与所述无断句语义特征关联,所述第二数值与所述逗号语义特征关联、所述第三数值与所述句号语义特征关联、所述第四数值与所述书名号语义特征关联、所述第五数值与所述双引号语义特征关联。
7.一种古籍文本断句模型训练方法,其特征在于,包括:
获取原始古籍训练文本,其中,所述原始古籍训练文本中包括标点符号、简体字、繁体字和异体字;
根据预先建立的字符特征映射表,将所述原始古籍训练文本中的异体字和繁体字替换为简体字、将所述原始古籍训练文本中的标点符号去除、并且将所述原始古籍训练文本中的部分简体字替换为预设标识符后得到预处理古籍训练文本,其中所述字符特征映射表包括异体字与简体字的映射关系、以及繁体字与简体字的映射关系,所述字符特征映射表还包括每个汉字的字型结构特征,所述字型结构特征至少包括:结构类型、二元组成、笔画数、仓颉码;
根据所述原始古籍训练文本建立标签矩阵,其中所述标签矩阵的元素Mij的数值用于表征:按照所述原始古籍训练文本中标点符号的断句规律,所述原始古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
将所述预处理古籍训练文本输入待训练语言模型,以便所述待训练语言模型对所述预处理古籍训练文本进行初编码后,输出初编码字训练向量;
基于所述初编码字训练向量和所述原始古籍训练文本中的汉字的字型结构特征对应的字符表征向量,获得融合特征训练向量,其中所述融合特征训练向量为基于上下文语义特征和字型结构特征的向量表示;
将所述融合特征训练向量输入待训练风格化编码网络,以便通过所述待训练风格化编码网络对所述融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量;
对所述风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵,所述训练特征结果矩阵的元素Nij的数值用于表征所述预处理古籍训练文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
计算所述训练特征结果矩阵和所述标签矩阵之间的交叉熵损失值,当所述交叉熵损失值满足预设条件时,得到经训练得到的古籍文本断句模型。
8.根据权利要求7所述的古籍文本断句模型训练方法,其特征在于,将所述融合特征训练向量输入待训练风格化编码网络,以便通过所述待训练风格化编码网络对所述融合特征训练向量进行古文风格化的特征转换后,输出风格化特征训练向量包括:
随机关闭所述待训练风格化编码网络中的部分网络节点后得到第一待训练风格化编码网络;
随机关闭所述待训练风格化编码网络中的部分网络节点后得到第二待训练风格化编码网络;
将所述融合特征训练向量分两次分别输入所述第一待训练风格化编码网络和所述第二待训练风格化编码网络,以便通过所述第一待训练风格化编码网络对所述融合特征训练向量进行古文风格化的特征转换后,输出第一风格化特征训练向量、以及通过所述第二待训练风格化编码网络对所述融合特征训练向量进行古文风格化的特征转换后,输出第二风格化特征训练向量;
其中,所述风格化特征训练向量包括所述第一风格化特征训练向量和所述第二风格化特征训练向量。
9.根据权利要求8所述的古籍文本断句模型训练方法,其特征在于,对所述风格化特征训练向量进行头尾语义特征提取和双仿射注意力机制处理后得到训练特征结果矩阵包括:
将所述第一风格化特征训练向量和所述第二风格化特征训练向量输入待训练头多层感知机,以便通过所述待训练头多层感知机对所述第一风格化特征训练向量和所述第二风格化特征训练向量进行头特征提取后输出第一头特征训练向量和第二头特征训练向量,其中所述第一头特征训练向量和所述第二头特征训练向量用于表征所述预处理古籍训练文本中的各个汉字是否具有断句开始特征;
将所述第一风格化特征训练向量和所述第二风格化特征训练向量输入待训练尾多层感知机,以便通过所述待训练尾多层感知机对所述第一风格化特征训练向量和所述第二风格化特征训练向量进行尾特征提取后输出第一尾特征训练向量和第二尾特征训练向量,其中所述第一尾特征训练向量和所述第二尾特征训练向量用于表征所述预处理古籍训练文本中的各个汉字是否具有断句结束特征;
对所述第一头特征训练向量和所述第一尾特征训练向量进行双仿射注意力机制处理后输出第一训练结果矩阵、以及对所述第二头特征训练向量和所述第二尾特征训练向量进行双仿射注意力机制处理后输出第二训练结果矩阵;
其中,所述训练特征结果矩阵包括所述第一训练结果矩阵和所述第二训练结果矩阵,计算所述训练特征结果矩阵和所述标签矩阵之间的交叉熵损失值包括:分别计算所述第一训练结果矩阵和所述第二训练结果矩阵与所述标签矩阵之间的交叉熵损失值。
10.一种古籍文本断句装置,其特征在于,包括:
第一输入输出模块,用于将预处理古籍文本输入语言模型,以便所述语言模型对所述预处理古籍文本进行初编码后,输出初编码字向量,其中,所述预处理古籍文本是对原始古籍文本进行预处理后得到的,所述原始古籍文本和所述预处理古籍文本中不包括标点符号,所述原始古籍文本中包括简体字、异体字和繁体字,所述预处理古籍文本中不包括异体字和繁体字;
融合模块,用于基于所述初编码字向量、所述原始古籍文本中汉字的字型结构特征对应的字符表征向量,获得融合特征向量,其中所述融合特征向量为基于上下文语义特征和字型结构特征的向量表示;
第二输入输出模块,用于将所述融合特征向量输入风格化编码网络,以便通过所述风格化编码网络对所述融合特征向量进行古文风格化的特征转换后,输出风格化特征向量;
转换映射模块,用于对所述风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵,所述特征结果矩阵的元素Aij的数值用于表征所述预处理古籍文本中由第i个汉字至第j个汉字的语句是否具有预定类别的断句语义特征,其中,i小于等于j;
断句模块,用于基于对所述特征结果矩阵进行解码处理后得到的解码结果,对所述预处理古籍文本或所述原始古籍文本进行断句处理并添加标点符号,以输出包含标点符号的目标古籍文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211567901.XA CN115577680B (zh) | 2022-12-08 | 2022-12-08 | 古籍文本断句方法与装置、古籍文本断句模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211567901.XA CN115577680B (zh) | 2022-12-08 | 2022-12-08 | 古籍文本断句方法与装置、古籍文本断句模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577680A CN115577680A (zh) | 2023-01-06 |
CN115577680B true CN115577680B (zh) | 2023-03-10 |
Family
ID=84590240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211567901.XA Active CN115577680B (zh) | 2022-12-08 | 2022-12-08 | 古籍文本断句方法与装置、古籍文本断句模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577680B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN114239554A (zh) * | 2021-12-14 | 2022-03-25 | 上海流利说信息技术有限公司 | 文本断句方法及训练方法、装置、电子设备、存储介质 |
CN114912450A (zh) * | 2022-07-18 | 2022-08-16 | 天津恒达文博科技股份有限公司 | 信息生成方法与装置、训练方法、电子设备和存储介质 |
-
2022
- 2022-12-08 CN CN202211567901.XA patent/CN115577680B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN114239554A (zh) * | 2021-12-14 | 2022-03-25 | 上海流利说信息技术有限公司 | 文本断句方法及训练方法、装置、电子设备、存储介质 |
CN114912450A (zh) * | 2022-07-18 | 2022-08-16 | 天津恒达文博科技股份有限公司 | 信息生成方法与装置、训练方法、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
"Research on the Method and System of Word Segmentation and POS Tagging for Ancient Chinese Medicine Literature";Xianjun Fu et.al.;《2019 IEEE International Conference on Bioinformatics and Biomedicine》;全文 * |
"基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点";王瑶等;《软件导刊》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115577680A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN111241832A (zh) | 核心实体标注方法、装置及电子设备 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
WO2021143206A1 (zh) | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN115983271A (zh) | 命名实体的识别方法和命名实体识别模型的训练方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN114416981A (zh) | 一种长文本的分类方法、装置、设备及存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
CN114429106B (zh) | 页面信息处理方法、装置、电子设备和存储介质 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
CN115577680B (zh) | 古籍文本断句方法与装置、古籍文本断句模型训练方法 | |
CN114611521B (zh) | 一种实体识别方法、装置、设备及存储介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |