CN110276052A - 一种古汉语自动分词及词性标注一体化方法及装置 - Google Patents

一种古汉语自动分词及词性标注一体化方法及装置 Download PDF

Info

Publication number
CN110276052A
CN110276052A CN201910495060.8A CN201910495060A CN110276052A CN 110276052 A CN110276052 A CN 110276052A CN 201910495060 A CN201910495060 A CN 201910495060A CN 110276052 A CN110276052 A CN 110276052A
Authority
CN
China
Prior art keywords
label
word segmentation
speech
archaic chinese
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910495060.8A
Other languages
English (en)
Other versions
CN110276052B (zh
Inventor
皇甫伟
于学金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910495060.8A priority Critical patent/CN110276052B/zh
Publication of CN110276052A publication Critical patent/CN110276052A/zh
Application granted granted Critical
Publication of CN110276052B publication Critical patent/CN110276052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种古汉语自动分词及词性标注一体化方法及装置,能够有效提升古汉语分词及词性标注的正确率。所述方法包括:获取古汉语语料库中的古汉语文本;对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;对得到的二元标签结构进行编码;构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。本发明适用于机器翻译、信息检索、语义识别领域。

Description

一种古汉语自动分词及词性标注一体化方法及装置
技术领域
本发明涉及机器翻译、信息检索、语义识别领域,特别是指一种古汉语自动分词及词性标注一体化方法及装置。
背景技术
古汉语自动分词及词性标注的研究,对古汉语的采录、收集、整理和校对等方面起重要作用,是古汉语自然语言处理领域后续机器自动翻译、情感分析和语义识别等工作的基础。由于古汉语和现代汉语存在着“源”和“流”的关系,二者存在着密切的关联,现代汉语中仍然存在不少古汉语语句词汇的存留和古代汉语的诗句和文章的引用,因此古汉语自动分词及词性标注的研究也是现代汉语研究的重要补充,将支持现代自然语言处理的相关研究工作。
虽然现代汉语的分词与词性标注研究已经取得了比较丰硕的成果,但古汉语方面的研究仍然存在不足。古代汉语在词汇和语法等方面与现代汉语有很大不同,例如,古代汉语以单音为主,词类分工不明确,词类活用丰富。现代汉语词汇中复音词占了更大的比例,由于复音词中字与字之间的相互限定,词义用法相对单一,词类活用的例子不多见。基于二者的不同,直接将针对现代汉语设计的模型用于古汉语的自动分词和词性标注任务肯定会产生误差。
现有技术中,针对古汉语的分词与词性标注研究,通常是先分词后词性标注,这样,分词任务中产生的错误会累计传递到标记任务中,从而会造成更多的错误。
发明内容
本发明要解决的技术问题是提供一种古汉语自动分词及词性标注一体化方法及装置,以解决现有技术所存在的先分词后词性标注会将分词任务中产生的错误累计传递到标记任务中,造成更多的错误的问题。
为解决上述技术问题,本发明实施例提供一种古汉语自动分词及词性标注一体化方法,包括:
获取古汉语语料库中的古汉语文本;
对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
对得到的二元标签结构进行编码;
构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
进一步地,所述古汉语文本的标签包括:词性标签和分词标签;
所述对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构包括:
对获取的古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;
其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记;Tc为分词标签列表,Tc中有n种分词标记;二元标签结构T中的每个标签为点乘Tc得到的矩阵,的上标T表示矩阵转置。
进一步地,所述对得到的二元标签结构进行编码包括:
对m×n种不同词性标记和分词标记的自由组合结果进行编号,对编号进行独热编码,得到一串m×n位的0/1序列,其中,除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
进一步地,所述对得到的二元标签结构进行编码包括:
对m×n种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串m+n位的0/1序列,其中,前m位中仅有一位为1,对应词性标签的独热编码,后n位仅有一位为1,对应分词标签的独热编码。
进一步地,所述基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括:
利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
本发明实施例还提供一种古汉语自动分词及词性标注一体化装置,包括:
获取模块,用于获取古汉语语料库中的古汉语文本;
转换模块,用于对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
编码模块,用于对得到的二元标签结构进行编码;
训练模块,用于构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
进一步地,所述古汉语文本的标签包括:词性标签和分词标签;
所述转换模块,用于对获取的古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;
其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记;Tc为分词标签列表,Tc中有n种分词标记;二元标签结构T中的每个标签为Td T点乘Tc得到的矩阵,的上标T表示矩阵转置。
进一步地,所述编码模块,用于对m×n种不同词性标记和分词标记的自由组合结果进行编号,对编号进行独热编码,得到一串m×n位的0/1序列,其中,除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
进一步地,所述编码模块,用于对m×n种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串m+n位的0/1序列,其中,前m位中仅有一位为1,对应词性标签的独热编码,后n位仅有一位为1,对应分词标签的独热编码。
进一步地,所述训练模块,用于构建双向长短期记忆神经网络,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
本发明的上述技术方案的有益效果如下:
上述方案中,获取古汉语语料库中的古汉语文本;对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;对得到的二元标签结构进行编码;构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注,从而实现一体化分词及词性标注,这样,摒弃了现有的分词及词性标注“两步走”的策略,将分词和词性标注统一在一个模型中,能够有效提升古汉语分词及词性标注的正确率,从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。
附图说明
图1为本发明实施例提供的古汉语自动分词及词性标注一体化方法的流程示意图;
图2为本发明实施例提供的标签转换流程示意图;
图3(a)为本发明实施例提供的标签编码方式一示意图;
图3(b)为本发明实施例提供的标签编码方式二示意图;
图4为本发明实施例提供的古汉语自动分词及词性标注一体化方法的详细流程示意图;
图5为本发明实施例提供的基于Bi-LSTM的自动分词及词性标注一体化模型的构建流程示意图;
图6为本发明实施例提供的标签转换路径示意图;
图7为本发明实施例提供的Bi-LSTM一体化模型与字典法在不同句长下F值比较示意图;
图8为本发明实施例提供的CRF方法与一体化模型在不同句长下的词性标注F值比较示意图;
图9为本发明实施例提供的古汉语自动分词及词性标注一体化装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的先分词后词性标注会将分词任务中产生的错误累计传递到标记任务中,造成更多的错误的问题,提供一种古汉语自动分词及词性标注一体化方法及装置。
实施例一
如图1所示,本发明实施例提供的古汉语自动分词及词性标注一体化方法,包括:
S101,获取古汉语语料库中的古汉语文本;
S102,对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
S103,对得到的二元标签结构进行编码;
S104,构建双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM),基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
本发明实施例所述的古汉语自动分词及词性标注一体化方法,获取古汉语语料库中的古汉语文本;对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;对得到的二元标签结构进行编码;构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注,从而实现一体化分词及词性标注,这样,摒弃了现有的分词及词性标注“两步走”的策略,将分词和词性标注统一在一个模型中,能够有效提升古汉语分词及词性标注的正确率,从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。
本实施例中,根据词性标注结果可以进行信息检索、语义识别等操作。
本实施例中,在训练双向长短期记忆神经网络之前,需要进行执行以下步骤:
S101,需获取古汉语语料库中的古汉语文本作为训练集,还需获取训练集中每个古汉语文本的标签,所述古汉语文本的标签包括:词性标签和分词标签;
S102,需要对古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记,元素d1、d2等分别表示不同的词性标记;Tc为分词标签列表,Tc中有n种分词标记,元素c1、c2等表示不同的分词标记,携带不同的分词信息;二元标签结构T中的每个标签为点乘Tc得到的矩阵,的上标T表示矩阵转置,T中的每个标签都分别携带了词性标记信息和分词标记信息。
本实施例中,所述对古汉语文本(如图2所示,以文本Wn为例)的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构具体可以包括以下步骤:
A1,将文本Wn拆分成单字Zn,并且单字Zn也携带该字隶属词的词性标记信息d1,例如,将“司马/N”转换为‘司/N’和‘马/N’,其中,N表示词性标记信息;
A2,使用分词标签为每个字打上分词标记,即将中文分词当成分类任务;
A3,将词性标签作为第一维标签,分词信息标签作为第二维标签组合成二元标签结构T。
S103,对得到的二元标签结构进行编码。
本实施例中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型(也指:双向长短期记忆神经网络)的输出不同于分词或词性标记单任务模型的单标签输出,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型输出的是经过编码的二元标签结构,标签的两个维度分别表示词性标记信息和分词标记信息,可以使网络更加充分考虑字、词性和分词之间的内在关联,相较分词后再进行词性标注这样的“两步走”策略增加了词性和分词之间的内在关联,使一体化模型的精确度更高。
本实施例中,针对所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,提出两种二元标签结构的编码方式,首先假设二元标签结构包括m种词性标记,用dm表示,n种分词标记,用cn表示,则如图3(a)所示,标签编码方式一为:
对(m×n)种不同词性标记和分词标记的自由组合结果进行编号,即每一个不同的二元标签有自己固定的某一编号,然后对其进行独热(One-hot)编码,即一串(m×n)位的0/1序列,其中除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
如图3(b)所示,标签编码方式二:
对(m×n)种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串(m+n)位的0/1序列,其中前m位中仅有一位为1,对应词性标签的One-hot编码,后n位有一位为1,对应分词标签的One-hot编码,从而组成了一串计算机能处理的0/1序列。
在前述古汉语自动分词及词性标注一体化方法的具体实施方式中,进一步地,如图4所示,所述基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括:
利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
本实施例中,在获取训练集中的古汉语文本作为Bi-LSTM的输入后,首先将该文本中所有字转化成字向量,然后送入Bi-LSTM进行训练,得到如图5所示的基于Bi-LSTM的自动分词及词性标注一体化模型总体示意图。
本实施例中,将该文本中所有字转化成字向量的第一步是将它们表示为分布式向量,也称为嵌入向量,如图5所示。一般来说,在中文自然语言处理过程中有一个从训练集中提取出的大小为|C|的字符字典C,字符字典C也可以称为表C,|C|表示表C中存在|C|行字符,每个字符c∈C表示为实值向量(字符嵌入)vc∈Rd,其中,R表示实数,d是向量空间的维数,每一行(一个d维向量)代表一个字符c。然后将所有字符嵌入向量堆叠成嵌入矩阵M∈Rd ×|C|。对于字符c∈C,查找表C检索相应的字符嵌入vc∈Rd。查找表C和嵌入层之间可以被视为简单的投影层,每个字符嵌入通过其查找表索引到相应的列操作来实现,然后将字符向量送入到Bi-LSTM的神经网络中,进行计算训练。
本实施例中,如图5所示,神经网络层就是将训练集文本逐字送入Bi-LSTM神经网络,通过比较神经网络的计算结果与正确答案(即:编码后得到的二元标签信息)的差异,不断更新神经网络的参数,使网络正确率不断提升,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
本实施例中,为了进一步提升古汉语分词及词性标注的正确率,还提供了标注推理层,将标注推理层作为自动分词及词性标注一体化模型的一部分。本实施例中,神经网络层输出的是每一种标签的概率,但本实施例中通过标注推理层并不是选择概率最高的那种标签。本实施例中,在标注推理层中增加了转换概率的概念,在选择概率大的标签的同时也要考虑该标签到前一个标签和下一个标签的转换概率,最终选择的标签是:标签自身概率和转换概率乘积最大的一条标签转换路径。
假设,图6为仅为四个字的标签输出,虽然第三个字中标签二的概率较大,但是前一标签转换到标签二的转换概率(0.05)很小,标签二转换到下一标签的转换概率(0.1)也很小。所以标注推理层会选择的标签转换路径为:标签一、标签一、标签三、标签二,而不选神经网络层计算得到概率最大的标签转换路径:标签一、标签一、标签二、标签二。
本实施例中,如图7所示,在分词任务上,图7为本实施例所述的古汉语自动分词及词性标注一体化方法的正确率与传统字典法正确率比较图,本实施例所述的古汉语自动分词及词性标注一体化方法的分词正确率高于字典法正确率。
本实施例中,如图8所示,在标注任务上,本实施例所述的古汉语自动分词及词性标注一体化方法的正确率(F值)与条件随机场(conditional random field,CRF)方法标注正确率比较图,本实施例所述的古汉语自动分词及词性标注一体化方法的标注正确率高于字典法正确率。
本实施例中所述的古汉语自动分词及词性标注一体化方法,能够同时进行分词和标注任务,所以其中的错误是一次性形成的,会相对较少。而传统的两步走方法则是先分词后标注,分词任务中产生的错误会累计传递到标记任务中,从而会造成更多的错误。
实施例二
本发明还提供一种古汉语自动分词及词性标注一体化装置的具体实施方式,由于本发明提供的古汉语自动分词及词性标注一体化装置与前述古汉语自动分词及词性标注一体化方法的具体实施方式相对应,该古汉语自动分词及词性标注一体化装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述古汉语自动分词及词性标注一体化方法具体实施方式中的解释说明,也适用于本发明提供的古汉语自动分词及词性标注一体化装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图9所示,本发明实施例还提供一种古汉语自动分词及词性标注一体化装置,包括:
获取模块11,用于获取古汉语语料库中的古汉语文本;
转换模块12,用于对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
编码模块13,用于对得到的二元标签结构进行编码;
训练模块14,用于构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
本发明实施例所述的古汉语自动分词及词性标注一体化装置,获取古汉语语料库中的古汉语文本;对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;对得到的二元标签结构进行编码;构建双向长短期记忆神经网络;基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,利用得到的基于双向长短期记忆神经网络的自动分词及词性标注一体化模型对输入的古汉语文本同时进行分词和标注,从而实现一体化分词及词性标注,这样,摒弃了现有的分词及词性标注“两步走”的策略,将分词和词性标注统一在一个模型中,能够有效提升古汉语分词及词性标注的正确率,从而能够有效缓解分词及词性标注“两步走”策略的错误扩散问题。
在前述古汉语自动分词及词性标注一体化装置的具体实施方式中,进一步地,所述古汉语文本的标签包括:词性标签和分词标签;
所述转换模块,用于对获取的古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;
其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记;Tc为分词标签列表,Tc中有n种分词标记;二元标签结构T中的每个标签为点乘Tc得到的矩阵,的上标T表示矩阵转置。
在前述古汉语自动分词及词性标注一体化装置的具体实施方式中,进一步地,所述编码模块,用于对m×n种不同词性标记和分词标记的自由组合结果进行编号,对编号进行独热编码,得到一串m×n位的0/1序列,其中,除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
在前述古汉语自动分词及词性标注一体化装置的具体实施方式中,进一步地,所述编码模块,用于对m×n种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串m+n位的0/1序列,其中,前m位中仅有一位为1,对应词性标签的独热编码,后n位仅有一位为1,对应分词标签的独热编码。
在前述古汉语自动分词及词性标注一体化装置的具体实施方式中,进一步地,所述训练模块,用于构建双向长短期记忆神经网络,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种古汉语自动分词及词性标注一体化方法,其特征在于,包括:
获取古汉语语料库中的古汉语文本;
对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
对得到的二元标签结构进行编码;
构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
2.根据权利要求1所述的古汉语自动分词及词性标注一体化方法,其特征在于,所述古汉语文本的标签包括:词性标签和分词标签;
所述对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构包括:
对获取的古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;
其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记;Tc为分词标签列表,Tc中有n种分词标记;二元标签结构T中的每个标签为点乘Tc得到的矩阵,的上标T表示矩阵转置。
3.根据权利要求2所述的古汉语自动分词及词性标注一体化方法,其特征在于,所述对得到的二元标签结构进行编码包括:
对m×n种不同词性标记和分词标记的自由组合结果进行编号,对编号进行独热编码,得到一串m×n位的0/1序列,其中,除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
4.根据权利要求2所述的古汉语自动分词及词性标注一体化方法,其特征在于,所述对得到的二元标签结构进行编码包括:
对m×n种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串m+n位的0/1序列,其中,前m位中仅有一位为1,对应词性标签的独热编码,后n位仅有一位为1,对应分词标签的独热编码。
5.根据权利要求1所述的古汉语自动分词及词性标注一体化方法,其特征在于,所述基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型包括:
利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
6.一种古汉语自动分词及词性标注一体化装置,其特征在于,包括:
获取模块,用于获取古汉语语料库中的古汉语文本;
转换模块,用于对获取的古汉语文本的标签进行标签转换,得到包含词性标记信息和分词标记信息的二元标签结构;
编码模块,用于对得到的二元标签结构进行编码;
训练模块,用于构建双向长短期记忆神经网络,基于编码后得到的二元标签信息,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,其中,所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型,用于对输入的古汉语文本同时进行分词和标注。
7.根据权利要求6所述的古汉语自动分词及词性标注一体化装置,其特征在于,所述古汉语文本的标签包括:词性标签和分词标签;
所述转换模块,用于对获取的古汉语文本的标签进行标签转换,将古汉语语料的词性标记信息和分词标记信息转成包含词性标记信息和分词标记信息的二元标签结构;
其中,所述二元标签结构表示为:
Td=[d1,d2,d3,...,dm]
Tc=[c1,c2,c3,...,cn]
其中,T表示二元标签结构;Td为词性标签列表,Td中有m种词性标记;Tc为分词标签列表,Tc中有n种分词标记;二元标签结构T中的每个标签为点乘Tc得到的矩阵,的上标T表示矩阵转置。
8.根据权利要求7所述的古汉语自动分词及词性标注一体化装置,其特征在于,所述编码模块,用于对m×n种不同词性标记和分词标记的自由组合结果进行编号,对编号进行独热编码,得到一串m×n位的0/1序列,其中,除某一位为1以外,其他均为0,为1的位对应的编号即为对应的二元标签。
9.根据权利要求7所述的古汉语自动分词及词性标注一体化装置,其特征在于,所述编码模块,用于对m×n种二元标签进行二维编码,第一维有m列,表示词性标记信息,第二维有n列,表示分词标记信息,则二元标签结构的编码为一串m+n位的0/1序列,其中,前m位中仅有一位为1,对应词性标签的独热编码,后n位仅有一位为1,对应分词标签的独热编码。
10.根据权利要求6所述的古汉语自动分词及词性标注一体化装置,其特征在于,所述训练模块,用于构建双向长短期记忆神经网络,利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练,直至当前迭代次数大于等于预设的最大迭代次数或双向长短期记忆神经网络输出的二维标签的正确率大于预设的正确率阈值,得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型。
CN201910495060.8A 2019-06-10 2019-06-10 一种古汉语自动分词及词性标注一体化方法及装置 Active CN110276052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910495060.8A CN110276052B (zh) 2019-06-10 2019-06-10 一种古汉语自动分词及词性标注一体化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910495060.8A CN110276052B (zh) 2019-06-10 2019-06-10 一种古汉语自动分词及词性标注一体化方法及装置

Publications (2)

Publication Number Publication Date
CN110276052A true CN110276052A (zh) 2019-09-24
CN110276052B CN110276052B (zh) 2021-02-12

Family

ID=67962024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910495060.8A Active CN110276052B (zh) 2019-06-10 2019-06-10 一种古汉语自动分词及词性标注一体化方法及装置

Country Status (1)

Country Link
CN (1) CN110276052B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法
CN112036183A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
WO2021081837A1 (zh) * 2019-10-30 2021-05-06 深圳市欢太科技有限公司 模型构建方法、分类方法、装置、存储介质及电子设备
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154173A1 (en) * 2012-08-10 2015-06-04 Sk Telecom Co., Ltd. Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154173A1 (en) * 2012-08-10 2015-06-04 Sk Telecom Co., Ltd. Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
CN107168945A (zh) * 2017-04-13 2017-09-15 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁喜涛 等: "《中文分词与词性标注研究》", 《计算机技术与发展》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021081837A1 (zh) * 2019-10-30 2021-05-06 深圳市欢太科技有限公司 模型构建方法、分类方法、装置、存储介质及电子设备
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法
CN111897958B (zh) * 2020-07-16 2024-03-12 邓桦 基于自然语言处理的古诗词分类方法
CN112036183A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN112036183B (zh) * 2020-08-31 2024-02-02 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法

Also Published As

Publication number Publication date
CN110276052B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN110276052A (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
Kuru et al. Charner: Character-level named entity recognition
US10706234B2 (en) Constituent centric architecture for reading comprehension
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN109145190B (zh) 一种基于神经机器翻译技术的局部引文推荐方法及系统
You et al. End-to-end convolutional semantic embeddings
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
Liu et al. Qaner: Prompting question answering models for few-shot named entity recognition
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN105955953A (zh) 一种分词系统
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN109388805A (zh) 一种基于实体抽取的工商变更分析方法
CN111274820A (zh) 一种基于神经网络的智能医疗命名实体识别方法和装置
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
Wu et al. WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference
CN108491381A (zh) 一种汉语二分结构的句法分析方法
CN108509539A (zh) 信息处理方法电子设备
CN109388808B (zh) 一种用于建立单词翻译模型的训练数据采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant