CN112464663A - 一种多特征融合的中文分词方法 - Google Patents

一种多特征融合的中文分词方法 Download PDF

Info

Publication number
CN112464663A
CN112464663A CN202011399750.2A CN202011399750A CN112464663A CN 112464663 A CN112464663 A CN 112464663A CN 202011399750 A CN202011399750 A CN 202011399750A CN 112464663 A CN112464663 A CN 112464663A
Authority
CN
China
Prior art keywords
model
word segmentation
crf
sequence
radical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011399750.2A
Other languages
English (en)
Inventor
王会珍
姜涛
张新新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoniu Situo Beijing Technology Co ltd
Original Assignee
Xiaoniu Situo Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaoniu Situo Beijing Technology Co ltd filed Critical Xiaoniu Situo Beijing Technology Co ltd
Priority to CN202011399750.2A priority Critical patent/CN112464663A/zh
Publication of CN112464663A publication Critical patent/CN112464663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种多特征融合的中文分词方法,包括以下步骤:1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM‑CRF模型,以此训练模型;3)模型预测,使用训练得到的基于BilSTM‑CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。本发明将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM‑CRF的深度学习模型,用于提升自然语言处理领域中中文分词任务的准确性。

Description

一种多特征融合的中文分词方法
技术领域
本发明涉及自然语言处理技术,具体为一种多特征融合的中文分词方法。
背景技术
英文词语之间是以空格作为自然分界符的,但是中文文本中词与词之间没有明确的区分标记,而是以连续字符串形式呈现。因此,中文词语分析是中文自然语言处理的基础和关键。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。
随着深度学习技术的发展,深度学习成为近年中文分词方向上的研究热点。由递归神经网络改进的双向长短期记忆条件随机场模型(BiLSTM-CRF)将中文分词问题转化成了序列标注问题,不仅能够利用上下文信息的特性,而且能够通过CRF层考虑输出标签之间前后的依赖关系,同时具有很好的泛化能力,能够很好地处理分词。然而BiLSTM-CRF模型只使用了字嵌入向量,忽略了文本中很多的语义表示,从而影响分词效果。
发明内容
针对现有中文分词方法忽略了文本中很多的语义表示、影响分词效果等不足,本发明要解决的问题是提供一种对传统中文分词深度学习模型进行改进、提高分词效果的多特征融合的中文分词方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种多特征融合的中文分词方法,包括以下步骤:
1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;
2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM-CRF模型,以此训练模型;
3)模型预测,使用训练得到的基于BilSTM-CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。
步骤1)中,对模型训练的输入文本序列进行分布式向量化,得到词向量,是将中文句子分词,即sentence=(w1,w2,w3,...,wi,……wn),wi表示句子中第i个词语;使用人工标注后的分词结果,生成词向量xword=(x1,x2,x3,...,xn)。
步骤1)中,位置向量是用0,1,2,…表示该字在词中的位置,用离散的方式生成位置向量表示xposition=(x1,x2,x3,...,xn)。
步骤1)中,得到偏旁部首向量包括以下步骤:
使用偏旁部首向量按偏旁分类采用one-hot编码,或者将汉字按照构造法分为几个部分,经过CNN网络生成偏旁部首向量;
考虑每一个偏旁部首都有一个独特的位置,把一个字的偏旁部首看作一个书写顺序的序列,采用BiLSTM来捕获偏旁部首信息,偏旁部首向量表示xradical=(x1,x2,x3,...,xn)与其他以字向量为基础的向量进行拼接作为编码端输入。
步骤2)中,训练BilSTM-CRF模型,将BilSTM网络层和CRF线性层结合训练,得到中文分词模型,具体为:
利用BilSTM-CRF模型,将分布式向量xembedding作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure BDA0002811901400000021
与反向LSTM的
Figure BDA0002811901400000022
在各个位置输出的隐状态进行按位置拼接
Figure BDA0002811901400000023
得到完整的隐状态序列(h1,h2,...,hn)∈Rn*m
设置dropout,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pi,...,pn)∈Rn*k,其中,Rn*k表示n*k维空间,pi∈Rk的每一维都视作字分类到第i个标签的打分值,再对P进行Softmax,则相当于对各个位置独立进行k类分类;
在模型的第三层CRF层进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的打分为:
Figure BDA0002811901400000024
整个序列的打分等于各个位置的打分之和,每个位置的打分由两部分得到,一部分由LSTM输出决定,另一部分则由CRF的转移矩阵A决定;
利用Softmax得到归一化后,句子x的标签等于y的概率:
Figure BDA0002811901400000025
其中,score(x,y′)表示整个序列中句子x等于某一标签y′的打分。
模型训练时通过最大化对数似然函数实现,对一个训练样本(x,yx)的对数似然公式如下:
logP(yxx)=score(x,yx)-log(∑exp(score(x,y′)))
模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
Figure BDA0002811901400000031
其中,argmax表示找到最优结果的函数,y*作为输出预测标签序列。
本发明具有以下有益效果及优点:
1.本发明公开一种多特征融合的中文分词方法,将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM-CRF的深度学习模型,用于提升自然语言处理领域中中文分词任务的准确性。
2.本发明通过融合多个特征向量来有效地表示文本中的语义信息,获取更多的上下文信息,从而提升分词模型性能,应用于自然语言处理领域。
附图说明
图1为本发明多特征融合的中文分词方法流程图;
图2为本发明方法中偏旁部首向量生成模型示意图;
图3为本发明方法中embedding向量拼接模型示意图;
图4为本发明方法中一个实施例的分词模型实现过程图。
具体实施方式
如图1所示,本发明提供一种多特征融合的中文分词方法,包括以下步骤:
1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;
2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM-CRF模型,以此训练模型;
3)模型预测,使用训练得到的基于BilSTM-CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。
由图1所示,主要步骤分为三步,模型构建、模型训练和模型预测,即预测(使用)分词。首先需要使用标注数据训练BiLSTM-CRF模型,这里的标注数据指的是已分词了的句子序列,正确的分词数据可以让模型学习到中文语句是如何分词的。得到训练好的模型后,即可对未分词的输入文本进行分词,最终得到输入文本的分词结果。
输入分词模型的文本序列首先需要分布式向量化,除了字向量外,还有词向量、词性向量、位置向量、偏旁部首向量、五笔向量等,本发明使用的特征向量是词向量、位置向量、偏旁部首向量三种特征向量。
词是语言里最小的可以独立运用的单位。虽然中文命名实体识别大多基于字向量进行处理,然而中文汉字并不能完全代替词所包含的语义信息,因此一些模型中还是需要词向量。步骤1)中,对模型训练的输入文本序列进行分布式向量化,得到词向量,是将中文句子分词,即sentence=(w1,w2,w3,...,wi,……wn),wi表示句子中第i个词语;使用人工标注后的分词结果,生成词向量xword=(x1,x2,x3,...,xn)。
位置向量类似于字向量,但是又有区别于字向量。如使用BI标注格式处理文本时,字向量只能明确标记出词的首位,但是词的中间和尾部都是相同的;使用BIES格式标注文本虽然可以识别尾部,但是如果词的中间字比较多时,仍然会丢失。步骤1)中,位置向量是用0,1,2,…表示该字在词中的位置,用离散的方式生成位置向量表示xposition=(x1,x2,x3,...,xn)。
偏旁是合体字的构字部件,如今合体字各部位的部件统称为偏旁。同一偏旁的汉字在某些方面通常有相似的含义。汉字通常可以由较小的原始偏旁部首组成,这些偏旁部首是构成汉字的最基本单位。这些偏旁部首是汉字的内在特征,带来了附加的语义信息。例如,汉字“你”、“他”和“们”都具有与人相关的含义,因为它们有共同的偏旁“亻”,它是汉字“人”变体。然而中文汉字内部的偏旁部首可能已经改变了原来的形状。例如,汉字“腿”的第一个偏旁是“月”,这是传统偏旁部首“肉”的简化形式,而“朝”的偏旁也是“月”,这个实际上的确是“月”的意思。为了处理这些变体,将一些重要的偏旁部首替换为传统的偏旁部首形状,以恢复其原始含义。步骤1)中,得到偏旁部首向量包括以下步骤:
使用偏旁部首向量按偏旁分类采用one-hot编码,或者将汉字按照构造法分为几个部分,经过CNN网络生成偏旁部首向量。
如图2所示,考虑每一个偏旁部首都有一个独特的位置,把一个字的偏旁部首看作一个书写顺序的序列,采用BiLSTM来捕获偏旁部首信息,偏旁部首向量表示xradical=(x1,x2,x3,...,xn)与其他以字向量为基础的向量进行拼接作为编码端输入。
由上得到三种特征向量表示,从而可以获取词向量、位置向量和偏旁部首向量拼接的分布式向量表示,即
Figure BDA0002811901400000041
其中xword=(x1,x2,x3,...,xn),xposition=(x1,x2,x3,...,xn),xradical=(x1,x2,x3,...,xn),如图3所示。
BilSTM-CRF模型是将BILSTM网络和CRF模型结合起来,即在BiLSTM网络的隐藏层后加一层CRF线性层,该模型通过双层LSTM层很好地结合了上下文的特征,并且经由CRF层有效地考虑了句子前后的标签信息。
步骤1)中,训练BilSTM-CRF模型,将BilSTM网络层和CRF线性层结合训练,得到中文分词模型,具体为:
利用BilSTM-CRF模型,将分布式向量xembedding作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure BDA0002811901400000051
与反向LSTM的
Figure BDA0002811901400000052
在各个位置输出的隐状态进行按位置拼接
Figure BDA0002811901400000053
得到完整的隐状态序列(h1,h2,...,hn)∈Rn*m
设置dropout,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pi,...,pn)∈Rn*k,其中Rn*k表示n*k维空间,pi∈Rk的每一维都视作字分类到第i个标签的打分值,再对P进行Softmax,则相当于对各个位置独立进行k类分类;
在模型的第三层CRF层进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而在一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是应为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yi,...yn),那么模型对于句子x的标签等于y的打分为:
Figure BDA0002811901400000054
整个序列的打分等于各个位置的打分之和,每个位置的打分由两部分得到,一部分由LSTM输出决定,另一部分则由CRF的转移矩阵A决定;
利用Softmax得到归一化后的概率:
Figure BDA0002811901400000055
模型训练时通过最大化对数似然函数实现:
logP(yx|x)=score(x,yx)-log(∑exp(score(x,y′)))
其中,score(x,y′)表示整个序列中句子x等于某一标签y′的打分。模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径。
Figure BDA0002811901400000056
其中,argmax表示找到最优结果的函数,y*作为输出预测标签序列。
如图4所示,待分词句子序列为“共创美好的新世纪”,经过训练得到的模型,从而得到预测结果标签序列“BIBIBBBI”,即“共创美好的新世纪”。
本实施例中使用的训练数据包含四十五万条以BMES标注格式的分词句子,该训练数据来自于公开数据集人民日报数据集2014版本中部分数据。本实施例的测试集使用了CTB8数据集作为评估系统的测试集。
由下表可知,与单一特征嵌入的深度学习模型对比,多特征融合的分词模型更好地理解中文词语切分规则。
Precison Recall F1
深度学习模型 80.86 85.05 82.90
多特征融合分词模型 82.8 87.82 85.24

Claims (5)

1.一种多特征融合的中文分词方法,其特征在于包括以下步骤:
1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;
2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM-CRF模型,以此训练模型;
3)模型预测,使用训练得到的基于BilSTM-CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。
2.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,对模型训练的输入文本序列进行分布式向量化,得到词向量,是将中文句子分词,即sentence=(w1,w2,w3,...,wi,......wn),wi表示句子中第i个词语;使用人工标注后的分词结果,生成词向量xword=(x1,x2,x3,...,xn)。
3.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,位置向量是用0,1,2,...表示该字在词中的位置,用离散的方式生成位置向量表示xposition=(x1,x2,x3,...xn)。
4.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,得到偏旁部首向量包括以下步骤:
使用偏旁部首向量按偏旁分类采用one-hot编码,或者将汉字按照构造法分为几个部分,经过CNN网络生成偏旁部首向量;
考虑每一个偏旁部首都有一个独特的位置,把一个字的偏旁部首看作一个书写顺序的序列,采用BiLSTM来捕获偏旁部首信息,偏旁部首向量表示xradical=(x1,x2,x3,...,xn)与其他以字向量为基础的向量进行拼接作为编码端输入。
5.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤2)中,训练BilSTM-CRF模型,将BilSTM网络层和CRF线性层结合训练,得到中文分词模型,具体为:
利用BilSTM-CRF模型,将分布式向量xembedding作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列
Figure FDA0002811901390000011
与反向LSTM的
Figure FDA0002811901390000012
在各个位置输出的隐状态进行按位置拼接
Figure FDA0002811901390000013
得到完整的隐状态序列(h1,h2,...,hn)∈Rn*m
设置dropout,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pi,...,pn)∈Rn*k,其中,Rn*k表示n*k维空间,pi∈Rk的每一维都视作字分类到第i个标签的打分值,再对P进行Softmax,则相当于对各个位置独立进行k类分类;
在模型的第三层CRF层进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的打分为:
Figure FDA0002811901390000021
整个序列的打分等于各个位置的打分之和,每个位置的打分由两部分得到,一部分由LSTM输出决定,另一部分则由CRF的转移矩阵A决定;
利用Softmax得到归一化后,句子x的标签等于y的概率:
Figure FDA0002811901390000022
其中,score(x,y′)表示整个序列中句子x等于某一标签y′的打分。
模型训练时通过最大化对数似然函数实现,对一个训练样本(x,yx)的对数似然公式如下:
logP(yx|x)=score(x,yx)-log(∑exp(score(x,y′)))
模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
Figure FDA0002811901390000023
其中,argmax表示找到最优结果的函数,y*作为输出预测标签序列。
CN202011399750.2A 2020-12-01 2020-12-01 一种多特征融合的中文分词方法 Pending CN112464663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011399750.2A CN112464663A (zh) 2020-12-01 2020-12-01 一种多特征融合的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011399750.2A CN112464663A (zh) 2020-12-01 2020-12-01 一种多特征融合的中文分词方法

Publications (1)

Publication Number Publication Date
CN112464663A true CN112464663A (zh) 2021-03-09

Family

ID=74806581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011399750.2A Pending CN112464663A (zh) 2020-12-01 2020-12-01 一种多特征融合的中文分词方法

Country Status (1)

Country Link
CN (1) CN112464663A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN113112007A (zh) * 2021-06-11 2021-07-13 平安科技(深圳)有限公司 神经网络中序列长度选择方法、装置、设备及存储介质
CN113157921A (zh) * 2021-04-12 2021-07-23 北京语言大学 一种融入偏旁语义的中文文本分类方法
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN114416925A (zh) * 2022-01-20 2022-04-29 广州市百果园网络科技有限公司 敏感词识别方法、装置、设备、存储介质及程序产品
CN117933245A (zh) * 2024-03-22 2024-04-26 四川省特种设备检验研究院 一种特种设备维护问答系统的中文分词方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111310470A (zh) * 2020-01-17 2020-06-19 西安交通大学 一种融合字词特征的中文命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111310470A (zh) * 2020-01-17 2020-06-19 西安交通大学 一种融合字词特征的中文命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUANHAI DONG 等: "Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition", NATURAL LANGUAGE UNDERSTANDING AND INTELLIGENT APPLICATIONS, pages 239 - 250 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112836056B (zh) * 2021-03-12 2023-04-18 南宁师范大学 一种基于网络特征融合的文本分类方法
CN113157921A (zh) * 2021-04-12 2021-07-23 北京语言大学 一种融入偏旁语义的中文文本分类方法
CN113157921B (zh) * 2021-04-12 2021-11-23 北京语言大学 一种融入偏旁语义的中文文本分类方法
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113312918B (zh) * 2021-06-10 2022-05-17 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113112007A (zh) * 2021-06-11 2021-07-13 平安科技(深圳)有限公司 神经网络中序列长度选择方法、装置、设备及存储介质
CN113112007B (zh) * 2021-06-11 2021-10-15 平安科技(深圳)有限公司 神经网络中序列长度选择方法、装置、设备及存储介质
CN114416925A (zh) * 2022-01-20 2022-04-29 广州市百果园网络科技有限公司 敏感词识别方法、装置、设备、存储介质及程序产品
CN114416925B (zh) * 2022-01-20 2024-07-02 广州市百果园网络科技有限公司 敏感词识别方法、装置、设备、存储介质及程序产品
CN117933245A (zh) * 2024-03-22 2024-04-26 四川省特种设备检验研究院 一种特种设备维护问答系统的中文分词方法

Similar Documents

Publication Publication Date Title
CN112464663A (zh) 一种多特征融合的中文分词方法
CN109657135B (zh) 一种基于神经网络的学者用户画像信息抽取方法及模型
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN113312452B (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN111563375B (zh) 一种文本生成方法和装置
CN109241540A (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN114756681B (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
Hu et al. Considering optimization of English grammar error correction based on neural network
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
Lyu et al. Neural OCR post-hoc correction of historical corpora
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Chen et al. Sheffield at e2e: structured prediction approaches to end-to-end language generation
CN114048314A (zh) 一种自然语言隐写分析方法
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination