CN111709242A - 一种基于命名实体识别的中文标点符号添加方法 - Google Patents
一种基于命名实体识别的中文标点符号添加方法 Download PDFInfo
- Publication number
- CN111709242A CN111709242A CN202010485752.7A CN202010485752A CN111709242A CN 111709242 A CN111709242 A CN 111709242A CN 202010485752 A CN202010485752 A CN 202010485752A CN 111709242 A CN111709242 A CN 111709242A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- sentence
- entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 44
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 96
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 241000590419 Polygonia interrogationis Species 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于命名实体识别的快速中文标点符号添加方法,主要包括:收集并清洗文本数据,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;用双向LSTM或者双向GRU网络加条件随机场的组合,构建轻量级的网络模型;利用训练数据集来训练神经网络;利用训练得到的神经网络模型对无标签文本进行实体识别,根据识别到的实体类别在实体后添加实体所属类别的标点符号。本发明通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地根据句中语义与语法,为无标点符号文本添加上四种常用的标点符号,便于读者阅读文本时快速理解语义。所用的网络结构轻,训练与推理速度快,且不需要大量的训练数据。
Description
技术领域
本发明涉及自然语言处理领域,特别是指一种基于命名实体识别的中文标点符号添加方法。
背景技术
在语音识别生成文本中,识别生成的文本往往不带标点符号,直接以无标点符号文本的形式呈现识别结果会影响读者理解句中表达意思的速度。对于实时性的语音识别转化任务,其对添加的标点符号的类型要求不高,主要能对句子文本进行合理间隔断句,符合读者阅读停顿习惯,便于读者准确快速地理解语义,但其对推理速度有较高的要求,保证整个语音识别与转化的实时性。
目前对于无标签文本添加标点符号的方法,主要有两种,一种是语音识别过程中根据语音的停顿间隔音判别进行标点符号的添加,一种是基于自注意力机制模型的深度学习网络进行添加。第一种的标点符号的添加方法对主要根据语音停顿而无法结合句子语义信息,其添加的准确率一般,尤其在语音停顿识别效果不佳或语音卡顿时,会有标点符号生成位置较多错误的情况,同时在声学模型进行语音识别的同时生成标点符号会在一定程序上增加语音识别的词错率。第二种基于自注意力深度学习网络模型的方法,其标点符号的添加效果较好,但由于其需要的网络结构较深,网络参数量较大,其推理速度较慢,对实时性要求较高的任务上并不适用。
发明内容
本发明提出一种基于命名实体识别的中文标点符号添加方法,通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地为无标点符号文本添加上四种常用的标点符号,便于读者快速阅读理解语义。
本发明的技术方案是这样实现的:
一种基于命名实体识别的中文标点符号添加方法,包括以下步骤:
步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;
步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;
步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;
步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。
优选的,步骤1具体包括以下步骤:
步骤101:收集中文文本数据,进行数据清洗;通过字符串替换与正则匹配,修正文本中的字符,再过滤掉带有不合格字符的语句,保留修正替换后的数据集中符合要求的句子,得到清洗过后的句子文本序列;
步骤102:构建命名实体识别任务训练数据集的标签,将句中将标点符号前的一个词作为标点符号实体,标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号,分别为其设置四种不同的实体标签;句子中非实体的字,再单独设置非实体标签;句子中的四种标点符号本身不生成标签,以此生成标签序列文本。
步骤103:构建命名实体识别任务训练数据集的输入,对步骤101句子文本序列,采用正则过滤去除逗号、句号、感叹号和问号四种标点符号,得到没有标点符号的输入序列文本,所得到的输入序列文本与步骤102的标签文本形成平行文本,作为模型的输入与对应标签;
步骤104:构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用其在字典中的下标数字进行代表,实现输入与标签的数字化处理;
步骤105:收集或者自训练得到字的预训练嵌入层向量,使输入的汉字字符具有语义信息。
优选的,步骤1中收集清洗文本数据具体包括以下步骤:
1)提取文本:从语料文本库中提取出文本信息,去除不需要的信息如文本的ID、所属的链接、文本的标题,保留整段或者整篇的文章主体内容作为待处理文本,进行两道清洗;
2)一次清洗,采用正则匹配的方法,去除上一步中大段文本中的空行,使用字符串替换的办法,将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号,最后采用字符串截取的方式对句首为标点符号的进行截取,对句未不存在标点符号的进行句号补充,得到整段的合格的文本序列;
3)二次清洗:采用正则匹配的方式,将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句,再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外,是否还存在除汉字、英文及标点符号以外的特殊字符,如果存在,则舍去该小句;由句中不存在特殊字符的小句再次组成整段的合格的文本序列;最后采用正则划分的方式,将整段的合格的文本序列以句号为界,分成多个小句,每个小句构成单选文本,得到整句的合格的文本序列。
优选的,步骤2具体包括以下步骤:
步骤201:利用深度学习框架构建神经网络,通过搭设双向LSTM或者双向GRU神经网络来构建序列标注模型;双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络;
步骤202:构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵,对文本中的每一个字进行特征向量嵌入,包括根据该字的字向量,该字在所属词中的相对位置的向量,该字的所属词的词性类别的向量,三者共同组成字特征向量;
步骤203:将步骤202得出的字的特征向量,按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型,通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量;
步骤204:将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型,得到句子中的每一个字属于每种命名实体标签的预测概率;字的所属命名实体标签的概率包括,属于逗号实体起始标签的概率,属于逗号实体其它字标签;属于句号实体起始标签的概率,属于句号实体其它字标签的概率;以及问号与感叹号实体起始与中间字的概率,以及不属于任务实体的标签O的概率,共9种所属标签的概率,取概率值最高的标签,作为句中该字的命名实体类别标签。
优选的,步骤202中,句中每个字的嵌入层向量由字向量,字在所属词的相对位置向量,字的词性类别向量组成,分别来表征句中字的语义信息、该字所属词信息及所属词的词性信息。
优选的,字向量嵌入矩阵采用其它经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型中初始化生成,随神经网络模型的训练调整得到。
优选的,步骤202中利用分词工具对无标签文本进行分词,分词得到的词由多个字组成或由单个字组成;分词后将得到的每一个词中的第一个字的相对位置设置为0,第二字的相对位置设置为1,以此类推;分词后得到该词的词性,给每一种词性以不同的数字表示,词中的每一个字的词性类别都设置为所属词的词性类别;然后针对相对位置的数字和词性的数字,设置两个不同的嵌入层向量矩阵,分别以其数字作为下标,查找得到该字的相对位置向量和词性向量。
优先的,步骤202中,每个字的字向量、相对位置向量与词性向量三者拼接得到该字的嵌入层向量。
优选的,步骤204中条件随机场概率模型在可以通过概率统计,在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。
优选的,步骤4具体包括以下步骤:
步骤401:利用模型识别无标签句子文本中的字所属命名实体类别,得到句子中每一个字所对应的命名实体类型标签。
步骤402:将步骤401得到的命名实体,得到句子中标点符号相关实体所在位置,根据标点符号实体的实体标签类型,得到该实体后应添加的标点符号类型;
步骤403:根据步骤402得到的标点符号实体位置及该实体后应添加的标点符号类型,在无标签句子文本的相应位置添加相应的标签符号。
本发明的有益效果在于:通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地为无标点符号文本添加上四种常用的标点符号,便于读者快速阅读理解语义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为构造生成模型训练数据的流程示意图。
图2为轻型中文标点符号添加模型的训练与推理过程示意图。
图3为词性向量嵌入与词中相对位置向量嵌入过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图3所示,本发明提出了一种基于命名实体识别的中文标点符号添加方法,包括以下步骤:
步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;
步骤1具体包括以下步骤:
步骤101:收集中文文本数据,进行数据清洗;通过字符串替换与正则匹配,修正文本中的字符,再过滤掉带有不合格字符的语句,保留修正替换后的数据集中符合要求的句子,得到清洗过后的句子文本序列;
步骤102:构建命名实体识别任务训练数据集的标签,将句中将标点符号前的一个词作为标点符号实体,标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号,分别为其设置四种不同的实体标签;句子中非实体的字,再单独设置标签;句子中的四种标点符号本身不生成标签,以此生成标签序列文本。
首先以标点符号为间隔,分隔出两个标点符号中间的文本段,对该文本段使用jieba分词工具(或者其它分词工具)对整句的合格的文本序列进行分词,其中对于自己业务场景内专有的词,也应提前在分词工具中进行手动添加。将逗号所在的前一个词的命名类别设置为CMM,该词的第一个字的标签即为B-CMM,中间字为I-CMM,若逗号前的词为单字,则该字的标签为B-CMM;将句号所在的前一个词的命名类别设置为FSP,该词的第一个字的标签即为B-FSP,其它字为I-FSP,若句号前的词为单字,则该字的标签为B-FSP。感叹及问号的标记方法相同,生成标签B-EXM、I-EXM与B-QSM、I-QSM。句子中除标点符号前一个词以外的字,为非识别实体,标签为O。
步骤103:构建命名实体识别任务训练数据集的输入,对步骤101句子文本序列,采用正则过滤去除逗号、句号、感叹号和问号四种标点符号,得到没有标点符号的输入序列文本,所得到的输入序列文本与步骤102的标签文本形成平行文本,作为模型的输入与对应标签;
步骤104:构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用其在字典中的下标数字进行代表,实现输入与标签的数字化处理;
步骤105:收集或者自训练得到字的预训练嵌入层向量,使输入的字具有语义信息。
收集清洗文本数据具体包括以下步骤:
为模型训练数据收集语料,语料可以是公开的数据文本,也可以是业务场景下的相关文本数据;
1)提取文本:从语料文本库中提取出文本信息,去除不需要的信息如文本的ID、所属的链接或文本的标题,保留整段或者整篇的文章主体内容作为待处理文本,进行两道清洗;
2)一次清洗,采用正则匹配的方法,去除上一步中大段文本中的空行,使用字符串替换的办法,将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号,最后采用字符串截取的方式对句首为标点符号的进行截取,对句未不存在标点符号的进行句号补充,得到整段的合格的文本序列;
3)二次清洗:采用正则匹配的方式,将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句,再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外,是否还存在其它特殊字符,如果存在,则舍去该小句;由句中不存在特殊字符的小句再次组成整段的合格的文本序列;最后采用正则划分的方式,将整段的合格的文本序列以句号为界,分成多个小句,每个小句构成单选文本,得到整句的合格的文本序列。
步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;
步骤2具体包括以下步骤:
步骤201:利用Tensorflow或者Pytorch或者其它深度学习框架构建神经网络,通过搭设双向LSTM或者双向GRU神经网络来构建建序列标注模型;双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络;
构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用它们在字典中的下标数字进行代表,实现输入与标签的数字化处理。其中应在字典中增加UNK与PAD,对于字典中没有的汉字索引为UNK,对于模型训练时构建batch时需对短句进行补长的,补长的部分索引为PAD。标签部分将O、B-CMM、I-CMM、B-FSP、I-FSP、B-EXM、I-EXM、B-QSM、I-QSM记为0-8,对于PAD的标签记录为9,共10个标签。
步骤202:构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵,对文本中的每一个字进行特征向量嵌入,包括根据字的字向量,字的在所属词中的相对位置的向量,字的所属词的词性类别的向量,三组共同组成生成字特征向量;
句中每个字的嵌入层向量由字向量,字在所属词的相对位置向量,字的词性类别向量组成,分别来表征句中字的语义信息、该字所属词信息及所属词的词性信息。
字向量嵌入矩阵采用其它经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型中初始化生成,随神经网络模型的训练调整得到。
利用分词工具对无标签文本进行分词,分词后得到将词中的第一个字的相对位置设置为0,第二字的相对位置设置为1,以此类推;分词后得到该词的词性,给每一种词性以不同的数字表示,词中的每一个字的词性类别都设置为所属词的词性类别;然后针对相对位置的数字和词性的数字,设置两个不同的嵌入层向量矩阵,分别以其数学作为下标,查找得到该字的相对位置向量和词性向量。其中的词性特征向量的获取方式为:先采用分词工具分词后,可以得到该词的词性,例如,共57种词性,根据其下标0-56查找词性嵌入矩阵中的对应下标的一行向量作为该词的词性向量。相对位置向量矩阵和词性向量矩阵在模型训练前初始化生成,并在训练过程中调整得到。字向量、相对位置向量与词性向量三者拼接形成该字的嵌入层特征向量,在字向量维度为100的情况下,建议相对位置向量维度为5,词性向量的维度为10,此时该字的嵌入层特征向量维度为115。
步骤203:将步骤202得出的字的嵌入层特征向量,按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型,通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量;LSTM与GRU模型为具有长短记忆能力的网络模型,可以在训练过程中学习到为得到句中某个字的正确的标签,句中的哪些信息需要遗忘,哪些信息需要保留,解决了RNN长时遗忘的问题,采用双向LSTM或GRU,即将句子按正序与反序输入到LSTM或GRU内核中,将两种情况下的字的输出向量进行组合,可以实现增强时序的记忆功能。同时,相比其它的自注意力网络或者其它深层网络,双向LSTM或GRU网络结构的模型体量小,推理速度快。
步骤204:将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型,得到句子中的每一个字属于每种命名实体标签的预测概率;字的所属命名实体标签的概率包括,属于逗号实体起始标签B-CMM的概率,属于逗号实体非起始标签I-CMM;属于句号实体起始标签B-FSP的概率,属于句号实体非起始标签I-FSP的概率;以及问号与感叹号实体起始与中间字的概率,以及不属于任务实体的标签O的概率,共9种所属标签的概率;取概率值最高的标签,作为句中该字的命名实体类别标签。条件随机场概率模型在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。如在经过统计后,标签为O的实体后接一个实体为I-CMM的概率接近于0,以此提升模型对实体位置的准确判别。同时作为一个机器学习的概率统计模型,其推理速度极快。
步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;
步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。
步骤4具体包括以下步骤:
步骤401:利用模型识别无标签句子文本中的字所属命名实体类别,得到句子中每一个字所对应的命名实体类型标签。
步骤402:将步骤401得到的命名实体,得到句子中标点符号相关实体所在位置,根据标点符号实体的实体类型标签,得到该实体后应添加的标点符号类型;
步骤403:根据步骤402得到的标点符号实体位置及该实体后应添加的标点符号类型,在无标签句子文本的相应位置添加相应的标签符号。
本发明通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地为无标点符号文本添加上四种常用的标点符号,便于读者快速阅读理解语义。在接受一定量的训练过后,模型在标点符号添加任务上预测F1值为85左右,在普通的i5-8300H CPU@2.3GHz下,200字以下的单条文本的平均推理速度在7毫秒以内,满足实时性生成任务要求的同时具有较高的准确率,尤其适用于为实时语音识别后的无标签文本添加标点符号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于命名实体识别的中文标点符号添加方法,其特征在于,包括以下步骤:
步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;
步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;
步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;
步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。
2.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤1具体包括以下步骤:
步骤101:收集中文文本数据,进行数据清洗;通过字符串替换与正则匹配,修正文本中的字符,再过滤掉带有不合格字符的语句,保留修正替换后的数据集中符合要求的句子,得到清洗过后的句子文本序列;
步骤102:构建命名实体识别任务训练数据集的标签,将句中标点符号前的一个词作为标点符号实体,标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号,分别为其设置四种不同的实体标签;句子中除标点符号实体以外的字,再单独设置标签;句子中的四种标点符号自身不生成标签,以此生成标签序列文本;
步骤103:构建命名实体识别任务训练数据集的输入,对步骤101句子文本序列,采用正则过滤去除逗号、句号、感叹号和问号四种标点符号,得到没有标点符号的输入序列文本,所得到的输入序列文本与步骤102的标签文本形成平行文本,作为模型的输入与对应标签;
步骤104:构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用其在字典中的下标数字进行代表,实现输入与标签的数字化处理;
步骤105:收集或者自训练得到字的预训练嵌入层向量,使输入的汉字字符具有语义信息。
3.根据权利要求1或2所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤1中收集清洗文本数据具体包括以下步骤:
1)提取文本:从语料文本库中提取出文本信息,去除不需要的信息如文本的ID、所属的链接、文本的标题,保留整段或者整篇的文章主体内容作为待处理文本,进行两道清洗;
2)一次清洗,采用正则匹配的方法,去除上一步中大段文本中的空行,使用字符串替换的办法,将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号,最后采用字符串截取的方式对句首为标点符号的进行截取,对句未不存在标点符号的进行句号补充,得到整段的合格的文本序列;
3)二次清洗:采用正则匹配的方式,将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句,再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外,是否还存在除汉字字符、英文字符及四种标点符号字符以外的特殊字符,如果存在,则舍去该小句;不存在特殊字符的小句再次组成整段的合格的文本序列;最后采用正则划分的方式,将整段的合格的文本序列以句号为界,分成多个小句,每个小句构成单选文本,得到整句的合格的文本序列。
4.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤2具体包括以下步骤:
步骤201:利用深度学习框架构建神经网络,通过搭设双向LSTM或者双向GRU神经网络来构建序列标注模型;双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络;
步骤202:构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵,对文本中的每一个字进行特征向量嵌入,包括根据该字的字向量,该字的在所属词中的相对位置的向量,该字的所属词的词性类别的向量,三组共同组成该字的特征向量;
步骤203:将步骤202得出的字的特征向量,按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型,通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量;
步骤204:将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型,得到句子中的每一个字属于每种命名实体标签的预测概率;字的所属命名实体标签的概率包括,属于逗号实体起始标签的概率,属于逗号实体非起始标签;属于句号实体起始标签的概率,属于句号实体非起始标签的概率;以及问号与感叹号实体起始与中间字的概率,以及不属于任务实体的标签O的概率,共9种所属标签的概率,取概率值最高的标签,作为句中该字的命名实体类别标签。
5.根据权利要求4所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤202中,句中每个字的嵌入层向量由该字的字向量,该字在所属词的相对位置向量,该字的词性类别向量组成,分别来表征句中该字的语义信息、该字所属词信息及所属词的词性信息。
6.根据权利要求4所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,字向量嵌入矩阵采用经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型训练前初始化生成,随神经网络模型的训练调整得到。
7.根据权利要求4所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤202中利用分词工具对无标签文本进行分词,分词得到的词由多个字组成或由单个字组成;分词后将每个词中的第一个字的相对位置设置为0,第二字的相对位置设置为1,以此类推;分词后得到该词的词性,给每一种词性以不同的数字表示,词中的每一个字的词性类别都设置为所属词的词性类别;然后针对相对位置的数字和词性的数字,设置两个不同的嵌入层向量矩阵,分别以其数字为下标,查找得到该字的相对位置向量和词性向量。
8.根据权利要求4所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤204中条件随机场概率模型在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。
9.根据权利要求4所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤4具体包括以下步骤:
步骤401:利用模型识别无标签句子文本中的字所属命名实体类别,得到句子中每一个字所对应的命名实体类型标签。
步骤402:将步骤401得到的命名实体,得到句子中标点符号相关实体所在位置,根据标点符号实体的实体标签类型,得到该实体后应添加的标点符号类型;
步骤403:根据步骤402得到的标点符号实体位置及该实体后应添加的标点符号类型,在无标签句子文本的相应位置添加相应的标签符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010485752.7A CN111709242B (zh) | 2020-06-01 | 2020-06-01 | 一种基于命名实体识别的中文标点符号添加方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010485752.7A CN111709242B (zh) | 2020-06-01 | 2020-06-01 | 一种基于命名实体识别的中文标点符号添加方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709242A true CN111709242A (zh) | 2020-09-25 |
CN111709242B CN111709242B (zh) | 2024-02-02 |
Family
ID=72539064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010485752.7A Active CN111709242B (zh) | 2020-06-01 | 2020-06-01 | 一种基于命名实体识别的中文标点符号添加方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709242B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
CN112633004A (zh) * | 2020-11-04 | 2021-04-09 | 北京字跳网络技术有限公司 | 文本标点符号删除方法、装置、电子设备和存储介质 |
CN113807097A (zh) * | 2020-10-30 | 2021-12-17 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN113918031A (zh) * | 2020-11-03 | 2022-01-11 | 北京沃东天骏信息技术有限公司 | 使用子字符信息进行中文标点恢复的系统和方法 |
CN114065709A (zh) * | 2021-11-26 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种标点符号添加方法、装置、电子设备及存储介质 |
CN114154503A (zh) * | 2021-12-02 | 2022-03-08 | 四川启睿克科技有限公司 | 一种敏感数据类型识别方法 |
CN114462411A (zh) * | 2022-02-14 | 2022-05-10 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
WO2022166218A1 (zh) * | 2021-02-07 | 2022-08-11 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
CN114971017A (zh) * | 2022-05-26 | 2022-08-30 | 中国银行股份有限公司 | 银行交易数据的处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932226A (zh) * | 2018-05-29 | 2018-12-04 | 华东师范大学 | 一种对无标点文本添加标点符号的方法 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN110442840A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 序列标注网络更新方法、电子病历处理方法及相关装置 |
CN110688822A (zh) * | 2019-09-27 | 2020-01-14 | 上海智臻智能网络科技股份有限公司 | 标点符号的添加方法及设备、介质 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
CN111160026A (zh) * | 2019-12-18 | 2020-05-15 | 北京明略软件系统有限公司 | 一种模型训练方法、装置、实现文本处理的方法及装置 |
-
2020
- 2020-06-01 CN CN202010485752.7A patent/CN111709242B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932226A (zh) * | 2018-05-29 | 2018-12-04 | 华东师范大学 | 一种对无标点文本添加标点符号的方法 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN110442840A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 序列标注网络更新方法、电子病历处理方法及相关装置 |
CN110688822A (zh) * | 2019-09-27 | 2020-01-14 | 上海智臻智能网络科技股份有限公司 | 标点符号的添加方法及设备、介质 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
CN111160026A (zh) * | 2019-12-18 | 2020-05-15 | 北京明略软件系统有限公司 | 一种模型训练方法、装置、实现文本处理的方法及装置 |
Non-Patent Citations (2)
Title |
---|
李佰蔚: "基于GRU-CRF的中文命名实体识别方法研究" * |
龚德山: "命名实体识别在中药名词和方剂名词识别中的比较研究" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807097A (zh) * | 2020-10-30 | 2021-12-17 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN113918031A (zh) * | 2020-11-03 | 2022-01-11 | 北京沃东天骏信息技术有限公司 | 使用子字符信息进行中文标点恢复的系统和方法 |
CN112633004A (zh) * | 2020-11-04 | 2021-04-09 | 北京字跳网络技术有限公司 | 文本标点符号删除方法、装置、电子设备和存储介质 |
CN112380866A (zh) * | 2020-11-25 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种文本话题标签生成方法、终端设备及存储介质 |
WO2022166218A1 (zh) * | 2021-02-07 | 2022-08-11 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
CN114065709A (zh) * | 2021-11-26 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种标点符号添加方法、装置、电子设备及存储介质 |
CN114154503A (zh) * | 2021-12-02 | 2022-03-08 | 四川启睿克科技有限公司 | 一种敏感数据类型识别方法 |
CN114462411A (zh) * | 2022-02-14 | 2022-05-10 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN114462411B (zh) * | 2022-02-14 | 2023-05-16 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN114971017A (zh) * | 2022-05-26 | 2022-08-30 | 中国银行股份有限公司 | 银行交易数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111709242B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN110263154A (zh) | 一种网络舆情情感态势量化方法、系统及存储介质 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN111680476B (zh) | 一种用于智能生成类文本的业务热词识别转换的方法 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN116166768A (zh) | 一种基于规则的文本知识抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |