CN109918666A - 一种基于神经网络的中文标点符号添加方法 - Google Patents
一种基于神经网络的中文标点符号添加方法 Download PDFInfo
- Publication number
- CN109918666A CN109918666A CN201910168357.3A CN201910168357A CN109918666A CN 109918666 A CN109918666 A CN 109918666A CN 201910168357 A CN201910168357 A CN 201910168357A CN 109918666 A CN109918666 A CN 109918666A
- Authority
- CN
- China
- Prior art keywords
- punctuation mark
- predicate
- institute
- neural network
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000011084 recovery Methods 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于神经网络的中文标点符号添加方法。
背景技术
在NLP领域里,语音转化为文本标点符号不能显式的添加,或者只是依据语音的停顿添加标点,这样往往导致标点符号添加错误,且只能添加逗号等分隔符进行分句,转化后的文本往往需要大量人工干预。在出版社,期刊,杂志等领域要对稿件进行格式审查,标点符号的规范使用是重要的一项标准。
目前针对中文标点符号预测勘误,学术界还没有提出一个较好的方法,在该领域还处于探索阶段,已有的方法往往是基于统计的规则匹配,之后人工复查,这样浪费大量人力。基于近年来大数据,神经网络的兴起,本发明在海量中文文本数据集上训练神经网络,在标点符号自动添加,自动判断标点符号使用正误上取得了很好的效果。因此,本发明提出一种基于神经网络的中文标点符号添加方法,以解决现有技术中的不足之处。
发明内容
针对上述问题,本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误,对出版社,杂志社,等投稿的稿件进行标点符号的勘误,对中文文本标点符号规范化自动化处理是一种有益的尝试。
本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:
步骤一:构造标点符号添加的训练数据集;
步骤二:基于神经网络构建中文标点符号添加方法;
步骤三:利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络。
进一步改进在于:所述步骤三中,神经网络的深度学习工具基于Tensorflow后端的Keras,损失函数用交叉熵损失,优化器用Adam。
一种构造标点符号添加的训练数据集方法,包括以下步骤:
步骤一:收集中文文本数据集,进行数据清洗,通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据,保留数据集文本部分,过滤噪声后得到清洗过后的文本序列;
步骤二:构建训练数据集,使用分词工具对清洗过后的文本序列进行分词,得到分词后的序列;
步骤三:对经分词后的序列,进行标点符号标注,得到对应的标签序列;
步骤四:构建词-索引词典,对分词后的序列进行数字化处理,去掉全部的标点符号,使文本序列和标签序列一一对应,得到数字序列,数字序列和标签序列构成标点符号训练数据集。
进一步改进在于:所述步骤三中,标注规则为:当前词后面若不是标点符号,则在标签序列中,为当前词标注为数字0,当前词后面若是句号,则在标签序列中,为当前词标注为数字1,当前词后面若是逗号,则在标签序列中,为当前词标注为数字2,当前词后面若是分号,则在标签序列中,为当前词标注为数字3,等等,对常用的十六个标点符号进行标注。
一种中文标点符号添加的方法,包括以下步骤:
步骤一:构建神经网络,通过自注意力机制深度神经网络来建模序列标注模型,构建深度自注意力模型和深层神经网络模型;
步骤二:对识别文本中的每一个词进行编码,根据所述词的编码,所述词的声学信息编码,所述词的词性特征,所述词的句法特征,生成所述词的特征向量;
步骤三:将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型,通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合,生成所述词的输入特征;
步骤四:将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型,得到所述词后每种标点符号添加的概率,所述词后添加标点符号的概率包括,没有标点符号的概率,预测为每种标点符号的概率,根据概率最高的预测结果在所述词后添加标点符号。
进一步改进在于:所述步骤三中,自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量,通过计算值向量的加权和得到当前词的表示,权重为查询向量和键向量相关性,通过自注意力机制,学习到当前词和其他所有词的句意相关性信息,句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。
进一步改进在于:所述步骤四中,深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。
本发明的有益效果为:本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误,对出版社,杂志社,等投稿的稿件进行标点符号的勘误,对中文文本标点符号规范化自动化处理是一种有益的尝试。
附图说明
图1为本发明构造标点符号添加的训练数据集流程示意图。
图2为本发明中文标点符号添加的方法流程示意图。
具体实施方式
为了使发明实现的技术手段、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
根据图1、2所示,本实施例提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:
步骤一:构造标点符号添加的训练数据集;
步骤二:基于神经网络构建中文标点符号添加方法;
步骤三:利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络,神经网络的深度学习工具基于Tensorflow后端的Keras,损失函数用交叉熵损失,优化器用Adam。
一种构造标点符号添加的训练数据集的方法,包括以下步骤:
步骤一:收集中文文本数据集,进行数据清洗,通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据,去除比如书名、作者名、每一章的标题、段落之间的空格等多余数据,保留数据集正文部分,把正文内容字符串连接起来形成一个总文件,得到清洗过后的文本序列;
步骤二:构建训练数据集,使用分词工具对清洗过后的文本序列进行分词,分词器选择开源工具HanLP,得到分词后的序列;
步骤三:对经分词后的序列,进行标注,标注规则为:当前词后面若不是标点符号,则在标签序列中,为当前词标注为数字0,当前词后面若是句号,则在标签序列中,为当前词标注为数字1,前词后面若是逗号,则在标签序列中,为当前词标注为数字2,前词后面若是分号,则在标签序列中,为当前词标注为数字3,等等,对常用的十六个标点符号进行标注,得到对应的标点符号标签序列;
步骤四:构建词-索引词典,对分词后的序列进行数字化处理,去掉全部的标点符号,使文本序列和标签序列一一对应,得到数字序列,数字序列和标签序列构成标点符号训练数据集。
一种中文标点符号添加的方法,包括以下步骤:
步骤一:构建神经网络,通过自注意力机制深度神经网络来建模序列标注模型,构建深度自注意力模型和深层神经网络模型;
步骤二:对识别文本中的每一个词进行编码,根据所述词的编码,所述词的声学信息编码,所述词的词性特征,所述词的句法特征,生成所述词的特征向量;
步骤三:将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型,通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合,生成所述词的输入特征,在这个过程中,自注意力模型通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量,查询向量和键向量通过求数量积得到相似度度量值,对相似度度量值进行归一化后,对值向量进行加权求和,权重即相似度度量值归一化后的值,通过上面的自注意力机制,网络学习到当前词和其他所有词的句意相关性信息,有效克服了传统循环神经网络(LSTM)长距离信息依赖问题,自注意力机制是比LSTM更能有效提取特征,上述句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息,其中,上述词所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等,上述词词性是指上述汉字的上下文文本中词性,例如上述分词为动词或名词等,具体地,自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量,通过计算值向量的加权和得到当前词的表示,权重为查询向量和键向量相关性,自注意力的模型由于使用了大量语料,自注意力模型获取的上述词的与其他词的句意相关性信息中还蕴含了上述词的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误,而且,自注意力模型可以使用多层堆叠来进一步加强对复杂句子、长句子的信息控制,实现更高的精度;
步骤四:将步骤三得出的所述词的特征向量,输入步骤一中的深层神经网络模型,得到所述词后每种标点符号预测的概率,所述词后预测标点符号的概率包括,没有标点符号的概率,预测为每种标点符号的概率,具体地,深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加每种标点符号的概率,根据概率最高的预测结果在所述词后添加标点符号。
本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误,对出版社,杂志社,等投稿的稿件进行标点符号的勘误,对中文文本标点符号规范化自动化处理是一种有益的尝试。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于神经网络的中文标点符号添加方法,其特征在于,包括以下步骤:
步骤一:构造标点符号添加的训练数据集;
步骤二:基于神经网络构建中文标点符号添加的方法;
步骤三:利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络。
2.根据权利要求1所述的一种基于神经网络的中文标点符号添加方法,其特征在于:所述步骤三中,神经网络的深度学习工具基于Tensorflow后端的Keras,损失函数用交叉熵损失,优化器用Adam。
3.应用于权利要求1所述的一种构造标点符号添加的训练数据集的方法,其特征在于:包括以下步骤:
步骤一:收集中文文本数据集,进行数据清洗,通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据,保留数据集正文部分,过滤噪声后得到清洗过后的文本序列;
步骤二:构建训练数据集,使用分词工具对清洗过后的文本序列进行分词,得到分词后的序列;
步骤三:对经分词后的序列,进行标点符号标注,得到对应的标签序列;
步骤四:构建词-索引词典,对分词后的序列进行数字化处理,去掉全部的标点符号,使文本序列和标签序列一一对应,得到数字序列,数字序列和标签序列构成标点符号训练数据集。
4.根据权利要求3所述的一种构造标点符号添加的训练数据集的方法,其特征在于:所述步骤三中,标注规则为:当前词后面若不是标点符号,则在标签序列中,为当前词标注为数字0,当前词后面若是句号,则在标签序列中,为当前词标注为数字1,当前词后面若是逗号,则在标签序列中,为当前词标注为数字2,当前词后面若是分号,则在标签序列中,为当前词标注为数字3,等等,对常用的十六个标点符号进行标注。
5.应用于权利要求1所述的一种中文标点符号添加的方法,其特征在于:包括以下步骤:
步骤一:构建神经网络,通过自注意力机制深度神经网络来建模序列标注模型,构建深度自注意力模型和深层神经网络模型;
步骤二:对识别文本中的每一个词进行编码,根据所述词的编码,所述词的声学信息编码,所述词的词性特征,所述词的句法特征,生成所述词的特征向量;
步骤三:将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型,通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合,生成所述词的输入特征;
步骤四:将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型,得到所述词后每种标点符号预测的概率,所述词后预测标点符号的概率包括,没有标点符号的概率,预测为每种标点符号的概率,根据概率最高的预测结果在所述词后添加标点符号。
6.根据权利要求5所述的一种中文标点符号添加的方法,其特征在于:所述步骤三中,自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量,通过计算值向量的加权和得到当前词的表示,权重为查询向量和键向量相关性,通过自注意力机制,学习到当前词和其他所有词的句意相关性信息,句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。
7.根据权利要求5所述的一种中文标点符号添加的方法,其特征在于:所述步骤四中,深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168357.3A CN109918666B (zh) | 2019-03-06 | 2019-03-06 | 一种基于神经网络的中文标点符号添加方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168357.3A CN109918666B (zh) | 2019-03-06 | 2019-03-06 | 一种基于神经网络的中文标点符号添加方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918666A true CN109918666A (zh) | 2019-06-21 |
CN109918666B CN109918666B (zh) | 2024-03-15 |
Family
ID=66963580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168357.3A Active CN109918666B (zh) | 2019-03-06 | 2019-03-06 | 一种基于神经网络的中文标点符号添加方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918666B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN110688822A (zh) * | 2019-09-27 | 2020-01-14 | 上海智臻智能网络科技股份有限公司 | 标点符号的添加方法及设备、介质 |
CN110705264A (zh) * | 2019-09-27 | 2020-01-17 | 上海智臻智能网络科技股份有限公司 | 标点符号的校正方法及设备、介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN111027291A (zh) * | 2019-11-27 | 2020-04-17 | 达而观信息科技(上海)有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111062204A (zh) * | 2019-12-13 | 2020-04-24 | 智慧神州(北京)科技有限公司 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
CN111090981A (zh) * | 2019-12-06 | 2020-05-01 | 中国人民解放军战略支援部队信息工程大学 | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 |
CN111222321A (zh) * | 2019-12-24 | 2020-06-02 | 北京明略软件系统有限公司 | 一种标点符号的处理方法及装置 |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
CN112001167A (zh) * | 2020-08-26 | 2020-11-27 | 四川云从天府人工智能科技有限公司 | 一种标点符号添加方法、系统、设备和介质 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN112906348A (zh) * | 2021-02-04 | 2021-06-04 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
CN113095062A (zh) * | 2021-04-12 | 2021-07-09 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN113222991A (zh) * | 2021-06-16 | 2021-08-06 | 南京农业大学 | 基于深度学习网络的田间麦穗计数以及小麦产量预测 |
CN114880990A (zh) * | 2022-05-16 | 2022-08-09 | 马上消费金融股份有限公司 | 标点符号预测模型训练方法、标点符号预测方法及装置 |
CN115617955A (zh) * | 2022-12-14 | 2023-01-17 | 数据堂(北京)科技股份有限公司 | 分级预测模型训练方法、标点符号恢复方法及装置 |
CN116018639A (zh) * | 2020-10-27 | 2023-04-25 | 谷歌有限责任公司 | 用于流式文本的文本到语音合成的方法和系统 |
CN116229994A (zh) * | 2023-05-08 | 2023-06-06 | 北京爱数智慧科技有限公司 | 一种阿拉伯语方言的标符预测模型的构建方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US20180060665A1 (en) * | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN108932226A (zh) * | 2018-05-29 | 2018-12-04 | 华东师范大学 | 一种对无标点文本添加标点符号的方法 |
-
2019
- 2019-03-06 CN CN201910168357.3A patent/CN109918666B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US20180060665A1 (en) * | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN108932226A (zh) * | 2018-05-29 | 2018-12-04 | 华东师范大学 | 一种对无标点文本添加标点符号的方法 |
Non-Patent Citations (4)
Title |
---|
JINJIANG LI等: "Attention-based bidirectional LSTM for Chinese punctuation prediction", 《DATA SCIENCE AND KNOWLEDGE ENGINEERING FOR SENSING DECISION SUPPORT》, 31 December 2018 (2018-12-31) * |
ROBERT_A: "自然语言处理中的自注意力机制", pages 1 - 8, Retrieved from the Internet <URL:https://www.cnblogs.com/robert-dlut/p/8638283.html> * |
ROBERT_AI: "自然语言处理中的自注意力机制", 《博客园---HTTPS://WWW.CNBLOGS.COM/ROBERT-DLUT/P/8638283.HTML》, 24 March 2018 (2018-03-24), pages 1 - 11 * |
李雅昆等: "基于改进的多层BLSTM 的中文分词和标点预测", 《计算机应用》, pages 1 - 4 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674629A (zh) * | 2019-09-27 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 标点符号标注模型及其训练方法、设备、存储介质 |
CN110688822A (zh) * | 2019-09-27 | 2020-01-14 | 上海智臻智能网络科技股份有限公司 | 标点符号的添加方法及设备、介质 |
CN110705264A (zh) * | 2019-09-27 | 2020-01-17 | 上海智臻智能网络科技股份有限公司 | 标点符号的校正方法及设备、介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN110852040B (zh) * | 2019-11-05 | 2023-08-04 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN111027291A (zh) * | 2019-11-27 | 2020-04-17 | 达而观信息科技(上海)有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111027291B (zh) * | 2019-11-27 | 2024-03-26 | 达观数据有限公司 | 文本中标点符号添加、模型训练方法、装置及电子设备 |
CN111090981A (zh) * | 2019-12-06 | 2020-05-01 | 中国人民解放军战略支援部队信息工程大学 | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 |
CN111062204A (zh) * | 2019-12-13 | 2020-04-24 | 智慧神州(北京)科技有限公司 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
CN111062204B (zh) * | 2019-12-13 | 2023-08-22 | 北京因特睿软件有限公司 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
CN111222321A (zh) * | 2019-12-24 | 2020-06-02 | 北京明略软件系统有限公司 | 一种标点符号的处理方法及装置 |
CN111222321B (zh) * | 2019-12-24 | 2023-05-09 | 北京明略软件系统有限公司 | 一种标点符号的处理方法及装置 |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111651983B (zh) * | 2020-05-12 | 2021-06-18 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
CN111709242B (zh) * | 2020-06-01 | 2024-02-02 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
CN112001167A (zh) * | 2020-08-26 | 2020-11-27 | 四川云从天府人工智能科技有限公司 | 一种标点符号添加方法、系统、设备和介质 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN112199927A (zh) * | 2020-10-19 | 2021-01-08 | 古联(北京)数字传媒科技有限公司 | 古籍标点填充方法和装置 |
CN116018639A (zh) * | 2020-10-27 | 2023-04-25 | 谷歌有限责任公司 | 用于流式文本的文本到语音合成的方法和系统 |
CN112906348B (zh) * | 2021-02-04 | 2022-04-26 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
CN112906348A (zh) * | 2021-02-04 | 2021-06-04 | 云从科技集团股份有限公司 | 对文本自动添加标点符号的方法、系统、设备及介质 |
CN113095062A (zh) * | 2021-04-12 | 2021-07-09 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN113222991A (zh) * | 2021-06-16 | 2021-08-06 | 南京农业大学 | 基于深度学习网络的田间麦穗计数以及小麦产量预测 |
CN114880990A (zh) * | 2022-05-16 | 2022-08-09 | 马上消费金融股份有限公司 | 标点符号预测模型训练方法、标点符号预测方法及装置 |
CN115617955A (zh) * | 2022-12-14 | 2023-01-17 | 数据堂(北京)科技股份有限公司 | 分级预测模型训练方法、标点符号恢复方法及装置 |
CN116229994A (zh) * | 2023-05-08 | 2023-06-06 | 北京爱数智慧科技有限公司 | 一种阿拉伯语方言的标符预测模型的构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109918666B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666A (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN112559556B (zh) | 表格模式解析和序列掩码的语言模型预训练方法及系统 | |
Constant et al. | MWU-aware part-of-speech tagging with a CRF model and lexical resources | |
CN105589844B (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN107423290A (zh) | 一种基于层次结构的神经网络机器翻译模型 | |
CN108228568B (zh) | 一种数学题目语义理解方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN110929518B (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN114927177A (zh) | 一种融合中文医疗领域特征的医疗实体识别方法及系统 | |
CN110502759A (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
Zhou et al. | Ontology-based information extraction from environmental regulations for supporting environmental compliance checking | |
Adak | A bilingual machine translation system: English & Bengali | |
CN113627152B (zh) | 一种基于自监督学习的无监督机器阅读理解训练方法 | |
Chi et al. | The acquisition of Khmer-Chinese parallel sentence pairs from comparable corpus based on manhattan-BiGRU model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |