CN111310473A - 文本纠错方法及其模型训练的方法、装置 - Google Patents
文本纠错方法及其模型训练的方法、装置 Download PDFInfo
- Publication number
- CN111310473A CN111310473A CN202010080169.8A CN202010080169A CN111310473A CN 111310473 A CN111310473 A CN 111310473A CN 202010080169 A CN202010080169 A CN 202010080169A CN 111310473 A CN111310473 A CN 111310473A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- keywords
- preset
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000012937 correction Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 238000003062 neural network model Methods 0.000 claims abstract description 31
- 238000003860 storage Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 27
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本纠错方法及其模型训练的方法、装置,涉及文字识别技术领域,该模型训练方法包括:根据预先设置的关键词,获取包含关键词的样本文本;对样本文本进行格式化操作;将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练;当预设的初始神经网络模型中的输出结果满足预设的期望阈值时,得到用于文本关键词提取的模型。通过将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果,并与预先设置的标准文件进行比对进行纠错。通过对神经网络模型进行训练得到文本关键词提取模型,实现了文本关键词的自动化提取与自动纠正,减少了人工操作的过程,有利于减少文本中出现的撰写错误。
Description
技术领域
本发明涉及文字识别技术领域,尤其是涉及一种文本纠错方法及其模型训练的方法、装置。
背景技术
互联网时代,用户获取信息的方式已从传统的纸质改变为现代的数字文字的方式,互联网时代的信息传播速度也比传统方式要快的多,因此对于新闻文稿等文字的排查过程尤为重要。一旦发生文字撰写错误导致歧义,被互联网传播后会引发难以预料的后果,严重时会对相关企业或个人带来名誉损失,甚至会引发大范围恐慌。
在一些互联网新闻中,一些常见的地名、人名、部门以及职位信息是相对固定的,一旦这些信息描述有误,带来的负面影响较大,因此需要对该类型的文本进行特殊的排查。
现有技术中对于这类文本的排查主要是采用人工的方式,效率低下,且工作繁复,缺少一种能够实现自动纠错的技术手段。
发明内容
有鉴于此,本发明的目的在于提供一种文本纠错方法及其模型训练的方法、装置,利用已完成训练的相关神经网络模型来对文本进行检索,获取文本中包含的多个关键词及其相互对应的关系,并将该关键词与预先设置的标准文件中的关键词进行对比,如果发现对应关系不一致,则将文本中的关键词进行纠正。
第一方面,本发明实施例提供了一种用于文本关键词提取的模型训练方法,该方法包括:
根据预先设置的关键词,获取包含关键词的样本文本;
对样本文本进行格式化操作;
将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练;
当预设的初始神经网络模型中的输出结果满足预设的期望阈值时,得到用于文本关键词提取的模型。
在一些实施方式中,上述根据预先设置的关键词,获取样本文本的步骤,包括:
获取预先设置的关键词的内容;
关键词的内容进行分类,得到关键词的分类结果;
根据关键词的分类结果,从预先获取的文本库中分别获取样本文本。
在一些实施方式中,文本库通过爬虫工具、扫描仪或者人工输入的方式进行预先获取的。
在一些实施方式中,上述对样本文本进行格式化操作的步骤,包括:
遍历样本文本,获得关键词;
将关键词拆分为若干个单一文本;
对拆分后的若干个单一文本分别进行标记。
在一些实施方式中,上述对拆分后的若干个单一文本分别进行标记的步骤,包括:
获取单一文本的数量;
初始化若干个不同的字母;字母的数量与单一文本的数量相同;
利用字母分别对单一文本按照预先设置的格式进行标记。
在一些实施方式中,神经网络模型为CNN、AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、UNet、SRCNN以及BiLSTM-CRF中的任意一种。
第二方面,本发明实施例提供了一种文本纠错的方法,该方法包括:
获取待识别的文本;
将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;文本关键词提取模型通过第一方面中任一可能的实施方式中提到的用于文本关键词提取的模型训练方法训练得到;
将文本关键词提取的结果与预先设置的标准文件进行比对,如果文本关键词提取的结果与标准文件不一致,则将文本中的关键词修改为标准文件中对应的关键词。
第三方面,本发明实施例提供了一种用于文本关键词提取的模型训练装置,该装置包括:
样本获取模块,用于根据预先设置的关键词,获取包含关键词的样本文本;
格式化模块,用于对样本文本进行格式化操作;
模型训练模块,用于将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练;
模型获取模块,用于当预设的初始神经网络模型中的输出结果满足预设的期望阈值时停止模型的训练,得到用于文本关键词提取的模型。
第四方面,本发明实施例提供了一种文本纠错的装置,该装置包括:
待识别文本获取模块,用于获取待识别的文本;
待识别文本关键词获取模块,用于将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;文本关键词提取模型通过第一方面中任一项提到的用于文本关键词提取的模型训练方法训练得到;
文本纠错模块,用于将文本关键词提取的结果与预先设置的标准文件进行比对,如果文本关键词提取的结果与标准文件不一致,则将文本中的关键词修改为标准文件中对应的关键词。
第五方面,本发明实施例提供了一种电子设备,该电子设备包括:处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如第一方面和第二方面提供的方法。
本发明实施例带来了以下有益效果:本发明实施例提供了一种文本纠错方法及其模型训练的方法、装置,在对用于文本关键词提取的模型训练方法中,首先根据预先设置的关键词,获取包含关键词的样本文本;然后对样本文本进行格式化操作;将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练;当预设的初始神经网络模型中的输出结果满足预设的期望阈值时,得到用于文本关键词提取的模型。当训练完成的文本关键词提取模型进行文本纠错的过程中,首先获取待识别的文本;然后将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;最后将文本关键词提取的结果与预先设置的标准文件进行比对,如果文本关键词提取的结果与标准文件不一致,则将文本中的关键词修改为标准文件中对应的关键词。通过对神经网络模型进行训练得到文本关键词提取模型,实现了文本关键词的自动化提取与自动纠正,减少了人工操作的过程,有利于减少文本中出现的撰写错误。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用于文本关键词提取的模型训练方法的流程图;
图2为本发明实施例提供的用于文本关键词提取的模型训练方法中步骤S101的流程图;
图3为本发明实施例提供的用于文本关键词提取的模型训练方法中步骤S102的流程图;
图4为本发明实施例提供的用于文本关键词提取的模型训练方法中步骤S303的流程图;
图5为本发明实施例提供的用于文本关键词提取的模型训练方法中的样本数据格式化后的示意图;
图6为本发明实施例提供的用于文本关键词提取的模型架构图;
图7为本发明实施例提供的文本纠错的方法流程图;
图8为本发明实施例提供的用于文本关键词提取的模型训练装置的结构示意图;
图9为本发明实施例提供的文本纠错的装置的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
图标:
801-样本获取模块;802-格式化模块;803-模型训练模块;804-模型获取模块;901-待识别文本获取模块;902-待识别文本关键词获取模块;903-文本纠错模块;101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
互联网时代,用户获取信息的方式已从传统的纸质改变为现代的数字文字的方式,互联网时代的信息传播速度也比传统方式要快的多,因此对于新闻文稿等文字的排查过程尤为重要。一旦发生文字撰写错误导致歧义,被互联网传播后会引发难以预料的后果,严重时会对相关企业或个人带来名誉损失,甚至会引发大范围恐慌。
在一些互联网新闻中,一些常见的地名、人名、部门以及职位信息是相对固定的,一旦这些信息描述有误,带来的负面影响较大,因此需要对该类型的文本进行特殊的排查。现有技术中对于这类文本的排查主要是采用人工的方式,效率低下,且工作繁复,缺少一种能够实现自动纠错的技术手段。
可见,在当前互联网新闻文本的纠错效果以及耗费人力的方面还有提升空间。
考虑到现有文本纠错中存在的上述问题,本发明的目的在于提供一种文本纠错方法及其模型训练的方法、装置,该技术可以应用于文本纠错的过程中,可以采用相关的软件或硬件实现,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种用于文本关键词提取的模型训练方法进行详细介绍,该方法的流程图如图1所示,包括:
步骤S101,根据预先设置的关键词,获取包含关键词的样本文本。
预先设置的关键词可为相关人名、地名、或者敏感词汇等,根据这些关键词的信息来获取包含它们的样本文本。样本文本可通过网络进行获得,也可从其它纸质文档中通过扫描转化为数字文本而获取,对获得的样本数据中包含的文字进行遍历,判断是否包含预先设置的关键词。对包含关键词的这段文字或者这篇文章均可作为样本文本。
关键词的获取也可根据其本身含义进行上位,例如设置的关键词为某地的名称,那么获取的样本文本中可尽可能的包含各类地名;如果设置的关键词为某人,那么获取的样本文本中要尽可能的包含该人的名称,以及该人的部门、职位等其它文本对其进行描述。
样本文本的获取过程并不一定要包含关键词,而是包含于关键词相关联的一类词,具体的说关键词为某地的名称时,样本文本中尽可能的包含地名,但可以不包含该地。这类样本数据有助于样本数据的多样化,在模型训练的过程中有助于模型的性能提升。
步骤S102,对样本文本进行格式化操作。
格式化操作可理解为对获取的样本文本进行预处理,经过格式化操作后的样本文本具有统一的格式,对于模型训练而言至关重要。
格式化的标准可根据模型的需求进行,例如格式化时需要将关键词进行特殊标记,以此标记可迅速找到关键词所在的位置。具体的说,可将关键词前加入特殊符号,模型在训练的过程中通过寻找该符号即可迅速锁定关键词。
步骤S103,将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练。
该初始神经网络模型在样本文本输入之前已完成初始化,此时的神经网络模型状态可以是刚刚完成初始化过程,并未开始训练;也可以是已经训练中的状态。
样本文本输入至该神经网络模型后,通过相关运算改变模型的相关参数,以此提升模型的识别精度。例如,样本文本训练过程中对神经网络模型的惩罚因子进行优化,惩罚因子是表征误差的宽容度的参数,惩罚因子的数值越大,表明越不能容忍误差的出现,相对而言更容易出现过拟合的现象;反之,惩罚因子的数值越小,相对而言更容易出现欠拟合的现象。
还有一个参数对于神经网络模型中的训练至关重要,那就是径向基核函数参数,该参数决定了数据映射到新的特征空间后的分布,该数值越大,表明支持向量越少,更容易出现过拟合;该数值越小,表明支持向量越多,更容易出现欠拟合。
将样本文本输入至预设的神经网络模型中进行训练的过程中还包括模型其它参数的优化,在此不再赘述。
步骤S104,当预设的初始神经网络模型中的输出结果满足预设的期望阈值时,得到用于文本关键词提取的模型。
模型在训练中是对相关参数进行优化,在优化过程中可采用粒子群优化算法进一步对神经网络模型中的相关参数进行优化计算。粒子群优化算法也称为粒子群算法,可完成人工神经网络中的连接权值的训练、结构设计、学习规则调整、特征选择、连接权值的初始化和规则提取等。
模型在训练的过程中,样本文本输入至预设的神经网络模型中得到输出结果,对输出的结果进行判断从而确定该模型的性能是否达到要求。例如可根据损失函数的数值,来对模型的训练过程进行判定,当损失函数的数值达到预设的阈值时,则认为该模型的性能满足要求,即可停止模型的训练,得到用于文本关键词提取的模型。
在本发明实施例提到的用于文本关键词提取的模型训练方法中可见,对于样本文本进行格式化操作,并输入至预设的初始神经网络模型中进行训练,有利于提升关键词提取的效果。
在一些实施方式中,上述根据预先设置的关键词,获取样本文本的步骤S101,如图2所示,包括:
步骤S201,获取预先设置的关键词的内容。
该步骤获取关键词所表达的内容,用于获取关键词所表达的相关类别,例如关键词为某人的人名,可通过该人名获取其职位、部门、所在地等信息。
步骤S202,关键词的内容进行分类,得到关键词的分类结果。
由于关键词通常为多个,表达的类型也有多种,因此需要多该关键词的内容进行分类。具体的说,例如预先设置的关键词为人名-部门-职位-地点,包含了四个种类的关键词,因此将关键词分为上述四种类型。
步骤S203,根据关键词的分类结果,从预先获取的文本库中分别获取样本文本。
分类结果中如果包含多个类型,在选取网络文本的过程中可选取包含全部类型的文本,也可选择只包含一部分类型的文本。例如上述的人名-部门-职位-地点四个类型,在选取文本时可选取包含这四类关键词的文本,也可选择只包含其中三类、两类甚至只包含一类的文本作为样本文本。
样本文本选择的过程中从预先获取的文本库中获取,在一些实施方式中,文本库通过爬虫工具、扫描仪或者人工输入的方式进行预先获取的。
爬虫工具可将网络页面中的文本直接获取,是最简单快捷的一种文本获取途径;也可通过扫描仪对纸质文本进行扫描的方式进行获取;或者通过人工输入的方式得到样本文本。
在一些实施方式中,上述对样本文本进行格式化操作的步骤S102,如图3所示,包括:
步骤S301,遍历样本文本,获得关键词。
在获取样本文件后,对样本文件的文字进行遍历,获得关键词。该步骤可认为是对样本文本中的关键词进行读取的过程。
步骤S302,将关键词拆分为若干个单一文本。
获取的关键词后,将关键词进行拆分,分为单独的文字,用于后续的标记。
步骤S303,对拆分后的若干个单一文本分别进行标记。
如图4所示,在具体实施过程中,该步骤可包括:
步骤S401,获取单一文本的数量。
对拆分后的若干个单一文本数量进行统计,字数统计的实现过程再次不再赘述。
步骤S402,初始化若干个不同的字母;字母的数量与单一文本的数量相同。
该步骤中的字母可为单一的英文字母,也可以为不同字母的组合。
步骤S403,利用字母分别对单一文本按照预先设置的格式进行标记。
上述过程可将拆分后的文本进行格式化操作,例如对于人名-部门-职位-地点,在人名之前可加入字母A作为标记、部门关键词之前加入字母B作为标记、职位关键词之前加入字母C作为标记、地点关键词之前加入字母D作为标记。
在一些实施方式中,神经网络模型为CNN、AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、UNet、SRCNN以及BiLSTM-CRF中的任意一种。
以BiLSTM-CRF模型为例,对文本关键词提取模型的训练过程进行介绍。例如该模型是用于对文本中某公司高管的信息进行提取,提取的关键词为人名、部门、职位以及地点。
首先需要对模型训练过程中的环境进行搭建,模型训练过程优先使用GPU进行训练,训练时的开发语言优先使用python。
环境搭建完毕后开始收集训练数据,文本数据从该公司的涉及的各类新闻媒体网站中进行获取,收集包含该主管的各种文本段落,并对文本中出现的地名、部门以及职位进行标注。
具体实施过程中,每个实体名的第一个字在标注时使用字母“B”开头,后接实体简称,之后每个字以字母I开头,后接实体简称。例如对于关键词“副董事长”而言,“副”字标注上B-POS,“董事长”三个字均标注为I-POS,不是实体的字上面标注字母“O”。具体的,上述格式如图5所示。
准备好训练数据后,就进行biLSTM-CRF模型的搭建,如图6展示了模型的基本架构,模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(character embedding)d是embedding的维度。在输入下一层之前,设置dropout以缓解过拟合。模型的第二层是双向LSTM层,自动提取句子特征。将一个句子的各个字的char embedding序列(x1,x2,…,xn)作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(h1,h2,…,h)与反向LSTM的(h1`,h2`,…,h`)在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列:
在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵模型的第三层是CRF层,进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。
完成了模型搭建,便使用标记好的数据对模型进行训练,之后把训练好的模型持久化,用来对新数据的实体提取。
本发明实施例提供了一种文本纠错的方法,如图7所示,该方法包括:
步骤S701,获取待识别的文本。
带识别的文本的获取方式与模型训练过程中样本数据的获取方式类似,大多数场景下待识别的文本通过网络爬虫进行获取。
步骤S702,将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果。
文本关键词提取模型通过第一方面中任一可能的实施方式中提到的用于文本关键词提取的模型训练方法训练得到,其实现原理及产生的技术效果和前述用于文本关键词提取的模型训练方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
步骤S703,将文本关键词提取的结果与预先设置的标准文件进行比对,如果文本关键词提取的结果与标准文件不一致,则将文本中的关键词修改为标准文件中对应的关键词。
以上述实施例中用于对文本中某公司高管的信息进行提取的模型为例,该公司的高管信息按照人名、部门、职位以及地点四类信息进行分组,并将上述数据保存为独立的文件,用于同文本关键词提取的结果进行对比。例如,可将上述高管的信息保存为yaml文件,yaml是一种标记格式的语言(YAML Ain't Markup Language),可以简单表达清单、散列表,标量等资料形态。具体实施过程中,可将包含公司高管的信息的yaml文件加载到计算机内存中,文本关键词提取模型中输出文本关键词提取的结果直接与yaml文件中的高管信息进行比对,如果文本关键词提取的高管信息与yaml文件中的不一致,则将文本中的该高管对应的关键词修改为yaml文件中对应的正确关键词,从而实现了纠正过程。
对应于上述用于文本关键词提取的模型训练方法的实施例,本实施例还提供一种用于文本关键词提取的模型训练装置,如图8所示,该装置包括:
样本获取模块801,用于根据预先设置的关键词,获取包含关键词的样本文本;
格式化模块802,用于对样本文本进行格式化操作;
模型训练模块803,用于将已完成格式化操作的样本文本输入至预设的初始神经网络模型中进行训练;
模型获取模块804,用于当预设的初始神经网络模型中的输出结果满足预设的期望阈值时停止模型的训练,得到用于文本关键词提取的模型。
本发明实施例所提供的用于文本关键词提取的模型训练装置,其实现原理及产生的技术效果和前述用于文本关键词提取的模型训练方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
对应于上述文本纠错的方法的实施例,本实施例还提供一种文本纠错的装置,如图9所示,该装置包括:
待识别文本获取模块901,用于获取待识别的文本;
待识别文本关键词获取模块902,用于将待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;文本关键词提取模型通过第一方面中任一项提到的用于文本关键词提取的模型训练方法训练得到;
文本纠错模块903,用于将文本关键词提取的结果与预先设置的标准文件进行比对,如果文本关键词提取的结果与标准文件不一致,则将文本中的关键词修改为标准文件中对应的关键词。
本发明实施例所提供的一种文本纠错的装置,其实现原理及产生的技术效果和前述文本纠错的方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图10所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述用于文本关键词提取的模型训练方法以及文本纠错的方法。
图10所示的电子设备还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于文本关键词提取的模型训练方法,其特征在于,所述方法包括:
根据预先设置的关键词,获取包含所述关键词的样本文本;
对所述样本文本进行格式化操作;
将已完成格式化操作的所述样本文本输入至预设的初始神经网络模型中进行训练;
当所述预设的初始神经网络模型中的输出结果满足预设的期望阈值时,得到用于文本关键词提取的模型。
2.根据权利要求1所述的模型训练方法,其特征在于,根据预先设置的关键词,获取样本文本的步骤,包括:
获取预先设置的关键词的内容;
所述关键词的内容进行分类,得到所述关键词的分类结果;
根据所述关键词的分类结果,从预先获取的文本库中分别获取样本文本。
3.根据权利要求2所述的模型训练方法,其特征在于,所述文本库通过爬虫工具、扫描仪或者人工输入的方式进行预先获取的。
4.根据权利要求1所述的模型训练方法,其特征在于,对所述样本文本进行格式化操作的步骤,包括:
遍历样本文本,获得所述关键词;
将所述关键词拆分为若干个单一文本;
对拆分后的所述若干个单一文本分别进行标记。
5.根据权利要求4所述的模型训练方法,其特征在于,对拆分后的所述若干个单一文本分别进行标记的步骤,包括:
获取所述单一文本的数量;
初始化若干个不同的字母;所述字母的数量与所述单一文本的数量相同;
利用所述字母分别对所述单一文本按照预先设置的格式进行标记。
6.根据权利要求1所述的模型训练方法,其特征在于,所述神经网络模型为CNN、AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、UNet、SRCNN以及BiLSTM-CRF中的任意一种。
7.一种文本纠错的方法,其特征在于,所述方法包括:
获取待识别的文本;
将所述待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;所述文本关键词提取模型通过权利要求1-6任一项所述的用于文本关键词提取的模型训练方法训练得到;
将所述文本关键词提取的结果与预先设置的标准文件进行比对,如果所述文本关键词提取的结果与所述标准文件不一致,则将所述文本中的关键词修改为所述标准文件中对应的关键词。
8.一种用于文本关键词提取的模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于根据预先设置的关键词,获取包含所述关键词的样本文本;
格式化模块,用于对所述样本文本进行格式化操作;
模型训练模块,用于将已完成格式化操作的所述样本文本输入至预设的初始神经网络模型中进行训练;
模型获取模块,用于当所述预设的初始神经网络模型中的输出结果满足预设的期望阈值时停止所述模型的训练,得到所述用于文本关键词提取的模型。
9.一种文本纠错的装置,其特征在于,所述装置包括:
待识别文本获取模块,用于获取待识别的文本;
待识别文本关键词获取模块,用于将所述待识别的文本输入至预先完成训练的文本关键词提取模型中,输出文本关键词提取的结果;所述文本关键词提取模型通过权利要求1-6任一项所述的用于文本关键词提取的模型训练方法训练得到;
文本纠错模块,用于将所述文本关键词提取的结果与预先设置的标准文件进行比对,如果所述文本关键词提取的结果与所述标准文件不一致,则将所述文本中的关键词修改为所述标准文件中对应的关键词。
10.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080169.8A CN111310473A (zh) | 2020-02-04 | 2020-02-04 | 文本纠错方法及其模型训练的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080169.8A CN111310473A (zh) | 2020-02-04 | 2020-02-04 | 文本纠错方法及其模型训练的方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111310473A true CN111310473A (zh) | 2020-06-19 |
Family
ID=71148950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010080169.8A Pending CN111310473A (zh) | 2020-02-04 | 2020-02-04 | 文本纠错方法及其模型训练的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310473A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897535A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 语法纠错方法、装置、计算机系统及可读存储介质 |
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268157A (zh) * | 2014-09-03 | 2015-01-07 | 乐视网信息技术(北京)股份有限公司 | 一种数据搜索中的纠错装置及其方法 |
CN108664471A (zh) * | 2018-05-07 | 2018-10-16 | 平安普惠企业管理有限公司 | 文字识别纠错方法、装置、设备及计算机可读存储介质 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110020424A (zh) * | 2019-01-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 合同信息的提取方法、装置和文本信息的提取方法 |
CN110728139A (zh) * | 2018-06-27 | 2020-01-24 | 鼎复数据科技(北京)有限公司 | 关键信息提取模型及其构建方法 |
-
2020
- 2020-02-04 CN CN202010080169.8A patent/CN111310473A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268157A (zh) * | 2014-09-03 | 2015-01-07 | 乐视网信息技术(北京)股份有限公司 | 一种数据搜索中的纠错装置及其方法 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN108664471A (zh) * | 2018-05-07 | 2018-10-16 | 平安普惠企业管理有限公司 | 文字识别纠错方法、装置、设备及计算机可读存储介质 |
CN110728139A (zh) * | 2018-06-27 | 2020-01-24 | 鼎复数据科技(北京)有限公司 | 关键信息提取模型及其构建方法 |
CN110020424A (zh) * | 2019-01-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 合同信息的提取方法、装置和文本信息的提取方法 |
Non-Patent Citations (1)
Title |
---|
冯敏萱: "《汉英平行语料库的平行处理》", pages: 40 - 41 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897535A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 语法纠错方法、装置、计算机系统及可读存储介质 |
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874776B (zh) | 一种垃圾文本的识别方法及装置 | |
CN110909122B (zh) | 一种信息处理方法及相关设备 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US20120278705A1 (en) | System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112036184A (zh) | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 | |
CN111460149A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
CN111310473A (zh) | 文本纠错方法及其模型训练的方法、装置 | |
CN110287286B (zh) | 短文本相似度的确定方法、装置及存储介质 | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及系统 | |
CN117668180A (zh) | 文档问答方法、文档问答设备以及可读存储介质 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
CN107862045B (zh) | 一种基于多特征的跨语言剽窃检测方法 | |
CN113609840A (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN109902309B (zh) | 翻译方法、装置、设备和存储介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Stutzmann et al. | Handwritten text recognition, keyword indexing, and plain text search in medieval manuscripts | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |