CN111444706A - 一种基于深度学习的裁判文书文本纠错方法及系统 - Google Patents
一种基于深度学习的裁判文书文本纠错方法及系统 Download PDFInfo
- Publication number
- CN111444706A CN111444706A CN202010542635.XA CN202010542635A CN111444706A CN 111444706 A CN111444706 A CN 111444706A CN 202010542635 A CN202010542635 A CN 202010542635A CN 111444706 A CN111444706 A CN 111444706A
- Authority
- CN
- China
- Prior art keywords
- text
- referee document
- error correction
- error
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 120
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果;根据关联词条处理文本错误检测结果得到纠错候选集;根据命名实体检测结果和纠错候选集进行纠错。本发明还公开了一种基于深度学习的裁判文书文本纠错系统。本发明对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。
Description
技术领域
本发明涉及自然语言文本处理技术,具体涉及一种基于深度学习的裁判文书文本纠错方法及系统。
背景技术
随着行业信息化建设的不断深入,大部分法院裁判文书都使用电子编辑,编辑过程中很容易造成文本编辑错误,包括但不限于:1、拼音拼写错误。2、字形相似导致错误。3、输入法提示导致错误。4、专业名次使用错误。5、多字错误。6、少字错误等常见错误类型。目前还没有专门针对裁判文书的文本纠错方法。目前其他领域文本纠错的主流方法均采用构建拼音音节、构建专业词典然后采用模糊匹配的方法纠错。这容易造成两个方面的问题,一是由于词典集太小,容易造成大部分错误不能准确找出,只能进行特定纠错;二是容易造成过度纠错,把本身正确的文本改成了错误的文本,这是由两方面造成的:1、模糊匹配,大量找到出的应该纠正的文本本身不存在错误。2、词典过大,包含的词太多,很容易命中原本没有错误的文本。
发明内容
本发明所要解决的技术问题是现有的法院裁判文书纠错技术中存在错误纠错不全或过度纠错,目的在于提供一种基于深度学习的裁判文书文本纠错方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;S4:根据命名实体检测结果和纠错候选集进行纠错。
本发明应用时,首先创造性的将裁判文书文本的错误分成了命名实体错误和文本错误(其他语言文字的错误)两类,这样可以有效降低过度纠错。对于命名实体错误,由于命名实体往往都是准确的可以确定的词汇,一般不存在同义词,所以检测后可以直接纠错,纠错可以通过自动纠错或提示人工进行纠错。对于文本错误,本发明采用错误检测模型的方式纠错,文本错误检测结果中的数据实际为存在错误的数据点,采用关联词条来生成纠错候选集的方式可以得到一批用于替换文本错误检测结果中的数据的词条,最终利用这些词条对可能存在错误的点纠错,可以提高纠错准确率和提高纠错效率。本发明对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。
进一步的,步骤S2包括以下子步骤:S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;S23:采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。
进一步的,步骤S3包括以下子步骤:按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练,得到文本错误模型。
进一步的,步骤S3还包括以下子步骤:根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
进一步的,步骤S4包括以下子步骤:提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
一种基于深度学习的裁判文书文本纠错系统,包括:
错误检测单元:用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
错误检测单元进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
错误检测单元进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
纠错单元:用于根据命名实体检测结果和纠错候选集进行纠错。
进一步的,错误检测单元定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。
进一步的,错误检测单元按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练得到文本错误模型。
进一步的,错误检测单元根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
进一步的,纠错单元提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于深度学习的裁判文书文本纠错方法及系统专门针对裁判文书进行文本纠错,能有效减少法官裁判文书撰写中的文本错误及上下文不一致等问题;
2、本发明一种基于深度学习的裁判文书文本纠错方法及系统根据已有的裁判文书得到的专业裁判文书词典;
3、本发明一种基于深度学习的裁判文书文本纠错方法及系统对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致;
4、本发明一种基于深度学习的裁判文书文本纠错方法及系统利用深度学习模型进行错误检测,提升检测准确率,一定程度上的避免了传统方法中过纠错和纠错不足的问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于深度学习的裁判文书文本纠错方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;S4:根据命名实体检测结果和纠错候选集进行纠错。
本实施例实施时,首先创造性的将裁判文书文本的错误分成了命名实体的错误和文本错误(其他的语言文字的错误)两类,这样可以有效降低过度纠错。对于命名实体错误,由于命名实体往往都是准确的可以确定的词汇,一般不存在同义词,所以检测后可以直接纠错,纠错可以通过自动纠错或提示人工纠错。而于文本错误,本发明采用错误检测模型的方式纠错,文本错误检测结果中的数据实际为存在错误的数据点,而采用关联词条生成纠错候选集的方式可以得到一批用于替换文本错误检测结果中的数据的词条,最终利用这些词条对可能存在错误的点纠错,可以提高纠错准确率和纠错效率。本发明对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。
为了进一步的说明本实施例的工作过程,步骤S2包括以下子步骤:S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;S23:采用实体识别模型对述裁判文书文本进行命名实体检测得到命名实体检测结果。
为了进一步的说明本实施例的工作过程,步骤S3包括以下子步骤:按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练得到文本错误模型。
为了进一步的说明本实施例的工作过程,步骤S3还包括以下子步骤:根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
为了进一步的说明本实施例的工作过程,步骤S4包括以下子步骤:提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
一种基于深度学习的裁判文书文本纠错系统,包括:
错误检测单元:用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
错误检测单元进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
错误检测单元进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
纠错单元:用于根据命名实体检测结果和纠错候选集进行纠错。
为了进一步的说明本实施例的工作过程,错误检测单元定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。
为了进一步的说明本实施例的工作过程,错误检测单元按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练得到文本错误模型。
为了进一步的说明本实施例的工作过程,错误检测单元根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
为了进一步的说明本实施例的工作过程,纠错单元提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
为了进一步的说明本实施例的工作过程,以详细例子进行说明:
本实施例主要包含这几部分的内容:1、命名实体识别,即利用实体识别算法识别文本中的专有名词。2、错误检测,即先定位一句话中哪些文本可能是错误的,利用序列标注算法识别。3、候选召回,根据形近字、音近字及上下文词条的文本召回。4、纠错排序,分为专有名词纠错和对第3部分中候选召回的排序纠错。本实施例的具体方案如下所述:
命名实体识别。本发明采用的实体识别模型NER(Named entity recognition)的模型基本机构为LSTM+CRF。首先定义专有名词:姓名,地名,机构名,法规法条;然后标注裁判文书数据中的专有名词得到裁判文书训练样本集,利用裁判文书训练样本集训练基于NER的实体识别模型;最后加载模型形成实体识别服务以供对新的裁判文书进行命名实体检测。
错误检测。错误检测模型TEDJD(Text error detection of judgmentinstrument)采用基本结构基于BERT+CRF的序列标注模型,检测裁判文书中的每句话,定位可能出错的文本信息。首先按句号分割裁判文书,分割后的句子数据做为标注的数据源,随机挑选句子中的词语进行替换(替换方式有:随机替换、同音字替换、形似字替换等方式),标记替换的内容。利用这些数据训练TEDJD模,加载训练后的模型形成错误检测的服务,以供对新的裁判文书进行文本错误检测。
候选召回。首先基于3000万裁判文书建立词表作为纠错词典,同时根据裁判文书中上下文词条共现频率(共同出现的频率)建立关联词条。然后根据错误检测中检测出的错误点,结合错误点所在句子的上下文关联词条,通过字音、字形给出当前错误点对应的纠错候选集。
纠错排序。分为两部分纠错,第一部分为命名实体纠错,在裁判文书中可能存在人名、地名或者机构名等命名实体前后不一致的情况,因此利用命名实体识别服务识别裁判文书全文的命名实体,然后利用编辑距离(Levenshtein Distance)算法找到同类命名实体中编辑距离小于某个值(不同类型的实体,设置的值不同,是因为不同类型的实体文本长度是不一样的)的实体列为可能存在文本出错的实体,提示法官确认是否修改。例如:从裁判文书全文中识别的人名实体有:张文龙,张纹龙,张某某;设置人名实体的编辑距离为1,通过编辑距离算法的计算,“张文龙”和“张纹龙”的编辑距离为1,所以就会把“张文龙”和“张纹龙”列为可能存在文本错误的实体并提示法官确认是否存在文本错误。第二部分为对错误检测和候选召回得到的候选集排序纠错。首先利用3000万的裁判文书训练适用于裁判文书的语言模型LMJD(The language model of judgment documents),模型的基本结构是基于bert优化的语言模型;然后利用训练好的语言模型对候选集评分,取评分最高的为纠错后的文本。
为了进一步的说明本实施例的工作过程,在本实施例中,需要纠错的文本为:“范某多次对其棋子赵某进行殴打”,这句话中的“棋子”通过错误检测定位到这个词是错误的,然后利用纠错词典和模型确定的候选召回集为:[妻子,旗帜,气质,取值,期指],然后通过纠错排序得到“妻子”的概率最大,所以将原文本纠错为“范某多次对其妻子赵某进行殴打”。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的裁判文书文本纠错方法,其特征在于,包括以下步骤:
S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
S4:根据命名实体检测结果和纠错候选集进行纠错。
2.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S2包括以下子步骤:
S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;
S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;
S23:采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。
3.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3包括以下子步骤:
按照句号分割裁判文书得到数据源;
替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;
标记替换内容得到替换数据源,利用替换数据源为样本训练;得到文本错误模型。
4.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3还包括以下子步骤:
根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
5.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S4包括以下子步骤:
提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;
利用裁判文书样本集训练适用于裁判文书的语言模型;
利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
6.一种基于深度学习的裁判文书文本纠错系统,其特征在于,包括:
错误检测单元:用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
错误检测单元进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
错误检测单元进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
纠错单元:用于根据命名实体检测结果和纠错候选集进行纠错。
7.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;
错误检测单元标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;
错误检测单元采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。
8.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元按照句号分割裁判文书得到数据源;
错误检测单元替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;
错误检测单元标记替换内容得到替换数据源,利用替换数据源为样本训练,得到文本错误模型。
9.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
10.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,纠错单元提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;
利用裁判文书样本集训练适用于裁判文书的语言模型;
利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542635.XA CN111444706A (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542635.XA CN111444706A (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444706A true CN111444706A (zh) | 2020-07-24 |
Family
ID=71652228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010542635.XA Pending CN111444706A (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的裁判文书文本纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444706A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN112949291A (zh) * | 2021-03-02 | 2021-06-11 | 赛飞特工程技术集团有限公司 | 报告纠错系统和方法 |
CN112989805A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN116502634A (zh) * | 2023-04-14 | 2023-07-28 | 永中软件股份有限公司 | 一种基于人工智能的专有名词校对方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN109800426A (zh) * | 2018-12-26 | 2019-05-24 | 上海创至计算机科技股份有限公司 | 一种裁判文书纠错装置以及方法 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
US20190379883A1 (en) * | 2016-12-29 | 2019-12-12 | Zhejiang Gongshang University | Stereoscopic video generation method based on 3d convolution neural network |
CN110826322A (zh) * | 2019-10-22 | 2020-02-21 | 中电科大数据研究院有限公司 | 一种新词发现和词性预测及标注的方法 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
-
2020
- 2020-06-15 CN CN202010542635.XA patent/CN111444706A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190379883A1 (en) * | 2016-12-29 | 2019-12-12 | Zhejiang Gongshang University | Stereoscopic video generation method based on 3d convolution neural network |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN109800426A (zh) * | 2018-12-26 | 2019-05-24 | 上海创至计算机科技股份有限公司 | 一种裁判文书纠错装置以及方法 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110826322A (zh) * | 2019-10-22 | 2020-02-21 | 中电科大数据研究院有限公司 | 一种新词发现和词性预测及标注的方法 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112528663B (zh) * | 2020-12-18 | 2024-02-20 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN112949291A (zh) * | 2021-03-02 | 2021-06-11 | 赛飞特工程技术集团有限公司 | 报告纠错系统和方法 |
CN112989805A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN116502634A (zh) * | 2023-04-14 | 2023-07-28 | 永中软件股份有限公司 | 一种基于人工智能的专有名词校对方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444706A (zh) | 一种基于深度学习的裁判文书文本纠错方法及系统 | |
CN109800414B (zh) | 语病修正推荐方法及系统 | |
CN110276077A (zh) | 中文纠错的方法、装置及设备 | |
JP5847871B2 (ja) | 誤打校正システム及び誤打校正方法 | |
Bollmann et al. | Rule-based normalization of historical texts | |
CN109858023B (zh) | 一种语句纠错装置 | |
CN113435186B (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
JPH07325828A (ja) | 文法チェックシステム | |
CN111488466B (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
Layton et al. | Recentred local profiles for authorship attribution | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
US20070288240A1 (en) | User interface for text-to-phone conversion and method for correcting the same | |
CN109086266B (zh) | 一种文本形近字的检错与校对方法 | |
CN109614623B (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN112447172B (zh) | 一种语音识别文本的质量提升方法和装置 | |
Kashefi et al. | A novel string distance metric for ranking Persian respelling suggestions | |
Rayson et al. | Automatic error tagging of spelling mistakes in learner corpora | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
WO2021258739A1 (zh) | 一种字词重复错误的自动识别方法 | |
CN105511636B (zh) | 改进的全部汉字汉词简易无重码统一输入法 | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
Mohapatra et al. | Spell checker for OCR | |
Tongtep et al. | Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction | |
CN112668328A (zh) | 媒体智能校对算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |
|
RJ01 | Rejection of invention patent application after publication |