CN109522558A - 一种基于深度学习的中文错字校正方法 - Google Patents
一种基于深度学习的中文错字校正方法 Download PDFInfo
- Publication number
- CN109522558A CN109522558A CN201811389401.5A CN201811389401A CN109522558A CN 109522558 A CN109522558 A CN 109522558A CN 201811389401 A CN201811389401 A CN 201811389401A CN 109522558 A CN109522558 A CN 109522558A
- Authority
- CN
- China
- Prior art keywords
- word
- participle
- bilstm
- deep learning
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于深度学习的中文错字校正方法,包括:S1、利用BiLSTM+Attention+CRF模型进行词语分词;S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。本发明实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
Description
技术领域
本发明涉及文本处理技术领域,特别是一种基于深度学习的中文错字校正方法。
背景技术
目前针对中文的文字错误校正,通常使用传统的分词方法,对需要校正的文本进行分词出,然后根据分词的结果与已有的词库进行匹配,如果未匹配到则有可能是错字,或者是匹配不完全,则证明也是有错字。
传统的中文文本校正方法,在分词的时候未考虑到中文词语前后文之间的关系,对于分词库的质量有着很高的要求。例如“结婚的和尚未结婚的”,在传统的分词中会分成以下的结果“结婚的”“和尚”“未结婚的”。这就对整个的句子含义有了错误的理解,所以在分词的时候应该需要考虑上下文之间的关联性。同时在错字校正的时候,传统的方法仅仅是看匹配度,也没有注意上下文的关联性。因此传统的文字校正方法,对于中文错别字校正的效果比较差。
另外,传统的文字校正方法也没有很好的利用上下文信息进行识别。在识别错误的字,传统的操作是计算词与已有的词库的编辑距离等,然后通过人为的设置阈值,当到达阈值以后,则认为词语中有错误,然后利用距离最短的词语进行替换,这种操作方式没有考虑中文词语上下文之间的关联性,检查错误和纠正错误的效果比较差。
发明内容
本发明的目的是提供一种基于深度学习的中文错字校正方法,旨在解决现有技术中分词不准确以及错别字识别不准确的问题,实现提升错别字校正的准确率,并提高错别字校正效果。
为达到上述技术目的,本发明提供了一种基于深度学习的中文错字校正方法,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
优选地,所述步骤S1具体操作为:
S11、对需要分词的语句进行编码操作;
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;
S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;
S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
优选地,所述编码为One-Hot编码。
优选地,所述步骤S2具体为:
对分词出来的结果组成词向量,然后通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。
优选地,所述编辑距离的大小与词之间的相似度为正相关。
优选地,所述步骤S3具体操作为:
S31、对输入的中文根据字库进行编码操作;
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取;
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量;
S34、根据得到的概率输出最终的预测结果。
优选地,所述编码使用One-Hot编码格式。
优选地,所述信息提取包括通过右向的神经网络获取文字的正向的特征信息以及通过逆向的神经网络提取文本中的逆向的关联信息。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过利用BiLSTM+Attention+CRF模型进行分词,并将分词结果利用预置的词库进行匹配,识别词语中的错别字,利用编辑距离的大小来对词语进行校正,最后通过BiLSTM+Attention机制的语言模型对输入序列进行处理,结合上下文之间的关系,识别错误的词语,并通过给用户提示来完成文本的校正处理,实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
附图说明
图1为本发明实施例中所提供的一种基于深度学习的中文错字校正方法流程图;
图2为本发明实施例中所提供的一种利用BiLSTM+Attention+CRF模型进行分词的流程图;
图3为本发明实施例中所提供的一种利用BiLSTM+Attention机制对输入序列处理流程图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于深度学习的中文错字校正方法进行详细说明。
如图1所示,本发明实施例公开了一种基于深度学习的中文错字校正方法,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
BiLSTM+Attention+CRF模型将分词的操作定义为单个中文字符的分类问题,分词的类别分别是:词首用B表示,词中用M表示,词尾用E表示,单字词用S表示。在分词的过程中为了充分的使用整句话的前面和未来的特征,我们使用BiLSTM网络分别提取前向和后向的字符特征信息,然后整合在一起输入到CRF模型中进行分类概率的校正,如图2所示,其具体操作如下:
S11、对需要分词的语句进行编码操作,在本发明实施例中利用One-Hot编码将中文的每个字按照字典库中的顺序进行编码。
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列。
S13、将得到的特征序列,输入到BiLSTM神经网络中,其中r表示正向的LSTM序列,1表示反向的LSTM序列,得到预测的分词结果集合。使用双向的LSTM序列是为了充分的使用整句话的以前和未来的特征信息,然后将两个方向编码结果进行整合,输出预测的向量。在中文分词中只需预测四种情况,分别是B(词开始字)、M(词中间字)、E(词结束字)以及S(单个字),每个输出是一个4维的向量,分别代表是当前字属于每个类别的可能性。
S14、利用Attention模型,对分词影响比较重要的字设置比较高的权重,将对分词影响比较低的字设置为比较低的权重,然后经过计算得到预测分类的概率向量。
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
CRF算法的所用是利用上下文的关联关系对BiLSTM的结果进行校正,CRF的校正原理是利用二维的向量,分别代表的是B/M/E/S这几个类别后面出现的类别的概率,例如B后面不可能出现S,则P(S|B)=0。通过校正后得到最终的分词结果,例如图2中在BiLSTM可能会出现,“北”后面的“京”字预测成B,但是CRF中P(B|B)=0,所以需要进行校正,最终预测的结果时“京”应该是M。
在分词后,对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正。
对分词出来的结果组成词向量,然后通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,编辑距离越小代表词之间的相似度越高,即编辑距离的大小与词之间的相似度为正相关,将校正后的结果更新到原有的词向量中,生成新的词向量。
最后,利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语,如图3所示。
利用BiLSTM+Attention机制实现对错误词语的识别主要是利用BiLSTM对输入的文本进行分析。例如当输入一段文字后,模型会对每个字所在位置可能出现的字进行预测,例如可以根据输入的第一个字,预测下一个字出现的概率,预测的方式是利用BiLSTM+Attention模型,结合整段文字的上下文之间的关系,确定当前位置可能出现的字,然后根据预测的字与现有的字进行比较,如果有不同的地方,则表示该位置可能是错误的字,然后给用户提示。具体操作如下:
S31、对输入的中文根据字符库进行编码操作,编码的方式使用One-Hot编码格式。
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取,图3中的R代表的是右向的神经网络,能够获取文字的正向的特征信息;L代表逆向的神经网络,能够提取文本中的逆向的关联信息。
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量。
S34、根据得到的概率输出最终的预测结果,如果预测的结果与真实的结果不符合,则给出一定的提示,同时将预测的记过向用户展示,为其提供相对应的修改建议。
本发明实施例通过利用BiLSTM+Attention+CRF模型进行分词,并将分词结果利用预置的词库进行匹配,识别词语中的错别字,利用编辑距离的大小来对词语进行校正,最后通过BiLSTM+Attention机制的语言模型对输入序列进行处理,结合上下文之间的关系,识别错误的词语,并通过给用户提示来完成文本的校正处理,实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度学习的中文错字校正方法,其特征在于,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
2.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S1具体操作为:
S11、对需要分词的语句进行编码操作;
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;
S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;
S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
3.根据权利要求2所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编码为One-Hot编码。
4.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S2具体为:
对分词出来的结果组成词向量,通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。
5.根据权利要求4所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编辑距离的大小与词之间的相似度为正相关。
6.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S3具体操作为:
S31、对输入的中文根据字库进行编码操作;
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取;
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量;
S34、根据得到的概率输出最终的预测结果。
7.根据权利要求6所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编码使用One-Hot编码格式。
8.根据权利要求6或7所述的一种基于深度学习的中文错字校正方法,其特征在于,所述信息提取包括通过右向的神经网络获取文字的正向的特征信息以及通过逆向的神经网络提取文本中的逆向的关联信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811389401.5A CN109522558B (zh) | 2018-11-21 | 2018-11-21 | 一种基于深度学习的中文错字校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811389401.5A CN109522558B (zh) | 2018-11-21 | 2018-11-21 | 一种基于深度学习的中文错字校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522558A true CN109522558A (zh) | 2019-03-26 |
CN109522558B CN109522558B (zh) | 2024-01-12 |
Family
ID=65776579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811389401.5A Active CN109522558B (zh) | 2018-11-21 | 2018-11-21 | 一种基于深度学习的中文错字校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522558B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110516231A (zh) * | 2019-07-12 | 2019-11-29 | 北京邮电大学 | 基于注意力机制的膨胀卷积实体名识别方法 |
CN110516125A (zh) * | 2019-08-28 | 2019-11-29 | 拉扎斯网络科技(上海)有限公司 | 识别异常字符串的方法、装置、设备及可读存储介质 |
CN110532522A (zh) * | 2019-08-22 | 2019-12-03 | 深圳追一科技有限公司 | 音频标注的检错方法、装置、计算机设备和存储介质 |
CN112380839A (zh) * | 2020-11-13 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 一种错别字检测方法、装置及设备 |
CN113836912A (zh) * | 2021-09-08 | 2021-12-24 | 上海蜜度信息技术有限公司 | 语言模型和词库校正的序列标注分词方法、系统及装置 |
CN115364331A (zh) * | 2022-10-24 | 2022-11-22 | 西南医科大学附属医院 | 空间广度训练测试系统及运行方法 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
TWI837596B (zh) * | 2022-02-24 | 2024-04-01 | 宏碁股份有限公司 | 中文相似音別字校正方法及系統 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN107679036A (zh) * | 2017-10-12 | 2018-02-09 | 南京网数信息科技有限公司 | 一种错别字监测方法及系统 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
-
2018
- 2018-11-21 CN CN201811389401.5A patent/CN109522558B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN107679036A (zh) * | 2017-10-12 | 2018-02-09 | 南京网数信息科技有限公司 | 一种错别字监测方法及系统 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110046350B (zh) * | 2019-04-12 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110516231A (zh) * | 2019-07-12 | 2019-11-29 | 北京邮电大学 | 基于注意力机制的膨胀卷积实体名识别方法 |
CN110532522A (zh) * | 2019-08-22 | 2019-12-03 | 深圳追一科技有限公司 | 音频标注的检错方法、装置、计算机设备和存储介质 |
CN110516125A (zh) * | 2019-08-28 | 2019-11-29 | 拉扎斯网络科技(上海)有限公司 | 识别异常字符串的方法、装置、设备及可读存储介质 |
CN110516125B (zh) * | 2019-08-28 | 2020-05-08 | 拉扎斯网络科技(上海)有限公司 | 识别异常字符串的方法、装置、设备及可读存储介质 |
CN112380839A (zh) * | 2020-11-13 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 一种错别字检测方法、装置及设备 |
CN113836912A (zh) * | 2021-09-08 | 2021-12-24 | 上海蜜度信息技术有限公司 | 语言模型和词库校正的序列标注分词方法、系统及装置 |
TWI837596B (zh) * | 2022-02-24 | 2024-04-01 | 宏碁股份有限公司 | 中文相似音別字校正方法及系統 |
CN115364331A (zh) * | 2022-10-24 | 2022-11-22 | 西南医科大学附属医院 | 空间广度训练测试系统及运行方法 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
CN117743506B (zh) * | 2023-09-04 | 2024-05-28 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109522558B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522558A (zh) | 一种基于深度学习的中文错字校正方法 | |
US11922318B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
CN111046946B (zh) | 基于crnn的缅甸语图像文本识别方法 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN110490081B (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN113901797B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN107004140B (zh) | 文本识别方法和计算机程序产品 | |
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN110705262B (zh) | 一种改进的应用于医技检查报告的智能纠错方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110705217B (zh) | 一种错别字检测方法、装置及计算机存储介质、电子设备 | |
CN111339779A (zh) | 一种用于越南语的命名实体识别方法 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
Hashmi et al. | Feedback learning: Automating the process of correcting and completing the extracted information | |
CN110889274B (zh) | 信息质量评估方法、装置、设备及计算机可读存储介质 | |
CN114912418A (zh) | 一种基于多元语义特征和掩码策略的文本纠错方法和系统 | |
KR102468975B1 (ko) | 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치 | |
CN114818713B (zh) | 一种基于边界检测的中文命名实体识别方法 | |
CN113762160B (zh) | 一种日期提取方法、装置、计算机设备及存储介质 | |
CN113011149B (zh) | 一种文本纠错方法及系统 | |
CN110472243B (zh) | 一种中文拼写检查方法 | |
CN111797612A (zh) | 一种自动化数据功能项抽取的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |