CN106776501A - 一种文本错别字自动更正方法和服务器 - Google Patents
一种文本错别字自动更正方法和服务器 Download PDFInfo
- Publication number
- CN106776501A CN106776501A CN201611142654.3A CN201611142654A CN106776501A CN 106776501 A CN106776501 A CN 106776501A CN 201611142654 A CN201611142654 A CN 201611142654A CN 106776501 A CN106776501 A CN 106776501A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- character
- wrong word
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练纠正模型,学习错别字的特征。本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正,它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字,大大提高了错别字的纠正效率。
Description
技术领域
本发明涉及一种数据更正方法领域,更具体的,涉及一种文本错别字自动更正方法和服务器。
背景技术
文本校对过程中主要技术就是纠正错别字。通常情况下,文本校对过程基本上采用2种方法(人工检查校对和基于错别字词典的校对),其中最主要的是错别字词典校对,通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此发明通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典,再利用评分模型对相应的词进行打分,最后根据打分从词典中选取正确的字。
从错别字的本意上来看,错别字之所以错是因为错别字出现的位置使得句子语义错误、句子的语法以及词性发生变化。传统的错别字纠正方法都是以词作为分析单元,这在某些情况下是可行的,如:“百度”和“百渡”;但在某些基于语义下是不行的,如:“我是各国人”和“我是中国人”。因此,传统的错别字纠正方法有如下不足:
1.建立错别词和正确词配对词典成本非常高。
2.当出现了词典以外的错别字时,系统将无法识别和纠正,这使得系统性能比较局限。
3.系统没有考虑词的词性,词的上下文信息,句法和语义,因此会出现纠正后的词不符合语法和语义,或者有不符合语义与句法的词无法被识别。对于一些同音词,如“百度”和“摆渡”,当出现这样的错别词语时,系统是无法识别和纠正的。
4.当一些句子出现长短错误,系统是无法进行纠正的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的目的在于,提供一种文本错别字自动更正方法和服务器,通过设计一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时,本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。
为实现上述目的,本发明提供一种文本错别字自动更正方法,其特征在于,包括:
步骤1,对需要校对的文本进行预处理;
步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
步骤3,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
优选的,所述步骤5还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。
优选的,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。
优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。
优选的,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。
优选的,所述字符特征信息为词性、语法、语义中的一种或几种。
本发明另一方面还提供一种文本错别字自动更正服务器,包括:
预处理模块,用于对需要校对的文本进行预处理;
向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
识别模块,用于采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
发送模块,用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
优选的,所述服务器还用于:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。
优选的,所述预处理模块还用于去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。
优选的,在所述服务器还包括:数据库,用于存储第二字符向量和语言模型规则;所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则。
通过本发明设计一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时,本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。
附图说明
图1示出了本发明一种文本错别字自动更正方法的流程图;
图2示出了本发明一种文本错别字自动更正服务器的结构框图;
图3示出了本发明一实施例的文本错别字更正方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种文本错别字自动更正方法的流程图。
如图1所示,根据本发明一种文本错别字自动更正方法,包括以下步骤:
步骤1,对需要校对的文本进行预处理。
所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤,并且转换成简体字以统一处理。
步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量。
优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。将预处理后的数据进行编码后,再进行向量化的处理,将每个字符高维向量化,得到相应的字向量。
步骤3,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果。
LSTM技术是比普通的RNN算法要更优的算法,更适合进行语义和错别字的识别,基于LSTM是现有技术,所以采用attention机制和双向LSTM进行识别的内容不再一一赘述。attention机制也是在深度学习和语言处理中的常用技术,属于现有技术,所以本说明书不再对此机制进行赘述。
步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较。
步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
用户接收到服务器发送更正结果后,在结果选项中选择更适合的结果进行错别字更正。
优选的,所述步骤5还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。例如,当采用上述的更正方法得到的大于概率阈值的结果只有一个时,那么说明此结果是最符合条件的结果,则自动进行错别字更正,不需要经过用户的确认。另外,还可以直接把概率最大的结果进行自动错别字更正,不需要经过用户的确认。
优选的,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。所述字符特征信息为词性、语法、语义中的一种或几种。
图2示出了本发明一种文本错别字自动更正服务器的结构框图。
如图2所示,根据本发明提供的一种文本错别字自动更正服务器,包括:
预处理模块,用于对需要校对的文本进行预处理。
所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤,并且转换成简体字以统一处理。
向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量。
优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。将预处理后的数据进行编码后,再进行向量化的处理,将每个字符高维向量化,得到相应的字向量。
识别模块,用于采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果。
LSTM技术是比普通的RNN算法要更优的算法,更适合进行语义和错别字的识别,基于LSTM是现有技术,所以采用attention机制和双向LSTM进行识别的内容不再一一赘述。attention机制也是在深度学习和语言处理中的常用技术,属于现有技术,所以本说明书不再对此机制进行赘述。
预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较。
发送模块,用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
用户接收到服务器发送更正结果后,在结果选项中选择更适合的结果进行错别字更正。
优选的,当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。例如,当采用上述的更正方法得到的大于概率阈值的结果只有一个时,那么说明此结果是最符合条件的结果,则自动进行错别字更正,不需要经过用户的确认。另外,还可以直接把概率最大的结果进行自动错别字更正,不需要经过用户的确认。
在所述服务器还包括:数据库,用于存储第二字符向量和语言模型规则;所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则。所述字符特征信息为词性、语法、语义中的一种或几种。
上述每个模块都可以互相连接或者单独与行使对应功能的模块进行连接。
图3示出了本发明一实施例的文本错别字更正方法的流程图。
如图3所示,首先用户进行文本的输入,其输入的文本数据会发送至服务器中,服务器中的数据清洗系统将对文本数据进行数据清洗工作,数据清洗主要为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤,并且转换成简体字以统一处理。
然后对清洗后的文本数据进行字符向量化的处理。接着采用end to end模型对句子进行解码,在利用attention机制,对句子进行解码,判断此时的概率阈值,将大于此概率阈值的数据选取最大概率的字作为结果进行输出。如果数据不大于概率阈值,则直接输出最终结果。
在本说明书的描述中,术语“安装”、“相连”、“连接”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本错别字自动更正方法,其特征在于,包括:
步骤1,对需要校对的文本进行预处理;
步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
步骤3,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
2.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述步骤5还包括:
当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。
3.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。
4.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。
5.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。
6.根据权利要求5所述的一种文本错别字自动更正方法,其特征在于,所述字符特征信息为词性、语法、语义中的一种或几种。
7.一种文本错别字自动更正服务器,其特征在于,包括:
预处理模块,用于对需要校对的文本进行预处理;
向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;
识别模块,用于采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;
预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;
发送模块,用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。
8.根据权利要求7所述的一种文本错别字自动更正服务器,其特征在于,所述服务器还用于:
当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。
9.根据权利要求7所述的一种文本错别字自动更正服务器,其特征在于,所述预处理模块还用于去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。
10.根据权利要求7所述的一种文本错别字自动更正服务器,其特征在于,在所述服务器还包括:数据库,用于存储第二字符向量和语言模型规则;所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611142654.3A CN106776501A (zh) | 2016-12-13 | 2016-12-13 | 一种文本错别字自动更正方法和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611142654.3A CN106776501A (zh) | 2016-12-13 | 2016-12-13 | 一种文本错别字自动更正方法和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776501A true CN106776501A (zh) | 2017-05-31 |
Family
ID=58876164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611142654.3A Pending CN106776501A (zh) | 2016-12-13 | 2016-12-13 | 一种文本错别字自动更正方法和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776501A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107451106A (zh) * | 2017-07-26 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 文本纠正方法及装置、电子设备 |
CN108090043A (zh) * | 2017-11-30 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的纠错举报处理方法、装置及可读介质 |
CN108257650A (zh) * | 2017-12-26 | 2018-07-06 | 宁波市科技园区明天医网科技有限公司 | 一种应用于医技检查报告的智能纠错方法 |
CN108563634A (zh) * | 2018-03-29 | 2018-09-21 | 广州视源电子科技股份有限公司 | 文字拼写错误的识别方法、系统、计算机设备及存储介质 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN112380850A (zh) * | 2020-11-30 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 错别字识别方法、装置、介质及电子设备 |
CN112668312A (zh) * | 2019-09-30 | 2021-04-16 | 北大方正集团有限公司 | 错别字修正方法、装置、电子设备及存储介质 |
CN112733529A (zh) * | 2019-10-28 | 2021-04-30 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN116070595A (zh) * | 2023-03-07 | 2023-05-05 | 深圳市北科瑞讯信息技术有限公司 | 语音识别文本纠错方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149804A (zh) * | 2006-09-19 | 2008-03-26 | 北京三星通信技术研究有限公司 | 自适应手写识别系统和方法 |
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
CN102375807A (zh) * | 2010-08-27 | 2012-03-14 | 汉王科技股份有限公司 | 文字校对方法和装置 |
CN104882139A (zh) * | 2015-05-28 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 语音合成的方法和装置 |
CN105654939A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于音向量文本特征的语音合成方法 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
-
2016
- 2016-12-13 CN CN201611142654.3A patent/CN106776501A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149804A (zh) * | 2006-09-19 | 2008-03-26 | 北京三星通信技术研究有限公司 | 自适应手写识别系统和方法 |
CN102375807A (zh) * | 2010-08-27 | 2012-03-14 | 汉王科技股份有限公司 | 文字校对方法和装置 |
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
CN104882139A (zh) * | 2015-05-28 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 语音合成的方法和装置 |
CN105654939A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于音向量文本特征的语音合成方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358948B (zh) * | 2017-06-27 | 2020-06-09 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107451106A (zh) * | 2017-07-26 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 文本纠正方法及装置、电子设备 |
CN108090043A (zh) * | 2017-11-30 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的纠错举报处理方法、装置及可读介质 |
CN108257650A (zh) * | 2017-12-26 | 2018-07-06 | 宁波市科技园区明天医网科技有限公司 | 一种应用于医技检查报告的智能纠错方法 |
CN108563634A (zh) * | 2018-03-29 | 2018-09-21 | 广州视源电子科技股份有限公司 | 文字拼写错误的识别方法、系统、计算机设备及存储介质 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN108647207B (zh) * | 2018-05-08 | 2022-04-05 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109522558B (zh) * | 2018-11-21 | 2024-01-12 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN112668312A (zh) * | 2019-09-30 | 2021-04-16 | 北大方正集团有限公司 | 错别字修正方法、装置、电子设备及存储介质 |
CN112733529A (zh) * | 2019-10-28 | 2021-04-30 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN112733529B (zh) * | 2019-10-28 | 2023-09-29 | 阿里巴巴集团控股有限公司 | 文本纠错方法和装置 |
CN112380850A (zh) * | 2020-11-30 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 错别字识别方法、装置、介质及电子设备 |
CN116070595A (zh) * | 2023-03-07 | 2023-05-05 | 深圳市北科瑞讯信息技术有限公司 | 语音识别文本纠错方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776501A (zh) | 一种文本错别字自动更正方法和服务器 | |
CN106777073A (zh) | 一种搜索引擎中错别字自动更正方法和服务器 | |
CN109446534B (zh) | 机器翻译方法及装置 | |
CN111222317B (zh) | 序列标注方法、系统和计算机设备 | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN110457689B (zh) | 语义处理方法及相关装置 | |
CN107578769A (zh) | 语音数据标注方法和装置 | |
CN114118065B (zh) | 一种电力领域中文文本纠错方法、装置、存储介质及计算设备 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN110942763B (zh) | 语音识别方法及装置 | |
CN111539199B (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN116416480A (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN117332788B (zh) | 一种基于英语口语文本的语义分析方法 | |
CN111241843A (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116913278A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
CN112685543B (zh) | 一种基于文本回答问题的方法及装置 | |
CN113568969A (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN111428005A (zh) | 标准问答对确定方法、装置及电子设备 | |
CN112836522A (zh) | 语音识别结果的确定方法及装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |
|
WD01 | Invention patent application deemed withdrawn after publication |