CN107729316A - 中文交互式问答文本中错别字的识别和纠错的方法及装置 - Google Patents
中文交互式问答文本中错别字的识别和纠错的方法及装置 Download PDFInfo
- Publication number
- CN107729316A CN107729316A CN201710947261.8A CN201710947261A CN107729316A CN 107729316 A CN107729316 A CN 107729316A CN 201710947261 A CN201710947261 A CN 201710947261A CN 107729316 A CN107729316 A CN 107729316A
- Authority
- CN
- China
- Prior art keywords
- word
- error
- text
- chinese
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置,生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;所述识别纠错过程包括:局部错误判断步骤,全局错误判断步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,进行纠错改写步骤,最后输出文本。本发明的方法及装置,通过多角度多层次的识别和纠错,最终输出正确文本,提升实时文本交互的品质。
Description
技术领域
本发明涉及中文文本中错别字的识别和纠错的方法及装置。
背景技术
随着互联网的发展,实时文本交互成为人们交互越来越重要的一种形式。人们常常用的短信、微信等等都属于实时文本交互,但是人们在交互时中输入的话语却常常包含有错别字或者错词,容易造成对方的理解错误,甚至可能引起误会。
中文错别字识别和纠错是自然语言处理领域中有着广阔应用前景的一个研究方向,属于刚刚起步的阶段。目前的识别和纠错技术无法识别非邻近关系的错字或者错词,无法识别词典外的错字或者错词。更重要的是,目前的识别和纠错技术多针对文章等书面用语进行,还没有针对交互类短文本进行自动纠错。
发明内容
本发明要解决的技术问题,在于提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置,通过多角度多层次的识别和纠错,最终输出正确文本,提升实时文本交互的品质。
本发明方法是这样实现的:一种中文交互式问答文本中错别字的识别和纠错的方法,包括准备过程和识别纠错过程;
所述准备过程包括生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;
所述识别纠错过程包括下述步骤:
局部错误判断步骤,读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;
全局错误判断步骤,读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;
纠错改写步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;
输出文本步骤,如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本;
其中,所述局部错误判断步骤和全局错误判断步骤不分先后。
进一步的,所述局部错误模型是根据大规模训练文本,对文本中的每句话分词,计算每个词与前后词同时出现的概率,写入模型文件,同时计算单字成词的概率,写入模型文件得到。
进一步的,所述全局错误模型是根据大规模训练文本,进行分词,句法依存分析,并根据该句法依存分析的结果建立词语配对关系,计算每个配对关系出现的概率,写入模型文件得到。
进一步的,所述拼音转汉语词典是对大规模训练文本的每句话进行分词,将每个词转换为对应拼音,累计每个词的频率,将词、词的拼音及词的频率汇总得到。
进一步的,所述形近词词典是对大规模训练文本的每句话进行分词,将每个词转换为对应的五笔编码,累计每个词的频率,将词、词的五笔编码及词的频率汇总得到。
本发明装置是这样实现的:一种中文交互式问答文本中错别字的识别和纠错的装置,包括:
局部错误识别模块,用于生成局部错误模型,识别局部错误。
全局错误识别模块,用于生成全局错误模型,识别全局错误。
音近词纠错模块,用于生成汉语转拼音词典、拼音转汉语词典,对音近词进行纠错。
形近词纠错模块,用于生成形近词词典,对形近词进行纠错
且所述识别和纠错的过程:
所述局部错误识别模块读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;
所述全局错误识别模块读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;
如果存在局部错误或全局错误,所述音近词纠错模块则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;
如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本。
进一步的,所述局部错误识别模块是根据大规模训练文本,对文本中的每句话分词,计算每个词与前后词同时出现的概率,写入模型文件,同时计算单字成词的概率,写入模型文件得到所述局部错误模型。
进一步的,所述全局错误识别模块是根据大规模训练文本,进行分词,句法依存分析,并根据该句法依存分析的结果建立词语配对关系,计算每个配对关系出现的概率,写入模型文件得到所述全局错误模型。
进一步的,所述音近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应拼音,累计每个词的频率,将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。
进一步的,所述形近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应的五笔编码,累计每个词的频率,将词、词的五笔编码及词的频率汇总得到所述形近词词典。
本发明具有如下优点:本发明利用句法依存分析的词语配对结果,能够有效地识别非邻近关系的错字或者错词;利用汉语转拼音词典可以全量的把汉字转文本,再通过文本转高频词,能够有效地纠错由拼音输入法输入错误的文本;利用单字成词概率,能够有效地识别分词后出现的单字是否属于错字或者错词;利用已有的概率模型,可以对词典外的错字或者错词进行有效预测;从而实现多角度多层次的识别和纠错,最终输出正确文本,提高交互文本内容的信息准确性,提升实时文本交互的品质。
具体实施方式
本发明的中文交互式问答文本中错别字的识别和纠错的方法,包括准备过程和识别纠错过程;
所述准备过程包括生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;
所述识别纠错过程包括下述步骤:
局部错误判断步骤,读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;例如:中文问答文本为“我每天都在写程序”,分词结果为:我—每天—都—写—程序,判断“我—每天”、“每天—都”、“都—写”、“写—程序”在模型中的概率,若该概率小于阀值则认为存在局部错误;判断“我”、“都”、“写”单个字成词的概率,若该概率小于阀值则认为存在局部错误。
全局错误判断步骤,读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;例如:中文问答文本为“我每天都在写程序”,句法分析结果生成的配对关系包含:我—写,每天—写,都—写,在—写,写—程序,读取各个配对在模型中的概率,如果概率小于阀值则存在全局错误。
纠错改写步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写,即改写成该对应的高频词;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写,即改写成该对应的高频词;
输出文本步骤,如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本;
其中,所述局部错误判断步骤和全局错误判断步骤不分先后,且在输出文本之前可以多次重复该局部错误判断步骤和全局错误判断步骤。
本发明的中文交互式问答文本中错别字的识别和纠错的装置,包括:
局部错误识别模块,用于生成局部错误模型,识别局部错误;所述局部错误识别模块是根据大规模训练文本,对文本中的每句话分词,计算每个词与前后词同时出现的概率,写入模型文件,同时计算单字成词的概率,写入模型文件得到所述局部错误模型。
全局错误识别模块,用于生成全局错误模型,识别全局错误;所述全局错误识别模块是根据大规模训练文本,进行分词,句法依存分析,并根据该句法依存分析的结果建立词语配对关系,计算每个配对关系出现的概率,写入模型文件得到所述全局错误模型。
音近词纠错模块,用于生成汉语转拼音词典、拼音转汉语词典,对音近词进行纠错;所述音近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应拼音,累计每个词的频率,将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。
形近词纠错模块,用于生成形近词词典,对形近词进行纠错;所述形近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应的五笔编码,累计每个词的频率,将词、词的五笔编码及词的频率汇总得到所述形近词词典。
且所述识别和纠错的过程:
所述局部错误识别模块读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;
所述全局错误识别模块读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;
如果存在局部错误或全局错误,所述音近词纠错模块则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;
如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本。
本发明具有如下优点:本发明利用句法依存分析的词语配对结果,能够有效地识别非邻近关系的错字或者错词;利用汉语转拼音词典可以全量的把汉字转文本,再通过文本转高频词,能够有效地纠错由拼音输入法输入错误的文本;利用单字成词概率,能够有效地识别分词后出现的单字是否属于错字或者错词;利用已有的概率模型,可以对词典外的错字或者错词进行有效预测;因此将本发明实施的技术方案应用于交互类短文本,可以提高交互文本内容的信息准确性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:包括准备过程和识别纠错过程;
所述准备过程包括生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典;
所述识别纠错过程包括下述步骤:
局部错误判断步骤,读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;
全局错误判断步骤,读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;
纠错改写步骤,如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误,则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;
输出文本步骤,如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本;
其中,所述局部错误判断步骤和全局错误判断步骤不分先后。
2.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:所述局部错误模型是根据大规模训练文本,对文本中的每句话分词,计算每个词与前后词同时出现的概率,写入模型文件,同时计算单字成词的概率,写入模型文件得到。
3.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:所述全局错误模型是根据大规模训练文本,进行分词,句法依存分析,并根据该句法依存分析的结果建立词语配对关系,计算每个配对关系出现的概率,写入模型文件得到。
4.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:所述拼音转汉语词典是对大规模训练文本的每句话进行分词,将每个词转换为对应拼音,累计每个词的频率,将词、词的拼音及词的频率汇总得到。
5.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法,其特征在于:所述形近词词典是对大规模训练文本的每句话进行分词,将每个词转换为对应的五笔编码,累计每个词的频率,将词、词的五笔编码及词的频率汇总得到。
6.中文交互式问答文本中错别字的识别和纠错的装置,其特征在于:包括:
局部错误识别模块,用于生成局部错误模型,识别局部错误。
全局错误识别模块,用于生成全局错误模型,识别全局错误。
音近词纠错模块,用于生成汉语转拼音词典、拼音转汉语词典,对音近词进行纠错。
形近词纠错模块,用于生成形近词词典,对形近词进行纠错
且所述识别和纠错的过程:
所述局部错误识别模块读取中文问答文本,进行分词,依据所述局部错误模型读取每个词与前后词的概率,若该概率小于阀值则认为存在局部错误,同时判断各个词是否是单字成词,如果是并且该单字成词概率小于阀值则存在局部错误;
所述全局错误识别模块读取中文问答文本,根据现有的分词和句法依存分析技术进行分析,建立词语配对关系,依据所述全局错误模型判别各个配对的概率,如果概率小于阀值则存在全局错误;
如果存在局部错误或全局错误,所述音近词纠错模块则进行(1)或(2):
(1)将出错的文本转换为拼音,并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词,对出错的文本进行改写;
(2)将出错的文本转换为五笔编码,依据所述形近词词典得到五笔编码对应的高频词,对出错的文本进行改写;
如果纠错改写失败,给出错误提示,输出原文本;如果不存在错误或纠错改写成功,输出正确文本。
7.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置,其特征在于:所述局部错误识别模块是根据大规模训练文本,对文本中的每句话分词,计算每个词与前后词同时出现的概率,写入模型文件,同时计算单字成词的概率,写入模型文件得到所述局部错误模型。
8.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置,其特征在于:所述全局错误识别模块是根据大规模训练文本,进行分词,句法依存分析,并根据该句法依存分析的结果建立词语配对关系,计算每个配对关系出现的概率,写入模型文件得到所述全局错误模型。
9.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置,其特征在于:所述音近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应拼音,累计每个词的频率,将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。
10.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置,其特征在于:所述形近词纠错模块是对大规模训练文本的每句话进行分词,将每个词转换为对应的五笔编码,累计每个词的频率,将词、词的五笔编码及词的频率汇总得到所述形近词词典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710947261.8A CN107729316A (zh) | 2017-10-12 | 2017-10-12 | 中文交互式问答文本中错别字的识别和纠错的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710947261.8A CN107729316A (zh) | 2017-10-12 | 2017-10-12 | 中文交互式问答文本中错别字的识别和纠错的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107729316A true CN107729316A (zh) | 2018-02-23 |
Family
ID=61211150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710947261.8A Pending CN107729316A (zh) | 2017-10-12 | 2017-10-12 | 中文交互式问答文本中错别字的识别和纠错的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729316A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | 无码科技(杭州)有限公司 | 自动文本查错方法 |
CN110674859A (zh) * | 2019-09-17 | 2020-01-10 | 智阳网络技术(上海)有限公司 | 基于汉字笔画的汉语短文本相似度检测方法及系统 |
CN110929502A (zh) * | 2018-08-30 | 2020-03-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
CN111160013A (zh) * | 2019-12-30 | 2020-05-15 | 北京百度网讯科技有限公司 | 文本纠错方法及装置 |
CN112417851A (zh) * | 2020-11-26 | 2021-02-26 | 新智认知数据服务有限公司 | 文本纠错分词方法、系统及电子设备 |
CN112784581A (zh) * | 2020-11-20 | 2021-05-11 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN116090441A (zh) * | 2022-12-30 | 2023-05-09 | 永中软件股份有限公司 | 一种融合局部语义特征和全局语义特征的中文拼写纠错方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
KR101590724B1 (ko) * | 2014-10-06 | 2016-02-02 | 포항공과대학교 산학협력단 | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 |
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
-
2017
- 2017-10-12 CN CN201710947261.8A patent/CN107729316A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101590724B1 (ko) * | 2014-10-06 | 2016-02-02 | 포항공과대학교 산학협력단 | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
Non-Patent Citations (2)
Title |
---|
郇政永: "基于OCR的中文文本校对研究", 《中国优秀硕士学位论文全文数据库》 * |
马金山等: "基于n_gram及依存分析的中文自动查错方法", 《ADVANCES IN COMPUTATION OF ORIENTAL LANGUAGES--PROCEEDINGS OF THE 20TH INTERNATIONAL CONFERENCE ON COMPUTER PROCESSING OF ORIENTAL LANGUAGES》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929502A (zh) * | 2018-08-30 | 2020-03-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
CN110929502B (zh) * | 2018-08-30 | 2023-08-25 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | 无码科技(杭州)有限公司 | 自动文本查错方法 |
CN110674859A (zh) * | 2019-09-17 | 2020-01-10 | 智阳网络技术(上海)有限公司 | 基于汉字笔画的汉语短文本相似度检测方法及系统 |
CN111160013A (zh) * | 2019-12-30 | 2020-05-15 | 北京百度网讯科技有限公司 | 文本纠错方法及装置 |
CN111160013B (zh) * | 2019-12-30 | 2023-11-24 | 北京百度网讯科技有限公司 | 文本纠错方法及装置 |
CN112784581A (zh) * | 2020-11-20 | 2021-05-11 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN112784581B (zh) * | 2020-11-20 | 2024-02-13 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN112417851A (zh) * | 2020-11-26 | 2021-02-26 | 新智认知数据服务有限公司 | 文本纠错分词方法、系统及电子设备 |
CN112417851B (zh) * | 2020-11-26 | 2024-05-24 | 新智认知数据服务有限公司 | 文本纠错分词方法、系统及电子设备 |
CN116090441A (zh) * | 2022-12-30 | 2023-05-09 | 永中软件股份有限公司 | 一种融合局部语义特征和全局语义特征的中文拼写纠错方法 |
CN116090441B (zh) * | 2022-12-30 | 2023-10-20 | 永中软件股份有限公司 | 一种融合局部语义特征和全局语义特征的中文拼写纠错方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729316A (zh) | 中文交互式问答文本中错别字的识别和纠错的方法及装置 | |
CN109902171B (zh) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 | |
CN107885737A (zh) | 一种人机互动翻译方法及系统 | |
CN103646088B (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
CN109446221B (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN105095190B (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
CN108052499A (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN106096004A (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN107729392A (zh) | 文本结构化方法、装置、系统和非易失性存储介质 | |
CN106257455A (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN104182766A (zh) | 基于模板匹配的手写汉字笔画位置关系正确性判断方法 | |
CN110222176A (zh) | 一种文本数据的清洗方法、系统及可读存储介质 | |
CN106844348A (zh) | 一种汉语句子功能成分分析方法 | |
CN108228574A (zh) | 文本翻译处理方法及装置 | |
CN106528616A (zh) | 一种人机交互过程中的语言纠错方法及系统 | |
CN107656921A (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN109815268A (zh) | 一种交易制裁名单匹配系统 | |
CN105718935A (zh) | 一种适宜于视觉大数据的词频直方图计算方法 | |
CN108021390A (zh) | 一种Java应用编程接口的文档缺陷自动修复方法 | |
CN111831792B (zh) | 一种电力知识库构建方法及系统 | |
CN109299402A (zh) | 基于要素预分段的地址匹配方法 | |
CN108304389A (zh) | 交互式语音翻译方法及装置 | |
CN101833376A (zh) | 基于汉字拆分的智能语句级汉字输入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Applicant after: China Electric fufu Mdt InfoTech Ltd Address before: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Applicant before: Fujian Fushitong Information Software Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |
|
RJ01 | Rejection of invention patent application after publication |