CN112800987B - 一种汉字处理方法和装置 - Google Patents
一种汉字处理方法和装置 Download PDFInfo
- Publication number
- CN112800987B CN112800987B CN202110140933.0A CN202110140933A CN112800987B CN 112800987 B CN112800987 B CN 112800987B CN 202110140933 A CN202110140933 A CN 202110140933A CN 112800987 B CN112800987 B CN 112800987B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- text
- model
- candidate
- candidate texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 170
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 25
- 238000012937 correction Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000010045 kangjia Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供一种汉字处理方法和装置,方法包括:接收用户采用手写模式输入的第一汉字文本;将第一汉字文本转化为笔顺;将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括LSTM模型和n‑gram模型,LSTM模型用于根据笔顺输出多个候选文本,n‑gram模型用于基于候选文本的业务类型对候选文本打分,并根据打分输出第一目标文本。该方法综合LSTM模型和n‑gram模型的优点,LSTM模型对手写汉字文本的笔顺的预测,可以识别错别字并预判错别字可能对应的字,提升分词准确性,n‑gram模型基于候选文本的业务类型对候选文本打分,提升候选文本确定的准确性,从而可以达到较好地纠正错别字的效果。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种汉字处理方法和装置。
背景技术
在电子设备的使用中,用户采用拼音或手写输入汉字时,经常出现输入错误,产生错别字的情况,例如机(几)率、不能自己(已)和发贴(帖)等,电子设备需要对错别字进行纠正,才能正常识别用户目标,提供服务。随着智能化系统的开发和使用的增多,系统词库维护越来越困难。
目前,对汉字的纠错有两种方式,一种是基于规则的纠错,将错词-标准词对照,按照错字对照表进行匹配,例如冲值-充值和消户-销户等;另一种是基于统计的纠错,将汉字输入n元模型(n-gram模型)进行判断纠错。
第一种方式需要大量的维护人员维护错字对照表,并且可能对错字情况存在遗漏,难以覆盖所有情况。第二种方式中,n-gram模型对于包含错别字的词不能准确拆分,汉字纠错中效果较差。
发明内容
本申请实施例提供一种汉字处理方法和装置,预先训练的LSTM模型对手写模式输入的汉字文本中错别字进行预测,判断错别字可能对应的字或词,预先训练的n-gram模型对可能对应的字或词进行选择,输出正确文本,这样,对错误文本进行预测,减少n-gram模型分词的不准确,提高系统的纠错效果。
第一方面,本申请实施例提供一种汉字处理方法,方法包括:接收用户采用手写模式输入的第一汉字文本;将第一汉字文本转化为笔顺;将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。
可选的,将笔顺输入预先训练的模型中,得到第一目标文本,包括:将笔顺输入LSTM模型,得到多个候选文本;将候选文本输入n-gram模型;利用n-gram模型确定多个候选文本对应的业务类型;利用n-gram模型根据多个候选文本对应的业务类型对多个候选文本打分;利用n-gram模型根据多个候选文本的打分,输出第一目标文本。
可选的,利用n-gram模型根据多个候选文本的打分,输出第一目标文本,包括:利用n-gram模型根据多个候选文本的打分,输出多个候选文本中打分最高的候选文本,其中,打分最高的候选文本为第一目标文本。
可选的,利用n-gram模型根据多个候选文本的打分,输出第一目标文本,包括:利用n-gram模型根据多个候选文本的打分,对多个候选文本排序;利用n-gram模型输出多个候选文本中排序第一的候选文本,其中,排序第一的候选文本为第一目标文本;排序的规则为依据打分从高到低进行排序。
可选的,LSTM模型是根据错字语料库训练得到的,n-gram模型是根据日常用户客服对话明细训练得到的。
可选的,方法还包括:接收用户采用拼写模式输入的第二汉字文本;将第二汉字文本转化为拼音;将拼音进行分词,得到分词结果;将分词结果与预设的行业词-拼音词典匹配,得到第二目标文本。
可选的,将拼音进行分词,得到分词结果,包括:采用双向最大匹配法对拼音进行正向分词和逆向分词,得到正向分词结果和逆向分词结果;当正向分词结果的词数与逆向分词结果词数不同时,输出正向分词结果与逆向分词结果中分词数量较少的分词结果,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果相同,输出正向分词结果与逆向分词结果中的任意一个,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果不同,输出正向分词结果与逆向分词结果中单字较少的分词结果,得到分词结果。
第二方面,本申请实施例提供一种汉字处理装置,通信单元和处理单元。通信单元,用于接收用户采用手写模式输入的第一汉字文本;处理单元,用于将第一汉字文本转化为笔顺;处理单元,还用于将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。
可选的,处理单元,具体用于,将笔顺输入LSTM模型,得到多个候选文本;将候选文本输入n-gram模型;利用n-gram模型确定多个候选文本对应的业务类型;利用n-gram模型根据多个候选文本对应的业务类型对多个候选文本打分;利用n-gram模型根据多个候选文本的打分,输出第一目标文本。
可选的,处理单元,具体用于,利用n-gram模型根据多个候选文本的打分,输出多个候选文本中打分最高的候选文本,其中,打分最高的候选文本为第一目标文本。
可选的,处理单元,具体用于,利用n-gram模型根据多个候选文本的打分,对多个候选文本排序;利用n-gram模型输出多个候选文本中排序第一的候选文本,其中,排序第一的候选文本为第一目标文本;排序的规则为依据打分从高到低进行排序。
可选的,LSTM模型是根据错字语料库训练得到的,n-gram模型是根据日常用户客服对话明细训练得到的。
可选的,处理单元,还用于,接收用户采用拼写模式输入的第二汉字文本;将第二汉字文本转化为拼音;将拼音进行分词,得到分词结果;将分词结果与预设的行业词-拼音词典匹配,得到第二目标文本。
可选的,处理单元,具体用于,采用双向最大匹配法对拼音进行正向分词和逆向分词,得到正向分词结果和逆向分词结果;当正向分词结果的词数与逆向分词结果词数不同时,输出正向分词结果与逆向分词结果中分词数量较少的分词结果,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果相同,输出正向分词结果与逆向分词结果中的任意一个,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果不同,输出正向分词结果与逆向分词结果中单字较少的分词结果,得到分词结果。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器。存储器用于存储程序指令。处理器用于调用并执行所述存储器中的程序指令,执行如上所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器被执行时,实现如上所述的方法。
本申请实施例的汉字处理方法,包括:接收用户采用手写模式输入的第一汉字文本;将第一汉字文本转化为笔顺;将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。该方法中综合了LSTM模型和n-gram模型的优点,LSTM模型对手写汉字文本的笔顺的预测,可以识别错别字并预判错别字可能对应的字,提升分词准确性,n-gram模型基于多个候选文本的业务类型对多个候选文本进行打分,可以提升候选文本确定的准确性,从而可以达到较好地纠正错别字的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种应用场景的示意图;
图2为本申请实施例提供的一种RNN模型中循环单元的示意图;
图3为本申请实施例提供的一种LSTM模型中循环单元的示意图;
图4为本申请实施例提供的一种汉字处理方法流程的示意图;
图5为本申请实施例提供的一种字-笔顺词典的示意图;
图6为本申请实施例提供的一种第一汉字文本转化为笔顺的示意图;
图7为本申请实施例提供的一种错字语料库的示意图;
图8为本申请实施例提供的一种手写汉字处理方法流程的示意图;
图9为本申请实施例提供的一种拼音与行业词-拼音词典匹配结果的示意图;
图10为本申请实施例提供的一种拼音分词的示意图;
图11为本申请实施例提供的一种分词结果与行业词-拼音词典匹配的示意图;
图12为本申请实施例提供的一种行业词-拼音词典与拼音分词库的示意图;
图13为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在电子设备中,用户采用拼音或手写输入汉字时,经常出现输入错误,产生错别字的情况,电子设备需要对错别字进行纠正,才能正常识别用户目标,提供服务。
目前,对汉字的纠错有两种方式,一种是基于规则的纠错,将错词-标准词对照,按照错字对照表进行匹配,例如冲值-充值和消户-销户等。这种方式需要大量的维护人员维护错字对照表,并且难以覆盖所有错字情况。另一种是基于统计的纠错,将汉字输入n-gram语言模型进行判断纠错。n-gram语言模型对于包含错别字的词不能准确拆分,汉字纠错中效果较差。
有鉴于此,本申请实施例的汉字处理方法,包括:接收用户采用手写模式输入的第一汉字文本;将第一汉字文本转化为笔顺;将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。该方法中综合了LSTM模型和n-gram模型的优点,LSTM模型对手写汉字文本的笔顺的预测,可以识别错别字并预判错别字可能对应的字,提升分词准确性,n-gram模型基于多个候选文本的业务类型对多个候选文本进行打分,可以提升候选文本确定的准确性,从而可以达到较好地纠正错别字的效果。
图1为本申请实施例提供的一种应用场景的示意图。如图1所示,包括:服务器101和终端A1-A4。用户可以通过终端A1-A4中的任一终端连接服务器101,在该任一终端登录用户界面,进而在该界面输入汉字文本进行查询访问等,终端对汉字文本进行解析纠正,以及从存储数据的服务器101中获取目标数据,并将目标数据显示在终端的用户界面。
下面对汉字处理方法中涉及到的语言模型进行说明。
循环神经网络(recurrent neural network,RNN):一类以序列数据为输入,在序列的演进方向进行递归,且所有节点(循环单元)按链式连接的递归神经网络。图2为本申请实施例提供的一种RNN模型中循环单元的示意图。如图2所示,三个循环单元按照链式连接。每一个循环单元,除了处理当前时间点的输入数据X外,还要处理前一个循环单元的输出,最终输出单一的预测h。RNN模型中通过激活函数(例如tanh)进行信息过滤。这样,循环单元仅处理前一个单元的输出,可以减少距离远的循环单元的输出的影响,实现信息过滤。
RNN模型采用随时间反向传播(BP through time,BPTT)算法进行训练。当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果。
长短期记忆网络(long-short term memory,LSTM)模型:一种特殊的RNN模型,可以解决RNN模型梯度弥散的问题。图3为本申请实施例提供的一种LSTM模型中循环单元的示意图。如图3所示,除原有输出h外,LSTM循环单元最顶层增加名为单元状态(cell state)的信息传送带。在该传送带上可以进行乘法和加法的线性操作。LSTM中还增加各种门控,例如,输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。这些门控可以控制上一单元有多少信息可以通过,当前单元有哪些信息可以添加到cell state传送带传递给下一个单元。这些门控中含有另外一个激活函数S,它可以将变量映射到0-1之间,控制信息量。这样,LSTM模型比RNN模型输出更加准确。
n元(n-gram)模型:大词汇连续语音识别中常用的一种语言模型。n-gram模型基于马尔科夫模型假设,即一个词的出现概率仅依赖于该词的前1个词或前几个词,考虑n个词出现的可能,即n元组(n-gram)。一个词的出现仅依赖于前1个词,即Bigram(2-gram)。一个词的出现仅依赖于前2个词,即Trigram(3-gram)。n值越大,提供的信息越多,对下一个词的约束力越强,但模型越复杂,计算代价越大,训练语料需要越多。
图4为本申请实施例提供的一种汉字处理方法流程的示意图。如图4所示,方法包括:
S401、接收用户采用手写模式输入的第一汉字文本。
手写模式是一种文字书写方式,指用户通过手指或触控笔在触控屏幕上手写输入文字。示例性的,用户通过手指在触控屏幕上按照汉字的笔划和笔画顺序输入第一汉字文本。示例性的,第一汉字文本可以是“末开通”。
可能实现的方式中,电子设备还可以接收用户手写输入时的笔划数目、笔划走向、笔顺和书写速度等信息。
S402、将第一汉字文本转化为笔顺。
手写输入的第一汉字文本可能存在错别字,无法准确分词。手写输入是用户通过笔划进行书写的,将其转换为笔顺可以更好的判断和纠正错别字。
可能实现的方式中,系统根据字-笔顺字典将第一汉字文本转化为笔顺。
示例性的,字-笔顺字典如图5所示。开字对应的笔顺为“一一丿丨”;户字对应的笔顺为“丶乛一丿”;大字对应的笔顺为“一丿”;王字对应的笔顺为“一一丨一”。
示例性的,图6为本申请实施例提供的一种第一汉字文本转化为笔顺的示意图。图6中第一汉字文本为“查询匀租”。第一汉字文本转化的笔顺对应为:查:“一丨ノ丨/>一一一”;询:“丶/>ノ/>丨/>一一”;匀:“ノ/>丶/>”;租:“ノ一丨ノ丶丨/>一一一”。
S403、将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n元(n-gram)模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。
LSTM模型可以分析笔顺对应的字、词或句,输出多个候选文本,示例性的,第一汉字文本为“我要查询匀租,比上上月多了几十块”。LSTM模型根据该文本转化的笔顺输出两个候选文本。候选文本1为“我要查询日租,比上上月多了几十块”。候选文本2为“我要查询月租,比上上月多了几十块”。
需要说明的是,LSTM模型可以预测笔顺可能对应的字或词,不能判断字或词是否符合语境。示例性的,如上例中的“查询匀租”,LSTM模型预测的候选文本中可能出现的词,得出:“查询”,“日租”和“月租”。最终结果是“查询日租”还是“查询月租”需要结合语境判断。
此外,LSTM模型的输入是句子对应的笔顺,假设原本输入的文本长度为50:转换为笔顺后长度大多在300-350之间。LSTM模型的训练成本(训练时长和/或服务器配置)会随着输入文本长度的增加而增加,且准确率会随着长度的增加而降低。因此,LSTM用于预测句子的目标字或目标词,将其拼接成候选句。
n-gram模型用于对多个候选文本进行选择。示例性的,把候选文本输入n-gram模型,根据业务类型(例如,套餐名称和流量业务等)得出每个候选文本的得分,根据得分排序,输出最高的候选文本作为目标文本。
示例性的,在n-gram模型中,上述两个候选文本根据其中的日租或月租对应的业务类型得出候选文本的得分。候选文本1的得分为80,候选文本2的得分为90。候选文本2的得分比候选文本1的得分高,目标文本为“我要查询月租,比上上月多了几十块”
综上,本申请实施例中,将手写输入的汉字文本转化为笔顺,通过LSTM模型对笔顺可能对应的字或词进行预测得到候选文本,n-gram模型对预测的候选文本进行选择。这样,对错字进行预测形成候选文本,提高n-gram模型的分词准确率,从而提高系统的纠错率。
可选的,将笔顺输入预先训练的模型中,得到第一目标文本,包括:将笔顺输入LSTM模型,得到多个候选文本;将候选文本输入n-gram模型;利用n-gram模型确定多个候选文本对应的业务类型;利用n-gram模型根据多个候选文本对应的业务类型对多个候选文本打分;利用n-gram模型根据多个候选文本的打分,输出第一目标文本。
示例性的,用户输入的第一汉字文本为“匀租卡不是1块吗,怎么扣了我三块多”。LSTM模型输出两个候选文本。候选文本1为“日租卡不是1块吗,怎么扣了我三块多”。候选文本2为“月租卡不是1块吗,怎么扣了我三块多”。候选文本1中的业务为日租,候选文本2中的业务为月租。n-gram模型根据候选文本对应的业务打分,得出匀租为日租。第一目标文本为“日租卡不是1块吗,怎么扣了我三块多”。
业务类型根据行业确定。示例性的,通讯行业中业务类型可以是通信行业中具体的套餐名称,也可以是具体的业务种类(例如:短信、通话和流量等)。
本申请实施例通过确定候选文本对应的业务类型,对候选文本进行打分。这样,可以对候选文本准确打分,进而提高目标文本的正确率,提高纠错效果。
可选的,利用n-gram模型根据多个候选文本的打分,输出第一目标文本,包括:利用n-gram模型根据多个候选文本的打分,输出多个候选文本中打分最高的候选文本,其中,打分最高的候选文本为第一目标文本。
示例性的,n-gram模型对三个候选文本打分。候选文本1的分值为70;候选文本2的分值为95;候选文本3的分值为80。输出的第一目标文本为分值最高的候选文本2对应的文本内容。
可选的,利用n-gram模型根据多个候选文本的打分,输出第一目标文本,包括:利用n-gram模型根据多个候选文本的打分,对多个候选文本排序;利用n-gram模型输出多个候选文本中排序第一的候选文本,其中,排序第一的候选文本为第一目标文本;排序的规则为依据打分从高到低进行排序。
示例性的,n-gram模型对三个候选文本打分。候选文本1的分值为70;候选文本2的分值为95;候选文本3的分值为80。候选文本的排序依次为候选文本2、候选文本3和候选文本1。输出的第一目标文本为候选文本2对应的文本内容。
可选的,LSTM模型是根据错字语料库训练得到的,n-gram模型是根据日常用户客服对话明细训练得到的。可能实现的方式中,错字语料库以字和/或词为单位构建。示例性的,图7为本申请实施例提供的一种错字语料库的示意图。如图7所示,错字语料库包括两种。一种是错词-本体,例如,匀租-月租、曰租-日租和话费卷-话费券等。另外一种是本体-错字,例如,月-匀、月-句、日-曰和户-戶等。
示例性的,错字语料库中的错字或错词作为LSTM模型的训练样本,将错字或错词输入LSTM模型,得到输出的预测字或预测词。在预测字或预测词与错字语料库中本体相同时,LSTM模型训练完成。示例性的,日常用户客服对话明细包括:用户对业务的咨询和客服解答等内容。
示例性的,日常用户客服对话作为n-gram模型的训练样本,将日常用户客服对话输入n-gram模型,得到输出的目标文本。在输出的目标文本与日常用户客服对话相同或相近时,n-gram模型训练完成。
本申请实施例中,错字语料库和日常用户客服对话明细对模型的训练可以提高模型的准确性,进而提高纠错效果。
示例性的,图8为本申请实施例提供的一种手写汉字处理方法流程的示意图。手写汉字处理方法可应用于纠错系统,如图8所示,手写汉字处理方法为:
S801、输入文本。
将手写汉字文本输入到纠错系统中。
S802、笔顺转换。
纠错系统将手写汉字文本转换为笔顺。
S803、LSTM模型搭建。
纠错系统中搭建LSTM模型。
S804、LSTM模型训练。
对搭建的LSTM模型进行训练,使之可以准确预测手写汉字文本。
S805、LSTM模型预测。
将手写汉字文本转化的笔顺输入LSTM模型进行预测,输出候选文本。
S806、n-gram模型预测。
n-gram模型对候选文本进行分析选择,得到目标文本。
S807、输出。
纠错系统输出目标文本,完成对手写汉字文本的纠错。
本申请实施例提供的汉字处理方法,技术原理和技术效果与上述方法类似,此处不再赘述。
可选的,汉字处理方法还包括:接收用户采用拼写模式输入的第二汉字文本;将第二汉字文本转化为拼音;将拼音进行分词,得到分词结果;将分词结果与预设的行业词-拼音词典匹配,得到第二目标文本。可能实现的方式中,第二汉字文本根据Python的转换库转化为拼音。示例性的,图9为本申请实施例提供的一种第二汉字文本转化为拼音的示意图。如图9所示,第二汉字文本如下:查询套餐余额;茶询套餐余额;查询套参余额。根据Python的转换库转化的拼音结果一致,为cha-xun-tao-can-yu-e。
示例性的,图10为本申请实施例提供的一种拼音分词的示意图。如图10所示,拼音为cha-xun-tao-can-yu-e,分词结果为cha-xun、tao-can、yu-e。
示例性的,图11为本申请实施例提供的一种分词结果与行业词-拼音词典匹配的示意图。如图11所示,分词结果为cha-xun、tao-can、yu-e,行业词-拼音词典包括:“cha-xun:查询”、“tao-can:套餐”和“yu-e:余额”等。匹配结果为查询套餐余额。
可能实现的方式中,根据拼音分词库对拼音进行分词,拼音分词库根据行业词-拼音词典整理得到。
示例性的,行业词可以是查询、套餐和余额等。拼音-词字典对应如下:cha-xun:查询、tao-can:套餐和yu-e:余额等。
示例性的,图12为本申请实施例提供的一种行业词-拼音词典与拼音分词库的示意图。如图12所示,行业词-拼音词典中“cha-xun:查询”对应整理得到拼音分词库中“cha-xun”;“tao-can:套餐”对应整理得到“tao-can”;“yu-e:余额”对应整理得到“yu-e”。
本申请实施例中,将拼写输入的第二汉字文本转化的拼音与行业词-拼音词典进行匹配,并输出第二目标文本,解决了因拼写错误无法正常分词的问题。根据行业词进行匹配,可以提高第二汉字文本与行业的匹配度,提高纠错效果。
可选的,将拼音进行分词,得到分词结果,包括:采用双向最大匹配法对拼音进行正向分词和逆向分词,得到正向分词结果和逆向分词结果;当正向分词结果的词数与逆向分词结果词数不同时,输出正向分词结果与逆向分词结果中分词数量较少的分词结果,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果相同,输出正向分词结果与逆向分词结果中的任意一个,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果不同,输出正向分词结果与逆向分词结果中单字较少的分词结果,得到分词结果。
需要说明的是,双向匹配法可以将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,得到正确的分词结果。中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确;只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功);只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。
第二方面,本申请实施例提供一种汉字处理装置,通信单元和处理单元。通信单元,用于接收用户采用手写模式输入的第一汉字文本;处理单元,用于将第一汉字文本转化为笔顺;处理单元,还用于将笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,LSTM模型用于根据笔顺输出多个候选文本,n-gram模型用于基于多个候选文本的业务类型对多个候选文本进行打分,并根据打分输出第一目标文本。
可选的,处理单元,具体用于,将笔顺输入LSTM模型,得到多个候选文本;将候选文本输入n-gram模型;利用n-gram模型确定多个候选文本对应的业务类型;利用n-gram模型根据多个候选文本对应的业务类型对多个候选文本打分;利用n-gram模型根据多个候选文本的打分,输出第一目标文本。
可选的,处理单元,具体用于,利用n-gram模型根据多个候选文本的打分,输出多个候选文本中打分最高的候选文本,其中,打分最高的候选文本为第一目标文本。
可选的,处理单元,具体用于,利用n-gram模型根据多个候选文本的打分,对多个候选文本排序;利用n-gram模型输出多个候选文本中排序第一的候选文本,其中,排序第一的候选文本为第一目标文本;排序的规则为依据打分从高到低进行排序。
可选的,LSTM模型是根据错字语料库训练得到的,n-gram模型是根据日常用户客服对话明细训练得到的。
可选的,处理单元,还用于,接收用户采用拼写模式输入的第二汉字文本;将第二汉字文本转化为拼音;将拼音进行分词,得到分词结果;将分词结果与预设的行业词-拼音词典匹配,得到第二目标文本。
可选的,处理单元,具体用于,采用双向最大匹配法对拼音进行正向分词和逆向分词,得到正向分词结果和逆向分词结果;当正向分词结果的词数与逆向分词结果词数不同时,输出正向分词结果与逆向分词结果中分词数量较少的分词结果,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果相同,输出正向分词结果与逆向分词结果中的任意一个,得到分词结果;或者,当正向分词结果的词数与逆向分词结果词数相同,且正向分词结果与逆向分词结果不同,输出正向分词结果与逆向分词结果中单字较少的分词结果,得到分词结果。
根据本申请实施例的另一个方面,本申请实施例还提供了一种移动终端,所述移动终端包括:如上任一实施例所述的装置。
根据本申请实施例的另一个方面,本申请实施例还提供了一种电子设备,包括:存储器,处理器;
存储器用于存储处理器可执行指令的存储器;
其中,当执行存储器中的指令时,处理器被配置为实现如上任一实施例所述的方法。
请参阅图13,图13为本申请实施例的电子设备的结构示意图。如图13所示,该电子设备包括存储器132和处理器131,该电子设备还可以包括系统总线133,其中,处理器和存储器通过系统总线连接;处理器用于执行存储器中存储的可执行模块,例如计算机程序。
其中,存储器可能包含高速随机存取存储器(random access memory,RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序,前述本申请实施例任一实施例揭示的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称CPU)、网络处理器(network processor,NP)等;还可以是数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。结合本申请实施例所申请的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
根据本申请实施例的另一个方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上任一实施例所述的方法。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-Only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应理解,在本申请各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种汉字处理方法,其特征在于,包括:
接收用户采用手写模式输入的第一汉字文本;
将所述第一汉字文本转化为笔顺;
将所述笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n元模型n-gram模型,所述LSTM模型用于根据所述笔顺输出多个候选文本,所述n-gram模型用于基于所述多个候选文本的业务类型对所述多个候选文本进行打分,并根据所述打分输出所述第一目标文本;
所述将所述笔顺输入预先训练的模型中,得到第一目标文本,包括:
将所述笔顺输入所述LSTM模型,得到所述多个候选文本;
将所述候选文本输入所述n-gram模型;
利用所述n-gram模型确定所述多个候选文本对应的业务类型;
利用所述n-gram模型根据所述多个候选文本对应的业务类型对所述多个候选文本打分;
利用所述n-gram模型根据所述多个候选文本的打分,输出所述第一目标文本。
2.根据权利要求1所述的方法,其特征在于,所述利用所述n-gram模型根据所述多个候选文本的打分,输出所述第一目标文本,包括:
利用所述n-gram模型根据所述多个候选文本的打分,输出所述多个候选文本中打分最高的候选文本,其中,所述打分最高的候选文本为所述第一目标文本。
3.根据权利要求1所述的方法,其特征在于,所述利用所述n-gram模型根据所述多个候选文本的打分,输出所述第一目标文本,包括:
利用所述n-gram模型根据所述多个候选文本的打分,对所述多个候选文本排序;
利用所述n-gram模型输出所述多个候选文本中排序第一的候选文本,其中,所述排序第一的候选文本为所述第一目标文本;所述排序的规则为依据打分从高到低进行排序。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述LSTM模型是根据错字语料库训练得到的,所述n-gram模型是根据日常用户客服对话明细训练得到的。
5.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
接收用户采用拼写模式输入的第二汉字文本;
将所述第二汉字文本转化为拼音;
将所述拼音进行分词,得到分词结果;
将所述分词结果与预设的行业词-拼音词典匹配,得到第二目标文本。
6.根据权利要求5所述的方法,其特征在于,所述将所述拼音进行分词,得到分词结果,包括:
采用双向最大匹配法对所述拼音进行正向分词和逆向分词,得到正向分词结果和逆向分词结果;
当所述正向分词结果的词数与所述逆向分词结果词数不同时,输出所述正向分词结果与所述逆向分词结果中分词数量较少的分词结果,得到所述分词结果;或者,
当所述正向分词结果的词数与所述逆向分词结果词数相同,且所述正向分词结果与所述逆向分词结果相同,输出所述正向分词结果与所述逆向分词结果中的任意一个,得到所述分词结果;或者,
当所述正向分词结果的词数与所述逆向分词结果词数相同,且所述正向分词结果与所述逆向分词结果不同,输出所述正向分词结果与所述逆向分词结果中单字较少的分词结果,得到所述分词结果。
7.一种汉字处理装置,其特征在于,包括:
通信单元,用于接收用户采用手写模式输入的第一汉字文本;
处理单元,用于将所述第一汉字文本转化为笔顺;
所述处理单元,还用于将所述笔顺输入预先训练的模型中,得到第一目标文本;其中,预先训练的模型包括长短期记忆网络LSTM模型和n-gram模型,所述LSTM模型用于根据所述笔顺输出多个候选文本,所述n-gram模型用于基于所述多个候选文本的业务类型对所述多个候选文本进行打分,并根据所述打分输出所述第一目标文本;
所述处理单元,还用于将所述笔顺输入所述LSTM模型,得到所述多个候选文本;
将所述候选文本输入所述n-gram模型;
利用所述n-gram模型确定所述多个候选文本对应的业务类型;
利用所述n-gram模型根据所述多个候选文本对应的业务类型对所述多个候选文本打分;
利用所述n-gram模型根据所述多个候选文本的打分,输出所述第一目标文本。
8.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140933.0A CN112800987B (zh) | 2021-02-02 | 2021-02-02 | 一种汉字处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140933.0A CN112800987B (zh) | 2021-02-02 | 2021-02-02 | 一种汉字处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800987A CN112800987A (zh) | 2021-05-14 |
CN112800987B true CN112800987B (zh) | 2023-07-21 |
Family
ID=75813563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110140933.0A Active CN112800987B (zh) | 2021-02-02 | 2021-02-02 | 一种汉字处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800987B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407874A (zh) * | 2016-03-25 | 2017-02-15 | 东南大学 | 基于笔迹坐标序列的手写识别方法 |
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
US10373022B1 (en) * | 2018-02-28 | 2019-08-06 | Konica Minolta Laboratory U.S.A., Inc. | Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network |
CN110147785A (zh) * | 2018-03-29 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、相关装置和设备 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110705217A (zh) * | 2019-09-09 | 2020-01-17 | 上海凯京信达科技集团有限公司 | 一种错别字检测方法、装置及计算机存储介质、电子设备 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
CN111507346A (zh) * | 2020-04-09 | 2020-08-07 | 磐度科技有限公司 | 一种识别中文书写错误的方法 |
CN111523325A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于笔画的中文命名实体识别方法 |
CN111611791A (zh) * | 2020-04-27 | 2020-09-01 | 鼎富智能科技有限公司 | 一种文本处理的方法及相关装置 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
-
2021
- 2021-02-02 CN CN202110140933.0A patent/CN112800987B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407874A (zh) * | 2016-03-25 | 2017-02-15 | 东南大学 | 基于笔迹坐标序列的手写识别方法 |
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
US10373022B1 (en) * | 2018-02-28 | 2019-08-06 | Konica Minolta Laboratory U.S.A., Inc. | Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network |
CN110147785A (zh) * | 2018-03-29 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、相关装置和设备 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN110705217A (zh) * | 2019-09-09 | 2020-01-17 | 上海凯京信达科技集团有限公司 | 一种错别字检测方法、装置及计算机存储介质、电子设备 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN111507346A (zh) * | 2020-04-09 | 2020-08-07 | 磐度科技有限公司 | 一种识别中文书写错误的方法 |
CN111523325A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于笔画的中文命名实体识别方法 |
CN111611791A (zh) * | 2020-04-27 | 2020-09-01 | 鼎富智能科技有限公司 | 一种文本处理的方法及相关装置 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
Non-Patent Citations (6)
Title |
---|
Chinese Grammatical Error Correction Using Statistical and Neural Models;Junpei Zhou 等;《NLPCC 2018》;117-128 * |
cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information;Shaosheng Cao 等;《The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18)》;第32卷(第1期);5053-5061 * |
Enhancing Handwritten Text Recognition with N-gram sequence decomposition and Multitask Learning;Vasiliki Tassopoulou 等;《arXiv》;1-6 * |
Stroke Sequence-Dependent Deep Convolutional Neural Network for Online Handwritten Chinese Character Recognition;Baotian Hu 等;《arXiv》;1-31 * |
基于 Bi-LSTM-CRF 算法的气象预警信息质控系统的实现;张淑静 等;《计算机与现代化》(第6期);111-115 * |
基于LSTM和N-gram的ESL文章的语法错误自动纠正方法;谭咏梅 等;《中文信息学报》;第32卷(第6期);19-27 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800987A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN113495900A (zh) | 基于自然语言的结构化查询语言语句获取方法及装置 | |
KR20050036857A (ko) | 문자 스트링 식별 | |
CN106997342B (zh) | 基于多轮交互的意图识别方法和装置 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN113342977B (zh) | 发票图像分类方法、装置、设备及存储介质 | |
Khirbat | OCR post-processing text correction using simulated annealing (OPTeCA) | |
CN114861635B (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN110837730B (zh) | 一种未知实体词汇的确定方法及装置 | |
CN114036950A (zh) | 一种医疗文本命名实体识别方法及系统 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112800987B (zh) | 一种汉字处理方法和装置 | |
US10789410B1 (en) | Identification of source languages for terms | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN115017906A (zh) | 一种针对文本中实体的识别方法、装置及存储介质 | |
CN103793378B (zh) | 一种翻译方法和装置 | |
CN113806475A (zh) | 信息回复方法、装置、电子设备和存储介质 | |
CN113326365A (zh) | 回复语句生成方法、装置、设备及存储介质 | |
US6636636B1 (en) | Character recognizing apparatus, method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |