CN111357015B - 文本转换方法、装置、计算机设备和计算机可读存储介质 - Google Patents
文本转换方法、装置、计算机设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111357015B CN111357015B CN201980003381.XA CN201980003381A CN111357015B CN 111357015 B CN111357015 B CN 111357015B CN 201980003381 A CN201980003381 A CN 201980003381A CN 111357015 B CN111357015 B CN 111357015B
- Authority
- CN
- China
- Prior art keywords
- text
- converted
- handwritten
- handwritten word
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本转换方法、装置、计算机设备和计算机可读存储介质,包括:获取待转换文本;对所述待转换文本进行手写词识别,得到识别结果;所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。本发明的方式相较于深度学习识别速度快,并且识别的准确高。
Description
技术领域
本发明涉及文本转换技术领域,尤其涉及一种文本转换方法、装置、计算机设备和计算机可读存储介质。
背景技术
文本正则化是指将文本中具有的手写形式词语转化成口语表达形式词语,如将文本“今天是2019年10月19日”转化为“今天是二零一九年十月十九日”,在此例子中,“2019”、“10”、“19”为手写形式词语,而“二零一九”、“十”和“十九”是“2019”、“10”、“19”的口语表达形式。
现有的文本正则化方法多是基于语言学规则的方法和基于深度学习的方法,基于语言学的方法需要尽可能穷举可能的情况,十分耗时,效率低下;基于深度学习的方法,需要将手写形式的文本输入深度学习模型,即可得到深度学习模型输出的口语形式的文本,但是,深度学习模型识别速度慢,并且,如果训练语料不足,深度学习模型识别的准确率也会比较低。
发明内容
基于此,有必要针对上述问题,提出一种识别速度快且识别准确率高的文本转换方法、装置、计算机设备和计算机可读存储介质。
一种文本转换方法,所述方法包括:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;对所述上下文文本中的手写词进行标记,得到标记文本;将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:获取所述极端梯度提升模型输出的所述手写词的类型;根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,对所述待转换文本进行手写词识别,得到识别结果,包括:对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,在所述获取待转换文本之前,还包括:获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
在一个实施例中,所述获取训练样本集,包括:获取原始样本集,所述原始样本集中包括多个训练样本;从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;将所述目标训练样本复制多次,得到多个复制训练样本;将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
一种文本转换装置,所述装置包括:
文本获取模块,用于获取待转换文本;
第一识别模块,用于对所述待转换文本进行手写词识别,得到识别结果;
第二识别模块,用于所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
识别转换模块,用于根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述第二识别模块,包括:位置确定模块,用于所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;上下文模块,用于根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;文本标记模块,用于对所述上下文文本中的手写词进行标记,得到标记文本;标记输入模块,用于将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述识别转换模块,包括:类型获取模块,用于获取所述极端梯度提升模型输出的所述手写词的类型;手写词转换模块,用于根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;目标转换模块,用于根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述第一识别模块,包括:数字字符模块,用于对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;数字模块,用于识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;字符模块,用于识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,所述装置,还包括:样本集获取模块,用于获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;样本标记模块,用于根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;训练模块,用于将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
在一个实施例中,所述样本集获取模块,包括:原始获取模块,用于获取原始样本集,所述原始样本集中包括多个训练样本;目标挑选模块,用于从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;复制模块,用于将所述目标训练样本复制多次,得到多个复制训练样本;组合模块,用于将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
上述文本转换方法、装置、计算机设备和计算机可读存储介质,首先获取待转换文本;然后对所述待转换文本进行手写词识别,得到识别结果;同时所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;最后根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。可见,由于极端梯度提升模型属于机器学习模型,相较于深度学习模型,机器学习模型的模型结构相对简单,所以相较于深度学习模型,采用极端梯度提升模型对待转换文本中的手写词进行识别具有更快的识别速度,并且,极端梯度提升模型使用叠加的分类器来实现识别,相较于使用单个分类器(例如,单个二叉树)来识别的机器学习模型,具有更高的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中文本转换方法的实现流程示意图;
图2为一个实施例中步骤104的实现流程示意图;
图3为一个实施例中步骤106的实现流程示意图;
图4为一个实施例中步骤108的实现流程示意图;
图5为一个实施例中文本转换装置的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种文本转换方法,本发明实施例所述的文本转换方法的执行主体为能够实现本发明实施例所述的文本转换方法的设备,该设备可以包括但不限于终端和服务器,其中,终端包括移动终端和台式终端,移动终端包括但不限于手机、平板电脑和笔记本电脑,台式终端包括但不限于台式电脑和车载电脑,服务器包括高性能计算机和高性能计算机集群。该文本转换方法,具体包括如下步骤:
步骤102,获取待转换文本。
其中,待转换文本,为待转换的文本。在本发明实施例中,首先获取待转换文本,然后确定待转换文本中是否包含手写词,如果包含有手写词,就对该待转换文本进行转换,得到经过转换之后的目标转换文本。
待转换文本可以是预先设置好的一些文本,例如,系统预先设置好一些文本,并且得到这些文本的目标转换文本,便于后续语音播放;也可以先获取待转换语音,然后对待转换语音进行语音识别,从而得到该待转换文本。
步骤104,对所述待转换文本进行手写词识别,得到识别结果。
其中,手写词,包括:数字和/或字符和/或数字组,例如,待转换文本为“今天是2019年10月19日”,其中,“2019”、“10”以及“19”便是手写词(数字组),而“今天”、“是”、“年”、“月”、“日”则是不用转换的非手写词;再如,“今天是2019/10/19”,其中,“今天”以及“是”是非手写词,“2019”、“/”、“10”、“/”、“19”以及“/”是手写词(数字组和字符);再如,待转换文本为“比分是3:2”,其中,“3:2”是手写词。
对待转换文本进行数字和/或字符识别,若发现待转换文本中存在数字和/或字符,则识别结果为待转换文本中存在手写词;否则,识别结果为待转换文本中不存在手写词。
步骤106,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别。
其中,极端梯度提升模型(eXtreme Gradient Boosting,XGBoost),用于对待转换文本中的手写词进行识别,需要预先对XGBoost模型进行训练得到训练好的XGBoost模型,然后再使用训练好的XGBoost模型对待转换文本中的手写词进行识别。
步骤108,根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
XGBoost模型会输出手写词的识别结果,最后,根据XGBoost模型输出的识别结果即可得到待转换文本对应的目标转换文本,从而实现了对待转换文本的转换。
上述文本转换方法,首先获取待转换文本;然后对所述待转换文本进行手写词识别,得到识别结果;同时所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;最后根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。可见,由于极端梯度提升模型属于机器学习模型,相较于深度学习模型,机器学习模型的模型结构相对简单,所以相较于深度学习模型,采用极端梯度提升模型对待转换文本中的手写词进行识别具有更快的识别速度,并且,极端梯度提升模型使用叠加的分类器来实现识别,相较于使用单个分类器(例如,单个二叉树)来识别的机器学习模型,具有更高的识别准确率。
在一个实施例中,提供了一种对特定形式的连续手写词的识别方法。如图2所示,步骤104所述对所述待转换文本进行手写词识别,得到识别结果,包括:
步骤104A,对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符。
首先对待转化文本进行单字分割,得到多个分割结果,例如,比分是3:2,分割结果为“比”、“分”、“是”、“3”、“:”以及“2”;然后对多个分割结果进行识别,以便确定待转换文本中是否存在数字和字符,示例性的,将多个分割结果分别与预置的数字和字符进行比对,从而确定待转换文本中是否存在数字和字符,例如,将分割结果“3”与预置的数字和字符进行比对,得到多个相似度,从多个相似度中提取得到最大相似度,若最大相似度超过预设值,则确定待转换文本中存在数字,且将最大相似度对应的数字作为分割结果“3”的识别结果。
步骤104B,识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词。
其中,第一预设条件,为预先设置的识别手写词的条件。
示例性的,第一预设条件为连续的数字和/或数字组之间存在中文汉字。例如,待转换文本为“今天是2月9日”,数字为“2”和“9”,连续的数字之间存在中文汉字“月”,则识别结果为所述待转换文本中包含手写词;再如,待转换文本为“今天是2019年10月19日”,数字组为“2019”、“10”以及“19”,连续的数字组之间存在中文汉字“年”以及“月”,则识别结果为所述待转换文本中包含手写词。
步骤104C,识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
其中,第二预设条件,为预先设置的识别手写词的条件。
示例性的,第二预设条件为连续的数字和/或数字组之间存在字符。例如,待转换文本为“比分是3:2”,数字为“3”和“2”,字符为“:”,连续的数字之间存在字符“:”,于是,识别结果为所述待转换文本中包含手写词;再如,待转换文本为“今年是2019/10/23”,数字组为“2019”、“10”以及“23”,字符为“/”,于是,识别结果为所述待转换文本中包含手写词。
在一个实施例中,XGBoost模型通过识别上下文的方式识别手写词。如图3所示,步骤106所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:
步骤106A,所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置。
根据手写词在待转换文本中出现的顺序确定手写词在待转换文本中的位置。例如,待转换文本为“今天是2019年10月19日”,则确定手写词“2019”在待转换文本中的位置为:4;手写词“10”在待转换文本中的位置为:6;手写词“19”在待转换文本中的位置为:8。
步骤106B,根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本。
以手写词在待转换文本中的位置为窗口中心,根据预设的窗口大小截取上下文,从而得到包含手写词的上下文文本。例如,窗口大小为3,手写词“2019”的上下文文本为“是2019年”,手写词“10”的上下文文本为“年10月”。
步骤106C,对所述上下文文本中的手写词进行标记,得到标记文本。
例如,用<norm></norm>对手写词进行标记,于是,上下文文本“是2019年”的标记结果为“是<norm>2019</norm>年”。
步骤106D,将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;步骤108所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:
步骤108A,获取所述极端梯度提升模型输出的所述手写词的类型。
XGBoost模型以标记文本作为输入,以手写词的类型作为输出。其中,手写词的类型,包括数字串型和整数型。
步骤108B,根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果。
例如,手写词“2019”,类型为数字串型,于是,根据数字串型的转换方法和手写词“2019”,得到转换结果为“二零一九”;再如,手写词“10”,类型为整数型,根据整数型的转换方法和手写词“10”,得到转换结果为“十”。
步骤108C,根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
将手写词的转换结果填入待转换文本中,以替换该手写词,即可得到待转换文本对应的目标转换文本。例如,待转换文本“今天是2019年3月3日”,转换结果为“二零一九”、“三”和“三”,于是,目标转换文本为“今天是二零一九年三月三日”。
在一个实施例中,预先对XGBoost模型进行训练,并且,训练过程中,使用包含手写词的上下文进行训练,以便后续在识别的时候也根据上下文进行识别,有效提高识别率。在步骤102所述获取待转换文本之前,还包括:
步骤1、获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词。
其中,训练样本集,包括多个训练样本,使用训练样本集中的多个训练样本对XGBoost模型进行训练。
步骤2、根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本。
首先找到训练样本中的训练手写词,然后根据训练样本获取到包含该训练手写词的上下文文本,最后在上下文文本中对该训练手写词进行标记,得到标记文本。
步骤3、将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
最后,使用标记文本和训练手写词对应的类型对XGBoost模型进行训练,得到训练好的XGBoost模型,以便后续使用该训练好的XGBoost模型进行手写词类型的识别。
在一个实施例中,步骤1所述获取训练样本集,包括:
步骤11,获取原始样本集,所述原始样本集中包括多个训练样本。
在本发明实施例中,直接使用原始样本集对XGBoost模型进行训练,可能会使得训练好的XGBoost模型不能很好的识别某些手写词,导致模型识别率低,于是,对原始样本集中的训练样本进行处理,以便得到训练样本集,训练样本集训练得到的XGBoost模型具有更高的识别率。
步骤12,从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本。
其中,第三预设条件,为预先设置的条件。
例如,根据原始样本集中的多个训练样本的手写词的类型对该多个训练样本进行分类;获取每个类别的训练样本的数量;若某个类别的训练样本的数量少于预设数量,则认为该类别的训练样本满足第三预设条件,从该类别下的训练样本中挑选出一定数量的训练样本(例如,挑选1个),然后将挑选出的一定数量的训练样本作为目标训练样本。如果某个类别的训练样本过少,可能会影响该类别的识别结果。
再如,从原始样本集中挑选出表达方式不同于一般表达方式的比较奇怪、特别的训练样本,这些表达方式奇怪、特别的训练样本可能在平时语音聊天或者微信打字聊天等中很少出现,为了使得XGBoost模型能够对这些手写词进行识别,也需要将相应的训练样本复制多次。例如,对原始样本集中各个训练样本的表达方式进行判断,若判断结果为训练样本的表达方式不属预置表达方式,则认为该训练样本满足第三预设条件,将其作为目标训练样本。
步骤13,将所述目标训练样本复制多次,得到多个复制训练样本。
例如,目标训练样本为“今天是1月1号”,将该目标训练样本复制3次,得到3个复制训练样本。
步骤14,将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
最后,由于目标训练样本进行了多次复制,使得最终组合后训练样本集中的训练样本的数量相对于原始样本集有所增加。
如图5所示,在一个实施例中,提出了一种文本转换装置500,该装置500包括:
文本获取模块502,用于获取待转换文本。
第一识别模块504,用于对所述待转样本换文本进行手写词识别,得到识别结果。
第二识别模块506,用于所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别。
识别转换模块508,用于根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
上述文本转换装置,首先获取待转换文本;然后对所述待转换文本进行手写词识别,得到识别结果;同时所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;最后根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。可见,由于极端梯度提升模型属于机器学习模型,相较于深度学习模型,机器学习模型的模型结构相对简单,所以相较于深度学习模型,采用极端梯度提升模型对待转换文本中的手写词进行识别具有更快的识别速度,并且,极端梯度提升模型使用叠加的分类器来实现识别,相较于使用单个分类器(例如,单个二叉树)来识别的机器学习模型,具有更高的识别准确率。
在一个实施例中,所述第二识别模块506,包括:位置确定模块,用于所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;上下文模块,用于根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;文本标记模块,用于对所述上下文文本中的手写词进行标记,得到标记文本;标记输入模块,用于将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述识别转换模块508,包括:类型获取模块,用于获取所述极端梯度提升模型输出的所述手写词的类型;手写词转换模块,用于根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;目标转换模块,用于根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述第一识别模块504,包括:数字字符模块,用于对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;数字模块,用于识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;字符模块,用于识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,所述装置500,还包括:样本集获取模块,用于获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;样本标记模块,用于根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;训练模块,用于将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
在一个实施例中,所述样本集获取模块,包括:原始获取模块,用于获取原始样本集,所述原始样本集中包括多个训练样本;目标挑选模块,用于从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;复制模块,用于将所述目标训练样本复制多次,得到多个复制训练样本;组合模块,用于将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器和终端。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本转换方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本转换方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本转换方法可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成文本转换装置的各个程序模板。比如,文本获取模块502,第一识别模块504,第二识别模块506,识别转换模块508。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;对所述上下文文本中的手写词进行标记,得到标记文本;将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:获取所述极端梯度提升模型输出的所述手写词的类型;根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述对所述待转换文本进行手写词识别,得到识别结果,包括:对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,所述处理器被所述计算机程序执行时,还用于:在所述获取待转换文本之前,获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
在一个实施例中,所述获取训练样本集,包括:获取原始样本集,所述原始样本集中包括多个训练样本;从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;将所述目标训练样本复制多次,得到多个复制训练样本;将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;对所述上下文文本中的手写词进行标记,得到标记文本;将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:获取所述极端梯度提升模型输出的所述手写词的类型;根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述对所述待转换文本进行手写词识别,得到识别结果,包括:对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,所述处理器被所述计算机程序执行时,还用于:在所述获取待转换文本之前,获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
在一个实施例中,所述获取训练样本集,包括:获取原始样本集,所述原始样本集中包括多个训练样本;从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;将所述目标训练样本复制多次,得到多个复制训练样本;将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
需要说明的是,上述文本转换方法、文本转换装置、计算机设备及计算机可读存储介质属于一个总的发明构思,文本转换方法、文本转换装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本转换方法,其特征在于,所述方法包括:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
2.根据权利要求1所述的方法,其特征在于,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:
所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;
根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;
对所述上下文文本中的手写词进行标记,得到标记文本;
将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
3.根据权利要求1所述的方法,其特征在于,所述识别结果包括手写词的类型;所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:
获取所述极端梯度提升模型输出的所述手写词的类型;
根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;
根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
4.根据权利要求1所述的方法,其特征在于,所述对所述待转换文本进行手写词识别,得到识别结果,包括:
对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;
识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;
识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
5.根据权利要求1所述的方法,其特征在于,在所述获取待转换文本之前,还包括:
获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;
根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;
将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述获取训练样本集,包括:
获取原始样本集,所述原始样本集中包括多个训练样本;
从所述原始样本集中的多个训练样本中挑选出满足第三预设条件的目标训练样本;
将所述目标训练样本复制多次,得到多个复制训练样本;
将所述多个复制训练样本和所述原始样本集中的多个训练样本进行组合得到所述训练样本集。
7.一种文本转换装置,其特征在于,所述装置包括:
文本获取模块,用于获取待转换文本;
第一识别模块,用于对所述待转换文本进行手写词识别,得到识别结果;
第二识别模块,用于所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
识别转换模块,用于根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
8.根据权利要求7所述的装置,其特征在于,所述第二识别模块,包括:
位置确定模块,用于所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;
上下文模块,用于根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;
文本标记模块,用于对所述上下文文本中的手写词进行标记,得到标记文本;
标记输入模块,用于将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文本转换方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本转换方法的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/130366 WO2021134416A1 (zh) | 2019-12-31 | 2019-12-31 | 文本转换方法、装置、计算机设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111357015A CN111357015A (zh) | 2020-06-30 |
CN111357015B true CN111357015B (zh) | 2023-05-02 |
Family
ID=71197849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980003381.XA Active CN111357015B (zh) | 2019-12-31 | 2019-12-31 | 文本转换方法、装置、计算机设备和计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11645474B2 (zh) |
CN (1) | CN111357015B (zh) |
WO (1) | WO2021134416A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494720B2 (en) * | 2020-06-30 | 2022-11-08 | International Business Machines Corporation | Automatic contract risk assessment based on sentence level risk criterion using machine learning |
CN113569568A (zh) * | 2021-07-29 | 2021-10-29 | 中国工商银行股份有限公司 | 文本识别方法、装置、电子设备、存储介质及转账方法 |
CN117574896B (zh) * | 2024-01-16 | 2024-04-09 | 之江实验室 | 基于电子病历文本的手术费用识别方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
US10042880B1 (en) * | 2016-01-06 | 2018-08-07 | Amazon Technologies, Inc. | Automated identification of start-of-reading location for ebooks |
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110489746A (zh) * | 2019-07-31 | 2019-11-22 | 深圳市优必选科技股份有限公司 | 一种信息提取方法、信息提取装置及智能终端 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
TWI421857B (zh) * | 2009-12-29 | 2014-01-01 | Ind Tech Res Inst | 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 |
CN107590192B (zh) * | 2017-08-11 | 2023-05-05 | 深圳市腾讯计算机系统有限公司 | 文本问题的数学化处理方法、装置、设备和存储介质 |
CA3014377A1 (en) * | 2017-08-16 | 2019-02-16 | Royal Bank Of Canada | Systems and methods for early fraud detection |
CN108009160A (zh) * | 2017-11-30 | 2018-05-08 | 北京金山安全软件有限公司 | 含有命名实体的语料翻译方法、装置、电子设备及存储介质 |
CN110263784A (zh) * | 2019-06-13 | 2019-09-20 | 陕西国际商贸学院 | 智能的英语试卷成绩识别录入方法 |
CN110532381B (zh) * | 2019-07-15 | 2023-09-26 | 中国平安人寿保险股份有限公司 | 一种文本向量获取方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-31 WO PCT/CN2019/130366 patent/WO2021134416A1/zh active Application Filing
- 2019-12-31 CN CN201980003381.XA patent/CN111357015B/zh active Active
-
2020
- 2020-12-24 US US17/133,673 patent/US11645474B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
US10042880B1 (en) * | 2016-01-06 | 2018-08-07 | Amazon Technologies, Inc. | Automated identification of start-of-reading location for ebooks |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN108959242A (zh) * | 2018-05-08 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110489746A (zh) * | 2019-07-31 | 2019-11-22 | 深圳市优必选科技股份有限公司 | 一种信息提取方法、信息提取装置及智能终端 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2021134416A1 (zh) | 2021-07-08 |
US11645474B2 (en) | 2023-05-09 |
CN111357015A (zh) | 2020-06-30 |
US20210200962A1 (en) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN109766438B (zh) | 简历信息提取方法、装置、计算机设备和存储介质 | |
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
WO2018153265A1 (zh) | 关键词提取方法、计算机设备和存储介质 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN109344830B (zh) | 语句输出、模型训练方法、装置、计算机设备及存储介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN112633423B (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN112990175B (zh) | 手写中文字符的识别方法、装置、计算机设备和存储介质 | |
Van Phan et al. | A nom historical document recognition system for digital archiving | |
CN113672736B (zh) | 一种文本多标签分类方法及系统 | |
CN111382570B (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN114357174B (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN112800771B (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
CN115661846A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111382569B (zh) | 对话语料中实体的识别方法、装置和计算机设备 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231208 Address after: Room 601, 6th Floor, Building 13, No. 3 Jinghai Fifth Road, Beijing Economic and Technological Development Zone (Tongzhou), Tongzhou District, Beijing, 100176 Patentee after: Beijing Youbixuan Intelligent Robot Co.,Ltd. Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province Patentee before: Shenzhen UBTECH Technology Co.,Ltd. |