CN110688411A - 一种文本识别方法及装置 - Google Patents
一种文本识别方法及装置 Download PDFInfo
- Publication number
- CN110688411A CN110688411A CN201910913133.0A CN201910913133A CN110688411A CN 110688411 A CN110688411 A CN 110688411A CN 201910913133 A CN201910913133 A CN 201910913133A CN 110688411 A CN110688411 A CN 110688411A
- Authority
- CN
- China
- Prior art keywords
- text
- target text
- identification
- recognition
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Character Discrimination (AREA)
Abstract
公开了一种文本识别方法及装置,包括:获取目标文本中多个字符各自对应的编码值;获取所述目标文本中各个字符的标识;基于所述各个字符对应的编码值及所述各个字符的标识,确定所述目标文本对应的编码值序列;根据预设的识别模型对所述目标文本对应的编码值序列进行识别,并输出第一识别结果。通过获取目标文本中各字符对应的编码值和标识,进而通过各个字符对应的编码值及标识确定目标文本的编码值序列,实现了对于目标文本高效简便的向量化,且无需人工提炼特征,向量的准确性得以保障。
Description
技术领域
本公开涉及数据分析技术领域,尤其涉及一种文本识别方法及装置。
背景技术
在文字或计算机代码等各种文本的创作过程中,不同的作者、不同的文本类型都具有明显的风格和特点。以至于这种“风格和特点”已经具有统计学意义上的特征。换言之,通过对文本的特征进行分析,能够鉴定文本的作者身份或者文本类型。
在现有技术中,可以基于抽象语法树(Abstract Syntax Tree,简称AST)对文本进行向量化,进而输入神经网络以识别其作者。但是这种对文本进行向量化的方式相对复杂,效率低下。而且本质上依然接近于人工提炼特征,对于特征的提炼存在误差。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种文本识别方法及装置,通过将文本转换成编码值序列,并利用识别模型进行识别和分析,获得相应的识别结果。
根据本公开的第一个方面,提供了一种文本识别方法,包括:
获取目标文本中多个字符各自对应的编码值;
获取所述目标文本中各个字符的标识;
基于所述各个字符对应的编码值及所述各个字符的标识,确定所述目标文本对应的编码值序列;
根据预设的识别模型对所述目标文本对应的编码值序列进行识别,并输出第一识别结果。
根据本公开的第二个方面,提供了一种识别模型的训练方法,包括:
获取所述样本文本的标注信息;
确定所述样本文本对应的编码值序列;
根据预设的识别模型对所述样本文本对应的编码值序列进行识别,并输出第二识别结果;
确定所述样本文本的标注信息与所述第二识别结果之间的损失值;
当所述损失值符合预设条件,调整所述识别模型的权重参数。
根据本公开的第三个方面,提供了一种文本识别装置,包括:
编码值获取模块,用于获取目标文本中多个字符各自对应的编码值;
标识获取模块,用于获取所述目标文本中各个字符的标识;
编码值序列确定模块,用于基于所述各个字符对应的编码值及所述各个字符的标识,确定所述目标文本对应的编码值序列;
识别模块,用于根据预设的识别模型对所述目标文本对应的编码值序列进行识别,并输出第一识别结果。
根据本公开的第四方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面中所述的文本识别方法。
根据本公开的第五方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述第一方面中所述的文本识别方法。
与现有技术相比,采用根据本公开提供的文本识别方法及装置,通过获取目标文本中各字符对应的编码值和标识,进而通过各个字符对应的编码值及标识确定目标文本的编码值序列,实现了对于目标文本高效简便的向量化,且无需人工提炼特征,向量的准确性得以保障。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开一示例性实施例提供的文本识别系统的结构示意图;
图2为本公开一示例性实施例提供的文本识别方法的流程示意图;
图3为本公开一示例性实施例提供的文本识别方法的流程示意图;
图4为本公开一示例性实施例提供的文本识别方法涉及的编码值序列的可视化示意图;
图5为本公开一示例性实施例提供的识别模型的训练方法的流程示意图;
图6为本公开一示例性实施例提供的文本识别装置的结构示意图;
图7为本公开一示例性实施例提供的文本识别装置中编码值获取模块的结构示意图;
图8为本公开一示例性实施例提供的文本识别装置中标识获取模块的结构示意图;
图9为本公开一示例性实施例提供的文本识别装置中识别模块的结构示意图;
图10为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
申请概述
在文字或计算机代码等各种文本的创作过程中,不同的作者、不同的文本类型都具有明显的风格和特点。以至于这种“风格和特点”已经具有统计学意义上的特征。因此基于现有的人工智能技术,对文本的特征进行分析,能够鉴定文本的作者身份或者文本的类型,以及其他各种关于文本的信息。
例如,可通过对文章的分析,从而识别出文章的作者、文体类型、内容题材等信息。或者也可对计算机代码进行分析,从而识别出代码的作者、代码语言等信息。
文本的表现形式十分多样,无法直接对基于人工智能技术的识别模型输入。所以必须首先对文本进行向量化,从而得到可向识别模型输入的向量。但现有技术中对文本进行向量化的方式相对复杂,效率低下,本质上依然接近于人工提炼特征,对于特征的提炼存在误差。
示例性系统
本公开中,将通过特定的转码模型,以特有的方式实现对于目标文本的向量化,将目标文本转换成二维向量。具体的,可以获取目标文本中各字符对应的编码值和标识。进而通过各个字符对应的编码值及标识,确定目标文本的编码值序列。在编码值序列中,编码值和标识可分别的作为向量两个维度。即意味着,编码值序列本质上便是一种二维向量。上述编码值序列可直接作为对于预先训练的识别模型的输入。由此解决了文本向量化困难的问题。
通过识别模型对编码值序列进行识别和分析,即可获悉其中统计学意义上的规律,由此实现对于目标文本的作者或者文本类型的识别。需要说明的是,上述的识别模型可以预先的针对实际使用需求进行训练。例如,可以利用对应某一特定作者的样本文本进行监督学习训练,使得训练得到的识别模型能够识别出目标文本是否为该作者所创作。或者可以利用对应某一类型的样本文本进行监督学习训练,使得训练得到的识别模型能够识别出目标文本是否属于该类型。
如图1所示,即转码模型与识别模型组成系统的结构示意图。
示例性方法
图2是本公开一示例性实施例提供的文本识别方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例包括如下步骤:
步骤201、获取目标文本中多个字符各自对应的编码值。
目标文本是本实施例中待识别的对象,具体可以是以“字母”作为语言载体的文本。编码值可以认为是字符的“特征值”,体现了上述二维向量中的一个维度。由于大部分以“字母”作为语言载体的文本,字符数量都比较少。所以可为此类目标文本中每个可能出现的字符设定对应的编码值。
以计算机代码为例。绝大部分计算机代码中,可能出现的字符包括:英文字母、阿拉伯数字、运算符号、标点符号、以及一些表示数学含义的希腊字母。常见字符的总量在100个左右。可见,为其中每个字符设定一个对应的编码值以便于进行向量化,是完全可行的。
具体的,可以预设编码表格。该编码表格中包括了目标文本中所有可能出现的字符;每个字符对应一个唯一的编码值。该编码值优选的可以是“数值”的形式。根据目标文本中的字符查询该编码表格,即可获得字符各自对应的编码值。
步骤202、获取目标文本中各个字符的标识。
字符的标识可以认为是字符的“序号”,体现了上述二维向量中的另一个维度。通过字符的标识能够确定目标文本中各个字符的排列顺序。
步骤203、基于各个字符对应的编码值及各个字符的标识,确定目标文本对应的编码值序列。
通过上述的编码值和标识两个维度,能够体现出目标文本中每个字符的“特征值”以及排列顺序。通过编码值和标识可以确定目标文本对应的编码值序列。也就是说,该编码值序列本质上是一个二维向量,并且完整了涵盖了目标文本中的文本信息。由此,本实施例实现了对于目标文本高效简便的向量化,且无需人工提炼特征,向量的准确性得以保障。
步骤204、根据预设的识别模型对目标文本对应的编码值序列进行识别,并输出第一识别结果。
识别模型具体可以是基于循环神经网络(Recurrent Neural Network,简称RNN)或卷积神经网络(Convolutional Neural Networks,简称CNN)建立的运算模型;也可以是结合RNN与CNN二者建立的运算模型。上述的编码值序列可直接作为识别模型的输入,由此通过识别模型对编码值序列进行识别和分析,即可获悉其中统计学意义上的规律。
识别模型的具体结构可选用现有的RNN或CNN模型结构,也可根据需求建立相应的模型结构,本实施例对此不做限定。但为了实现特定的识别功能,还需在确定模型结构的基础上进一步的进行针对性训练。识别模型的实际可识别的内容,取决于训练所利用的样本文本以及样本文本的标注信息。
具体来说,实际应用中可基于某一作者对大量的样本文本进行标注。例如可针对1000个英文样本文本,标注其作者是否为“Dickens”。并利用标注后的样本文本对识别模型进行监督学习训练,使得训练得到的识别模型能够识别出目标文本是否为“Dickens”所创作。或者,也可以基于某一文本类型对大量的样本文本进行标注。例如可针对2000个计算机代码,标注其文本类型是否为“C语言”。并利用标注后的样本文本对识别模型进行监督学习训练,使得训练得到的识别模型能够识别出目标文本的类型是否为“C语言”。
同理的,还可通过其他各种方式标注的样本文本进行训练,使识别模型能够完成各种不同的文本识别。本实施例中对此不作限定。任何具有相同或类似功能的识别模型均可结合在本实施例整体技术方案中。
向预设的识别模型输入编码值序列后,识别模型即可执行训练取得的特定功能,对编码值序列进行识别,以确定目标文本对应的第一识别结果;也就是根据训练内容,自动的识别得到目标文本的作者身份、文本类型或其他可能的相关信息。
通过以上技术方案可知,本实施例存在的有益效果是:通过获取目标文本中各字符对应的编码值和标识,进而通过各个字符对应的编码值及标识确定目标文本的编码值序列,实现了对于目标文本高效简便的向量化,且无需人工提炼特征,向量的准确性得以保障。
如图2所示仅为本公开方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到方法的其他优选实施例。
如图3所示,是本公开另一示例性实施例提供的文本识别方法的流程示意图。本实施例可应用在电子设备上。本实施例中,将结合应用场景进行具体的描述。如图3所示,本实施例包括如下步骤:
步骤301、基于预设的编码方式确定目标文本中各个字符对应的编码值。
假设本实施例中,目标文本为一段计算机代码“defdemo():”。需要说明的是,本实施例中为进行举例说明,所以选取的目标文本较为简短。实际应用中,则目标文本的内容会更加丰富。
计算机代码中可能出现的字符包括:英文字母、希腊字母、阿拉伯数字、运算符号、标点符号等。字符的种类数非常有限,且范围相对固定。所以本实施例中,预设的编码方式优选的可以包括十进制ASCII码。即以十进制ASCII码作为图2实施例中涉及的编码表格。计算机代码中出现的几乎所有字符,都能够通过十进制ASCII码获得一个相应的编码值。十进制ASCII码为国际标准的编码规则,在此无需赘述。
基于十进制ASCII码获得上述目标文本中各字符于编码值的对应关系如表1所示。
表1
字符 | 编码值 |
d | 100 |
e | 101 |
f | 102 |
m | 109 |
o | 111 |
( | 40 |
) | 41 |
: | 58 |
Space(空格) | 32 |
步骤302、获取各个字符在目标文本中出现的顺序标识。
同样结合上述的目标文本,各字符于顺序标识的对应关系如表2所示:
表2
步骤303、基于各个字符对应的编码值及各个字符的标识,确定目标文本对应的编码值序列。
结合上述的表1和表2,可以为各个编码值进行排序,以得到目标文本对应的编码值序列,具体如下:
[100,101,102,32,100,101,109,111,40,41,58]
可以认为,上述的编码值序列中包括了目标文本中完整的文本信息。上述的编码值序列,即目标文本的向量化结果。另外,从可视化的角度来讲,还可将上述的编码值序列以直角坐标系中的折线图的形式展现,以便于更直观的体现出编码值序列中的二维关系。上述编码值序列对应的折线图如图4所示。图4中,横坐标轴代表顺序标识,纵坐标轴代表编码值。
并且结合本实施例可以理解的是,除了计算机代码外,常见的如英文文本、法文文本、德文文本等各种以“字母”作为语言载体的文本,均可利用上述的方式完成向量化;或者通过选择其他的编码方式完成向量化。因此可认为,本实施例中方法对于各种以“字母”作为语言载体的目标文本具有广泛的普适性。
步骤304、根据预设的识别模型对目标文本对应的编码值序列进行识别,并输出第一识别结果。
通过以上技术方案可知,本实施例在图2所示实施例的基础上,进一步存在的有益效果是:通过预设的编码方式确定目标文本中各个字符对应的编码值,由此实现对于目标文本的向量化,使得本实施例中方法对于各种以“字母”作为语言载体的目标文本具有广泛的普适性。
如图5所示,为本公开一示例性实施例提供的识别模型的训练方法的流程示意图。本实施例中描述了图2~3所示实施例中,涉及的识别模型的训练过程。本实施例中方法包括以下步骤:
步骤501、获取样本文本的标注信息。
为了使识别模型实现特定的识别功能,需要在进行如图2~3所示实施例中涉及的文本识别之前,对识别模型进行针对性训练。识别模型的实际可识别的内容,取决于训练所利用的样本文本以及样本文本的标注信息。通过对于样本文本的选择,以及对于样本文本的标注,可以使识别模型实现识别如文章的作者、文体类型、内容题材等具体的信息;或者识别出计算机代码的作者、代码语言等具体的信息。
实际应用中可基于某一作者对大量的样本文本进行标注。或者,也可以基于某一文本类型对大量的样本文本进行标注。进而获取样本文本和样本文本的标注信息,以用于进行后续的训练。
例如本实施例中,训练该识别模型的目的在于,识别一段英文目标文本的作者是否为“Dickens”。则可针对1000个英文样本文本,标注其作者是否为“Dickens”。则由此训练得到的识别模型能够识别出目标文本是否为“Dickens”所创作。
当然在其他实施例中,同理的还可通过其他各种方式标注的样本文本进行训练,使识别模型能够完成各种不同的文本识别。
步骤502、确定样本文本对应的编码值序列。
针对样本文本进行向量化,以确定样本文本对应的编码值序列的过程,同理于图2~3所示实施例中对于目标文本向量化的相关步骤,在此不重复叙述。
步骤503、根据预设的识别模型对样本文本对应的编码值序列进行识别,并输出第二识别结果。
利用目前的识别模型,即未完成训练的识别模型对样本文本对应的编码值序列进行识别,得到相应的第二识别结果。本实施例中,第二识别结果即是识别模型对于样本文本的作者是否为“Dickens”的判断结果。
步骤504、确定样本文本的标注信息与第二识别结果之间的损失值。
如果识别模型足够准确,则上述的第二识别结果应当与上述的标注信息一致。也就是,识别模型对于样本文本的作者是否为“Dickens”的判断结果,应当与事实相同。
但实际上,由于此时识别模型尚未完成训练,所以第二识别结果与标注信息往往有所出入。则本步骤中,可通过特定的损失函数计算得到样本文本的标注信息与第二识别结果之间的损失值。该损失值即意味着此时识别模型的准确程度。本实施例中对于损失函数的具体形式不做限定,本领域中能实现相同或类似效果的计算逻辑均可结合在本实施例当中。
步骤505、根据损失值训练识别模型。
根据损失值对于识别模型的训练原理,可参照现有技术中的模型训练过程。具体可以是在所述损失值符合预设条件时,调整所述识别模型的权重参数。
本步骤中涉及的预设条件,可以是针对损失值设置的值域区间。当损失值处在此值域区间中,即认为损失值符合预设条件,并认为此时第二识别结果相对于标注信息损失过高,识别模型的准确性不符合要求。
则此时可调整识别模型的权重参数,以实现对于识别模型的训练。可以认为,本领域中对于识别模型的训练,即是一个循环多次计算损失值,并调整权重参数的过程。直到损失值不再符合预设条件,或者循环次数达到预设的标准,则认为训练完成,训练后得到的识别模型能够准确的完成训练过程所针对的特定识别功能。
通过以上技术方案可知,本实施例存在的有益效果是:通过获取样本文本的标注信息,并根据第二识别结果与标注信息之间的损失值进行对于识别模型的训练,使得训练得到的识别模型能够准确的完成训练过程所针对的特定识别功能。
示例性装置
图6是本公开一示例性实施例提供的文本识别装置的结构示意图。本实施例装置,即用于执行图2~图3方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中装置包括:
编码值获取模块601,用于获取目标文本中多个字符各自对应的编码值。
标识获取模块602,用于获取目标文本中各个字符的标识。
编码值序列确定模块603,用于基于各个字符对应的编码值及各个字符的标识,确定目标文本对应的编码值序列。
识别模块604,用于根据预设的识别模型对目标文本对应的编码值序列进行识别,并输出第一识别结果。
图7是本公开另一示例性实施例提供的文本识别装置中编码值获取模块601的结构示意图。如图7所示,在示例性实施例中,编码值获取模块601包括:
编码方式确定单元711,用于预设编码方式;预设的编码方式包括十进制ASCII码。
编码值确定单元712,用于基于预设的编码方式确定目标文本中各个字符对应的编码值。
图8是本公开另一示例性实施例提供的文本识别装置中标识获取模块602的结构示意图。如图8所示,在示例性实施例中,标识获取模块602包括:
标识标定单元811,用于标定目标文本中各个字符的顺序标识。
标识获取单元812,用于获取目标文本中各个字符的顺序标识。
图9是本公开另一示例性实施例提供的文本识别装置中识别模块604的结构示意图。如图9所示,在示例性实施例中,识别模块604包括卷积神经网络计算单元911和循环神经网络计算单元912。识别模块604通过样本文本和样本文本的标注信息训练得到。
示例性电子设备
下面,参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图10图示了根据本公开实施例的电子设备的框图。
如图10所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的文本识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种文本识别方法,包括:
获取目标文本中多个字符各自对应的编码值;
获取所述目标文本中各个字符的标识;
基于所述各个字符对应的编码值及所述各个字符的标识,确定所述目标文本对应的编码值序列;
根据预设的识别模型对所述目标文本对应的编码值序列进行识别,并输出第一识别结果。
2.根据权利要求1所述方法,所述获取目标文本中多个字符各自对应的编码值包括:
基于预设的编码方式确定所述目标文本中各个字符对应的编码值,所述预设的编码方式包括十进制ASCII码。
3.根据权利要求1所述方法,所述各个字符的标识包括:
各个字符在所述目标文本中出现的顺序标识。
4.根据权利要求1~3任意一项所述方法,所述预设的识别模型包括:
卷积神经网络及循环神经网络。
5.根据权利要求1~3任意一项所述方法,所述预设的识别模型通过样本文本和所述样本文本的标注信息训练得到。
6.一种识别模型的训练方法,包括:
获取样本文本的标注信息;
确定所述样本文本对应的编码值序列;
根据预设的识别模型对所述样本文本对应的编码值序列进行识别,并输出第二识别结果;
确定所述样本文本的标注信息与所述第二识别结果之间的损失值;
根据所述损失值训练所述识别模型。
7.根据权利要求6所述方法,所述样本文本的标注信息包括:
样本文本的作者信息和/或类型信息。
8.一种文本识别装置,包括:
编码值获取模块,用于获取目标文本中多个字符各自对应的编码值;
标识获取模块,用于获取所述目标文本中各个字符的标识;
编码值序列确定模块,用于基于所述各个字符对应的编码值及所述各个字符的标识,确定所述目标文本对应的编码值序列;
识别模块,用于根据预设的识别模型对所述目标文本对应的编码值序列进行识别,并输出第一识别结果。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的文本识别方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-5任一所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913133.0A CN110688411A (zh) | 2019-09-25 | 2019-09-25 | 一种文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913133.0A CN110688411A (zh) | 2019-09-25 | 2019-09-25 | 一种文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688411A true CN110688411A (zh) | 2020-01-14 |
Family
ID=69110311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910913133.0A Pending CN110688411A (zh) | 2019-09-25 | 2019-09-25 | 一种文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688411A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914825A (zh) * | 2020-08-03 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置及电子设备 |
CN113392638A (zh) * | 2021-06-11 | 2021-09-14 | 北京世纪好未来教育科技有限公司 | 文本评估方法、装置、设备及介质 |
CN114743012A (zh) * | 2022-04-08 | 2022-07-12 | 北京金堤科技有限公司 | 一种文本识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110008961A (zh) * | 2019-04-01 | 2019-07-12 | 深圳市华付信息技术有限公司 | 文字实时识别方法、装置、计算机设备及存储介质 |
CN110020424A (zh) * | 2019-01-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 合同信息的提取方法、装置和文本信息的提取方法 |
CN110046637A (zh) * | 2018-12-25 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种合同段落标注模型的训练方法、装置及设备 |
CN110083741A (zh) * | 2019-04-11 | 2019-08-02 | 中国科学技术大学 | 文本与图像联合建模的面向人物的视频摘要提取方法 |
-
2019
- 2019-09-25 CN CN201910913133.0A patent/CN110688411A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN110046637A (zh) * | 2018-12-25 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种合同段落标注模型的训练方法、装置及设备 |
CN110020424A (zh) * | 2019-01-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 合同信息的提取方法、装置和文本信息的提取方法 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN110008961A (zh) * | 2019-04-01 | 2019-07-12 | 深圳市华付信息技术有限公司 | 文字实时识别方法、装置、计算机设备及存储介质 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110083741A (zh) * | 2019-04-11 | 2019-08-02 | 中国科学技术大学 | 文本与图像联合建模的面向人物的视频摘要提取方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914825A (zh) * | 2020-08-03 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置及电子设备 |
CN111914825B (zh) * | 2020-08-03 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置及电子设备 |
CN113392638A (zh) * | 2021-06-11 | 2021-09-14 | 北京世纪好未来教育科技有限公司 | 文本评估方法、装置、设备及介质 |
CN114743012A (zh) * | 2022-04-08 | 2022-07-12 | 北京金堤科技有限公司 | 一种文本识别方法及装置 |
CN114743012B (zh) * | 2022-04-08 | 2024-02-06 | 北京金堤科技有限公司 | 一种文本识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN111738001B (zh) | 同义词识别模型的训练方法、同义词确定方法及设备 | |
CN107015964B (zh) | 面向智能机器人开发的自定义意图实现方法及装置 | |
CN110688411A (zh) | 一种文本识别方法及装置 | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
CN113849648B (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN109726391B (zh) | 对文本进行情感分类的方法、装置及终端 | |
CN110399547B (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN112257417A (zh) | 一种多任务命名实体识别训练方法、介质及终端 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN116821195B (zh) | 一种基于数据库自动生成应用的方法 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN117633639A (zh) | 一种自动识别考题的难易程度的方法及装置 | |
CN111488513A (zh) | 用于生成页面的方法和装置 | |
US20230186613A1 (en) | Sample Classification Method and Apparatus, Electronic Device and Storage Medium | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN112529172A (zh) | 数据处理方法和数据处理设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |