CN110929749A - 文本识别方法、装置、介质及电子设备 - Google Patents

文本识别方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110929749A
CN110929749A CN201910979595.2A CN201910979595A CN110929749A CN 110929749 A CN110929749 A CN 110929749A CN 201910979595 A CN201910979595 A CN 201910979595A CN 110929749 A CN110929749 A CN 110929749A
Authority
CN
China
Prior art keywords
text
recognized
character
vector
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910979595.2A
Other languages
English (en)
Other versions
CN110929749B (zh
Inventor
回艳菲
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910979595.2A priority Critical patent/CN110929749B/zh
Publication of CN110929749A publication Critical patent/CN110929749A/zh
Application granted granted Critical
Publication of CN110929749B publication Critical patent/CN110929749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供了一种文本识别方法、装置、介质及电子设备。该方法包括获取待识别文本,计算待识别文本的哈希值;获取待识别文本的哈希值对应的第一文本向量组,对于待识别文本中的每个待识别字符,根据该待识别字符的部首组合得到第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组;根据该待识别字符的拼音得到第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组;求待识别文本与标准文本库中每个标准文本的第一向量距离、第二向量距离、第三向量距离的加权平均值作为待识别文本和每个标准文本之间的加权平均向量距离;将最小的加权平均向量距离对应的标准文本作为待识别文本的识别结果。

Description

文本识别方法、装置、介质及电子设备
技术领域
本申请涉及通信技术领域,特别涉及一种文本识别方法、装置、介质及电子设备。
背景技术
随着我国信息化建设的全面开展,文字识别技术得到了广泛应用。现在常用的文字识别方法有模板匹配法和几何特征抽取法,模板匹配法将输入的文字与给定的各类别标准文字进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果;几何特征抽取法抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。
但是当需要识别的文字字迹潦草时,单单匹配文字外形并不能准确的识别出句子或词汇,经常发生识别不准确的情况。
发明内容
本申请旨在提供一种文本识别方法、装置、介质及电子设备,其能够准确的识别待识别文本。
根据本申请实施例的一个方面,提供了一种文本识别方法,包括:获取待识别文本;将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成;获取所述待识别文本中的待识别字符;对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
根据本申请实施例的一个方面,提供了一种文本识别装置,包括:文本获取模块,用于获取待识别文本;第一计算模块,用于将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;第一向量组获取模块,用于获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述待识别文本的哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成;字符获取模块,用于获取所述待识别文本中的待识别字符;第二向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;第三向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;第二计算模块,用于分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;第三计算模块,用于求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;确定模块,用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,所述文本识别装置还包括:标准文本获取模块,用于获取多个标准文本,对于每个所述标准文本,将该标准文本按照哈希算法计算得到该标准文本对应的哈希值;获取与该标准文本的哈希值对应的第一标准文本向量组,其中,所述第一标准文本向量组由该标准文本的哈希值的每个字符对应的字符向量按照该标准文本的哈希值的字符顺序串接而成;获取该标准文本中的标准字符;对于每个标准字符,获取该标准字符中的部首作为与该标准字符对应的部首组合,将所述标准字符对应的部首组合输入第一机器学习模型得到该标准字符对应的第二向量,所述第二向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第二标准文本向量组;对于每个所述标准字符,获取该标准字符的拼音,将该标准字符的拼音输入第二机器学习模型得到与该标准字符对应的第三向量,所述第三向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第三标准文本向量组。
在本申请的一些实施例中,基于前述方案,所述文本识别装置还包括:统计模块,用于统计所述待识别文本中字符的数量;所述文本获取模块还配置为:若所述待识别文本中的字符的数量达到设定值,则获取所述待识别文本中的待识别关键词;所述第一计算模块还配置为:将所述待识别关键词按照哈希算法计算得到所述待识别关键词对应的哈希值;所述第一向量组获取模块还配置为:获取与所述待识别关键词的哈希值对应的第一词向量组,其中,所述第一词向量组由所述待识别关键词的哈希值的每个字符对应的字符向量按照待识别关键词的哈希值的字符顺序串接而成;所述字符获取模块还配置为:获取所述待识别关键词中的待识别字符;所述第二向量组获取模块还配置为:对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第二词向量组;所述第三向量组获取模块还配置为:对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第三词向量组;所述第二计算模块还配置为:分别求所述待识别关键词的第一词向量组、第二词向量组、第三词向量组与标准关键词库中每个标准关键词的第一标准词向量组、第二标准词向量组、第三标准词向量组的向量距离,作为待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离;所述第三计算模块还配置为:求待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离的加权平均值,作为待识别关键词和每个标准关键词之间的加权平均向量距离;所述确定模块还配置为:将最小的加权平均向量距离对应的标准关键词按照所述待识别关键词在所述待识别文本中的顺序组合,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,所述确定模块还配置为:获取所述加权平均值达到阈值的标准文本,若所述加权平均值达到阈值的标准文本有多个,则将所述加权平均值达到阈值的多个标准文本发送给用户以供用户选择;获取所述用户选择的标准文本,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,所述文本识别装置还包括:第四向量组计算模块,用于根据所述部首组合中的每个部首查找预设的部首语义对照表获得所述每个部首对应的语义;根据所述部首在所述部首组合中的顺序将所述部首对应的语义组合;将所述语义组合输入第三机器学习模型得到该待识别字符对应的第四向量,所述第四向量按照所述待识别字符在所述待识别文本中的顺序排列成为第四文本向量组;所述第二计算模块还用于求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组、第四文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组、第四标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离;所述第三计算模块还用于作为待识别文本和每个标准文本之间的加权平均向量距离;求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离的加权平均值,所述确定模块还用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
根据本申请实施例的一个方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行上任一项所述的方法。
根据本申请实施例的一个方面,提供了一种电子装置,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上任一项所述的方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请的一些实施例所提供的技术方案中,通过获取待识别文本,将待识别文本与标准文本进行比较得到识别结果。首先将待识别文本按照哈希算法计算得到待识别文本对应的哈希值,获取与待识别文本的哈希值对应的第一文本向量组,其中,第一文本向量组由哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成,求待识别文本的第一文本向量组和标准文本库中每个标准文本的第一标准文本向量组的向量距离得到第一向量距离。第一向量距离的大小代表待识别文本与每个标准文本的区别大小。再获取待识别文本中的待识别字符,对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组,求待识别文本的第二文本向量组和标准文本库中每个标准文本的第二标准文本向量组的向量距离得到第二向量距离。第二向量距离的大小代表待识别文本与每个标准文本包含的部首的区别大小。对于每个待识别字符,再获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组,求待识别文本的第三文本向量组和标准文本库中每个标准文本的第三标准文本向量组的向量距离得到第三向量距离。第三向量距离的大小代表待识别文本与每个标准文本的拼音的区别大小。最后求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离,将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。由于在获取待识别文本的识别结果时,考虑了待识别文本本身和标准文本的区别,考虑了待识别文本的部首和标准文本部首的区别,考虑了待识别文本的拼音和标准文本拼音的区别,同时又考虑了三者的权重,可以使获得的识别结果更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。
图1示意性示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示意性示出了根据本申请的一个实施例的文本识别方法的流程图;
图3示意性示出了根据本申请的一个实施例的文本识别方法的流程图;
图4示意性示出了根据本申请的一个实施例的文本识别方法的流程图;
图5示意性示出了根据本申请的一个实施例的文本识别装置的框图;
图6是根据一示例性实施例示出的一种文本识别装置的硬件图;
图7是根据一示例性实施例示出的一种用于实现上述文本识别方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101(终端设备可以为智能手机、平板电脑、便携式计算机、台式计算机、挂号机中的一种或多种)、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备101、网络102、和服务器103。比如服务器103可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,服务器103可以获取用户从终端设备101输入的待识别文本,待识别文本可以是语音文本或由文字文本。用户可以通过终端设备101中的客户端或网页输入待识别文本。服务器103通过获取待识别文本,将待识别文本与标准文本进行比较得到识别结果。服务器103首先将待识别文本按照哈希算法计算得到待识别文本对应的哈希值,获取与哈希值对应的第一文本向量组,其中,第一文本向量组由哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成,求待识别文本的第一文本向量组和标准文本库中每个标准文本的第一标准文本向量组的向量距离得到第一向量距离。第一向量距离的大小代表待识别文本与每个标准文本的区别大小。服务器103再获取待识别文本中的待识别字符,对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组,求待识别文本的第二文本向量组和标准文本库中每个标准文本的第二标准文本向量组的向量距离得到第二向量距离。第二向量距离的大小代表待识别文本与每个标准文本包含的部首的区别大小。对于每个待识别字符,服务器103再获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组,求待识别文本的第三文本向量组和标准文本库中每个标准文本的第三标准文本向量组的向量距离得到第三向量距离。第三向量距离的大小代表待识别文本与每个标准文本的拼音的区别大小。最后,服务器103求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离,将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。由于服务器103在获取待识别文本的识别结果时,考虑了待识别文本本身和标准文本的区别,考虑了待识别文本的部首和标准文本部首的区别,考虑了待识别文本的拼音和标准文本拼音的区别,同时又考虑了三者的权重,可以使获得的识别结果更加准确。
需要说明的是,本申请实施例所提供的文本识别方法一般由服务器103执行,相应地,文本识别装置一般设置于服务器103中。但是,在本申请的其它实施例中,终端设备101也可以与服务器103具有相似的功能,从而执行本申请实施例所提供的文本识别方法。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示意性示出了根据本申请的一个实施例的文本识别方法的流程图,该文本识别方法的执行主体可以是服务器,比如可以是图1中所示的服务器103。
参照图2所示,该文本识别方法至少包括步骤S210至步骤S290,详细介绍如下:
在步骤S210中,获取待识别文本。
在本申请的一个实施例中,待识别文本可以是语音文本或文字文本,待识别文本可以是用户输入的语音中去除噪音后的语音文本。
在步骤S220中,将待识别文本按照哈希算法计算得到待识别文本对应的哈希值。
在本申请的一个实施例中,可以将完整的待识别文本按照哈希算法计算,得到完整的待识别文本对应的哈希值。
在本申请的一个实施例中,可以将完整的待识别文本按需要分割成多个待识别文本段落,按照哈希算法计算每个待识别文本段落,得到每个待识别文本段落对应的哈希值。
在本申请的一个实施例中,可以将完整的待识别文本按字符分割,按照哈希算法计算每个字符对应的哈希值。
在步骤S230中,获取与待识别文本的哈希值对应的第一文本向量组,其中,第一文本向量组由待识别文本的哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成。
在本申请的一个实施例中,哈希值的每个字符都预设有对应的字符向量,可以预设哈希值与字符向量对照表,在得到待识别文本对应的哈希值后,根据哈希值中的每个字符查找预先存储的哈希值与字符向量对照表,得到哈希值中每个字符对应的字符向量,再将这些字符向量按照其对应的字符在哈希值中的顺序排列作为第一向量组。
在本申请的一个实施例中,哈希值中的多个字符形成一个字符组对应一个字符向量,在得到待识别文本对应的哈希值后,根据哈希值中的每个字符组查找预先存储的哈希值字符组与字符向量对照表,得到哈希值中每个字符组对应的字符向量,再将这些字符向量按照其对应的字符组在哈希值中的顺序排列作为第一向量组。
在步骤S240中,获取待识别文本中的待识别字符。
在本申请的一个实施例中,待识别字符可以为待识别文本中的每个字符。
在本申请的一个实施例中,待识别字符可以为用户在特定位置中输入的字符。
在步骤S250中,对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组。
在本申请的一个实施例中,每个待识别字符,将该待识别字符中的部首拆分后按照上、下、左、右的顺序由前到后排列成为部首组合。
在本申请的一个实施例中,第一机器学习模型通过以下方式预先训练:获取字符样本集合,字符样本集合中每个字符样本对应的第二向量已知,对于字符样本集合中每个字符样本,获取该字符样本对应的部首组合,将该字符样本的部首组合输入第一机器学习模型,得到第一机器学习模型输出的该字符对应的第二向量。
将第一机器学习模型输出的该字符对应的第二向量与已知的该字符对应的第二向量比较,如果不一致,调整第一机器学习模型,使得第一机器学习模型输出的第二向量与已知的该字符对应的第二向量一致。
在步骤S260中,对于每个待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组。
在本申请的一个实施例中,当待识别字符是文字字符时,可以通过获取用户在输入该文字时在输入法中输入的拼音来获得该待识别字符的拼音。
在本申请的一个实施例中,当待识别字符是语音字符时,可以根据用户的发音获得该待识别字符的拼音。
在本申请的一个实施例中,第二机器学习模型通过以下方式预先训练:获取字符样本集合,字符样本集合中每个字符样本对应的第三向量已知,对于字符样本集合中每个字符样本,获取该字符样本对应的拼音,将该字符样本的拼音输入第二机器学习模型,得到第二机器学习模型输出的该字符对应的第三向量。
将第二机器学习模型输出的该字符对应的第三向量与已知的该字符对应的第三向量比较,如果不一致,调整第二机器学习模型,使得第二机器学习模型输出的第三向量与已知的该字符对应的第三向量一致。
在步骤S270中,分别求待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离。
在本申请的一个实施例中,标准文本可以通过以下过程获得:获取多个标准文本,对于每个标准文本,将该标准文本按照哈希算法计算得到该标准文本对应的哈希值;获取与该标准文本的哈希值对应的第一标准文本向量组,其中,第一标准文本向量组由哈希值的每个字符对应的字符向量按照哈希值的字符顺序串接而成;获取该标准文本中的标准字符;对于每个标准字符,获取该标准字符中的部首作为与该标准字符对应的部首组合,将标准字符对应的部首组合输入第一机器学习模型得到该标准字符对应的第二向量,第二向量按照标准字符在该标准文本中的顺序排列成为该标准文本的第二标准文本向量组;对于每个标准字符,获取该标准字符的拼音,将该标准字符的拼音输入第二机器学习模型得到与该标准字符对应的第三向量,第三向量按照标准字符在该标准文本中的顺序排列成为该标准文本的第三标准文本向量组。
在步骤S280中,求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离。
在本申请的一个实施例中,由于同音字较多,第一向量距离所占的权重和第二向量距离所占的权重,可以比根据待识别文本中字符的读音得到的第三向量距离所占的权重更多。
在步骤S290中,将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
在本申请的一个实施例中,可以获取加权平均值达到阈值的标准文本,若加权平均值达到阈值的标准文本有多个,则将加权平均值达到阈值的多个标准文本发送给用户以供用户选择;获取用户选择的标准文本,作为待识别文本的识别结果。为用户提供加权平均值达到阈值的标准文本,为用户提供更多选择。
在本申请的一些实施例所提供的技术方案中,通过获取待识别文本,将待识别文本与标准文本进行比较得到识别结果。首先将待识别文本按照哈希算法计算得到待识别文本对应的哈希值,获取与待识别文本的哈希值对应的第一文本向量组,其中,第一文本向量组由哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成,求待识别文本的第一文本向量组和标准文本库中每个标准文本的第一标准文本向量组的向量距离得到第一向量距离。第一向量距离的大小代表待识别文本与每个标准文本的区别大小。再获取待识别文本中的待识别字符,对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组,求待识别文本的第二文本向量组和标准文本库中每个标准文本的第二标准文本向量组的向量距离得到第二向量距离。第二向量距离的大小代表待识别文本与每个标准文本包含的部首的区别大小。对于每个待识别字符,再获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组,求待识别文本的第三文本向量组和标准文本库中每个标准文本的第三标准文本向量组的向量距离得到第三向量距离。第三向量距离的大小代表待识别文本与每个标准文本的拼音的区别大小。最后求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离,将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。由于在获取待识别文本的识别结果时,考虑了待识别文本本身和标准文本的区别,考虑了待识别文本的部首和标准文本部首的区别,考虑了待识别文本的拼音和标准文本拼音的区别,同时又考虑了三者的权重,可以使获得的识别结果更加准确。
在本申请的一个实施例中,当待识别文本是用户在客户端中输入的一句话“我不打算养狗,因为我司养了一条狗”,由于“司”和“饲”的字形很相近,字形识别很容易将待识别文本认作“我饲养了一条狗”,导致识别出的文本语义和用户想要表达的语义不同。而本申请中的方案由于考虑到了待识别文本字符的部首、读音等特点,能够准确的识别出用户的语义,可以使获得的识别结果更加准确。
图3示意性示出了根据本申请的一个实施例的文本识别方法的流程图,该文本识别方法的执行主体可以是服务器,比如可以是图1中所示的服务器103。
参照图3所示,该文本识别方法可以包括步骤S310至步骤S380,详细介绍如下:
在步骤S310中,获取待识别文本,将待识别文本按照哈希算法计算得到待识别文本对应的哈希值,获取与哈希值对应的第一文本向量组,其中,第一文本向量组由哈希值的每个字符对应的字符向量按照哈希值的字符顺序串接而成;
在步骤S320中,获取待识别文本中的待识别字符;
在步骤S330中,对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合;
在步骤S340中,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组;
在步骤S350中,根据部首组合中的每个部首查找预设的部首语义对照表获得每个部首对应的语义,根据部首在部首组合中的顺序将部首对应的语义组合,将语义组合输入第三机器学习模型得到该待识别字符对应的第四向量,第四向量按照待识别字符在待识别文本中的顺序排列成为第四文本向量组;
在步骤S360中,对于每个待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组;
在步骤S370中,分别求待识别文本的第一文本向量组、第二文本向量组、第三文本向量组、第四文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组、第四标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离;
在步骤S380中,求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离,将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
在本申请的一些实施例所提供的技术方案中,根据待识别文本和标准文本的哈希值得到第一向量距离,根据待识别文本和标准文本的部首组合得到第二向量距离,根据待识别文本和标准文本的拼音得到第三向量距离,根据待识别文本和标准文本的部首语义得到第七向量距离,再根据第一向量距离、第二向量距离、第三向量距离、第七向量距离求待识别文本与标准文本中的加权平均向量距离,使得到的加权平均向量距离同时考虑到待识别文本与标准文本的哈希值相似度、部首组合相似度、拼音相似度和部首语义相似度,这时选取的最小加权平均向量距离对应的标准文本更加准确。
需要说明的是,图3只是示意性的给出了本申请一个实施例的文本识别方法的步骤,步骤S370可以在步骤S360前执行。
在本申请的一个实施例中,该文本识别方法可以包括如图4所示的步骤S410至步骤S480:
在步骤S410中,获取待识别文本,统计待识别文本中字符的数量;
在步骤S420中,判断待识别文本中的字符的数量是否达到设定值;
在步骤S430中,若待识别文本中的字符的数量达到设定值,则获取待识别文本中的待识别关键词;将待识别关键词按照哈希算法计算得到待识别关键词对应的哈希值;获取与待识别关键词的哈希值对应的第一词向量组,其中,第一词向量组由哈希值的每个字符对应的字符向量按照哈希值的字符顺序串接而成;
在步骤S440中,获取待识别关键词中的待识别字符;对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别关键词中的顺序排列成为第二词向量组;
在步骤S450中,对于每个待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别关键词中的顺序排列成为第三词向量组;
在步骤S460中,分别求待识别关键词的第一词向量组、第二词向量组、第三词向量组与标准关键词库中每个标准关键词的第一标准词向量组、第二标准词向量组、第三标准词向量组的向量距离,作为待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离;
在步骤S470中,求待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离的加权平均值,作为待识别关键词和每个标准关键词之间的加权平均向量距离,将最小的加权平均向量距离对应的标准关键词按照待识别关键词在待识别文本中的顺序组合,作为待识别文本的识别结果;
在步骤S480中,若待识别文本中的字符的数量未达到设定值,则执行图2中的步骤S220至步骤S290。
在本实施例的技术方案中,只识别待识别文本中的待识别关键词,将获得的标准关键词组合作为待识别文本的识别结果,可以在准确识别出待识别文本内容的同时减少计算步骤。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本识别方法的实施例。
图5示意性示出了根据本申请的一个实施例的文本识别装置的框图。
参照图5所示,根据本申请实施例的一个方面,提供了一种文本识别装置500,包括文本获取模块501、第一计算模块502、第一向量组获取模块503、字符获取模块504、第二向量组获取模块505、第三向量组获取模块506、第二计算模块507、第三计算模块508、确定模块509。
在本申请的一些实施例中,基于前述方案,文本获取模块401用于获取待识别文本;第一计算模块502用于将待识别文本按照哈希算法计算得到待识别文本对应的哈希值;第一向量组获取模块503用于获取与待识别文本的哈希值对应的第一文本向量组,其中,第一文本向量组由待识别文本的哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成;字符获取模块504用于获取待识别文本中的待识别字符;第二向量组获取模块505用于对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别文本中的顺序排列成为第二文本向量组;第三向量组获取模块506用于对于每个待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别文本中的顺序排列成为第三文本向量组;第二计算模块507用于分别求待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;第三计算模块508用于求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;确定模块509用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,文本识别装置还包括:标准文本获取模块,用于获取多个标准文本,对于每个标准文本,将该标准文本按照哈希算法计算得到该标准文本对应的哈希值;获取与该标准文本的哈希值对应的第一标准文本向量组,其中,第一标准文本向量组由该标准文本的哈希值的每个字符对应的字符向量按照该标准文本的哈希值的字符顺序串接而成;获取该标准文本中的标准字符;对于每个标准字符,获取该标准字符中的部首作为与该标准字符对应的部首组合,将标准字符对应的部首组合输入第一机器学习模型得到该标准字符对应的第二向量,第二向量按照标准字符在该标准文本中的顺序排列成为该标准文本的第二标准文本向量组;对于每个标准字符,获取该标准字符的拼音,将该标准字符的拼音输入第二机器学习模型得到与该标准字符对应的第三向量,第三向量按照标准字符在该标准文本中的顺序排列成为该标准文本的第三标准文本向量组。
在本申请的一些实施例中,基于前述方案,文本识别装置还包括:统计模块,用于统计待识别文本中字符的数量;文本获取模块501还配置为:若待识别文本中的字符的数量达到设定值,则获取待识别文本中的待识别关键词;第一计算模块502还配置为:将待识别关键词按照哈希算法计算得到待识别关键词对应的哈希值;第一向量组获取模块503还配置为:获取与待识别关键词的哈希值对应的第一词向量组,其中,第一词向量组由待识别关键词的哈希值的每个字符对应的字符向量按照待识别关键词的哈希值的字符顺序串接而成;字符获取模块504还配置为:获取待识别关键词中的待识别字符;第二向量组获取模块505还配置为:对于每个待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,第二向量按照待识别字符在待识别关键词中的顺序排列成为第二词向量组;第三向量组获取模块506还配置为:对于每个待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,第三向量按照待识别字符在待识别关键词中的顺序排列成为第三词向量组;第二计算模块507还配置为:分别求待识别关键词的第一词向量组、第二词向量组、第三词向量组与标准关键词库中每个标准关键词的第一标准词向量组、第二标准词向量组、第三标准词向量组的向量距离,作为待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离;第三计算模块508还配置为:求待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离的加权平均值,作为待识别关键词和每个标准关键词之间的加权平均向量距离;确定模块509还配置为:将最小的加权平均向量距离对应的标准关键词按照待识别关键词在待识别文本中的顺序组合,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,确定模块509还配置为:获取加权平均值达到阈值的标准文本,若加权平均值达到阈值的标准文本有多个,则将加权平均值达到阈值的多个标准文本发送给用户以供用户选择;获取用户选择的标准文本,作为待识别文本的识别结果。
在本申请的一些实施例中,基于前述方案,文本识别装置还包括:第四向量组计算模块,用于根据部首组合中的每个部首查找预设的部首语义对照表获得每个部首对应的语义;根据部首在部首组合中的顺序将部首对应的语义组合;将语义组合输入第三机器学习模型得到该待识别字符对应的第四向量,第四向量按照待识别字符在待识别文本中的顺序排列成为第四文本向量组;第二计算模块507还用于求待识别文本的第一文本向量组、第二文本向量组、第三文本向量组、第四文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组、第四标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离;第三计算模块508还用于作为待识别文本和每个标准文本之间的加权平均向量距离;求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离的加权平均值,确定模块509还用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本申请的这种实施方式的电子设备60。图6显示的电子设备60仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备60以通用计算设备的形式表现。电子设备60的组件可以包括但不限于:上述至少一个处理单元61、上述至少一个存储单元62、连接不同系统组件(包括存储单元62和处理单元61)的总线63、显示单元64。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元61执行,使得所述处理单元61执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。
存储单元62可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元62还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线63可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备60也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备60交互的设备通信,和/或与使得该电子设备60能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且,电子设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器66通过总线63与电子设备60的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
根据本申请一个实施例,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
参考图7所示,描述了根据本申请的实施方式的用于实现上述方法的程序产品70,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (8)

1.一种文本识别方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;
获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述待识别文本的哈希值的每个字符对应的字符向量按照所述待识别文本的哈希值的字符顺序串接而成;
获取所述待识别文本中的待识别字符;
对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;
对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;
分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;
求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
2.根据权利要求1所述的一种文本识别方法,其特征在于,
所述分别求所述待识别文本的第一向量组、第二向量组、第三向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离之前,所述方法还包括:
获取多个标准文本,对于每个所述标准文本,将该标准文本按照哈希算法计算得到该标准文本对应的哈希值;
获取与该标准文本的哈希值对应的第一标准文本向量组,其中,所述第一标准文本向量组由该标准文本的哈希值的每个字符对应的字符向量按照该标准文本的哈希值的字符顺序串接而成;
获取该标准文本中的标准字符;
对于每个标准字符,获取该标准字符中的部首作为与该标准字符对应的部首组合,将所述标准字符对应的部首组合输入第一机器学习模型得到该标准字符对应的第二向量,所述第二向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第二标准文本向量组;
对于每个所述标准字符,获取该标准字符的拼音,将该标准字符的拼音输入第二机器学习模型得到与该标准字符对应的第三向量,所述第三向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第三标准文本向量组。
3.根据权利要求1所述的一种文本识别方法,其特征在于,
在所述获取待识别文本之后,还包括:统计所述待识别文本中字符的数量;
若所述待识别文本中的字符的数量达到设定值,则获取所述待识别文本中的待识别关键词;
将所述待识别关键词按照哈希算法计算得到所述待识别关键词对应的哈希值;
获取与所述待识别关键词的哈希值对应的第一词向量组,其中,所述第一词向量组由所述待识别关键词的哈希值的每个字符对应的字符向量按照所述待识别关键词的哈希值的字符顺序串接而成;
获取所述待识别关键词中的待识别字符;
对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第二词向量组;
对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第三词向量组;
分别求所述待识别关键词的第一词向量组、第二词向量组、第三词向量组与标准关键词库中每个标准关键词的第一标准词向量组、第二标准词向量组、第三标准词向量组的向量距离,作为待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离;
求待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离的加权平均值,作为待识别关键词和每个标准关键词之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准关键词按照所述待识别关键词在所述待识别文本中的顺序组合,作为待识别文本的识别结果。
4.根据权利要求1所述的一种文本识别方法,其特征在于,
在所述求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值之后,所述方法还包括:
获取所述加权平均值达到阈值的标准文本,
若所述加权平均值达到阈值的标准文本有多个,则将所述加权平均值达到阈值的多个标准文本发送给用户以供用户选择;
获取所述用户选择的标准文本,作为待识别文本的识别结果。
5.根据权利要求1所述的一种文本识别方法,其特征在于,
所述对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合之后,
根据所述部首组合中的每个部首查找预设的部首语义对照表获得所述每个部首对应的语义;
根据所述部首在所述部首组合中的顺序将所述部首对应的语义组合;
将所述语义组合输入第三机器学习模型得到该待识别字符对应的第四向量,所述第四向量按照所述待识别字符在所述待识别文本中的顺序排列成为第四文本向量组;
所述方法还包括:
分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组、第四文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组、第四标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离;
求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
6.一种文本识别装置,其特征在于,包括:
文本获取模块,用于获取待识别文本;
第一计算模块,用于将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;
第一向量组获取模块,用于获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述待识别文本的哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成;
字符获取模块,用于获取所述待识别文本中的待识别字符;
第二向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;
第三向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;
第二计算模块,用于分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;
第三计算模块,用于求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
确定模块,用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
7.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至5中任一项所述的方法。
8.一种电子装置,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至5中任一项所述的方法。
CN201910979595.2A 2019-10-15 2019-10-15 文本识别方法、装置、介质及电子设备 Active CN110929749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910979595.2A CN110929749B (zh) 2019-10-15 2019-10-15 文本识别方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979595.2A CN110929749B (zh) 2019-10-15 2019-10-15 文本识别方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN110929749A true CN110929749A (zh) 2020-03-27
CN110929749B CN110929749B (zh) 2022-04-29

Family

ID=69848950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979595.2A Active CN110929749B (zh) 2019-10-15 2019-10-15 文本识别方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110929749B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236246A1 (zh) * 2022-06-06 2023-12-14 青岛海尔科技有限公司 文本信息的识别方法和装置、存储介质和电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725228A (zh) * 2004-07-22 2006-01-25 摩托罗拉公司 利用背景像素的手写识别方法和系统
CN108875537A (zh) * 2018-02-28 2018-11-23 北京旷视科技有限公司 对象检测方法、装置和系统及存储介质
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN110209892A (zh) * 2019-04-17 2019-09-06 深圳壹账通智能科技有限公司 敏感信息识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725228A (zh) * 2004-07-22 2006-01-25 摩托罗拉公司 利用背景像素的手写识别方法和系统
CN108875537A (zh) * 2018-02-28 2018-11-23 北京旷视科技有限公司 对象检测方法、装置和系统及存储介质
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN110209892A (zh) * 2019-04-17 2019-09-06 深圳壹账通智能科技有限公司 敏感信息识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236246A1 (zh) * 2022-06-06 2023-12-14 青岛海尔科技有限公司 文本信息的识别方法和装置、存储介质和电子装置

Also Published As

Publication number Publication date
CN110929749B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN107767870B (zh) 标点符号的添加方法、装置和计算机设备
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN110019732B (zh) 一种智能问答方法以及相关装置
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN111858843A (zh) 一种文本分类方法及装置
CN112489626A (zh) 一种信息识别方法、装置及存储介质
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN116798417B (zh) 语音意图识别方法、装置、电子设备及存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN110929749B (zh) 文本识别方法、装置、介质及电子设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN110705308B (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN107656627B (zh) 信息输入方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant