CN111782892A - 基于前缀树的相似字符识别方法、设备、装置和存储介质 - Google Patents
基于前缀树的相似字符识别方法、设备、装置和存储介质 Download PDFInfo
- Publication number
- CN111782892A CN111782892A CN202010617489.2A CN202010617489A CN111782892A CN 111782892 A CN111782892 A CN 111782892A CN 202010617489 A CN202010617489 A CN 202010617489A CN 111782892 A CN111782892 A CN 111782892A
- Authority
- CN
- China
- Prior art keywords
- corpus
- node
- chinese character
- chinese
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及数据分析技术领域,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质,包括获取预存于语料库中的语料,建立映射关系;根据映射关系,构建字音混合前缀树;获取待匹配的汉字字段,依次扫描滑动窗口内的汉字;采用字符串距离算法对扫描到的汉字与处于根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;将编辑距离小于预置编辑距离阈值的路径作为汉字的最优路径;依次获取待匹配汉字字段中各个汉字在最优路径上的节点拼音,确定待匹配的汉字字段对应的目标信息。此外,本申请还涉及区块链技术,拼音字符的数据信息可存储于区块链中。解决了前缀树技术无法对相似拼音匹配正确的汉字的问题。
Description
技术领域
本申请涉及数据分析技术领域,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质。
背景技术
信息是对现实世界事物存在方式或运动状态的反映。识别信息指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。识别信息识别的信息一般可以分为图像信息识别、文本信息识别以及音频信息识别等。
目前,在应用人工智能机器人对用户的文字信息或者语音信息进行识别的过程中,往往会因地方口音不同、拼音输入法通用词库匹配或对产品名称不熟悉等造成用户输入出现拼写错误,或者因为机器语音识别不准确造成的语音转化错误。
针对上述错误,通常采用两种方法加以解决。一是建立大批错误词至正确词语的混淆词集,再进行匹配纠错。然而,该方法却难以应用落地,因汉字的同音字、谐音字多样,不同情况的排列组合将导致“组合爆炸”,字典庞大却纠错效率极低。二是将错误词语至产品名称的映射关系改进为拼音到产品名称的映射,再使用多模匹配算法进行匹配。这种词典创建方法虽然避免了方法一的“组合爆炸”问题,但却无法纠正具有拼音编辑距离的错误。
发明内容
基于此,针对目前前缀树技术无法对相似拼音匹配正确的汉字的技术问题,提供一种基于前缀树的相似字符识别方法、计算机设备、装置和存储介质。
一种基于前缀树的相似字符识别方法,包括如下步骤:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
在其中一个可能的实施例中,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
在其中一个可能的实施例中,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。
在其中一个可能的实施例中,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。
在其中一个可能的实施例中,所述将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径,包括:
获取编辑距离小于预置编辑距离阈值的路径,若所述路径为一条,则所述路径为所述最优路径;
若所述路径不唯一,则应用动态规划算法对各所述路径进行递归,根据所述递归结果确定所述最优路径。
在其中一个可能的实施例中,所述依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息之后,所述方法还包括:
根据预设的名称规则对所述目标信息进行校验,判断所述目标信息是否符合所述名称规则;
若所述目标信息符合所述名称规则,则建立所述待匹配的汉字字段与所述目标信息之间的映射关系;
若所述目标信息不符合所述名称规则,则重新获取新的最优路径直至符合所述名称规则。
一种基于前缀树的相似字符识别装置,包括如下模块:
映射建立模块,用于获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
前缀树模块,用于根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
滑动窗模块,用于获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
路径搜索模块,用于采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
最优路径模块,用于将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
信息确定模块,用于依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
在其中一个可能的实施例中,所述映射建立模块还用于:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于前缀树的相似字符识别方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于前缀树的相似字符识别方法的步骤。
与现有机制相比,本申请通过获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。有效的解决了传统前缀树只能识别相同拼音和汉字进行匹配,而无法将相近拼音和汉字进行匹配的问题,进而大大提升了对用户输入的信息识别的准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种基于前缀树的相似字符识别方法的整体流程图;
图2为本申请在一个实施例中的一种基于前缀树的相似字符识别方法中的映射建立过程示意图;
图3为本申请在一个实施例中的一种基于前缀树的相似字符识别装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种基于前缀树的相似字符识别方法的整体流程图,一种基于前缀树的相似字符识别方法,包括以下步骤:
S1、获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
具体地,其中语料库有多种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。在本步骤中所使用的语料库可以是上述语料库的任一种。
在采用修正策略对语料进行修正时,主要的策略可以包括以下几种:1、不同地区发音前后鼻音偏差,如“此-ci/尺-chi”、“赞-zan/藏-zang”;2、“了-le/呢-ne”、“胡-hu/福-fu”一些地区发音不作区分;3、机器语音识别常将数字、英文字母识别为发音相同的汉字,如:“就医-jiu yi/91-jiu yi”、“E生保-yi sheng bao/一生保-yi sheng bao”。
S2、根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
具体地,在将易错语料中的拼音转换为其它语料的拼音时可以根据相邻语料之间的关系对易错语料是否需要转换为其它语料进行判断。如,多大尺寸中的“尺”对应的易错语料的拼音是“ci”,那么根据“尺”这个语料的相邻语料可以确定该易错语料需要进进行转换为“chi”。而对于某些易错语料在一些应用场景下是不需要进行修正的。如,“湖水”中的湖对应的易错语料的拼音为“hu”,根据前述的对应关系需要将“hu”转换为“fu”,但是根据这个易错语料相邻语料对应的是水可知,不需要对本易错语料的拼音进行转换。
在将常规语料的拼音作为根节点以后,若用户输入的语料不仅仅包含常规语料对应的拼音还包括其它拼音,则将其它拼音放入一级叶子节点,将汉字放入到前缀树的二级叶子节点中,总之要保证在前缀树的根节点中只保留常规语料对应的拼音。
S3、获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
具体地,可以预先设置滑动窗口的大小,在此处滑动窗口的大小是指滑动窗口的长度,即按照本步骤中进行扫描时,所有的待匹配汉字字段能够完全放入到预置的滑动窗内。避免因为滑动窗口的长度不够导致无法将待匹配的汉字字段完全放入到滑动窗内。并且滑动窗口的大小通常应设置为历次最长汉字字段包含的字符数量的整数倍,例如,滑动窗口长度可以为最长汉字字段长度的20倍。当然最少的情形是滑动窗口的长度的2倍,这样保证在进行字符串扫描滑动时,保证最后一个汉字能够前移到首汉字所在位置,这样保证所有的待匹配的汉字字段能够全部被扫描。
S4、采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离。
其中,字符串距离算是一种计算两个字符串间的差异程度的字符串度量(stringmetric)。我们可以认为字符串距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。例如,如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是相同的,只要计算A[2,…,7]=abcdae和B[2,…,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行如下的操作(lenA和lenB分别是A串和B串的长度)(1)删除A串的第一个字符,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。(2)删除B串的第一个字符,然后计算A[1,…,lenA]和B[2,…,lenB]的距离。(3)修改A串的第一个字符为B串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。(4)修改B串的第一个字符为A串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。(5)增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,…,lenA]和B[2,…,lenB]的距离(6)增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。
在本步骤中将扫描到的汉字与前述的前缀树中不同的根节点中的拼音进行编辑距离计算也就是在计算汉字与不同拼音之间的相近程度,某一路径的编辑距离短则意味着该路径中的拼音很可能是该汉字对应的正确拼音。
S5、将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
具体地,在进行编辑距离计算时通常只有一个最优路径,如果存在两个最优路径则需要对预置编辑距离阈值进行重新设定。比如,原编辑距离阈值为3,此时存在两个编辑距离分别为2和1,此时需要对编辑距离阈值进行调整将编辑距离阈值调整为2,这样就保证了只有一个最优路径。通常的方法是减少编辑距离阈值。
S6、依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
具体地,在最优路径上的根节点所包含的拼音都是其它语料对应的拼音,根据这些拼音所对应的叶子节点,就可以搜索到待匹配汉字对应的正确汉字。然后根据各个汉字在滑动窗口的位置,将各个叶子节点的汉字进行组合就可以得到用户所需的目标信息。
需要强调的是,为进一步保证上述各步骤中所涉及的拼音字符数据信息的私密和安全性,上述各步骤中所涉及的拼音字符数据信息还可以存储于一区块链的节点中。
本实施例,通过将前缀树和字符距离算法进行有效结合,解决了传统前缀树只能识别相同拼音和汉字进行匹配,而无法将相近拼音和汉字进行匹配的问题,进而大大提升了对用户输入的信息识别的准确率。
图2为本申请在一个实施例中的一种基于前缀树的相似字符识别方法中的映射建立过程示意图,如图所示,所述S1、获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
S11、遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
具体地,预设标识是根据历次用户进行人机交互过程中用户进行标记或者开发者进行标记的。标识标记的方法可以采用人工标记也可以采用机器学习等人工智能手段对语料进行标识。
S12、根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
S13、根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
具体地,根据修正策略在进行匹配时易错语料可能对应两个或者以上的其它语料,在这种情形下需要根据易错语料在历史数据中人工根据上下文订正的结果,确定易错语料和那个语料匹配度高。匹配度最高的那个其它语料也就是该易错语料所对应的正确语料。
本实施例,通过对易错语料和其它语进行匹配度计算,从而保证了易错语料能够对应最准确的语料,进而在进行后续汉字匹配时能够准确获得结果。
在一个实施例中,所述S2、根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
具体地,在进行关联度计算时可以根据易错语料和相邻语料一起出现的频率进行统计,即易错语料A和相邻语料B一起出现的次数为100,则两者的关联度为100。通常在语料库中会将一起出现次数多的语料放到相邻的位置上。
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。
将易错语料组作为一个单元进行映射可以防止由单汉字作为语料而产生错误的映射关系。如假(jia)如果按照修正策略则应该对应映射关系是jia-xia,而将此单字语料和相邻语料“钱”组成一个易错语料组,则假钱(jia qian)对应的映射关系则由于钱的影响,应该对应的是(liang quan)。其中,相邻语料可以是易错语料也可以不是易错语料。
本实施例,可以有效的避免因为单一语料映射发生的错误导致无法准确的对用户输入的信息进行正确的识别。
在一个实施例中,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。
其中,在进行路径的编辑距离统计时,如果用户输入的信息不是易错语料,那么该编辑距离应该为零,只有当用户输入的信息为易错语料是编辑距离才不为零,并且在逐级进行搜索时,不同的路径对应的编辑距离不同,如A1路径为1,A2路径为2,A1路径的下一级路径B1为1,A2路径的下一级路径B2为-1,在进行总编辑距离统计时,就是将A1+B1或者A2+B2从而得到总编辑距离。
本实施例,通过对路径的编辑距离进行逐级计算,从而得到了更加准确的路径信息,便于获得最优路径。
在一个实施例中,所述将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径,包括:
获取编辑距离小于预置编辑距离阈值的路径,若所述路径为一条,则所述路径为所述最优路径;
若所述路径不唯一,则应用动态规划算法对各所述路径进行递归,根据所述递归结果确定所述最优路径。
其中,动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。与分治法不同的是适合于用动态规划求解的问题,经分解得到子问题往往不是互相独立的。若用分治法来解这类问题,则分解得到的子问题数目太多,有些子问题被重复计算了很多次。在本实施例中具体采用进行计算,代表当前路径下前n个节点累计编辑距离,代表第n+1个节点对应的编辑距离。然后将预设阈值与进行做差,若差值为正则对应的路径为最优路径,否则不是最优路径。
本实施例,通过动态规划的方式从而更加准确的获得最优路径,增加了汉字匹配的准确率。
在一个实施例中,所述依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息之后,所述方法还包括:
根据预设的名称规则对所述目标信息进行校验,判断所述目标信息是否符合所述名称规则;
若所述目标信息符合所述名称规则,则建立所述待匹配的汉字字段与所述目标信息之间的映射关系;
其中,名称规则可以根据历史数据统计后得到,如在保险领域名称规则XX保,在体育领域为XX赛等等。
若所述目标信息不符合所述名称规则,则重新获取新的最优路径直至符合所述名称规则。
其中,在某些情况下由于用户的输入方式可能会出现倒装句的显现,如用户输入的是保险康寿宝,而在其它语料中则是康寿宝保险,因此在对不符合名称规则的目标信息进行最优路径重新找寻之前,可以先调整目标信息中各个汉字的组合方式,只有当各个组合方式均不符合所述名称规则时才进行最优路径的重新找寻。
上述任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图3所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种基于前缀树的相似字符识别方法进行说明,以下对执行上述基于前缀树的相似字符识别装置进行描述。
如图3所示的一种基于前缀树的相似字符识别装置的结构图,其可应用于基于前缀树的相似字符识别。本申请实施例中的基于前缀树的相似字符识别装置能够实现对应于上述图1所对应的实施例中所执行的基于前缀树的相似字符识别方法的步骤。基于前缀树的相似字符识别装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施例中,提出了一种基于前缀树的相似字符识别装置,如图3所示,包括如下模块:
映射建立模块10,用于获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
前缀树模块20,用于根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
滑动窗模块30,用于获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
路径搜索模块40,用于采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
最优路径模块50,用于将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
信息确定模块60,用于依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
在一个实施例中,所述映射建立模块还用于:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于前缀树的相似字符识别方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于前缀树的相似字符识别方法的步骤。其中,所述存储介质可以为非易失性存储介质,也可以是易失性存储介质,具体本申请不做限定。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
2.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
3.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。
4.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。
5.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径,包括:
获取编辑距离小于预置编辑距离阈值的路径,若所述路径为一条,则所述路径为所述最优路径;
若所述路径不唯一,则应用动态规划算法对各所述路径进行递归,根据所述递归结果确定所述最优路径。
6.根据权利要求1至5任一项所述的基于前缀树的相似字符识别方法,其特征在于,所述依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息之后,所述方法还包括:
根据预设的名称规则对所述目标信息进行校验,判断所述目标信息是否符合所述名称规则;
若所述目标信息符合所述名称规则,则建立所述待匹配的汉字字段与所述目标信息之间的映射关系;
若所述目标信息不符合所述名称规则,则重新获取新的最优路径直至符合所述名称规则。
7.一种基于前缀树的相似字符识别装置,其特征在于,包括以下模块:
映射建立模块,用于获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
前缀树模块,用于根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
滑动窗模块,用于获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
路径搜索模块,用于采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
最优路径模块,用于将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
信息确定模块,用于依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
8.根据权利要求7所述的基于前缀树的相似字符识别装置,其特征在于,所述映射建立模块还用于:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述基于前缀树的相似字符识别方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述基于前缀树的相似字符识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617489.2A CN111782892B (zh) | 2020-06-30 | 2020-06-30 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617489.2A CN111782892B (zh) | 2020-06-30 | 2020-06-30 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782892A true CN111782892A (zh) | 2020-10-16 |
CN111782892B CN111782892B (zh) | 2023-09-19 |
Family
ID=72760465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617489.2A Active CN111782892B (zh) | 2020-06-30 | 2020-06-30 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782892B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114095436A (zh) * | 2021-11-09 | 2022-02-25 | 湖南天河国云科技有限公司 | 区块链交易的处理方法、存储介质和计算机系统 |
CN114281830A (zh) * | 2022-03-01 | 2022-04-05 | 杭州涂鸦信息技术有限公司 | 多属性条件的规则映射表构建方法、规则匹配方法和装置 |
CN116501781A (zh) * | 2023-06-28 | 2023-07-28 | 中博信息技术研究院有限公司 | 一种增强前缀树的数据快速统计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0859332A1 (en) * | 1997-02-12 | 1998-08-19 | STMicroelectronics S.r.l. | Word recognition device and method |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
CN110738202A (zh) * | 2019-09-06 | 2020-01-31 | 平安科技(深圳)有限公司 | 字符识别方法、装置及计算机可读存储介质 |
CN111159990A (zh) * | 2019-12-06 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
-
2020
- 2020-06-30 CN CN202010617489.2A patent/CN111782892B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0859332A1 (en) * | 1997-02-12 | 1998-08-19 | STMicroelectronics S.r.l. | Word recognition device and method |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
CN110738202A (zh) * | 2019-09-06 | 2020-01-31 | 平安科技(深圳)有限公司 | 字符识别方法、装置及计算机可读存储介质 |
CN111159990A (zh) * | 2019-12-06 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114095436A (zh) * | 2021-11-09 | 2022-02-25 | 湖南天河国云科技有限公司 | 区块链交易的处理方法、存储介质和计算机系统 |
CN114095436B (zh) * | 2021-11-09 | 2024-05-24 | 湖南天河国云科技有限公司 | 区块链交易的处理方法、存储介质和计算机系统 |
CN114281830A (zh) * | 2022-03-01 | 2022-04-05 | 杭州涂鸦信息技术有限公司 | 多属性条件的规则映射表构建方法、规则匹配方法和装置 |
CN114281830B (zh) * | 2022-03-01 | 2022-08-30 | 杭州涂鸦信息技术有限公司 | 多属性条件的规则映射表构建方法、规则匹配方法和装置 |
CN116501781A (zh) * | 2023-06-28 | 2023-07-28 | 中博信息技术研究院有限公司 | 一种增强前缀树的数据快速统计方法 |
CN116501781B (zh) * | 2023-06-28 | 2023-09-12 | 中博信息技术研究院有限公司 | 一种增强前缀树的数据快速统计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111782892B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022105122A1 (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
JP2637344B2 (ja) | 記号認識方法及び装置 | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
CN111782892A (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
WO2023005293A1 (zh) | 文本纠错方法、装置、设备及存储介质 | |
GB2279164A (en) | Processing a bilingual database. | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN110807102A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
CN113961768A (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
JP2001318792A (ja) | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN113486680B (zh) | 文本翻译方法、装置、设备及存储介质 | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 | |
Hocking et al. | Optical character recognition for South African languages | |
CN113536776A (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
CN113536786A (zh) | 混淆汉字的生成方法、终端设备及计算机可读存储介质 | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP2998054B2 (ja) | 文字認識方法及び文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |