CN117875267A - 一种汉字转拼音的方法及系统 - Google Patents
一种汉字转拼音的方法及系统 Download PDFInfo
- Publication number
- CN117875267A CN117875267A CN202410270295.8A CN202410270295A CN117875267A CN 117875267 A CN117875267 A CN 117875267A CN 202410270295 A CN202410270295 A CN 202410270295A CN 117875267 A CN117875267 A CN 117875267A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- real time
- target
- character string
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 claims abstract description 80
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种汉字转拼音的方法及系统,该方法包括:当实时接收到用户输入的目标字符串时,对目标字符串进行长度迭代处理,以将目标字符串转换成对应的目标类型;实时检测出与目标类型对应的拼音码,并将拼音码实时输入至预设拼音转换模型中,拼音码包含有具体的数值;实时接收预设拼音转换模型输出的与拼音码对应的初始汉字拼音,并实时判断初始汉字拼音是否与目标字符串相对应;若实时判断到初始汉字拼音与目标字符串相对应,则将初始汉字拼音设定为与目标字符串对应的目标汉字拼音,目标汉字拼音包括全拼音或者拼音首字母。本发明能够大批量的完成汉字的转换,提升了用户使用体验。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种汉字转拼音的方法及系统。
背景技术
随着科技的进步以及生产力的快速发展,计算机技术也日趋成熟,并且已经在多个领域得到了深入的应用,提高了人们的工作效率,同时极大的方便了人们的生活。
其中,在人们进行计算机办公的过程中,难免会使用大量的汉字,具体的,在某些特殊场景下,需要将汉字转换成对应的拼音,以完成对应的工作要求。
进一步的,现有技术大部分通过Hash匹配的方式来将汉字转换成对应的拼音,然而,此种转换方式只能逐个将每个汉字转换成对应的拼音,并不能同时完成大批量的转换处理,导致转换的效率较低,对应降低了用户体验。
发明内容
基于此,本发明的目的是提供一种汉字转拼音的方法及系统,以解决现有技术不能同时完成大批量的转换处理,导致转换效率较低的问题。
本发明实施例第一方面提出了:
一种汉字转拼音的方法,其中,所述方法包括:
当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
本发明的有益效果是:通过实时接收用户输入的目标字符串,与此同时,转换成对应的目标类型,进一步的,根据当前目标类型就能够直接检测出与当前目标字符串对应的拼音码,并进一步将该拼音码实时输入至预设拼音转换模型中,并对应输出需要的初始汉字拼音,在此基础之上,最后只需要实时判断当前初始汉字拼音是否与上述目标字符串对应,具体的,若是,则能够直接将当前初始汉字拼音设定为需要的目标汉字拼音,从而能够同时大批量的完成汉字转换成拼音的过程,进而提升了汉字转拼音的效率,对应大幅提升了用户的使用体验。
进一步的,所述对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型的步骤包括:
当实时获取到所述目标字符串时,实时检测出与所述目标字符串对应的目标字符串长度,并基于所述目标字符串长度对所述目标字符串进行正向最大步长分词处理,以将所述目标字符串拆分成若干个对应的最小字符单元;
将若干所述最小字符单元依次输入至预设编码网络中,并通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型。
进一步的,所述通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型的步骤包括:
当实时获取到若干所述最小字符单元时,将若干所述最小字符单元依次输入至所述预设编码网络中的匹配层中,并通过所述匹配层实时匹配出与每一所述最小字符单元对应的文字编号;
通过所述预设编码网络中的转换层在预设编码数据库中实时查找出与每一所述文字编号对应的编码串,并根据所述编码串实时确定出所述目标类型。
进一步的,所述实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到所述拼音码时,通过所述预设拼音转换模型实时检测出与所述拼音码对应的特征值,并通过所述预设拼音转换模型根据所述特征值在预设拼音数据库中匹配出若干待选拼音;
基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音。
进一步的,所述基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到若干所述待选拼音时,实时检测出与每一所述待选拼音分别对应的历史使用频率,并实时检测所述目标字符串中是否具有生僻字;
若实时检测到所述目标字符串中不具有生僻字,则将历史使用频率最高的待选拼音设定为与所述拼音码对应的初始汉字拼音;
若实时检测到所述目标字符串中具有生僻字,则将历史使用频率最低的待选拼音设定为与所述拼音码对应的初始汉字拼音。
进一步的,所述方法还包括:
若实时判断到所述初始汉字拼音与所述目标字符串不对应,则立即返回所述目标字符串,并调出预设程序,以通过所述预设程序中的匹配脚本实时检测出与所述目标字符串对应的目标拼音。
进一步的,所述方法还包括:
当实时检测到所述目标字符串转换完成时,实时生成对应的转换报告,并将所述转换报告上传至预设云平台中;
在所述预设云平台中对所述转换报告进行动态加密处理,并将加密秘钥实时下发至所述用户的移动终端。
本发明实施例第二方面提出了:
一种汉字转拼音的系统,其中,所述系统包括:
接收模块,用于当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
转换模块,用于实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
判断模块,用于实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
第一执行模块,用于若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
进一步的,所述接收模块具体用于:
当实时获取到所述目标字符串时,实时检测出与所述目标字符串对应的目标字符串长度,并基于所述目标字符串长度对所述目标字符串进行正向最大步长分词处理,以将所述目标字符串拆分成若干个对应的最小字符单元;
将若干所述最小字符单元依次输入至预设编码网络中,并通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型。
进一步的,所述接收模块还具体用于:
当实时获取到若干所述最小字符单元时,将若干所述最小字符单元依次输入至所述预设编码网络中的匹配层中,并通过所述匹配层实时匹配出与每一所述最小字符单元对应的文字编号;
通过所述预设编码网络中的转换层在预设编码数据库中实时查找出与每一所述文字编号对应的编码串,并根据所述编码串实时确定出所述目标类型。
进一步的,所述判断模块具体用于:
当实时获取到所述拼音码时,通过所述预设拼音转换模型实时检测出与所述拼音码对应的特征值,并通过所述预设拼音转换模型根据所述特征值在预设拼音数据库中匹配出若干待选拼音;
基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音。
进一步的,所述判断模块还具体用于:
当实时获取到若干所述待选拼音时,实时检测出与每一所述待选拼音分别对应的历史使用频率,并实时检测所述目标字符串中是否具有生僻字;
若实时检测到所述目标字符串中不具有生僻字,则将历史使用频率最高的待选拼音设定为与所述拼音码对应的初始汉字拼音;
若实时检测到所述目标字符串中具有生僻字,则将历史使用频率最低的待选拼音设定为与所述拼音码对应的初始汉字拼音。
进一步的,所述汉字转拼音的系统还包括第二执行模块,所述第二执行模块具体用于:
若实时判断到所述初始汉字拼音与所述目标字符串不对应,则立即返回所述目标字符串,并调出预设程序,以通过所述预设程序中的匹配脚本实时检测出与所述目标字符串对应的目标拼音。
进一步的,所述汉字转拼音的系统还包括加密模块,所述加密模块具体用于:
当实时检测到所述目标字符串转换完成时,实时生成对应的转换报告,并将所述转换报告上传至预设云平台中;
在所述预设云平台中对所述转换报告进行动态加密处理,并将加密秘钥实时下发至所述用户的移动终端。
本发明实施例第三方面提出了:
一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上面所述的汉字转拼音的方法。
本发明实施例第四方面提出了:
一种可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上面所述的汉字转拼音的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的汉字转拼音的方法的流程图;
图2为本发明第六实施例提供的汉字转拼音的系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例提供的汉字转拼音的方法,本实施例提供的汉字转拼音的方法能够同时大批量的完成汉字转换成拼音的过程,进而提升了汉字转拼音的效率,对应大幅提升了用户的使用体验。
具体的,本实施例提供了:
一种汉字转拼音的方法,具体包括以下步骤:
步骤S10,当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
步骤S20,实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
步骤S30,实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
步骤S40,若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
具体的,在本实施例中,首先需要说明的是,为了能够同时大批量的完成汉字的转换,可以一次性同时接收用户输入的目标字符串,与此同时,为了能够减少后续转换过程中的数据处理量,此时需要实时对当前目标字符串进行长度迭代处理,即实时计算出当前目标字符串中的字符的个数。基于此,还需要把当前目标字符串转换成对应的标准格式,即立即将当前目标字符串转换成对应的目标类型,优选的,转换成后续计算机能够快速处理的char类型。
进一步的,需要说明的是,在计算机的运行逻辑中,每一个汉字在计算机地层中都是由多个编码组成,即由具体的拼音码组成,其中,每一个拼音码均是一个独立的数组,具体的,例如“汉”对应的是27721,“字”对应的是23383,基于此,需要实时检测出与当前字符对应的目标类型的拼音码,并进一步将检测出的拼音码输入至预先设置好的拼音转换模型中,与此同时,实时接收当前拼音转换模型所输出的与当前拼音码对应的初始汉字拼音,在此基础之上,最后实时判断当前初始汉字拼音是否与上述用户输入的目标字符串相对应,具体的,若是,则说明当前实时转换出的初始汉字拼音没有问题,可以直接将当前初始汉字拼音设定为与上述目标字符串对应的目标汉字拼音,从而有效的完成了汉字的批量化转换,对应提升了用户体验。其中,需要指出的是,上述拼音转换模型具体是由现有的卷积神经网络训练而成,该卷积神经网络中设置有若干个识别节点,在实际应用的过程中,该若干识别节点能够将实时接收到的拼音码进行识别,与此同时,在现有的拼音数据库中匹配出对应的汉字拼音,并将该汉字拼音设定为需要的初始汉字拼音,以便于后续的处理。
第二实施例
进一步的,所述对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型的步骤包括:
当实时获取到所述目标字符串时,实时检测出与所述目标字符串对应的目标字符串长度,并基于所述目标字符串长度对所述目标字符串进行正向最大步长分词处理,以将所述目标字符串拆分成若干个对应的最小字符单元;
将若干所述最小字符单元依次输入至预设编码网络中,并通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型。
具体的,在本实施例中,需要说明的是,为了能够分别准确的对上述目标字符串中的每一个字符进行准确的转换,在实时检测出当前目标字符串对应的目标字符串长度之后,就能够对应了解到当前目标字符串的起始字符以及终止字符,基于此,就可以进一步根据检测出的起始字符以及终止字符对当前目标字符串进行正向最大步长分词处理,并对应能够将当前目标字符串拆分成若干个最小字符单元,其中,每一个最小字符单元均是一个独立体。
进一步的,在实时获取到若干最小字符单元之后,此时就可以将当前若干最小字符单元逐一输入至预先设置好的编码网络中,更进一步的,通过当前编码网络中的各个网络层对当前每个最小字符单元进行处理,以进一步将每个最小字符单元分别转换成对应的目标类型。其中,需要说明的是,上述编码网络具体由现有的神经网络以及Transformer编码器组成,其中,该神经网络的内部设置有用于容纳该Transformer编码器的网络节点,在实际应用的过程中,该神经网络能够实时接收输入的最小字符单元,与此同时,将该最小字符单元输入至当前Transformer编码器中,以进一步完成对每个最小字符单元的编码处理,同时便于后续的处理。
进一步的,所述通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型的步骤包括:
当实时获取到若干所述最小字符单元时,将若干所述最小字符单元依次输入至所述预设编码网络中的匹配层中,并通过所述匹配层实时匹配出与每一所述最小字符单元对应的文字编号;
通过所述预设编码网络中的转换层在预设编码数据库中实时查找出与每一所述文字编号对应的编码串,并根据所述编码串实时确定出所述目标类型。
具体的,在本实施例中,还需要说明的是,在通过上述步骤实时获取到若干最小字符单元之后,由于当前若干最小字符单元可以包括具体的汉字以及标点符号,基于此,还需要逐一确定出当前每个最小字符单元所对应的类型,即是汉字还是标点符号。基于此将当前每个最小字符单元依次输入至上述预设编码网络中的匹配层中,与此同时,通过该匹配层实时匹配出与当前每个最小字符单元对应的文字编号,即每一个汉字在数据库中已经设定好的编号。基于此,进一步通过上述编码网络中的转换层在预设编码数据库中实时查找出与当前每个文字编号所对应的编码串,最后,根据当前编码串实时确定出对应的目标类型,其中,当编码串由一系列数字组成时,则当前编码串对应汉字,对应的,当编码串由数字以及字母组成时,则当前编码串对应标点符号,从而完成目标类型的识别,以便于后续的处理。
第三实施例
进一步的,所述实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到所述拼音码时,通过所述预设拼音转换模型实时检测出与所述拼音码对应的特征值,并通过所述预设拼音转换模型根据所述特征值在预设拼音数据库中匹配出若干待选拼音;
基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音。
另外,在本实施例中,还需要说明的是,为了能够准确的匹配出与上述拼音码适配的汉字拼音,在通过上述步骤实时获取到与每个汉字对应的拼音码之后,此时需要立即通过上述预设拼音转换模块实时检测出与当前拼音码对应的特征值,即当前拼音码中所包含的具体的数字,优选的,每个拼音码由五位数字组成。
进一步的,再通过上述拼音转换模型根据当前特征值在上述预设拼音数据库中实时匹配出若干待选拼音,其中,需要指出的是,由于一个汉字可能会出现多个读音,从而可能会同时匹配出若干个待选拼音。基于此,再根据预先设置好的规则在当前若干待选拼音中最终筛选出需要的初始汉字拼音,以便于后续的处理。
进一步的,所述基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到若干所述待选拼音时,实时检测出与每一所述待选拼音分别对应的历史使用频率,并实时检测所述目标字符串中是否具有生僻字;
若实时检测到所述目标字符串中不具有生僻字,则将历史使用频率最高的待选拼音设定为与所述拼音码对应的初始汉字拼音;
若实时检测到所述目标字符串中具有生僻字,则将历史使用频率最低的待选拼音设定为与所述拼音码对应的初始汉字拼音。
另外,在本实施例中,还需要说明的是,在通过上述步骤实时获取到若干待选拼音之后,此时就需要进一步确定出哪个待选拼音适用于当前目标字符串,基于此,可以进一步实时检测出与当前每个待选拼音对应的历史使用频率,即当前每个待选拼音的历史使用次数,进一步的,为了便于后续的挑选,此时还需要进一步实时检测出上述目标字符串中是否包含生僻字,其中,需要说明的是,由于生僻字的使用频率极低,从而与其对应的拼音的出现次数也极少,基于此,若实时检测到上述目标字符串中具有生僻字,则可以将当前历史使用频率最低的待选拼音设定为与当前拼音码对应的初始汉字拼音,对应的,若实时检测到上述目标字符串中不具有生僻字,则可以直接将当前历史使用频率最低的待选拼音设定为预当前拼音码对应的初始汉字拼音,以便于后续的处理。
第四实施例
进一步的,所述方法还包括:
若实时判断到所述初始汉字拼音与所述目标字符串不对应,则立即返回所述目标字符串,并调出预设程序,以通过所述预设程序中的匹配脚本实时检测出与所述目标字符串对应的目标拼音。
其中,在本实施例中,需要指出的是,若在上述步骤中实时判断到实时匹配出的初始汉字拼音与目标字符串不对应,则需要立即返回当前目标字符串,并对应在后台调出现有的PinYinConverter算法,并进一步通过该算法中已经设置好的匹配脚本实时检测出与当前目标字符串对应的目标拼音,从而能够完整的完成上述目标字符串的转换,以便于后续的处理。
第五实施例
进一步的,所述方法还包括:
当实时检测到所述目标字符串转换完成时,实时生成对应的转换报告,并将所述转换报告上传至预设云平台中;
在所述预设云平台中对所述转换报告进行动态加密处理,并将加密秘钥实时下发至所述用户的移动终端。
其中,在本实施例中,需要指出的是,当通过上述步骤完成了对目标字符串的转换之后,为了能够使用户直观的观察到转换结果,此时可以进一步实时生成对应的转换报告,与此同时,为了能够使相关的工作人员均能够获取到当前转换报告,可以进一步将当前转换报告上传至预设云平台中。
进一步的,在当前预设云平台中对当前转换报告进行动态加密处理,另外,为了便于用户后续的开启,此时只需要将加密密钥下发至用户的移动终端,就能够使用户后续打开上述转换报告,进一步提升了用户使用体验。
请参阅图2,本发明第六实施例提供了:
一种汉字转拼音的系统,其中,所述系统包括:
接收模块,用于当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
转换模块,用于实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
判断模块,用于实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
第一执行模块,用于若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
进一步的,所述接收模块具体用于:
当实时获取到所述目标字符串时,实时检测出与所述目标字符串对应的目标字符串长度,并基于所述目标字符串长度对所述目标字符串进行正向最大步长分词处理,以将所述目标字符串拆分成若干个对应的最小字符单元;
将若干所述最小字符单元依次输入至预设编码网络中,并通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型。
进一步的,所述接收模块还具体用于:
当实时获取到若干所述最小字符单元时,将若干所述最小字符单元依次输入至所述预设编码网络中的匹配层中,并通过所述匹配层实时匹配出与每一所述最小字符单元对应的文字编号;
通过所述预设编码网络中的转换层在预设编码数据库中实时查找出与每一所述文字编号对应的编码串,并根据所述编码串实时确定出所述目标类型。
进一步的,所述判断模块具体用于:
当实时获取到所述拼音码时,通过所述预设拼音转换模型实时检测出与所述拼音码对应的特征值,并通过所述预设拼音转换模型根据所述特征值在预设拼音数据库中匹配出若干待选拼音;
基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音。
进一步的,所述判断模块还具体用于:
当实时获取到若干所述待选拼音时,实时检测出与每一所述待选拼音分别对应的历史使用频率,并实时检测所述目标字符串中是否具有生僻字;
若实时检测到所述目标字符串中不具有生僻字,则将历史使用频率最高的待选拼音设定为与所述拼音码对应的初始汉字拼音;
若实时检测到所述目标字符串中具有生僻字,则将历史使用频率最低的待选拼音设定为与所述拼音码对应的初始汉字拼音。
进一步的,所述汉字转拼音的系统还包括第二执行模块,所述第二执行模块具体用于:
若实时判断到所述初始汉字拼音与所述目标字符串不对应,则立即返回所述目标字符串,并调出预设程序,以通过所述预设程序中的匹配脚本实时检测出与所述目标字符串对应的目标拼音。
进一步的,所述汉字转拼音的系统还包括加密模块,所述加密模块具体用于:
当实时检测到所述目标字符串转换完成时,实时生成对应的转换报告,并将所述转换报告上传至预设云平台中;
在所述预设云平台中对所述转换报告进行动态加密处理,并将加密秘钥实时下发至所述用户的移动终端。
本发明第七实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上面所述的汉字转拼音的方法。
本发明第八实施例提供了一种可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上面所述的汉字转拼音的方法。
综上所述,本发明上述实施例提供的汉字转拼音的方法及系统能够同时大批量的完成汉字转拼音的过程,进而提升了汉字转拼音的效率,对应大幅提升了用户的使用体验。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种汉字转拼音的方法,其特征在于,所述方法包括:
当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
2.根据权利要求1所述的汉字转拼音的方法,其特征在于:所述对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型的步骤包括:
当实时获取到所述目标字符串时,实时检测出与所述目标字符串对应的目标字符串长度,并基于所述目标字符串长度对所述目标字符串进行正向最大步长分词处理,以将所述目标字符串拆分成若干个对应的最小字符单元;
将若干所述最小字符单元依次输入至预设编码网络中,并通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型。
3.根据权利要求2所述的汉字转拼音的方法,其特征在于:所述通过所述预设编码网络将每一所述最小字符单元分别转换成对应的目标类型的步骤包括:
当实时获取到若干所述最小字符单元时,将若干所述最小字符单元依次输入至所述预设编码网络中的匹配层中,并通过所述匹配层实时匹配出与每一所述最小字符单元对应的文字编号;
通过所述预设编码网络中的转换层在预设编码数据库中实时查找出与每一所述文字编号对应的编码串,并根据所述编码串实时确定出所述目标类型。
4.根据权利要求1所述的汉字转拼音的方法,其特征在于:所述实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到所述拼音码时,通过所述预设拼音转换模型实时检测出与所述拼音码对应的特征值,并通过所述预设拼音转换模型根据所述特征值在预设拼音数据库中匹配出若干待选拼音;
基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音。
5.根据权利要求4所述的汉字转拼音的方法,其特征在于:所述基于预设规则在若干所述待选拼音中实时匹配出与所述拼音码对应的初始汉字拼音的步骤包括:
当实时获取到若干所述待选拼音时,实时检测出与每一所述待选拼音分别对应的历史使用频率,并实时检测所述目标字符串中是否具有生僻字;
若实时检测到所述目标字符串中不具有生僻字,则将历史使用频率最高的待选拼音设定为与所述拼音码对应的初始汉字拼音;
若实时检测到所述目标字符串中具有生僻字,则将历史使用频率最低的待选拼音设定为与所述拼音码对应的初始汉字拼音。
6.根据权利要求1所述的汉字转拼音的方法,其特征在于:所述方法还包括:
若实时判断到所述初始汉字拼音与所述目标字符串不对应,则立即返回所述目标字符串,并调出预设程序,以通过所述预设程序中的匹配脚本实时检测出与所述目标字符串对应的目标拼音。
7.根据权利要求6所述的汉字转拼音的方法,其特征在于:所述方法还包括:
当实时检测到所述目标字符串转换完成时,实时生成对应的转换报告,并将所述转换报告上传至预设云平台中;
在所述预设云平台中对所述转换报告进行动态加密处理,并将加密秘钥实时下发至所述用户的移动终端。
8.一种汉字转拼音的系统,其特征在于,所述系统包括:
接收模块,用于当实时接收到用户输入的目标字符串时,对所述目标字符串进行长度迭代处理,以将所述目标字符串转换成对应的目标类型;
转换模块,用于实时检测出与所述目标类型对应的拼音码,并将所述拼音码实时输入至预设拼音转换模型中,所述拼音码包含有具体的数值;
判断模块,用于实时接收所述预设拼音转换模型输出的与所述拼音码对应的初始汉字拼音,并实时判断所述初始汉字拼音是否与所述目标字符串相对应;
第一执行模块,用于若实时判断到所述初始汉字拼音与所述目标字符串相对应,则将所述初始汉字拼音设定为与所述目标字符串对应的目标汉字拼音,所述目标汉字拼音包括全拼音或者拼音首字母。
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的汉字转拼音的方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的汉字转拼音的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410270295.8A CN117875267B (zh) | 2024-03-11 | 2024-03-11 | 一种汉字转拼音的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410270295.8A CN117875267B (zh) | 2024-03-11 | 2024-03-11 | 一种汉字转拼音的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117875267A true CN117875267A (zh) | 2024-04-12 |
CN117875267B CN117875267B (zh) | 2024-05-24 |
Family
ID=90588801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410270295.8A Active CN117875267B (zh) | 2024-03-11 | 2024-03-11 | 一种汉字转拼音的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117875267B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08292941A (ja) * | 1995-04-20 | 1996-11-05 | Sharp Corp | 中国語情報処理装置 |
JPH11175511A (ja) * | 1997-12-16 | 1999-07-02 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JP2002014954A (ja) * | 2000-06-28 | 2002-01-18 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法及び記録媒体 |
KR20020021182A (ko) * | 2000-09-08 | 2002-03-20 | 류충구 | 성조 표현을 이용한 중국어 입력 시스템 및 그 방법 |
CN1949148A (zh) * | 2006-07-25 | 2007-04-18 | 网之易信息技术(北京)有限公司 | 一种汉字输入方法及装置 |
CN101770478A (zh) * | 2008-12-26 | 2010-07-07 | 高德信息技术有限公司 | 数据检索方法、数据检索引擎及嵌入式终端 |
US20200089775A1 (en) * | 2018-09-17 | 2020-03-19 | International Business Machines Corporation | Chinese entity identification |
WO2020186778A1 (zh) * | 2019-03-15 | 2020-09-24 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN114579799A (zh) * | 2022-02-11 | 2022-06-03 | 多益网络有限公司 | 一种录音文稿生成方法、装置、设备及介质 |
CN117371446A (zh) * | 2023-12-07 | 2024-01-09 | 江西曼荼罗软件有限公司 | 一种病历文本排版方法、系统、存储介质及电子设备 |
-
2024
- 2024-03-11 CN CN202410270295.8A patent/CN117875267B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08292941A (ja) * | 1995-04-20 | 1996-11-05 | Sharp Corp | 中国語情報処理装置 |
JPH11175511A (ja) * | 1997-12-16 | 1999-07-02 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JP2002014954A (ja) * | 2000-06-28 | 2002-01-18 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法及び記録媒体 |
KR20020021182A (ko) * | 2000-09-08 | 2002-03-20 | 류충구 | 성조 표현을 이용한 중국어 입력 시스템 및 그 방법 |
CN1949148A (zh) * | 2006-07-25 | 2007-04-18 | 网之易信息技术(北京)有限公司 | 一种汉字输入方法及装置 |
CN101770478A (zh) * | 2008-12-26 | 2010-07-07 | 高德信息技术有限公司 | 数据检索方法、数据检索引擎及嵌入式终端 |
US20200089775A1 (en) * | 2018-09-17 | 2020-03-19 | International Business Machines Corporation | Chinese entity identification |
WO2020186778A1 (zh) * | 2019-03-15 | 2020-09-24 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN114579799A (zh) * | 2022-02-11 | 2022-06-03 | 多益网络有限公司 | 一种录音文稿生成方法、装置、设备及介质 |
CN117371446A (zh) * | 2023-12-07 | 2024-01-09 | 江西曼荼罗软件有限公司 | 一种病历文本排版方法、系统、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
唐开剑;: "如何给汉字加拼音", 农村财务会计, no. 03, 2 March 2009 (2009-03-02) * |
章森, 宗成庆, 陈肇雄, 黄河燕: "语句拼音-汉字转换的智能处理机制分析", 中文信息学报, no. 02, 30 June 1998 (1998-06-30) * |
郑河荣, 沈瑛, 马珂绛, 熊丽荣: "标准汉字库字符的拼音首字母自动提取", 湖州师范学院学报, no. 03, 30 June 2003 (2003-06-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN117875267B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727593A (zh) | 基于历史需求数据挖掘的测试用例智能生成方法及介质 | |
CN112036168A (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112733551A (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN114491187B (zh) | 一种自然资源智能监测集成系统 | |
CN111554275A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN117971487A (zh) | 一种高性能算子生成方法、装置、设备及存储介质 | |
CN115826991B (zh) | 软件脚本生成方法、系统、计算机及可读存储介质 | |
CN117875267B (zh) | 一种汉字转拼音的方法及系统 | |
CN113792033A (zh) | 一种基于Spark的数据质量核查方法、装置、存储介质及终端 | |
CN113413607A (zh) | 一种信息推荐方法、装置、计算机设备及存储介质 | |
CN113076089A (zh) | 一种基于对象类型的api补全方法 | |
CN117610539A (zh) | 意图执行方法、装置、电子设备及存储介质 | |
CN113886520B (zh) | 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质 | |
CN112711678A (zh) | 数据解析方法、装置、设备及存储介质 | |
CN116226681A (zh) | 一种文本相似性判定方法、装置、计算机设备和存储介质 | |
CN116304184A (zh) | 视频分类模型、训练方法、分类方法、设备及存储介质 | |
CN112347231B (zh) | 建筑清单匹配模型的构建方法、匹配方法及装置 | |
CN107766238B (zh) | 一种软件测试方法、装置、设备及计算机可读存储介质 | |
CN118069536B (zh) | 一种车辆底盘性能测试方法及系统 | |
CN117994610B (zh) | 一种图表生成方法及系统 | |
CN112732570B (zh) | 一种基于上下文环境的依恋情结代码味道检测方法 | |
CN112232347B (zh) | 基于概率矩阵的字符识别方法、装置、设备及存储介质 | |
CN118278882A (zh) | 一种项目问题管理方法及系统 | |
CN117349518A (zh) | 确定最远邻候选点的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |