CN113076724A

CN113076724A - 转换字符的方法及装置

Info

Publication number: CN113076724A
Application number: CN202110378904.8A
Authority: CN
Inventors: 吴信东; 赵海霞; 李磊; 卜晨阳
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-06
Anticipated expiration: 2041-04-08
Also published as: CN113076724B

Abstract

本申请公开了一种转换字符的方法及装置。其中，该方法包括：确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。本申请解决了由于相关技术中在进行繁体字到简体字转化时无差别地对繁体字进行转化，造成的转换结果不准确，转换后的结果与实际文字所表达的含义不符的技术问题。

Description

转换字符的方法及装置

技术领域

本申请涉及文字处理领域，具体而言，涉及一种转换字符的方法及装置。

背景技术

一些繁体字在一些特定语境下(处于固定词组中，例如，著作)，它的繁体和简体是相同的，不需要进行转换，如“他家裏著火了，著作全被燒了。”如果直接分词进行转换其结果为“他家里着火了，着作全被烧了。”其中，“著火”经过转换之后为“着火”是正确的，而“著作”经过转换之后被转换为“着作”实际上这并不是我们期待的结果，我们希望的是转换以后依然是“著作”。即，相关技术中，在进行繁体字到简体字进行转化时，存在易出错，造成实际转换后的结果与实际文字所表达的含义不符，转换正确率低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种转换字符的方法及装置，以至少解决由于相关技术中在进行繁体字到简体字转化时无差别地对繁体字进行转化，造成的转换结果不准确，转换后的结果与实际文字所表达的含义不符的技术问题。

根据本申请实施例的一个方面，提供了一种转换字符的方法，包括：确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。

可选地，确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组之前，方法还包括：判断第一数据库中是否存在第一字符，在第一数据库存在第一字符的情况下，确定第一字符在待转换语句中对应的目标词组，其中，第一数据库中预设存储有参考词组，以及参考词组对应的第二书写形式。

可选地，将待转换语句中第一书写形式的字符转换为第二书写形式，得到第一转换结果，包括：在第二数据库中搜索第一书写形式对应的第一字符，在搜索到第一书写形式对应的第一字符的情况下，确定第一字符对应的第二书写形式，其中，第二数据库中预先存储第一字符的第一书写形式，以及第二书写形式。

可选地，将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果，包括：利用分词算法对待转换语句进行分词，得到至少一个目标词组；基于第二数据库对至少一个目标词组进行转换，得到第一转换结果。

可选地，第二数据库包括：第一子数据库和第二子数据库，基于第二数据库对至少一个目标词组进行转换，包括：当目标词组对应的字符长度大于预设阈值时，基于第一子数据库对目标词组进行转换；当目标词组对应的字符长度小于预设阈值时，基于第二子数据库对目标词组进行转换。

可选地，在目标词组均与参考词组不一致的情况下，将待转换语句中的第一字符对应的第一书写形式直接转换为第二书写形式，得到第一转换结果，将第一转换结果作为目标转换结果。

根据本申请实施例的另一方面，还提供了一种转换字符的装置，包括：第一确定模块，用于确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；第二确定模块，用于在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；转换模块，用于将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；还原模块，用于将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。

可选地，装置还包括：判断模块，用于确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组之前，判断第一数据库中是否存在第一字符，在第一数据库存在第一字符的情况下，确定第一字符在待转换语句中对应的目标词组，其中，第一数据库中预设存储有参考词组，以及参考词组对应的第二字符。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行任意一种转换字符的方法。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行任意一种转换字符的方法。

在本申请实施例中，采用对目标词组所在位置先进行繁转简后还原的方式，通过确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组，在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置，将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果，将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果，达到了对待转换语句中与参考词组一致的目标词组所在目标位置进行标记，并对整个待转换语句进行转化后，重新还原该目标位置处的目标词组的技术效果，进而解决了由于相关技术中在进行繁体字到简体字转化时无差别地对繁体字进行转化，造成的转换结果不准确，转换后的结果与实际文字所表达的含义不符的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的转换字符的方法的流程示意图；

图2是根据本申请实施例的一种可选的特殊字库存储示意图；

图3是根据本申请实施例一种可选的转换字符的流程示意图；

图4是根据本申请实施例的一种可选的转换字符的装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种转换字符的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的转换字符的方法，如图1所示，该方法包括如下步骤：

步骤S102，确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；

步骤S104，在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；

步骤S106，将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；

步骤S108，将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。

该转换字符的方法中，首先，可确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；然后在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；其次再将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；最后，将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果，达到了对待转换语句中与参考词组一致的目标词组所在目标位置进行标记，并对整个待转换语句进行转化后，重新还原该目标位置处的目标词组的技术效果，进而解决了由于相关技术中在进行繁体字到简体字转化时无差别地对繁体字进行转化，造成的转换结果不准确，转换后的结果与实际文字所表达的含义不符的技术问题。

本申请一些实施例中，在确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组之前，可通过如下方法确定待转换语句中的目标词组：判断第一数据库中是否存在第一字符，在第一数据库存在第一字符的情况下，确定第一字符在待转换语句中对应的目标词组，其中，第一数据库中预设存储有参考词组，以及参考词组对应的第二书写形式，容易注意到的是，该第一数据库可以为基于特殊词组建立的特殊字库，显而易见的，该特殊字库存储的是在转换过程中，不需要进行转换的词组以及词组对应的单字，例如，该特殊词组可以为著作，图2为本申请一种可选的特殊字库存储示意图，如图2所示，该示意图包括“著”-“著作”、“徵”-“宫商角徵羽”、“虯”-“虯龙”、“虯”-“虯髯”等。

可以理解的，上述确定第一字符在转换语句中的目标位置，可以通过以下方式实现：

接收用户输入的待转换语句，例如，任意繁体语句，并以字为单位循环输入语句，查找是否存在于特殊字库中。如果存在的话，接着查看字库中单字对应的词语在输入语句中是否存在，如果存在的话，记录当前单字在输入语句中的位置信息以及汉字信息，并存储在temp数组中。数组的存储形式为temp[0]＝{“loc”＝>“位置1，位置2(词组所在语句中的首字符位置与尾字符位置)”，“info”＝>“当前字符对应的词组”}。

本申请一些可选的实施例中，将待转换语句中第一书写形式的字符转换为第二书写形式，得到第一转换结果，可以通过以下步骤实现：在第二数据库中搜索第一书写形式对应的第一字符，在搜索到第一书写形式对应的第一字符的情况下，确定第一字符对应的第二书写形式，其中，第二数据库中预先存储第一字符的第一书写形式，以及第二书写形式。

可以理解的，将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果时，可以利用分词算法对待转换语句进行分词，得到至少一个目标词组，并基于第二数据库对至少一个目标词组进行转换，得到第一转换结果。

需要说明的是，第二数据库包括但不限于：第一子数据库和第二子数据库，基于第二数据库对至少一个目标词组进行转换，包括：当目标词组对应的字符长度大于预设阈值时，基于第一子数据库对目标词组进行转换；当目标词组对应的字符长度小于预设阈值时，基于第二子数据库对目标词组进行转换，容易注意到的是，上述第一子数据库可以为基于单个字的转换字典，第二子数据库可以为基于词组的转换词典。

容易注意到的是，在目标词组均与参考词组不一致的情况下，将待转换语句中的第一字符对应的第一书写形式直接转换为第二书写形式，得到第一转换结果，将第一转换结果作为目标转换结果，即，在待转换语句中所有字符，以及字符组成的词组，不存在与参考词组一致的词组，则直接利用第二数据库进行转换，并将转换结果作为目标转换结果。

为了更好地理解本申请相关实施例，现结合一种可选的具体实施例进行说明：

步骤1读取创建的特殊字库；

步骤2判断是否存在不应该转换的字或词组，即判断目标词组是否与特殊字库中的参考词组是否一致，若该目标词组与参考词组一致，则认为该目标词组为不应该转换的词组，该目标词组对应的字为不应该转换的字：

接收用户输入任意繁体语句，以字为单位循环输入语句，查找是否存在于特殊字库中。如果存在的话，接着查看字库中单字对应的词语在输入语句中是否存在，如果存在的话，记录当前单字在输入语句中的位置信息以及汉字信息，并存储在temp数组中。数组的存储形式为temp[0]＝{“loc”＝>“位置1，位置2”，“info”＝>“当前汉字对应词组所在语句中的首字符位置，与尾字符位置”]。

步骤3对语句进行繁转简转换：

步骤3.1读取字典表获取繁简对照表，返回两个字典：hanziDict(基于单个字的转换字典)，wordGroupDict(基于词组的转换词典)。步骤3.2如果用户输入的语句在3.1获取到的字典中存在，那么接着执行步骤3.2.1及后续步骤，如果语句未在字典中找到那么转至步骤3.3；

步骤3.2.1如果在hanziDict字典中存在，直接返回对应的简体汉字即hanziDict[$str]，结束繁简转换过程，接着执行步骤4，否则转至步骤3.2.2；

步骤3.2.2如果在wordGroupDict词典中存在，直接返回对应的简体词组即wordGroupDict[$str]，结束繁简转换过程，接着执行步骤4，否则转至步骤3.3；

步骤3.3对语句进行分词，得到分词之后的数组$seg_str，接着对数组进行遍历；

步骤3.3.1如果当前文本$seg_str[$i]在hanziDict字典中存在，记录其对应的简体汉字即hanziDict[$seg_str[$i]]，接着执行步骤3.4，否则转至步骤3.3.2；

步骤3.3.2如果当前文本$seg_str[$i]在wordGroupDict词典中存在，记录其对应的简体汉字即wordGroupDict[$seg_str[$i]]，接着执行步骤3.4，否则转至步骤3.3.3；

步骤3.3.3如果当前文本$seg_str[$i]的长度超过3(预设阈值)，利用hanziDict字典进行逐个字符转换，接着执行步骤3.4，否则转至步骤3.3.4；

步骤3.3.4对于当前分词$seg_str[$i]利用wordGroupDict词典进行转换，接着执行步骤3.4；

步骤3.4将转换后的分词片段重新赋值给$seg_str[$i]，即，将转换后的简体字赋值到相应位置；

步骤3.5遍历完成后，结束转换过程，接着执行步骤4；

步骤4根据不转换数组temp进行字词替换：

当记录的数组temp不为空时，遍历temp数组，将每一个字词对应在输入语句中的位置都进行替换，得到最终转换结果，返回转换后的语句。

图3是本申请一种可选的转换字符的流程示意图，如图3所示，该流程包括以下步骤：

输入需转换语句，判断该语句的字是否存在与特殊字库的键值对中的键中，若存在，则确定该特殊字库中键对应的值在该语句中存在，并在temp数组中记录该该字的位置和字符信息(若不存在，则直接循环到需转换语句中的最后一个字)；然后判断是否已经循环(遍历)到需转换语句中的最后一个字，若已经循环到该语句中的最后一个字，则利用分词语句进行分词，并根据词库(词典)逐词繁转简，并将转换结果还原至输入语句中(即，将转换得到的简体字赋值到其对应的位置)；然后，遍历不转换数组temp是否不为空，若不为空，则将该数组temp记录的字在语句中进行还原，并返回繁转简转换结果(若为空，则直接返回繁转简转换结果)。

图4是根据本申请实施例的一种转换字符的装置，如图4所示，该装置包括：

第一确定模块40，用于确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；

第二确定模块42，用于在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；

转换模块44，用于将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；

还原模块46，用于将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。

该转换字符的装置中，第一确定模块40，用于确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；第二确定模块42，用于在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；转换模块44，用于将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；还原模块46，用于将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果，达到了对待转换语句中与参考词组一致的目标词组所在目标位置进行标记，并对整个待转换语句进行转化后，重新还原该目标位置处的目标词组的技术效果，进而解决了由于相关技术中在进行繁体字到简体字转化时无差别地对繁体字进行转化，造成的转换结果不准确，转换后的结果与实际文字所表达的含义不符的技术问题。

需要说明的是，该装置还包括：判断模块，用于确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组之前，判断第一数据库中是否存在第一字符，在第一数据库存在第一字符的情况下，确定第一字符在待转换语句中对应的目标词组，其中，第一数据库中预设存储有参考词组，以及参考词组对应的第二字符。

具体地，上述存储介质用于存储执行以下功能的程序指令，实现以下功能:

确定待转换语句中的第一字符以及第一字符在待转换语句中对应的目标词组；在目标词组与参考词组一致的情况下，确定第一字符在待转换语句中的目标位置；将待转换语句中第一书写形式的字符转换为第二书写形式，得到待转换语句的第一转换结果；将第一转换结果中位于目标位置处的第一字符，由第二书写形式还原为第一书写形式，得到目标转换结果。

具体地，上述处理器用于调用存储器中的程序指令，实现以下功能：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种转换字符的方法，其特征在于，包括：

确定待转换语句中的第一字符以及所述第一字符在所述待转换语句中对应的目标词组；

在所述目标词组与参考词组一致的情况下，确定所述第一字符在所述待转换语句中的目标位置；

将所述待转换语句中第一书写形式的字符转换为第二书写形式，得到所述待转换语句的第一转换结果；

将所述第一转换结果中位于所述目标位置处的所述第一字符，由所述第二书写形式还原为所述第一书写形式，得到目标转换结果。

2.根据权利要求1所述的方法，其特征在于，确定待转换语句中的第一字符以及所述第一字符在所述待转换语句中对应的目标词组之前，所述方法还包括：

判断第一数据库中是否存在所述第一字符，在所述第一数据库存在所述第一字符的情况下，确定所述第一字符在所述待转换语句中对应的目标词组，其中，所述第一数据库中预设存储有所述参考词组，以及所述参考词组对应的第二书写形式。

3.根据权利要求1所述的方法，其特征在于，将所述待转换语句中第一书写形式的字符转换为第二书写形式，得到第一转换结果，包括：

在第二数据库中搜索所述第一书写形式对应的第一字符，在搜索到所述第一书写形式对应的所述第一字符的情况下，确定所述第一字符对应的第二书写形式，其中，所述第二数据库中预先存储所述第一字符的第一书写形式，以及所述第二书写形式。

4.根据权利要求3所述的方法，其特征在于，将所述待转换语句中第一书写形式的字符转换为第二书写形式，得到所述待转换语句的第一转换结果，包括：

利用分词算法对所述待转换语句进行分词，得到至少一个目标词组；

基于所述第二数据库对所述至少一个目标词组进行转换，得到所述第一转换结果。

5.根据权利要求4所述的方法，其特征在于，所述第二数据库包括：第一子数据库和第二子数据库，基于所述第二数据库对所述至少一个目标词组进行转换，包括：

当所述目标词组对应的字符长度大于预设阈值时，基于所述第一子数据库对所述目标词组进行转换；

当所述目标词组对应的字符长度小于预设阈值时，基于所述第二子数据库对所述目标词组进行转换。

6.根据权利要求1所述的方法，其特征在于，在所述目标词组均与参考词组不一致的情况下，将所述待转换语句中的所述第一字符对应的第一书写形式直接转换为第二书写形式，得到第一转换结果，将所述第一转换结果作为所述目标转换结果。

7.一种转换字符的装置，其特征在于，包括：

第一确定模块，用于确定待转换语句中的第一字符以及所述第一字符在所述待转换语句中对应的目标词组；

第二确定模块，用于在所述目标词组与参考词组一致的情况下，确定所述第一字符在所述待转换语句中的目标位置；

转换模块，用于将所述待转换语句中第一书写形式的字符转换为第二书写形式，得到所述待转换语句的第一转换结果；

还原模块，用于将所述第一转换结果中位于所述目标位置处的所述第一字符，由所述第二书写形式还原为所述第一书写形式，得到目标转换结果。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

判断模块，用于确定待转换语句中的第一字符以及所述第一字符在所述待转换语句中对应的目标词组之前，判断第一数据库中是否存在所述第一字符，在所述第一数据库存在所述第一字符的情况下，确定所述第一字符在所述待转换语句中对应的目标词组，其中，所述第一数据库中预设存储有所述参考词组，以及所述参考词组对应的第二字符。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至6中任意一项所述转换字符的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述转换字符的方法。