CN112949283B - 文本处理方法、装置、非易失性存储介质及处理器 - Google Patents
文本处理方法、装置、非易失性存储介质及处理器 Download PDFInfo
- Publication number
- CN112949283B CN112949283B CN202110456229.6A CN202110456229A CN112949283B CN 112949283 B CN112949283 B CN 112949283B CN 202110456229 A CN202110456229 A CN 202110456229A CN 112949283 B CN112949283 B CN 112949283B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- segment
- font
- word segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 152
- 239000012634 fragment Substances 0.000 claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000007639 printing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文本处理方法、装置、非易失性存储介质及处理器。其中,该方法包括:获取待处理的目标文本,其中,目标文本为第一字体的文本;根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段;分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。本发明解决了将文本进行字体转换时转换结果不正确的技术问题。
Description
技术领域
本发明涉及文字处理领域,具体而言,涉及一种文本处理方法、装置、非易失性存储介质及处理器。
背景技术
字体转换具有重大意义,通过字体转换可以便于文化交流,保存文化典籍。字体转换本质上是语言学问题,相关技术在这个过程中存在如下问题:(1)人工转换的话,工作量大且转换效率低:几十万乃至上百万字数的文本,完全由人工转换耗时耗力;(2)转换过程中容易产生字符集不兼容问题:当逐字转换的字符集互不兼容时,可能产生无数漏字;(3)转换过程中存在歧义性:一个第一字体的字在很多情况下可以和多个第二字体的字对应,直接转换容易出现错误,导致转换精度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、装置、非易失性存储介质及处理器,以至少解决将文本进行字体转换时转换结果不正确的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取待处理的目标文本,其中,所述目标文本为第一字体的文本;根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段;分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将所述多个第二字体的转换后文本片段进行拼接,得到所述目标文本对应的所述第二字体的转换后文本。
可选地,在所述转换对照库包括转换语句库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:将所述目标文本中的语句与所述转换语句库中包括的语句进行匹配;将与所述转换语句库中的语句匹配的所述目标文本中的语句拆分出来,得到语句片段,其中,所述多个第一字体的文本片段包括所述语句片段。
可选地,在所述转换对照库包括第一词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第一词库,对所述目标文本进行分词,得到第一词片段,其中,所述多个第一字体的文本片段包括所述第一词片段。
可选地,在所述转换对照库包括第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第二词库,对所述目标文本进行分词,得到第二词片段,其中,所述多个第一字体的文本片段包括所述第二词片段,所述第二词库与所述第一词库不同。
可选地,在所述转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第一词库和所述第二词库,对所述目标文本进行分词,得到第三词片段,其中,所述第一字体的文本片段包括所述第三词片段。
可选地,在所述转换对照库还包括转换字库的情况下,分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,包括:使用所述第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,所述第三词片段包括所述第四词片段,所述转换后文本片段包括所述第五词片段,所述第一词库中包括所述第四词片段、所述第五词片段,以及所述第四词片段与所述第五词片段的对应关系;使用所述第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,所述第三词片段包括所述第六词片段,所述转换后文本片段包括所述第七词片段,所述第二词库包括所述第六词片段、所述第七词片段,以及所述第六词片段与所述第七词片段的对应关系;使用所述转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,所述第三词片段包括所述第八词片段,所述转换后文本片段包括所述第九词片段。
可选地,所述第一字体包括汉字繁体,所述第二字体包括汉字简体;或,所述第一字体包括汉字简体,所述第二字体包括汉字繁体。
根据本发明实施例的另一方面,还提供了一种文本处理装置,包括:获取模块,用于获取待处理的目标文本,其中,所述目标文本为第一字体的文本;拆分模块,用于根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段;转换模块,用于分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;拼接模块,用于将所述多个第二字体的转换后文本片段进行拼接,得到所述目标文本对应的所述第二字体的转换后文本。
根据本发明实施例的又一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述文本处理方法。
根据本发明实施例的又一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述文本处理方法。
在本发明实施例中,采用根据预设转换对照库对目标文本进行拆分的方式,通过将第一字体的目标文本拆分为多个文本片段,将多个文本片段转换为第二字体的转换后文本片段,并将转换后文本片段拼接为第二字体的转换后文本,达到了准确地将第一字体的目标文本转换为第二字体的转换后文本的目的,从而实现了将文本进行准确地字体转换的技术效果,进而解决了将文本进行字体转换时转换结果不正确技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的文本处理方法的流程示意图;
图2是根据本发明可选实施例提供的转换对照库的结构示意图;
图3是根据本发明可选实施例提供的繁转简的方法流程图;
图4是根据本发明可选实施方式提供的繁简对照库的工作流程示意图;
图5是根据本发明实施例提供的文本处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例提供的文本处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取待处理的目标文本,其中,目标文本为第一字体的文本。待处理的目标文本即为等待进行字体转换的文本,该文本为使用第一字体。获取目标文本可以采用多种方式,根据目标文本的类型进行选用。例如,作为一种可选的实施例,在目标文本包括文档的情况下,可以首先对文档进行预处理,读取文档中的文字,即在不改变原始文档的基础上,将所有文本信息解析出来,然后将解析后得到的文字作为目标文本进行处理。上述可选的实施例可以用于获取文档中的文本作为目标文本,并保证将目标文本进行字体转换后,仍能按照文档中文本的原始格式进行反馈。
步骤S104,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段。作为一种可选的实施方式,预设的转换对照库中可以包括多方面的信息,例如,可以包括按照语境、语言习惯、语法结构进行拆分的词或者按照语境、语言习惯、语法结构进行词拆分的逻辑算法。通过按照语境、语言习惯以及语法结构对目标文本进行进行合理的拆分,可以增加将第一字体的目标文本转换为第二字体的转换后文本的正确率。其中,第一字体的文本片段可以是符合语言习惯以及语法构成的词、句或者特殊的结构,例如,第一字体的文本片段可以包括第一字体的句子、单词、需要特殊处理的词语或者语法段落,根据转换对照库将上述文本片段从目标文本中拆分出来,可以大大提高后续对其进行字体转换时的正确率,避免逐字进行转换时产生的转换错误。
步骤S106,分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段。本步骤中,对第一字体的文本片段的转换可以使用转换对照库进行,作为一种可选的实施方式,预设的转换对照库可以包括第一字体的文本片段、第二字体的文本片段,以及第一字体的文本片段与第二字体的文本片段之间的关系,通过比照文本片段与上述关系,实现对文本片段的转换,提高了转换的正确率,避免了逐字转换的容易出现错漏的问题。
步骤S108,将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。在将第二字体的转换后文本片段进行拼接的过程中,可以参照与其对应的第一字体的目标文本片段相互之间的连接关系,对转换后文本片段进行拼接,尽量保证维持目标文本的原有词的表达顺序。例如,将目标文本“我去理发”拆分后得到的文本片段为“我”、“去”、“理发”,转换后,得到的转换后文本片段为“我”、“去”、“理髮”,将上述转换后文本片段拼接时,可以保留目标文本的拼接顺序,得到的转换后文本为“我去理髮”,而非“我理髮去”或其他的顺序。
通过上述步骤,采用根据预设转换对照库对目标文本进行拆分的方式,通过将第一字体的目标文本拆分为多个文本片段,将多个文本片段转换为第二字体的转换后文本片段,并将转换后文本片段拼接为第二字体的转换后文本,达到了准确地将第一字体的目标文本转换为第二字体的转换后文本的目的,从而实现了将文本进行准确地字体转换的技术效果,进而解决了将文本进行字体转换时转换结果不准确技术问题。
作为一种可选的实施例,在转换对照库包括转换语句库的情况下,可以将目标文本中的语句与转换语句库中包括的语句进行匹配,然后将与转换语句库中的语句匹配的目标文本中的语句拆分出来,得到语句片段,其中,多个第一字体的文本片段包括语句片段。其中,转换语句库中包括第一字体的语句片段、第二字体的语句片段,以及第一字体的语句片段和第二字体的语句片段的对应关系。在本实施例中,可以根据第一字体的文本类型或者文本内容,使用与其对应的的转换语句库,转换语句库中预先存储有与该目标文本中可能会使用到的常用语句,并将与其对应的转换语句存储在转换语句库中。例如,当进行文本的繁体转简体时,转换语句库中可以预先存储有繁体的语句片段,以及与该语句片段对应的简体语句片段,当匹配到目标文本中包括上述繁体语句片段的情况下,直接使用与其对应的简体语句片段进行转换,保证了字体转换后语义的准确性。
作为一种可选的实施例,在转换对照库包括第一词库的情况下,可以根据第一词库,对目标文本进行分词,得到第一词片段,其中,多个第一字体的文本片段包括第一词片段,第一词库可以包括第一字体的词片段、第二字体的词片段,以及第一字体的词片段和第二字体的词片段之间的对应关系。通过预设的第一词库对目标文本进行分词可以提高分词的正确率。
作为一种可选的实施例,在转换对照库包括第二词库的情况下,可以根据第二词库,对目标文本进行分词,得到第二词片段,其中,多个第一字体的文本片段包括第二词片段,第二词库与第一词库不同。作为一种可选的实施方式,第二词库可以是一种特殊词库,第二词片段可以是一种特殊词片段。其中,特殊词可以包括多种类型,例如,可以包括不需要进行字体转换的词,也可以包括转换规则特殊,不适用常规转换规则进行转换的词。对特殊词片段,可以将其从目标文本中拆分出来,单独处理,例如,对其进行标记并在拼接时拼接入转换后文本,后续由人工根据转换后文本中的标记进行单独处理。
作为一种可选的实施例,在所述转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第一词库和所述第二词库,对所述目标文本进行分词,得到第三词片段,其中,所述第一字体的文本片段包括所述第三词片段。
本可选的实施例中,通过综合运用第一词库和第二词库,实现了对目标文本进行高精度的准确拆分,得到的多个第一字体的第三词片段。例如,第三词片段可以包括普通的词片段和特殊的词片段,在第一词库中可以存储普通的词片段,第二词库中可以存储特殊的词片段,根据第一词库和第二次库存储的各类词片段,实现对目标文本的精准拆分。
作为一种可选的实施例,在所述转换对照库还包括转换字库的情况下,分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,可以采用如下方式:使用所述第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,所述第三词片段包括所述第四词片段,所述转换后文本片段包括所述第五词片段,所述第一词库中包括所述第四词片段、所述第五词片段,以及所述第四词片段与所述第五词片段的对应关系;使用所述第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,所述第三词片段包括所述第六词片段,所述转换后文本片段包括所述第七词片段,所述第二词库包括所述第六词片段、所述第七词片段,以及所述第六词片段与所述第七词片段的对应关系;使用所述转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,所述第三词片段包括所述第八词片段,所述转换后文本片段包括所述第九词片段。
本可选的实施例中,在将文本片段进行字体转换的过程中,可以将第一字体的文本片段按照如下方式依次转换:首先,将第一字体的第四词片段转换为第二字体的第五词片段,其中,第四词片段、第五词片段以及两者的对应关系均保存在第一词库中;其次,将第一字体的第六词片段转换为第二字体的第七词片段,其中,第六词片段、第七词片段以及两者的对应关系均保存在第二词库中;然后将第一字体的第八词片段逐字地转换成第二字体的第九词片段,逐字转换的依据为转换字库。可选地,第八词片段可以是将目标文本进行拆分后得到,但是没有在第一词库和第二词库中预先存储的词片段,因此依靠第一词库和第二词库没有办法对第八词片段进行字体转换,在这样的情况下,可以采用转换字库对第八词片段进行逐字转换,得到第二字体的第九词片段。
作为一种可选的实施例,第一字体包括汉字繁体,第二字体包括汉字简体;或者,第一字体包括汉字简体,第二字体包括汉字繁体。可选地,将第一字体的目标文本转换为第二字体的转换后文本,可以为将繁体的目标文本转换为简体的转换后文本。本实施例提供了一种将繁体文本准确转换成简体文本的方法,具有广阔的应用前景,例如,以繁体字保留的家谱、古代文化典籍,动辄万余字,单靠人工进行繁转简工作费时费力,难以充分挖掘其中包含的大量历史文化信息,而逐字转换的工具精度不高,容易出现错漏,例如将国标码与大五码进行对应转换的过程中,当相互转换的字符集互不兼容时,可能产生无数漏字。又或者逐字转换过程中由于没有考虑语境和上下文,导致转换的歧义性,产生错误,例如,将“著”转换为简体字时,若繁体原文的词组为“著火”,则应当将其转换为“着火”,若繁体原文的词组为“著作”,则应当保留“著作”的字体形式。通过建立转换对照库,根据预设的转换对照库对繁体的目标文本进行分词,得到繁体的文本片段,例如得到“著火”这样的繁体词,再根据繁体的文本片段进行逐片段的繁体转换成简体的工作,大大提高了繁体文本转简体文本的转换准确率。
此外,在第一字体包括汉字繁体,第二字体包括汉字简体的情况下,作为一种可选的实施例,特殊词库可以包括繁体和简体无严格区分的词,如繁体“虯龙”和简体“虬龙”,两者均在日常生活中使用,无严格的简繁区分,此时可以对其进行标记,后续由人工选择使用何种具体词语补充到转换后文本中。
图2是根据本发明可选实施例提供的转换对照库的结构示意图,如图2所示,转换对照库可以包括转换句库、转换字库、转换词库以及特殊词库。在第一字体包括繁体,第二字体包括简体的情况下,可以依据转换对照库中的多个子库,将目标文本进行拆分,并将拆分后得到的繁体文本片段进行逐片段的繁体转简体的处理,再将转换得到的简体文本片段进行拼接,得到简体字的转换后文本。
图3是根据本发明可选实施例提供的繁转简的方法流程图,如图3所示,所述方法包括如下步骤:
S1,获取待处理的存在转换需求的文本R,以及转换目标T,转换目标T包括繁转简以及简转繁;
S2,在文本R为文档的情况下,对文本R进行文档预处理,否则执行步骤S3;
S3,使用繁简对照库对目标文本R进行检索,若目标文本R在繁简对照库中,则按照繁简对照库中预存的转换关系,直接目标文本R其进行繁简转换,若目标文本R不在繁简对照库中,则进入步骤S4;
S4,根据繁简对照库对目标文本R进行中文分词,将其拆分为有意义的词,然后按照转换目标进行繁简逐词转换,最后将转换结果为原始文本结构输出;
S5,当繁转简任务的停止条件满足的情况下,停止繁转简并将转换得到的简体文本输出。
图4是根据本发明可选实施方式提供的繁简对照库的工作流程示意图,如图4所示,当第一字体为繁体,第二字体为简体时,转换对照库可以包括繁简对照库,使用繁简对照库对第一字体的目标文本进行分词和转换。
具体的,可以首先使用繁简对照库对目标文本进行检测,当检测到目标文本为繁简对照库中预先存储的语句或者特殊词,例如“宫商角徵羽”,则不需要对其进行分词;当检测到目标文本为未存储的繁体语句“這個印表機好嗎”,首先对这个句子进行分词,得到多个繁体词片段和繁体字片段,分别是“這個”,“印表機”,“好”和“嗎”。然后根据繁简对照库对上述四个繁体字片段进行转换,得到每个片段对应的简体文本片段,分别是“这个”,“打印机”,“好”,“吗”。最后将上述简体文本片段进行拼接还原,得到目标繁体语句“這個印表機好嗎”对应的简体语句“这个打印机好吗”。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本处理方法的文本处理装置,图5是根据本发明实施例提供的文本处理装置的结构框图,如图5所示,该文本处理装置包括:获取模块52,拆分模块54,转换模块56和拼接模块58。下面对该文本处理装置进行说明。
获取模块52,用于获取待处理的目标文本,其中,目标文本为第一字体的文本;
拆分模块54,连接于上述获取模块52,用于根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段;
转换模块56,连接于上述拆分模块54,用于分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;
拼接模块58,连接于上述转换模块56,用于将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。
此处需要说明的是,上述获取模块52,拆分模块54,转换模块56和拼接模块58对应于实施例1中的步骤S102至步骤S108,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。
实施例3
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理的目标文本,其中,目标文本为第一字体的文本;根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段;分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。
可选的,上述处理器还可以执行如下步骤的程序代码:在转换对照库包括转换语句库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:将目标文本中的语句与转换语句库中包括的语句进行匹配;将与转换语句库中的语句匹配的目标文本中的语句拆分出来,得到语句片段,其中,多个第一字体的文本片段包括语句片段。
可选的,上述处理器还可以执行如下步骤的程序代码:在转换对照库包括第一词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第一词库,对目标文本进行分词,得到第一词片段,其中,多个第一字体的文本片段包括第一词片段。
可选的,上述处理器还可以执行如下步骤的程序代码:在转换对照库包括第二词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第二词库,对目标文本进行分词,得到第二词片段,其中,多个第一字体的文本片段包括第二词片段,第二词库与第一词库不同。
可选的,在转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第一词库和第二词库,对目标文本进行分词,得到第三词片段,其中,第一字体的文本片段包括第三词片段。
可选的,在转换对照库还包括转换字库的情况下,分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,包括:使用第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,第三词片段包括第四词片段,转换后文本片段包括第五词片段,第一词库中包括第四词片段、第五词片段,以及第四词片段与第五词片段的对应关系;使用第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,第三词片段包括第六词片段,转换后文本片段包括第七词片段,第二词库包括第六词片段、第七词片段,以及第六词片段与第七词片段的对应关系;使用转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,第三词片段包括第八词片段,转换后文本片段包括第九词片段。
可选的,上述处理器还可以执行如下步骤的程序代码:第一字体包括汉字繁体,第二字体包括汉字简体;或,第一字体包括汉字简体,第二字体包括汉字繁体。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例1所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取待处理的目标文本,其中,目标文本为第一字体的文本;根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段;分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在转换对照库包括转换语句库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:将目标文本中的语句与转换语句库中包括的语句进行匹配;将与转换语句库中的语句匹配的目标文本中的语句拆分出来,得到语句片段,其中,多个第一字体的文本片段包括语句片段。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在转换对照库包括第一词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第一词库,对目标文本进行分词,得到第一词片段,其中,多个第一字体的文本片段包括第一词片段。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在转换对照库包括第二词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第二词库,对目标文本进行分词,得到第二词片段,其中,多个第一字体的文本片段包括第二词片段,第二词库与第一词库不同。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段,包括:根据第一词库和第二词库,对目标文本进行分词,得到第三词片段,其中,第一字体的文本片段包括第三词片段。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在转换对照库还包括转换字库的情况下,分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,包括:使用第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,第三词片段包括第四词片段,转换后文本片段包括第五词片段,第一词库中包括第四词片段、第五词片段,以及第四词片段与第五词片段的对应关系;使用第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,第三词片段包括第六词片段,转换后文本片段包括第七词片段,第二词库包括第六词片段、第七词片段,以及第六词片段与第七词片段的对应关系;使用转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,第三词片段包括第八词片段,转换后文本片段包括第九词片段。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:第一字体包括汉字繁体,第二字体包括汉字简体;或,第一字体包括汉字简体,第二字体包括汉字繁体。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种文本处理方法,其特征在于,包括:
获取待处理的目标文本,其中,所述目标文本为第一字体的文本;
根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段;
分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;
将所述多个第二字体的转换后文本片段进行拼接,得到所述目标文本对应的所述第二字体的转换后文本;
在所述转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:
根据所述第一词库和所述第二词库,对所述目标文本进行分词,得到第三词片段,其中,所述第一字体的文本片段包括所述第三词片段;
在所述转换对照库还包括转换字库的情况下,分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,包括:
使用所述第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,所述第三词片段包括所述第四词片段,所述转换后文本片段包括所述第五词片段,所述第一词库中包括所述第四词片段、所述第五词片段,以及所述第四词片段与所述第五词片段的对应关系;
使用所述第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,所述第三词片段包括所述第六词片段,所述转换后文本片段包括所述第七词片段,所述第二词库包括所述第六词片段、所述第七词片段,以及所述第六词片段与所述第七词片段的对应关系;
使用所述转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,所述第三词片段包括所述第八词片段,所述转换后文本片段包括所述第九词片段。
2.根据权利要求1所述的方法,其特征在于,在所述转换对照库包括转换语句库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:
将所述目标文本中的语句与所述转换语句库中包括的语句进行匹配;
将与所述转换语句库中的语句匹配的所述目标文本中的语句拆分出来,得到语句片段,其中,所述多个第一字体的文本片段包括所述语句片段。
3.根据权利要求1所述的方法,其特征在于,在所述转换对照库包括第一词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:
根据所述第一词库,对所述目标文本进行分词,得到第一词片段,其中,所述多个第一字体的文本片段包括所述第一词片段。
4.根据权利要求3所述的方法,其特征在于,在所述转换对照库包括第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:
根据所述第二词库,对所述目标文本进行分词,得到第二词片段,其中,所述多个第一字体的文本片段包括所述第二词片段,所述第二词库与所述第一词库不同。
5.根据权利要求1至4任意一项所述的方法,其特征在于,
所述第一字体包括汉字繁体,所述第二字体包括汉字简体;
或,所述第一字体包括汉字简体,所述第二字体包括汉字繁体。
6.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理的目标文本,其中,所述目标文本为第一字体的文本;
拆分模块,用于根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段;
转换模块,用于分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;
拼接模块,用于将所述多个第二字体的转换后文本片段进行拼接,得到所述目标文本对应的所述第二字体的转换后文本;
所述拆分模块,还用于:根据所述第一词库和所述第二词库,对所述目标文本进行分词,得到第三词片段,其中,所述第一字体的文本片段包括所述第三词片段;
所述转换模块,还用于:使用所述第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,所述第三词片段包括所述第四词片段,所述转换后文本片段包括所述第五词片段,所述第一词库中包括所述第四词片段、所述第五词片段,以及所述第四词片段与所述第五词片段的对应关系;
使用所述第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,所述第三词片段包括所述第六词片段,所述转换后文本片段包括所述第七词片段,所述第二词库包括所述第六词片段、所述第七词片段,以及所述第六词片段与所述第七词片段的对应关系;
使用所述转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,所述第三词片段包括所述第八词片段,所述转换后文本片段包括所述第九词片段。
7.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至5中任意一项所述文本处理方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456229.6A CN112949283B (zh) | 2021-04-26 | 2021-04-26 | 文本处理方法、装置、非易失性存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456229.6A CN112949283B (zh) | 2021-04-26 | 2021-04-26 | 文本处理方法、装置、非易失性存储介质及处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949283A CN112949283A (zh) | 2021-06-11 |
CN112949283B true CN112949283B (zh) | 2024-01-23 |
Family
ID=76233512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110456229.6A Active CN112949283B (zh) | 2021-04-26 | 2021-04-26 | 文本处理方法、装置、非易失性存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949283B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060122208A (ko) * | 2005-05-25 | 2006-11-30 | 엘지전자 주식회사 | 이동 통신 단말기의 중문이 포함된 문자 메시지 처리 방법 및 그 이동 통신 단말기 |
JP2008052720A (ja) * | 2006-08-21 | 2008-03-06 | Fuji Xerox Co Ltd | 簡体字と繁体字とを相互変換する方法及びその変換装置 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
-
2021
- 2021-04-26 CN CN202110456229.6A patent/CN112949283B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060122208A (ko) * | 2005-05-25 | 2006-11-30 | 엘지전자 주식회사 | 이동 통신 단말기의 중문이 포함된 문자 메시지 처리 방법 및 그 이동 통신 단말기 |
JP2008052720A (ja) * | 2006-08-21 | 2008-03-06 | Fuji Xerox Co Ltd | 簡体字と繁体字とを相互変換する方法及びその変換装置 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
Non-Patent Citations (3)
Title |
---|
中文繁简转换及其转换工具;冯霞;;电脑知识与技术(学术交流)(第12期);全文 * |
基于中文WINDOWS 95简繁转换系统的设计;朱巧明, 吕强, 杨季文;苏州大学学报(自然科学版)(第03期);全文 * |
基于对照表以及语义相关性之简繁汉字转换;庞祯军;姚天昉;;计算机工程与应用(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112949283A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543644B (zh) | 包含术语翻译的机器翻译方法、装置与电子设备 | |
US10108607B2 (en) | Method and device for machine translation | |
KR20110038474A (ko) | 문장경계 인식 장치 및 방법 | |
CN116501306B (zh) | 一种基于自然语言描述生成接口文档代码的方法 | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN109830231B (zh) | 会话处理方法、装置和存储介质 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN111079408A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN112700769A (zh) | 一种语义理解方法、装置、设备以及计算机可读存储介质 | |
CN116521621A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111831384A (zh) | 语言切换方法和装置、设备及存储介质 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN112949283B (zh) | 文本处理方法、装置、非易失性存储介质及处理器 | |
Hocking et al. | Optical character recognition for South African languages | |
CN113297349B (zh) | 一种基于知识图谱的ros软件包推荐方法及系统 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
CN114154489A (zh) | 一种三元组抽取方法、装置、设备及存储介质 | |
US20150324333A1 (en) | Systems and methods for automatically generating hyperlinks | |
Krishna et al. | SHR++: An interface for morpho-syntactic annotation of Sanskrit corpora | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
CN112836477B (zh) | 代码注释文档的生成方法、装置、电子设备及存储介质 | |
CN114791810A (zh) | 数据转换方法及装置 | |
CN116992865A (zh) | 一种基于上下文的词语法分析方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |