CN113420529A - 一种文本处理方法及装置 - Google Patents
一种文本处理方法及装置 Download PDFInfo
- Publication number
- CN113420529A CN113420529A CN202110714439.0A CN202110714439A CN113420529A CN 113420529 A CN113420529 A CN 113420529A CN 202110714439 A CN202110714439 A CN 202110714439A CN 113420529 A CN113420529 A CN 113420529A
- Authority
- CN
- China
- Prior art keywords
- text
- language
- text data
- column
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种文本处理方法及装置,涉及语言文本处理领域。该文本处理方法包括:终端设备基于第一语料库对文本数据进行断行得到断行/列标记,并依据所述文本数据的断行/列标记显示所述文本数据。其中,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本。在本申请中,终端设备可以利用第一语料库包括的切词关系对文本数据进行断行,避免了现有技术基于字进行断行所导致的界面排版发生紊乱,实现了文本数据的有序排版,提高了终端设备的文本显示效果。
Description
技术领域
本申请涉及语言文本处理领域,尤其涉及一种文本处理方法及装置。
背景技术
随着互联网技术的不断发展,电子政务系统应用而生,电子政务系统用于公务人员利用电脑系统进行公务活动。通常,在电子政务系统所能显示的空间十分有限的情况下,各语言的排版和语言系统不同,如蒙语为竖写、维语为横写。
然而,由于常规的文本处理方法中,文本处理软件对断行/列的处理是基于字而不是词的,所以经常会出现一个词被分割在两行/列中的现象,这会导致界面排版发生冲突,显示效果较差。因此,如何对语言文本进行处理成为目前亟需解决的问题。
发明内容
本申请提供一种文本处理方法及装置,解决了基于字进行断行/列所导致的界面排版问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供了一种文本处理方法,该方法可应用于终端设备,或者该方法可应用于可以支持终端设备实现该方法的通信装置,例如该通信装置包括芯片系统,该文本处理方法包括:终端设备基于第一语料库对文本数据进行断行得到断行/列标记,并依据所述文本数据的断行/列标记显示所述文本数据。其中,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本。
在一种可选的实现方式中,所述文本数据为第一语言文本,依据所述断行/列标记显示所述文本数据,包括:将所述文本数据翻译为第二语言文本,所述第一语言文本和所述第二语言文本的语言类型不同;依据所述断行/列标记显示所述第一语言文本和所述第二语言文本,所述第一语言文本的断行/列标记和所述第二语言文本的断行/列标记一致。
在另一种可选的实现方式中,依据所述断行/列标记显示所述第一语言文本和所述第二语言文本,包括:在所述终端设备的第一显示区域显示所述第一语言文本;在所述终端设备的第二显示区域显示所述第二语言文本,所述第一显示区域和所述第二显示区域分离。
在另一种可选的实现方式中,在所述将文本数据翻译为第二语言文本之后,所述方法还包括:将所述第一语言文本的语言类型和所述第二语言文本的语言类型与界面显示模板库进行匹配,确定双栏显示模板;其中,所述界面显示模板库用于指示多个语言类型与多个显示模板之间的对应关系,所述双栏显示模板用于指示所述第一语言文本和所述第二语言文本在所述终端设备中的显示信息;依据所述双栏显示模板确定所述第一显示区域和所述第二显示区域。
在另一种可选的实现方式中,所述终端设备还包括第三显示区域,所述第三显示区域用于显示至少一个界面控件,所述界面控件包括按钮、菜单、标题栏和对话框中至少一种。
在另一种可选的实现方式中,在所述基于第一语料库对文本数据进行断行得到断行/列标记之前,所述方法还包括:遍历训练文本集得到多个训练词语,所述训练文本集包括所述多个训练词语和所述多个训练词语之间的虚词;对所述多个训练词语进行切词得到切词结果;依据多个切词结果得到所述第一语料库。
在另一种可选的实现方式中,所述方法还包括:依据所述文本数据的断行/列标记更新所述第一语料库。
第二方面,本申请提供了一种文本处理装置,该文本处理装置可应用于终端设备,或者该文本处理装置可应用于可以支持终端设备实现上述文本处理方法的通信装置,例如该通信装置包括芯片系统,该文本处理装置包括:处理模块,用于基于第一语料库对文本数据进行断行得到断行/列标记,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本;显示模块,用于依据所述文本数据的断行/列标记显示所述文本数据。
第三方面,本申请提供了一种终端设备,包括处理器和接口电路,所述接口电路用于接收来自所述终端设备之外的其它终端设备的信号并传输至所述处理器,或将来自所述处理器的信号发送给所述终端设备之外的其它终端设备,所述处理器通过逻辑电路或执行代码指令用于实现如第一方面中任一项实现方式所述的文本处理方法。
第四方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在终端设备中运行时,使得终端设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。
第五方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。
综上,本申请提供一种文本处理方法及装置,涉及语言文本处理领域。该文本处理方法包括:终端设备基于第一语料库对文本数据进行断行得到断行/列标记,并依据所述文本数据的断行/列标记显示所述文本数据。其中,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本。在本申请中,终端设备可以利用第一语料库包括的切词关系对文本数据进行断行,避免了现有技术基于字进行断行所导致的界面排版发生紊乱,实现了文本数据的有序排版,提高了终端设备的文本显示效果。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为本申请提供的一种终端设备的结构示意图。
图2为本申请提供的一种文本处理方法的流程示意图一。
图3为本申请提供的一种文本断行的显示示意图。
图4为本申请提供的一种文本处理方法的流程示意图二。
图5为本申请提供的一种多语言文本的显示示意图一。
图6为本申请提供一种文本处理方法的流程示意图三。
图7为本申请提供的一种多语言文本的显示示意图二。
图8为本申请提供的一种多语言文本的显示示意图三。
图9为本申请提供的一种文本处理装置的结构示意图。
具体实施方式
本申请说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
“多个”是指两个或两个以上,其它量词与之类似。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,对于单数形式“a”,“an”和“the”出现的元素(element),除非上下文另有明确规定,否则其不意味着“一个或仅一个”,而是意味着“一个或多于一个”。例如,“adevice”意味着对一个或多个这样的device。再者,至少一个(at least one of).......”意味着后续关联对象中的一个或任意组合,例如“A、B和C中的至少一个”包括A,B,C,AB,AC,BC,或ABC。
为了解决上述背景技术提出的问题,本申请实施例提供一种文本处理方法,该文本处理方法包括:终端设备基于第一语料库对文本数据进行断行得到断行/列标记,并依据文本数据的断行/列标记显示文本数据。其中,该第一语料库包括多个词语之间的切词关系,文本数据为终端设备的待显示文本。在本申请的实施例中,终端设备可以利用第一语料库包括的切词关系对文本数据进行断行,避免了现有技术基于字进行断行所导致的界面排版发生紊乱,实现了文本数据的有序排版,提高了终端设备的文本显示效果。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍。
图1为本申请提供的一种终端设备的结构示意图,该终端设备100包括处理器110,外部存储器接口120,内部存储器121,USB接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
可以理解的是,本实施例示意的结构并不构成对终端设备100的具体限定。在另一些实施例中,终端设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
显示屏194用于接收文本数据,以向用户或观看者等显示。显示屏194可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显示器。例如,显示屏可包括液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic lightemitting diode,OLED)显示器、等离子显示器、投影仪、微型LED显示器、硅基液晶显示器(liquid crystal on silicon,LCoS)、数字光处理器(digital light processor,DLP)或任意类型的其它显示屏。
本申请实施例中的存储器可以是随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(CentralProcessing Unit,CPU)、神经处理器(Neural processing unit,NPU)或图形处理器(Graphic processing unit,GPU),还可以是其它通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
示例性的,存储介质可以耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于网络设备或终端设备中。
下面再图1所示出的终端设备100的基础上,为了实现上述文本处理方法,本申请提供一种可能的实现方式,如图2所示,图2为本申请提供的一种文本处理方法的流程示意图一,该文本处理方法包括以下步骤。
S210,基于第一语料库对文本数据进行断行得到断行/列标记。
上述的第一语料库包括多个词语之间的切词关系。
作为一种可选的实现方式,在上述的S210之前,终端设备还可以遍历训练文本集得到多个训练词语,训练文本集包括多个训练词语和多个训练词语之间的虚词;终端设备还对多个训练词语进行切词得到切词结果,并依据该多个切词结果得到上述的第一语料库。
示例的,第一语料库还可以称为词汇语料库。具体的,针对于终端设备获取第一语料库的方式可以包括以下步骤A1~A。
A1,编写切词程序,对于输入的第一文本作如下顺序处理:
A1-1,预处理:遍历训练文本集,去除训练文本集中的虚词,获得多个训练词语。
A1-2,查找第一语料库,获得第一语料库中切出一些现成的词;该“现成的词”是指包括多个字,且该多个字可以被连续理解为一个意思的词语。
A1-3,对第一语料库中的剩余部分,以两个字为一组进行自动切词,获得切词结果。
A1-4,重复步骤A1-1~A1-3,直到训练文本集中的所有文本耗尽。
A2,对A1中所得到的切词结果进行排查,去除多个切词结果中的错误结果。该步骤可以由机器进行处理,还可以是人工操作,本申请对此不不予限定。
A3,将A2去除错误结果后的剩余切词结果读入词汇语料库,获得上述的第一语料库。
在现有的技术方案中,语料库常常采用基于字的划分方式,以便文本处理,导致文本显示中词语被按字分开,导致多语言文本的显示出现语义上的歧义。
相比之下,在本申请的实施例中,终端设备利用包括多个词语之间的切词关系的第一语料库对文本数据进行断行,使得文本数据可以按照词语进行断行,在文本的排版过程中,避免了按字显示的问题,进而避免了多语言文本显示过程中字、词不对应的情况,实现了文本数据的准确显示。
在一种可能的实施例中,S210所示出的文本数据为终端设备的待显示文本。
在一种可能的实现方式中,在终端设备确定文本数据的断行/列标记之后,终端设备还可以依据文本数据的断行/列标记更新上述第一语料库。示例的,更新的过程可以是对第一语料库进行词语的切词关系的添加、删减或覆盖等。
值得注意的是,在文本处理的过程中,终端设备利用文本数据的断行/列标记对第一语料库进行更新,可以提高第一语料库的准确性,在终端设备对其他文本数据进行显示的过程中,可以利用更新后的第一语料库对该其他文本数据进行断行,提高该其他文本数据的断行准确性。
需要说明的是,上述的断行/列标记是本申请所提供的一种实施例,在不同的技术描述中,其也可以被成为其他名词。例如,在段落划分的过程中,上述的断行/列标记可以是指段落之间的“段落标记”。
在一种可能的实现方式中,终端设备确定文本数据的断行/列标记可以是按照以下方式实现的。
首先,终端设备对输入的待处理文本(文本数据),将每行最后两字和下一行起始两字进行组合,形成四个字的“检测对象”。
其次,终端设备根据“检测对象”的内容查找第一语料库,确定一个词和下一个词的边界位置,从而确定断行/列位置。
最后,终端设备在断行处插入“回车换行”符号,并将本行文本调整为两端对齐,保证显示效果。
值得注意的是,上述示例仅为本申请提供的一种可能的实施例,不应理解为对本申请的限定。
如图3所示,图3为本申请提供的一种文本断行的显示示意图,在未应用本申请提供的文本处理方法之前,现有技术基于字对文本进行划分,导致“一个”和“结尾”这两个词汇分开在两行显示,文本的显示效果较差。而在本申请提供的技术方案中,由于将文本数据与第一语料库进行匹配得到断行/列标记,因此,“一个”和“结尾”这两个词汇在同一行显示,使得词汇之间没有断行或断列,提高了文本的显示效果。
请继续参见图2,在终端设备确定文本数据的断行/列标记之后,本申请提供的文本处理方法还包括以下步骤S220。
S220,依据文本数据的断行/列标记显示文本数据。
由于现有技术中,目前通行的文本处理软件处理断行/列都是基于字的,没有基于词的软件设计,导致文本的显示和排版出现问题,进而,使得文本数据的理解出现歧义。在本申请实施例所提供的文本处理方法中,终端设备可以利用第一语料库包括的切词关系对文本数据进行断行,避免了现有技术基于字进行断行所导致的界面排版发生紊乱,实现了文本数据的有序排版,提高了终端设备的文本显示效果。
作为一种可选的实现方式,若上述的文本数据为第一语言文本,针对于上述的S220,本申请给出一种可能的实现方式,如图4所示,图4为本申请提供的一种文本处理方法的流程示意图二,上述的S220包括以下步骤S2201~S2202。
S2201,将文本数据翻译为第二语言文本。
上述第一语言文本和第二语言文本的语言类型不同。该待显示文本的语言类型可以包括,但不限于中文、英语、日文、德语、法语、西班牙语、意大利语和民族语言(如维语、蒙语等)中至少一种。
例如,若第一语言文本为中文,第二语言文本可以为蒙语。
又如,若第一语言文本为中文,第二语言文本可以为维语。
S2202,依据断行/列标记显示第一语言文本和第二语言文本。
该第一语言文本的断行/列标记和第二语言文本的断行/列标记一致。如图5所示,图5为本申请提供的一种多语言文本的显示示意图一,该终端设备100可以为桌面电脑,如图5中的(a)所示,第一语言文本可以为中文,第二语言文本可以为维语。又如图5中的(b)所示,第一语言文本可以为中文,第二语言文本可以为蒙语。
为了显示第一语言文本和第二语言文本,在图4的基础上,本申请提供一种可能的实现方式,如图6所示,图6为本申请提供一种文本处理方法的流程示意图三,上述的S2202可以包括以下步骤S2202a~S2202c。
S2202a,将第一语言文本的语言类型和第二语言文本的语言类型与界面显示模板库进行匹配,确定双栏显示模板。
其中,界面显示模板库用于指示多个语言类型与多个显示模板之间的对应关系,双栏显示模板用于指示第一语言文本和第二语言文本在终端设备中的显示信息。该显示信息可以包括,但不限于文字字号、文字格式、段落的对齐方式、文字的颜色、字形和文字是否加粗等信息。
S2202b,依据双栏显示模板确定第一显示区域和第二显示区域。
该双栏显示模板还可以确定两个语言栏(第一显示区域和第二显示区域)在终端设备中的原始尺寸和文本框的总体原始尺寸,如图5的(a)中所示示出的会议系统标题栏的下方的黑色显示区域(文本框的总体原始尺寸),在该黑色显示区域中,第一语言文本和第二语言文本可以分开显示,也可以依据断行/断列表示逐行/逐列显示,本申请对此不与限定。
S2202c,在终端设备的第一显示区域显示第一语言文本,在终端设备的第二显示区域显示第二语言文本。
在一种可能的示例中,第一显示区域和第二显示区域可以分离。在第一显示区域和第二显示区域分离的情况下,终端设备的使用者可以通过不同的区域查看文本数据在不同预览类型的文本,避免不同的语言类型在同一个区域中进行显示,提高了使用者查看单语言文本的体验。
在另一种可能的示例中,第一显示区域和第二显示区域可以交叉设置,如图5中的(b)所示,针对于双语显示表格,第一语言文本和第二语言文本的书写方式不同,第一语言文本为中文,其书写方式为从左往右;第二语言文本为蒙语,其书写方式为从上到下,在第一显示区域和第二显示区域交叉设置的情况下,使用者可以对应每个词汇的译文,既可以提高文本数据的显示效果,还可以提高用户体验。
在一种可选的实现方式中,请继续参见图5,图5中的(a)所示出的终端设备还包括第三显示区域,该第三显示区域用于显示至少一个界面控件,界面控件包括按钮、菜单、标题栏和对话框中至少一种。该界面控件可以用于控制文本的显示效果,或是切换终端设备显示的文本内容。在本申请的实施例中,该第三显示区域可以与上述的第一显示区域、第二显示区域分离设置,以便区分各界面控件和文本显示框的内容。
在一种可能的示例中,若第三显示区域中各文本的字数较少,或显示空间仅有一行,该文本也可以不需要进行断行/断列的匹配,且第三显示区域中各文本也可以翻译为其他语言文本,如图7所示,图7为本申请提供的一种多语言文本的显示示意图二,第三显示区域中各文本为中文,该文本的英文可以显示在中文文本的上方。如图7所示出的meetingsystem-会议系统、meeting preparation-会议准备、meeting control-会议控制、meetinginquiry-会议查询、system management-系统管理。值得注意的是,图7是以中文翻译为英文为例进行说明的,但在一些可能的情况下,也可以是中文翻译为蒙语、中文翻译为维语、维语翻译为蒙语等,本申请对此不予限定。
在另一些可能的示例中,第三显示区域还可以设置在第一显示区域和第二显示区域上层,或是通过一个触发按钮来弹出第三显示区域,本申请对此不予限定。如图8所示,图8为本申请提供的一种多语言文本的显示示意图三,该第三显示区域可以是终端设备中弹出的对话框,如该对话框是用于表决(选择“是”或“否”)的选择对话框,如图8所示,用户可以点击该弹出的对话框中的选项(“yes-是”或“no-否”),进行会议的表决等操作。
也就是说,在本申请的上述实施例所提供的技术方案中,终端设备可以依据文本数据的数据长度确定是否对文本数据进行断行/列,若文本数据的数据长度小于或等于长度阈值(如5个中文字符),则终端设备不对该文本数据进行断行/列,直接对该文本数据进行显示,显示该文本数据的过程中,可以依据界面模板或用户的需求将该文本数据翻译为其他语言类型的文本。若文本数据的数据长度大于长度阈值,则终端设备可以按照上述S210~S220,以及S2201~S2202及其可能的步骤显示该文本数据,此处不再赘述。
在现有的技术方案中,如软件系统中需要汉语和少数民族语言并列排版的场合(包括控件安排和文本显示等),都是通过人工调整实现的,缺乏自动机制。由于排版习惯差别很大,要实现自动调整难度很大。
相比之下,本申请实施例提供的技术方案,终端设备基于第一语料库对文本数据进行断行得到断行/列标记,并依据文本数据的断行/列标记显示文本数据。其中,该第一语料库包括多个词语之间的切词关系,文本数据为终端设备的待显示文本。在本申请的实施例中,终端设备可以利用第一语料库包括的切词关系对文本数据进行断行,避免了现有技术基于字进行断行所导致的界面排版发生紊乱,实现了文本数据的有序排版,提高了终端设备的文本显示效果。
可以理解的是,为了实现上述实施例中功能,终端设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
图9为本申请提供的一种文本处理装置的结构示意图,该文本处理装置900包括处理模块910和显示模块920,这些文本处理装置可以用于实现上述方法实施例中终端设备的功能,因此也能实现上述方法实施例所具备的有益效果。在本申请的实施例中,该文本处理装置700可以是如图1所示的终端设备100,也可以是应用于终端设备的模块(如芯片)。
处理模块910用于基于第一语料库对文本数据进行断行得到断行/列标记,第一语料库包括多个词语之间的切词关系,文本数据为终端设备的待显示文本。
显示模块920用于依据文本数据的断行/列标记显示文本数据。
值得注意的是,处理模块910和显示模块920可以协同实现图2、图4和图6所示出的文本处理方法的各个操作步骤,有益效果可以参考上述文本处理方法的任意一个实施例所提供的内容,此处不予赘述。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于网络设备或终端设备中。当然,处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定。
Claims (10)
1.一种文本处理方法,其特征在于,应用于终端设备,所述方法包括:
基于第一语料库对文本数据进行断行得到断行/列标记,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本;
依据所述文本数据的断行/列标记显示所述文本数据。
2.根据权利要求1所述的方法,其特征在于,所述文本数据为第一语言文本,依据所述断行/列标记显示所述文本数据,包括:
将所述文本数据翻译为第二语言文本,所述第一语言文本和所述第二语言文本的语言类型不同;
依据所述断行/列标记显示所述第一语言文本和所述第二语言文本,所述第一语言文本的断行/列标记和所述第二语言文本的断行/列标记一致。
3.根据权利要求2所述的方法,其特征在于,依据所述断行/列标记显示所述第一语言文本和所述第二语言文本,包括:
在所述终端设备的第一显示区域显示所述第一语言文本;
在所述终端设备的第二显示区域显示所述第二语言文本,所述第一显示区域和所述第二显示区域分离。
4.根据权利要求3所述的方法,其特征在于,在所述将文本数据翻译为第二语言文本之后,所述方法还包括:
将所述第一语言文本的语言类型和所述第二语言文本的语言类型与界面显示模板库进行匹配,确定双栏显示模板;
其中,所述界面显示模板库用于指示多个语言类型与多个显示模板之间的对应关系,所述双栏显示模板用于指示所述第一语言文本和所述第二语言文本在所述终端设备中的显示信息;
依据所述双栏显示模板确定所述第一显示区域和所述第二显示区域。
5.根据权利要求3或4所述的方法,其特征在于,所述终端设备还包括第三显示区域,所述第三显示区域用于显示至少一个界面控件,所述界面控件包括按钮、菜单、标题栏和对话框中至少一种。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述基于第一语料库对文本数据进行断行得到断行/列标记之前,所述方法还包括:
遍历训练文本集得到多个训练词语,所述训练文本集包括所述多个训练词语和所述多个训练词语之间的虚词;
对所述多个训练词语进行切词得到切词结果;
依据多个切词结果得到所述第一语料库。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
依据所述文本数据的断行/列标记更新所述第一语料库。
8.一种文本处理装置,其特征在于,应用于终端设备,所述装置包括:
处理模块,用于基于第一语料库对文本数据进行断行得到断行/列标记,所述第一语料库包括多个词语之间的切词关系,所述文本数据为所述终端设备的待显示文本;
显示模块,用于依据所述文本数据的断行/列标记显示所述文本数据。
9.一种终端设备,其特征在于,包括处理器和接口电路,所述接口电路用于接收来自所述终端设备之外的其它终端设备的信号并传输至所述处理器,或将来自所述处理器的信号发送给所述终端设备之外的其它终端设备,所述处理器通过逻辑电路或执行代码指令用于实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序或指令,当所述计算机程序或指令被通信装置执行时,实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714439.0A CN113420529A (zh) | 2021-06-25 | 2021-06-25 | 一种文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714439.0A CN113420529A (zh) | 2021-06-25 | 2021-06-25 | 一种文本处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420529A true CN113420529A (zh) | 2021-09-21 |
Family
ID=77716822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110714439.0A Pending CN113420529A (zh) | 2021-06-25 | 2021-06-25 | 一种文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420529A (zh) |
-
2021
- 2021-06-25 CN CN202110714439.0A patent/CN113420529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190012076A1 (en) | Typing assistance for editing | |
US11556703B2 (en) | Table detection in spreadsheet | |
US9552125B2 (en) | Input method editor | |
TWI595366B (zh) | 在固定格式文件中東亞配置特徵的偵測和重建 | |
US20060149557A1 (en) | Sentence displaying method, information processing system, and program product | |
US20190340233A1 (en) | Input method, input device and apparatus for input | |
CN102929533A (zh) | 用于具有多语言环境的设备的输入方法及相关设备和系统 | |
CN111666776B (zh) | 文档翻译方法和装置、存储介质和电子设备 | |
US10402474B2 (en) | Keyboard input corresponding to multiple languages | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
CN111860000A (zh) | 文本翻译编辑方法、装置、电子设备及存储介质 | |
CN111898388A (zh) | 视频字幕翻译编辑方法、装置、电子设备及存储介质 | |
CN112149680B (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN111984589A (zh) | 文档处理方法、文档处理装置和电子设备 | |
EP2653981A1 (en) | Natural language processing device, method, and program | |
JP2024064941A (ja) | 表示方法、装置、ペン型電子辞書、電子機器及び記憶媒体 | |
CN111602129B (zh) | 针对注释和墨迹的智能搜索 | |
JP2022074852A (ja) | 辞書編集装置、辞書編集方法及び辞書編集プログラム | |
CN113420529A (zh) | 一种文本处理方法及装置 | |
EP3719676A1 (en) | Language processing method and device | |
CN105718427B (zh) | 一种信息处理方法及电子设备 | |
CN111857362A (zh) | 文字输入方法及文字输入装置 | |
US11907649B2 (en) | Method and apparatus for managing interface, device and readable storage medium | |
CN117421143A (zh) | Pdf文本的复制优化方法、装置、设备及介质 | |
KR101680777B1 (ko) | 오타 문자 수정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |