CN103914443A - 一种多语种文字的混排方法及装置 - Google Patents

一种多语种文字的混排方法及装置 Download PDF

Info

Publication number
CN103914443A
CN103914443A CN201310008307.1A CN201310008307A CN103914443A CN 103914443 A CN103914443 A CN 103914443A CN 201310008307 A CN201310008307 A CN 201310008307A CN 103914443 A CN103914443 A CN 103914443A
Authority
CN
China
Prior art keywords
typesetting
language
character
word
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310008307.1A
Other languages
English (en)
Other versions
CN103914443B (zh
Inventor
杨燕菲
唐耀珺
王斌
严昌华
缪萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BEIDA FOUNDER ELECTRONICS Co Ltd
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310008307.1A priority Critical patent/CN103914443B/zh
Priority to US14/098,406 priority patent/US20140195902A1/en
Publication of CN103914443A publication Critical patent/CN103914443A/zh
Application granted granted Critical
Publication of CN103914443B publication Critical patent/CN103914443B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种多语种文字的混排方法及装置,所述方法包括:获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。采用本发明提供的多语种文字的混排方法及装置不但可以方便、高效地为多种语言混排文字设置语言、字体等,还可以根据语言对应的排版规则,正确排版,解决现有技术中多语言文字混排的手续繁琐、费时费力以及效果不正确的问题。

Description

一种多语种文字的混排方法及装置
技术领域
本发明涉及排版技术领域,尤其涉及一种多语种文字的混排方法及装置。
背景技术
目前,在计算机处理中,常常需要编排包含有多种语言文字混排的文档。由于Unicode(统一码、万国码、单一码)作为跨语言、跨平台的字符编码,使其普及率较高,成为常用的文档字符编码方式之一。
Unicode虽为每种语言中的每个字符设定了统一并且唯一的二进制编码,但是如果同一语系的多个子语言存在相同的字母,则会在Unicode中表示为同一编码。例如:阿拉伯文字符使用U0600-U06FF编码区间,维吾尔文字符也使用该编码区间;传统蒙文字符使用1800-18AF编码区间,托忒蒙文字符也使用该编码区间。这样,在现有的多种语言文字混排的过程中发现,同一语系的子语言由于使用相同的编码区间,从而在同一语系的子语言在同一文档中进行混排时,难以判断某一编码的字符的实际表示语言。
因此,在Unicode格式的文档中,通常会为某部分文字指定一个实际的语言属性。排版人员可以通过鼠标拖放或键盘操作选中文档中的某段文字,通过菜单命令,设定该段文字的语言属性。
但是,在现有多语种文字混排的过程中,发明人发现现有混排的方法存在如下问题:
在多语种文字混排的文档较长时,排版人员需要手动一一设置文档语言属性不但工作量大、繁琐、且效率较低;在现有文档中键入或粘贴新的文字后,也必须为其指定语言属性,否则排版效果将出现错误,例如:在中文段落中,键入维文单词,一定要指明维文语言,否则该单词就可能被系统识别为阿文单词。
发明内容
本发明的目的是提出一种方便、高效的多语种文字的混排方案,该方案能够自动快速地为多种语言混排文字设置语言、字体等,并可以根据语言对应的排版规则,正确排版,解决现有技术中多语种文字混排的手续繁琐、费时费力以及效果不正确的问题。
针对现有技术中存在的缺陷,本发明的目的是提供一种多语种文字的混排方法及装置
本发明提供一种多语种文字的混排方法,包括:
获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
本发明还提供一种多语种文字的混排装置,包括:
信息获取单元,用于获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
排版单元,用于根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
本发明提供的多语种文字的混排方法及装置,通过自动获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版,从而使得多语种文字的混排过程不但方便、高效,而且大大降低了排版人员的工作量,减少了误排率。
附图说明
图1为本发明实施例提供的一种多语种文字的混排方法的流程图;
图2为本发明提供的一种多语种文字的混排方法中步骤102的具体实现流程图;
图3为本发明提供的一种多语种文字的混排方法中步骤201的具体实现流程图;
图4为本发明实施例子提供的有关步骤302的具体实现流程图;
图5为本发明实施例步骤203的具体实现流程图;
图6为本发明实施例提供的一种多语种文字的混排装置的结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的一种多语种文字的混排方法及装置进行详细描述。
如图1所示,为本发明实施例子提供的一种多语种文字的混排方法,该方法包括:
101:获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
102:根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
需要说明的是,该方法还包括:
创建排版规则集合RS,复合语言ML,复合字体MF;
其中,所述排版规则集合RS包括:语言属性,标点禁排属性,断字属性,自动拉长属性,竖向文字旋转属性;所述复合语言ML包括:主语言属性,辅助语言属性N,N≥1;所述复合字体MF包括:至少一个字体项;所述字体项包括:语言属性和字体属性。
以上所述排版规则集合RS中的语言属性,是指该排版规则对应的文字语言;标点禁排属性,指在行首或行尾处,禁止排版部分该种语言的标点符号;断字属性,是指在该种语言的单词或短语位于行尾时,自动插入连字符,控制断字位置;自动拉长属性,是指在该种语言的单词中自动插入拉伸字符,控制行格式撑满;所述竖向文字旋转属性,是指竖向排版时,该种语言的文字自动旋转某个角度进行显示。
以上所述复合语言ML中主语言属性与所述辅助语言属性,是系统支持的任何一种语言。
以上所述复合字体MF包括多个字体项,每个字体项包括:语言属性和字体属性;所述语言属性,是指定该复合字体对应的文字语言;所述字体属性,是指定该种语言的文字应用的字体名称,字体风格等。
基于以上实施例的步骤102,如图2所示,为本发明实施例子提供的一种多语种文字的混排方法中步骤102的具体实现流程,具体包括:
201:依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版;该步骤构建字符的大样排版的过程如图3所示。
202:根据所述解析字符的实际语言,查找相应的排版规则集合RS;
203:按照所述排版规则集合RS,依次对于各个文字行进行排版处理,构建行的大样排版。该步骤的具体实现流程如图5所示。
如图3所示,为本发明实施例子提供的一种多语种文字的混排方法中依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版步骤的具体实现流程,该流程包括:
301:解析当前字符,构建所述当前字符的大样信息;其中,所述当前字符的大样信息包括:实际语言、显示字体、旋转角度;
302:根据所述解析获取到的当前字符的语言属性L与字符编码,与所述复合语言ML进行匹配,将所述与复合语言相匹配的语言属性设置为所述当前字符的实际语言;所述设置为所述当字符的实际语言过程如图4所示。
303:根据所述当前字符设置的实际语言,在所述复合字体MF中查找对应的字体属性;将与所述复合字体MF相匹配的字体属性设置为所述当前字符的大样字体信息中的显示字体;
304:当所述当前字符的排版方向为竖向排版时,根据所述当前字符设置的实际语言,在所述排版规则集合RS中查找对应的排版规则;将与所述排版规则集合RS中排版规则相匹配的竖向文字旋转角度设置为所述当前字符的大样字体信息中的旋转角度;
305:获取当前字符的大样信息,并继续对下一个字符构建字符的大样信息,直到所有字符处理完毕。
如图4所示,为本发明实施例子提供的有关步骤302的具体实现流程:该步骤具体实现流程如下:
401:根据所述解析获取到的当前字符的语言属性L与字符编码,获取与其对应的复合语言ML;
402:根据所述复合语言ML中的主语言以及该语言的编码区间,判断所述当前字符的编码是否包含在区间内;如果在所述区间内,将所述当前字符的实际语言设置为主语言,然后,退出;如果不在所述区间内,否则,转入下一步骤;
403:依次遍历复合语言ML中的辅助语言,根据所述辅助语言的编码区间,判断所述当前字符的编码是否包含在其区间内;如果在所述辅助语言的区间内,则将所述当前字符的实际语言设置为辅助语言,然后,退出;否则,转入下一步骤;
404:将所述当前字符的实际语言设置为主语言。
如图5所示,为本发明实施例步骤203的具体实现流程;该流程具体实现如下:
501:依次对所述选择的文字中的每行,进行语言解析,构建当前行的大样信息,其中,所述当前行的大样信息包括:显示字符范围、断字结果、自动拉长结果;
502:根据所述解析获取到的行区域的宽度和该行中字符的排版宽度,获取行的显示字符范围;
503:如果所述当前行的行尾处是标点符号,根据所述标点字符的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则将按照所述排版规则的标点禁排属性进行处理,将行尾禁排的标点从显示字符范围移除,将行首禁排的标点保留在显示字符范围内;
504:如果所述当前行的行尾处是单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的断字属性处理,自动插入连字符,将连字符前的字母保留在显示字符范围内,并记录断字结果;
505:如果所述当前行的总的显示字符宽度小于所述行区域的宽度且没有行结束符,则遍历行中的每个单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的自动拉长处理,自动插入拉伸字符,拉长单词的宽度,使行的总显示字符宽度撑满区域的宽度,并记录自动拉长结果;
506:获取当前行的大样信息,并继续对下一行构建行的大样信息,直到所有行处理完毕。
针对以上实施例的描述,现假设文章共有5个段落。其中,第1、3、5段为中文段落,其中,第2段为阿文段落,第4段为维文段落。
设置排版规则集合RS如下:
语言属性 标点禁排属性 断字属性 自动拉长属性 竖向旋转属性
中文
阿文 逆时针90度
维文 逆时针90度
设置复合语言ML1:中文(主)、阿文。
设置复合语言ML2:中文(主)、维文。
选中整篇文章应用复合语言ML2,选中第2段应用复合语言ML1。
以上假设,通过上述图1至5中实施例的自动排版流程,即可整齐快速的按照各种语言文字的要求,完成混排。
例如:首先整篇文章作为选择文字;系统通过自动获取所述选择文字以及排版规则集合RS,复合语言ML2,复合字体MF,根据以上获取的信息,进行语言解析,对所述选择文字进行排版。
在完成所述整篇文章排版之后,所述系统再通过自动的方式获取所述选择文字(第2段)以及排版规则集合RS,复合语言ML1,复合字体MF,根据以上获取的信息,进行语言解析,对所述选择文字(第2段)进行排版。
在完成所述第2段文字的排版之后,则完成上述整个文章的多语种文字的混排。
如图6所示,为本发明实施例提供的一种多语种文字的混排装置,该装置包括:
信息获取单元601,用于获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
排版单元602,用于根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
需要说明的是,该装置还包括:
规则创建单元,用于创建排版规则集合RS,复合语言ML,复合字体MF;
其中,所述排版规则集合RS包括:语言属性,标点禁排属性,断字属性,自动拉长属性,竖向文字旋转属性;所述复合语言ML包括:主语言属性,辅助语言属性N,N≥1;所述复合字体MF包括:至少一个字体项;所述字体项包括:语言属性和字体属性。
还需要说明的是,所述排版单元,具体包括:
字符解析子单元,用于依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版;
查找子单元,用于根据所述解析字符的实际语言,查找相应的排版规则集合RS;
行排版子单元,用于按照所述排版规则集合RS,依次对于各个文字行进行排版处理,构建行的大样排版。
还需要说明的是,所述字符解析子单元,具体包括:
字符解析分单元,用于解析当前字符,构建所述当前字符的大样信息;其中,所述当前字符的大样信息包括:实际语言、显示字体、旋转角度;
字符匹配分单元,用于根据所述解析获取到的当前字符的语言属性L与字符编码,与所述复合语言ML进行匹配,将所述与复合语言相匹配的语言属性设置为所述当前字符的实际语言;
字符设置分单元,用于根据所述当前字符设置的实际语言,在所述复合字体MF中查找对应的字体属性;将与所述复合字体MF相匹配的字体属性设置为所述当前字符的大样字体信息中的显示字体;当所述当前字符的排版方向为竖向排版时,根据所述当前字符设置的实际语言,在所述排版规则集合RS中查找对应的排版规则;将与所述排版规则集合RS中排版规则相匹配的竖向文字旋转角度设置为所述当前字符的大样字体信息中的旋转角度;
字符构建分单元,用于获取当前字符的大样信息,并继续对下一个字符构建字符的大样信息,直到所有字符处理完毕。
还需要说明的是,所述匹配分单元,具体根据所述解析获取到的当前字符的语言属性L与字符编码,获取与其对应的复合语言ML;根据所述复合语言ML中的主语言以及该语言的编码区间,判断所述当前字符的编码是否包含在区间内;如果在所述区间内,将所述当前字符的实际语言设置为主语言,然后,退出;如果不在所述区间内,否则,转入下一步骤;依次遍历复合语言ML中的辅助语言,根据所述辅助语言的编码区间,判断所述当前字符的编码是否包含在其区间内;如果在所述辅助语言的区间内,则将所述当前字符的实际语言设置为辅助语言,然后,退出;否则,转入下一步骤;将所述当前字符的实际语言设置为主语言。
还需要说明的是,所述行排版子单元具体包括:
行解析分单元,用于依次对所述选择的文字中的每行,进行语言解析,构建当前行的大样信息,其中,所述当前行的大样信息包括:显示字符范围、断字结果、自动拉长结果;
行匹配分单元,用于根据所述解析获取到的行区域的宽度和该行中字符的排版宽度,获取行的显示字符范围;如果所述当前行的行尾处是标点符号,根据所述标点字符的实际语言,在排版规则集合RS中查找对应的排版规则;
行设置分单元,用于如果找到与其匹配的排版规则,则将按照所述排版规则的标点禁排属性进行处理,将行尾禁排的标点从显示字符范围移除,将行首禁排的标点保留在显示字符范围内;如果所述当前行的行尾处是单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的断字属性处理,自动插入连字符,将连字符前的字母保留在显示字符范围内,并记录断字结果;如果所述当前行的总的显示字符宽度小于所述行区域的宽度且没有行结束符,则遍历行中的每个单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的自动拉长处理,自动插入拉伸字符,拉长单词的宽度,使行的总显示字符宽度撑满区域的宽度,并记录自动拉长结果;
行构建分单元,用于获取当前行的大样信息,并继续对下一行构建行的大样信息,直到所有行处理完毕。
本发明实施例提供的一种多语种文字的混排方法及装置,通过自动获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版,从而使得多语种文字的混排过程不但方便、高效,而且大大降低了排版人员的工作量,减少了误排率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:(方法的步骤),所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种多语种文字的混排方法,其特征在于,包括:
获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
2.根据权利要求1所述的多语种文字的混排方法,其特征在于,该方法还包括:
创建排版规则集合RS,复合语言ML,复合字体MF;
其中,所述排版规则集合RS包括:语言属性,标点禁排属性,断字属性,自动拉长属性,竖向文字旋转属性;所述复合语言ML包括:主语言属性,辅助语言属性N,N≥1;所述复合字体MF包括:至少一个字体项;所述字体项包括:语言属性和字体属性。
3.根据权利要求1或2所述的多语种文字的混排方法,其特征在于,所述根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版的步骤,具体包括:
依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版;
根据所述解析字符的实际语言,查找相应的排版规则集合RS;
按照所述排版规则集合RS,依次对于各个文字行进行排版处理,构建行的大样排版。
4.根据权利要求3所述的多语种文字的混排方法,其特征在于,所述依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版的步骤,具体包括:
解析当前字符,构建所述当前字符的大样信息;其中,所述当前字符的大样信息包括:实际语言、显示字体、旋转角度;
根据所述解析获取到的当前字符的语言属性L与字符编码,与所述复合语言ML进行匹配,将所述与复合语言相匹配的语言属性设置为所述当前字符的实际语言;
根据所述当前字符设置的实际语言,在所述复合字体MF中查找对应的字体属性;将与所述复合字体MF相匹配的字体属性设置为所述当前字符的大样字体信息中的显示字体;
当所述当前字符的排版方向为竖向排版时,根据所述当前字符设置的实际语言,在所述排版规则集合RS中查找对应的排版规则;将与所述排版规则集合RS中排版规则相匹配的竖向文字旋转角度设置为所述当前字符的大样字体信息中的旋转角度;
获取当前字符的大样信息,并继续对下一个字符构建字符的大样信息,直到所有字符处理完毕。
5.根据权利要求4所述的多语种文字的混排方法,其特征在于,所述根据所述解析获取到的当前字符的语言属性L与字符编码,与所述复合语言ML进行匹配,将所述与复合语言相匹配的语言属性设置为所述当前字符的实际语言的步骤,具体包括:
根据所述解析获取到的当前字符的语言属性L与字符编码,获取与其对应的复合语言ML;
根据所述复合语言ML中的主语言以及该语言的编码区间,判断所述当前字符的编码是否包含在区间内;如果在所述区间内,将所述当前字符的实际语言设置为主语言,然后,退出;如果不在所述区间内,否则,转入下一步骤;
依次遍历复合语言ML中的辅助语言,根据所述辅助语言的编码区间,判断所述当前字符的编码是否包含在其区间内;如果在所述辅助语言的区间内,则将所述当前字符的实际语言设置为辅助语言,然后,退出;否则,转入下一步骤;
将所述当前字符的实际语言设置为主语言。
6.根据权利要求5所述的多语种文字的混排方法,其特征在于,所述按照所述排版规则集合RS,依次对于各个文字行进行排版处理,构建行的大样排版的步骤具体包括:
依次对所述选择的文字中的每行,进行语言解析,构建当前行的大样信息,其中,所述当前行的大样信息包括:显示字符范围、断字结果、自动拉长结果;
根据所述解析获取到的行区域的宽度和该行中字符的排版宽度,获取行的显示字符范围;
如果所述当前行的行尾处是标点符号,根据所述标点字符的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则将按照所述排版规则的标点禁排属性进行处理,将行尾禁排的标点从显示字符范围移除,将行首禁排的标点保留在显示字符范围内;
如果所述当前行的行尾处是单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的断字属性处理,自动插入连字符,将连字符前的字母保留在显示字符范围内,并记录断字结果;
如果所述当前行的总的显示字符宽度小于所述行区域的宽度且没有行结束符,则遍历行中的每个单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的自动拉长处理,自动插入拉伸字符,拉长单词的宽度,使行的总显示字符宽度撑满区域的宽度,并记录自动拉长结果;
获取当前行的大样信息,并继续对下一行构建行的大样信息,直到所有行处理完毕。
7.一种多语种文字的混排装置,其特征在于,包括:
信息获取单元,用于获取排版规则集合RS,复合语言ML,复合字体MF以及对应的选择文字;
排版单元,用于根据所述选择的文字以及其对应的排版规则集合RS,复合语言ML,复合字体MF,进行语言解析,对所述选择文字进行排版。
8.根据权利要求7所述的多语种文字的混排装置,其特征在于,该装置还包括:
规则创建单元,用于创建排版规则集合RS,复合语言ML,复合字体MF;
其中,所述排版规则集合RS包括:语言属性,标点禁排属性,断字属性,自动拉长属性,竖向文字旋转属性;所述复合语言ML包括:主语言属性,辅助语言属性N,N≥1;所述复合字体MF包括:至少一个字体项;所述字体项包括:语言属性和字体属性。
9.根据权利要求7或8所述的多语种文字的混排装置,其特征在于,所述排版单元,具体包括:
字符解析子单元,用于依次对所述选择的文字中的每个字符,进行语言解析,构建字符的大样排版;
查找子单元,用于根据所述解析字符的实际语言,查找相应的排版规则集合RS;
行排版子单元,用于按照所述排版规则集合RS,依次对于各个文字行进行排版处理,构建行的大样排版。
10.根据权利要求9所述的多语种文字的混排装置,其特征在于,所述字符解析子单元,具体包括:
字符解析分单元,用于解析当前字符,构建所述当前字符的大样信息;其中,所述当前字符的大样信息包括:实际语言、显示字体、旋转角度;
字符匹配分单元,用于根据所述解析获取到的当前字符的语言属性L与字符编码,与所述复合语言ML进行匹配,将所述与复合语言相匹配的语言属性设置为所述当前字符的实际语言;
字符设置分单元,用于根据所述当前字符设置的实际语言,在所述复合字体MF中查找对应的字体属性;将与所述复合字体MF相匹配的字体属性设置为所述当前字符的大样字体信息中的显示字体;当所述当前字符的排版方向为竖向排版时,根据所述当前字符设置的实际语言,在所述排版规则集合RS中查找对应的排版规则;将与所述排版规则集合RS中排版规则相匹配的竖向文字旋转角度设置为所述当前字符的大样字体信息中的旋转角度;
字符构建分单元,用于获取当前字符的大样信息,并继续对下一个字符构建字符的大样信息,直到所有字符处理完毕。
11.根据权利要求10所述的多语种文字的混排装置,其特征在于,所述匹配分单元,具体根据所述解析获取到的当前字符的语言属性L与字符编码,获取与其对应的复合语言ML;根据所述复合语言ML中的主语言以及该语言的编码区间,判断所述当前字符的编码是否包含在区间内;如果在所述区间内,将所述当前字符的实际语言设置为主语言,然后,退出;如果不在所述区间内,否则,转入下一步骤;依次遍历复合语言ML中的辅助语言,根据所述辅助语言的编码区间,判断所述当前字符的编码是否包含在其区间内;如果在所述辅助语言的区间内,则将所述当前字符的实际语言设置为辅助语言,然后,退出;否则,转入下一步骤;将所述当前字符的实际语言设置为主语言。
12.根据权利要求11所述的多语种文字的混排装置,其特征在于,所述行排版子单元具体包括:
行解析分单元,用于依次对所述选择的文字中的每行,进行语言解析,构建当前行的大样信息,其中,所述当前行的大样信息包括:显示字符范围、断字结果、自动拉长结果;
行匹配分单元,用于根据所述解析获取到的行区域的宽度和该行中字符的排版宽度,获取行的显示字符范围;如果所述当前行的行尾处是标点符号,根据所述标点字符的实际语言,在排版规则集合RS中查找对应的排版规则;
行设置分单元,用于如果找到与其匹配的排版规则,则将按照所述排版规则的标点禁排属性进行处理,将行尾禁排的标点从显示字符范围移除,将行首禁排的标点保留在显示字符范围内;如果所述当前行的行尾处是单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的断字属性处理,自动插入连字符,将连字符前的字母保留在显示字符范围内,并记录断字结果;如果所述当前行的总的显示字符宽度小于所述行区域的宽度且没有行结束符,则遍历行中的每个单词,根据所述单词的实际语言,在排版规则集合RS中查找对应的排版规则;如果找到与其匹配的排版规则,则按照所述排版规则的自动拉长处理,自动插入拉伸字符,拉长单词的宽度,使行的总显示字符宽度撑满区域的宽度,并记录自动拉长结果;
行构建分单元,用于获取当前行的大样信息,并继续对下一行构建行的大样信息,直到所有行处理完毕。
CN201310008307.1A 2013-01-09 2013-01-09 一种多语种文字的混排方法及装置 Expired - Fee Related CN103914443B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310008307.1A CN103914443B (zh) 2013-01-09 2013-01-09 一种多语种文字的混排方法及装置
US14/098,406 US20140195902A1 (en) 2013-01-09 2013-12-05 Method for mixedly typesetting multi-language text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310008307.1A CN103914443B (zh) 2013-01-09 2013-01-09 一种多语种文字的混排方法及装置

Publications (2)

Publication Number Publication Date
CN103914443A true CN103914443A (zh) 2014-07-09
CN103914443B CN103914443B (zh) 2018-06-12

Family

ID=51040137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310008307.1A Expired - Fee Related CN103914443B (zh) 2013-01-09 2013-01-09 一种多语种文字的混排方法及装置

Country Status (2)

Country Link
US (1) US20140195902A1 (zh)
CN (1) CN103914443B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776526A (zh) * 2016-12-07 2017-05-31 东软集团股份有限公司 文本竖排版方法及装置
CN107122345A (zh) * 2017-04-18 2017-09-01 青岛伟东云教育集团有限公司 一种数据的排版方法及装置
CN108132918A (zh) * 2016-11-30 2018-06-08 北京京东尚科信息技术有限公司 一种输出报表的方法及系统
CN108763188A (zh) * 2018-05-24 2018-11-06 广州视源电子科技股份有限公司 一种文本显示方法、装置、设备及存储介质
CN108920433A (zh) * 2018-07-17 2018-11-30 青岛海信电器股份有限公司 一种文本显示方法、系统及终端
CN111258702A (zh) * 2020-02-17 2020-06-09 东风电子科技股份有限公司 嵌入式设备中实现多语言文本显示处理的系统及其方法
CN111273836A (zh) * 2020-02-13 2020-06-12 潍坊北大青鸟华光照排有限公司 一种电子设备上蒙古文竖向滚屏显示方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455475B (zh) * 2012-06-01 2016-12-14 腾讯科技(深圳)有限公司 排版方法、设备及系统
CN105893342A (zh) * 2015-12-29 2016-08-24 乐视移动智能信息技术(北京)有限公司 一种文本信息处理方法及装置
WO2017181017A1 (en) 2016-04-15 2017-10-19 Wal-Mart Stores, Inc. Partiality vector refinement systems and methods through sample probing
CA3021014A1 (en) 2016-04-15 2017-10-19 Walmart Apollo, Llc Systems and methods for providing content-based product recommendations
US10592959B2 (en) 2016-04-15 2020-03-17 Walmart Apollo, Llc Systems and methods for facilitating shopping in a physical retail facility
US10373464B2 (en) 2016-07-07 2019-08-06 Walmart Apollo, Llc Apparatus and method for updating partiality vectors based on monitoring of person and his or her home
CN110362804A (zh) * 2018-03-26 2019-10-22 阿里巴巴集团控股有限公司 文本簇的匹配方法、装置及电子设备
CN110990747A (zh) * 2019-12-17 2020-04-10 北京思维造物信息科技股份有限公司 图像生成方法、装置、设备和存储介质
CN111079396B (zh) * 2019-12-20 2023-06-16 方正国际软件(北京)有限公司 不规则单元格中文字排版方法及排版装置
CN112784562A (zh) * 2020-01-03 2021-05-11 珠海金山办公软件有限公司 一种文档中文本内容的排版方法及装置
CN113298741B (zh) * 2020-11-13 2024-01-12 阿里巴巴集团控股有限公司 图片合成方法、装置及电子设备
CN112906347B (zh) * 2021-03-22 2021-10-15 掌阅科技股份有限公司 文字排版方法、电子设备及存储介质
CN116738934B (zh) * 2023-08-09 2024-03-19 京华信息科技股份有限公司 一种文书自动排版方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030151613A1 (en) * 1999-12-09 2003-08-14 Takeshi Kanai Information processing method and apparatus and medium
CN101206638A (zh) * 2006-12-22 2008-06-25 北京北大方正电子有限公司 一种段落装饰方法及装置
CN101673406A (zh) * 2008-09-08 2010-03-17 北大方正集团有限公司 字体设置方法和装置
CN102103586A (zh) * 2009-12-16 2011-06-22 新奥特(北京)视频技术有限公司 一种多语种双向混排字幕的编辑系统
CN102855233A (zh) * 2011-06-30 2013-01-02 北大方正集团有限公司 用于语言文字的混排方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030151613A1 (en) * 1999-12-09 2003-08-14 Takeshi Kanai Information processing method and apparatus and medium
CN101206638A (zh) * 2006-12-22 2008-06-25 北京北大方正电子有限公司 一种段落装饰方法及装置
CN101673406A (zh) * 2008-09-08 2010-03-17 北大方正集团有限公司 字体设置方法和装置
CN102103586A (zh) * 2009-12-16 2011-06-22 新奥特(北京)视频技术有限公司 一种多语种双向混排字幕的编辑系统
CN102855233A (zh) * 2011-06-30 2013-01-02 北大方正集团有限公司 用于语言文字的混排方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOHN PLAICE, PAUL SWOBODA, YANNIS HARALAMBOUS, CHRIS ROWLEY: "A Multidimensional Approach to Typesetting", 《PROCEEDINGS OF THE 2003 ANNUAL MEETING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132918A (zh) * 2016-11-30 2018-06-08 北京京东尚科信息技术有限公司 一种输出报表的方法及系统
CN106776526A (zh) * 2016-12-07 2017-05-31 东软集团股份有限公司 文本竖排版方法及装置
CN107122345A (zh) * 2017-04-18 2017-09-01 青岛伟东云教育集团有限公司 一种数据的排版方法及装置
CN108763188A (zh) * 2018-05-24 2018-11-06 广州视源电子科技股份有限公司 一种文本显示方法、装置、设备及存储介质
CN108920433A (zh) * 2018-07-17 2018-11-30 青岛海信电器股份有限公司 一种文本显示方法、系统及终端
CN108920433B (zh) * 2018-07-17 2022-02-25 海信视像科技股份有限公司 一种文本显示方法、系统及终端
CN111273836A (zh) * 2020-02-13 2020-06-12 潍坊北大青鸟华光照排有限公司 一种电子设备上蒙古文竖向滚屏显示方法
CN111258702A (zh) * 2020-02-17 2020-06-09 东风电子科技股份有限公司 嵌入式设备中实现多语言文本显示处理的系统及其方法

Also Published As

Publication number Publication date
CN103914443B (zh) 2018-06-12
US20140195902A1 (en) 2014-07-10

Similar Documents

Publication Publication Date Title
CN103914443A (zh) 一种多语种文字的混排方法及装置
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
CN102779118B (zh) 一种论文的排版方法及系统
CN104063364A (zh) 一种pdf文档识别方法
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN107463537A (zh) 一种对文本信息进行结构化处理的方法
CN101008940A (zh) 自动处理字体缺失的方法与装置
CN102103574A (zh) 一种格式化输出书版小样文件内容的方法及系统
JP5446877B2 (ja) 目次構造特定装置
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN112017079A (zh) 专利文档的元件信息提取方法、处理装置以及存储介质
CN112017078A (zh) 专利文档的辅助撰写方法、处理装置以及存储介质
CN105843802A (zh) 翻译中语料介入模块及方法
DE2653805A1 (de) Umschreibsystem
CN107967303B (zh) 语料显示的方法及装置
CN112016282A (zh) 专利文档的审核方法、处理装置以及存储介质
CN112001821A (zh) 专利文档的审核方法、处理装置以及存储介质
CN104424184B (zh) 生成字形字库的方法和系统
US11842141B2 (en) Device dependent rendering of PDF content
CN117349472B (zh) 基于xml文档的索引词提取方法、装置、终端及介质
CN103942182B (zh) 一种英文文本格式优化方法及装置
JP2018163629A (ja) 翻訳支援システム
CN102023886A (zh) 一种对软件中的数据进行资源差异处理的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Beijing Beida Founder Electronics Co., Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Beijing Beida Founder Electronics Co., Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180612

CF01 Termination of patent right due to non-payment of annual fee