CN101996164B - 多语文档分离的方法和系统 - Google Patents

多语文档分离的方法和系统 Download PDF

Info

Publication number
CN101996164B
CN101996164B CN2010102859628A CN201010285962A CN101996164B CN 101996164 B CN101996164 B CN 101996164B CN 2010102859628 A CN2010102859628 A CN 2010102859628A CN 201010285962 A CN201010285962 A CN 201010285962A CN 101996164 B CN101996164 B CN 101996164B
Authority
CN
China
Prior art keywords
character
document
sentence
separates
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102859628A
Other languages
English (en)
Other versions
CN101996164A (zh
Inventor
赵国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Original Assignee
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd filed Critical TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority to CN2010102859628A priority Critical patent/CN101996164B/zh
Publication of CN101996164A publication Critical patent/CN101996164A/zh
Application granted granted Critical
Publication of CN101996164B publication Critical patent/CN101996164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种多语文档分离的方法和系统,其主要原理是:对文档字符进行扫描;提取当前扫描字符的字符属性信息;并根据字符属性信息与语种标识间的映射关系,为当前扫描字符分配相应语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。

Description

多语文档分离的方法和系统
技术领域
本发明涉及数据处理领域,尤其涉及一种多语文档分离技术。 
背景技术
在日常文档处理过程中,通常会遇到一个文档中同时存在多语种内容,如在一个文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开,目前都是通过人工一点点进行操作,非常浪费人力资源和时间。 
发明内容
本发明的目的是提供一种多语文档分离的方法和系统,该发明不仅可以将多语种文档中的不同语种语言按照语种类别分离开,而且操作简单,大大节省了人力资源和时间。 
本发明的目的是通过以下技术方案实现的: 
本发明提供一种多语文档分离的方法,其包括: 
对文档字符进行扫描; 
提取当前扫描字符的字符属性信息;并根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识; 
将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针; 
根据所述存放指针,将当前句写入到与该语种标识对应的文件中。 
其中,更优选的,所述多语文档分离的方法还包括: 
判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。 
其中,更优选的,在对文档字符进行扫描的过程之前,还包括: 
获取用户选择的需分离语种标识; 
获取用户选择的文档的链接地址; 
获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。 
本发明还提供一种多语文档分离的系统,其包括: 
扫描单元,用于对文档字符进行扫描; 
语种确定单元,用于提取当前扫描字符的字符属性信息;并根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识; 
语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针; 
语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语种标识对应的文件中。 
其中,更优选的,所述多语文档分离的系统还包括: 
文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。 
其中,更优选的,所述多语文档分离的系统还包括: 
信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选 择的文档的链接地址; 
指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。 
其中,更优选的,所述多语文档分离的系统还包括: 
人机交互单元,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址。 
其中,更优选的,所述多语文档分离的系统还包括: 
登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录所述人机交互单元。 
由上述本发明提供的技术方案可以看出,本发明通过提取与需分离语种标识相同的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。 
附图说明
图1为本发明第一实施例中提供的多语文档分离的方法的流程图; 
图2为本发明第二实施例中提供的多语文档分离的系统的结构原理图。 
具体实施方式
下面结合附图对本发明实施例进行详细描述。 
本发明第一实施例提供了一种多语文档分离的方法,在实施该方法之前,需要在服务器数据库中保存被授权用户身份标识信息,在客户端设置字符属性信息与语种标识之间的映射关系。以及,完成如下系统登录和获取用户添加的需分离语种标识和需分离文档的链接地址的过程: 
一、系统登录 
在登录过程中,客户端接收到用户输入的登录信息后,根据该登录信息构造身份验证请求,该请求可以是HTTP(HyperText Transfer Protocol,超文本传送协议)请求,也可以是其它协议请求,该请求中携带有用户身份标识信息;服务器接收到用户身份验证请求,根据该请求中携带的用户身份标识信息查找数据库,若发现该用户是被授权用户,则给客户端返回通过验证的信息;客户端接到该通知后,允许用户登录到客户端的操作界面;否则,通知用户无权使用该功能。 
二、获取用户添加的需分离语种标识和需分离文档的链接地址 
系统登录通过后,客户端呈现给用户一个人机交互操作界面,该客户端操作界面中设置有文档添加和语种标识添加栏,还设置有指令按钮,该按钮包括:开始,暂停和停止。通过该操作界面,用户可以添加需分离语种标识和需分离文档的链接地址,添加完成后,客户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后,就会执行上述第一实施例的具体流程。 
第一实施例的具体实现流程如图1所示,包括: 
步骤S101,打开需分离文档,记录需分离语种; 
获取开始指令后,根据需分离文档的链接地址打开对应的文档,并记录需分离语种标识以备用。 
步骤S102,执行字符扫描。 
步骤S103,确定当前扫描字符的语种标识。 
提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识。例如,如果字符属性信息是a,b,c...z,则认为其是英文语种,于是为其分配一个英语语种标识。 
步骤S104,将当前字符语种标识与需分离语种标识进行比较,若相同,则执行步骤S105;若不相同,则执行步骤S102。 
步骤S105;记录当前字符为句首字符。 
步骤S106,继续向后扫描字符。 
步骤S107,判断扫描到的当前字符是否与句尾符号相同,若相同,则执行步骤S108;否则,转入步骤S106。 
步骤S108,记录当前字符为句尾字符,分配存放指针。 
上述存放指针包括:待存放文档的路径信息,句首字符和句尾字符在待存放文档中的存放位置。 
步骤S109,复制自句首字符至句尾字符整句字符,根据存放指针将其写入到与需分离语种标识对应的独立文档中。 
如果该独立文档不存在,则新创建一个;如果存在,则直接将整句字符写入到其中。 
步骤S110,判断扫描是否到达文档结束位置,若是,则执行步骤S111,即结束扫描;否则,继续步骤S102。 
本发明第二实施例提供了一种多语文档分离的系统,为方便用户操作,上述多语文档分离的系统设置了登录界面和人机交互界面。在登录界面上,可以输入用户的身份信息。在该交互界面上设置有:用户添加按钮和指令操作按钮。用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加 用户所选择的文档的链接地址;指令操作按钮,用于用户发送指令。这些指令按钮包括:开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图2,其包括如下功能单元: 
扫描单元21、语种确定单元22、语句定位单元23、语种分离单元24、文档扫描控制单元25、信息获取单元26、指令获取单元27、登录单元28和数据库29。 
登录单元28,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录人机交互界面。 
信息获取单元26,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址。 
指令获取单元27,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档,随后触及扫描单元21启动。 
用户点击指令按钮后,指令获取单元27可以获取到指令信息,这些指令包括:开始指令、暂停指令和结束指令。 
扫描单元21,用于对文档字符进行扫描,并将扫描到的字符信息传输给语种确定单元22。 
语种确定单元22,用于根据字符属性信息为当前扫描字符确定语种标识。语种确定单元22将扫描单元21扫描到的字符信息与设定的字符属性信息匹配,若匹配到,则会调取数据库29中字符属性信息与语种标识之间的映射关系,根据该映射关系为当前扫描字符确定一个语种标识,并将该确定的语种标识传输给语句定位单元23。 
语句定位单元23,用于将所述语种确定单元22所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾 字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配一个存放指针。 
语种分离单元24,用于根据所述语句定位单元22确定的存放指针,将当前句写入到与该语种标识对应的文件中。 
文档扫描控制单元25,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。 
上述实施例中,如果获取到用户选择了多个文档,则按照此方法依次对这些文档循环进行处理。 
由上述本发明提供的技术方案可以看出,通过提取与需分离语种标识相同的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。 
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。 

Claims (8)

1.一种多语文档分离的方法,其特征在于,所述多语文档分离的方法包括:
对文档字符进行扫描;
提取当前扫描字符的字符属性信息;并根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识;
将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;
根据所述存放指针,将当前句写入到与该语种标识对应的文件中。
2.根据权利要求1所述的多语文档分离的方法,其特征在于,所述多语文档分离的方法还包括:
判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。
3.根据权利要求2所述的多语文档分离的方法,其特征在于,在对文档字符进行扫描的过程之前,还包括:
获取用户选择的需分离语种标识;
获取用户选择的文档的链接地址;
获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
4.一种多语文档分离的系统,其特征在于,所述多语文档分离的系统包括:
扫描单元,用于对文档字符进行扫描;
语种确定单元,用于提取当前扫描字符的字符属性信息;并根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识;
语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;
语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语种标识对应的文件中。
5.根据权利要求4所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括:
文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。
6.根据权利要求5所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括:
信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址;
指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
7.根据权利要求6所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括:
人机交互单元,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址。
8.根据权利要求7所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括:
登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录所述人机交互单元。
CN2010102859628A 2010-09-19 2010-09-19 多语文档分离的方法和系统 Active CN101996164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102859628A CN101996164B (zh) 2010-09-19 2010-09-19 多语文档分离的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102859628A CN101996164B (zh) 2010-09-19 2010-09-19 多语文档分离的方法和系统

Publications (2)

Publication Number Publication Date
CN101996164A CN101996164A (zh) 2011-03-30
CN101996164B true CN101996164B (zh) 2012-07-04

Family

ID=43786332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102859628A Active CN101996164B (zh) 2010-09-19 2010-09-19 多语文档分离的方法和系统

Country Status (1)

Country Link
CN (1) CN101996164B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1142087A (zh) * 1996-06-07 1997-02-05 北京四通利方信息技术有限公司 计算机即时查询输入方法
US20050138556A1 (en) * 2003-12-18 2005-06-23 Xerox Corporation Creation of normalized summaries using common domain models for input text analysis and output text generation
US20080091634A1 (en) * 2006-10-15 2008-04-17 Lisa Seeman Content enhancement system and method and applications thereof

Also Published As

Publication number Publication date
CN101996164A (zh) 2011-03-30

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
US10789078B2 (en) Method and system for inputting information
EP2891041B1 (en) User interface apparatus in a user terminal and method for supporting the same
JP2015532753A (ja) 文字入力方法、システム及び装置
US20140172411A1 (en) Apparatus and method for verifying context
JP6725693B2 (ja) ヒューマンコンピュータインタラクション方法およびその装置
US11297015B2 (en) Message providing device for registering setting information of chatbot for each user and non-transitory computer readable medium storing program
CN101561725B (zh) 一种手写快速输入的方法和系统
CN103902717A (zh) 一种企业内部门户个性化的实现系统和方法
CN103440299A (zh) 一种基于焦点上下文联想词的信息快速输入方法
CN105278970A (zh) 一种数据处理方法、装置和终端
US20200175150A1 (en) Information processing apparatus, information processing system, and method of processing information
CN101980184A (zh) 对文档内容进行批注的方法和系统
US20180082105A1 (en) Digitized handwriting sample ingestion systems and methods
JP7421859B2 (ja) 作成支援装置および作成支援方法
KR20140012883A (ko) 입력 지원 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체, 입력 지원 방법 및 입력 지원 장치
CN106933811A (zh) 一种词条自动生成方法和装置
JP6003263B2 (ja) 議事録作成支援装置、議事録作成支援システム、議事録作成支援方法、及びプログラム
US20240143163A1 (en) Digital ink processing system, method, and program
US10354132B2 (en) System and method for generating a virtual assistant
CN101996164B (zh) 多语文档分离的方法和系统
JP2020009330A (ja) 作成支援装置および作成支援方法
CN104765727A (zh) 文本翻译方法及装置
WO2022213986A1 (zh) 语音识别的方法、装置、电子设备和可读存储介质
US11010978B2 (en) Method and system for generating augmented reality interactive content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for separating multilingual document

Effective date of registration: 20121105

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2012990000671

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20140425

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2012990000671

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for separating multilingual document

Effective date of registration: 20140428

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2014990000303

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20150319

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2014990000303

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for separating multilingual document

Effective date of registration: 20150320

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2015990000215

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20161011

Granted publication date: 20120704

Pledgee: China Merchants Bank, Limited by Share Ltd, Wuhan Optics Valley science and Technology Branch

Pledgor: Transn (Beijing) Information Technology Co., Ltd.

Registration number: 2015990000215

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model