CN107315733A - 智能藏文词性自动标注系统 - Google Patents
智能藏文词性自动标注系统 Download PDFInfo
- Publication number
- CN107315733A CN107315733A CN201611043846.9A CN201611043846A CN107315733A CN 107315733 A CN107315733 A CN 107315733A CN 201611043846 A CN201611043846 A CN 201611043846A CN 107315733 A CN107315733 A CN 107315733A
- Authority
- CN
- China
- Prior art keywords
- module
- word
- speech
- data
- tibetan language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了智能藏文词性自动标注系统,包括字、词库模块、词性标注模块、存储模块、通讯模块、信息录入反馈模块、数据引导检测模块、数据分析运算处理模块及数据缓存模块,其中信息录入反馈模块通过数据缓存模块分别与数据引导检测模块、数据分析运算处理模块及字、词库模块连接,其中数据分析运算处理模块另分别与字、词库模块、词性存储模块及通讯模块连接。本发明一方面可有效的对藏文进行全面持续录入整理,另一方面可根据使用需要,对藏文信息的词性进行切分、标注,从而有效的提高了藏文词性标注作业的工作效率和灵活性,同时也有助于满足不同人群对藏文学习及使用的需要。
Description
技术领域
本发明涉及一种语言编译系统,确切是一种藏文词性自动识别并标注系统。
背景技术
结合当前藏区经济文化发展需要及藏区文化与其他文化的交流的需要,首先需要构建一个统一高效的集藏文收集、编译及词性解释的网络平台,一方面提高对藏文的统计整理工作,另一方面也有助于非藏区用户对藏文学习及使用的需要,从而达到提高藏区文化交流的需要,而针对这一问题,当前所使用的平台具备简单的藏文编译能力,且对藏文的收集整理能力低下,因此造成对藏文的编译存在一定的局限性,同时也不具备对藏文词性准确注解的能力,除此之外,当前的系统也往往仅能满足将藏文编译为英语及简体汉字等少数几种语言种类的的需要,使用灵活性受到的极大的影响,且当前藏文编译系统的结构相对复杂,数据处理能力极其有限,不能有效满足实际使用的需要,因此针对这一现状,需要开发一种全新藏文及词性注解的操作系统,以满足实际使用的需要。
发明内容
本发明的目的是提供本发明提供智能藏文词性自动标注系统。
为了达到上述目的,本发明提供如下技术方案:
智能藏文词性自动标注系统,包括字、词库模块、词性存储模块、通讯模块、信息录入反馈模块、数据引导检测模块、数据分析运算处理模块及数据缓存模块,其中信息录入反馈模块通过数据缓存模块分别与数据引导检测模块、数据分析运算处理模块及字、词库模块连接,其中数据分析运算处理模块另分别与字、词库模块、词性存储模块及通讯模块连接。
进一步的,所述字、词库模块包括藏文字库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
进一步的,所述的字、词库模块、词性存储模块均采用ORACLE、SYBASE、INFORMIX和INGRES中的任意一种管理系统。
进一步的,所述的信息录入反馈模块包括数码扫描装置、个人计算机及移动通讯终端设备中的任意一种或几种。
进一步的,所述的数据引导检测模块包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
进一步的,所述的通讯模块包括至少一个无线数据通讯单元及至少一个在线数据通讯单元,且无线数据通讯单元和在线数据通讯单元相互并联。
本发明系统构成结构简单,结构模块化设计特征显著,数据处理能力强,同时另具有良好的扩展性和通讯能力,从而一方面可有效的对藏文进行全面持续录入整理,另一方面可根据使用需要,对藏文信息的词性进行编译、标注,并将藏文的词性通过多种语言进行输出,从而有效的提高了藏文词性标注作业的工作效率和灵活性,同时也有助于满足不同人群对藏文学习及使用的需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统结构示意图。
具体实施方式
下面将结合本发明的附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的智能藏文词性自动标注系统,包括字、词库模块1、词性存储模块2、通讯模块3、信息录入反馈模块4、数据引导检测模块5、数据分析运算处理模块6及数据缓存模块7,其中信息录入反馈模块4通过数据缓存模块7分别与数据引导检测模块5、数据分析运算处理模块6及字、词库模块1连接,其中数据分析运算处理模块6另分别与字、词库模块1、词性存储模块2及通讯模块3连接。
本实施例中,所述字、词库模块包括藏文字库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
本实施例中,所述的字、词库模块、词性存储模块均采用ORACLE、SYBASE、INFORMIX和INGRES中的任意一种管理系统。
本实施例中,所述的信息录入反馈模块包括数码扫描装置、个人计算机及移动通讯终端设备中的任意一种或几种。
本实施例中,所述的数据引导检测模块包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
本实施例中,所述的通讯模块包括至少一个无线数据通讯单元及至少一个在线数据通讯单元,且无线数据通讯单元和在线数据通讯单元相互并联。
本发明系统构成结构简单,结构模块化设计特征显著,数据处理能力强,同时另具有良好的扩展性和通讯能力,从而一方面可有效的对藏文进行全面持续录入整理,另一方面可根据使用需要,对藏文信息的词性进行编译、标注,并将藏文的词性通过多种语言进行输出,从而有效的提高了藏文词性标注作业的工作效率和灵活性,同时也有助于满足不同人群对藏文学习及使用的需要。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (6)
1.智能藏文词性自动标注系统,其特征在于:所述的智能藏文词性标注系统是根据词类标记集规范对已经被切分的藏文词语进行其词性自动标注,它包括字、词库模块、词性存储模块、通讯模块、信息录入反馈模块、数据引导检测模块、数据分析运算处理模块及数据缓存模块,其中所述信息录入反馈模块通过数据缓存模块分别与数据引导检测模块、数据分析运算处理模块及字、词库模块连接,其中所述的据分析运算处理模块另分别与字、词库模块、词性标注模块、存储模块及通讯模块连接。
2.根据权利要求1所述的智能藏文词性自动标注系统,其特征在于:所述字、词库模块包括藏文字、词库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、简体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
3.根据权利要求1所述的智能藏文词性自动标注系统,其特征在于:所述的字、词库模块、词性存储模块均采用ORACLE、SYBASE、INFORMIX和INGRES中的任意一种管理系统。
4.根据权利要求1所述的智能藏文词性自动标注系统,其特征在于:所述的信息录入反馈模块包括数码扫描装置、个人计算机及移动通讯终端设备中的任意一种或几种。
5.根据权利要求1所述的智能藏文词性自动标注系统,其特征在于:所述的数据引导检测模块包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
6.根据权利要求1所述的智能藏文词性自动标注系统,其特征在于:所述的通讯模块包括至少一个无线数据通讯单元及至少一个在线数据通讯单元,且无线数据通讯单元和在线数据通讯单元相互并联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611043846.9A CN107315733A (zh) | 2016-11-24 | 2016-11-24 | 智能藏文词性自动标注系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611043846.9A CN107315733A (zh) | 2016-11-24 | 2016-11-24 | 智能藏文词性自动标注系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107315733A true CN107315733A (zh) | 2017-11-03 |
Family
ID=60185458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611043846.9A Pending CN107315733A (zh) | 2016-11-24 | 2016-11-24 | 智能藏文词性自动标注系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107315733A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020077806A1 (en) * | 2000-12-19 | 2002-06-20 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
KR20030030374A (ko) * | 2001-10-10 | 2003-04-18 | 한국전자통신연구원 | 주제 적응 품사 태깅 시스템 및 방법 |
JP2006171806A (ja) * | 2004-12-10 | 2006-06-29 | Advanced Telecommunication Research Institute International | 中国語表現の換言装置 |
CN102135956A (zh) * | 2011-05-06 | 2011-07-27 | 中国科学院软件研究所 | 一种基于词位标注的藏文分词方法 |
CN103250151A (zh) * | 2010-12-07 | 2013-08-14 | 乐天株式会社 | 服务器、信息管理方法、信息管理程序以及记录该程序的计算机可读取的记录介质 |
CN104156161A (zh) * | 2014-08-05 | 2014-11-19 | 魏新成 | 在信息设备屏幕上进行点击取词搜索的系统和方法 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105930415A (zh) * | 2016-04-19 | 2016-09-07 | 昆明理工大学 | 一种基于支持向量机的越南语词性标注方法 |
-
2016
- 2016-11-24 CN CN201611043846.9A patent/CN107315733A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020077806A1 (en) * | 2000-12-19 | 2002-06-20 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
KR20030030374A (ko) * | 2001-10-10 | 2003-04-18 | 한국전자통신연구원 | 주제 적응 품사 태깅 시스템 및 방법 |
JP2006171806A (ja) * | 2004-12-10 | 2006-06-29 | Advanced Telecommunication Research Institute International | 中国語表現の換言装置 |
CN103250151A (zh) * | 2010-12-07 | 2013-08-14 | 乐天株式会社 | 服务器、信息管理方法、信息管理程序以及记录该程序的计算机可读取的记录介质 |
CN102135956A (zh) * | 2011-05-06 | 2011-07-27 | 中国科学院软件研究所 | 一种基于词位标注的藏文分词方法 |
CN104156161A (zh) * | 2014-08-05 | 2014-11-19 | 魏新成 | 在信息设备屏幕上进行点击取词搜索的系统和方法 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105930415A (zh) * | 2016-04-19 | 2016-09-07 | 昆明理工大学 | 一种基于支持向量机的越南语词性标注方法 |
Non-Patent Citations (1)
Title |
---|
羊毛卓么: "藏文词性自动标注系统的研究与实现", 《中国优秀硕士学位论文全文数据库-哲学与人文科学辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
US20080195931A1 (en) | Parsing of ink annotations | |
CN101464903A (zh) | 一种利用web方式进行OCR图文识别检索方法和系统 | |
CN102110140A (zh) | 基于网络离散文本的舆情信息分析方法 | |
CN103377239A (zh) | 计算文本间相似度的方法和装置 | |
CN103970736A (zh) | 一种将Excel表格转换成数据库表的方法 | |
CN110427488B (zh) | 文档的处理方法及装置 | |
CN106528877A (zh) | word文档的模块化方法及系统 | |
CN107622068A (zh) | 一种基于json格式的日志管理方法及装置 | |
CN110889310A (zh) | 金融文档信息智能提取系统及方法 | |
ZA200600238B (en) | System and method for storing a document in a serial binary format | |
CN108287648A (zh) | 软件的反馈管理方法、装置、电子设备和计算机存储介质 | |
CN110413979A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
CN112199960B (zh) | 一种标准知识元粒度解析系统 | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 | |
CN107315733A (zh) | 智能藏文词性自动标注系统 | |
CN109902299B (zh) | 一种文本处理方法及装置 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 | |
CN107203510A (zh) | 文字检测方法及装置 | |
Derczynski et al. | Temporal signals help label temporal relations | |
CN103810243A (zh) | 创新热点预警识别系统及方法 | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN105631032A (zh) | 基于抽象语义推荐的问答知识库建立方法、装置及系统 | |
CN105243099A (zh) | 一种基于翻译文件的大数据实时存储方法 | |
CN116340259A (zh) | 文档管理方法、文档管理系统和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171103 |