CN102541865B - 利用分词过程中识别的新词改善分词性能的方法 - Google Patents

利用分词过程中识别的新词改善分词性能的方法 Download PDF

Info

Publication number
CN102541865B
CN102541865B CN201010588841.0A CN201010588841A CN102541865B CN 102541865 B CN102541865 B CN 102541865B CN 201010588841 A CN201010588841 A CN 201010588841A CN 102541865 B CN102541865 B CN 102541865B
Authority
CN
China
Prior art keywords
neologisms
participle
vocabulary
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010588841.0A
Other languages
English (en)
Other versions
CN102541865A (zh
Inventor
毛新年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianshang Xinchang Network Technology Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN201010588841.0A priority Critical patent/CN102541865B/zh
Publication of CN102541865A publication Critical patent/CN102541865A/zh
Application granted granted Critical
Publication of CN102541865B publication Critical patent/CN102541865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种利用分词过程中识别的新词改善分词性能的方法;包括:分词数据库的训练过程和利用分词数据库进行分词的过程。本发明无需用户事先给予新词词表,采用在分词过程中动态产生的新词作为新词词表,作为新词知识源来提高分词性能。本发明不需要用户事先提供用户词表,而是利用分词过程中动态产生的新词来改善分词的性能。

Description

利用分词过程中识别的新词改善分词性能的方法
技术领域
本发明涉及一种中文分词的方法。
背景技术
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
新词,也就是那些在分词词典中没有收录,但又确实能称为词的那些词。对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
目前分词系统中利用用户提供的新词词表来改善分词的性能,这些新词词表需要用户事先提供给分词系统。分词系统为了提高文本中新词的切分性能,往往需要将新词作为一种知识源提供给分词系统在分词时使用,现有系统在利用新词作为分词知识源时来提高分词性能时,需要用户事先编辑好新词词表,才能交给分词系统使用,这种新词词表的获取非常困难。
发明内容
本发明所要解决的技术问题是提供一种利用分词过程中识别的新词改善分词性能的方法,它可以使用户无需事先给予新词词表,在分词过程中动态产生的新词作为新词词表,改善分词的性能。
为了解决以上技术问题,本发明提供了一种利用分词过程中识别的新词改善分词性能的方法;包括:分词数据库的训练过程和利用分词数据库进行分词的过程,所述分词数据库的训练过程包括以下步骤:
步骤1:从待切分文本中获取基本特征;
步骤2:利用新词词表,获取新词特征;
步骤3:利用训练得到的分词数据库进行分词,如果分词结果中有新词,将该新词加入到新词词表中。
所述利用分词数据库进行分词的步骤包括以下步骤:
步骤1:抽取分词的文本的基本特征,包括抽取一个或多个窗口的字特征;
步骤2:抽取分词的文本的新词特征;
步骤3:对抽取的特征进行训练,得到分词用的数据库。
本发明的有益效果在于:无需用户事先给予新词词表,采用在分词过程中动态产生的新词作为新词词表,作为新词知识源来提高分词性能。本方法不需要用户事先提供用户词表,而是利用分词过程中动态产生的新词来改善分词的性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明实施例所述分词数据库的训练过程示意图;
图2是本发明实施例所述利用分词数据库进行分词的过程示意图。
具体实施方式
如图1所示的分词数据库的训练过程,其中包括以下步骤:
步骤1:从待切分文本中获取基本特征;
步骤2:利用新词词表,获取新词特征;
步骤3:利用图1中步骤训练得到的分词数据库进行分词,如果分词结果中有新词,将该新词加入到新词词表中。
如图2所示的是利用分词数据库进行分词的过程。本图展示了利用分词数据库对待切分的原始文本进行分词的过程:
步骤1:对人工分词的文本抽取基本特征,主要是抽取一个或多个窗口的字特征,目前已有的分词训练模块也具备这一步骤;
步骤2:对人工分词的文本抽取新词特征;
步骤3:对抽取的特征进行训练,得到分词用的数据库。
本发明所述的新词和新词特征的获取包括以下内容:
1.训练过程中的新词获取。
训练过程中,新词从训练语料中直接获取。
2.分词过程中的新词获取。
分词系统具备新词获取能力,在分词过程中,建立动态新词词表,一旦分词系统识别出新词,就将该新词加入的新词词表中。
3.训练过程中新词特征获取。
新词词表作为分词知识源是通过新词特征来实现的,新词特征通过新词词表与待分词的原始文本进行匹配(正向最大匹配或者逆向最大匹配),分词算法中最经常使用的正向(由左到右的方向)最大匹配和反向(由右到左的方向)最大匹配。这种两种方法都是机械分词方法,它是按照一定的策略将待分析的汉字串与一个机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。
如果某些文字被成功匹配,这些文字就被赋以如下特征:
该字是成功匹配的新词的首字:B-NewWord;或
该字是成功匹配的新词的中间字:I-NewWord;或
该字是成功匹配的新词的尾字:E-NewWord;或
其他没有被匹配成功的文字被赋以:Other。
4.分词过程中新词特征获取
分词过程中新词特征获取同训练过程中新词特征获取方法,只是新词词表获取方式不同而已。
本发明并不限于上文讨论的实施方式。以上对具体实施方式的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法,以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。

Claims (2)

1.一种利用分词过程中识别的新词改善分词性能的方法;其特征在于,包括:分词数据库的训练步骤和利用分词数据库进行分词的步骤,
所述分词数据库的训练步骤包括以下步骤:
步骤1:从待切分文本中获取基本特征;
步骤2:利用新词词表,获取新词特征,其中,所述新词词表包括:新词词表从训练语料中直接获取,和在分词过程中,建立动态新词词表,分词系统识别出新词后将该新词加入到新词词表中,所述新词特征通过新词词表与待分词的原始文本进行匹配得到;
步骤3:利用训练得到的分词数据库进行分词,如果分词结果中有新词,将该新词加入到新词词表中,其中,新词词表作为分词知识源是通过新词特征来实现的;
所述利用分词数据库进行分词的步骤包括以下步骤:
步骤1:抽取分词的文本的基本特征,包括抽取一个或多个窗口的字特征;
步骤2:抽取分词的文本的新词特征;
步骤3:对抽取的特征进行训练,得到分词用的数据库。
2.如权利要求1所述的利用分词过程中识别的新词改善分词性能的方法,其特征在于,新词特征通过新词词表与待分词的基本特征进行匹配,如果某些文字被成功匹配,这些文字就被赋以如下特征:
该文字是成功匹配的新词的首字;或,
该文字是成功匹配的新词的中间字;或,
该文字是成功匹配的新词的尾字;或,
其他没有被匹配成功的文字。
CN201010588841.0A 2010-12-15 2010-12-15 利用分词过程中识别的新词改善分词性能的方法 Active CN102541865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010588841.0A CN102541865B (zh) 2010-12-15 2010-12-15 利用分词过程中识别的新词改善分词性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010588841.0A CN102541865B (zh) 2010-12-15 2010-12-15 利用分词过程中识别的新词改善分词性能的方法

Publications (2)

Publication Number Publication Date
CN102541865A CN102541865A (zh) 2012-07-04
CN102541865B true CN102541865B (zh) 2018-07-06

Family

ID=46348787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010588841.0A Active CN102541865B (zh) 2010-12-15 2010-12-15 利用分词过程中识别的新词改善分词性能的方法

Country Status (1)

Country Link
CN (1) CN102541865B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357784B (zh) * 2017-07-05 2021-01-26 东南大学 一种继电保护装置设备数据模型智能分析方法
CN108509419B (zh) * 2018-03-21 2022-02-22 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN109684645A (zh) * 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848917B2 (en) * 2006-03-30 2010-12-07 Microsoft Corporation Common word graph based multimodal input

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chinese segmentation and new word detection using conditional random fields;Peng F等;《Proceedings of Coling》;20041231;第562-568页 *
一个中文新词识别特征的研究;秦浩伟等;《计算机工程》;20041231;第369-371页 *
中文新词识别技术综述;张海军等;《计算机科学》;20100331;第37卷(第3期);第6-11页 *

Also Published As

Publication number Publication date
CN102541865A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN105320960B (zh) 一种基于投票的跨语言主客观情感分类方法
US20150186361A1 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及系统
CN105893353B (zh) 分词方法和分词系统
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN103488627B (zh) 全篇专利文献翻译方法及翻译系统
WO2019100458A1 (zh) 泰语音节切分的方法及装置
CN102750282B (zh) 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
CN106611041A (zh) 一种新的文本相似度求解方法
CN105912522A (zh) 基于成分分析的英语语料自动提取方法和提取器
CN106372053B (zh) 句法分析的方法和装置
CN102541865B (zh) 利用分词过程中识别的新词改善分词性能的方法
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN102135956A (zh) 一种基于词位标注的藏文分词方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN107480128A (zh) 中文文本的分词方法及装置
Dyer The “noisier channel”: Translation from morphologically complex languages
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
CN106802886A (zh) 一种多语文本的切词方法
CN103268314B (zh) 一种获取泰文断句规则的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190222

Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

Address before: 201203 No. 356 GuoShoujing Road, Pudong New Area, Shanghai

Patentee before: Shengle Information Technology (Shanghai) Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190606

Address after: 312599 Affiliated Building B-2, 3rd Floor, Jiayi Plaza, 127 Renmin East Road, Nanming Street, Xinchang County, Shaoxing City, Zhejiang Province

Patentee after: Lian Shang (Xinchang) Network Technology Co., Ltd.

Address before: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Patentee before: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

TR01 Transfer of patent right