CN102541865B - 利用分词过程中识别的新词改善分词性能的方法 - Google Patents
利用分词过程中识别的新词改善分词性能的方法 Download PDFInfo
- Publication number
- CN102541865B CN102541865B CN201010588841.0A CN201010588841A CN102541865B CN 102541865 B CN102541865 B CN 102541865B CN 201010588841 A CN201010588841 A CN 201010588841A CN 102541865 B CN102541865 B CN 102541865B
- Authority
- CN
- China
- Prior art keywords
- neologisms
- participle
- vocabulary
- word
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010588841.0A CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010588841.0A CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102541865A CN102541865A (zh) | 2012-07-04 |
CN102541865B true CN102541865B (zh) | 2018-07-06 |
Family
ID=46348787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010588841.0A Active CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541865B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357784B (zh) * | 2017-07-05 | 2021-01-26 | 东南大学 | 一种继电保护装置设备数据模型智能分析方法 |
CN108509419B (zh) * | 2018-03-21 | 2022-02-22 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN109684645A (zh) * | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046809A (zh) * | 2006-03-28 | 2007-10-03 | 吴风勇 | 基于关联规则模式的新词识别方法 |
CN101082909A (zh) * | 2007-06-28 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种识别衍生词的中文分词方法及系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848917B2 (en) * | 2006-03-30 | 2010-12-07 | Microsoft Corporation | Common word graph based multimodal input |
-
2010
- 2010-12-15 CN CN201010588841.0A patent/CN102541865B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046809A (zh) * | 2006-03-28 | 2007-10-03 | 吴风勇 | 基于关联规则模式的新词识别方法 |
CN101082909A (zh) * | 2007-06-28 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种识别衍生词的中文分词方法及系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
Non-Patent Citations (3)
Title |
---|
Chinese segmentation and new word detection using conditional random fields;Peng F等;《Proceedings of Coling》;20041231;第562-568页 * |
一个中文新词识别特征的研究;秦浩伟等;《计算机工程》;20041231;第369-371页 * |
中文新词识别技术综述;张海军等;《计算机科学》;20100331;第37卷(第3期);第6-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN102541865A (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105320960B (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
US20150186361A1 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
CN108845982B (zh) | 一种基于词的关联特征的中文分词方法 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN105893353B (zh) | 分词方法和分词系统 | |
CN105068990B (zh) | 一种面向机器翻译的多策略英文长句分割方法 | |
CN103488627B (zh) | 全篇专利文献翻译方法及翻译系统 | |
WO2019100458A1 (zh) | 泰语音节切分的方法及装置 | |
CN102750282B (zh) | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN105912522A (zh) | 基于成分分析的英语语料自动提取方法和提取器 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN102541865B (zh) | 利用分词过程中识别的新词改善分词性能的方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
CN106815193A (zh) | 模型训练方法及装置和错别字识别方法及装置 | |
CN102135956A (zh) | 一种基于词位标注的藏文分词方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN107491441B (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
CN107480128A (zh) | 中文文本的分词方法及装置 | |
Dyer | The “noisier channel”: Translation from morphologically complex languages | |
CN109325237B (zh) | 用于机器翻译的完整句识别方法与系统 | |
CN106802886A (zh) | 一种多语文本的切词方法 | |
CN103268314B (zh) | 一种获取泰文断句规则的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190222 Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai. Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD. Address before: 201203 No. 356 GuoShoujing Road, Pudong New Area, Shanghai Patentee before: Shengle Information Technology (Shanghai) Co., Ltd. |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190606 Address after: 312599 Affiliated Building B-2, 3rd Floor, Jiayi Plaza, 127 Renmin East Road, Nanming Street, Xinchang County, Shaoxing City, Zhejiang Province Patentee after: Lian Shang (Xinchang) Network Technology Co., Ltd. Address before: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai. Patentee before: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD. |
|
TR01 | Transfer of patent right |