CN102541865A - 利用分词过程中识别的新词改善分词性能的方法 - Google Patents
利用分词过程中识别的新词改善分词性能的方法 Download PDFInfo
- Publication number
- CN102541865A CN102541865A CN2010105888410A CN201010588841A CN102541865A CN 102541865 A CN102541865 A CN 102541865A CN 2010105888410 A CN2010105888410 A CN 2010105888410A CN 201010588841 A CN201010588841 A CN 201010588841A CN 102541865 A CN102541865 A CN 102541865A
- Authority
- CN
- China
- Prior art keywords
- participle
- neologisms
- characteristic
- word
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010588841.0A CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010588841.0A CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102541865A true CN102541865A (zh) | 2012-07-04 |
CN102541865B CN102541865B (zh) | 2018-07-06 |
Family
ID=46348787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010588841.0A Active CN102541865B (zh) | 2010-12-15 | 2010-12-15 | 利用分词过程中识别的新词改善分词性能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541865B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357784A (zh) * | 2017-07-05 | 2017-11-17 | 东南大学 | 一种继电保护装置设备数据模型智能分析方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN109684645A (zh) * | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046809A (zh) * | 2006-03-28 | 2007-10-03 | 吴风勇 | 基于关联规则模式的新词识别方法 |
US20070239432A1 (en) * | 2006-03-30 | 2007-10-11 | Microsoft Corporation | Common word graph based multimodal input |
CN101082909A (zh) * | 2007-06-28 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种识别衍生词的中文分词方法及系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
-
2010
- 2010-12-15 CN CN201010588841.0A patent/CN102541865B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101046809A (zh) * | 2006-03-28 | 2007-10-03 | 吴风勇 | 基于关联规则模式的新词识别方法 |
US20070239432A1 (en) * | 2006-03-30 | 2007-10-11 | Microsoft Corporation | Common word graph based multimodal input |
CN101082909A (zh) * | 2007-06-28 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种识别衍生词的中文分词方法及系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
Non-Patent Citations (3)
Title |
---|
PENG F等: "Chinese segmentation and new word detection using conditional random fields", 《PROCEEDINGS OF COLING》 * |
张海军等: "中文新词识别技术综述", 《计算机科学》 * |
秦浩伟等: "一个中文新词识别特征的研究", 《计算机工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357784A (zh) * | 2017-07-05 | 2017-11-17 | 东南大学 | 一种继电保护装置设备数据模型智能分析方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN108509419B (zh) * | 2018-03-21 | 2022-02-22 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN109684645A (zh) * | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102541865B (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pouget-Abadie et al. | Overcoming the curse of sentence length for neural machine translation using automatic segmentation | |
CN103164403B (zh) | 视频索引数据的生成方法和系统 | |
CN108364632B (zh) | 一种具备情感的中文文本人声合成方法 | |
Pettersson et al. | A multilingual evaluation of three spelling normalisation methods for historical text | |
CN103971684B (zh) | 一种添加标点的方法、系统及其语言模型建立方法、装置 | |
WO2005096708A3 (en) | A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach | |
WO2012027262A4 (en) | Parallel document mining | |
CN104142915A (zh) | 一种添加标点的方法和系统 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
CN104408078A (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
CN104317846A (zh) | 一种语义分析与标注方法及系统 | |
Huber | Syntactic and variational complexity in British and Ghanaian English | |
WO2019100458A1 (zh) | 泰语音节切分的方法及装置 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN102486787B (zh) | 用于提取文档结构的方法和装置 | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
Arisoy et al. | Syntactic and sub-lexical features for Turkish discriminative language models | |
CN106528694A (zh) | 基于人工智能的语义判定处理方法和装置 | |
JP2010157241A (ja) | Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN102135956B (zh) | 一种基于词位标注的藏文分词方法 | |
Schlippe et al. | Unsupervised language model adaptation for automatic speech recognition of broadcast news using web 2.0. | |
CN102541865A (zh) | 利用分词过程中识别的新词改善分词性能的方法 | |
CN107229611B (zh) | 一种基于词对齐的历史典籍分词方法 | |
Dyer | The “noisier channel”: Translation from morphologically complex languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190222 Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai. Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD. Address before: 201203 No. 356 GuoShoujing Road, Pudong New Area, Shanghai Patentee before: Shengle Information Technology (Shanghai) Co., Ltd. |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190606 Address after: 312599 Affiliated Building B-2, 3rd Floor, Jiayi Plaza, 127 Renmin East Road, Nanming Street, Xinchang County, Shaoxing City, Zhejiang Province Patentee after: Lian Shang (Xinchang) Network Technology Co., Ltd. Address before: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai. Patentee before: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD. |
|
TR01 | Transfer of patent right |