CN107402916A - 中文文本的分词方法及装置 - Google Patents
中文文本的分词方法及装置 Download PDFInfo
- Publication number
- CN107402916A CN107402916A CN201710580701.0A CN201710580701A CN107402916A CN 107402916 A CN107402916 A CN 107402916A CN 201710580701 A CN201710580701 A CN 201710580701A CN 107402916 A CN107402916 A CN 107402916A
- Authority
- CN
- China
- Prior art keywords
- text
- segmented
- word
- participle
- polynary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种中文文本的分词方法及装置,通过采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种中文文本的分词方法及装置。
背景技术
中文分词指将一个汉字序列切分成一个一个单独的词。中文分词在信息检索、机器翻译和语音识别等领域起重要作用,是中文语音处理过程中必不可少的一个环节。一般地,由于存在分词歧义的问题,传统的基于词典的机械分词方法的准确度达不到100%。例如,“南京市长江大桥”可以分成“南京市长江大桥”,也可以分成“南京市长江大桥”。如果不依赖其他知识,两种分词方式似乎都是合理的
现有的分词技术依赖的词库是二维的,最多只有词性和简单的概率权重。在算法模型上,没联系上下文进行歧义识别处理。目前国内的词库的缩写词条是人工添加的,比较机械。
发明内容
本发明实施例的目的是提供一种中文文本的分词方法及装置,能有效解决现有词库较为简单不能有效分词的问题,准确性高。
为实现上述目的,本发明实施例提供了一种中文文本的分词方法,包括步骤:
采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
与现有技术相比,本发明公开的中文文本的分词方法通过采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
作为上述方案的改进,还包括步骤:
通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
作为上述方案的改进,采集具有多元语义的网络词库具体为:
收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
本发明实施例还提供了一种中文文本的分词装置,包括:
采集模块,用于采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
初始分词模块,用于接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
特征提取模块,用于对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
第一分词模块,用于根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
第一缩写模块,用于将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
与现有技术相比,本发明公开的中文文本的分词装置通过采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
作为上述方案的改进,还包括:
第二分词模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
第二缩写模块,用于将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
作为上述方案的改进,所述采集模块具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
附图说明
图1是本发明实施例1中一种中文文本的分词方法的流程示意图。
图2是本发明实施例2中一种中文文本的分词方法的流程示意图。
图3是本发明实施例3中一种中文文本的分词装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种中文文本的分词方法的流程示意图,包括步骤:
S1、采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
其中,多元语义网络的词库,和传统的二维词库的区别是可以支撑基于自然语言处理的词条切分,并且可以提供更丰富的扩展属性
S2、接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
S3、对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
S4、根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
S5、将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
具体实施时,通过采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
优选地,如图2所示,在实施例1的基础上,还包括步骤:
S6、通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
S7、将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
通过上述方案,可以对同一段词汇的容易混淆的意思进行深度识别,从而得到更为准确的分词结果;且自动生成缩写并进行校验匹配,可以省去很多人工整理缩写词的工作量。
优选地,步骤S1中采集具有多元语义的网络词库具体为:
收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
参见图3,是本发明实施例3提供的一种中文文本的分词装置的结构示意图,包括:
采集模块101,用于采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
初始分词模块102,用于接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
特征提取模块103,用于对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
第一分词模块104,用于根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
第一缩写模块105,用于将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
具体实施时,通过采集模块101采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后通过所述初始分词模块102接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,所述特征提取模块103对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,所述第一分词模块104再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着通过第一缩写模块105将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
优选地,所述中文文本的分词装置100还包括:
第二分词模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
第二缩写模块,用于将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
在另一优选实施例中,所述采集模块101具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
综上,本发明实施例公开了一种中文文本的分词方法及装置,通过采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练,然后接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词,对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征,再根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果,接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验,能有效解决现有词库较为简单不能有效分词的问题,能得到准确性更高的分词结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.一种中文文本的分词方法,其特征在于,包括步骤:
采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
2.如权利要求1所述的中文文本的分词方法,其特征在于,还包括步骤:
通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
3.如权利要求1所述的中文文本的分词方法,其特征在于,采集具有多元语义的网络词库具体为:
收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
4.一种中文文本的分词装置,其特征在于,包括:
采集模块,用于采集具有多元语义的网络词库,根据不同领域对所述网络词库进行训练;
初始分词模块,用于接收待分词文本,根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词;
特征提取模块,用于对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
第一分词模块,用于根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得第一分词结果;
第一缩写模块,用于将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
5.如权利要求4所述的中文文本的分词装置,其特征在于,还包括:
第二分词模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述第一分词结果进行歧义识别,从而生成第二分词结果;
第二缩写模块,用于将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词,将所述缩写词与所述多元语义的网络词库进行匹配校验。
6.如权利要求4所述的中文文本的分词装置,其特征在于,所述采集模块具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580701.0A CN107402916A (zh) | 2017-07-17 | 2017-07-17 | 中文文本的分词方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580701.0A CN107402916A (zh) | 2017-07-17 | 2017-07-17 | 中文文本的分词方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107402916A true CN107402916A (zh) | 2017-11-28 |
Family
ID=60401011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710580701.0A Pending CN107402916A (zh) | 2017-07-17 | 2017-07-17 | 中文文本的分词方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107402916A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994103A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种智能语义匹配模型的训练方法 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN111611779A (zh) * | 2020-04-07 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 辅助文本标注方法、装置、设备及其存储介质 |
CN112069288A (zh) * | 2019-05-23 | 2020-12-11 | 中国移动通信集团河南有限公司 | 数据的处理方法、装置和电子设备 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
CN112199952A (zh) * | 2020-12-04 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN104035967A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的领域专家发现方法和系统 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105912528A (zh) * | 2016-04-18 | 2016-08-31 | 深圳大学 | 一种问句分类方法及系统 |
CN106528540A (zh) * | 2016-12-16 | 2017-03-22 | 广州索答信息科技有限公司 | 一种种子问句的分词方法和分词系统 |
-
2017
- 2017-07-17 CN CN201710580701.0A patent/CN107402916A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN104035967A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 社交网络中的领域专家发现方法和系统 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105912528A (zh) * | 2016-04-18 | 2016-08-31 | 深圳大学 | 一种问句分类方法及系统 |
CN106528540A (zh) * | 2016-12-16 | 2017-03-22 | 广州索答信息科技有限公司 | 一种种子问句的分词方法和分词系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994103A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种智能语义匹配模型的训练方法 |
CN112069288A (zh) * | 2019-05-23 | 2020-12-11 | 中国移动通信集团河南有限公司 | 数据的处理方法、装置和电子设备 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN111611779A (zh) * | 2020-04-07 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 辅助文本标注方法、装置、设备及其存储介质 |
CN111611779B (zh) * | 2020-04-07 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 辅助文本标注方法、装置、设备及其存储介质 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
CN112199952A (zh) * | 2020-12-04 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
CN112199952B (zh) * | 2020-12-04 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107402916A (zh) | 中文文本的分词方法及装置 | |
CN103324609B (zh) | 文本校对装置和文本校对方法 | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN105260359B (zh) | 语义关键词提取方法及装置 | |
CN103235774B (zh) | 一种科技项目申请书特征词提取方法 | |
CN109033307A (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN105573979B (zh) | 一种基于汉字混淆集的错字词知识生成方法 | |
WO2019228466A1 (zh) | 命名实体识别的方法、装置、设备及存储介质 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN106294350A (zh) | 一种文本聚合方法及装置 | |
CN105447206A (zh) | 基于word2vec算法的新评论对象识别方法及系统 | |
CN103294820B (zh) | 基于语义扩展的web页面归类方法和系统 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN105224520B (zh) | 一种中文专利文献术语自动识别方法 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN106547733A (zh) | 一种面向特定文本的命名实体识别方法 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN108647199A (zh) | 一种地名新词的发现方法 | |
CN104572634A (zh) | 一种交互式抽取可比语料与双语词典的方法及其装置 | |
CN107480128A (zh) | 中文文本的分词方法及装置 | |
CN112084308A (zh) | 用于文本类型数据识别的方法、系统及存储介质 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN106126497A (zh) | 一种自动挖掘对应施引片段和被引文献原文内容片段的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171128 |
|
RJ01 | Rejection of invention patent application after publication |