CN109657235B - 一种混合分词方法 - Google Patents

一种混合分词方法 Download PDF

Info

Publication number
CN109657235B
CN109657235B CN201811479085.0A CN201811479085A CN109657235B CN 109657235 B CN109657235 B CN 109657235B CN 201811479085 A CN201811479085 A CN 201811479085A CN 109657235 B CN109657235 B CN 109657235B
Authority
CN
China
Prior art keywords
character
label
sentence
word segmentation
judging whether
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811479085.0A
Other languages
English (en)
Other versions
CN109657235A (zh
Inventor
张文斌
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunfu Technology Beijing Co ltd
Original Assignee
Yunfu Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunfu Technology Beijing Co ltd filed Critical Yunfu Technology Beijing Co ltd
Priority to CN201811479085.0A priority Critical patent/CN109657235B/zh
Publication of CN109657235A publication Critical patent/CN109657235A/zh
Application granted granted Critical
Publication of CN109657235B publication Critical patent/CN109657235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的混合分词方法,涉及语义分析技术领域,利用经训练数据训练过的语言模型对语句进行标注,得到语句各个词的标签序列,初始化一个词组序列,依次对标签序列进行解码,根据解码结果,对语句进行分词,得到分词结果,实现了自动对语句内的所有语言进行分词,节省了人工成本、分词效率较高,解决了现有技术存在的不能对对语句内的所有语言进行分词,需要通过人工去分词而导致的人工成本高及分词效率低的缺陷。

Description

一种混合分词方法
技术领域
本发明涉及语义分析技术领域,具体涉及一种混合分词方法。
背景技术
在搜索引擎、文本分析、数据挖掘等人工智能相关的工作中,对于没有空格或者其他明显标志符号分割单词的语言里,利用计算机进行自然语言分析时,为方便获取单词,分词是必须的一个基础工作,以便对分词后的其他处理工作进行展开。
现有的分词方法不能实现对语句内的所有语言进行分词,在这种情况下,需要通过人工进行分词,导致人工成本较高且分词效率较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种混合分词方法。
本发明实施例提供的混合分词方法包括以下步骤:
Step1、利用经训练数据训练过的语言模型对语句进行标注,得到所述语句各个词的标签序列;
Step2、依次对所述标签序列进行解码,根据解码结果,对所述语句进行分词,得到分词结果,包括:
Step21、判断当前需要分词的字符的标签是否为“B”,若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“E”;
Step22、若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“M”;
Step23、若是,则将所述字符与所述字符的上一个字符合并为一个字符串,将所述字符串放在词组序列当前最后一个字符所在的位置,若否,则判断所述字符的标签是否为“D”,若是,则跳过该字符,若否,则提示该字符存在异常。
进一步地,判断所述字符的标签是否为“E”包括:
若当前需要分词的字符的标签为“E”,则判断所述字符的下一个字符的标签是否为“E”,若是,则将所述字符的下一个字符的标签设为“B”或“M”并重复上述步骤Step21-Step23。
进一步地,所述训练数据的生成过程包括:
判断当前需要标记的字符是否为语句的开始,
若是,则将所述字符的标签设为“B”,若否,则判断所述字符是否为语句的结束;
若是,则将所述字符的标签设为“E”,若否,则判断当前需要标记的字符是否为语句的中间词,
若是,则将所述字符的标签设为“M”,若否,则判断所述字符是否多余,
若是,则将该字符的标签设为“D”,若否,则将该字符的标签设为“异常”。
本发明实施例提供的混合分词方法具有以下有益效果:
实现了自动对语句内的所有语言进行分词,节省了人工成本、提高了分词效率。
附图说明
图1为本发明实施例提供的混合分词方法流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的混合分词方法包括以下步骤:
S101、利用经训练数据训练过的语言模型对语句进行标注,得到所述语句各个词的标签序列;
S102、依次对所述标签序列进行解码,根据解码结果,对所述语句进行分词,得到分词结果,包括:
S1021、判断当前需要分词的字符的标签是否为“B”,若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“E”;
S1022、若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“M”;
S1023、若是,则将所述字符与所述字符的上一个字符合并为一个字符串,将所述字符串放在词组序列当前最后一个字符所在的位置,若否,则判断所述字符的标签是否为“D”,若是,则跳过该字符,若否,则提示该字符存在异常。
进一步地,判断所述字符的标签是否为“E”包括:
若当前需要分词的字符的标签为“E”,则判断所述字符的下一个字符的标签是否为“E”,若是,则将所述字符的下一个字符的标签设为“B”或“M”并重复上述步骤S1021-S1023。
进一步地,所述训练数据的生成过程包括:
判断当前需要标记的字符是否为语句的开始,
若是,则将所述字符的标签设为“B”,若否,则判断所述字符是否为语句的结束;
若是,则将所述字符的标签设为“E”,若否,则判断当前需要标记的字符是否为语句的中间词,
若是,则将所述字符的标签设为“M”,若否,则判断所述字符是否多余,
若是,则将该字符的标签设为“D”,若否,则将该字符的标签设为“异常”。
作为一个具体的实施例,采用本发明实施例提供的混合分词方法对添加了标签的语句“今/B天/E我/S看/S N/B e/M w/E<空格>/D Y/S o/M r/M k/E<空格>/D T/B i/M m/Me/M s/E上/S一/S篇/S文/B章/E,/S说/S C/B罗/E要/S退/B役/E了/S。/S”进行分词后,得到的分词结果如下:
“今天/我/看/New/York/Times/上/一/篇/文章/,/说/C罗/要/退役/了/。”。
本发明实施例提供的混合分词方法,利用经训练数据训练过的语言模型对语句进行标注,得到语句各个词的标签序列,初始化一个词组序列,依次对标签序列进行解码,根据解码结果,对语句进行分词,得到分词结果,实现了自动对语句内的所有语言进行分词,节省了人工成本、提高了分词效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (3)

1.一种混合分词方法,其特征在于,包括:
Step1、利用经训练数据训练过的语言模型对语句进行标注,得到所述语句各个词的标签序列;
Step2、依次对所述标签序列进行解码,根据解码结果,对所述语句进行分词,得到分词结果,包括:
Step21、判断当前需要分词的字符的标签是否为“B”,若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“E”;
Step22、若是,则将所述字符插入词组序列当前最后一个字符的后面,若否,则判断所述字符的标签是否为“M”;
Step23、若是,则将所述字符与所述字符的上一个字符合并为一个字符串,将所述字符串放在词组序列当前最后一个字符所在的位置,若否,则判断所述字符的标签是否为“D”,若是,则跳过该字符,若否,则提示该字符存在异常。
2.根据权利要求1所述的混合分词方法,判断所述字符的标签是否为“E”包括:
若当前需要分词的字符的标签为“E”,则判断所述字符的下一个字符的标签是否为“E”,若是,则将所述字符的下一个字符的标签设为“B”或“M”并重复上述步骤Step21-Step23。
3.根据权利要求1所述的混合分词方法,所述训练数据的训练生成过程包括:
判断当前需要标记的字符是否为语句的开始,
若是,则将所述字符的标签设为“B”,若否,则判断所述字符是否为语句的结束;
若是,则将所述字符的标签设为“E”,若否,则判断当前需要标记的字符是否为语句的中间词,
若是,则将所述字符的标签设为“M”,若否,则判断所述字符是否多余,
若是,则将该字符的标签设为“D”,若否,则将该字符的标签设为“异常”。
CN201811479085.0A 2018-12-05 2018-12-05 一种混合分词方法 Active CN109657235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811479085.0A CN109657235B (zh) 2018-12-05 2018-12-05 一种混合分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811479085.0A CN109657235B (zh) 2018-12-05 2018-12-05 一种混合分词方法

Publications (2)

Publication Number Publication Date
CN109657235A CN109657235A (zh) 2019-04-19
CN109657235B true CN109657235B (zh) 2022-11-25

Family

ID=66112680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811479085.0A Active CN109657235B (zh) 2018-12-05 2018-12-05 一种混合分词方法

Country Status (1)

Country Link
CN (1) CN109657235B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN106970902A (zh) * 2016-01-13 2017-07-21 北京国双科技有限公司 一种中文分词方法及装置
CN107832301A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464024B2 (en) * 2004-04-16 2008-12-09 International Business Machines Corporation Chinese character-based parser

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN106970902A (zh) * 2016-01-13 2017-07-21 北京国双科技有限公司 一种中文分词方法及装置
CN107832301A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于N-gram模型和机器学习的汉语分词算法;吴应良等;《电子与信息学报》;20011231(第11期);全文 *
基于循环神经网络序列标注的中文分词研究;刁琦等;《计算机技术与发展》;20171231(第10期);全文 *

Also Published As

Publication number Publication date
CN109657235A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109558479B (zh) 一种规则匹配方法、装置、设备及存储介质
CN109918658B (zh) 一种从文本中获取目标词汇的方法及系统
CN111885000B (zh) 一种基于图神经网络的网络攻击检测方法、系统及装置
US20160110224A1 (en) Generating job alert
CN111178079B (zh) 一种三元组抽取方法及装置
CN110895544B (zh) 一种接口数据处理方法、装置、系统及存储介质
CN106610931B (zh) 话题名称的提取方法及装置
CN109032912B (zh) 车载终端固件升级的压力测试方法
CN110569330A (zh) 一种基于智能选词的文本标注系统及装置、设备、介质
CN108090041B (zh) 一种广告创意的生成方法及装置
US10169053B2 (en) Loading a web page
CN112101526A (zh) 基于知识蒸馏的模型训练方法及装置
CN112528030A (zh) 一种用于文本分类的半监督学习方法和系统
CN102945679A (zh) 视频数据处理方法和视频数据读写设备
CN110826342A (zh) 一种实现模型管理的方法、装置、计算机存储介质及终端
CN108874379A (zh) 页面的处理方法及装置
US20220335335A1 (en) Method and system for identifying mislabeled data samples using adversarial attacks
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN109657235B (zh) 一种混合分词方法
CN111274812B (zh) 一种人物关系识别方法、设备及存储介质
CN109558580A (zh) 一种文本分析方法及装置
CN110019831B (zh) 一种产品属性的分析方法和装置
CN110837372B (zh) 汇编代码清除混淆的方法、装置、介质及设备
CN113536736A (zh) 基于bert的序列生成方法及装置
CN109508446B (zh) 一种日志处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant