CN109271631B - 分词方法、装置、设备及存储介质 - Google Patents

分词方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109271631B
CN109271631B CN201811061555.1A CN201811061555A CN109271631B CN 109271631 B CN109271631 B CN 109271631B CN 201811061555 A CN201811061555 A CN 201811061555A CN 109271631 B CN109271631 B CN 109271631B
Authority
CN
China
Prior art keywords
probability
word segmentation
lstm
entity
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811061555.1A
Other languages
English (en)
Other versions
CN109271631A (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN201811061555.1A priority Critical patent/CN109271631B/zh
Publication of CN109271631A publication Critical patent/CN109271631A/zh
Application granted granted Critical
Publication of CN109271631B publication Critical patent/CN109271631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种分词方法,包括获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;同时实现了实体识别与初步分词,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果,进一步分词中根据实体识别技术识别出其中的实体词,将能有效减少句子中的新词数,再使用最大概率分词对剩余句子进行分词,解决了现有技术中新词识别分词出现错误的问题,提高了分词准确率和效率。

Description

分词方法、装置、设备及存储介质
技术领域
本发明涉及信息术领域,尤其涉及一种分词方法、装置、设备及存储介质。
背景技术
作为自然语言分析等前沿技术的关键组成部分,分词技术在近年来受到了人们的广泛关注。分词作为自然语言处理中的基本,其对后续的分析都有非常重要的影响,如文本句法分析,情感分类等。所谓分词,就是将文字序列切分成一个一个单独的词。以中文分词技术为例,分词技术的目标就是将例如但不限于一句话切分为一个一个单独的中文词语。而将文字序列切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术至关重要。
现有的分词策略往往基于大语料的统计模型,而不会利用当前待切分句子的信息。同时,在句子中的新词,往往是一些人名、公司名、地名等,在大语料的统计模型往往不能实时更新分词词典及统计结果,导致线上使用容易出现分词分错的情况。
发明人实施本发明时,发现现有技术的分词应用存在严重不足:
例如:阿里云中漫步。根据语义,此处应切分为:阿里/云中漫步。但如果分词词典中存在“阿里云”(阿里巴巴旗下的一个品牌),那么分词的结果将很可能为:阿里云/中/漫步。针对新词识别,现有的分词的方法多使用隐马尔科夫模型或crf等。此类方法在长序列文本中识别效果较差,新词识别出错,从而导致最终的分词结果容易出错。
发明内容
有鉴于此,本发明实施例提供一种分词方法、装置、设备及存储介质,以解决现有技术中新词识别出错,从而导致最终的分词结果出错的技术问题。
第一方面,本发明实施例提供了一种分词方法,包括如下步骤:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记;
根据所述标记得到抛去实体词的短句;
基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果。
在第一方面的第一种可能实现方式中,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
结合第一方面以及第一方面的第一种可能方式,在第一方面的第二种可能实现方式中,所述获取标注后的训练语料包括:
使用IOB方式对所述训练语料进行训练,得到标注后的训练语料。
在第一方面的第三种可能实现方式中,所述将所述概率输入CRF模型,得到各个字符的标记包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure GDA0003908713360000031
其中,y为所述待分词文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
在第一方面的第四种可能实现方式中,所述根据所述标记得到抛去实体词的短句包括:
根据所述标记获取不属于实体词的字符;
利用所述标记中的实体词进行切分,获取短句。
在第一方面的第五种可能实现方式中,所述基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果包括:
获取所述短句的所有切分组合的概率;
将所述短句中各个字符的词频相应的输入所述切分组合的概率,得到所有切分组合的概率值;
根据最大的所述概率值得到所述待分词文本的分词结果。
结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述获取所述短句的所有切分组合的概率包括:
获取最佳切分公式:argmaxwP(w|S=s),其中,w为所有可能的切分组合,s为待切分语句;
获取切分概率:
Figure GDA0003908713360000041
根据一元语法获取各个切分组合的概率:
Figure GDA0003908713360000042
第二方面,本发明实施例还提供了一种分词装置,包括:
实体识别模型获取模块,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块,用于将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
标记获取模块,用于将所述概率输入CRF模型,得到各个字符的标记;
短句获取模块,用于根据所述标记得到抛去实体词的短句;其中,所述根据所述标记得到抛去实体词的短句,包括:根据所述标记获取不属于实体词的字符;利用所述标记中的实体词进行切分,获取短句。
分词结果获取模块,用于基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果。
第三方面,本发明实施例还提供了一种分词设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的分词方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的分词方法。
实施本发明实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;同时实现了实体识别与初步分词,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果,进一步分词中根据实体识别技术识别出其中的实体词,将能有效减少句子中的新词数,再使用最大概率分词对剩余句子进行分词,解决了现有技术中新词识别分词出现错误的问题,提高了分词准确率和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的分词设备的示意图;
图2是本发明实施例二提供的一种分词方法的流程示意图;
图3是本发明实施例二提供的LSTM实体识别的结果示意图;
图4是本发明实施例二提供的LSTM+CRF分词的结果示意图;
图5是本发明第三实施例提供的分词装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所属技术领域的技术人员知道,本发明可以实现为设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种虚拟机,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
实施例一
请参见图1,图1是本发明实施例一提供的分词设备的示意图,用于执行本发明实施例提供的分词方法,如图1所示,该分词设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行下述实施例所述的分词方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述分词方法的控制中心,利用各种接口和线路连接整个所述分词方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现分词的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述分词集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
下面将参照附图来描述本发明实施例的分词的方法。
实施例二
图2是本发明实施例二提供的一种分词方法的流程示意图。
一种分词方法,包括以下步骤:
S11、获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
S12、将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
S13、将所述概率输入CRF模型,得到各个字符的标记;
S14、根据所述标记得到抛去实体词的短句;
S15、基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果。
在本发明实施例中,为了提高实体识别的精度和效率,将LSTM模型和CRF模型进行结合,可以同时实现实体识别和句子分词。
优选地,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
进一步地,所述获取标注后的训练语料包括:
使用IOB方式对所述训练语料进行训练,得到标注后的训练语料。
在本发明实施例中,首先,获取标注后的训练语料,标注语料是人工标注的过程,语料按照IOB(Inside、Other、Begin)的方式对训练语料进行标注(也可以采用其它方式进行标注,如用0,1,2代替),其中,Begin:属于实体词的第一个字符标记,Inside:属于实体词,但不是第一个字符;Outside:不属于实体词的字符标记。如果一个分词单元是一个实体开始,则标记为(tag B-…);如果一个分词单元是一个实体中间词汇,则标记为(tagI-…);如果一个分词单元不是一个实体,则标记为(tag O)。以实体中最常见的人名(PER)、地名(LOC)和机构名(ORG)为例,针对所述训练语料中每个句子,对每一个字符进行标记,例如:马化腾是腾讯的CEO。可标注:马的标记为B;化的标记为I;腾的标记为I;是的标记为O;腾的标记为B;讯的标记为B;的的标记为O;C的标记为O;E的标记为O;O的标记为O。
在本发明实施例中,所述将所述标注后的训练语料中的词和字符转化为向量,因为计算机仅能对数值型的类型进行计算,而输入的词x是字符型,计算机不能直接计算,因此需要进行向量转化,转化的向量可以称为词向量,也叫词嵌入向量。先根据统计得到所有需要进行预测和训练的词的词表,假设词表大小为k,为词表中每个词赋予唯一的id,id的取值范围为0至k-1,随机初始化矩阵大小为【k,dim】,其中,dim为预设阈值,根据每个字符查找对应的id,进而得到相应的词向量。在构建词向量(WordEmbedding),使用数学模型处理文本语料的第一步就是把文本转换成数学表示,有两种方法,第一种方法可以通过one-hot矩阵表示一个单词,one-hot矩阵是指每一行有且只有一个元素为1,其他元素都是0的矩阵。针对字典中的每个单词,我们分配一个编号,对某句话进行编码时,将里面的每个单词转换成字典里面这个单词编号对应的位置为1的one-hot矩阵就可以了。比如我们要表达“I love china”,可以使用矩阵表示为
Figure GDA0003908713360000111
也可以使用WordEmbedding矩阵,WordEmbedding矩阵给每个单词分配一个固定长度的向量表示,这个长度可以自行设定,比如300,实际上会远远小于字典长度(比如10000)。而且两个单词向量之间的夹角值可以作为他们之间关系的一个衡量,可以使用矩阵表示为
Figure GDA0003908713360000112
在本发明实施例中,将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型计算公式如下:
Figure GDA0003908713360000113
其中,σ是对每个元素的取sigmoid操作,
Figure GDA0003908713360000121
代表点乘,xt为输入,ht为输出,对所述公式中所有的W、h、c和b都随机初始化,将对应的向量输入至所述公式就可以得到相应的概率,例如,将“I love china”输入到所述基于LSTM的实体识别模型的第一层LSTM神经元单元中,同时第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入,而后将LSTM每个神经单元输出的各个字符分属于各个标签的概率,
在本实施例中,在得到了各个字符分属于各个标签的概率后,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以获取训练好的基于LSTM的实体识别模型。所述反向传播即是在LSTM输出结果的基础上使用链式求导策略更新LSTM的参数,链式求导是由“由多个函数凑起来的复合函数,其导数等于里边函数代入外边函数的值之导数,乘以里边函数的导数”,示例性的,f(x)=x2,g(x)=2x+1,则{f[g(x)]}'=2[g(x)]×g'(x)=2[2x+1]×2=8x+4。以此对上述的基于LSTM的实体识别模型计算公式中的参数进行更新。
参见图3,假设待实体识别文本为“马化腾是腾讯的CEO”,则得到所述待实体识别文本分数各个标签的概率,例如,“马”属于标签I的概率为0.5,属于标签O的概率为0.1,属于标签B的概率为0.9。
优选地,所述将所述概率输入CRF模型,得到各个字符的标记包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure GDA0003908713360000122
其中,y为所述待分词文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
在本实施例中,参见图4,LSTM+CRF的结构示意图,对于每一个输入X=(x1,x2,…,xn),我们得到一个预测label序列y=(y1,y2,…,yn),定义这个预测的得分即为
Figure GDA0003908713360000131
其中pi,yi为第i个位置softmax输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率,当tag(B-person,B-location…)个数为n的时候,转移概率矩阵为(n+2)*(n+2),因为额外增加了一个开始位置和结束位置。这个得分函数S就很好地弥补了传统BiLSTM的不足,因为我们当一个预测序列得分很高时,并不是各个位置都是softmax输出最大概率值对应的label,还要考虑前面转移概率相加最大,即还要符合输出规则(B后面不能再跟B),比如假设BiLSTM输出的最有可能序列为BBIBIOOO,那么因为我们的转移概率矩阵中B->B的概率很小甚至为负,那么根据s得分,这种序列不会得到最高的分数,即就不是我们想要的序列。以“马化腾是腾讯的CEO”为例,通过CRF模型后,得到的最大得分序列为:
S(‘马化腾是腾讯的CEO’,(B,I,I,O,B,I,O,O,O,O))=A(B,I)+A(I,I)+A(I,B)+A(B,B-C)+A(B-C,I-C)+A(I-C,B)+A(B,B)+A(B,I)+A(I,I)+0.9+0.5+0.7+0.8+0.8+0.5+0.6+0.6+0.9+0.8。其中,Ayi,yi+1为从yi到yi+1的转移概率数值通过标注数据统计得到。
需要说明的是,引入的CRF模型,是对输出标签二元组进行了建模,然后使用动态规划进行计算即可,最终根据得到的最优路径进行标注。
优选地,所述根据所述标记得到抛去实体词的短句包括:
根据所述标记获取不属于实体词的字符;
利用所述标记中的实体词进行切分,获取短句。
优选地,所述基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果包括:
获取所述短句的所有切分组合的概率;
将所述短句中各个字符的词频相应的输入所述切分组合的概率,得到所有切分组合的概率值;
根据最大的所述概率值得到所述待分词文本的分词结果。
进一步地,所述获取所述短句的所有切分组合的概率包括:
获取最佳切分公式:argmaxwP(w|S=s),其中,w为所有可能的切分组合,s为待切分语句;
获取切分概率:
Figure GDA0003908713360000141
根据一元语法获取各个切分组合的概率:
Figure GDA0003908713360000142
需要说的是,最大概率分词方法的具体步骤如下:首先,对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;然后,到词典中查出每个候选词的概率值P(wi);按照公式P(wi)=P(wi-1)P(wi)计算每个候选词的累计概率,同时比较得到每个词的最佳前趋词。然后,如果当前词wn是字符串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词。最后,从wn开始,按照从右到左的顺序,因此将每个词的最佳前趋输出,即为S的分词结果。
示例性的,(1)对“有意见分歧”,从左到右进行一遍扫描,得到全部候选词:“有”,“有意”,“意见”,“见”,“分歧”;(2)对每个候选词,记录下它的概率值,并将累计概率赋初值为0;(3)顺次计算各个候选词的累计概率值,同时记录每个候选词的最佳前趋词:P`(有)=P(有),P`(意见)=P(意见),P`(意见)=P`(有)P(意见),(“意见”的最佳前趋词为“有”),P`(见)=P`(有意)P(见),(“见”的最佳前趋词为“有意”),P`(意见)>P`(见),(4)“分歧”是尾词,“意见”是“分歧”的最佳前趋词,分词过程结束。
在本实施例中,以句子“马化腾是腾讯的CEO”进行说明,在经过所述基于LSTM的实体识别模型+CRF模型后,得到的实体识别分词结果是:马的标记为B;化的标记为I;腾的标记为I;是的标记为O;腾的标记为B;讯的标记为B;的的标记为O;C的标记为O;E的标记为O;O的标记为O。由此可知,实体词是马化腾和腾讯,抽取出所有标记为O的字符,同时用已发现的实体词做切分,得到新的短句:短句A:是;短句B:的CEO;使用最大概率分词分别对短句进行切分,最大概率分词理论如下:假定:W:所有可能的切分组合;S:待切分语句。
最佳切分:argmaxwP(w|S=s),其中,w为所有可能的切分组合,s为待切分语句;获取切分概率:
Figure GDA0003908713360000151
根据一元语法获取各个切分组合的概率:
Figure GDA0003908713360000152
因为始终是同一语句,p(s)未曾改变,p(s|w)始终为1,仅需计算p(w),在词表中需记录每个词语的词频,计算每个独立词语出现的联合概率:
Figure GDA0003908713360000153
对于短句A,由于短句A只有一个字,因此只有一种切分可能,对于短句B,有以下两个切分可能:(的,CEO),(的CEO),计算两种切分方式概率:方式1:p(w1)=p(的)p(CEO)方式2:p(w2)=p(的CEO),将统计得来的概率代入公式根据一元语法获取各个切分组合的概率中,选取p(w)最大的切分结果。经计算,得到上例分词结果:短句A最大概率分词结果:是;短句B最大概率分词结果:的/CEO;结合LSTM+CRF的识别的实体及上述最大概率分词的结果,得到最终的分词结果为:马化腾/是/腾讯/的/CEO。
实施本实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;LSTM网络对数据的依赖很大,数据量的大小和质量也会影响模型训练结果,结合了LSTM模型和CRF模型,使用LSTM模型解决提取序列特征的问题,使用CRF模型可以有效利用句子级别的标记信息,通过LSTM+CRF模型提高了对话系统的执行效率,同时实现了实体识别与初步分词,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果,进一步分词中根据实体识别技术识别出其中的实体词,将能有效减少句子中的新词数,再使用最大概率分词对剩余句子进行分词,解决了现有技术中新词识别分词出现错误的问题,提高了分词准确率和效率。
实施例三
参见图5,本发明第三实施例提供的分词装置的结构示意图;
一种分词装置,包括:
实体识别模型获取模块31,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块32,用于将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
标记获取模块33,用于将所述概率输入CRF模型,得到各个字符的标记;
短句获取模块34,用于根据所述标记得到抛去实体词的短句;
分词结果获取模块35,用于基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果。
优选地,所述实体识别模型获取模块31包括:
训练语料获取单元,用于获取标注后的训练语料;
向量获取单元,用于将所述标注后的训练语料中的词和字符转化为向量;
参数训练单元,用于将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
优选地,所述训练语料获取单元包括:
使用IOB方式对所述训练语料进行训练,得到标注后的训练语料。
优选地,所述标记获取模块33包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure GDA0003908713360000171
其中,y为所述待分词文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
优选地,所述短句获取模块34包括:
根据所述标记获取不属于实体词的字符;
利用所述标记中的实体词进行切分,获取短句。
优选地,所述分词结果获取模块35包括:
概率获取单元,用于获取所述短句的所有切分组合的概率;
概率值获取单元,用于将所述短句中各个字符的词频相应的输入所述切分组合的概率,得到所有切分组合的概率值;
分词结果获取单元,用于根据最大的所述概率值得到所述待分词文本的分词结果。
优选地,所述概率获取单元包括:
获取最佳切分公式:argmaxwP(w|S=s),其中,w为所有可能的切分组合,s为待切分语句;
获取切分概率:
Figure GDA0003908713360000181
根据一元语法获取各个切分组合的概率:
Figure GDA0003908713360000182
实施本实施例具有如下有益效果:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;将所述概率输入CRF模型,得到各个字符的标记;LSTM网络对数据的依赖很大,数据量的大小和质量也会影响模型训练结果,结合了LSTM模型和CRF模型,使用LSTM模型解决提取序列特征的问题,使用CRF模型可以有效利用句子级别的标记信息,通过LSTM+CRF模型提高了对话系统的执行效率,同时实现了实体识别与初步分词,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果,进一步分词中根据实体识别技术识别出其中的实体词,将能有效减少句子中的新词数,再使用最大概率分词对剩余句子进行分词,解决了现有技术中新词识别分词出现错误的问题,提高了分词准确率和效率。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,在某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模拟一定是本发明所必须的。

Claims (9)

1.一种分词方法,其特征在于,包括:
获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记;
根据所述标记得到抛去实体词的短句;
基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
其中,所述根据所述标记得到抛去实体词的短句包括:根据所述标记获取不属于实体词的字符;利用所述标记中的实体词进行切分,获取短句。
2.根据权利要求1所述的分词方法,其特征在于,所述获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,包括:
获取标注后的训练语料;
将所述标注后的训练语料中的词和字符转化为向量;
将所述词和字符的向量输入所述基于LSTM的实体识别模型中,使用反向传播法训练所述基于LSTM的实体识别模型中的参数,以得到训练完成后的基于LSTM的实体识别模型。
3.根据权利要求2所述的分词方法,其特征在于,所述获取标注后的训练语料包括:
使用IOB方式对所述训练语料进行训练,得到标注后的训练语料。
4.根据权利要求1所述的分词方法,其特征在于,所述将所述概率输入CRF模型,得到各个字符的标记包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
Figure FDA0003908713350000021
其中,y为所述待分词文本的待预测的标签序列,y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
5.根据权利要求1所述的分词方法,其特征在于,所述基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果包括:
获取所述短句的所有切分组合的概率;
将所述短句中各个字符的词频相应的输入所述切分组合的概率,得到所有切分组合的概率值;
根据最大的所述概率值得到所述待分词文本的分词结果。
6.根据权利要求5所述的分词方法,其特征在于,所述获取所述短句的所有切分组合的概率包括:
获取最佳切分公式:argmaxwP(w|S=s),其中,w为所有可能的切分组合,s为待切分语句;
获取切分概率:
Figure FDA0003908713350000031
根据一元语法获取各个切分组合的概率:
Figure FDA0003908713350000032
7.一种分词装置,其特征在于,包括:
实体识别模型获取模块,用于获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练;
概率获取模块,用于将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
标记获取模块,用于将所述概率输入CRF模型,得到各个字符的标记;
短句获取模块,用于根据所述标记得到抛去实体词的短句;其中,所述根据所述标记得到抛去实体词的短句,包括:根据所述标记获取不属于实体词的字符;利用所述标记中的实体词进行切分,获取短句;
分词结果获取模块,用于基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果。
8.一种分词设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的分词方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的分词方法。
CN201811061555.1A 2018-09-12 2018-09-12 分词方法、装置、设备及存储介质 Active CN109271631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811061555.1A CN109271631B (zh) 2018-09-12 2018-09-12 分词方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811061555.1A CN109271631B (zh) 2018-09-12 2018-09-12 分词方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109271631A CN109271631A (zh) 2019-01-25
CN109271631B true CN109271631B (zh) 2023-01-24

Family

ID=65188626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811061555.1A Active CN109271631B (zh) 2018-09-12 2018-09-12 分词方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109271631B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055527B2 (en) * 2019-02-01 2021-07-06 Intuit Inc. System and method for information extraction with character level features
CN111695350B (zh) * 2019-03-14 2023-12-08 北京嘀嘀无限科技发展有限公司 一种文本的分词方法及分词装置
CN110334338B (zh) * 2019-04-29 2023-09-19 北京小米移动软件有限公司 分词方法、装置及设备
CN110399617A (zh) * 2019-08-30 2019-11-01 广西电网有限责任公司南宁供电局 审计数据处理方法、系统和可读存储介质
CN110705211A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 文本重点内容标记方法、装置、计算机设备及存储介质
CN110598038A (zh) * 2019-09-27 2019-12-20 京东方科技集团股份有限公司 画作标签生成方法及电子设备
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质
CN112861533A (zh) * 2019-11-26 2021-05-28 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN111222320B (zh) * 2019-12-17 2020-10-20 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN111178076B (zh) * 2019-12-19 2023-08-08 成都欧珀通信科技有限公司 命名实体识别与链接方法、装置、设备及可读存储介质
CN111209396A (zh) * 2019-12-27 2020-05-29 深圳市优必选科技股份有限公司 实体识别模型的训练方法及实体识别方法、相关装置
CN111611799B (zh) * 2020-05-07 2023-06-02 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN113723089B (zh) * 2020-05-25 2023-12-26 阿里巴巴集团控股有限公司 一种分词模型训练方法、分词方法和数据处理方法及装置
CN111695054A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 文本处理方法及设备、信息抽取方法及系统、介质
CN111885000B (zh) * 2020-06-22 2022-06-21 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN111737991B (zh) * 2020-07-01 2023-12-12 携程计算机技术(上海)有限公司 文本断句位置的识别方法及系统、电子设备及存储介质
CN112036178A (zh) * 2020-08-25 2020-12-04 国家电网有限公司 一种配网实体相关的语义搜索方法
CN113807095B (zh) * 2021-03-03 2024-05-17 京东科技控股股份有限公司 实体词提取模型的训练方法、装置、设备和存储介质
CN113268452B (zh) * 2021-05-25 2024-02-02 联仁健康医疗大数据科技股份有限公司 一种实体抽取的方法、装置、设备和存储介质
CN113836912A (zh) * 2021-09-08 2021-12-24 上海蜜度信息技术有限公司 语言模型和词库校正的序列标注分词方法、系统及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108388560A (zh) * 2018-03-17 2018-08-10 北京工业大学 基于语言模型的gru-crf会议名称识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108388560A (zh) * 2018-03-17 2018-08-10 北京工业大学 基于语言模型的gru-crf会议名称识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于BiLSTM-CRF的关键词自动抽取》;陈伟 等;《计算机科学》;20180630;第35卷(第6期);第91-96、113页 *

Also Published As

Publication number Publication date
CN109271631A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271631B (zh) 分词方法、装置、设备及存储介质
CN109299458B (zh) 实体识别方法、装置、设备及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN111914568B (zh) 文本修辞句的生成方法、装置、设备及可读存储介质
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN111597350A (zh) 基于深度学习的轨道交通事件知识图谱构建方法
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN112836508B (zh) 信息提取模型训练方法、装置、终端设备及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN112906403B (zh) 语义分析模型训练方法、装置、终端设备及存储介质
CN114020886A (zh) 语音意图识别方法、装置、设备及存储介质
CN113434642A (zh) 文本摘要生成方法、装置及电子设备
CN113535925A (zh) 语音播报方法、装置、设备及存储介质
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN113205814A (zh) 语音数据标注方法、装置、电子设备及存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN116483314A (zh) 一种自动化智能活动图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant