CN109344406B - 词性标注方法、装置和电子设备 - Google Patents

词性标注方法、装置和电子设备 Download PDF

Info

Publication number
CN109344406B
CN109344406B CN201811159565.9A CN201811159565A CN109344406B CN 109344406 B CN109344406 B CN 109344406B CN 201811159565 A CN201811159565 A CN 201811159565A CN 109344406 B CN109344406 B CN 109344406B
Authority
CN
China
Prior art keywords
speech
word
candidate
segmentation
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811159565.9A
Other languages
English (en)
Other versions
CN109344406A (zh
Inventor
陈永环
孙清清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811159565.9A priority Critical patent/CN109344406B/zh
Publication of CN109344406A publication Critical patent/CN109344406A/zh
Application granted granted Critical
Publication of CN109344406B publication Critical patent/CN109344406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例公开了一种词性标注方法、装置和电子设备,该方法包括:词性标注方法,包括:基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;获取所述分词集合中词性待定分词的第一候选词性集合,基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。

Description

词性标注方法、装置和电子设备
技术领域
本申请涉及计算机软件技术领域,尤其涉及一种词性标注方法、装置和电子设备。
背景技术
词性标注在搜索、推荐、用户行为分析、自然语言处理(Natural LanguageProcessing,NLP)、自然语言理解(Natural Language Understanding,NLU),以及文本内容安全、反洗钱等方面有较多的应用。
随着国际化的深入,不同语种的词性标注面临着诸多挑战,传统方法采用人工标注数据,采用监督学习进行训练得到训练模型,然后采用模型进行预测文本得到词性标注序列,但是这种方法过于依赖于人工标注数据,而且模型优劣也依赖于人工标注数据的质量,而且在国际化过程中人工标注带来了成本的增加。
因此在多语言方面,如何降低成本且提高词性标注的质量是目前的挑战之一,也是国际化中搜索、推荐、用户行为分析、NLP、NLU,以及文本内容安全、反洗钱等行业面临的业务问题之一。
发明内容
本申请实施例的目的是提供一种词性标注方法、装置和电子设备,能够减少词性标注成本,提高词性标注质量。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出了一种词性标注方法的方法,该方法包括:
基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
第二方面,提出了一种词性标注装置,该装置包括:
词性标注模块,基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取模块,获取所述分词集合中词性待定分词的第一候选词性集合;
训练模块,基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
预测模块,基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
确定模块,基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
第三方面,提出了一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
由以上本申请实施例提供的技术方案可见,本申请实施例方案至少具备如下一种技术效果:
本申请实施例中,通过基于字词典对批量文本语料分词处理后的分词集合进行词性标注,并基于单词性词进行词性标注模型的训练,再通过词性标注模型对词性待定词进行预测,然后基于词性待定词的预测词性集合和词性待定词基于字词典标注的词性标注集合的交集确定词性待定词的词性,从而完成对批量文本语料的分词标注,大大地减少了人工标注所需的成本,也减少了人工标注错误带来的词性标注质量问题,从而能够减少词性标注成本,提高词性标注质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例词性标注方法的方法流程图。
图2是本申请的一个实施例电子设备的结构示意图。
图3是本申请的一个实施例词性标注装置的结构示意图。
具体实施方式
本申请实施例提供一种词性标注方法、装置和电子设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请的一个实施例词性标注方法流程图。本申请实施例的方法可由词性标注装置执行。应理解,本申请实施例的词性标注装置,可以是部署有词性标注系统的计算机或计算机集群,或者是部署在云端的应用,本申请实施例对此不作限制。如图1所示,图1的方法可包括:
S110,基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注。
应理解,本申请实施例的批量文本语料,可来源于互联网的网页文本数据。例如,维基百科、百度百科、搜狗百科等百科网站,或者是论坛、贴吧、购物网站、门户网站等。该网页文本数据,也不限于网站上发布的内容数据,还可包括用户对发布内容的评论数据,等等。当然,应理解,网页文本数据不限于上述提到的数据;本申请实施例的批量文本语料,也不限于来自互联网的网页文本数据,例如还可以来源于电子字词典、论文期刊数据库,等等。
可选地,本申请实施例的批量文本语料中可包括多语言混合的文本语料。
应理解,本申请实施例的字词典,可包括字词典数据库、字词典应用,或者是其它具有字词典功能的应用或系统,本申请实施例对此不作限制。
在本申请实施例中,可通过字词典中已经标记的词性,对批量文本语料经过分词处理后的分词集合进行词性标注。
S120,获取所述分词集合中词性待定分词的第一候选词性集合。
应理解,本申请实施例中,词性待定分词,即词性不能确定分词,包括词性未知和多词性两种情况。也就是说,词性待定分词包括未登录分词和多词性分词。
多词性分词,是指具有多种词性的分词。以“训练”一词为例,既可以作为动词,如“教练训练小明打羽毛球”;又可以作为名词,如“教练带小明进行羽毛球训练”。
在本申请实施例中,未登录分词(OOV,Out of Vocabulary),是指分词集合中没有被字词典收录的分词。例如,“傻根”,是电影“天下无贼”的人名,但该词未被字词典收录,就是属于未登录分词。
可选地,作为一个实施例,步骤S120可实现为:如果所述词性待定分词为多词性分词,则将所述多词性分词的词性作为所述多词性分词的第一候选词性集合。
例如,对于“训练”来说,其第一候选词性集合为{名词,动词}。
可选地,作为一个实施例,步骤S120可实现为:
如果所述词性待定分词为未登录分词,则获取所述未登录分词在所述分词集合中已标注词性的近似词;
将所述已标注词性的近似词的词性集合作为所述未登录分词的第一候选词性集合。
例如,假设“傻根”一词的近似词为“傻帽”,而“傻帽”被标记为{名词,形容词},则可将集合1{名词,形容词}作为“傻根”一词的第一候选词性集合。
应理解,未登录分词可能有一个或多个已标注词性的近似词,可将这一个或多个近似词已标注的词性的合集,作为未登录分词的第一候选词性集合。
当然,应理解,获取所述未登录分词在所述分词集合中已标注词性的近似词,可以有多种实现方式。
可选地,作为一个实施例,获取所述未登录分词在所述分词集合中已标注词性的近似词,具体可实现为:
基于TF-IDF值确定所述未登录分词的候选近似词集合,所述候选近似词集合中的候选近似词的TF-IDF值与所述未登录分词的TF-IDF值的差值小于第一预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述未登录分词的候选近似词集合中的候选近似词,作为所述未登录分词在所述分词集合中已标注词性的近似词。
应理解,一个未登录分词的近似词,可能有一个或多个。在本申请实施例中,可以把这一个或多个近似词作为该未登录分词的候选近似词集合。
当然,应理解,在本申请实施例中,分词的TF-IDF值可以是基于预先训练的TF-IDF模型确定的,也可以是基于本申请的批量文本语料经过分词处理后的分词训练得到的。
可选地,作为另一个实施例,获取所述未登录分词在所述分词集合中已标注词性的近似词,具体可实现为:
基于词向量确定所述未登录分词的候选近似词集合,所述候选近似词集合中的候选近似词的词向量与所述未登录分词的词向量的差值小于第二预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述未登录分词的候选近似词集合中的候选近似词,作为所述未登录分词在所述分词集合中已标注词性的近似词。
与分词的TF-IDF值类似,分词的词向量可以是基于预先训练的词向量模型确定的,也可以是基于本申请的批量文本语料经过分词处理后的分词,再通过word2vec等算法训练得到的。
可选地,作为再一个实施例,获取所述未登录分词在所述分词集合中已标注词性的近似词,具体可实现为:
基于TF-IDF值确定所述未登录分词的第三候选近似词集合,所述第三候选近似词集合中的候选近似词的TF-IDF值与所述目标未登录分词的TF-IDF值的差值小于第一预设阈值,且所述第三候选近似词集合中的候选近似词在所述分词集合中已标注词性;
基于词向量确定目标未登录分词的第四候选近似词集合,所述第四候选近似词集合中的候选近似词的词向量与所述目标未登录分词的词向量的差值小于第二预设阈值,且所述第四候选近似词集合中的候选近似词在所述分词集合中已标注词性;
将所述第三候选近似词集合与所述第四候选近似词集合的交集中的候选近似词,作为所述未登录分词在所述分词集合中已标注词性的近似词。
当然,应理解,本申请实施例中,上述确定近似词的特征还可以采用其它文本特征替换。例如,特征选择(IG),文档频率(DF),期望交叉熵(ECE),X方,文档互信息(MI),文档证据权重(WET),OI,相关系数(CC)等等。
此外,对于第三种方式,第一候选近似词集合的选择也不限于两种不同特征确定的候选近似词集合的交集,还可以是更多种不同特征确定的候选近似词集合的交集。
S130,基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型。
由于单词性分词的词性是固定的,因此,对于已标注的单词性分词构成的文本序列来说,该文本序列可以作为词性标注模型的输入,已经标注的词性可以作为词性标注模型的标签,从而可对词性标注模型进行训练,且不需要进行人工标注词性。
例如,“她不是好人”这句话中,“她”、“不是”、“好人”都是单词性词,可以用于训练词性标注模型。
当然,应理解,如果一个词有多种不同含义,但其含义都是同一个词性,那也视为一个词性,可用于训练词性标注模型。
例如,“她不是好东西”、“烂苹果不是好东西”这两句话中,“好东西”的含义不同,但都是名词,可以用于训练词性标注模型。
S140,基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合。
在得到基于单词性分词训练的词性标注模型后,即可根据该词性标注模型,对词性待定分词在对应的文本语料中的词性进行预测。
例如,“傻根”一词为未登录词,对应的文本语料“傻根不是好东西”经过词性标注模型预测,可得到“傻根”的第二候选词性集合为集合2{代词,名词}。
S150,基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
应理解,本申请实施例中,目标词性待定分词及对应的文本语料,可以是前述步骤S110中出现的文本语料,也可以是新的待标注的文本语料。对于后者,可基于步骤S110进行初步标注,再经过步骤S120获取词性待定词的第一候选词性集合。
具体地,在本申请实施例中,步骤S150可实现为:将所述目标词性待定分词的第一候选词性集合和第二候选词性集合的交集中的词性,作为所述目标词性待定分词在所述对应的文本语料中的词性。
例如,基于“傻根”的第一候选词性集合{名词,形容词}和第二候选词性集合{代词,名词},可确定“傻根”的词性为{名词}。
本申请实施例中,通过基于字词典对批量文本语料分词处理后的分词集合进行词性标注,并基于单词性词进行词性标注模型的训练,再通过词性标注模型对词性待定词进行预测,然后基于词性待定词的预测词性集合和词性待定词基于字词典标注的词性标注集合的交集确定词性待定词的词性,从而完成对批量文本语料的分词标注,大大地减少了人工标注所需的成本,也减少了人工标注错误带来的词性标注质量问题,从而能够减少词性标注成本,提高词性标注质量。
当然,应理解,经过前述步骤S150处理后的目标词性待定分词的词性集合中,也可能不存在匹配的词性,或者匹配的词性大于1个。此时,还可对所述目标词性待定分词在所述对应的文本语料中的词性进行人工标注。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成词性标注装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
上述如本申请图1所示实施例揭示的词性标注装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现词性标注装置在图1所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
图3是本申请的一个实施例词性标注装置的结构示意图。请参考图3,在一种软件实施方式中,词性标注装置300可包括:
词性标注模块310,基于字词典对批量文本语料经过分词处理后的分词集合进行词性标注;
获取模块320,获取所述分词集合中词性待定分词的第一候选词性集合;
训练模块330,基于所述批量文本语料中已标注的单词性分词构成的文本序列,按照分词序列特征和已标注的分词词性进行词性标注训练,以得到词性标注模型;
预测模块340,基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
确定模块350,基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性。
本申请实施例中,通过基于字词典对批量文本语料分词处理后的分词集合进行词性标注,并基于单词性词进行词性标注模型的训练,再通过词性标注模型对词性待定词进行预测,然后基于词性待定词的预测词性集合和词性待定词基于字词典标注的词性标注集合的交集确定词性待定词的词性,从而完成对批量文本语料的分词标注,大大地减少了人工标注所需的成本,也减少了人工标注错误带来的词性标注质量问题,从而能够减少词性标注成本,提高词性标注质量。
可选地,作为一个实施例,获取模块320具体用于:
如果所述词性待定分词为多词性分词,则将所述词性待定分词的词性作为所述多词性分词的第一候选词性集合。
或者,可选地,作为另一个实施例,获取模块320具体用于:
如果所述词性待定分词为未登录分词,则获取所述词性待定分词在所述分词集合中已标注词性的近似词;
将所述已标注词性的近似词的词性集合作为所述词性待定分词的第一候选词性集合。
进一步地,在本实施例的一种实现方式中,获取模块320具体还用于:
基于TF-IDF值确定所述词性待定分词的候选近似词集合,所述候选近似词集合中的候选近似词的TF-IDF值与所述词性待定分词的TF-IDF值的差值小于第一预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述词性待定分词的候选近似词集合中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
或者,进一步地,在本实施例的另一种实现方式中,获取模块320具体还用于:
基于词向量确定所述词性待定分词的候选近似词集合,所述候选近似词集合中的候选近似词的词向量与所述词性待定分词的词向量的差值小于第二预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述词性待定分词的候选近似词集合中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
或者,进一步地,在本实施例的再一种实现方式中,获取模块320具体还用于:
基于TF-IDF值确定所述词性待定分词的第三候选近似词集合,所述第三候选近似词集合中的候选近似词的TF-IDF值与所述目标词性待定分词的TF-IDF值的差值小于第一预设阈值,且所述第三候选近似词集合中的候选近似词在所述分词集合中已标注词性;
基于词向量确定目标词性待定分词的第四候选近似词集合,所述第四候选近似词集合中的候选近似词的词向量与所述目标词性待定分词的词向量的差值小于第二预设阈值,且所述第四候选近似词集合中的候选近似词在所述分词集合中已标注词性;
将所述第三候选近似词集合与所述第四候选近似词集合的交集中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
可选地,确定模型350具体用于:
将所述目标词性待定分词的第一候选词性集合和第二候选词性集合的交集中的词性,作为所述目标词性待定分词在所述对应的文本语料中的词性。
可选地,所述词性标注装置300还可包括人工标注模块,如果所述交集中的词性个数为0或大于1个,对所述目标词性待定分词在所述对应的文本语料中的词性进行人工标注。
所述词性标注装置300还可执行图1的方法,并实现词性标注装置在图1所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (11)

1.一种词性标注方法,包括:
基于字词典对批量文本语料经过分词处理后的分词集合进行初步词性标注,所述分词集合包括单词性分词和多词性分词;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,以所述文本序列对应的分词序列特征为样本、以已标注的单词性分词的词性为标签进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合的交集,确定所述目标词性待定分词在所述对应的文本语料中的词性,所述目标词性待定分词的第一候选词性集合通过所述初步词性标注后获取得到。
2.如权利要求1所述的方法,
获取所述分词集合中词性待定分词的第一候选词性集合,包括:
如果所述词性待定分词为多词性分词,则将所述词性待定分词的词性作为所述多词性分词的第一候选词性集合。
3.如权利要求1所述的方法,
获取所述分词集合中词性待定分词的第一候选词性集合,包括:
如果所述词性待定分词为未登录分词,则获取所述词性待定分词在所述分词集合中已标注词性的近似词;
将所述已标注词性的近似词的词性集合作为所述词性待定分词的第一候选词性集合。
4.如权利要求3所述的方法,
获取所述词性待定分词在所述分词集合中已标注词性的近似词,包括:
基于TF-IDF值确定所述词性待定分词的候选近似词集合,所述候选近似词集合中的候选近似词的TF-IDF值与所述词性待定分词的TF-IDF值的差值小于第一预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述词性待定分词的候选近似词集合中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
5.如权利要求3所述的方法,
获取所述词性待定分词在所述分词集合中已标注词性的近似词,包括:
基于词向量确定所述词性待定分词的候选近似词集合,所述候选近似词集合中的候选近似词的词向量与所述词性待定分词的词向量的差值小于第二预设阈值,且所述候选近似词在所述分词集合中已标注词性;
将所述词性待定分词的候选近似词集合中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
6.如权利要求3所述的方法,
获取所述词性待定分词在所述分词集合中已标注词性的近似词,包括:
基于TF-IDF值确定所述词性待定分词的第三候选近似词集合,所述第三候选近似词集合中的候选近似词的TF-IDF值与所述目标词性待定分词的TF-IDF值的差值小于第一预设阈值,且所述第三候选近似词集合中的候选近似词在所述分词集合中已标注词性;
基于词向量确定目标词性待定分词的第四候选近似词集合,所述第四候选近似词集合中的候选近似词的词向量与所述目标词性待定分词的词向量的差值小于第二预设阈值,且所述第四候选近似词集合中的候选近似词在所述分词集合中已标注词性;
将所述第三候选近似词集合与所述第四候选近似词集合的交集中的候选近似词,作为所述词性待定分词在所述分词集合中已标注词性的近似词。
7.如权利要求1所述的方法,
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合,确定所述目标词性待定分词在所述对应的文本语料中的词性,包括:
将所述目标词性待定分词的第一候选词性集合和第二候选词性集合的交集中的词性,作为所述目标词性待定分词在所述对应的文本语料中的词性。
8.如权利要求7所述的方法,
如果所述交集中的词性个数为0或大于1个,所述方法还包括:
对所述目标词性待定分词在所述对应的文本语料中的词性进行人工标注。
9.一种词性标注装置,包括:
词性标注模块,基于字词典对批量文本语料经过分词处理后的分词集合进行初步词性标注,所述分词集合包括单词性分词和多词性分词;
获取模块,获取所述分词集合中词性待定分词的第一候选词性集合;
训练模块,基于所述批量文本语料中已标注的单词性分词构成的文本序列,以所述文本序列对应的分词序列特征为样本、以已标注的单词性分词的词性为标签进行词性标注训练,以得到词性标注模型;
预测模块,基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
确定模块,基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合的交集,确定所述目标词性待定分词在所述对应的文本语料中的词性,所述目标词性待定分词的第一候选词性集合通过所述初步词性标注后获取得到。
10.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行初步词性标注,所述分词集合包括单词性分词和多词性分词;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,以所述文本序列对应的分词序列特征为样本、以已标注的单词性分词的词性为标签进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合的交集,确定所述目标词性待定分词在所述对应的文本语料中的词性,所述目标词性待定分词的第一候选词性集合通过所述初步词性标注后获取得到。
11.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于字词典对批量文本语料经过分词处理后的分词集合进行初步词性标注,所述分词集合包括单词性分词和多词性分词;
获取所述分词集合中词性待定分词的第一候选词性集合;
基于所述批量文本语料中已标注的单词性分词构成的文本序列,以所述文本序列对应的分词序列特征为样本、以已标注的单词性分词的词性为标签进行词性标注训练,以得到词性标注模型;
基于所述词性标注模型,预测目标词性待定分词在对应的文本语料中的词性构成的第二候选词性集合;
基于所述目标词性待定分词在对应的文本语料中的第二候选词性集合,以及所述目标词性待定分词的第一候选词性集合的交集,确定所述目标词性待定分词在所述对应的文本语料中的词性,所述目标词性待定分词的第一候选词性集合通过所述初步词性标注后获取得到。
CN201811159565.9A 2018-09-30 2018-09-30 词性标注方法、装置和电子设备 Active CN109344406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811159565.9A CN109344406B (zh) 2018-09-30 2018-09-30 词性标注方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811159565.9A CN109344406B (zh) 2018-09-30 2018-09-30 词性标注方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN109344406A CN109344406A (zh) 2019-02-15
CN109344406B true CN109344406B (zh) 2023-06-20

Family

ID=65307581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811159565.9A Active CN109344406B (zh) 2018-09-30 2018-09-30 词性标注方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN109344406B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN110134945B (zh) * 2019-04-15 2024-04-23 平安科技(深圳)有限公司 习题考点识别方法、装置、设备和存储介质
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN113221550B (zh) * 2020-02-06 2023-09-29 百度在线网络技术(北京)有限公司 文本过滤方法、装置、设备和介质
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质
CN113609850B (zh) * 2021-07-02 2024-05-17 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质
CN117034911B (zh) * 2023-09-28 2023-12-22 通用技术集团健康数字科技(北京)有限公司 医院诊断词典的校正方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536951B (zh) * 2014-12-29 2017-04-12 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博文本规范化及分词和词性标注的方法及系统
CN105955955B (zh) * 2016-05-05 2018-08-28 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN106202035B (zh) * 2016-06-30 2019-07-05 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CN107894977A (zh) * 2017-11-01 2018-04-10 昆明理工大学 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于表示学习的情感分析研究;厉小军 等;《北京大学学报(自然科学版)》;第55卷(第1期);105-112 *

Also Published As

Publication number Publication date
CN109344406A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344406B (zh) 词性标注方法、装置和电子设备
CN109388801B (zh) 相似词集合的确定方法、装置和电子设备
CN107402945B (zh) 词库生成方法及装置、短文本检测方法及装置
US20170039185A1 (en) Method and system for applying role based association to entities in textual documents
CN107368489B (zh) 一种资讯数据处理方法及装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN113221555A (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN110969018A (zh) 案情描述要素提取方法、机器学习模型获得方法及装置
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113222022A (zh) 一种网页分类识别方法及装置
CN113887235A (zh) 一种信息推荐的方法及装置
CN113887206A (zh) 一种模型训练及关键词提取方法及装置
CN110427492B (zh) 生成关键词库的方法、装置和电子设备
CN111950265A (zh) 一种领域词库构建方法和装置
CN116467523A (zh) 新闻推荐方法、装置、电子设备及计算机可读存储介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN112784594B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN113887234A (zh) 一种模型训练以及推荐方法及装置
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN110968691B (zh) 司法热点确定方法及装置
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
US10776587B2 (en) Claim generation
CN111061869A (zh) 一种基于TextRank的应用偏好文本分类方法
CN112101308B (zh) 一种基于语言模型的文本框的合并方法、装置及电子设备
CN116484856B (zh) 一种文本的关键词提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant