CN111832297A - 词性标注方法、装置及计算机可读存储介质 - Google Patents

词性标注方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111832297A
CN111832297A CN202010544136.4A CN202010544136A CN111832297A CN 111832297 A CN111832297 A CN 111832297A CN 202010544136 A CN202010544136 A CN 202010544136A CN 111832297 A CN111832297 A CN 111832297A
Authority
CN
China
Prior art keywords
speech
participle
target
sequence
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010544136.4A
Other languages
English (en)
Inventor
胡羽蓝
史亮
郭元凯
孟二利
王斌
王颖哲
王铄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010544136.4A priority Critical patent/CN111832297A/zh
Publication of CN111832297A publication Critical patent/CN111832297A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种词性标注方法、装置及计算机可读存储介质,所述方法包括:获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。因此,可以对多语言文本中的各个分词进行统一表示,提高词性标注结果的准确性,降低训练多种语言下的词性标注模型所需的工作量,并且,为后续的语言处理过程提供准确的数据支持。

Description

词性标注方法、装置及计算机可读存储介质
技术领域
本公开涉及自然语言处理领域,尤其涉及词性标注方法、装置及计算机可读存储介质。
背景技术
在中文自然语言处理过程中,词性标注是一项基本任务,是指为分词结果中的每个分词标注一个正确的词性,从而便于对语句进行句法分析、知识图谱构建等。然而,当待处理文本中存在其他语言的文本时,采用单一中文的词性标注模型就难以对该待处理文本中的分词的词性进行准确标注。
相关技术中,在进行多语言文本的词性标注时,通常是针对其他语言下的常用分词,可以维护一个“分词-词性”的映射表,从而可以在对其他语言的文本进行分词标注时,基于该映射表对该分词进行词性标注。或者是基于对抗训练的思想,在词性标注模型中增加对抗训练,从而实现对多语言文本中分词的词性标注。但是通过上述方式,若新的分词出现,会大大增加维护映射表的工作量;在基于词性标注模型进行标注时,会为该对该分词随机初始化一词向量,基于该词向量对该分词进行词性标注,对新的分词的标注结果的准确性不足。
发明内容
为克服相关技术中存在的问题,本公开提供一种词性标注方法、装置及计算机可读存储介质。
根据本公开实施例的第一方面,提供一种词性标注方法,包括:
获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
可选地,所述根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性,包括:
根据所述语句中位于所述目标分词之前的每一在先分词的词性、以及每一所述在先分词在所述语句中的出现顺序,获得词性序列;
确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息;
根据所述句法准确性度量信息,确定所述目标分词的词性。
可选地,所述确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息,包括:
将所述新词性序列输入至序列标注模型,获得所述序列标注模型输出的在所述多种词性的每一种词性下的所述句法准确性度量信息。
可选地,所述序列标注模型通过如下方式获得:
获取训练语句和所述训练语句的句法准确性度量信息;
根据所述训练语句中每一分词的词性、以及每一所述分词在所述训练语句中的出现顺序,获得所述训练语句的词性序列;
将所述训练语句的词性序列作为模型输入参数,所述训练语句的句法准确性度量信息作为模型输出参数,对预设模型进行训练,以获得所述序列标注模型。
可选地,所述根据所述句法准确性度量信息,确定所述目标分词的词性,包括:
将与最小的句法准确性度量信息对应的假定词性确定为所述目标分词的词性。
可选地,所述获取多语言文本中的各个分词对应的标准词向量,包括:
针对所述多语言文本中的每一分词,将所述分词输入与所述分词的语种对应的词向量模型,获得所述分词的初始词向量;
将每一所述分词的初始词向量分别映射至目标向量空间,获得每一所述分词对应的标准词向量。
可选地,所述针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性,包括:
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,在所述目标分词对应的语种为非中文语种的情况下,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
根据本公开实施例的第二方面,提供一种词性标注装置,所述装置包括:
获取模块,被配置为获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
标注模块,被配置为通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
确定模块,被配置为针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
可选地,所述确定模块包括:
处理子模块,被配置为根据所述语句中位于所述目标分词之前的每一在先分词的词性、以及每一所述在先分词在所述语句中的出现顺序,获得词性序列;
第一确定子模块,被配置为确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息;
第二确定子模块,被配置为根据所述句法准确性度量信息,确定所述目标分词的词性。
可选地,所述第一确定子模块包括:
第一输入子模块,被配置为将所述新词性序列输入至序列标注模型,获得所述序列标注模型输出的在所述多种词性的每一种词性下的所述句法准确性度量信息。
可选地,所述序列标注模型通过如下方式获得:
获取训练语句和所述训练语句的句法准确性度量信息;
根据所述训练语句中每一分词的词性、以及每一所述分词在所述训练语句中的出现顺序,获得所述训练语句的词性序列;
将所述训练语句的词性序列作为模型输入参数,所述训练语句的句法准确性度量信息作为模型输出参数,对预设模型进行训练,以获得所述序列标注模型。
可选地,所述第二确定子模块被配置为:
将与最小的句法准确性度量信息对应的假定词性确定为所述目标分词的词性。
可选地,所述获取模块包括:
第二输入子模块,被配置为针对所述多语言文本中的每一分词,将所述分词输入与所述分词的语种对应的词向量模型,获得所述分词的初始词向量;
映射子模块,被配置为将每一所述分词的初始词向量分别映射至目标向量空间,获得每一所述分词对应的标准词向量。
可选地,所述确定模块被配置为:
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,在所述目标分词对应的语种为非中文语种的情况下,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
根据本公开实施例的第三方面,提供一种词性标注装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述第一方面任一所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
在上述技术方案中,获取多语言文本中的各个分词对应的标准词向量,通过词性标注模型获得每一所述分词的词性标注结果,该词性标注结果中包括所述分词对应的词性和在所述词性下的置信度,并针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。通过上述技术方案,可以对多语言文本中的各个分词进行统一表示,便于对多语言文本中的每一分词基于统一的词性标注模型进行标注,既可以提高词性标注结果的准确性,又可以有效降低训练多种语言下的词性标注模型所需的工作量。并且,可以对分词的词性标注结果进行判断,并在其置信度不满足置信度要求时,基于该分词所属语句中的分词词性对该分词的词性进行标注,避免相关技术中对新的分词直接基于词性标注模型进行标注可能出现标注不准确的问题,可以进一步提高分词词性标注的准确性,为后续的语言处理过程提供准确的数据支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种词性标注方法的流程图。
图2是根据一示例性实施例示出的根据目标分词所属语句中位于目标分词之前的在先分词的词性,确定目标分词的词性的示例性实现方式的流程图。
图3是根据一示例性实施例示出的一种词性标注装置的框图。
图4是根据一示例性实施例示出的一种词性标注装置的框图。
图5是根据一示例性实施例示出的一种词性标注装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
如背景技术中所述,在对多语言文本的分词进行词性标注时,针对新出现的分词,需要将该新的分词和其对应的词性添加至映射表中维护,这样便会大大增加维护映射表所需的工作量,并且在一个分词具有多个词性的情况下,基于映射表的方式更难以对该类分词进行词性标注。而在基于词性标注模型对分词进行词性标注时,由于新出现的分词采用随机初始词向量的方式,对于各个分词采用同样的处理方式,会存在过度依赖词向量的问题,难以保证该分词词性标注的准确性。基于此,本公开提供以下实施例,以解决上述问题。
图1是根据一示例性实施例示出的一种词性标注方法的流程图,如图1所示,包括以下步骤。
在步骤11中,获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量。
其中,多语言文本为包含多个语种的文字的文本,例如,在一句话中夹杂多种语言的文本。其中,在本公开的技术方案中,标准词向量为分词在目标向量空间下的词向量,因此可以通过确定多语言文本中的各个分词对应的标准词向量,将多个语种下的文本的词向量采用同一标准进行统一地表示,为后续对该多语言文本中的每一分词进行统一处理提供基础。
在步骤12中,通过词性标注模型获得每一分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度。
作为示例,所述词性标注模型可以为基于BiLSTM和CRF(conditional randomfield,条件随机场)进行训练的模型,其中,BiLSTM(Bi-directional Long Short-TermMemory)是由前向LSTM与后向LSTM组合而成的,LSTM(Long Short-Term Memory,长短期记忆神经网络)是一种时间循环神经网络。其中,通过BiLSTM和CRF获得词性标注模型的方式为本领域的常用技术,在此不再赘述。其中,在本公开中多语言文本的分词的词向量均为在目标向量空间下的词向量,因此,在训练词性标注模型时,可以直接基于中文训练文本进行训练,即获得中文训练文本中的每一分词对应的标准词向量,从而基于该中文训练文本中每一分词对应的标准词向量和该分词对应的词性,对词性标注模型进行训练,既可以降低对训练文本的要求,又可以拓宽词性标注模型的使用范围。
其中,通过词性标注模型可以确定每一分词在词性库中的多种词性下对应的置信度,进而可以将最大置信度对应的词性和该置信度作为词性标注结果进行输出。通过上述词性标注模型输出的词性标注结果中所述分词对应的词性即为最大置信度对应的词性。
在步骤13中,针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据目标分词所属语句中位于目标分词之前的在先分词的词性,确定目标分词的词性。
相关技术中,在针对之前未出现过的分词通过词性标注模型进行标注时,可以对该分词随机初始化一词向量,从而基于该词向量对该分词进行词性标注,并将词性标注结果中的词性确定为该分词的词性,此时对该分词的词性标注结果的准确度会过分依赖于该词向量的准确性,该分词词性标注的准确性难以保证。
在本公开实施例中,在获得词性标注结果后,可以对该词性标注结果中的置信度进行判断,示例地,可以根据实际使用场景对置信度要求进行设置。例如,置信度要求可以设置为置信度大于0.8,若确定出的分词A的词性标注结果中的词性为名词、置信度为0.85,此时可以确定该分词A的词性标注结果中置信度满足置信度要求,此时可以将该词性标注结果中的词性确定为该分词A的词性,即分词A对应的词性为名词。
若确定出的分词B的词性标注结果中的词性为动词、置信度为0.4,此时该分词B的词性标注结果中的置信度不满足置信度要求,表示将分词B标注成动词是不准确的。申请人通过研究发现,分词的词性不仅与该分词本身相关,也与该分词在语句中所处的位置有关。因此这种情况下,可以根据该分词B所属语句中位于分词B之前的在先分词的词性,确定分词B的词性,即通过分词B所属语句中的其他分词的词性对分词B的词性进行校正,而非仅是基于分词B本身的词向量确定该分词的词性。
在上述技术方案中,获取多语言文本中的各个分词对应的标准词向量,通过词性标注模型获得每一所述分词的词性标注结果,该词性标注结果中包括所述分词对应的词性和在所述词性下的置信度,并针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。通过上述技术方案,可以对多语言文本中的各个分词进行统一表示,便于对多语言文本中的每一分词基于统一的词性标注模型进行标注,既可以提高词性标注结果的准确性,又可以有效降低训练多种语言下的词性标注模型所需的工作量。并且,可以对分词的词性标注结果进行判断,并在其置信度不满足置信度要求时,基于该分词所属语句中的分词词性对该分词的词性进行标注,避免相关技术中对新的分词直接基于词性标注模型进行标注可能出现标注不准确的问题,可以进一步提高分词词性标注的准确性,为后续的语言处理过程提供准确的数据支持。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。
可选地,所述获取多语言文本中的各个分词对应的标准词向量的示例性实现方式如下,该步骤可以包括:
针对所述多语言文本中的每一分词,将所述分词输入与所述分词的语种对应的词向量模型,获得所述分词的初始词向量。
其中,可以基于词向量训练方法Word2vec分别训练各个语种对应的词向量模型,从而获得分词的向量(Embedding)表示。示例地,可以基于大量的中文语料训练获得中文对应的词向量模型,基于大量的英文语料训练获得英文对应的词向量模型。以“你学习下我的method”为例,该多语言文本对应的分词依次是{你,学习,下,我,的,method},则可以将分词“学习”输入中文对应的词向量模型,获得分词“学习”的初始词向量V1,将分词“method”输入英文对应的词向量模型,获得分词“method”的初始词向量V2,其他分词的初始词向量的获取方式与上文所述类似,在此不再赘述。
之后,可以将每一所述分词的初始词向量分别映射至目标向量空间,获得每一所述分词对应的标准词向量。
示例地,可以基于无监督的自学习方法,将上文所获得的每一分词的初始词向量映射至目标向量空间,以使其在目标向量空间中服从相同的分布,将每一分词在该目标向量空间下的向量表示作为其对应的标准词向量,实现对不同语种的分词的词向量的统一化表示。需要进行说明的是,在实际使用场景中可能在一句话中夹杂多种语言,如中文、英文、韩语等,其均可以通过上述方式获得分词对应的标准词向量,从而可以基于后续步骤对该分词的词性进行准确标注。
通过上述技术方案,可以将不同语种下的分词的词向量进行统一的表示,以有效避免对应于不同语种的分词的向量表示分布不一致的问题,便于对多语言文本中的每一分词进行统一的处理,有效简化分词词性标注的过程,并且可以提高词性标注的准确率和效率。
可选地,所述根据目标分词所属语句中位于目标分词之前的在先分词的词性,确定目标分词的词性的示例性实现方式如下,如图2所示,该步骤可以包括:
在步骤21中,根据语句中位于目标分词之前的每一在先分词的词性、以及每一在先分词在语句中的出现顺序,获得词性序列。
其中,在获得每一分词的词性标注结果时,可以根据该分词在语句中的出现顺序对该词性标注结果进行置信判定,因此,在确定目标分词的置信度不满足置信度要求时,该目标分词之前的分词的词性已经准确确定出。以下,以“你学习下我的method”为例,示例地,若分词method的词性标注结果中的置信度不满足置信度要求,即该分词“method”为该目标分词,则其对应的在先分词的词性和在线分词的出现顺序分别是:
你:代词,r;
学习:动词,v;
下:副词,d;
我:代词,r;的:助词,u。
因此,可以按照每一在先分词在语句中的出现顺序对其词性进行合并,获得词性序列,上述在先分词对应的词性序列为(r,v,d,r,u)。
在步骤22中,确定将多种词性逐一作为所述目标分词的假定词性,并将目标分词的假定词性加到词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息。
示例地,可以将词性库中的每一词性逐一作为目标分词的假定词性,从而获得在每一词性的新词性序列对应的句法准确性度量信息。例如,可以将随机将词性库中的一个词性作为该目标分词的假定词性,如将名词n作为该目标分词的假定词性,则在添加该目标名词后获得的新词性序列为(r,v,d,r,u,n),之后可以确定该新词性序列(r,v,d,r,u,n)对应的句法准确性度量信息。之后,重新确定该目标分词的假定词性,如形容词a,此时获得的新词性序列为(r,v,d,r,u,a),同样地,可以确定该新词性序列(r,v,d,r,u,a)对应的句法准确性度量信息。因此,通过上述过程则可以确定出目标分词在每一假定词性下所生成的新词性序列,进而确定出新词性序列对应的句法准确性度量信息。
可选地,所述确定将多种词性逐一作为目标分词的假定词性,并将目标分词的假定词性加到词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息的示例性实现方式如下,该步骤可以包括:
将所述新词性序列输入至序列标注模型,获得所述序列标注模型输出的在所述多种词性的每一种词性下的所述句法准确性度量信息。
其中,该序列标注模型可以为bi-gram语言模型,所述序列标注模型可以通过如下方式获得:
获取训练语句和所述训练语句的句法准确性度量信息。其中,为便于获得训练语料和降低训练数据量,可以只基于中文语料获得该训练语句。其中,该训练语句中的每一分词的词性都进行准确标注,并且对该句法准确性度量信息进行人工标注。其中该句法准确性度量信息可以是PPL(Perplexity)困惑度参数,该参数可以用于评价语言模型,该PPL参数越小,表示该语言模型的准确度越高,该词性序列形成为语句的概率越大,即该词性序列形成的语句的句法准确性更高。其中PPL参数的计算方式为现有技术,在此不再赘述。
之后,根据所述训练语句中每一分词的词性、以及每一所述分词在所述训练语句中的出现顺序,获得所述训练语句的词性序列。示例地,可以将训练语句中的每一分词的标注词性提取出来,基于该分词的在训练语句中的出现顺序,将提取出的每一分词的词性进行合并获得该训练语句的词性序列,其中,具体的合并方式已在上文进行详述。
将所述训练语句的词性序列作为模型输入参数,所述训练语句的句法准确性度量信息作为模型输出参数,对预设模型进行训练,以获得所述序列标注模型。其中,该预设模型可以为bi-gram语言模型,可以基于现有的语言模型的训练方式对该bi-gram模型进行训练,从而获得该序列标注模型。
在本公开中实施例中,通过训练语句的词性序列对序列标注模型进行训练,从而可以使得该序列标注模型基于分词的词性特征对形成的语句的句法准确性进行判断,而无关于分词本身的词语内容。因此,通过上述技术方案可以通过序列标注模型对输入的分词序列所形成的语句的句法准确性进行有效判断,从而可以基于语句的句法对语句中分词的词性进行判定,进一步提高词性标注的准确性。
转回图2,在步骤23中,根据句法准确性度量信息,确定目标分词的词性。
示例地,由上文所述可知,该句法准确性度量信息的参数值越小,表示该新词性序列形成为语句的句法越准确,因此,可以将与最小的句法准确性度量信息对应的假定词性确定为所述目标分词的词性。
接上述示例,若根据新词性序列(r,v,d,r,u,n)确定出的句法准确性度量信息为PPL1,根据新词性序列(r,v,d,r,u,a)确定出的句法准确性度量为PPL2,其中PPL1小于PPL2,PPL1为该目标分词在多个假定词性下对应的多个句法准确性度量信息的最小值,此时,可以将该PPL1对应的假定词性确定该目标分词的词性,即将名词n确定为目标分词method的词性。
通过上述技术方案,可以基于在目标分词所属的语句中的在先分词的词性对该目标分词的词性进行标注,通过序列标注模型确定语句的流畅度和句法准确性,从而可以基于分词形成的语句的句法特征对目标分词的词性进行校正,从而提高分词标注结果的准确率,并且可以保证词性标注后语句的句法准确性,为下游的自然语言处理过程提供准确地数据支持。
可选地,所述针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性,包括:
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,在所述目标分词对应的语种为非中文语种的情况下,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
其中,如上文所述,该词性标注模型可以直接基于中文语料进行训练,因此针对对应于中文语种的分词其输出的词性标注结果是相对准确的,基于此,在本公开中,可以无需对对应于中文语种的分词的词性标注结果进行校正,即在分词对应的语种为中文时,可以直接将该分词对应的词性标注结果中的词性确定为该分词的词性,从而可以提高分词标注的效率。
在分词对应的语种的非中文(如英文、韩语)时,则需要对该分词的词性标注结果中的置信度进行校验,以确定该置信度是否满足置信度要求,在该分词的置信度满足置信度要求时,表示该分词的词性标注结果是可相信的,即该词性标注结果是准确的,此时可以将该词性标注结果中的词性确定为该分词的词性;在该分词的置信度不满足置信度要求时,表示词性标注模型输出的词性标注结果为不可信的,即词性标注结果不一定是准确的,此时可以对该分词进行下一步处理,即根据目标分词所属语句中位于目标分词之前的在先分词的词性,确定目标分词的词性,从而保证每一分词的词性标注的准确性。由此,通过上述技术方案,只需要对非中文语种下的分词在词性标注模型输出的词性标注结果进行校验,可以在一定程度上降低词性标注的工作量,提高分词标注的效率,同时也可以有效保证词性标注结果的准确性,提升用户使用体验。
图3是根据一示例性实施例示出的一种词性标注装置的框图。参照图3,该装置100包括获取模块101,标注模块102和确定模块103。
获取模块101,被配置为获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
标注模块102,被配置为通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
确定模块103,被配置为针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
可选地,所述确定模块103包括:
处理子模块,被配置为根据所述语句中位于所述目标分词之前的每一在先分词的词性、以及每一所述在先分词在所述语句中的出现顺序,获得词性序列;
第一确定子模块,被配置为确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息;
第二确定子模块,被配置为根据所述句法准确性度量信息,确定所述目标分词的词性。
可选地,所述第一确定子模块包括:
第一输入子模块,被配置为将所述新词性序列输入至序列标注模型,获得所述序列标注模型输出的在所述多种词性的每一种词性下的所述句法准确性度量信息。
可选地,所述序列标注模型通过如下方式获得:
获取训练语句和所述训练语句的句法准确性度量信息;
根据所述训练语句中每一分词的词性、以及每一所述分词在所述训练语句中的出现顺序,获得所述训练语句的词性序列;
将所述训练语句的词性序列作为模型输入参数,所述训练语句的句法准确性度量信息作为模型输出参数,对预设模型进行训练,以获得所述序列标注模型。
可选地,所述第二确定子模块被配置为:
将与最小的句法准确性度量信息对应的假定词性确定为所述目标分词的词性。
可选地,所述获取模块101包括:
第二输入子模块,被配置为针对所述多语言文本中的每一分词,将所述分词输入与所述分词的语种对应的词向量模型,获得所述分词的初始词向量;
映射子模块,被配置为将每一所述分词的初始词向量分别映射至目标向量空间,获得每一所述分词对应的标准词向量。
可选地,所述确定模块103被配置为:
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,在所述目标分词对应的语种为非中文语种的情况下,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的词性标注方法的步骤。
图4是根据一示例性实施例示出的一种词性标注装置400的框图。例如,装置400可以是计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的词性标注方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述词性标注方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述词性标注方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的词性标注方法的代码部分。
图5是根据一示例性实施例示出的一种词性标注装置500的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述词性标注方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种词性标注方法,其特征在于,包括:
获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性,包括:
根据所述语句中位于所述目标分词之前的每一在先分词的词性、以及每一所述在先分词在所述语句中的出现顺序,获得词性序列;
确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息;
根据所述句法准确性度量信息,确定所述目标分词的词性。
3.根据权利要求2所述的方法,其特征在于,所述确定将多种词性逐一作为所述目标分词的假定词性,并将所述目标分词的假定词性加到所述词性序列的尾部后,所得的新词性序列对应的句法准确性度量信息,包括:
将所述新词性序列输入至序列标注模型,获得所述序列标注模型输出的在所述多种词性的每一种词性下的所述句法准确性度量信息。
4.根据权利要求3所述的方法,其特征在于,所述序列标注模型通过如下方式获得:
获取训练语句和所述训练语句的句法准确性度量信息;
根据所述训练语句中每一分词的词性、以及每一所述分词在所述训练语句中的出现顺序,获得所述训练语句的词性序列;
将所述训练语句的词性序列作为模型输入参数,所述训练语句的句法准确性度量信息作为模型输出参数,对预设模型进行训练,以获得所述序列标注模型。
5.根据权利要求2所述的方法,其特征在于,所述根据所述句法准确性度量信息,确定所述目标分词的词性,包括:
将与最小的句法准确性度量信息对应的假定词性确定为所述目标分词的词性。
6.根据权利要求1所述的方法,其特征在于,所述获取多语言文本中的各个分词对应的标准词向量,包括:
针对所述多语言文本中的每一分词,将所述分词输入与所述分词的语种对应的词向量模型,获得所述分词的初始词向量;
将每一所述分词的初始词向量分别映射至目标向量空间,获得每一所述分词对应的标准词向量。
7.根据权利要求1所述的方法,其特征在于,所述针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性,包括:
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,在所述目标分词对应的语种为非中文语种的情况下,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
8.一种词性标注装置,其特征在于,所述装置包括:
获取模块,被配置为获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
标注模块,被配置为通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
确定模块,被配置为针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
9.一种词性标注装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多语言文本中的各个分词对应的标准词向量,所述标准词向量为分词在目标向量空间下的词向量;
通过词性标注模型获得每一所述分词的词性标注结果,其中,所述词性标注结果中包括所述分词对应的词性和在所述词性下的置信度;
针对其中置信度不满足置信度要求的词性标注结果所对应的目标分词,根据所述目标分词所属语句中位于所述目标分词之前的在先分词的词性,确定所述目标分词的词性。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN202010544136.4A 2020-06-15 2020-06-15 词性标注方法、装置及计算机可读存储介质 Pending CN111832297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010544136.4A CN111832297A (zh) 2020-06-15 2020-06-15 词性标注方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010544136.4A CN111832297A (zh) 2020-06-15 2020-06-15 词性标注方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111832297A true CN111832297A (zh) 2020-10-27

Family

ID=72897729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010544136.4A Pending CN111832297A (zh) 2020-06-15 2020-06-15 词性标注方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111832297A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111368541B (zh) 命名实体识别方法及装置
CN110941966A (zh) 机器翻译模型的训练方法、装置及系统
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN111898388A (zh) 视频字幕翻译编辑方法、装置、电子设备及存储介质
CN111369978B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN111831806A (zh) 语义完整性确定方法、装置、电子设备和存储介质
EP3734472A1 (en) Method and device for text processing
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN112528671A (zh) 语义分析方法、装置以及存储介质
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN111078884A (zh) 一种关键词提取方法、装置及介质
CN112035651B (zh) 语句补全方法、装置及计算机可读存储介质
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN113343720A (zh) 一种字幕翻译方法、装置和用于字幕翻译的装置
CN111324214B (zh) 一种语句纠错方法和装置
CN111414766B (zh) 一种翻译方法及装置
CN111079421A (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN116127062A (zh) 预训练语言模型的训练方法、文本情感分类方法及装置
CN110837741B (zh) 一种机器翻译方法、装置及系统
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN112149432A (zh) 篇章机器翻译方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination