CN111368526A - 一种序列标注方法和系统 - Google Patents

一种序列标注方法和系统 Download PDF

Info

Publication number
CN111368526A
CN111368526A CN202010138420.1A CN202010138420A CN111368526A CN 111368526 A CN111368526 A CN 111368526A CN 202010138420 A CN202010138420 A CN 202010138420A CN 111368526 A CN111368526 A CN 111368526A
Authority
CN
China
Prior art keywords
sequence
vector representation
vector
labeled
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010138420.1A
Other languages
English (en)
Other versions
CN111368526B (zh
Inventor
吴颖婷
姚开盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010138420.1A priority Critical patent/CN111368526B/zh
Publication of CN111368526A publication Critical patent/CN111368526A/zh
Application granted granted Critical
Publication of CN111368526B publication Critical patent/CN111368526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例公开了一种序列标注方法。包括:获取待标注序列的第一向量表示以及第二向量表示。第一向量表示可以反映待标注序列的文本信息,第二向量表示可以反映待标注序列的标注信息。可以基于第一向量表示与第二向量表示,获取对应于待标注序列的初始表示。可以将初始表示输入至标注模型,确定对应于待标注序列的目标标注结果;标注模型为机器学习模型。本说明书实施例公开的方法,可以提高模型的精确率和提高召回率,以及在进行序列标注时代入更多的语法和语义信息。

Description

一种序列标注方法和系统
技术领域
本说明书涉及计算机应用领域,特别涉及一种序列标注方法、系统、装置以及可读存储介质。
背景技术
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,序列标注作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。
目前,序列标注受限于文本的复杂性、需要提取的信息较多等问题,序列标注的效果并不太理想。因此,有必要提供一种序列标注方法,以提高序列标注的准确率。
发明内容
本说明书实施例的一个方面提供一种序列标注方法。所述序列标注方法包括:获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息。可以基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。可以将所述初始表示输入至标注模型,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。
本说明书实施例的另一个方面提供一种序列标注系统,所述序列标注系统包括:第一获取模块,可以用于获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息。第二获取模块,可以用于基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。确定模块,可以用于将所述初始表示输入至标注模型,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。
本说明书实施例的另一个方面提供一种序列标注装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现序列标注方法。
本说明书实施例的另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行序列标注方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的序列标注方法的示例性流程图;
图2是根据本说明书一些实施例所示的获取第二向量表示的示例性流程图;
图3是根据本说明书一些实施例所示的序列标注系统的模块图;
图4是根据本说明书一些实施例所示的标注模型的示例性网络结构图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
目前,自然语言处理被广泛应用于信息抽取、机器翻译、信息检索、自动回答、情感分析、自动文本摘要、社会计算等场景。例如,对于信息抽取的应用场景,通过自然语言处理可以将对话文本中的关键信息进行提取,比如对催收对话文本中包含的还款时间、用户归属地、舆情相关、催收施压手段、对话人关系、共债等信息进行抽取,来对催收对话文本进行分析,获取对话参与方的意图,进而优化催收策略来提高催收的回款率。
序列标注是信息抽取的一种实现手段,本质是对给定输入序列中的每个元素进行分类的问题,常应用于命名实体识别、词性标注、分词等。所述序列可以是自然语言中的句子、短语等文本。序列标注方法可以包括无监督的序列标注方法和有监督的序列标注方法。在一些实施例中,可以采用无监督的序列标注方法对序列进行标注。无监督的序列标注方法属于基于规则的序列标注方法,在关键信息抽取时,一般是对序列文本中的实体进行识别,可以采用正则表达式匹配等方式来进行信息抽取,无需进行训练,可以在一定程度上解决冷启动的问题,提高整体召回率。该方法虽然无需进行训练,可以快速得到结果,但是匹配规则的要求较高,例如,需要规则尽可能的覆盖所有样本,这需要编写规则的人熟悉序列文本所属的领域,并且看过大批量的数据。除此之外,规则只能做到匹配文本,无法考虑上下文的含义,因而无法避免会造成大量的误召回现象,以及规则一般只能针对某个特定领域,不能适用于所有领域的场景。在一些实施例中,可以采用有监督的序列标注方法对序列进行标注。有监督的序列标注方法包括基于端到端模型的序列标注方法,通过训练样本来对模型进行训练,进而利用训练好的模型处理序列,获得该序列的标注结果。而端到端模型依赖于标注样本的数量和质量,在训练样本不足的情况下,端到端模型的训练很难达到理想的效果。
因此,为了进一步提高序列标注的精确率和召回率,本说明书又一些实施例披露了一种能够融合端到端模型和规则的方法,结合有监督序列标注和无监督序列标注,可以有效地提高标注模型的精确率和召回率。以下结合对附图的描述,阐述本说明书披露的技术方案。
图1是根据本说明书一些实施例所示的序列标注方法的示例性流程图。在一些实施例中,流程100可以由处理设备执行。例如,流程100可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程100。又例如,流程100可以由处理设备上的序列标系统300实现。如图1所示,流程100可以包括以下步骤:
步骤102,获取待标注序列的第一向量表示以及第二向量表示。步骤102可以由第一获取模块310执行。
在一些实施例中,所述待标注序列可以是指按顺序排列的一串字词。例如,句子“我下午2点前处理”、“I will be back at once”等。组成所述待标注序列的最小单元,可以为单个字或词。对于表现为中文的待标注序列,单个汉字为所述待标注序列的最小单元。对于表现为外文的待标注序列,单个单词(例如,英文单词)为所述待标注序列的最小单元。每个最小单元在后续处理过程中将会被编码、识别、合并以及标注等处理。在一些实施例中,所述待标注序列可以通过外部输入、存储数据读取、调用相关接口或其他方式来获取。例如,对于外部输入,可以是通过处理设备自带的输入/输出端口进行的文字或语音输入。语音输入可以通过语音识别转换为文本。又例如,所述待标注序列可以预先存储在一个存储设备,比如云中,处理设备可以通过与该存储设备进行通信后读取存储于其中的待标注序列。再例如,所述待标注序列可以保存在数据库中,处理设备可以通过调用数据库的相关接口来获取待标注序列。
在一些实施例中,所述待标注序列的向量表示,可以是指用于表示所述待标注序列所包含的一种或多种信息(例如,文本信息、语义信息、上下文信息等)的一定维度的向量。第一获取模块310可以对所述待标注序列进行不同的向量化处理,以得到所述第一向量表示以及所述第二向量表示。
所述第一向量表示可以直接对待标注序列的内容向量化后得到。所采用的方式可以用多种。例如,可以使用词向量转换算法,比如随机初始化或加载预训练词向量等方法,获取所述第一向量表示。具体的,可以采用随机初始化的方式,为所述待标注序列指定一个随机向量作为所述第一向量表示。或者,可以使用Word2vec或Glove等模型处理所述待标注序列,获取对应于所述待标注序列的每个最小单元的词向量后进行拼接或叠加,得到所述第一向量表示。所述第一向量的获取是基于所述待标注序列本身所包含的内容确定的,因此第一向量表示可以反映待标注序列的文本信息。所述文本信息在一定程度上可以反映序列的语义。
所述第二向量表示可以基于规则(基于正则表达式)从待标注序列的内容中进行信息抽取,例如,可以基于不同的规则(例如,时间抽取规则、网络地址抽取规则,邮件地址抽取规则、身份证号抽取规则等)从待标注序列中提取出不同的信息(例如,时间、网络地址,邮件地址、身份证号码等)。然后可以对抽取得到的信息进行标注,标注可以是在待标注序列中添加与抽取规则相应的标签,例如,当按照时间抽取规则抽取得到时间信息后,可以在所述待标注序列的相应内容处添加时间标签。所述标签可以是预先约定好的字符,包括但不限于字母、数字等。可以对添加的标签的待标注序列进行向量化,得到第二向量表示,例如,可以使用转换算法(例如,one-hot等算法)对添加的标签进行向量化。因此第二向量表示可以反映待标注序列的标注信息。
在一些实施例中,可以利用机器学习模型将待标注序列转化为第一向量表示和第二向量表示。例如,可以利用序列样本作为训练数据训练第一模型,使得第一模型能够基于待标注序列输出其对应的第一向量表示。所述第一模型可以是Word2Vec、BERT模型等。关于通过机器学习模型获得第一向量表示和第二向量表示的相关说明可以参见文中其他地方的描述。
步骤104,基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。步骤104可以由第二获取模块320执行。
在一些实施例中,在获取了第一向量表示和第二向量表示之后,可以对第一向量表示和第二向量表示进行处理,以此来获取对应于所述待标注序列的初始表示。所述初始表示可以为第一向量表示与第二向量表示的拼接结果,例如,第一向量表示为[1,0,0],第二向量表示为[0,0,1],将第一向量表示与第二向量表示首尾相连后拼接成为一个向量表示[1,0,0,0,0,1]。可以理解,所述初始表示也是一个向量化的结果。在一些实施例中,也可以对第一向量表示与第二向量表示进行运算,获得初始表示。所述运算可以是叠加、卷积等。
步骤106,利用标注模型处理所述初始表示,确定对应于所述待标注序列的目标标注结果。步骤106可以由确定模块330执行。
在一些实施例中,所述标注模型可以为机器学习模型。所述标注模型的输入为所述初始表示,输出为对应于待标注序列的目标标注结果,如在待标注序列中添加了对词或字符标注标签的结果。
在一些实施例中,目标标注结果可以包括BIO格式和BIESO格式。在BIO格式中,B表示实体的起始位置,I表示实体的中间位置,O表示不是实体。在BIESO格式中,B表示实体的起始位置,I表示实体的中间位置,E表示结尾,S表示单个字符,O表示不是实体,即其他。同样以待标注序列为“我下午2点前处理”为例,BIO格式的目标标注结果可以为“我/O下/B-还款时间午/I-还款时间2/I-还款时间点/I-还款时间前/-还款时间处/O理/O”。
在一些实施例中,标注模型可以包括Bi-LSTM(双向LSTM)层和CRF(ConditionalRandom Field,条件随机场)层。
Bi-LSTM层可以用于同时捕捉上下文特征以进行特征提取操作。可以参照图4中的Bi-LSTM层结构,在Bi-LSTM层中,l代表字符左侧的上下文特征,R代表字符右侧的上下文特征,C代表了字符左右两侧的合成。在将初始表示输入至标注模型后,初始表示首先会经过Bi-LSTM层进行特征提取,然后将提取的特征输入至CRF层。Bi-LSTM层在进行特征提取时,可以同时捕捉到上下文的特征,对精确率有一定的保障性。
CRF层可以用于解码(decode),CRF层的输入为Bi-LSTM层提取到的特征,CRF层可以基于输入的特征计算出序列中每一个字符的标签并输出。Bi-LSTM属于深度学习方法,深度学习的优势在于不需要人为的构造和选择特征,模型可以根据待标注序列自动的选择构造特征。因此可以采用Bi-LSTM进行特征的选择构造,然后采用CRF层根据得到的特征进行解码,进而得到最终的目标标注结果。
需要说明的是,以上例子仅作为对标注模型的示例,并不旨在对标注模型的结构进行限制。例如,标注模型结构可以包括LSTM结构、Bi-LSTM结构、CRF结构、HMM结构、CNN结构、RNN结构、BERT结构等。
在一些实施例中,可以获取序列样本以及其标注结果,以此来训练标注模型。其中,序列样本可以是基于历史自然语言处理过程中获取的句子或短语等文本。仅作为示例,可以按照步骤102及104对序列样本进行处理以得到其初始表示,人工对序列样本进行标注,以获得其准确的标注结果。将初始表示作为标注模型的输入,将人工标注结果作为参考标准对标注模型进行训练,从而获得具有良好标注能力的标注模型。可以理解,本实施例中,在标注模型之外预先得到第一向量表示和第二向量表示,然后再输入到标注模型进行处理,以获得目标标注结果。
在一些实施例中,还可以在标注模型中配置词嵌入层与规则提取网络,使得标注模型成为一个端对端的标注模型,即输入是待标注序列,输出为标注好的序列。图4是根据本说明书一些实施例所示的标注模型的示例性网络结构图,如图4所示,在标注模型400中可以包括输入层410、嵌入与规则提取网络层420、Bi-LSTM层430以及CRF层440。
输入层410可以用于输入待标注序列文本,嵌入与规则提取网络层420可以用于对待标注文本进行向量化表示,即,获取待标注文本的第一向量表示和第二向量表示,并将其处理成初始表示。Bi-LSTM层430以及CRF440用于进一步处理所述初始表示,以输出目标标注结果。对应的,在训练端对端的标注模型时,可以将训练数据中的序列样本作为模型的输入,将预先获得的标注结果作为参考标准,对所述模型进行训练。
嵌入与规则提取网络层420可以包括词嵌入层(character embedding)E1和规则提取网络,规则提取网络包括基于内容提取规则的提取器(Rule-Based Extractor)和规则嵌入层(rule embedding)E2。示例性地,嵌入与规则提取网络层420可以采用以下方式学习如何获取第一向量表示和第二向量表示。
在一些实施例中,词嵌入层E1可以采用随机初始化或基于预训练的词向量的方式对待标注序列中的词进行向量化表示。例如,在训练标注模型时,可以使词嵌入层E1针对输入的序列样本随机初始化输出一个第一向量表示,随着标注模型的训练,词嵌入层学习到输入的序列与第一向量表示的映射关系,更好的捕捉训练数据的语义信息,获得将输入序列转化为第一向量表示的能力。
规则提取网络可以用于对所述待标注序列进行处理,以获取所述第二向量表示。规则提取网络可以包括基于内容提取规则的提取器以及规则嵌入层。基于内容提取规则的提取器可以是一段代码,代码中编译有相应的内容抽取规则,例如,假设需要对文本中的电话号码进行抽取,则编译的电话号码抽取规则的代码可以为regex=“1[34578]\d{9}”。基于内容提取规则的提取器可以是以无监督的方式对待标注序列进行内容抽取,在嵌入与规则提取网络层420层加入规则来提取信息,可以代入更多的语法和语义信息,从而有效地解决端到端模型需要大量训练样本以及无法考虑语法和语义信息的问题。经过提取器处理后的待标注序列可以是包含标注标签的序列。规则嵌入层可以对基于内容提取规则的提取器对待标注序列的处理结果进行进一步处理,例如,进行向量化处理,进而得到第二向量表示。在一些实施例中,同样可以在训练标注模型时,采用随机初始化的方式确定规则嵌入层E2对提取器处理结果再次处理后的第二向量表示,当使用大量样本训练标注模型时,规则嵌入层E2能从中学习到处理结果与第二向量表示的映射关系,从而具备输出第二向量表示的能力。
应当注意的是,上述有关流程100的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程100进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,在各步骤之间添加其他步骤,比如,预处理步骤和存储步骤等。
图2是根据本说明书一些实施例所示的获取第二向量表示的示例性流程图。在一些实施例中,流程200可以由处理设备执行。例如,流程200可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程200。在一些实施例中,流程200可以由位于处理设备上的第二获取模块320执行。如图2所示,流程200可以包括以下操作。
步骤202,利用所述基于内容提取规则的提取器对所述待标注序列的进行内容提取。
在一些实施例中,基于内容提取规则的提取器可以是以无监督的方式对待标注序列进行内容抽取。所述提取器可以是一段能够实现内容提取功能的代码。所述内容提取规则可以是正则表达式,例如,需要抽取待标注序列中与时间相关的信息时,可以设计出一系列正则表达式,若能匹配待标注序列中的某一段内容,则认为该内容属于与时间相关的信息。其中,一系列正则表达式可以包括日期表达式:((\d+)年(\d+)月(\d+)日)|(([0-3])[0-9]|[1-9])(日|号)……,一天中时间表达式:(凌晨)|(清晨)|([上中下]午)|(午后)|(午间)|(傍晚)|(晚间)……,相对时间表达式:([前去今明后]+年)|([123456789101112]+点前)|(本月)|(这个月)|(下个月)……等,或多种时间表达方式的复合表达式等。利用规则进行内容提取,无需训练,即可快速提取得到结果。
步骤204,基于内容提取结果对所述待标注序列进行初次标注,以获得基于内容提取规则确定的初次标注结果。
在一些实施例中,可以根据基于内容提取规则提取得到的结果,在待标注序列的文本上进行初次标注。例如,待标注序列为“我下午2点前处理”需要从待标注序列的内容中提取与时间相关的信息,提取规则为“时间表达式”,则从待标注序列中提取得到的与时间相关内容为“下午2点前”,然后在待标注序列的文本上为“下午2点前”的每一个字符添加标签。初次标注结果即为在待标注序列文本上添加标签的结果。
在一些实施例中,可以基于内容提取结果对待标注序列文本中的相应内容标注上时间信息、地址信息等不同实体信息的类别标签。在一些实施例中,可以根据内容提取规则仅对待标注序列文本中的实体信息进行标注,而不必详细标注实体信息的类型。标注格式可以包括BIO格式、BIESO格式、IOE格式、START/END格式、IO格式等。
步骤206,基于所述初次标注结果获取所述第二向量表示。
在一些实施例中,可以将初次标注结果向量化来获取第二向量表示。具体地,可以利用转换算法来确定初次标注结果对应的向量,并将转换得到的向量作为第二向量表示。转换算法可以包括one-hot编码算法、共线向量算法、Glove算法等。示例性地,可以采用one-hot编码算法将初次标注结果转化为第二向量表示。one-hot编码,又称为一位有效编码或独热编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。以下为one-hot编码算法几个实例:假设性别特征:["男","女"],按照N位状态寄存器来对N个状态进行编码的原理,这里只有两个特征,所以N=2,编码后:“男”表示为[1,0],“女”表示为[0,1]。再例如,假设标签类型包括实体起始位置、时间信息、地址信息以及其他内容,按照N位状态寄存器来对N个状态进行编码的原理,此处N=4,编码后:待标注序列中的实体起始位置对应的标签可以表示为[1,0,0,0],时间信息对应的标签可以表示为[0,1,0,0],地址信息对应的标签可以表示为[0,0,1,0],其他内容对应的标签可以表示为[0,0,0,1]。可以对待标注序列中的标签向量表示进行拼接或叠加,以得到第二向量表示。
在一些实施例中,可以使用第二模型处理初次标注结果,以得到第二向量表示。所述第二模型可以是Word2Vec模型、BERT模型、CNN或DNN等。可以利用对序列样本的标注结果作为训练数据训练第二模型,使得第二模型能够基于待标注序列的初次标注结果输出其对应的第二向量表示。序列样本的标注结果可以由人工完成。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,在各步骤之间添加其他步骤,比如,预处理步骤和存储步骤等。
图3是根据本说明书一些实施例所示的序列标注系统的模块图。如图3所示,所述系统可以包括第一获取模块310、第二获取模块320以及确定模块330。
第一获取模块310可以用于获取待标注序列的第一向量表示和第二向量表示。
在一些实施例中,所述待标注序列可以是指按顺序排列的一串字词。所述第一向量可以表示反映待标注序列的文本信息,所述第二向量可以表示反映待标注序列的标注信息。第一获取模块310可以通过所述词嵌入层处理所述待标注序列以获得第一向量表示,以及利用基于内容提取规则的提取器对所述待标注序列进行处理,获取所述第二向量表示。
第二获取模块320可以用于基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。
在一些实施例中,所述初始表示可以为第一向量表示和第二向量表示的拼接结果。第二获取模块320可以将第一向量表示和第二向量表示首尾相连拼接为一个向量表示,得到对应于待标注序列的初始表示。
确定模块330可以用于利用标注模型,并确定对应于待标注序列的目标标注结果。
在一些实施例中,确定模型330可以将初始表示输入至标注模型,标注模型输出对应于待标注序列的目标标注结果。目标标注结果即为对待标注序列的每个词或字符的标注结果。
关于序列标注系统的各模块的具体描述,可以参考本说明书流程图部分,例如,图1至图2的相关说明。
应当理解,图3所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于序列标注系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图3中披露的第一获取模块310、第二获取模块320和确定模块330可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,第一获取模块310和第二获取模块320可以是一个模块。再例如,第一获取模块310、确定模块330可以是两个模块,也可以是一个模块同时具有获取和确定功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:结合了基于规则的序列标注方式以及基于有监督的序列标注方式的优点,将待标注序列文本信息作为特征的一部分输入到标注模型中,使得模型可以学习到上下文的含义,将基于内容提取规则获得的待标注序列的标注信息作为特征的另一部分输入到标注模型中,即使是在仅有少量的训练样本的情况下,也可以代入更多的语法和语义信息,从而提高序列标注的精度以及效率。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (22)

1.一种序列标注方法,其中,所述方法包括:
获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息;
基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示;
利用标注模型处理所述初始表示,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。
2.根据权利要求1所述的方法,其中,所述第一向量表示包括待标注序列中词对应的词向量;所述第二向量表示反映基于内容提取规则确定待标注序列的标注信息。
3.根据权利要求2所述的方法,其中,所述第二向量表示基于以下操作确定:
利用基于内容提取规则的提取器对所述待标注序列进行处理,以获取所述第二向量表示。
4.根据权利要求3所述的方法,其中,所述获取所述第二向量表示,包括:
利用所述基于内容提取规则的提取器对所述待标注序列的进行内容提取;
基于内容提取结果对所述待标注序列进行初次标注,以获得基于内容提取规则确定的初次标注结果;
基于所述初次标注结果获取所述第二向量表示。
5.根据权利要求4所述的方法,其中,所述基于所述初次标注结果获取所述第二向量表示,包括:
利用转换算法确定所述初次标注结果对应的向量,将所述向量作为所述第二向量表示;其中,所述转换算法至少包括one-hot编码方法。
6.根据权利要求5所述的方法,其中,所述初次标注结果为BIO格式。
7.根据权利要求1所述的方法,其中,所述标注模型包括Bi-LSTM结构和CRF结构。
8.根据权利要求1所述的方法,其中,所述目标标注结果为BIO格式。
9.根据权利要求1所述的方法,其中,所述标注模型还包括词嵌入层与规则提取网络,所述获取待标注序列的第一向量表示以及第二向量表示包括:
通过所述词嵌入层处理所述待标注序列以获得第一向量表示,以及通过所述规则提取网络处理所述待标注序列以获得第二向量表示。
10.根据权利要求1所述的方法,其中,所述初始表示为第一向量表示与第二向量表示的拼接结果。
11.一种序列标注系统,其中,所述系统包括:
第一获取模块,用于获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息;
第二获取模块,用于基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示;
确定模块,用于利用标注模型处理所述初始表示,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。
12.根据权利要求11所述的系统,其中,所述第一向量表示包括待标注序列中词对应的词向量;所述第二向量表示反映基于内容提取规则确定待标注序列的标注信息。
13.根据权利要求12所述的系统,其中,所述第一获取模块还用于:
利用基于内容提取规则的提取器对所述待标注序列进行处理,以获取所述第二向量表示。
14.根据权利要求13所述的系统,其中,为获取所述第二向量表示,所述第一获取模块进一步用于:
利用所述基于内容提取规则的提取器对所述待标注序列的进行内容提取;
基于内容提取结果对所述待标注序列进行初次标注,以获得基于内容提取规则确定的初次标注结果;
基于所述初次标注结果获取所述第二向量表示。
15.根据权利要求14所述的系统,其中,为基于所述初次标注结果获取所述第二向量表示,所述第一获取模块进一步用于:
利用转换算法确定所述初次标注结果对应的向量,将所述向量作为所述第二向量表示;其中,所述转换算法至少包括one-hot编码系统。
16.根据权利要求15所述的系统,其中,所述初次标注结果为BIO格式。
17.根据权利要求11所述的系统,其中,所述标注模型包括Bi-LSTM结构和CRF结构。
18.根据权利要求11所述的系统,其中,所述目标标注结果为BIO格式。
19.根据权利要求11所述的系统,其中,所述标注模型还包括词嵌入层与规则提取网络,所述第一获取模块用于:
通过所述词嵌入层处理所述待标注序列以获得第一向量表示,以及通过规则提取网络处理所述待标注序列以获得第二向量表示。
20.根据权利要求11所述的系统,其中,所述初始表示为第一向量表示与第二向量表示的拼接结果。
21.一种序列标注装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~10任一项所述的方法。
22.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~10任一项所述的方法。
CN202010138420.1A 2020-03-03 2020-03-03 一种序列标注方法和系统 Active CN111368526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138420.1A CN111368526B (zh) 2020-03-03 2020-03-03 一种序列标注方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138420.1A CN111368526B (zh) 2020-03-03 2020-03-03 一种序列标注方法和系统

Publications (2)

Publication Number Publication Date
CN111368526A true CN111368526A (zh) 2020-07-03
CN111368526B CN111368526B (zh) 2023-04-25

Family

ID=71206678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138420.1A Active CN111368526B (zh) 2020-03-03 2020-03-03 一种序列标注方法和系统

Country Status (1)

Country Link
CN (1) CN111368526B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗系统有限公司 结构化数据提取装置、方法及存储介质
CN109446299A (zh) * 2018-08-27 2019-03-08 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN110287479A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN110299140A (zh) * 2019-06-18 2019-10-01 浙江百应科技有限公司 一种基于智能对话的关键内容提取算法
CN110442840A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 序列标注网络更新方法、电子病历处理方法及相关装置
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109446299A (zh) * 2018-08-27 2019-03-08 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗系统有限公司 结构化数据提取装置、方法及存储介质
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN110287479A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN110299140A (zh) * 2019-06-18 2019-10-01 浙江百应科技有限公司 一种基于智能对话的关键内容提取算法
CN110442840A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 序列标注网络更新方法、电子病历处理方法及相关装置
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置

Also Published As

Publication number Publication date
CN111368526B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111091004A (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN113779227B (zh) 案情事实抽取方法及系统及装置及介质
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN111368526B (zh) 一种序列标注方法和系统
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN112434889A (zh) 一种专家行业分析方法、装置、设备及存储介质
Windiatmoko et al. Mi-Botway: A deep learning-based intelligent university enquiries chatbot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant