CN113515945A - 一种获取文本信息的方法、装置、设备及存储介质 - Google Patents

一种获取文本信息的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113515945A
CN113515945A CN202110455181.7A CN202110455181A CN113515945A CN 113515945 A CN113515945 A CN 113515945A CN 202110455181 A CN202110455181 A CN 202110455181A CN 113515945 A CN113515945 A CN 113515945A
Authority
CN
China
Prior art keywords
entity
target
recognized
feature vector
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110455181.7A
Other languages
English (en)
Other versions
CN113515945B (zh
Inventor
方昕
陈皇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110455181.7A priority Critical patent/CN113515945B/zh
Priority claimed from CN202110455181.7A external-priority patent/CN113515945B/zh
Publication of CN113515945A publication Critical patent/CN113515945A/zh
Application granted granted Critical
Publication of CN113515945B publication Critical patent/CN113515945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种获取文本信息的方法、装置、设备及存储介质,该方法包括:获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。上述识别过程有利于从待识别目标中识别得到垂类实体词,从而可以提高对垂类实体词的识别率。

Description

一种获取文本信息的方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种获取文本信息的方法、装置、设备及存储介质。
背景技术
垂类实体词,是指属于同一实体垂类的实体词,例如姓名垂类中的人名、地点垂类中的地名、手机应用垂类中的应用名等。
通常情况下,在自然语言处理领域对垂类实体词的识别率较低,例如在OCR(Optical Character Recognition,光学字符识别)、语音识别、文本或语音翻译等场景下,往往不能准确识别图像或语音、文本等待识别目标中的垂类实体词。
发明内容
基于上述技术现状,本申请提出一种获取文本信息的方法、装置、设备及存储介质,能够更加准确地是被垂类实体词,提高对垂类实体的识别效果。
一种获取文本信息的方法,包括:
获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;
基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;
根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
可选的,基于所述待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息的过程,包括:
将所述待识别目标的特征向量输入预先训练的识别模型,以使所述识别模型基于待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述识别模型存储有归属于各个实体垂类的各个实体词。
可选的,所述基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量。
可选的,所述通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
分别获取各个实体垂类中的每个实体词的特征向量;
对应于每个实体垂类,分别对所述待识别目标的特征向量,以及该实体垂类中的每个实体词的特征向量,进行注意力机制运算处理,确定该实体垂类中的每个实体词的注意力系数;
根据该实体垂类中的每个实体词的注意力系数,以及每个实体词的特征向量,确定所述待识别目标与该实体垂类之间的匹配特征向量。
可选的,所述分别获取各个实体垂类中的每个实体词的特征向量,包括:
将各个实体垂类中的每个实体词输入编码网络,得到每个实体词的特征向量,其中,所述编码网络基于双向长短时记忆网络构建得到。
可选的,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,输入解码网络,以使所述解码网络根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述解码网络由基于注意力机制的神经网络构建得到。
可选的,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量进行拼接,得到拼接特征向量;
对所述拼接特征向量进行解码处理,确定与所述待识别目标对应的文本信息。
可选的,所述识别模型,包括:
至少一个垂类实体记忆编码模块,每一垂类实体记忆编码模块用于存储归属于同一实体垂类的实体词,以及分别获取归属于该实体垂类的每个实体词的特征向量;
注意力机制模块,用于对待识别目标的特征向量,以及各个实体垂类中的实体词的特征向量进行注意力机制运算处理,得到待识别目标与各个实体垂类之间的匹配特征向量;
解码模块,用于根据待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息。
可选的,在每一垂类实体记忆编码模块中均存储有一个空实体词。
可选的,所述识别模型的训练过程,包括:
获取训练数据,以及与所述训练数据对应的文本标注结果;
对所述文本标注结果中的实体词进行标注,得到实体词标注标签,并确定该实体词所属的实体垂类;
至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练。
可选的,所述至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练,包括:
获取所述训练数据的特征向量;
至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息;
根据所述识别模型确定的与所述训练数据对应的文本信息,以及所述文本标注结果和所述实体词标注标签,对所述识别模型的运算参数进行校正。
可选的,至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息,包括:
将所述训练数据的特征向量输入所述识别模型的注意力机制模块;
以及,
将所述文本标注结果中的实体词输入所述识别模型中的、与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,并且,将预设的空实体词分别输入所述识别模型中的其他各个垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息。
一种获取文本信息的装置,该装置包括:
数据获取单元,用于获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;
运算处理单元,用于基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;
识别处理单元,用于根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
一种获取文本信息的设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的获取文本信息的方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现上述的获取文本信息的方法。
本申请实施例提出的获取文本信息的方法,在对待识别目标进行识别时,将待识别目标与预设的各个实体垂类之间的匹配特征向量,以及待识别目标的特征向量,共同用于对待识别目标进行识别。其中,待识别目标与实体垂类之间的匹配特征向量包含了实体垂类中的实体词与待识别目标的匹配度信息。上述识别过程对于待识别目标的特征,以及待识别目标与各个实体垂类中的实体词的匹配特征的融合应用,有利于从待识别目标中识别得到垂类实体词,从而可以提高对垂类实体词的识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种获取文本信息的方法的流程示意图;
图2是本申请实施例提供的单层双向长短时记忆网络编码过程示意图;
图3是本申请实施例提供的一种识别模型的结构示意图;
图4是本申请实施例提供的一种获取文本信息的装置的结构示意图;
图5是本申请实施例提供的一种获取文本信息的设备的结构示意图。
具体实施方式
本申请实施例技术方案可应用于自然语言处理应用场景,具体可应用于例如OCR、语音识别、语音或文本翻译等场景下,从待识别目标中识别出其中文本信息。
基于本申请实施例技术方案,能够在自然语言处理场景下,更加准确地识别待识别目标中包含的垂类实体文本,从而提高对垂类实体的识别率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种获取文本信息的方法,参见图1所示,该方法包括:
S101、获取待识别目标的特征向量。
其中,所述待识别目标包含与文本信息对应的数据内容。
本申请实施例技术方案应用于自然语言处理应用场景,具体用于从待识别目标中识别文本信息,例如在OCR、语音识别、文本或语音翻译等场景下,对待识别目标进行识别处理,确定与待识别目标对应的文本信息。
则,上述的待识别目标,可以是上述应用场景下的文本图像、语音数据、文本数据等,其中包含与文本信息对应的数据内容,例如文字图像、文本对应的语音数据等。通过对该待识别目标进行识别,可以获取相应的文本信息。例如对语音数据进行识别获取与语音数据对应的文本信息、对文本图像进行识别获取图像中包含的文本内容等。
在自然语言处理领域中,对语音、图像、文本等待识别目标的处理,通常是以语音帧、图像像素、字符等为基本单位分别进行处理。所以,上述的待识别目标,具体可以是待识别目标的最小识别单位,例如,语音帧、图像像素、文本字符等。
在本申请各实施例中,以语音识别作为本申请技术方案的具体应用场景,以语音帧为待识别目标,示例性地介绍本申请技术方案的具体处理过程。本申请技术方案在其他场景下的应用和处理过程,均可以参照本申请各实施例的介绍。
作为示例性的实现方式,上述的待识别目标的特征向量,可以是任意的可以用于表征待识别目标的特征的向量。
上述的待识别目标的特征向量的获取,可以是从设定的存储位置读取预先已经确定的待识别目标的特征向量,例如从存储器读取预先存储的语音帧的语音特征向量。
或者,也可以利用现有的或未来可行的特征提取方法,对待识别目标进行实时特征提取处理,从而获取该待识别目标的特征向量。
例如,对于待识别语音,常用的语音特征包括感知线性预测系数(PerceptualLinear Predictive,PLP)、梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)、滤波器组(Filter Bank)等特征。因此,可以通过提取待识别语音的PLP特征、MFCC特征、Filter Bank特征等,得到语音特征向量。作为优选的方案,本申请实施例提取语音数据的Filter Bank特征,从而得到语音特征向量。
例如,对待识别语音进行Filter Bank特征提取,在本申请实施例中,采用40维的Filter Bank特征,得到语音特征序列如下:
X=[x1,x2,...,xt,...,xT],T为该语音数据中的语音帧总数量。
其中xt表示第t帧语音帧的语音特征(Filter Bank特征)向量。则,当该第t帧语音帧作为待识别目标时,可以从上述的语音特征序列中获取其特征向量xt
S102、基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量。
其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息。
上述的实体垂类,可以理解为实体类别,例如各个地名实体词,构成地名实体垂类;各个姓名实体词,构成姓名实体垂类。也就是,在一个实体垂类中,包括属于同一类别的不同实体词。
可以理解,属于同一实体垂类的各个实体词之间,具有共性而又具有区别。例如在姓名实体垂类中,张三、李四、王五等姓名实体词之间,具有共性,比如均由姓氏构成,并且姓氏在前。同时,各姓名实体词之间又具有区别,比如实体词中具体的字符内容存在明显差异。
因此,对该实体垂类整体进行分析,可以把握该类实体词的共性特征,而对该实体垂类中的各个实体词单独进行分析,能够把握实体词本身区别于该实体垂类中的其他实体词的个性特征。如果将对实体垂类的上述分析应用于待识别目标识别中,将有助于全面把握垂类实体词的特征,有利于识别待识别目标中包含的垂类实体词。
基于上述研究,本申请实施例预先设置各个实体垂类,每个实体垂类中包含属于该垂类的尽量丰富的实体词。分析待识别目标与各个实体垂类中的实体词的匹配度,然后基于该待识别目标与各个实体垂类中的各个实体词的匹配度信息,进一步确定待识别目标与各个实体垂类之间的匹配特征向量。
则,该待识别目标与任意一个实体垂类之间的匹配特征向量,既能够体现该待识别目标与该实体垂类中的各个实体词的匹配度信息,又能够体现该待识别目标与该实体垂类整体上的匹配度信息。也就是说,该匹配特征向量,是基于对实体垂类中的各个实体词的共性分析和个性分析而确定的、包含该实体垂类中的实体词与待识别目标的匹配度信息的特征向量。
作为可选的实现方式,上述的对待识别目标与实体垂类中的实体词的匹配度分析,可以通过对待识别目标的特征向量与实体垂类中的实体词的特征向量进行匹配分析而实现。
示例性的,分别确定待识别目标的特征向量与实体垂类中的各个实体词的特征向量之间的匹配度,然后以此为依据,确定该待识别目标与整个实体垂类的匹配度,进而确定待识别目标与实体垂类之间的匹配特征向量。
比如,基于待识别目标的特征向量与实体垂类中的各个实体词的特征向量的匹配度,为各个实体词的特征向量分别设置权重,然后,对该实体垂类中的各个实体词的特征向量进行加权求和,作为该待识别目标与该实体垂类之间的匹配特征向量。
则,在该匹配特征向量中,与待识别目标的匹配度越高的实体词的特征占比越高,而与待识别目标的匹配度越低的实体词的特征占比越低。因此,该匹配特征向量能够充分体现与待识别目标匹配度最高的实体词特征。将该匹配特征向量用于辅助对待识别目标的识别,有助于将该待识别目标识别为该实体垂类中的、与该待识别目标的匹配度最高的实体词,从而提高对垂类实体词的识别率。
另一方面,对实体垂类中的各个实体词的特征向量进行加权求和,能够整体上体现该实体垂类的共性特征。因此,即便实体垂类中的实体词与待识别目标的匹配度差异较小,使得该匹配特征向量无法突出地体现某一个实体词的特征,但是由于该匹配特征向量能够代表该实体垂类的共性特征,将该匹配特征向量用于辅助对待识别目标的识别,依然有助于从该待识别目标中识别属于该实体垂类的实体词。
S103、根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
具体的,参见上述介绍,将待识别目标与各个实体垂类之间的匹配特征向量,用于辅助对待识别目标的特征向量进行解码分析,可以有助于在对待识别目标的特征向量进行解码分析时,把握其中的垂类实体词的特征,从而有助于从待识别目标中识别出垂类实体词。
例如,假设待识别语音帧是姓名垂类中的“张三”这一姓名实体词对应的语音帧,则按照本申请实施例上述处理,得到的该语音帧与姓名垂类的匹配特征向量中,“张三”这一姓名实体词的特征占比较高。将该语音帧与姓名垂类的匹配特征向量用于辅助对该语音帧的特征向量的解码,能够从该语音帧的特征向量中识别出“张三”这一姓名实体词的特征,从而将该语音帧识别为“张三”这一姓名实体词。
示例性的,将待识别目标的特征向量以及待识别目标与各个实体垂类之间的匹配特征向量进行组合(例如求和、加权求和等),再对组合的特征向量进行解码处理,可以实现利用待识别目标与各个实体垂类之间的匹配特征向量,辅助对待识别目标的特征向量的解码分析。
或者,对待识别目标的特征向量以及待识别目标与各个实体垂类之间的匹配特征向量分别进行解析,再将解析信息进行整合分析,用于确定最终解码的文本内容,也能够实现利用待识别目标与各个实体垂类之间的匹配特征向量,辅助对待识别目标的特征向量的解码分析。
通过上述介绍可见,本申请实施例提出的获取文本信息的方法,在对待识别目标进行识别时,将待识别目标与预设的各个实体垂类之间的匹配特征向量,以及待识别目标的特征向量,共同用于对待识别目标进行识别。其中,待识别目标与实体垂类之间的匹配特征向量包含了实体垂类中的实体词与待识别目标的匹配度信息。上述识别过程对于待识别目标的特征,以及待识别目标与各个实体垂类中的实体词的匹配特征的融合应用,有利于从待识别目标中识别得到垂类实体词,从而可以提高对垂类实体词的识别率。
作为优选的实现方式,本申请实施例通过训练识别模型,来实现本申请提出的上述技术方案。
即,上述的基于所述待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,通过预先训练的识别模型来实现。
具体的,在获取待识别目标的特征向量后,将待识别目标的特征向量输入预先训练的识别模型,以使该识别模型基于所述待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
上述的识别模型,是本申请实施例预先训练得到的,具有垂类实体记忆功能的识别模型,其可用于OCR、语音识别、语音或文本翻译等场景,识别图像、语音或文本等识别目标所对应的文本信息。
该识别模型,属于基于注意力机制的端到端识别模型。基于注意力机制的端到端识别模型自被提出以来,在机器翻译、OCR、语音识别等领域的应用越来越广泛。例如在语音识别任务中,基于注意力机制的端到端语音识别模型具有声学与语言联合建模的优点,理论上,相比单独建模,联合建模潜力更为突出。结合互联网时代积累的海量语音数据,在大数据的加持下,声学与语言联合建模的端到端语音识别已经超越了声学与语言单独建模的传统语音识别方法,成为当前最优的语音识别系统。
同时,端到端建模的识别模型对训练数据量的要求较高,需要巨大数量有监督训练,才能达到满意的训练效果,而且模型容易出现过度自信问题,即对高频词来说,模型识别效果很好,但是对于低频词来说,比如垂类实体词,由于训练数据不足,导致对其识别效果不佳。
为了提高对垂类实体词的识别效果,本申请实施例对上述的基于注意力记住的端到端识别模型进行改进,构建新的识别模型,该识别模型中存储有归属于各个实体垂类的各个实体词,也就是分垂类地存储大量垂类实体词。
当该识别模型用于对待识别目标进行识别时,能够基于待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息,从而提高对垂类实体词的识别效果。
则可以理解,本申请实施例提出的识别模型,保留了传统端到端识别模型的优点,同时克服了传统端到端识别模型的不足,提高了模型对垂类实体的识别效果。
该识别模型用于实施本申请实施例提出的获取文本信息的方法,该识别模型具体工作内容,可参见下文实施例对本申请实施例提出的技术方案的具体处理过程介绍,该识别模型的结构和训练过程,可参见下文实施例关于该模型结构和训练过程的介绍。
作为可选的实现方式,上述的基于待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,可以通过对待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,从而确定待识别目标与预设的各个实体垂类之间的匹配特征向量。
具体的,对于每个实体垂类,将其中的各个实体词的特征向量与待识别目标的特征向量进行注意力机制运算处理,可以确定出该实体垂类中的各个实体词的注意力系数。各个实体词的注意力系数,体现了该实体词与待识别目标的匹配度。根据各个实体词的注意力系数可以确定各个实体词的权重,然后,基于各个实体词的注意力系数,对各个实体词的特征向量进行加权求和,得到的特征向量即作为待识别目标与该实体垂类之间的匹配特征向量。
下面以语音帧作为待识别目标,结合举例对上述的匹配特征向量确定过程进行详细介绍:
上述的通过对待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定待识别目标与预设的各个实体垂类之间的匹配特征向量的过程,可以通过执行如下步骤A1~A3实现:
A1、分别获取各个实体垂类中的每个实体词的特征向量。
具体的,对各个实体垂类中的每个实体词分别进行编码处理,可以得到每个实体词的编码向量表征,作为该实体词的特征向量。
为了便于对各个实体词的特征向量的后续处理,本申请实施例将每个实体词编码为固定长度的编码向量表征,即得到的各个实体词的特征向量的长度相同。
作为一种优选的实现方式,本申请实施例借助编码网络实现对实体词的编码处理,得到实体词的特征向量。该编码网络可以使用一层或者多层的编码网络,其中编码层可以采用单向长短时记忆网络或者双向长短时记忆网络。通常为了使得当前时刻能够同时看到历史信息与未来信息,会采用双向长短时记忆网络,本申请实施例选择单层的双向长短时记忆网络作为编码网络。
以地名垂类实体词“望江西路”为例,单层双向长短时记忆网络编码过程如图2所示。其中,左半部分为双向长短时记忆网络的正向部分,右半部分为双向长短时记忆网络的反向部分,将正向最后一步的输出向量
Figure BDA0003040240930000124
与反向最后一步的输出向量
Figure BDA0003040240930000122
进行拼接,得到的特征向量
Figure BDA0003040240930000123
即为对应垂类实体词“望江西路”的编码向量表征,即“望江西路”的特征向量。
按照上述方式,分别获取个实体垂类中的每个实体词的特征向量。
假设实体垂类Zi中共有N+1个垂类实体词Zi=[z0,z1,z2,...,zn,...,zN],经过编码后,得到该实体垂类的垂类实体词向量表征为
Figure BDA0003040240930000121
需要特别关注的是,z0表示空实体词,即没有具体的实体词内容。当待识别目标与某实体垂类中的空实体的匹配度最高时,可以表明在该实体垂类中不存在与待识别目标匹配的实体词。因此,该空实体词的设置,可以方便处理待识别目标中不存在该垂类中的实体词的情况。
A2、对应于每个实体垂类,分别对待识别目标的特征向量,以及该实体垂类中的每个实体词的特征向量,进行注意力机制运算处理,确定该垂类实体中的每个实体词的注意力系数。
以待识别语音为例,首先对输入的待识别语音的语音特征序列X=[x1,x2,...,xt,...,xT]进行编码,得到一组表示语音信息的特征向量序列H=[h1,h2,...,ht,...,hT],其中xt表示第t帧语音的特征向量,即上述的Filter Bank特征,ht为对音频特征向量进行编码后的特征向量。再对特征向量序列H进行投影变换得到特征向量表征Q=[q1,q2,...,qt,...,qT]。则当语音帧xt作为待识别目标时,与其对应的特征向量表征qt,即为待识别目标xt的特征向量。
对于待识别目标xt以及实体垂类Zi,按照如下的注意力机制运算公式,对该实体垂类的垂类实体词向量表征
Figure BDA0003040240930000131
与待识别目标的特征向量qt进行注意力机制运算处理,确定该垂类实体中每个实体词的注意力系数wt(n)。
Figure BDA0003040240930000132
Figure BDA0003040240930000133
其中,N表示该实体垂类Zi中的实体词数量;
Figure BDA0003040240930000134
表示qt
Figure BDA0003040240930000135
的向量内积;wt(n)表示t时刻(对应第t个语音帧)该实体垂类中的第n个实体词的注意力系数。
对于上述的每个实体垂类Zi,分别通过上述注意力机制运算处理,确定其中的每个实体词的注意力系数wt(n)。
A3、根据实体垂类中的每个实体词的注意力系数,以及每个实体词的特征向量,确定待识别目标与该实体垂类之间的匹配特征向量。
具体的,对于任一实体垂类Zi,以其中的每个实体词的注意力系数wt(n)为权重,对各个实体词的特征向量
Figure BDA0003040240930000136
进行加权求和处理,得到的特征向量即为待识别目标与该实体垂类之间的匹配特征向量。
示例性的,按照如下公式,对实体垂类Zi中的各个实体词的特征向量
Figure BDA0003040240930000137
进行加权求和处理,得到该实体垂类Zi与待识别目标xt的匹配特征向量
Figure BDA0003040240930000138
Figure BDA0003040240930000139
按照上述运算处理,可以分别确定待识别目标xt与各个实体垂类之间的匹配特征向量。
作为优选的实现方式,上述的根据待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息,可以通过将待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,输入解码网络而实现,借助该解码网络,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,该解码网络由基于注意力机制的神经网络构建得到。
具体的,本申请实施例采用结合注意力机制模块神经网络作为解码网络,该解码网络包含多个神经网络层,本案具体采用两层单向长短时记忆网络层。该解码网络在解码第t个字符时,第一层长短时记忆网络层以t-1时刻的识别结果字符yt-1和注意力机制模块的输出向量ct-1作为输入,计算得到解码器的状态特征向量dt。dt有两个用处,首先输入给注意力机制模块,用于计算第t时刻注意力模块机制的输出ct,然后dt与ct一起作为第二层长短时记忆网络层的输入,计算得到解码器的输出
Figure BDA0003040240930000141
另外,该解码网络的具体结构和功能,可以参见常规的基于注意力机制的端到端识别模型中的解码网络的结构和功能;该解码网络的具体工作过程,例如对上述的待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量进行解码处理的过程,可以参见常规的基于注意力机制的端到端识别模型中的解码网络的解码处理过程,本申请实施例不再详细介绍。
作为一种可选的实现方式,上述的根据待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,可以通过执行如下步骤B1~B2实现:
B1、将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量进行拼接,得到拼接特征向量。
具体的,将待识别目标的特征向量,以及待识别目标与各实体垂类之间的匹配特征向量依次进行拼接,得到拼接特征向量。
例如,假设待识别语音帧的特征向量为qt,该语音帧与各个实体垂类Zi之间的匹配特征向量分别为
Figure BDA0003040240930000142
则将qt与各个
Figure BDA0003040240930000143
进行拼接,得到一个拼接特征向量。
B2、对所述拼接特征向量进行解码处理,确定与所述待识别目标对应的文本信息。
具体的,对上述的拼接特征向量进行解码处理,确定与该待识别目标对应的文本信息。
例如,对qt与各个
Figure BDA0003040240930000151
拼接得到的拼接特征向量进行解码处理,确定与qt对应的文本信息,即实现对待识别语音帧的识别。
可以理解,当上述的根据待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息地处理由上述的解码网络实现时,在该解码网络输入端设置特征拼接处理模块,执行上述的B1所示的特征向量拼接处理后,将得到的拼接特征向量输入解码网络,由该解码网络执行上述B2所示的解码处理,确定与待识别目标对应的文本信息。
作为本申请实施例的创新之一,本申请实施例对常规的端到端识别模型进行改进,训练得到新的识别模型,使其能够通过执行本申请技术方案,提高多垂类实体的识别效率。
参见图3所示,本申请实施例训练得到的识别模型,包括:
至少一个垂类实体记忆编码模块301,每一垂类实体记忆编码模块用于存储归属于同一实体垂类的实体词,以及分别获取归属于该实体垂类的每个实体词的特征向量。
具体的,如图3所示,本申请实施例所提出的识别模型具备垂类实体存储功能,属于同一实体垂类的各个实体词分别存储于与该实体垂类对应的垂类实体记忆编码模块中。其中,该识别模型中的垂类实体记忆编码模块的数量,可以基于该识别模型的应用场景下的实体垂类数量而确定,即,在具体的应用场景下有多少个实体垂类,就要相应地在识别模型中设置多少个垂类实体记忆编码模块。例如,假设该识别模型应用于手机助手场景下,则根据手机应用垂类的数量,在该识别模型中可能需要设置20-30个垂类实体记忆编码模块,分别用于存储例如设置、蓝牙、多屏互动、通讯录等应用垂类中的实体词。
每个垂类实体记忆编码模块,除了存储归属于同一实体垂类的实体词外,还可以分别获取其存储的每个实体词的特征向量。
垂类实体记忆编码模块通过对其中存储的实体词进行编码,即可获取实体词的特征向量。作为优选的实现方式,本申请实施例设定,垂类实体记忆编码模块利用上述实施例介绍的单层双向长短时记忆网络获取实体的编码向量表征,作为实体词的特征向量。具体的实体词特征向量获取过程,可参见上述实施例介绍,此处不再重复。
作为特别的处理,为了适配待识别目标与某些垂类实体记忆编码模块中的实体词不相关的情况,本申请实施例在每个垂类实体记忆编码模块中,分别存储一个空实体词,当待识别目标与某一垂类实体记忆编码模块中的空实体词匹配度较高时,说明该待识别目标与该垂类实体记忆编码模块所对应的实体垂类的相关性较低,也就是该待识别目标中不包含属于该实体垂类的实体词。
该空实体词,具体可以为某一个特殊的实体词,用于当待识别目标与该实体词匹配度较高时,表示该待识别目标实际上与该实体词所述实体垂类不相关。或者,该空实体词也可以是占据垂类实体记忆编码模块的一个存储空间但是没有实际内容的特殊符号。本申请实施例对该空实体词的具体形式不做限定,只明确该空实体词用于适配待识别目标与某些垂类实体记忆编码模块中的实体词不相关的情况。
注意力机制模块302,用于对待识别目标的特征向量,以及各个实体垂类中的实体词的特征向量进行注意力机制运算处理,得到待识别目标与各个实体垂类之间的匹配特征向量。
具体的,该注意力机制模块302,以待识别目标的特征向量,以及各个垂类实体记忆编码模块301输出的实体词特征向量为输入,通过对待识别目标的特征向量以及各个实体垂类的实体词的特征向量(即各个垂类实体记忆编码模块输出的实体词特征向量)进行注意力机制运算处理,确定待识别目标与各个实体垂类之间的匹配特征向量并输出。
该注意力机制模块302的具体运算处理过程,即为上述实施例中介绍的对待识别目标的特征向量,以及各个实体垂类中的实体词的特征向量进行注意力机制运算处理,得到待识别目标与各个实体垂类之间的匹配特征向量的具体实现过程,此次不再重复。
解码模块303,用于根据待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息。
具体的,解码模块303在结构上包括基于注意力机制的解码网络,用于实现对待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量的解码,从而确定与待识别目标对应的文本信息。
解码模块303的具体解码过程,可参见上述实施例关于“根据待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息”的具体实现方式的介绍,此处不再赘述。
作为优选的模型构建方案,参见图3所示,上述的识别模型,还包括编码器模块304、第一投影模块305、特征拼接处理模块306和第二投影模块307。
其中,编码器模块304,用于对待识别目标的特征向量进行编码处理,得到编码特征向量,该编码特征向量供注意力机制模块302进行注意力机制运算使用。该编码器模块305由编码器构成,其具体的编码器结构和功能,可参见常规的自然语言处理方案中的编码器结构和功能,本申请实施例不再详述。
上述的第一投影模块305,用于对编码器模块304输出的待识别目标特征向量进行投影处理,以降低待识别目标特征向量的非线性特性。
上述的特征拼接处理模块306,用于对待识别目标的特征向量,以及注意力机制模块302输出的待识别目标与各个实体垂类之间的匹配特征向量,进行拼接处理,得到拼接特征向量。
其中,该特征拼接处理模块306对待识别目标的特征向量,以及注意力机制模块302输出的待识别目标与各个实体垂类之间的匹配特征向量的拼接顺序和拼接方式,均可灵活设置。
上述的第二投影模块307,用于对特征拼接处理模块306输出的拼接特征向量进行投影处理,从而实现降维的目的,然后将投影后的拼接特征向量输入解码模块303进行解码输出。
可以理解的是,本申请实施例构建的如图3所示的识别模型,不脱离基本的基于注意力机制的端到端识别模型的基本结构特点,其中的垂类实体记忆编码模块301、注意力机制模块302和特征拼接处理模块306是相对于常规识别模型的改进结构,从而实现常规的识别模型无法实现的垂类实体识别功能。本申请实施例提出的识别模型的结构,并不限于图3所示的结构,其中的各功能模块可以灵活地组合,或者用相同功能的模块进行替换,其中的某些模块,也可以在不影响模型功能的情况下而省略。
本申请实施例提出的上述识别模型的训练,整体上与常规的端到端识别模型的训练过程一致,同时,为了加强对垂类实体词的识别效果,本申请实施例在对该识别模型进行训练过程中,结合模型结构特点,重点加强了对垂类实体的识别训练,具体的训练方案如下:
首先,获取训练数据,以及与训练数据对应的文本标注结果。
具体的,根据本申请实施例提出的识别模型的应用场景的不同,上述的训练数据可以是文本图像、语音数据或文本数据。本申请实施例以语音数据作为训练数据为例,获取语音数据,同时获取语音数据对应的文本标注结果。
例如,假设语音数据为“导航到望江西路六百六十六号”,则对该语音数据进行文本标注,得到文本标注序列Y=[y0,y1,...,yu,...,yU],其中,yu表示文本标注序列Y中的第u个字符,U+1为该文本标注序列的总字符数目,y0为句子开始符<s>,yU为句子结束符</s>。则,对应“导航到望江西路六百六十六号”这一语句,得到的文本标注序列具体为Y=[<s>,导,航,到,望,江,西,路,六,百,六,十,六,号,</s>],其中共包含15个字符。
然后,对文本标注结果中的实体词进行标注,得到实体词标注标签,并确定该实体词所属的实体垂类。
具体的,对训练数据的文本标注结果,利用实体命名识别模型进行词性标注,确定文本中的实体词及其所属实体垂类。
为了便于识别模型确定训练数据中的实体词,本申请实施例在训练数据的文本标注结果中标注实体词,得到实体词标注标签,以便于指示识别模型该标签位置处为垂类实体词,从而指导模型更新与该实体词相关的模型参数。
最后,至少以上述的训练数据和与该训练数据对应的文本标注结果中的实体词为训练样本,以与该训练数据对应的文本标注结果和文本标注结果中的实体词标注标签为样本标签,对识别模型进行训练。
即,将上述的训练数据,以及与该训练数据对应的文本标注结果中的实体词输入识别模型,得到模型识别结果,在模型识别结果中,包括对训练数据对应的文本内容的识别结果,以及对该文本内容中的实体词标注结果。然后,通过对该识别模型的识别结果与样本标签(与训练数据对应的文本标注结果和文本标注结果中的实体词标注标签)计算损失函数,用于对模型参数进行校正。重复上述过程,完成对识别模型的训练。
具体的,上述的对识别模型进行训练的过程,可以通过执行如下步骤C1~C3实现:
C1、获取所述训练数据的特征向量。
具体的,对训练数据进行特征提取,获取其特征向量。具体的特征向量获取方法,可参见上述实施例介绍的获取待待识别目标的特征向量的方法。
例如,假设训练数据为语音数据,则通过提取该语音数据的语音特征,获取其语音特征序列X=[x1,x2,...,xt,...,xT]。基于图3所示的模型结构,还可以进一步对该语音特征序列进行编码处理,得到语音数据的特征向量序列H=[h1,h2,...,ht,...,hT],将该特征向量序列,作为训练数据的特征向量。
C2、至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息。
参见图3所示的模型结构,训练数据作为待识别目标,其特征向量输入识别模型的注意力机制模块302,同时,将该训练数据的文本标注结果中的实体词输入与实体词所属的实体垂类对应的垂类实体记忆编码模块301,以使该识别模型利用输入数据,确定与该训练数据对应的文本信息。
例如,假设训练数据为语音数据“导航到望江西路六百六十六号”,则对该语音数据进行特征提取后,将其特征向量输入识别模型的注意力记住模块302,同时,将其中的实体词“望江西路六百六十六号”输入对应导航垂类的垂类实体记忆编码模块301。可以理解,此时,在该垂类实体记忆编码模块301中,就存在了“望江西路六百六十六号”这一实体词,在识别模型运算过程中,该实体词经过编码后,与语音数据“导航到望江西路六百六十六号”进行注意力机制运算,其计算结果参与后续的训练过程。
C3、根据所述识别模型确定的与所述训练数据对应的文本信息,以及所述文本标注结果和所述实体词标注标签,对所述识别模型的运算参数进行校正。
具体的,识别模型对输入内容进行注意力机制运算、特征向量拼接、特征向量解码等处理后,识别得到与训练数据对应的文本信息,并且,在识别得到的文本信息中标注出实体词。
然后,对上述的识别结果,以及训练数据对应的样本标签计算损失函数,基于该损失函数对识别模型的运算参数进行校正,包括对编码器模块304、各个垂类实体记忆编码模块301、注意力机制模块302和解码模块303的运算参数进行校正,并重复进行训练,直至该识别模型对训练数据的识别结果与训练数据对应的样本标签相匹配。具体的训练过程可参见常规的端到端识别模型的训练过程。
以语音数据“导航到望江西路六百六十六号”作为训练数据为例,当将该语音数据的特征向量输入编码器模块304,以及将其中的实体词“望江西路六百六十六号”输入与导航垂类对应的垂类实体记忆编码模块301后,该垂类实体记忆编码模块301对实体词“望江西路六百六十六号”进行特征编码,以及,注意力机制模块302将其特征向量用于与语音数据“导航到望江西路六百六十六号”的特征向量进行注意力机制运算处理。
可以理解,正常情况下,实体词“望江西路六百六十六号”与该语音数据的匹配度应当是最高的,即实体词“望江西路六百六十六号”的注意力系数应当是最高的,从而使得识别模型最终能够解码输出“望江西路六百六十六号”这一实体词。如果识别模型最终得到的识别结果中未能准确识别出“望江西路六百六十六号”这一实体词,则说明该模型训练不够充分,应当对模型参数,尤其是垂类实体记忆编码模块301和注意力机制模块302的运算参数进行校正,并重复训练,直至该识别模型能够准确识别出训练数据中的垂类实体词。
作为优选的训练方式,通常情况下,一个训练数据中,只会包含某一个或某几个实体垂类中的实体词,理想状态下,该识别模型在对各个垂类实体记忆编码模块301中的实体词与训练数据进行注意力机制运算时,只有某一个或某几个垂类实体记忆编码模块301中的实体词的注意力系数较高,而其他垂类实体记忆编码模块301中的实体词的注意力系数较低,如果其他垂类实体记忆编码模块301中的实体词的注意力系数较高,则会影响模型对正确的垂类实体词的识别。
为了适配训练数据中不包含某些垂类实体记忆编码模块301中的实体词的情况,本申请实施例设定,在模型训练过程中,将训练数据的特征向量输入识别模型,以及将训练数据的文本标注结果中的实体词输入与该实体词所属的实体垂类对应的垂类实体记忆编码模块的同时,还将预设的空实体词<none>分别输入该识别模型的其他各个垂类实体记忆编码模块。
当训练数据中不包含某一垂类实体记忆编码模块中的实体词时,结果注意力机制处理,训练数据与该垂类实体记忆编码模块中的空实体词的匹配度最高,也就是其中的空实体词的注意力系数最高,从而表征该训练数据与该垂类实体记忆编码模块中的任意实体词的匹配度均不高,也就是该训练数据中不包含属于该垂类实体记忆编码模块对应的实体垂类的实体词。
需要注意的是,上述的向垂类实体记忆编码模块输入预设的空实体词<none>的处理,只在垂类实体记忆编码模块中不存在空实体词的情况下执行,随着训练过程的不断执行,当每个垂类实体记忆编码模块中均存储一个空实体词时,识别模型能够自动实现attention到垂类记忆编码模块中的空实体词的情况,此时无需在每次迭代训练中均向垂类实体记忆编码模块输入空实体词,由此训练得到的识别模型,也与最终得到的识别模型中的每个垂类实体记忆编码模块中均存储一个空实体词相符。
本申请另一实施例还提出一种获取文本信息的装置,参见图4所示,该装置包括:
数据获取单元100,用于获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;
运算处理单元110,用于基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;
识别处理单元120,用于根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
本申请实施例提出的获取文本信息的装置,在对待识别目标进行识别时,将待识别目标与预设的各个实体垂类之间的匹配特征向量,以及待识别目标的特征向量,共同用于对待识别目标进行识别。其中,待识别目标与实体垂类之间的匹配特征向量包含了实体垂类中的实体词与待识别目标的匹配度信息。上述识别过程对于待识别目标的特征,以及待识别目标与各个实体垂类中的实体词的匹配特征的融合应用,有利于从待识别目标中识别得到垂类实体词,从而可以提高对垂类实体词的识别率。
可选的,基于所述待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息的过程,包括:
将所述待识别目标的特征向量输入预先训练的识别模型,以使所述识别模型基于待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述识别模型存储有归属于各个实体垂类的各个实体词。
可选的,所述基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量。
可选的,所述通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
分别获取各个实体垂类中的每个实体词的特征向量;
对应于每个实体垂类,分别对所述待识别目标的特征向量,以及该实体垂类中的每个实体词的特征向量,进行注意力机制运算处理,确定该实体垂类中的每个实体词的注意力系数;
根据该实体垂类中的每个实体词的注意力系数,以及每个实体词的特征向量,确定所述待识别目标与该实体垂类之间的匹配特征向量。
可选的,所述分别获取各个实体垂类中的每个实体词的特征向量,包括:
将各个实体垂类中的每个实体词输入编码网络,得到每个实体词的特征向量,其中,所述编码网络基于双向长短时记忆网络构建得到。
可选的,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,输入解码网络,以使所述解码网络根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述解码网络由基于注意力机制的神经网络构建得到。
可选的,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量进行拼接,得到拼接特征向量;
对所述拼接特征向量进行解码处理,确定与所述待识别目标对应的文本信息。
可选的,所述识别模型,包括:
至少一个垂类实体记忆编码模块,每一垂类实体记忆编码模块用于存储归属于同一实体垂类的实体词,以及分别获取归属于该实体垂类的每个实体词的特征向量;
注意力机制模块,用于对待识别目标的特征向量,以及各个实体垂类中的实体词的特征向量进行注意力机制运算处理,得到待识别目标与各个实体垂类之间的匹配特征向量;
解码模块,用于根据待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息。
可选的,在每一垂类实体记忆编码模块中均存储有一个空实体词。
可选的,所述识别模型的训练过程,包括:
获取训练数据,以及与所述训练数据对应的文本标注结果;
对所述文本标注结果中的实体词进行标注,得到实体词标注标签,并确定该实体词所属的实体垂类;
至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练。
可选的,所述至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练,包括:
获取所述训练数据的特征向量;
至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息;
根据所述识别模型确定的与所述训练数据对应的文本信息,以及所述文本标注结果和所述实体词标注标签,对所述识别模型的运算参数进行校正。
可选的,至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息,包括:
将所述训练数据的特征向量输入所述识别模型的注意力机制模块;
以及,
将所述文本标注结果中的实体词输入所述识别模型中的、与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,并且,将预设的空实体词分别输入所述识别模型中的其他各个垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息。
具体的,上述的获取文本信息的装置的各个部分的具体工作内容,请参见上述的方法实施例的介绍,此处不再重复。
本申请另一实施例还提出一种获取文本信息的设备,参见图5所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的获取文本信息的方法。
具体的,上述获取文本信息的设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的获取文本信息的方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的获取文本信息的方法的各个步骤。
具体的,上述的获取文本信息的设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的获取文本信息的方法的各个实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种获取文本信息的方法,其特征在于,包括:
获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;
基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;
根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,基于所述待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息的过程,包括:
将所述待识别目标的特征向量输入预先训练的识别模型,以使所述识别模型基于待识别目标的特征向量,分别获取待识别目标与预设的各个实体垂类之间的匹配特征向量,并根据待识别目标的特征向量,以及待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述识别模型存储有归属于各个实体垂类的各个实体词。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量。
4.根据权利要求3所述的方法,其特征在于,所述通过对所述待识别目标的特征向量,以及预设的各个实体垂类中的实体词的特征向量,进行注意力机制运算处理,确定所述待识别目标与预设的各个实体垂类之间的匹配特征向量,包括:
分别获取各个实体垂类中的每个实体词的特征向量;
对应于每个实体垂类,分别对所述待识别目标的特征向量,以及该实体垂类中的每个实体词的特征向量,进行注意力机制运算处理,确定该实体垂类中的每个实体词的注意力系数;
根据该实体垂类中的每个实体词的注意力系数,以及每个实体词的特征向量,确定所述待识别目标与该实体垂类之间的匹配特征向量。
5.根据权利要求1或2所述的方法,其特征在于,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,输入解码网络,以使所述解码网络根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息;
其中,所述解码网络由基于注意力机制的神经网络构建得到。
6.根据权利要求1或2所述的方法,其特征在于,根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息,包括:
将所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量进行拼接,得到拼接特征向量;
对所述拼接特征向量进行解码处理,确定与所述待识别目标对应的文本信息。
7.根据权利要求2所述的方法,其特征在于,所述识别模型,包括:
至少一个垂类实体记忆编码模块,每一垂类实体记忆编码模块用于存储归属于同一实体垂类的实体词,以及分别获取归属于该实体垂类的每个实体词的特征向量;
注意力机制模块,用于对待识别目标的特征向量,以及各个实体垂类中的实体词的特征向量进行注意力机制运算处理,得到待识别目标与各个实体垂类之间的匹配特征向量;
解码模块,用于根据待识别目标的特征向量,以及待识别目标与各个实体垂类之间的匹配特征向量,确定与待识别目标对应的文本信息。
8.根据权利要求7所述的方法,其特征在于,在每一垂类实体记忆编码模块中均存储有一个空实体词。
9.根据权利要求7所述的方法,其特征在于,所述识别模型的训练过程,包括:
获取训练数据,以及与所述训练数据对应的文本标注结果;
对所述文本标注结果中的实体词进行标注,得到实体词标注标签,并确定该实体词所属的实体垂类;
至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述至少以所述训练数据和所述文本标注结果中的实体词为训练样本,以所述文本标注结果和所述实体词标注标签为样本标签,对所述识别模型进行训练,包括:
获取所述训练数据的特征向量;
至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息;
根据所述识别模型确定的与所述训练数据对应的文本信息,以及所述文本标注结果和所述实体词标注标签,对所述识别模型的运算参数进行校正。
11.根据权利要求10所述的方法,其特征在于,至少将所述训练数据的特征向量输入所述识别模型的注意力机制模块,以及,将所述文本标注结果中的实体词输入与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息,包括:
将所述训练数据的特征向量输入所述识别模型的注意力机制模块;
以及,
将所述文本标注结果中的实体词输入所述识别模型中的、与该实体词所属的实体垂类相对应的垂类实体记忆编码模块,并且,将预设的空实体词分别输入所述识别模型中的其他各个垂类实体记忆编码模块,以使所述识别模型确定与所述训练数据对应的文本信息。
12.一种获取文本信息的装置,其特征在于,该装置包括:
数据获取单元,用于获取待识别目标的特征向量,所述待识别目标包含与文本信息对应的数据内容;
运算处理单元,用于基于所述待识别目标的特征向量,分别获取所述待识别目标与预设的各个实体垂类之间的匹配特征向量,其中,所述待识别目标与实体垂类之间的匹配特征向量,包含实体垂类中的实体词与所述待识别目标的匹配度信息;
识别处理单元,用于根据所述待识别目标的特征向量,以及所述待识别目标与预设的各个实体垂类之间的匹配特征向量,确定与所述待识别目标对应的文本信息。
13.一种获取文本信息的设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至11中任意一项所述的获取文本信息的方法。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现如权利要求1至11中任意一项所述的获取文本信息的方法。
CN202110455181.7A 2021-04-26 一种获取文本信息的方法、装置、设备及存储介质 Active CN113515945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110455181.7A CN113515945B (zh) 2021-04-26 一种获取文本信息的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110455181.7A CN113515945B (zh) 2021-04-26 一种获取文本信息的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113515945A true CN113515945A (zh) 2021-10-19
CN113515945B CN113515945B (zh) 2024-06-04

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023070803A1 (zh) * 2021-10-29 2023-05-04 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472062A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 识别命名实体的方法及装置
CN110991187A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN111079854A (zh) * 2019-12-27 2020-04-28 联想(北京)有限公司 信息识别方法、设备及存储介质
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111428493A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 实体关系获取方法、装置、设备及存储介质
CA3087534A1 (en) * 2019-02-01 2020-08-01 Intuit Inc. System and method for information extraction with character level features

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3087534A1 (en) * 2019-02-01 2020-08-01 Intuit Inc. System and method for information extraction with character level features
CN110472062A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 识别命名实体的方法及装置
CN110991187A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111079854A (zh) * 2019-12-27 2020-04-28 联想(北京)有限公司 信息识别方法、设备及存储介质
CN111428493A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 实体关系获取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MANUEL CARBONELL ET AL: "A neural model for text localization, transcription and named entity recognition in full pages", 《PATTERN RECOGNITION LETTERS》, vol. 136, pages 1 - 9 *
李珍: "基于语义扩展的短文本分类研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, vol. 2020, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023070803A1 (zh) * 2021-10-29 2023-05-04 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111090987B (zh) 用于输出信息的方法和装置
CN111177393B (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN108520741A (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN107609185B (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN111508480A (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN113468891A (zh) 文本处理方法以及装置
WO2023029397A1 (zh) 训练数据获取方法、异常行为识别网络训练方法及装置、计算机设备、存储介质、计算机程序、计算机程序产品
CN115269836A (zh) 意图识别方法及装置
CN116128055A (zh) 图谱构建方法、装置、电子设备和计算机可读介质
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN111477212A (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN113515945A (zh) 一种获取文本信息的方法、装置、设备及存储介质
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN113515945B (zh) 一种获取文本信息的方法、装置、设备及存储介质
CN102308307B (zh) 用于模式发现和识别的方法
CN113139561B (zh) 一种垃圾分类方法、装置、终端设备及存储介质
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230523

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province

Applicant before: IFLYTEK Co.,Ltd.

GR01 Patent grant