CN113204618A - 基于语义增强的信息识别方法、装置、设备及存储介质 - Google Patents
基于语义增强的信息识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113204618A CN113204618A CN202110485761.0A CN202110485761A CN113204618A CN 113204618 A CN113204618 A CN 113204618A CN 202110485761 A CN202110485761 A CN 202110485761A CN 113204618 A CN113204618 A CN 113204618A
- Authority
- CN
- China
- Prior art keywords
- information
- semantic
- keywords
- calculating
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种基于语义增强的信息识别方法、装置、介质及设备,其中方法包括:获取待识别的文本信息及关键词;在预训练的词向量库中获取关键词的相似词;采用预设的上下文编码模型对相似词进行编码,得到相似词的隐藏向量,根据隐藏向量计算相似词的词向量权重,并计算得到关键词的语义增强信息;通过预设的门控模型分别计算语义增强信息和隐藏向量相对关键词语义理解的信息权重,根据信息权重计算关键词的语义特征参数,并计算语义特征参数对应的语义预测序列标签,对待识别的文本信息进行语义识别。从而实现了关键词的语义增强,平衡了上下文环境和语义增强信息的权重,对待识别的文本信息进行了准确识别。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于语义增强的信息识别方法、装置、介质及设备。
背景技术
目前,微博在国内社交媒体领域中占据着至关重要的部分,随着微博的日益普及,用户数据也日益增多,这些用户数据中的文本通常是简短和非正式的,即用户想要表达的信息隐藏在非结构化的帖子中,由于这些用户数据均为非结构化数据,从这些用户数据中提取信息存在着一定的障碍,如何有效地理解这些文本依然是一个具有挑战性的任务。
命名实体识别(Named Entity Recognition,NER)是一项发现信息实体并识别其相应类别的任务,被广泛应用于问答、主题建模、信息检索等领域,是很多应用程序中的重要组成部分,包括机器翻译、关系抽取、实体链接等,通常用于识别人、组织、位置、时间和数字表达式等内容。而随着人工智能的发展,NER也开始被应用于社交媒体领域。
然而,命名实体通常只能代表预先设定好的专有名称中的一小部分,导致用户数据中的词汇难以被概括,并且,由于不同用户的表达习惯存在差异,社交媒体的文本往往不会严格遵循句法规则,导致现有技术中的NER难以准确识别社交媒体中用户数据。
发明内容
本申请的主要目的为提供一种基于语义增强的信息识别方法、装置、介质及设备,旨在解决现有技术中的NER难以准确识别社交媒体中用户数据的技术问题。
为了实现上述发明目的,本申请提出一种基于语义增强的信息识别方法,所述方法包括:
获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
在预训练的词向量库中获取所述关键词的相似词;
采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,并根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
进一步的,所述在预训练的词向量库中获取所述关键词的相似词的步骤,包括:
根据余弦相似度计算所述预训练的词向量库中的词语与所述关键词的语义相似性,按照所述语义相似性从高到低选取m个词语作为所述关键词的相似词,其中,m为正整数。
进一步的,所述采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量的步骤,包括:
通过预设的词向量矩阵将一所述相似词映射为一词向量,将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型对所述相似词进行编码,输出所述相似词的隐藏向量。
进一步的,所述根据所述隐藏向量计算所述相似词的词向量权重的步骤,包括:
通过下式(1)计算所述相似词的词向量权重:
pi,j=softmax(hiei,j) (1)
式中,pi,j为所述相似词的词向量权重,hi为所述相似词的隐藏向量,ei,j为所述相似词ci,j对应的词向量,所述相似词的集合Ci={ci,1,ci,2,...,ci,j},1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数;其中,hi的维度与ei,j相同。
进一步的,所述根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息的步骤,包括:
通过下式(2)计算所述关键词的语义增强信息:
式中,vi为所述关键词的语义增强信息,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
进一步的,所述通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,并根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数的步骤,包括:
通过下式(3)计算所述第二信息权重:
g=σ(w1hi+w2vi+bg) (3)
式中,g为所述第二信息权重,hi为所述相似词的隐藏向量,vi为所述关键词的语义增强信息,w1和w2为可训练矩阵,bg为偏置项;
通过下式(4)计算所述关键词的语义特征参数:
ui=(g·hi)+[(1-g)·vi] (4)
式中,ui为所述关键词的语义特征参数,(1-g)为所述第一信息权重,·表示按元素乘,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
进一步的,所述通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签的步骤,包括:
通过所述预设的门控模型中的可训练矩阵获得所述语义特征参数的输出信号;
通过下式(5)计算所述关键词的语义特征参数对应的语义预测序列标签:
式中,为所述关键词的语义特征参数对应的语义预测序列标签,Wc和bc为yi-1到yi的可训练参数,oi为所述语义特征参数的输出信号,y1,y2,...,yi-1,yi组成所述待识别的文本信息的语义预测序列L,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
本申请还提出了一种基于语义增强的信息识别装置,包括:
信息获取模块,用于获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
关键词获取模块,用于在预训练的词向量库中获取所述关键词的相似词;
语义增强信息生成模块,用于采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
标签生成模块,用于通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
信息识别模块,用于根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于语义增强的信息识别方法、装置、介质及设备,通过在预训练的词向量库中获取所述关键词的相似词,为每个关键词都增加了语义空间;根据预设的上下文编码模型得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重得到所述关键词的语义增强信息,便于区分出重要的语义信息;通过预设的门控模型计算并根据所述语义增强信息和所述隐藏向量的信息权重计算所述关键词的语义特征参数实现了平衡了关键词的相似词的权重和在不同的上下文中的权重;根据所述语义特征参数获得所述关键词的语义预测序列标签,根据语义预测序列标签对所述待识别的文本信息进行信息识别,从而实现了关键词的语义增强,平衡了上下文环境和语义增强信息的权重,对待识别的文本信息进行了准确识别。
附图说明
图1为本申请一实施例的基于语义增强的信息识别方法的流程示意图;
图2为本申请一实施例的基于语义增强的信息识别装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种为了实现上述发明目的,本申请提出一种基于语义增强的信息识别方法,所述方法包括:
S1:获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
S2:在预训练的词向量库中获取所述关键词的相似词;
S3:采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
S4:通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
S5:根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
本实施例通过在预训练的词向量库中获取所述关键词的相似词,为每个关键词都增加了语义空间;根据预设的上下文编码模型得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重得到所述关键词的语义增强信息,便于区分出重要的语义信息;通过预设的门控模型计算并根据所述语义增强信息和所述隐藏向量的信息权重计算所述关键词的语义特征参数实现了平衡了关键词的相似词的权重和在不同的上下文中的权重;根据所述语义特征参数获得所述相似词的语义预测序列标签,根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别,从而实现了关键词的语义增强,平衡了上下文环境和语义增强信息的权重,对待识别的文本信息进行了准确识别。
对于步骤S1,待识别的文本信息可以为社交媒体信息等行文较随意、用户个性特征较突出的文本信息,社交媒体可以为微博、贴吧、公共论坛等社交媒体平台,社交媒体文本信息可以为用户在微博、贴吧、公共论坛等社交媒体平台主动发送的博文,也可以为回复他人的评论。
社交媒体文本信息中的关键词可以为人物名字,物品名称,时间信息,位置信息等。
社交媒体文本信息包括至少一关键词是指包括一个或以上的关键词,一社交媒体文本信息中的关键词可以为不同类别的词语,例如分别为人物名字和时间信息,也可以为同一类别的词语,例如均为物品名称。
对于步骤S2,预训练的词向量库为预先训练好的词向量库,可以为腾讯词向量库等。
对于步骤S3,当与一相似词对应的关键词处于不同上下文语境下时,可以对该相似词给出不同的权重,即可以通过上下文编码模型对该相似词进行编码,输出该相似词的隐藏向量,将输出的隐藏向量输入预设的注意力增强模块中,以得到当前上下文语境下该相似词与该关键词关联的概率值;当一关键词对应多个相似词时,可以分别计算上述多个相似词与该关键词关联的概率值,即对于每个标记出的关键词,都会给出该关键词对应的各个相似词与该关键词关联的概率值,具体来说,当一相似词与该关键词关联的概率值越大,表示该相似词与该关键词的关联性越强,通常将该概率值作为相似词的词向量权重。
对于步骤S4,可通过预设的门控模型中的重置门来控制信息流,具体来说,若一待识别文本信息中包括i个关键词,可通过重置门控制在i步重置的语义增强信息和隐藏向量的权重;在具体的实施方式中,先分别计算语义增强信息相对第i-1个关键词语义理解的第一信息权重和隐藏向量相对第i-1个关键词语义理解的第二信息权重,以根据上述第一信息权重和第二信息权重计算第i-1个关键词的语义特征参数,计算完成后,对语义增强信息和隐藏向量的权重进行重置,再分别计算语义增强信息相对第i个关键词语义理解的第一信息权重和隐藏向量相对第i个关键词语义理解的第二信息权重,以根据上述第一信息权重和第二信息权重计算第i个关键词的语义特征参数,从而通过重置门执行i步后实现i个关键词的第一信息权重和所述第二信息权重的计算。在计算得到关键词的语义特征参数后,根据语义特征参数计算得到该关键词的语义预测序列标签,具体来说,关键词的语义预测序列标签可以为名词,动词,介词等,此时根据待识别文本信息的不同,组成的语义预测序列可以为[名词,动词,名词,介词,名词],也可以为[名词,动词,动词,介词,名词]等形式,可通过与相似词对应的关键词的语义特征参数得到关键词的语义预测序列标签,从而完成关键词的序列标注,以进行待识别文本信息的信息识别。在一具体的实施方式中,若在社交媒体上获取到的待识别的文本信息为“小明在家吃苹果”,可获取该待识别的文本信息的关键词,从而得到关键词对应的语义预测序列标签,即“小明”、“家”和“苹果”对应“名词”标签,“在”对应“介词”标签,“吃”对应“动词”标签,由此形成的语义预测序列为[名词,介词,名词,动词,名词]。
对于步骤S5,获得所述关键词的语义预测序列标签后,输入NER的CRF层(Conditional Random Fields,条件随机场),以输出关键词的命名实体,完成社交媒体文本信息的信息识别。具体来说,仍以“小明在家吃苹果”作为待识别的文本信息,此时根据关键词的语义预测序列标签能够得到人物名字为“小明”,物品名称为“苹果”,位置信息为“家”。
在一个实施例中,所述在预训练的词向量库中获取所述关键词的相似词的步骤,包括:
S21:根据余弦相似度从预训练的词向量库中获取与所述关键词的语义相似性最高的m个词语作为所述关键词的相似词。
本实施例通过根据余弦相似度从预训练的词向量库中获取与所述关键词的语义相似性最高的m个词语作为所述关键词的相似词,m的值可根据实际需求进行调整,即需要对关键词增扩的范围较大时可适当增加m的值,以扩大语义增强效果,提高了识别的准确度和灵活性。
对于步骤S21,对于每一个关键词xi∈X,可以根据余弦相似度从预训练的词向量库中获取相似性最高的前m个单词,将其表示为Ci={ci,1,ci,2,...,ci,m}。
其中,相似性最高的前m个单词是指,根据余弦相似度计算关键词与预训练的词向量库的其它词语的相似度大小,并对预训练的词向量库的其它词语按照相似度从大到小排序后的第1至m个单词。
在一个实施例中,所述采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量的步骤,包括:
S31:通过预设的词向量矩阵将一所述相似词映射为一词向量,将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型对所述相似词进行编码,输出所述相似词的隐藏向量。
本实施例根据通过预设的词向量矩阵将一所述相似词映射为一词向量,将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型输出所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,从而反映了上下文的不同语境对关键词的语义的影响,提高了识别的准确度。
对于步骤S31,预设的上下文编码模型对相似词的信息编码结果可以表示为:H=CE(e),其中,CE表示对输入的方法和距离信息进行了建模后的上下文编码模型,H=[h1,h2,...,hi]是X的隐藏向量,e=[e1,e2,...,ei]是词向量表示。由于预训练的词向量库中包含来自大量大规模语料库的信息,不同类型的语料库包含的信息往往不同,此时可通过下式得到词向量表示:
式中,ei是对于关键词xi的第i个词向量,1≤i≤K,K为所述待识别的文本信息中的关键词的个数;T是预训练的词向量库中所有词向量集合的大小,从而实现不同语料库的合并。
对于步骤S31,通过将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型输出所述相似词的隐藏向量,从而得到能够反映上下文语境的语义增强信息。在一具体的实施方式中,仍以“小明在家吃苹果”作为待识别的文本信息,在不结合上下文的情况下,基于中文的语法,若将“在家”单独截取进行识别,会导致将“在”识别为“动词”标签的情况,而在结合上下文的情况下,由于“家”后文记载有动词“吃”,因此此时的“在”应该为“介词标签”。
在另一具体的实施方式中,以“小明没在家吃苹果”作为待识别的文本信息,在不结合上下文的情况下,基于中文的语法,若将各个关键词单独截取进行识别,会导致此时根据关键词的语义预测序列标签能够得到人物名字为“小明”,物品名称为“苹果”,位置信息为“家,且该事件为已发生的事件;然而,在考虑前文的否定词“没”的情况下,可知该事件为未发生时间,因此,通过将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型输出所述相似词的隐藏向量能够提高对信息识别的准确度。
在一个实施例中,所述根据所述隐藏向量计算所述相似词的词向量权重的步骤,包括:
S32:通过下式(1)计算所述相似词的词向量权重:
pi,j=softmax(hiei,j) (1)
式中,pi,j为所述相似词的词向量权重,hi为所述相似词的隐藏向量,ei,j为所述相似词ci,j对应的词向量,所述相似词的集合Ci={ci,1,ci,2,...,ci,j},1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数;其中,hi的维度与ei,j相同。
本实施例采用softmax函数计算相似词的词向量权重,能够归一化保证一关键词对应的每一相似词的权重之和为1,提高了权重计算的准确性;由于同一词语在不同的上下文语境下会产生不同的含义,通过引入隐藏向量计算所述相似词的词向量权重使得该权重能够反映预设的上下文编码模型的影响,输出考虑上下文情景的权重值,提高了识别的准确度。
对于步骤S32,softmax函数能够将一些输入信息映射为0-1之间的实数,并且输出结果之和为1,因此多分类的情况下改了之和为1,本实施例中,softmax函数最后的输出是每个相似词被取到的概率,即每个相似词的词向量权重。
在一个实施例中,所述根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息的步骤,包括:
S33:通过下式(2)计算所述关键词的语义增强信息:
式中,vi为所述关键词的语义增强信息,1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
本实施例通过计算各个相似词的词向量权重与词向量的乘积之和,保证了增广后的语义增强信息能够根据各个相似词的贡献进行加权,从而区分出增广出的语义信息中重要的语义信息,提高增强结果对权重更高的相似词的注意力。
对于步骤S33,可通过预设的注意力增强模型进行关键词的语义增强信息计算。
在一个实施例中,所述通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,并根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数的步骤,包括:
S41:通过下式(3)计算所述第二信息权重:
g=σ(w1hi+w2vi+bg) (3)
式中,g为所述第二信息权重,hi为所述相似词的隐藏向量,vi为所述关键词的语义增强信息,w1和w2为可训练矩阵,bg为偏置项;
S42:通过下式(4)计算所述关键词的语义特征参数:
ui=(g·hi)+[(1-g)·vi] (4)
式中,ui为所述关键词的语义特征参数,(1-g)为所述第一信息权重,·表示按元素乘,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
本实施例通过预设的门控模型来衡量上下文信息与扩充的语义增强信息,通过对上下文信息与扩充的语义增强信息加权求和,区分出上述信息在不同上下文中的重要程度,进一步提高语义处理能力和准确性。
在一个实施例中,所述通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签的步骤,包括:
S43:通过所述预设的门控模型中的可训练矩阵获得所述语义特征参数的输出信号;
S44:通过下式(5)计算所述关键词的语义特征参数对应的语义预测序列标签:
式中,为所述关键词的语义特征参数对应的语义预测序列标签,Wc和bc为yi-1到yi的可训练参数,oi为所述语义特征参数的输出信号,y1,y2,...,yi-1,yi组成所述待识别的文本信息的语义预测序列L,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
本实施例通过式(5)中的条件随机场可以直接对后验概率建模,即可以容纳任意的上下文信息,并且条件随机场的可训练参数Wc和bc均可灵活设计,此外,条件随机场还可以在确定需标记的观测序列的前提下,计算整个标记序列的联合概率分布,考虑各个关键词的语义预测序列标签的语义预测序列之间的关系,而非独立考虑,从而提高了关键词的语义预测序列标签计算的准确度和可调节性。
对于步骤S44,在具体的实施方式中,根据关键词的语义特征参数得到的语义预测序列有可能为[名词,介词,名词,动词,名词],也可能为[名词,名词,名词,动词,动词],而后者在连续出现了两个动词,不符合常规的中文的语法,而条件随机场能够得到不同语义预测序列的分值,从而识别更符合逻辑的语义预测序列,得到更准确的命名实体,进一步提高信息识别的准确性。
参照图2,本申请还提出了一种基于语义增强的信息识别装置,包括:
信息获取模块100,用于获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
关键词获取模块200,用于在预训练的词向量库中获取所述关键词的相似词;
语义增强信息生成模块300,用于采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
标签生成模块400,用于通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
信息识别模块500,用于根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
本实施例通过在预训练的词向量库中获取所述关键词的相似词,为每个关键词都增加了语义空间;根据预设的上下文编码模型得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重得到所述关键词的语义增强信息,便于区分出重要的语义信息;通过预设的门控模型计算并根据所述语义增强信息和所述隐藏向量的信息权重计算所述关键词的语义特征参数实现了平衡了关键词的相似词的权重和在不同的上下文中的权重;根据所述语义特征参数获得所述关键词的语义预测序列标签,根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别,从而实现了关键词的语义增强,平衡了上下文环境和语义增强信息的权重,对待识别的文本信息进行了准确识别。
在一个实施例中,关键词获取模块200具体用于:
根据余弦相似度计算所述预训练的词向量库中的词语与所述关键词的语义相似性,按照所述语义相似性从高到低选取m个词语作为所述关键词的相似词,其中,m为正整数。
在一个实施例中,语义增强信息生成模块300包括:隐藏向量生成子模块;
隐藏向量生成子模块,用于通过预设的词向量矩阵将一所述相似词映射为一词向量,将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型对所述相似词进行编码,输出所述相似词的隐藏向量。
在一个实施例中,语义增强信息生成模块300包括:词向量权重计算子模块;
词向量权重计算子模块,用于通过下式(1)计算所述相似词的词向量权重:
pi,j=softmax(hiei,j) (1)
式中,pi,j为所述相似词的词向量权重,hi为所述相似词的隐藏向量,ei,j为所述相似词ci,j对应的词向量,所述相似词的集合Ci={ci,1,ci,2,...,ci,j},1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数;其中,hi的维度与ei,j相同。
在一个实施例中,语义增强信息生成模块300包括:语义增强信息计算子模块;
语义增强信息计算子模块,用于通过下式(2)计算所述关键词的语义增强信息:
式中,vi为所述关键词的语义增强信息,1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
在一个实施例中,语义特征参数生成模块400具体用于:
通过下式(3)计算所述第二信息权重:
g=σ(w1hi+w2vi+bg) (3)
式中,g为所述第二信息权重,hi为所述相似词的隐藏向量,vi为所述关键词的语义增强信息,w1和w2为可训练矩阵,bg为偏置项;
通过下式(4)计算所述关键词的语义特征参数:
ui=(g·hi)+[(1-g)·vi] (4)
式中,ui为所述关键词的语义特征参数,(1-g)为所述第一信息权重,·表示按元素乘,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
在一个实施例中,标签生成模块500具体用于:
通过所述预设的门控模型中的可训练矩阵获得所述语义特征参数的输出信号;
通过下式(5)计算所述关键词的语义特征参数对应的语义预测序列标签:
式中,为所述关键词的语义特征参数对应的语义预测序列标签,Wc和bc为yi-1到yi的可训练参数,oi为所述语义特征参数的输出信号,y1,y2,...,yi-1,yi组成所述待识别文本信息的语义预测序列L,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于语义增强的信息识别方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义增强的信息识别方法。所述基于语义增强的信息识别方法,包括:获取待识别的文本信息,获取所述待识别的文本信息中的关键词;在预训练的词向量库中获取所述关键词的相似词;采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于语义增强的信息识别方法,包括步骤:获取待识别的文本信息,获取所述待识别的文本信息中的关键词;在预训练的词向量库中获取所述关键词的相似词;采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
上述执行的基于语义增强的信息识别方法,本实施例通过在预训练的词向量库中获取所述关键词的相似词,为每个关键词都增加了语义空间;根据预设的上下文编码模型得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重得到所述关键词的语义增强信息,便于区分出重要的语义信息;通过预设的门控模型计算并根据所述语义增强信息和所述隐藏向量的信息权重计算所述关键词的语义特征参数实现了平衡了关键词的相似词的权重和在不同的上下文中的权重;根据所述语义特征参数获得所述关键词的语义预测序列标签,根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别,从而实现了关键词的语义增强,平衡了上下文环境和语义增强信息的权重,对待识别的文本信息进行了准确识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于语义增强的信息识别方法,其特征在于,所述方法包括:
获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
在预训练的词向量库中获取所述关键词的相似词;
采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
2.根据权利要求1所述的基于语义增强的信息识别方法,其特征在于,所述在预训练的词向量库中获取所述关键词的相似词的步骤,包括:
根据余弦相似度计算所述预训练的词向量库中的词语与所述关键词的语义相似性,按照所述语义相似性从高到低选取m个词语作为所述关键词的相似词,其中,m为正整数。
3.根据权利要求2所述的基于语义增强的信息识别方法,其特征在于,所述采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量的步骤,包括:
通过预设的词向量矩阵将一所述相似词映射为一词向量,将所述词向量输入至所述预设的上下文编码模型中,以使所述上下文编码模型对所述相似词进行编码,输出所述相似词的隐藏向量。
4.根据权利要求3所述的基于语义增强的信息识别方法,其特征在于,所述根据所述隐藏向量计算所述相似词的词向量权重的步骤,包括:
通过下式(1)计算所述相似词的词向量权重:
pi,j=softmax(hiei,j) (1)
式中,pi,j为所述相似词的词向量权重,hi为所述相似词的隐藏向量,ei,j为所述相似词ci,j对应的词向量,所述相似词的集合Ci={ci,1,ci,2,...,ci,j},1≤j≤m,1≤i≤K,K为所述待识别的文本信息中的关键词的个数;其中,hi的维度与ei,j相同。
6.根据权利要求1所述的基于语义增强的信息识别方法,其特征在于,所述通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,并根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数的步骤,包括:
通过下式(3)计算所述第二信息权重:
g=σ(w1hi+w2vi+bg)(3)
式中,g为所述第二信息权重,hi为所述相似词的隐藏向量,vi为所述关键词的语义增强信息,w1和w2为可训练矩阵,bg为偏置项;
通过下式(4)计算所述关键词的语义特征参数:
ui=(g·hi)+[(1-g)·vi](4)
式中,ui为所述关键词的语义特征参数,(1-g)为所述第一信息权重,·表示按元素乘,1≤i≤K,K为所述待识别的文本信息中的关键词的个数。
8.一种基于语义增强的信息识别装置,其特征在于,包括:
信息获取模块,用于获取待识别的文本信息,获取所述待识别的文本信息中的关键词;
关键词获取模块,用于在预训练的词向量库中获取所述关键词的相似词;
语义增强信息生成模块,用于采用预设的上下文编码模型对所述相似词进行编码,得到所述相似词的隐藏向量,根据所述隐藏向量计算所述相似词的词向量权重,并根据所述相似词和所述词向量权重计算得到所述关键词的语义增强信息;
标签生成模块,用于通过预设的门控模型分别计算所述语义增强信息相对所述关键词语义理解的第一信息权重和所述隐藏向量相对所述关键词语义理解的第二信息权重,根据所述第一信息权重和所述第二信息权重计算所述关键词的语义特征参数,并通过所述预设的门控模型计算得到所述关键词的语义特征参数对应的语义预测序列标签;
信息识别模块,用于根据所述关键词的语义预测序列标签对所述待识别的文本信息进行信息识别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485761.0A CN113204618A (zh) | 2021-04-30 | 2021-04-30 | 基于语义增强的信息识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485761.0A CN113204618A (zh) | 2021-04-30 | 2021-04-30 | 基于语义增强的信息识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204618A true CN113204618A (zh) | 2021-08-03 |
Family
ID=77029877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485761.0A Pending CN113204618A (zh) | 2021-04-30 | 2021-04-30 | 基于语义增强的信息识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204618A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849647A (zh) * | 2021-09-28 | 2021-12-28 | 平安科技(深圳)有限公司 | 对话身份识别方法、装置、设备及存储介质 |
CN115688777A (zh) * | 2022-09-28 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的嵌套和不连续实体的命名实体识别系统 |
CN115809755A (zh) * | 2023-02-02 | 2023-03-17 | 广东工业大学 | 基于语义识别的碳排放核算方法、设备及存储介质 |
CN116070641A (zh) * | 2023-03-13 | 2023-05-05 | 北京点聚信息技术有限公司 | 一种电子合同的在线解读方法 |
WO2024021343A1 (zh) * | 2022-07-29 | 2024-02-01 | 苏州思萃人工智能研究所有限公司 | 自然语言处理方法、计算机设备、可读存储介质和程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539211A (zh) * | 2020-04-17 | 2020-08-14 | 中移(杭州)信息技术有限公司 | 实体及语义关系识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-30 CN CN202110485761.0A patent/CN113204618A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539211A (zh) * | 2020-04-17 | 2020-08-14 | 中移(杭州)信息技术有限公司 | 实体及语义关系识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
YUYANG NIE ET AL: "Named Entity Recognition for Social Media Texts with Semantic Augmentation", 《ARXIV:2010.15458V1 [CS.CL]》, pages 1 - 9 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849647A (zh) * | 2021-09-28 | 2021-12-28 | 平安科技(深圳)有限公司 | 对话身份识别方法、装置、设备及存储介质 |
WO2024021343A1 (zh) * | 2022-07-29 | 2024-02-01 | 苏州思萃人工智能研究所有限公司 | 自然语言处理方法、计算机设备、可读存储介质和程序产品 |
CN115688777A (zh) * | 2022-09-28 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的嵌套和不连续实体的命名实体识别系统 |
CN115688777B (zh) * | 2022-09-28 | 2023-05-05 | 北京邮电大学 | 面向中文金融文本的嵌套和不连续实体的命名实体识别系统 |
CN115809755A (zh) * | 2023-02-02 | 2023-03-17 | 广东工业大学 | 基于语义识别的碳排放核算方法、设备及存储介质 |
CN116070641A (zh) * | 2023-03-13 | 2023-05-05 | 北京点聚信息技术有限公司 | 一种电子合同的在线解读方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139283A1 (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN113204618A (zh) | 基于语义增强的信息识别方法、装置、设备及存储介质 | |
WO2021027533A1 (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN110717106B (zh) | 信息推送的方法及装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
US11961010B2 (en) | Method and apparatus for performing entity linking | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN110377733B (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
WO2019229768A1 (en) | A bot engine for automatic dynamic intent computation | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN116523583A (zh) | 电子商务数据分析系统及其方法 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
JP2022145623A (ja) | ヒント情報を提示する方法及び装置並びにコンピュータプログラム | |
CN110309252B (zh) | 一种自然语言处理方法及装置 | |
Sathyendra et al. | Helping users understand privacy notices with automated query answering functionality: An exploratory study | |
Acharya et al. | Question Answering System using NLP and BERT | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN112148902A (zh) | 数据处理方法、装置、服务器及存储介质 | |
Yang et al. | Adaptive slide window-based feature cognition for deceptive information identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |