CN110321560B - 一种从文本信息中确定位置信息的方法、装置及电子设备 - Google Patents

一种从文本信息中确定位置信息的方法、装置及电子设备 Download PDF

Info

Publication number
CN110321560B
CN110321560B CN201910554771.8A CN201910554771A CN110321560B CN 110321560 B CN110321560 B CN 110321560B CN 201910554771 A CN201910554771 A CN 201910554771A CN 110321560 B CN110321560 B CN 110321560B
Authority
CN
China
Prior art keywords
sequence
position information
hidden layer
text information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910554771.8A
Other languages
English (en)
Other versions
CN110321560A (zh
Inventor
邓中亮
邱德武
管孟
陈新平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910554771.8A priority Critical patent/CN110321560B/zh
Publication of CN110321560A publication Critical patent/CN110321560A/zh
Application granted granted Critical
Publication of CN110321560B publication Critical patent/CN110321560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。将目标文本信息对应的字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;基于概率序列、标签序列和预设的位置信息确定表,从目标文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。

Description

一种从文本信息中确定位置信息的方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种从文本信息中确定位置信息的方法、装置及电子设备。
背景技术
随着互联网的快速发展,网络上的文本信息也呈现爆炸式增长。由于文本信息中蕴含着标识用户位置的位置信息,因此,人们可以通过从用户发送的文本信息中提取位置信息,从而确定出用户所处的位置。
现有技术中,统计人员通过人工标注的方式,确定出语料库中各样本文本信息对应的位置信息。然后,将文本信息,及其对应的位置信息作为神经网络模型的输入,并对神经网络模型进行训练,从而得到各个词语是位置信息的概率算法,即得到训练后的用于确定位置信息的模型,从而实现从文本信息中确定位置信息的目的。
但是,通过现有技术训练后的用于确定位置信息的模型,得到文本信息中包含的位置信息的精确度较低。
发明内容
本发明实施例的目的在于提供一种从文本信息中确定位置信息的方法及装置,以提高从文本信息中确定位置信息的精确度。
具体技术方案如下:
第一方面,本发明实施例提供了一种从文本信息中确定位置信息的方法,所述方法包括:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
可选的,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,可以包括:
针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
可选的,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,可以包括:
将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
可选的,所述方法还可以包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
第二方面,本发明实施例提供了一种从文本信息中确定位置信息的装置,所述装置包括:
获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;
字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块,用于将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
特征序列得到模块,用于基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
概率序列和标签序列得到模块,用于将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
位置信息确定模块,用于基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
可选的,所述字嵌入向量序列确定模块,可以包括:
独热维度向量确定单元,用于针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
可选的,所述完整隐层状态序列得到模块,可以包括:
正反向隐层状态序列得到单元,用于将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
可选的,所述装置还可以包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现以下方法步骤:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任从文本信息中确定位置信息的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的从文本信息中确定位置信息的方法。
本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。该方法包括:获取目标文本信息,目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;基于概率序列、标签序列和预设的位置信息确定表,从样本信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种从文本信息中确定位置信息的方法的流程示意图;
图2为本发明实施例提供的一种从文本信息中确定位置信息装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高从文本信息中确定位置信息的精确度,本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。
下面首先对本发明实施例提供的一种从文本信息中确定位置信息的方法进行介绍。
本发明实施例提供了一种从文本信息中确定位置信息方法,该方法可以应用于任一包括本发明实施例所提供的预先训练好的位置信息模型的电子设备。其中,位置信息模型是通过预设训练集训练得到的模型,预设训练集可以包括多个样本文本信息,以及每一样本文本信息中包含的位置信息。
在实际应用中,当研发人员设计出某机器学习模型之后,可以通过对该模型进行多次训练,从而选择出模型中参数的最优值。在本发明实施例中,电子设备可以将预设的多个样本文本信息,以及各个样本文本信息中已经确定出的位置信息(本发明实施例中将其称为第一位置信息)作为本发明实施例所提供的位置信息模型的训练集。然后,电子设备可以将获取的多个样本文本信息作为本发明实施例中提供的位置信息模型的输入,并得将该模型输出的各个样本文本信息对应的位置信息,称为第二位置信息。之后,电子设备可以根据第一位置信息的数目和第二位置信息的数目,计算预设训练集对应的位置信息确定准确率;若确定准确率不小于预设确定准确率阈值,则结束训练,得到训练后的位置信息模型。之后,可以将待确定位置信息的目标文本信息作为训练后的位置信息模型的输入,则该模型的输出结果即为该目标文本信息中包含的位置信息。
参见图1,图1为本发明实施例提供的一种从文本信息中确定位置信息的方法,该方法包括以下步骤:
S101:获取目标文本信息。
其中,目标文本信息中可以包含多个字符。
S102:基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列。
其中,字典中可以包含字符与独热维度向量的映射关系。
在实施中,预设的独热维度字典中记录了多个字符,以及各个字符对应的参考独热维度向量。当电子设备获取到目标文本信息之后,可以针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量。然后,电子设备再将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在本发明实施例中,可以采用如下公式表示文本信息对应的字嵌入向量序列:
X=(x1,…,xi,…,xn)
其中,X为文本信息对应的字嵌入向量序列,xi为文本信息中包含的第i个字符对应的独热维度向量,i为文本信息中包含的字符的个数,i的取值可以为1,…,n。
可选的,本发明实施例提供了一种基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列的具体实现方式,可以包括步骤:
针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在实施中,字典中可以包含字符与独热维度向量的映射关系,即预设的独热维度字典中记录了多个字符,以及各个字符对应的参考独热维度向量。针对目标文本信息中包含的每个字符,电子设备可以先确定独热维度确定字典是否存在目标文本信息中包含的每个字符。若独热维度确定字典中存在目标文本信息中包含的字符,则将独热维度确定字典中记录的目标文本信息中包含的字符对应的参考独热维度向量,确定为该字符对应的独热维度向量。最后,将确定出的目标文本信息中包含的各个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
S103:将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列。
其中,完整隐层状态序列中可以包含每个字符对应的完整隐层状态。
在实施中,将上述S102确定出的目标文本信息中包含的各个字符对应的独热维度向量输入到预设的双向长短期记忆网络BILSTM算法,可以得到每个字符对应的完整隐层状态。将目标文本信息中包含的各个字符对应的完整隐层状态组成该目标文本信息对应的完整隐层状态序列。
可选的,本发明实施例中还提供了一种确定文本信息中包含的各个字符对应的完整隐层状态序列的具体实现方式,可以包括如下步骤:
将字嵌入向量序列输入到BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;针对每个字符,将每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到每个字符对应的完整隐层状态,并将确定出的各个字符对应的完整隐层状态组成目标文本信息对应的完整隐层状态序列。
其中,正向隐层状态序列中可以包含目标文本信息中包含的各个字符对应的正向隐层状态,反向隐层状态序列中可以包含目标文本信息中包含的各个字符对应的反向隐层状态。
在实施中,电子设备可以将字嵌入向量序列中包含的每个字符的独热维度向量依次作为预设的BILSTM算法的输入,并将该算法针对每个字符输出的两个结果作为该字符对应的正向隐层状态和该字符对应的反向隐层状态。然后,电子设备将该字符对应的正向隐层状态和反向隐层状态进行拼接,得到该字符对应的完整隐层状态。
举例而言,假设目标文本信息为“我在武汉”,字符“我”对应的正向隐层状态为
Figure BDA0002106581180000091
该字符对应的反向隐层状态为
Figure BDA0002106581180000092
则字符“我”对应的完整隐层状态为
Figure BDA0002106581180000093
S104:基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列。
在实施中,确定目标文本信息对应的特征序列的目的是为了确定每个字符对应的标签。而在预设的标签集中字符的标签的种类是固定的,且该固定值对应一个固定的维度,因此,当电子设备确定出每个字符对应的完整隐层状态之后,需要对其进行降维处理,使每个字符对应的完整隐层状态向量的维度和预设的标签集中字符的标签的种类的固定值对应维度一样。具体的,将上述步骤S103确定出的每个字符对应的完整隐层状态输入到预设的线性模型算法中,便可得到每个字符对应的特征向量。例如,假设字符“我”对应的完整隐层状态为64维的:d1:0.96026,…,dn:…,d64:0.82264763,则将字符“我”对应的完整隐层状态输入到线性模型算法(例如,深度学习网络中的线性算法)中,得到32维的向量:d1:0.96026,…,d32:0.1458689。之后,将上述目标文本信息中包含的每个字符对应的特征向量组合起来,得到目标文本信息对应的特征序列。
在本发明实施例中,可以将文本信息对应的特征序列表示为:
P=(p1,…,pi,…,pn)
其中,P为文本信息对应的特征序列,pi为文本信息中包含的第i个字符对应的特征向量,i为文本信息中包含的字符的个数,i的取值可以为1,…,n。
S105:将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列。
其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值。
在实施中,在上述S104确定出的每个字符对应的特征向量之后,电子设备可以先为上述目标文本信息设置一个初始标签序列,记为y=(y1,…,yi,…,yn)。其中,初始标签序列中包含的向量数目与目标文本信息中包含的字符数目相同,即电子设备为目标文本信息中包含的每个字符设置一个初始标签值。之后,电子设备可以根据如下公式(1)得到目标文本信息对应的标签序列。
在本发明实施例中,可以采用如下公式表示目标文本信息对应的标签序列:
Figure BDA0002106581180000101
其中,score(x,y)为文本信息对应的标签值,
Figure BDA0002106581180000102
为维比特算法中的第yi个标签到第yi+1标签的标签转移得分,yi为字符i的初始标签,
Figure BDA0002106581180000103
为字符i对应的概率,i的取值可以为0,…,n。
进一步的,电子设备将目标文本信息对应的标签序列(公式1)进行归一化处理,并将处理后的标签序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列。在本发明实施例中维比特算法的算法的公式可以表示成如下公式(2):
y*=argmax score(x,y’) (2)
其中,argmax score为最大值求参函数,y*为字符对应的概率值,该概率值表示该字符是否为位置信息,且y*的取值只有0和1,0代表字符不是位置信息,1代表字符为位置信息。
S106:基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息。
其中,位置信息确定表中可以包含位置信息与标签值的对应关系。
在实施中,预设的位置信息确定表中记录有多个词语,以及每个词语对应的唯一的起始标签和唯一的末尾标签。因此,当确定出目标文本信息中包含的字符中某两个或多个字符对应的标签与位置信息确定表中某个词语的起始标签和末尾标签一样时,则某两个或多个字符组合成词语,并将该词语作为目标文本信息对应的位置信息。具体的,在确定出目标文本信息中包含的各个字符对应的概率值之后,电子设备可以将概率值为1的多个字符提取出来,然后,在预设的位置信息确定表中查找是否存在上述确定出的概率值为1的每个字符的标签。若存在,则将上述确定出的概率值为1的字符中,标签与位置信息确定表中记录的某个词语的起始标签和末尾标签一样的多个字符,按照起始标签对应的字符在前,末尾标签对应的字符在后的顺序,将多个字符组合成词语,并将该词语确定为目标文本信息中包含的位置信息。
举例而言,目标文本信息“我在武汉”,其中,字符“我”对应的概率值为0,字符“在”对应的概率值为0,字符“武”对应的概率值为1,且其对应的标签为(1,0,1);字符“汉”对应的概率值为1,且其对应的标签为(0,1,0)。则根据预设的位置信息确定表中记录的词语“武汉”的起始标签(1,0,1)和末尾标签(0,1,0),可以确定出目标文本信息“我在武汉”中包含的位置信息为武汉。
其中,本发明实施例中字符的标签可以任何用于区分不同字符的标识字符,例如,1,a,(1,0,1)等,这里不做具体限定。
可选的,本发明实施例中还提供了一种在确定去目标文本信息中包含的位置信息之后,确定位置信息对应的位置信息类型的具体处理方式,具体可以包括如下步骤:
1、将概率序列输入到预设的卷积神经网络算法中,得到目标文本信息对应的位置信息类型序列;2、在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;3、若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
其中,策略库中可以包含位置信息类型序列与参考位置信息类型的对应关系。
在实施中,位置信息的种类大致可以分为:行政区地名、小区名、街巷名、标志物名。为了更准确的标识每个文本信息中的位置信息,本发明实施例在确定出目标文本信息中包含的位置信息之后,还可以确定该位置信息的类型。具体的,可以将上述S106确定出的目标文本信息中包含的每个字符对应的概率输入到预设的卷积神经网络算法中,从而得到目标文本信息对应的位置信息类型序列。然后,在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
在本发明实施例中,预设的卷积神经网络算法中的计算公式可以表示为如下公式:
V=conv2(W,X′,valid′)+b
其中,V为文本信息对应的位置信息类型序列,W为权重矩阵参数,valid′为卷积运算参数,b为偏置参数,conv2为卷积函数,X′为文本信息的矩阵。
本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。该方法包括:获取目标文本信息,目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;基于概率序列、标签序列和预设的位置信息确定表,从样本信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。
基于相同的技术构思,相应于图1所示的方法实施例,本发明实施例还提供了一种从文本信息中确定位置信息的装置,如图2所示,该装置包括:
获取模块201,用于获取目标文本信息,目标文本信息中包含多个字符;
字嵌入向量序列确定模块202,用于基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块203,用于将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;
特征序列得到模块204,用于基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列;
概率序列和标签序列得到模块205,用于将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;
位置信息确定模块206,用于基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。
在本发明实施例中,上述字嵌入向量序列确定模块,可以包括:
独热维度向量确定单元,用于针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在本发明实施例中,上述完整隐层状态序列得到模块,可以包括:
正反向隐层状态序列得到单元,用于将字嵌入向量序列输入到BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,正向隐层状态序列中包含目标文本信息中包含的各个字符对应的正向隐层状态,反向隐层状态序列中包含目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对每个字符,将每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到每个字符对应的完整隐层状态,并将确定出的各个字符对应的完整隐层状态组成目标文本信息对应的完整隐层状态序列。
在本发明实施例中,上述装置还可以包括:
将概率序列输入到预设的卷积神经网络算法中,得到目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;其中,策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取目标文本信息,目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;
将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列;
将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;
基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的从文本信息中确定位置信息的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任从文本信息中确定位置信息的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (7)

1.一种从文本信息中确定位置信息的方法,其特征在于,所述方法包括:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系;所述预设的位置信息确定表中记录有多个词语,以及每个词语对应的唯一的起始标签和唯一的末尾标签;
所述从所述目标信息文本中确定出位置信息,包括:
在确定出目标文本信息中包含的各个字符对应的概率值之后,将概率值为1的字符提取出来,在预设的位置信息确定表中查找是否存在确定出的所述概率值为1的字符的标签,若目标文本信息中包含的字符中存在某两个或多个字符对应的标签与位置信息确定表中某个词语的起始标签和末尾标签一样,则某两个或多个字符组合成词语,并将该词语作为目标文本信息对应的位置信息;
所述方法还包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,包括:
针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,包括:
将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
4.一种从文本信息中确定位置信息的装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;
字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块,用于将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含每个字符对应的完整隐层状态;
特征序列得到模块,用于基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
概率序列和标签序列得到模块,用于将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
位置信息确定模块,用于基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系;所述预设的位置信息确定表中记录有多个词语,以及每个词语对应的唯一的起始标签和唯一的末尾标签;
所述从所述目标信息文本中确定出位置信息,包括:
在确定出目标文本信息中包含的各个字符对应的概率值之后,将概率值为1的字符提取出来,在预设的位置信息确定表中查找是否存在确定出的所述概率值为1的字符的标签,若目标文本信息中包含的字符中存在某两个或多个字符对应的标签与位置信息确定表中某个词语的起始标签和末尾标签一样,则某两个或多个字符组合成词语,并将该词语作为目标文本信息对应的位置信息;
所述装置还包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
5.根据权利要求4所述的装置,其特征在于,所述字嵌入向量序列确定模块,包括:
独热维度向量确定单元,用于针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
6.根据权利要求4所述的装置,其特征在于,所述完整隐层状态序列得到模块,包括:
正反向隐层状态序列得到单元,用于将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-3任一所述的方法步骤。
CN201910554771.8A 2019-06-25 2019-06-25 一种从文本信息中确定位置信息的方法、装置及电子设备 Active CN110321560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910554771.8A CN110321560B (zh) 2019-06-25 2019-06-25 一种从文本信息中确定位置信息的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910554771.8A CN110321560B (zh) 2019-06-25 2019-06-25 一种从文本信息中确定位置信息的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110321560A CN110321560A (zh) 2019-10-11
CN110321560B true CN110321560B (zh) 2021-10-01

Family

ID=68121165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910554771.8A Active CN110321560B (zh) 2019-06-25 2019-06-25 一种从文本信息中确定位置信息的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110321560B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
CN111144370B (zh) * 2019-12-31 2023-08-04 科大讯飞华南人工智能研究院(广州)有限公司 单据要素抽取方法、装置、设备及存储介质
CN111174791A (zh) * 2020-01-09 2020-05-19 电子科技大学 一种基于双向长短期记忆网络的定位修正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
WO2018191301A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural networks for information extraction from transaction data
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189926B (zh) * 2018-08-28 2022-04-12 中山大学 一种科技论文语料库的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018191301A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural networks for information extraction from transaction data
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DL4NLP ——序列标注:BiLSTM-CRF模型做基于字的中文命名实体识别;Determined22;《http://www.cnblogs.com/Determined22/》;20171008;第1-6页 *
基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取;马建红 等;《计算机应用研究》;20190531;第36卷(第5期);第1385-1389、1395页 *

Also Published As

Publication number Publication date
CN110321560A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110321560B (zh) 一种从文本信息中确定位置信息的方法、装置及电子设备
CN109145153B (zh) 意图类别的识别方法和装置
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2022105122A1 (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN112307175B (zh) 一种文本处理方法、装置、服务器及计算机可读存储介质
CN111400516B (zh) 标签确定方法、电子设备及存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN107656627B (zh) 信息输入方法和装置
CN112632232B (zh) 一种文本匹配方法、装置、设备及介质
CN111061869B (zh) 一种基于TextRank的应用偏好文本分类方法
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113255319A (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN110765271B (zh) 一种实体发现与实体链接的联合处理方法及装置
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN111259126A (zh) 基于词语特征的相似度计算方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant