CN110321560A - 一种从文本信息中确定位置信息的方法、装置及电子设备 - Google Patents
一种从文本信息中确定位置信息的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110321560A CN110321560A CN201910554771.8A CN201910554771A CN110321560A CN 110321560 A CN110321560 A CN 110321560A CN 201910554771 A CN201910554771 A CN 201910554771A CN 110321560 A CN110321560 A CN 110321560A
- Authority
- CN
- China
- Prior art keywords
- sequence
- character
- hidden layer
- text information
- location information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。将目标文本信息对应的字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;基于概率序列、标签序列和预设的位置信息确定表,从目标文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种从文本信息中确定位置信息的方法、装置及电子设备。
背景技术
随着互联网的快速发展,网络上的文本信息也呈现爆炸式增长。由于文本信息中蕴含着标识用户位置的位置信息,因此,人们可以通过从用户发送的文本信息中提取位置信息,从而确定出用户所处的位置。
现有技术中,统计人员通过人工标注的方式,确定出语料库中各样本文本信息对应的位置信息。然后,将文本信息,及其对应的位置信息作为神经网络模型的输入,并对神经网络模型进行训练,从而得到各个词语是位置信息的概率算法,即得到训练后的用于确定位置信息的模型,从而实现从文本信息中确定位置信息的目的。
但是,通过现有技术训练后的用于确定位置信息的模型,得到文本信息中包含的位置信息的精确度较低。
发明内容
本发明实施例的目的在于提供一种从文本信息中确定位置信息的方法及装置,以提高从文本信息中确定位置信息的精确度。
具体技术方案如下:
第一方面,本发明实施例提供了一种从文本信息中确定位置信息的方法,所述方法包括:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
可选的,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,可以包括:
针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
可选的,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,可以包括:
将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
可选的,所述方法还可以包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
第二方面,本发明实施例提供了一种从文本信息中确定位置信息的装置,所述装置包括:
获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;
字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块,用于将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
特征序列得到模块,用于基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
概率序列和标签序列得到模块,用于将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
位置信息确定模块,用于基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
可选的,所述字嵌入向量序列确定模块,可以包括:
独热维度向量确定单元,用于针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
可选的,所述完整隐层状态序列得到模块,可以包括:
正反向隐层状态序列得到单元,用于将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
可选的,所述装置还可以包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现以下方法步骤:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任从文本信息中确定位置信息的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的从文本信息中确定位置信息的方法。
本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。该方法包括:获取目标文本信息,目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;基于概率序列、标签序列和预设的位置信息确定表,从样本信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种从文本信息中确定位置信息的方法的流程示意图;
图2为本发明实施例提供的一种从文本信息中确定位置信息装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高从文本信息中确定位置信息的精确度,本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。
下面首先对本发明实施例提供的一种从文本信息中确定位置信息的方法进行介绍。
本发明实施例提供了一种从文本信息中确定位置信息方法,该方法可以应用于任一包括本发明实施例所提供的预先训练好的位置信息模型的电子设备。其中,位置信息模型是通过预设训练集训练得到的模型,预设训练集可以包括多个样本文本信息,以及每一样本文本信息中包含的位置信息。
在实际应用中,当研发人员设计出某机器学习模型之后,可以通过对该模型进行多次训练,从而选择出模型中参数的最优值。在本发明实施例中,电子设备可以将预设的多个样本文本信息,以及各个样本文本信息中已经确定出的位置信息(本发明实施例中将其称为第一位置信息)作为本发明实施例所提供的位置信息模型的训练集。然后,电子设备可以将获取的多个样本文本信息作为本发明实施例中提供的位置信息模型的输入,并得将该模型输出的各个样本文本信息对应的位置信息,称为第二位置信息。之后,电子设备可以根据第一位置信息的数目和第二位置信息的数目,计算预设训练集对应的位置信息确定准确率;若确定准确率不小于预设确定准确率阈值,则结束训练,得到训练后的位置信息模型。之后,可以将待确定位置信息的目标文本信息作为训练后的位置信息模型的输入,则该模型的输出结果即为该目标文本信息中包含的位置信息。
参见图1,图1为本发明实施例提供的一种从文本信息中确定位置信息的方法,该方法包括以下步骤:
S101:获取目标文本信息。
其中,目标文本信息中可以包含多个字符。
S102:基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列。
其中,字典中可以包含字符与独热维度向量的映射关系。
在实施中,预设的独热维度字典中记录了多个字符,以及各个字符对应的参考独热维度向量。当电子设备获取到目标文本信息之后,可以针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量。然后,电子设备再将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在本发明实施例中,可以采用如下公式表示文本信息对应的字嵌入向量序列:
X=(x1,…,xi,…,xn)
其中,X为文本信息对应的字嵌入向量序列,xi为文本信息中包含的第i个字符对应的独热维度向量,i为文本信息中包含的字符的个数,i的取值可以为1,…,n。
可选的,本发明实施例提供了一种基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列的具体实现方式,可以包括步骤:
针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在实施中,字典中可以包含字符与独热维度向量的映射关系,即预设的独热维度字典中记录了多个字符,以及各个字符对应的参考独热维度向量。针对目标文本信息中包含的每个字符,电子设备可以先确定独热维度确定字典是否存在目标文本信息中包含的每个字符。若独热维度确定字典中存在目标文本信息中包含的字符,则将独热维度确定字典中记录的目标文本信息中包含的字符对应的参考独热维度向量,确定为该字符对应的独热维度向量。最后,将确定出的目标文本信息中包含的各个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
S103:将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列。
其中,完整隐层状态序列中可以包含每个字符对应的完整隐层状态。
在实施中,将上述S102确定出的目标文本信息中包含的各个字符对应的独热维度向量输入到预设的双向长短期记忆网络BILSTM算法,可以得到每个字符对应的完整隐层状态。将目标文本信息中包含的各个字符对应的完整隐层状态组成该目标文本信息对应的完整隐层状态序列。
可选的,本发明实施例中还提供了一种确定文本信息中包含的各个字符对应的完整隐层状态序列的具体实现方式,可以包括如下步骤:
将字嵌入向量序列输入到BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;针对每个字符,将每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到每个字符对应的完整隐层状态,并将确定出的各个字符对应的完整隐层状态组成目标文本信息对应的完整隐层状态序列。
其中,正向隐层状态序列中可以包含目标文本信息中包含的各个字符对应的正向隐层状态,反向隐层状态序列中可以包含目标文本信息中包含的各个字符对应的反向隐层状态。
在实施中,电子设备可以将字嵌入向量序列中包含的每个字符的独热维度向量依次作为预设的BILSTM算法的输入,并将该算法针对每个字符输出的两个结果作为该字符对应的正向隐层状态和该字符对应的反向隐层状态。然后,电子设备将该字符对应的正向隐层状态和反向隐层状态进行拼接,得到该字符对应的完整隐层状态。
举例而言,假设目标文本信息为“我在武汉”,字符“我”对应的正向隐层状态为该字符对应的反向隐层状态为则字符“我”对应的完整隐层状态为
S104:基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列。
在实施中,确定目标文本信息对应的特征序列的目的是为了确定每个字符对应的标签。而在预设的标签集中字符的标签的种类是固定的,且该固定值对应一个固定的维度,因此,当电子设备确定出每个字符对应的完整隐层状态之后,需要对其进行降维处理,使每个字符对应的完整隐层状态向量的维度和预设的标签集中字符的标签的种类的固定值对应维度一样。具体的,将上述步骤S103确定出的每个字符对应的完整隐层状态输入到预设的线性模型算法中,便可得到每个字符对应的特征向量。例如,假设字符“我”对应的完整隐层状态为64维的:d1:0.96026,….,dn:…,d64:0.82264763,则将字符“我”对应的完整隐层状态输入到线性模型算法(例如,深度学习网络中的线性算法)中,得到32维的向量:d1:0.96026,….,d32:0.1458689。之后,将上述目标文本信息中包含的每个字符对应的特征向量组合起来,得到目标文本信息对应的特征序列。
在本发明实施例中,可以将文本信息对应的特征序列表示为:
P=(p1,…,pi,…,pn)
其中,P为文本信息对应的特征序列,pi为文本信息中包含的第i个字符对应的特征向量,i为文本信息中包含的字符的个数,i的取值可以为1,…,n。
S105:将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列。
其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值。
在实施中,在上述S104确定出的每个字符对应的特征向量之后,电子设备可以先为上述目标文本信息设置一个初始标签序列,记为y=(y1,…,yi,…,yn)。其中,初始标签序列中包含的向量数目与目标文本信息中包含的字符数目相同,即电子设备为目标文本信息中包含的每个字符设置一个初始标签值。之后,电子设备可以根据如下公式(1)得到目标文本信息对应的标签序列。
在本发明实施例中,可以采用如下公式表示目标文本信息对应的标签序列:
其中,score(x,y)为文本信息对应的标签值,为维比特算法中的第yi个标签到第yi+1标签的标签转移得分,yi为字符i的初始标签,为字符i对应的概率,i的取值可以为0,…,n。
进一步的,电子设备将目标文本信息对应的标签序列(公式1)进行归一化处理,并将处理后的标签序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列。在本发明实施例中维比特算法的算法的公式可以表示成如下公式(2):
y*=argmax score(x,y’) (2)
其中,argmax score为最大值求参函数,y*为字符对应的概率值,该概率值表示该字符是否为位置信息,且y*的取值只有0和1,0代表字符不是位置信息,1代表字符为位置信息。
S106:基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息。
其中,位置信息确定表中可以包含位置信息与标签值的对应关系。
在实施中,预设的位置信息确定表中记录有多个词语,以及每个词语对应的唯一的起始标签和唯一的末尾标签。因此,当确定出目标文本信息中包含的字符中某两个或多个字符对应的标签与位置信息确定表中某个词语的起始标签和末尾标签一样时,则某两个或多个字符组合成词语,并将该词语作为目标文本信息对应的位置信息。具体的,在确定出目标文本信息中包含的各个字符对应的概率值之后,电子设备可以将概率值为1的多个字符提取出来,然后,在预设的位置信息确定表中查找是否存在上述确定出的概率值为1的每个字符的标签。若存在,则将上述确定出的概率值为1的字符中,标签与位置信息确定表中记录的某个词语的起始标签和末尾标签一样的多个字符,按照起始标签对应的字符在前,末尾标签对应的字符在后的顺序,将多个字符组合成词语,并将该词语确定为目标文本信息中包含的位置信息。
举例而言,目标文本信息“我在武汉”,其中,字符“我”对应的概率值为0,字符“在”对应的概率值为0,字符“武”对应的概率值为1,且其对应的标签为(1,0,1);字符“汉”对应的概率值为1,且其对应的标签为(0,1,0)。则根据预设的位置信息确定表中记录的词语“武汉”的起始标签(1,0,1)和末尾标签(0,1,0),可以确定出目标文本信息“我在武汉”中包含的位置信息为武汉。
其中,本发明实施例中字符的标签可以任何用于区分不同字符的标识字符,例如,1,a,(1,0,1)等,这里不做具体限定。
可选的,本发明实施例中还提供了一种在确定去目标文本信息中包含的位置信息之后,确定位置信息对应的位置信息类型的具体处理方式,具体可以包括如下步骤:
1、将概率序列输入到预设的卷积神经网络算法中,得到目标文本信息对应的位置信息类型序列;2、在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;3、若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
其中,策略库中可以包含位置信息类型序列与参考位置信息类型的对应关系。
在实施中,位置信息的种类大致可以分为:行政区地名、小区名、街巷名、标志物名。为了更准确的标识每个文本信息中的位置信息,本发明实施例在确定出目标文本信息中包含的位置信息之后,还可以确定该位置信息的类型。具体的,可以将上述S106确定出的目标文本信息中包含的每个字符对应的概率输入到预设的卷积神经网络算法中,从而得到目标文本信息对应的位置信息类型序列。然后,在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
在本发明实施例中,预设的卷积神经网络算法中的计算公式可以表示为如下公式:
V=conv2(W,X′,valid′)+b
其中,V为文本信息对应的位置信息类型序列,W为权重矩阵参数,valid′为卷积运算参数,b为偏置参数,conv2为卷积函数,X′为文本信息的矩阵。
本发明实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。该方法包括:获取目标文本信息,目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;基于概率序列、标签序列和预设的位置信息确定表,从样本信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。
基于相同的技术构思,相应于图1所示的方法实施例,本发明实施例还提供了一种从文本信息中确定位置信息的装置,如图2所示,该装置包括:
获取模块201,用于获取目标文本信息,目标文本信息中包含多个字符;
字嵌入向量序列确定模块202,用于基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块203,用于将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;
特征序列得到模块204,用于基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列;
概率序列和标签序列得到模块205,用于将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;
位置信息确定模块206,用于基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。
在本发明实施例中,上述字嵌入向量序列确定模块,可以包括:
独热维度向量确定单元,用于针对目标文本信息中包含的每个字符,在预设的独热维度确定字典中查找每个字符对应的参考独热维度向量,并将每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将每个字符对应的独热维度向量组成目标文本信息对应的字嵌入向量序列。
在本发明实施例中,上述完整隐层状态序列得到模块,可以包括:
正反向隐层状态序列得到单元,用于将字嵌入向量序列输入到BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,正向隐层状态序列中包含目标文本信息中包含的各个字符对应的正向隐层状态,反向隐层状态序列中包含目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对每个字符,将每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到每个字符对应的完整隐层状态,并将确定出的各个字符对应的完整隐层状态组成目标文本信息对应的完整隐层状态序列。
在本发明实施例中,上述装置还可以包括:
将概率序列输入到预设的卷积神经网络算法中,得到目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在位置信息类型序列对应的参考位置信息类型;其中,策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为目标文本信息中包含的位置信息对应的位置信息类型。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取目标文本信息,目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定目标文本信息对应的字嵌入向量序列;
将字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,其中,完整隐层状态序列中包含每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到目标文本信息对应的特征序列;
将特征序列输入到预设的维比特算法中,得到目标文本信息对应的概率序列和标签序列;其中,概率序列中包含各个字符对应的概率值,标签序列中包含各个字符对应的标签值;
基于概率序列、标签序列和预设的位置信息确定表,从目标信息文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的从文本信息中确定位置信息的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任从文本信息中确定位置信息的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种从文本信息中确定位置信息的方法,其特征在于,所述方法包括:
获取目标文本信息,所述目标文本信息中包含多个字符;
基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,包括:
针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,包括:
将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
5.一种从文本信息中确定位置信息的装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;
字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;
完整隐层状态序列得到模块,用于将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;
特征序列得到模块,用于基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;
概率序列和标签序列得到模块,用于将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;
位置信息确定模块,用于基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。
6.根据权利要求5所述的装置,其特征在于,所述字嵌入向量序列确定模块,包括:
独热维度向量确定单元,用于针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;
字嵌入向量序列确定单元,用于将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。
7.根据权利要求5所述的装置,其特征在于,所述完整隐层状态序列得到模块,包括:
正反向隐层状态序列得到单元,用于将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;
完整隐层状态序列确定单元,用于针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;
查找模块,用于在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;
位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554771.8A CN110321560B (zh) | 2019-06-25 | 2019-06-25 | 一种从文本信息中确定位置信息的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554771.8A CN110321560B (zh) | 2019-06-25 | 2019-06-25 | 一种从文本信息中确定位置信息的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110321560A true CN110321560A (zh) | 2019-10-11 |
CN110321560B CN110321560B (zh) | 2021-10-01 |
Family
ID=68121165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554771.8A Active CN110321560B (zh) | 2019-06-25 | 2019-06-25 | 一种从文本信息中确定位置信息的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321560B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111174791A (zh) * | 2020-01-09 | 2020-05-19 | 电子科技大学 | 一种基于双向长短期记忆网络的定位修正方法 |
CN112825129A (zh) * | 2019-11-20 | 2021-05-21 | Sap欧洲公司 | 用于文档处理的位置嵌入 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
WO2018191301A1 (en) * | 2017-04-12 | 2018-10-18 | Yodlee, Inc. | Neural networks for information extraction from transaction data |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
-
2019
- 2019-06-25 CN CN201910554771.8A patent/CN110321560B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018191301A1 (en) * | 2017-04-12 | 2018-10-18 | Yodlee, Inc. | Neural networks for information extraction from transaction data |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
Non-Patent Citations (2)
Title |
---|
DETERMINED22: "DL4NLP ——序列标注:BiLSTM-CRF模型做基于字的中文命名实体识别", 《HTTP://WWW.CNBLOGS.COM/DETERMINED22/》 * |
马建红 等: "基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取", 《计算机应用研究》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN112825129A (zh) * | 2019-11-20 | 2021-05-21 | Sap欧洲公司 | 用于文档处理的位置嵌入 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111144370B (zh) * | 2019-12-31 | 2023-08-04 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111174791A (zh) * | 2020-01-09 | 2020-05-19 | 电子科技大学 | 一种基于双向长短期记忆网络的定位修正方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110321560B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321560A (zh) | 一种从文本信息中确定位置信息的方法、装置及电子设备 | |
CN110442841B (zh) | 识别简历的方法及装置、计算机设备、存储介质 | |
US11762990B2 (en) | Unstructured text classification | |
CN113632092B (zh) | 实体识别的方法和装置、建立词典的方法、设备、介质 | |
Lane | Doing our own thinking for ourselves: On Quentin Skinner's genealogical turn | |
CN111291553A (zh) | 具有罕见词处理的神经机器翻译系统 | |
CN109492644A (zh) | 一种习题图像的匹配识别方法及终端设备 | |
CN109714356A (zh) | 一种异常域名的识别方法、装置及电子设备 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN107807915B (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN101996210A (zh) | 用于搜索电子地图的方法和系统 | |
CN103631889B (zh) | 一种图像识别方法和装置 | |
CN108681541A (zh) | 图片搜索方法、装置及计算机设备 | |
CN107491536A (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN102550049B (zh) | 通过动态学习提取规则来获取词表外的翻译 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN115314236A (zh) | 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法 | |
CN106888201A (zh) | 一种校验方法及装置 | |
CN108664501A (zh) | 广告审核方法、装置及服务器 | |
US20120005207A1 (en) | Method and system for web extraction | |
CN115374255A (zh) | 题目推荐方法、装置、设备及存储介质 | |
CN104462151A (zh) | 评估网页发布时间的方法和相关装置 | |
CN106951242A (zh) | 一种漏洞验证程序的生成方法、设备及计算设备 | |
CN113704421A (zh) | 信息检索方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |