CN108733636B - 文字中提取多元组的方法和装置 - Google Patents

文字中提取多元组的方法和装置 Download PDF

Info

Publication number
CN108733636B
CN108733636B CN201710280347.XA CN201710280347A CN108733636B CN 108733636 B CN108733636 B CN 108733636B CN 201710280347 A CN201710280347 A CN 201710280347A CN 108733636 B CN108733636 B CN 108733636B
Authority
CN
China
Prior art keywords
text
entity
network
vectors
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710280347.XA
Other languages
English (en)
Other versions
CN108733636A (zh
Inventor
林得苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pai Tech Co ltd
Original Assignee
Pai Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pai Tech Co ltd filed Critical Pai Tech Co ltd
Priority to CN201710280347.XA priority Critical patent/CN108733636B/zh
Publication of CN108733636A publication Critical patent/CN108733636A/zh
Application granted granted Critical
Publication of CN108733636B publication Critical patent/CN108733636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文字中提取多元组的方法和装置,涉及文本处理领域。该文字中提取多元组的方法,包括:将带有合法标识和非法标识的训练数据输入循环神经网络,得到网络参数;识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词;按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入多个子网络中,结合网络参数,得到各子网络输出的隐向量,前一子网络输出的隐向量为后一子网络的输入;将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;利用网络参数,对判断向量进行分类,得到分类结果;提取分类结果为合法的多元组,作为合法多元组。能够提高提取多元组的正确率。

Description

文字中提取多元组的方法和装置
技术领域
本发明涉及文本处理领域,尤其涉及一种文字中提取多元组的方法和装置。
背景技术
在日常工作、学习和生活中,会涉及到很多报表、声明、文件等文本,在这些文本中,重要的信息往往可以用多元组的形式表示。比如在“2013年度公司管理费用花费了2306万元”的文本中,可以提取一个三元组【2013年度,公司管理费用,2306万元】,在这个三元组中就可以将文本的重要信息囊括。
目前,为了提取文本中的多元组,会预先构建提取多元组的规则。比如,以提取三元组为例,首先将三元组的属性实体、时间实体和值实体初始化为空;按照从前往后的顺序扫描文本,获取文本中存在的实体;若实体为属性实体,则将该实体表示为最新的属性实体;若实体为值实体,则加入值实体的队列;若实体为时间实体,则加入时间实体的队列;若值实体的队列长度和时间实体的队列长度一致,且属性实体不为空,则提取出三元组【第i个时间实体,最新的属性实体,第i个值实体】。但是,但在文本中包含多个属性实体的情况下,按照上述规则进行三元组的提取,会出现错误。比如文本为“2013年度发行人营业收入、毛利润、毛利率分别为99340.49万元、64478.58万元、64.91%”,则按照上述规则,只能提取得到三元组【2013年度,毛利率,99340.49万元】,从文本的内容得知,这里提取出的是一个错误的三元组。在现有技术中,提取多元组的正确率较低。
发明内容
本发明实施例提供了一种文字中提取多元组的方法和装置,能够提高提取多元组的正确率。
第一方面,本发明实施例提供了一种文字中提取多元组的方法,包括:将带有类别标识的训练数据输入循环神经网络,训练得到循环神经网络的网络参数,带有类别标识的训练数据包括合法训练数据和非法训练数据,循环神经网络包括多个子网络;识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词,待测文本包括文字;按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入至多个子网络中,结合网络参数,得到各个子网络输出的隐向量,其中,前一个子网络的输出的隐向量作为后一个子网络的输入;将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;利用网络参数,对判断向量进行分类,得到分类结果,分类结果包括合法与非法;提取分类结果为合法的多元组,作为合法多元组。
第二方面,本发明实施例提供了一种文字中提取多元组的装置,包括:训练模块,被配置为将带有类别标识的训练数据输入循环神经网络,训练得到循环神经网络的网络参数,带有类别标识的训练数据包括合法训练数据和非法训练数据,循环神经网络包括多个子网络;拆分模块,被配置为识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词,待测文本包括文字;第一计算模块,被配置为按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入至多个子网络中,结合网络参数,得到各个子网络输出的隐向量,其中,前一个子网络的输出的隐向量作为后一个子网络的输入;第二计算模块,被配置为将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;分类模块,被配置为利用网络参数,对判断向量进行分类,得到分类结果,分类结果包括合法与非法;第一提取模块,被配置为提取分类结果为合法的多元组,作为合法多元组。
本发明实施例提供了一种文字中提取多元组的方法和装置,利用带有类别标识的训练数据,对循环神经网络进行训练,得到循环神经网络的网络参数。按照多元实体和除多元实体外的其他部分分词得到的词语在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入循环神经网络的子网络中,结合网络参数,得到各个子网络输出的隐向量。利用隐向量整合计算,得到判断向量,将判断向量分类,得到合法或非法的分类结果。提取分类结果为合法的多元组作为合法多元组。与按照预先构建的提取多元组的规则在文字中提取多元组的现有技术相比,本发明实施例利用循环神经网络,循环神经网络中的前一个子网络输出的隐向量作为后一个子网络的输入,将多元实体与待测文本中的其他部分建立联系。从而在训练循环神经网络得到网络参数时,能够获取各种类型的文本中的多元组的合法规律。从而使得更多类型的文本中合法的多元组能够被识别及提取,进而提高了提取多元组的正确率。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明一实施例文字中提取多元组的方法的流程图;
图2为本发明实施例一示例文字中提取三元组的方法的应用架构示意图;
图3为本发明另一实施例文字中提取多元组的方法的流程图;
图4为本发明又一实施例文字中提取多元组的方法的流程图;
图5为本发明一实施例文字中提取多元组的装置的结构示意图;
图6为本发明另一实施例文字中提取多元组的装置的结构示意图;
图7为本发明又一实施例文字中提取多元组的装置的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。
本发明实施例提供了一种文字中提取多元组的方法和装置。预先利用带有类别标识的训练数据训练循环神经网络。识别待测文本中的多元实体,将多元实体和待测文本中的其他部分输入训练后的循环神经网络中的各个子网络。通过子网络输出的隐向量,得到判断向量。利用神经循环网络的网络参数,对判断向量进行分类,提取分类结果为合法的多元组作为合法多元组。本发明实施例利用循环神经网络,将多元实体与待测文本中的其他部分建立联系,从而获取各种类型的文本中的多元组的合法规律。从而使得更多类型的文本中合法的多元组能够被识别及提取,进而提高了提取多元组的正确率。
图1为本发明一实施例文字中提取多元组的方法的流程图。如图1所示,文字中提取多元组的方法包括步骤101-步骤106。
在步骤101中,将带有类别标识的训练数据输入循环神经网络,训练得到循环神经网络的网络参数。
其中,带有类别标识的训练数据包括合法训练数据和非法训练数据。类别标识包括合法和非法,合法在这里表示正确,非法在这里表示错误。在一个示例中,合法训练数据可包括正确的多元组,非法训练数据可包括错误的多元组。
循环神经网络包括多个子网络。在一个示例中,循环神经网络可以为RNN(Recurrent Neural Networks,循环神经网络)。循环神经网络中的多个子网络依次顺序连接,前一个子网络的输出与后一个子网络的输入连接。也就是说,前一个子网络的输出可作为后一个子网络的输入,参与到后一个子网络的运算中。在一个示例中,多个子网络共用循环神经网络的网络参数,也就是说,多个子网络的网络参数是相同的。在一个示意性示例中,网络参数可为LSTM(Long Short-Term Memory长短期记忆)单元的参数。
在步骤102中,识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词。
其中,待测文本包括文字。这里的文字包括汉字、字母、数字、标点符号以及其他语言的文字。多元实体与本发明实施例中目的提取的多元组对应。在一个示例中,多元实体包括时间实体、属性实体、值实体、定语实体中的至少两项。在一个示例中,定语实体是修饰属性实体的,但并不限于此。
识别待测文本中的多元实体,还需要对待测文本中除多元实体外的其他部分进行分词。比如,待测文本为“2012年、2013年,公司销售额分别为100万元、200万元。”从中识别出的时间实体为“2012年”“2013年”,识别出的属性实体为“销售额”,识别出的值实体为“100万元”“200万元”,待测文本除多元实体外的其他部分分词后得到“、”“,”“公司”“分别”“为”“、”“。”。
在步骤103中,按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入至多个子网络中,结合网络参数,得到各个子网络输出的隐向量。
其中,按照多元实体以及分词后得到的词语在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入至多个子网络中。在一个示例中,设提取的是三元组,图2为本发明实施例一示例中三元组提取方法的应用架构示意图。如图2所示,其中,词向量w1、……、wi、……、wj、……、wk、……、wn为按照在待测文本中的排列顺序依次排列的多元实体的词向量和分词后得到的词语的词向量。由图2可得,多元实体的词向量和分词后得到的词语的词向量与循环神经网络中的各个子网络一一对应。
其中,wi、wj、wk均为多元实体的词向量。需要说明的是,训练循环神经网络得到的网络参数包括词向量。在一个示例中,多元实体和分词后的词语在预设的词典中均具有位置标识,词典中的位置标识对应有词向量。也就是说,多元实体和分词后的词语均对应有词向量。值得一提的是,若多元实体或分词后的词语与词典中的所有词语均不匹配,则将与词典中所有词语不匹配的多元实体的词向量或分词后的词语的词向量设为未知标识,比如,未知标识可以为unknown。当然,未知标识也可以用其他方式表示,在此并不限定。
具体的,词典中的位置标识可以为位置编号。比如,待测文本为“2012年、2013年,公司销售额分别为100万元、200万元。”,时间实体为“2012年”“2013年”,属性实体为“销售额”,值实体为“100万元”“200万元”。如下表一所示:
表一
Figure BDA0001278902360000061
表一中的标识均对应有词向量,不同的标识对应的词向量可不同。可以将表一中的标识对应的词向量输入至各个子网络中,从而得到各个子网络输出的隐向量。需要说明的是,前一个子网络的输出的隐向量可作为后一个子网络的输入。如图2所示,比如,对于子网络i来说,子网络i的输入包括在待测文本中的第i个词语的词向量和子网络i-1输出的隐向量hi-1
在步骤104中,将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量。
比如,若利用本发明实施例文字中提取多元组的方法提取到的多元组包括时间实体、属性实体和值实体,那么进行整合计算的隐向量包括时间实体对应的隐向量、属性实体对应的隐向量和值实体对应的隐向量。比如,如图2所示,多元实体的词向量包括wi、wj、wk,因此进行整合计算的隐向量包括hi、hj、hk,将进行整合计算hi、hj、hk,得到判断向量d。其中,整合计算是将两个以上的向量整合为一个向量的计算。
在步骤105中,利用网络参数,对判断向量进行分类,得到分类结果。
需要说明的是,在步骤101中通过训练得到的网络参数,在步骤105中可以作为分类的依据,对判断向量进行分类,从而得到分类结果。其中,分类结果包括合法与非法。也就是说,通过分类,可以得知参与整合计算的隐向量对应的多元实体组成的多元组是否为正确的多元组。若分类结果为合法,则表明参与整合计算的隐向量对应的多元实体组成的多元组为正确的多元组。若分类结果为非法,则表明参与整合计算的隐向量对应的多元实体组成的多元组为错误的多元组。在一个示例中,可以利用多维分类模型对判断向量进行分类,比如采用softmax分类模型。或者,也可以利用机器学习模型对判断向量进行分类,比如采用SVM(Support Vector Machine,支持向量机)模型。在一个示例中,分类结果可采用数字表示,数字1表示合法,数字0表示非法。分类结果也可以采用其他方式来表示,在此并不限定。
在步骤106中,提取分类结果为合法的多元组,作为合法多元组。
本发明实施例提供了一种文字中提取多元组的方法,利用带有类别标识的训练数据,对循环神经网络进行训练,得到循环神经网络的网络参数。按照多元实体和除多元实体外的其他部分分词得到的词语在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入循环神经网络的子网络中,结合网络参数,得到各个子网络输出的隐向量。利用隐向量整合计算,得到判断向量,将判断向量分类,得到合法或非法的分类结果。提取分类结果为合法的多元组作为合法多元组。与按照预先构建的提取多元组的规则来进行在文字中提取多元组的现有技术相比,本发明实施例利用循环神经网络,循环神经网络中的前一个子网络输出的隐向量作为后一个子网络的输入,将多元实体与待测文本中的其他部分建立联系。从而在训练循环神经网络得到网络参数时,能够获取各种类型的文本中的多元组的合法规律。从而使得更多类型的文本中合法的多元组能够被识别及提取,进而提高了提取多元组的正确率。
需要说明的是,提取出的合法多元组也可以作为合法训练数据输入循环神经网络,训练更新循环神经网络的参数,从而进一步丰富各种类型的文本中的多元组的合法规律,进一步提高提取多元组的正确率。
图3为本发明另一实施例文字中提取多元组的方法的流程图。图3与图1的不同之处在于,文字中提取多元组的方法还可包括步骤107,图1中的步骤104可具体细化为步骤1041或步骤1042。
在步骤107中,将多元实体排列组合,生成至少一个多元组。
其中,在待测文本中识别的多元实体的种类一般为两种以上。将不同种类的多元实体进行排列组合,生成至少一个多元组。比如,待测文本为“2012年、2013年,公司销售额分别为100万元、200万元。”则该待测文本中的多元实体有三种,分别为时间实体、属性实体、值实体。其中时间实体包括“2012年”和“2013年”,属性实体包括“销售额”,值实体包括“100万元”和“200万元”。因此将三种多元实体进行排列组合,可以得到2×1×2=4个三元组。这4个三元组分别为“2012年,销售额,100万元”“2012年,销售额,200万元”“2013年,销售额,100万元”和“2013年,销售额,200万元”。可将上述4个三元组中各个三元组的多元实体对应的隐向量进行整合计算,从而得到判断向量。通过判断向量分类,将分类结果为合法的三元组作为合法三元组提取。
在步骤1041中,计算组成多元组的多元实体对应的隐向量的均值向量,将均值向量作为判断向量。
在一个示例中,假设提取的多元组为三元组,hi、hj和hk为组成三元组的多元实体对应的隐向量,d为判断向量。则可以得到计算判断向量的公式(1):
d=(hi+hj+hk)/3 (1)
本示例中的判断向量d是利用均值算法计算得到的。
在步骤1042中,对组成多元组的多元实体对应的隐向量进行加权计算,将加权计算得到的向量作为判断向量。
在一个示例中,假设提取的多元组为三元组,hi、hj和hk为组成三元组的多元实体对应的隐向量,d为判断向量。则可以得到计算判断向量的公式(2):
d=hi×mi+hj×mj+hk×mk (2)
其中,mi、mj和mk均为加权系数,mi+mj+mk=1。本示例中的判断向量d是利用加权算法计算得到的。
但需要说明的是,获取判断向量的整合计算的计算方法包括但不限于上述两种方法,在此并不限定。能够将两个以上的隐向量整合为一个判断向量的算法均属于本发明实施例的保护范围。
图4为本发明又一实施例文字中提取多元组的方法的流程图。图4与图1的不同之处在于,文字中提取多元组的方法还包括步骤108-步骤110。
在步骤108中,从表格中提取多元组。
其中,待测文本包括与文字相配的表格。将表格中记载的多元组全部提取出来。由于从表格提取多元组的技术较为成熟,在此不再赘述。
在步骤109中,对比从表格中提取出的多元组与从文字中提取出的合法的多元组。
其中,在上述实施例的步骤中可提取出合法的多元组。将在步骤108中从表格中提取的多元组与从文字中提取出的合法的多元组进行对比。判断从表格中提取的多元组与从文字中提取出的合法的多元组是否一致。
在步骤110中,若从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,则生成提示信息。
若从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,表明从表格中提取出的多元组或从文字中提取出的多元组为错误的多元组,表明表格记载的多元组或文字记载的多元组出现错误。当从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,生成提示信息,提示报错,从而实现对表格中提取出的多元组或文字中提取的多元组的报错功能。
还可以将从表格中提取出的多元组与从文字中提取出的合法的多元组的不同之处作为表格或文字的错误输出。从而实现对表格中的多元组或文字中的多元组的纠错功能。
图5为本发明一实施例文字中提取多元组的装置200的结构示意图。如图5所示,文字中提取多元组的装置200包括训练模块201、拆分模块202、第一计算模块203、第二计算模块204、分类模块205和第一提取模块206。
其中,训练模块201,被配置为将带有类别标识的训练数据输入循环神经网络,训练得到循环神经网络的网络参数,带有类别标识的训练数据包括合法训练数据和非法训练数据,循环神经网络包括多个子网络。
拆分模块202,被配置为识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词,待测文本包括文字。
第一计算模块203,被配置为按照在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入至多个子网络中,结合网络参数,得到各个子网络输出的隐向量,其中,前一个子网络的输出的隐向量作为后一个子网络的输入。
第二计算模块204,被配置为将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量。
分类模块205,被配置为利用网络参数,对判断向量进行分类,得到分类结果,分类结果包括合法与非法。
第一提取模块206,被配置为提取分类结果为合法的多元组,作为合法多元组。
本发明实施例提供了一种文字中提取多元组的装置200,训练模块201利用带有类别标识的训练数据,对循环神经网络进行训练,得到循环神经网络的网络参数。第一计算模块203按照拆分模块202识别出的多元实体和分词后除多元实体外的其他部分分词得到的词语在待测文本中的排列顺序,将多元实体的词向量和分词后得到的词语的词向量一一对应输入循环神经网络的子网络中,结合网络参数,得到各个子网络输出的隐向量。第二计算模块204利用隐向量整合计算,得到判断向量。分类模块205将判断向量分类,得到合法或非法的分类结果。第一提取模块206提取分类结果为合法的多元组作为合法多元组。与按照预先构建的提取多元组的规则来进行在文字中提取多元组的现有技术相比,本发明实施例利用循环神经网络,循环神经网络中的前一个子网络输出的隐向量作为后一个子网络的输入,将多元实体与待测文本中的其他部分建立联系。从而在训练循环神经网络得到网络参数时,能够获取各种类型的文本中的多元组的合法规律。从而使得更多类型的文本中合法的多元组能够被识别及提取,进而提高了提取多元组的正确率。
在一个示例中,多元实体包括时间实体、属性实体、值实体、定语实体中的至少两项。
图6为本发明另一实施例文字中提取多元组的装置200的结构示意图。图6与图5的不同之处在于,文字中提取多元组的装置200还包括多元组生成模块207。
其中,多元组生成模块207,被配置为将多元实体排列组合,生成至少一个多元组。
需要说明的是,上述实施例中的第二计算模块204可包括第一计算单元2041或第二计算单元2042。
其中,第一计算单元2041,被配置为计算组成多元组的多元实体对应的隐向量的均值向量,将均值向量作为判断向量。
第二计算单元2042,被配置为对组成多元组的多元实体对应的隐向量进行加权计算,将加权计算得到的向量作为判断向量。
图7为本发明又一实施例文字中提取多元组的装置200的结构示意图。图7与图5的不同之处在于,文字中提取多元组的装置200还包括第二提取模块208、对比模块209和报错模块210。
第二提取模块208,被配置为从表格中提取多元组。
其中,待测文本还包括与文字相配的表格。
对比模块209,被配置为对比从表格中提取出的多元组与从文字中提取出的合法的多元组。
报错模块210,被配置为若从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,则生成提示信息。
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言,相关之处可以参见方法实施例的说明部分。本发明并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
以上的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

Claims (8)

1.一种文字中提取多元组的方法,其特征在于,包括:
将带有类别标识的训练数据输入循环神经网络,训练得到所述循环神经网络的网络参数,所述带有类别标识的训练数据包括合法训练数据和非法训练数据,所述循环神经网络包括多个子网络;
识别待测文本中的多元实体,并对所述待测文本中除所述多元实体外的其他部分进行分词,所述待测文本包括文字;
按照在所述待测文本中的排列顺序,将所述多元实体的词向量和分词后得到的词语的词向量一一对应输入至所述多个子网络中,结合所述网络参数,得到各个所述子网络输出的隐向量,其中,前一个子网络的输出的隐向量作为后一个子网络的输入;
将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;
利用所述网络参数,对判断向量进行分类,得到分类结果,所述分类结果包括合法与非法;
提取所述分类结果为合法的所述多元组,作为合法多元组;
所述将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量,包括:
计算组成所述多元组的多元实体对应的隐向量的均值向量,将所述均值向量作为所述判断向量;
或者,
对组成所述多元组的多元实体对应的隐向量进行加权计算,将加权计算得到的向量作为所述判断向量。
2.根据权利要求1所述的方法,其特征在于,所述多元实体包括时间实体、属性实体、值实体、定语实体中的至少两项。
3.根据权利要求1所述的方法,其特征在于,所述将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量之前,还包括:
将多元实体排列组合,生成至少一个所述多元组。
4.根据权利要求1所述的方法,其特征在于,所述待测文本还包括与文字相配的表格,所述方法还包括:
从表格中提取多元组;
对比从所述表格中提取出的多元组与从所述文字中提取出的合法的多元组;
若从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,则生成提示信息。
5.一种文字中提取多元组的装置,其特征在于,包括:
训练模块,被配置为将带有类别标识的训练数据输入循环神经网络,训练得到所述循环神经网络的网络参数,所述带有类别标识的训练数据包括合法训练数据和非法训练数据,所述循环神经网络包括多个子网络;
拆分模块,被配置为识别待测文本中的多元实体,并对所述待测文本中除所述多元实体外的其他部分进行分词,所述待测文本包括文字;
第一计算模块,被配置为按照在所述待测文本中的排列顺序,将所述多元实体的词向量和分词后得到的词语的词向量一一对应输入至所述多个子网络中,结合所述网络参数,得到各个所述子网络输出的隐向量,其中,前一个子网络的输出的隐向量作为后一个子网络的输入;
第二计算模块,被配置为将组成多元组的多元实体对应的隐向量进行整合计算,得到判断向量;
分类模块,被配置为利用所述网络参数,对判断向量进行分类,得到分类结果,所述分类结果包括合法与非法;
第一提取模块,被配置为提取所述分类结果为合法的所述多元组,作为合法多元组;
所述第二计算模块,包括:
第一计算单元,被配置为计算组成所述多元组的多元实体对应的隐向量的均值向量,将所述均值向量作为所述判断向量;
或者,
第二计算单元,被配置为对组成所述多元组的多元实体对应的隐向量进行加权计算,将加权计算得到的向量作为所述判断向量。
6.根据权利要求5所述的装置,其特征在于,所述多元实体包括时间实体、属性实体、值实体、定语实体中的至少两项。
7.根据权利要求5所述的装置,其特征在于,还包括:
多元组生成模块,被配置为将多元实体排列组合,生成至少一个所述多元组。
8.根据权利要求5所述的装置,其特征在于,所述待测文本还包括与文字相配的表格,所述装置还包括:
第二提取模块,被配置为从表格中提取多元组;
对比模块,被配置为对比从所述表格中提取出的多元组与从所述文字中提取出的合法的多元组;
纠错模块,被配置为若从表格中提取出的多元组与从文字中提取出的合法的多元组不一致,则生成提示信息。
CN201710280347.XA 2017-04-25 2017-04-25 文字中提取多元组的方法和装置 Active CN108733636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710280347.XA CN108733636B (zh) 2017-04-25 2017-04-25 文字中提取多元组的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710280347.XA CN108733636B (zh) 2017-04-25 2017-04-25 文字中提取多元组的方法和装置

Publications (2)

Publication Number Publication Date
CN108733636A CN108733636A (zh) 2018-11-02
CN108733636B true CN108733636B (zh) 2021-07-13

Family

ID=63934675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710280347.XA Active CN108733636B (zh) 2017-04-25 2017-04-25 文字中提取多元组的方法和装置

Country Status (1)

Country Link
CN (1) CN108733636B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701888B (zh) * 2023-08-09 2023-10-17 国网浙江省电力有限公司丽水供电公司 清洁能源企业的辅助模型数据处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106294325A (zh) * 2016-08-11 2017-01-04 海信集团有限公司 自然语言生成语句的优化方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106294325A (zh) * 2016-08-11 2017-01-04 海信集团有限公司 自然语言生成语句的优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于多元组鉴别文本语种的方法;刘敏等;《计算机应用》;20051231;第25卷;全文 *

Also Published As

Publication number Publication date
CN108733636A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN106992969A (zh) 基于域名字符串统计特征的dga生成域名的检测方法
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
WO2021031825A1 (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
US20200065573A1 (en) Generating variations of a known shred
Ting et al. Towards the detection of cyberbullying based on social network mining techniques
WO2019080661A1 (zh) 用户意图识别方法及装置
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN110929203B (zh) 异常用户的识别方法、装置、设备及存储介质
CN112989035A (zh) 基于文本分类识别用户意图的方法、装置及存储介质
CN110175851A (zh) 一种作弊行为检测方法及装置
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
US20130151239A1 (en) Orthographical variant detection apparatus and orthographical variant detection program
CN117093698B (zh) 基于知识库的对话生成方法、装置、电子设备及存储介质
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN114050912A (zh) 一种基于深度强化学习的恶意域名检测方法和装置
CN111553241A (zh) 掌纹的误匹配点剔除方法、装置、设备及存储介质
JP6962123B2 (ja) ラベル推定装置及びラベル推定プログラム
CN108733636B (zh) 文字中提取多元组的方法和装置
Ishitani Model matching based on association graph for form image understanding
US20170039484A1 (en) Generating negative classifier data based on positive classifier data
CN112070793A (zh) 一种目标提取方法及装置
CN112633173A (zh) 待混淆文本的处理方法、装置、设备及存储介质
CN112883703B (zh) 一种识别关联文本的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant