CN108959235A - 文字中获取表达式的方法和装置 - Google Patents
文字中获取表达式的方法和装置 Download PDFInfo
- Publication number
- CN108959235A CN108959235A CN201710358003.6A CN201710358003A CN108959235A CN 108959235 A CN108959235 A CN 108959235A CN 201710358003 A CN201710358003 A CN 201710358003A CN 108959235 A CN108959235 A CN 108959235A
- Authority
- CN
- China
- Prior art keywords
- node
- layers
- measured
- operator
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文字中获取表达式的方法和装置,涉及人工智能领域。该文字中获取表达式的方法包括:在待测文本中提取得到N个待测词语,将待测词语的词向量作为一层运算的节点;将一层运算中第i个节点、一层运算中第1个节点至第i‑1个节点以及运算符集输入至循环神经网络子网络中,得到二层运算的节点;根据二层运算的节点,确定一层运算中的有效运算符;直至经过多层运算,得到M+1层运算的节点,且根据M+1层运算的节点,得到M层运算中的有效运算符的个数为0为止;根据一层运算中的有效运算符至M‑1层运算中的有效运算符,以及与有效节点对应的词语,生成表达式。能够提高文本的核对效率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种文字中获取表达式的方法和装置。
背景技术
在日常工作、学习和生活中,会涉及到很多报表、声明、文件等文本,在这些文本中,重要的信息往往可以是文本中的一些实体。比如在“2013年度公司管理费用花费了2306万元”的文本中,实体“2013年度”、实体“公司管理费用”和实体“2306万元”就可以将文本的重要信息囊括。
在一些文本中,文本中的多元组内的一些实体是基于其他实体以及文字中叙述的关系得出的。在文本撰写完成后,为了避免文本中出现错误,需要工作人员人工进行检查。实体之间的关系也需要工作人员一一核对或计算。比如,文本中“2013年度、2014年度、2015年度和2016年1-3月,货币资金占当期总资产的比重分别为18.40%、19.75%、15.49%和11.96%”的句子中,工作人员需要阅读后人工总结表达式,从而计算出货币资金占当期总资产的比重,从而与文本中的“18.40%”“19.75%”“15.49%”和“11.96%”进行核对。由于报表、声明、文件等文本往往内容较多,工作人员需要花费大量时间才能够完成文本的核对。导致文本的核对效率较低。
发明内容
本发明实施例提供了一种文字中获取表达式的方法和装置,能够减少文本核对花费的时间,从而提高文本的核对效率。
一方面,本发明实施例提供一种文字中获取表达式的方法,包括:按照在待测文本中的排列顺序,在待测文本中提取得到N个待测词语,将N个待测词语的词向量作为一层运算的N个节点,待测文本包括文字,N为大于1的整数;将一层运算中的第i个节点、一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,二层运算的节点为一层运算中子网络输出的隐向量,运算符集包括运算符的词向量,i为整数,且1≤i≤N;根据二层运算的节点,确定一层运算中的有效运算符;直至将M层运算的节点中的第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且根据M+1层运算的节点,得到M层运算中的有效运算符的个数为0为止,M+1层运算的节点为M层运算中上述子网络输出的隐向量,M和j均为大于1的整数;根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中表达式,有效节点为与有效运算符对应的节点。
另一方面,本发明实施例提供一种文字中获取表达式的装置,包括:提取模块,被配置为按照在待测文本中的排列顺序,在待测文本中提取得到N个待测词语,将N个待测词语的词向量作为一层运算的N个节点,待测文本包括文字,N为大于1的整数;运算模块,被配置为将一层运算中的第i个节点、一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,二层运算的节点为一层运算中子网络输出的隐向量,运算符集包括运算符的词向量,i为整数,且1≤i≤N;确定模块,被配置为根据二层运算的节点,确定一层运算中的有效运算符;运算模块还被配置为直至将M层运算的节点中的第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且确定模块根据M+1层运算的节点,得到M层运算中的有效运算符的个数为0为止,M+1层运算的节点为M层运算中上述子网络输出的隐向量,M和j均为大于1的整数;表达式生成模块,被配置为根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中表达式,有效节点为与有效运算符对应的节点。
本发明实施例提供了一种文字中获取表达式的方法和装置,在待测文本中提取N个待测词语,将N个待测词语的词向量作为一层运算的N个节点。将一层运算中的任意一个节点与各节点之前的节点以及预设的运算符集输入循环神经网络的子网络中。将子网络输出的隐向量作为二层运算的节点,并根据二层运算的节点,确定一层运算中的有效运算符。依次类推,直至将M层运算中第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且M层运算中的有效运算符为0个为止。根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中的表达式。与需要人工总结表达式的现有技术相比,本发明实施例利用循环神经网络对待测文本中的待测词语以及预设的运算符集进行处理,根据处理中得到的有效运算符和有效节点对应的词语,总结得到待测文本中的表达式。不再需要工作人员花费大量时间总结表达式,然后才能完成文本核对。减少了文本核对花费的时间,从而提高了文本的核对效率。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明一实施例中文字中获取表达式的方法的流程图;
图2为本发明另一实施例中文字中获取表达式的方法的流程图;
图3为本发明实施例的文字中获取表达式中运算的举例示意图;
图4为本发明又一实施例中文字中获取表达式的方法的流程图;
图5为本发明一实施例中文字中获取表达式的装置的结构示意图;
图6为本发明另一实施例中文字中获取表达式的装置的结构示意图;
图7为本发明又一实施例中文字中获取表达式的装置的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。
图1为本发明一实施例中文字中获取表达式的方法的流程图。如图1所示,文字中获取表达式的方法包括步骤101-步骤105。
在步骤101中,按照在待测文本中的排列顺序,在待测文本中提取得到N个待测词语,将N个待测词语的词向量作为一层运算的N个节点。
其中,待测文本包括文字,N为大于1的整数。在一个示例中,可以对待测文本进行分词,分词后可得到一个以上的词语。可将所有分词得到的词语均作为待测词语,也可以在分词后得到的词语中选取部分词语作为待测词语。每个待测词语均具有各自对应的词向量。一个待测词语的词向量为一层运算中的一个节点。
在步骤102中,将一层运算中的第i个节点、一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点。
其中,二层运算的节点为一层运算中子网络输出的隐向量,i为整数,且1≤i≤N。步骤102试图得到一层运算中每个节点与该节点之前的节点之间的运算关系。预设的运算符集中包括一个以上的运算符的词向量。需要说明的是,运算符不仅可包括数学运算符,比如“+”“-”“×”“÷”“>”“<”等,也包括一些运算关系符,比如“反减”“反除”等。运算符还可包括逻辑关系运算符,比如某种对应关系。当然,运算符还可以为其他类型的运算符,在此并不限定。
比如,待测文本为“2014年的销售额较2013年的销售额增加了50万”,则“2014年的销售额”与“2013年的销售额”在该待测文本中是减法关系,即“2014年的销售额”“-”“2013年的销售额”。
又比如,待测文本为“2014年的销售额较2013年的销售额减少了50万”,则“2014年的销售额”与“2013年的销售额”在该待测文本中是反减关系,即“2013年的销售额”“-”“2014年的销售额”。
还比如,待测文本为“2014年的销售额较2013年的销售额增加了50万”,其中“2014年”与“销售额”在该待测文本中是对应关系。
在一个示例中,对于循环神经网络中的一个子网络,输入节点A1与节点A1之前的一个节点A2,并输入运算符集中的一个运算符的词向量,该子网络可以输出一个隐向量。在输入节点A1与节点A1之前的一个节点A2的基础上,再输入运算符集中的另一个运算符的词向量,该子网络可以输出另一个隐向量。
在步骤103中,根据二层运算的节点,确定一层运算中的有效运算符。
其中,二层运算的节点为一层运算中输出的隐向量。隐向量可指示生成该隐向量所输入的两个节点的关系是否与输入的运算符相符。隐向量还可以看作生成该隐向量所输入的两个节点与输入的运算符的组合的词向量。
有效运算符为与输入的两个节点的关系相符的运算符。在一个实施例中,可以利用利用机器学习的方法得到确定运算中的有效运算符的规则,判断二层运算的节点是否符合确定的规则,若二层运算中的某个节点符合确定的规则,则该节点对应的一层运算中的运算符为有效运算符。
在步骤104中,直至将M层运算的节点中的第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且根据M+1层运算的节点,得到M层运算中的有效运算符的个数为0为止。
其中,M+1层运算的节点为M层运算中上述子网络输出的隐向量,M和j均为大于1的整数,且j小于等于M层运算中节点的总数。在步骤103中确定了一层运算的有效运算符后,再次利用二层运算的节点以及运算符集,得到三层运算的节点,并根据三层运算的节点,确定二层运算中的有效运算符。以此类推,直至得到的M层运算中无有效运算符为止,一层运算至M-1层运算中的有效运算符可以指示一层运算至M-1层运算中的各个节点之间的运算关系。
在步骤105中,根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中表达式。
其中,有效节点为与有效运算符对应的节点。也就是说,有效节点为与有效运算符输入同一子网络中的节点。一层运算至M-1层运算中的有效运算符可以指示一层运算至M-1层运算中的各个节点之间的运算关系。有效节点指示运算关系针对的对象。因此,根据一层运算中的有效运算符、二层运算中的有效运算符、……、M-1层运算中的有效运算符,以及有效节点对应的词语,可以生成待测文本中的表达式。在一个示例中,有效节点对应的词语可以为待测词语,也可以为两个以上的待测词语组合成的新词语。
比如,根据在一层运算得到的二层运算的节点,可得到一层运算的有效运算符。若一层运算的有效运算符的数目为0,则不需要二层运算。若一层运算的有效运算符的数目大于0,则进行二层运算。根据二层运算的节点得到的三层运算的节点,可得到二层运算中的有效运算符。若二层运算中的有效运算符的数目为0,则不需下一层运算,利用一层运算中的有效运算符以及有效节点对应的词语,生成待测文本中表达式。若二层运算中的有效运算符的数目大于0,则进行三层运算。根据三层运算的节点得到的四层运算的节点,可得到三层运算中的有效运算符。若三层运算中的有效运算符的数目为0,则不需下一层运算,利用一层运算中的有效运算符、二层运算中的有效运算符以及有效节点对应的词语,生成待测文本中表达式。若三层运算中的有效运算符的数目大于0,则进行四层运算。以此类推,直至计算到某一层运算的有效运算符的数目为0为止,利用该层运算之前的所有层运算的有效运算符和有效节点,生成待测文本中的表达式。
比如,待测文本为“2014年的销售额较2013年的销售额增加了50万”。从待测文本中提取出待测词语“2014年”“销售额”“较”“2013年”“销售额”“增加”“50万”,将上述7个待测词语各自对应的词向量作为一层运算的节点,运算符集中包括减法运算、对应关系与相等关系。经过一层运算,可以得到“2014年”和“销售额”之间的运算符为有效运算符,且该有效运算符为对应关系。同理,“2013年”和“销售额”之间的运算符为有效运算符,且该有效运算符为对应关系。在二层运算中,“2014年”和“销售额”两者的词向量可组成新的节点,该节点对应的待测词语可表示为“2014年销售额”。“2013年”和“销售额”两者的词向量可组成新的节点,该节点对应的待测词语可表示为“2013年销售额”。根据运算符集与二层运算中的节点之间在循环神经网络的子网络运算,可以得到“2014年销售额”与“2013年销售额”之间为减法关系,能够得到表达式“2014年销售额-2013年销售额=50万”。
在一个示例中,循环神经网络可以为RNN(Recurrent Neural Networks,循环神经网络)。循环神经网络中的子网络共用循环神经网络的网络参数。比如,网络参数可以为LSTM(Long Short-Term Memory长短期记忆)单元的参数。
本发明实施例提供了一种文字中获取表达式的方法,在待测文本中提取N个待测词语,将N个待测词语的词向量作为一层运算的N个节点。将一层运算中的任意一个节点与各节点之前的节点以及预设的运算符集输入循环神经网络的子网络中。将子网络输出的隐向量作为二层运算的节点,并根据二层运算的节点,确定一层运算中的有效运算符。依次类推,直至将M层运算中第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且M层运算中的有效运算符为0个为止。根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中的表达式。与需要人工总结表达式的现有技术相比,本发明实施例利用循环神经网络对待测文本中的待测词语以及预设的运算符集进行处理,根据处理中得到的有效运算符和有效节点对应的词语,总结得到待测文本中的表达式。不再需要工作人员花费大量时间总结表达式,然后才能完成文本核对。减少了文本核对花费的时间,从而提高了文本的核对效率。
图2为本发明另一实施例中文字中获取表达式的方法的流程图。图2与图1的不同之处在于,图1中的步骤101可具体细化为图2中的步骤1011,图1中的步骤102可具体细化为图2中的步骤1021和步骤1022,图1中的步骤103可具体细化为图2中的步骤1031和步骤1032。
在步骤1011中,在待测本文中提取N个多元实体,将N个多元实体作为N个待测词语,将N个待测词语的词向量作为一层运算的N个节点。
其中,在待测文本中可通过分词得到一个以上的词语,但在分词得到的词语中存在与待测本文中重要信息无关的词语。待测文本中的重要信息可为多元实体,比如时间实体、属性实体和值实体等。因此,可以将多元实体作为待测词语,其他与重要信息无关的词语可以去除。
比如,待测文本为“2013年度、2014年度、2015年度和2016年1-3月,货币资金占当期总资产的比重分别为18.40%、19.75%、15.49%和11.96%。”待测文本分词后可以得到词语“2013年度”“、”“2014年度”“、”“2015年度”“和”“2016年1-3月”“,”“货币资金”“占”“当期”“总资产”“的”“比重”“分别”“为”“18.40%”“、”“19.75%”“、”“15.49%”“和”“11.96%”以及“。”。其中,时间实体包括“2013年度”“2014年度”“2015年度”“2016年1-3月”,属性实体包括“货币资金”“总资产”“比重”,值实体包括“18.40%”“19.75%”“15.49%”“11.96%”。则可以将上述时间实体、属性实体和值实体作为待测词语。
在步骤1021中,将一层运算中的第i个节点分别与一层运算中的第1个节点至第i-1个节点组合,对应输入循环神经网络的i-1个子网络中。
其中,针对一层运算中的任意一个节点,均按照步骤1021处理。一个子网络可进行两个节点与运算符集中的运算符的词向量的运算。比如,一层运算中具有3个节点,按顺序分别为节点D1、节点D2和节点D3。那么i=2时,可以将节点D2与节点D1输入子网络A1;i=3时,将节点D3和节点D1输入子网络A2,将节点D3和节点D2输入子网络A3。
在步骤1022中,对于每一个子网络,将预设的运算符集中的运算符的词向量依次输入子网络,得到子网络输出的二层运算的节点。
在一个示例中,在一层运算中,对于一个子网络,每次可进行两个节点和一个运算符的词向量的运算,得到一个二层运算的节点。也就是说,一个子网络输出的二层运算的节点的数目与预设的运算符集中的运算符的数目相等。比如,一层运算中具有3个节点,按顺序分别为节点D1、节点D2和节点D3。运算符集包括2个运算符的词向量。子网络A1可根据节点D2、节点D1与第1个运算符的词向量运算得到一个二层运算的节点,子网络A1还可根据节点D2、节点D1与第2个运算符的词向量运算得到一个二层运算的节点。也就是说,子网络A1输出2个二层运算的节点。二层运算的节点可表示与二层运算的该节点对应的一层运算的两个节点之间的关系。
在步骤1031中,对二层运算的节点进行分类,得到分类结果。
其中,分类结果包括一层运算的节点与运算符集中的运算符的词向量匹配或一层运算的节点与运算符集中的运算符的词向量不匹配。通过分类,可以得知两个节点之间的关系是否与运算符集中的运算符相符。在一个示例中,可以利用多维分类模型对二层运算的节点进行分类,比如采用softmax分类模型。或者,也可以利用机器学习模型对判断向量进行分类,比如采用SVM(Support Vector Machine,支持向量机)模型。在一个示例中,分类结果可采用数字表示,数字1表示一层运算的节点与运算符集中的运算符的词向量匹配,数字0表示一层运算的节点与运算符集中的运算符的词向量不匹配。分类结果也可以采用其他方式来表示,在此并不限定。
在步骤1032中,将与运算符集中的运算符的词向量匹配的二层运算的节点对应的运算符作为一层运算中的有效运算符。
在一个示例中,分类结果为1,表示一层运算的节点与运算符集中的运算符的词向量匹配。分类结果为0,表示一层运算的节点与运算符集中的运算符的词向量不匹配。则可将分类结果为1的二层运算的节点对应的运算符作为一层运算的有效运算符。
在一个示例中,对于二层运算的有效运算符的获取方法如下,将二层运算中的第i个节点分别与二层运算中的第1个节点至第i-1个节点组合以及一层运算中的各个节点,对应输入循环神经网络的多个子网络中。对于每一个子网络,将预设的运算符集中的运算符的词向量依次输入子网络,得到子网络输出的三层运算的节点。对三层运算的节点进行分类,得到分类结果。将与运算符集中的运算符的词向量匹配的三层运算的节点对应的运算符作为二层运算中的有效运算符。
比如,一层运算的节点共3个,按顺序分别为节点D1、节点D2和节点D3。运算符集包括2个运算符的词向量。根据一层运算的节点以及预设的运算符集,假设得到二层运算的节点共2个,按顺序分别为节点D4和节点D5。对于二层运算,节点D4与节点D1输入一个子网络,该子网络根据节点D4、节点D1和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D4、节点D1和第2个运算符的词向量,得到一个三层运算的节点。节点D4与节点D2输入一个子网络,该子网络根据节点D4、节点D2和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D4、节点D2和第2个运算符的词向量,得到一个三层运算的节点。节点D4与节点D3输入一个子网络,该子网络根据节点D4、节点D3和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D4、节点D3和第2个运算符的词向量,得到一个三层运算的节点。节点D5与节点D1输入一个子网络,该子网络根据节点D5、节点D1和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D5、节点D1和第2个运算符的词向量,得到一个三层运算的节点。节点D5与节点D2输入一个子网络,该子网络根据节点D5、节点D2和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D5、节点D2和第2个运算符的词向量,得到一个三层运算的节点。节点D5与节点D3输入一个子网络,该子网络根据节点D5、节点D3和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D5、节点D3和第2个运算符的词向量,得到一个三层运算的节点。节点D5与节点D4输入一个子网络,该子网络根据节点D5、节点D4和第1个运算符的词向量,得到一个三层运算的节点。该子网络根据节点D5、节点D4和第2个运算符的词向量,得到一个三层运算的节点。
需要说明的是,对于三层运算、四层运算……、M层运算的有效运算符的获取方法均与二层运算类似,在此不再赘述。
图3为本发明实施例的文字中获取表达式中运算的举例示意图。待测文本包括文字“2013年度、2014年度、2015年度和2016年1-3月,货币资金占当期总资产的比重分别为18.40%、19.75%、15.49%和11.96%。”。为了便于说明,图3中的二层运算只标明了有效节点对应的词语以及有效运算符,三层运算也只表明了有效节点对应的词语以及有效运算符。且图3中一层运算的有效运算符为对应关系运算符,并未标出。如图3所示,一层运算后得到的而运算中的有效节点对应的词语包括“2013年度货币资金”“2014年度货币资金”“2015年度货币资金”“2016年1-3月货币资金”“2013年度总资产”“2014年度总资产”“2015年度总资产”和“2016年1-3月总资产”。以二层运算的节点对应的词语“2013年度货币资金”为例,“2013年度货币资金”为一层运算的节点对应的词语“2013年度”、“货币资金”以及一层运算的有效运算符(这里为对应关系运算符)组合而成。通过二层运算,根据得到的三层运算的节点的分类结果,得到二层运算的有效运算符。如图3所示,二层运算的有效运算符包括4个“/”(即除法运算符)。可以得到三层运算中的有效节点对应的词语。如图3所示,三层运算中的有效节点对应的词语包括“2013年度货币资金/2013年度总资产”“2014年度货币资金/2014年度总资产”“2015年度货币资金/2015年度总资产”和“2016年1-3月货币资金/2016年1-3月总资产”。三层运算中的有效节点与一层运算中的节点以及二层运算中的节点分别通过循环神经网络的子网络运算,得到四层运算的节点。通过对四层运算的节点的分类结果,可得到三层运算的有效运算符包括4个“=”(即相等运算符)。四层运算中的有效运算符的数目为0,则不需要再利用四层运算的节点运算得到五层运算的节点。根据一层运算的有效运算符、二层运算的有效运算符、三层运算的有效运算符和与有效节点对应的词语,可以得到4个表达式,分别为表达式(1)至表达式(4)。表达式如下:
2013年度货币资金/2013年度总资产=18.40%(1)
2014年度货币资金/2014年度总资产=19.75%(2)
2015年度货币资金/2015年度总资产=15.49%(3)
2016年1-3月货币资金/2016年1-3月总资产=11.96%(4)
图4为本发明又一实施例中文字中获取表达式的方法的流程图。图4与图1的不同之处在于,文字中获取表达式的方法还包括步骤106至步骤108。
在步骤106中,在表格或文字中提取与表达式中相关词语对应的待测元素。
其中,相关词语为与表达式中的有效节点对应的词语。
在一个示例中,待测文本可能会重复说明某一部分,可将重复说明的部分中提取的与表达式中相关词语对应的文字作为待测元素。
在一个示例中,待测文本还可包括表格。可以从表格中提取与表达式中相关词语对应的待测元素。比如,待测文本包括文字“2013年度、2014年度、2015年度和2016年1-3月,货币资金占当期总资产的比重分别为18.40%、19.75%、15.49%和11.96%。”。待测文本中还包括与该文字对应的表格,与该文字对应的表格为表一,如下:
表一
货币资金(万元) | 总资产(万元) | |
2013年度 | 18.4 | 100 |
2014年度 | 25.675 | 130 |
2015年度 | 20.36 | 180 |
2016年1-3月 | 7.176 | 60 |
其中,表一中的值为与表达式中相关词语对应的待测元素。提取表一中的值,为后续步骤做准备。
在步骤107中,将待测元素代入表达式,判断代入待测元素的表达式是否成立。
其中,表达式成立可以表示表达式某一运算符号两侧的待测元素的运算与该运算符号完全相符。表达式成立也可以表示表达式某一运算符号两侧的待测元素的运算与该运算符号的差异在允许范围内,以保证待测元素有时可能涉及到的某些数位的四舍五入以及其他估算方式。
在步骤108中,若代入待测元素的表达式不成立,则生成用于提示表格或文字出现错误的提示消息。
比如,待测文本中包括的表格为表一。表达式为表达式(1)至表达式(4)。将表一中的待测元素代入表达式(1)至表达式(4)。得到表达式(5)至表达式(8):
18.4/100=18.40%(5)
25.675/130=19.75%(6)
20.36/180=15.49%(7)
7.176/60=11.96%(8)
可由处理器进行表达式(5)至表达式(8)的计算,得到的结果为:表达式(5)、表达式(6)和表达式(8)成立,表达式(7)不成立。则可以生成提示消息。提示消息可以为图像消息,也可以为声音消息,在此并不限定。比如,可以将表格中与表达式(7)对应的待测元素全部标为红色。便于用户查找修改。
需要说明的是,若代入待测元素的表达式成立,则不需生成提示消息。
在本发明实施例中,能够进行文字与对应的表格之间具有较复杂的运算关系的数据的核对,不需要人工逐步核对,能够由电子设备进行文字与对应的表格之间具有较复杂的运算关系的数据的核对。提高了核对的速度,并提高了核对的正确率。
图5为本发明一实施例中文字中获取表达式的装置200的结构示意图。如图5所示,文字中获取表达式的装置200包括提取模块201、运算模块202、确定模块203和表达式生成模块204。
其中,提取模块201,被配置为按照在待测文本中的排列顺序,在待测文本中提取得到N个待测词语,将N个待测词语的词向量作为一层运算的N个节点,待测文本包括文字,N为大于1的整数。
运算模块202,被配置为将一层运算中的第i个节点、一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,二层运算的节点为一层运算中子网络输出的隐向量,运算符集包括运算符的词向量,i为整数,且1≤i≤N。
确定模块203,被配置为根据二层运算的节点,确定一层运算中的有效运算符。
运算模块202还被配置为直至将M层运算的节点中的第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且确定模块203根据M+1层运算的节点,得到M层运算中的有效运算符的个数为0为止,M+1层运算的节点为M层运算中上述子网络输出的隐向量,M和j均为大于1的整数。
表达式生成模块204,被配置为根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中表达式,有效节点为与有效运算符对应的节点。
本发明实施例提供了一种文字中获取表达式的装置200,提取模块201在待测文本中提取N个待测词语,将N个待测词语的词向量作为一层运算的N个节点。运算模块202将一层运算中的任意一个节点与各节点之前的节点以及预设的运算符集输入循环神经网络的子网络中,将子网络输出的隐向量作为二层运算的节点。确定模块203根据二层运算的节点,确定一层运算中的有效运算符。依次类推,直至将M层运算中第j个节点、M层运算的节点中的第1个节点至第j-1个节点、一层运算的节点至M-1层运算的节点以及运算符集输入至循环神经网络的子网络中,得到M+1层运算的节点,且M层运算中的有效运算符为0个为止。表达式生成模块204根据一层运算中的有效运算符至M-1层运算中的有效运算符,以及与有效节点对应的词语,生成待测文本中的表达式。与需要人工总结表达式的现有技术相比,本发明实施例利用循环神经网络对待测文本中的待测词语以及预设的运算符集进行处理,根据处理中得到的有效运算符和有效节点对应的词语,总结得到待测文本中的表达式。不再需要工作人员花费大量时间总结表达式,然后才能完成文本核对。减少了文本核对花费的时间,从而提高了文本的核对效率。
图6为本发明另一实施例中文字中获取表达式的装置200的结构示意图。图6与图5的不同之处在于,图6中的运算模块202包括输入单元2021和运算单元2022,图6中的确定模块203包括分类单元2031和确定单元2032。
输入单元2021,被配置为将一层运算中的第i个节点分别与一层运算中的第1个节点至第i-1个节点组合,对应输入循环神经网络的i-1个子网络中。
运算单元2022,被配置为对于每一个子网络,将预设的运算符集中的运算符的词向量依次输入子网络,得到子网络输出的二层运算的节点。
分类单元2031,被配置为对二层运算的节点进行分类,得到分类结果,分类结果包括与运算符集中的运算符的词向量匹配或与运算符集中的运算符的词向量不匹配。
确定单元2032,被配置为将与运算符集中的运算符的词向量匹配的二层运算的节点对应的运算符作为一层运算中的有效运算符。
需要说明的是,上述实施例中的提取模块201具体被配置为:在待测本文中提取N个多元实体,将N个多元实体作为N个待测词语。
图7为本发明又一实施例中文字中获取表达式的装置200的结构示意图。图7与图5的不同之处在于,文字中获取表达式的装置200还可包括元素提取模块205、判断模块206和提示生成模块207。
其中,元素提取模块205,被配置为在表格或文字中提取与表达式中相关词语对应的待测元素,相关词语为与表达式中的有效节点对应的词语,待测文本还包括表格。
判断模块206,被配置为将待测元素代入表达式,判断代入待测元素的表达式是否成立。
提示生成模块207,被配置为若代入待测元素的表达式不成立,则生成用于提示表格或文字出现错误的提示消息。
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言,相关之处可以参见方法实施例的说明部分。本发明并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
以上所述的结构框图中所示的功能模块和功能单元可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。
Claims (10)
1.一种文字中获取表达式的方法,其特征在于,包括:
按照在所述待测文本中的排列顺序,在所述待测文本中提取得到N个待测词语,将所述N个待测词语的词向量作为一层运算的N个节点,所述待测文本包括文字,N为大于1的整数;
将所述一层运算中的第i个节点、所述一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,所述二层运算的节点为一层运算中所述子网络输出的隐向量,所述运算符集包括运算符的词向量,i为整数,且1≤i≤N;
根据所述二层运算的节点,确定所述一层运算中的有效运算符;
直至将M层运算的节点中的第j个节点、所述M层运算的节点中的第1个节点至第j-1个节点、所述一层运算的节点至所述M-1层运算的节点以及所述运算符集输入至所述循环神经网络的子网络中,得到M+1层运算的节点,且根据所述M+1层运算的节点,得到所述M层运算中的有效运算符的个数为0为止,所述M+1层运算的节点为所述M层运算中上述子网络输出的隐向量,M和j均为大于1的整数;
根据所述一层运算中的有效运算符至所述M-1层运算中的有效运算符,以及与所述有效节点对应的词语,生成所述待测文本中表达式,所述有效节点为与所述有效运算符对应的节点。
2.根据权利要求1所述的方法,其特征在于,所述在所述待测文本中提取得到N个待测词语,包括:
在所述待测本文中提取N个多元实体,将所述N个多元实体作为所述N个待测词语。
3.根据权利要求1所述的方法,其特征在于,所述将所述一层运算中的第i个节点、所述一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,包括:
将所述一层运算中的第i个节点分别与所述一层运算中的第1个节点至第i-1个节点组合,对应输入循环神经网络的i-1个子网络中;
对于每一个子网络,将预设的运算符集中的运算符的词向量依次输入子网络,得到子网络输出的所述二层运算的节点。
4.根据权利要求1所述的方法,其特征在于,所述根据所述二层运算的节点,确定所述一层运算中的有效运算符,包括:
对所述二层运算的节点进行分类,得到分类结果,所述分类结果包括与所述运算符集中的运算符的词向量匹配或与所述运算符集中的运算符的词向量不匹配;
将与所述运算符集中的运算符的词向量匹配的所述二层运算的节点对应的运算符作为所述一层运算中的有效运算符。
5.根据权利要求1所述的方法,其特征在于,还包括:
在所述表格或所述文字中提取与所述表达式中相关词语对应的待测元素,所述相关词语为与所述表达式中的所述有效节点对应的词语,所述待测文本还包括表格;
将所述待测元素代入所述表达式,判断代入所述待测元素的表达式是否成立;
若代入所述待测元素的表达式不成立,则生成用于提示所述表格或所述文字出现错误的提示消息。
6.一种文字中获取表达式的装置,其特征在于,包括:
提取模块,被配置为按照在所述待测文本中的排列顺序,在所述待测文本中提取得到N个待测词语,将所述N个待测词语的词向量作为一层运算的N个节点,所述待测文本包括文字,N为大于1的整数;
运算模块,被配置为将所述一层运算中的第i个节点、所述一层运算中的第1个节点至第i-1个节点以及预设的运算符集输入至循环神经网络的子网络中,得到二层运算的节点,所述二层运算的节点为一层运算中所述子网络输出的隐向量,所述运算符集包括运算符的词向量,i为整数,且1≤i≤N;
确定模块,被配置为根据所述二层运算的节点,确定所述一层运算中的有效运算符;
所述运算模块还被配置为直至将M层运算的节点中的第j个节点、所述M层运算的节点中的第1个节点至第j-1个节点、所述一层运算的节点至所述M-1层运算的节点以及所述运算符集输入至所述循环神经网络的子网络中,得到M+1层运算的节点,且所述确定模块根据所述M+1层运算的节点,得到所述M层运算中的有效运算符的个数为0为止,所述M+1层运算的节点为所述M层运算中上述子网络输出的隐向量,M和j均为大于1的整数;
表达式生成模块,被配置为根据所述一层运算中的有效运算符至所述M-1层运算中的有效运算符,以及与所述有效节点对应的词语,生成所述待测文本中表达式,所述有效节点为与所述有效运算符对应的节点。
7.根据权利要求6所述的装置,其特征在于,所述提取模块具体被配置为:
在所述待测本文中提取N个多元实体,将所述N个多元实体作为所述N个待测词语。
8.根据权利要求6所述的装置,其特征在于,所述运算模块,包括:
输入单元,被配置为将所述一层运算中的第i个节点分别与所述一层运算中的第1个节点至第i-1个节点组合,对应输入循环神经网络的i-1个子网络中;
运算单元,被配置为对于每一个子网络,将预设的运算符集中的运算符的词向量依次输入子网络,得到子网络输出的所述二层运算的节点。
9.根据权利要求6所述的装置,其特征在于,所述确定模块,包括:
分类单元,被配置为对所述二层运算的节点进行分类,得到分类结果,所述分类结果包括与所述运算符集中的运算符的词向量匹配或与所述运算符集中的运算符的词向量不匹配;
确定单元,被配置为将与所述运算符集中的运算符的词向量匹配的所述二层运算的节点对应的运算符作为所述一层运算中的有效运算符。
10.根据权利要求6所述的装置,其特征在于,还包括:
元素提取模块,被配置为在所述表格或所述文字中提取与所述表达式中相关词语对应的待测元素,所述相关词语为与所述表达式中的所述有效节点对应的词语,所述待测文本还包括表格;
判断模块,被配置为将所述待测元素代入所述表达式,判断代入所述待测元素的表达式是否成立;
提示生成模块,被配置为若代入所述待测元素的表达式不成立,则生成用于提示所述表格或所述文字出现错误的提示消息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710358003.6A CN108959235B (zh) | 2017-05-19 | 2017-05-19 | 文字中获取表达式的方法和装置 |
US15/947,802 US11227000B2 (en) | 2017-05-19 | 2018-04-07 | Method and apparatus for obtaining an expression from characters |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710358003.6A CN108959235B (zh) | 2017-05-19 | 2017-05-19 | 文字中获取表达式的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959235A true CN108959235A (zh) | 2018-12-07 |
CN108959235B CN108959235B (zh) | 2021-10-19 |
Family
ID=64271780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710358003.6A Active CN108959235B (zh) | 2017-05-19 | 2017-05-19 | 文字中获取表达式的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11227000B2 (zh) |
CN (1) | CN108959235B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101416182A (zh) * | 2003-10-22 | 2009-04-22 | 英特尔公司 | 表达式分组和求值 |
US20110029471A1 (en) * | 2009-07-30 | 2011-02-03 | Nec Laboratories America, Inc. | Dynamically configurable, multi-ported co-processor for convolutional neural networks |
CN106155996A (zh) * | 2016-07-08 | 2016-11-23 | 上海卓易科技股份有限公司 | 一种本地便签的生成方法及装置 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108604227B (zh) * | 2016-01-26 | 2023-10-24 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
US10254935B2 (en) * | 2016-06-29 | 2019-04-09 | Google Llc | Systems and methods of providing content selection |
US10664695B2 (en) * | 2016-10-26 | 2020-05-26 | Myscript | System and method for managing digital ink typesetting |
-
2017
- 2017-05-19 CN CN201710358003.6A patent/CN108959235B/zh active Active
-
2018
- 2018-04-07 US US15/947,802 patent/US11227000B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101416182A (zh) * | 2003-10-22 | 2009-04-22 | 英特尔公司 | 表达式分组和求值 |
US20110029471A1 (en) * | 2009-07-30 | 2011-02-03 | Nec Laboratories America, Inc. | Dynamically configurable, multi-ported co-processor for convolutional neural networks |
CN106155996A (zh) * | 2016-07-08 | 2016-11-23 | 上海卓易科技股份有限公司 | 一种本地便签的生成方法及装置 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
Non-Patent Citations (1)
Title |
---|
张建华等: "计算机应用研究", 《计算机应用研究》 * |
Also Published As
Publication number | Publication date |
---|---|
US11227000B2 (en) | 2022-01-18 |
CN108959235B (zh) | 2021-10-19 |
US20180336205A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banerjee et al. | Detection of cyberbullying using deep neural network | |
Hao et al. | Self-attention attribution: Interpreting information interactions inside transformer | |
Tay et al. | Compare, compress and propagate: Enhancing neural architectures with alignment factorization for natural language inference | |
CN110543374B (zh) | 使用人工智能机制进行集中式数据协调 | |
CN107885874A (zh) | 数据查询方法和装置、计算机设备及计算机可读存储介质 | |
CN106919555A (zh) | 用于日志流内包含的数据的字段提取的系统和方法 | |
CN109992668A (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
CN107679997A (zh) | 医疗理赔拒付方法、装置、终端设备及存储介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN106776503A (zh) | 文本语义相似度的确定方法及装置 | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN110264038A (zh) | 一种产品测评模型的生成方法及设备 | |
CN108228622A (zh) | 业务问题的分类方法及装置 | |
CN107770783A (zh) | 一种基站扩容改造方案设计方法及相关设备 | |
WO2020063524A1 (zh) | 一种法律文书的确定方法及系统 | |
CN109284500A (zh) | 基于招商工作流程和阅读偏好的信息推送系统及方法 | |
CN109117891B (zh) | 融合社交关系和命名特征的跨社交媒体账户匹配方法 | |
CN110110213A (zh) | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 | |
WO2023272862A1 (zh) | 基于网络行为数据的风控识别方法、装置、电子设备及介质 | |
CN115859302A (zh) | 源代码漏洞检测方法、装置、设备及存储介质 | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN112163098A (zh) | 一种知识图谱的创建方法、装置、存储介质和服务器 | |
Le Thi et al. | Machine learning using context vectors for object coreference resolution | |
CN110489759A (zh) | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |