CN111159417A - 文本内容关键信息的提取方法、装置、设备及存储介质 - Google Patents
文本内容关键信息的提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111159417A CN111159417A CN202010262555.9A CN202010262555A CN111159417A CN 111159417 A CN111159417 A CN 111159417A CN 202010262555 A CN202010262555 A CN 202010262555A CN 111159417 A CN111159417 A CN 111159417A
- Authority
- CN
- China
- Prior art keywords
- text content
- key information
- executing
- neural network
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本内容关键信息的提取方法、装置、设备及存储介质。文本内容关键信息的提取方法包括:步骤S10,获取待提取关键信息的文本内容;步骤S20,利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作;步骤S30,利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
Description
技术领域
本发明涉及信息技术领域,特别是涉及文本内容关键信息的提取方法、装置、设备及存储介质。
背景技术
随着信息技术的不断发展,日常生活中产生的信息类型、信息量越来越多,因此在较多场景下存在从各式各样的信息中提取所需内容的需求,现有技术中,对信息中的关键内容进行提取时一般采用正则表达式处理,其通过针对不同范式的信息写不同的正则表达式来提取信息中的关键内容,由于正则表达式是根据特定范式的信息来撰写的,因此对于少量的、特殊范式的信息,能够用专门定制的正则表达式来较为快速且准确地提取所需的信息内容,但正则表达式无法穷尽信息的各种特殊情况且当面对大量的不同范式的信息文本时,需要人工来写大量的正则表达式,耗时耗力。
除了采用正则表达式外,现有技术中也出现了采用大数据处理、神经网络技术对信息中的关键内容进行提取的技术,其通过对大量的样本及标注训练出一个神经网络模型来提取信息中的关键内容,但该项技术通常需要极为庞大的训练集和较高的标注质量才能训练出一个较为准确的神经网络模型,对于通过某些类数量极少或者标注有误的样本训练出的神经网络模型,其是无法准确地提取所需信息内容的。
发明内容
基于此,有必要针对上述的问题,提供一种文本内容关键信息的提取方法、装置、计算机设备及存储介质,充分利用正则表达式和神经网络技术对信息的关键内容进行提取时的优点,优势互补,规避各自自身的不足之处,大幅度提高关键信息内容提取的准确率和效率。
根据本发明实施例第一方面,提供一种文本内容关键信息的提取方法,所述方法包括:步骤S10,获取待提取关键信息的文本内容;步骤S20,利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作;步骤S30,利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
根据本发明一实施方式,神经网络模型的训练过程如下:获取某一类别的样本文本内容,其中所述样本文本内容中的词语为采用序列标注规则标注好的词语;将所述样本文本内容经过词向量模型后得到相应的样本向量信息;将所述样本向量信息送入神经网络模型进行模型训练以得到与该类别的文本内容对应的所述神经网络模型。
根据本发明一实施方式,利用分类器对所述文本内容进行分类包括:
利用逻辑回归分类器和/或正则表达式对所述文本内容进行分类。
根据本发明一实施方式,步骤S20包括:利用逻辑回归分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则执行步骤S201;步骤S201:利用正则表达式对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作。
根据本发明一实施方式,所述步骤S30包括:利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S301,否则执行步骤S40;其中,所述步骤S301包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则执行步骤S40;所述步骤S40包括:利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S401,否则不执行任何操作;其中,所述步骤S401包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则不执行任何操作。
根据本发明一实施方式,该方法适用于手机短信中的文本内容关键信息的提取。
根据本发明一实施方式,神经网络模型为长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型。
根据本发明实施例第二方面,还提供一种文本内容关键信息的提取装置,该装置包括:获取单元,用于获取待提取关键信息的文本内容;分类单元,用于利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则指令第一提取单元执行关键信息提取,否则不执行任何操作;第一提取单元,用于利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则指令第二提取单元执行关键信息提取;第二提取单元,用于利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
根据本发明实施例第三方面,又提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
根据本发明实施例第四方面,又提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
本发明提出的文本内容关键信息的提取方法及装置,将神经网络技术与正则表达式完美结合,充分利用其各自的优点,优势互补,同时规避自身的不足之处,能大幅度提高关键信息提取的准确率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例文本内容关键信息的提取方法的流程示意图;
图2示出了本发明实施例文本内容关键信息的提取方法中步骤S20的流程示意图;
图3示出了本发明实施例文本内容关键信息的提取方法中步骤S40的流程示意图;
图4示出了本发明实施例文本内容关键信息的提取方法中步骤S30的流程示意图;
图5示出了本发明实施例文本内容关键信息的提取装置的组成结构图;
图6示出了本发明实施例文本内容关键信息的提取装置中分类单元的结构图;
图7示出了本发明实施例文本内容关键信息的提取装置中第一提取单元的结构图;
图8示出了本发明实施例文本内容关键信息的提取装置中第二提取单元的结构图;
图9示出了本发明另一个实施例文本内容关键信息的提取装置的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种文本内容关键信息的提取方法。请参阅图1,是本发明一个实施例中文本内容关键信息的提取方法的流程示意图。
如图1所示,该方法包括步骤S10~步骤S40。
步骤S10、获取待提取关键信息的文本内容。
具体地,文本内容是由语言文字组成的内容,文本内容是需要进行关键信息提取的。文本内容可以是通过短信、邮箱或者即时通讯软件接收到的,也可以是通过第三方数据平台获取到的,例如通过聚合类平台获取到的文本信息,还可以是用户自己提供的文本内容,具体不做限制。关键信息是指需要提取的信息,关键信息可以根据用户的关注度、喜好等因素进行确定,例如可以将用户关注度高的信息作为关键信息。
在一个实施例中,文本内容是对信息进行进一步处理得到的。例如可以对图片中的文本内容进行识别,得到待提取关键信息的文本内容,或者,对语音进行识别,得到的待提取关键信息的文本内容等。
步骤S20、利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作。
具体地,不同场景下的文本内容,其所对应的关键信息也不相同。例如对于银行账单通知类短信文本内容,根据用户的关注度可以将还款日期和还款金额作为关键信息。再例如,对于上市公司的公告文本类文本内容(例如年报、定向增发等),根据用户的自定义需求可以将“会议时间”、“召集方”、“董监高出席”、“议案名称”等信息作为此类文本内容的关键信息。又例如,对于研究报告、评论文章类文本内容,通常可以将文本的核心观点作为文本内容的关键信息。
本实施例中的所述分类器可以是预先通过样本数据训练得到的神经网络模型分类器,例如基于概率方式(比如采用Softmax算法)进行分类的神经网络模型分类器。
本实施例中的所述分类器还可以是逻辑回归(Logistic Regression, LR)分类器。另外,利用正则表达式进行分类处理的分类器也可以作为本实施例中所述分类器。上述分类器既可以单独使用,也可以一起使用,分类器的个数及使用方式不作具体限制。
本实施例中,为了实现对所述文本内容的分类,可以使用多个分类器并对分类器的使用作出一定的顺序安排,例如,可以先利用逻辑回归分类器对所述文本内容进行分类,若没有得到所述文本内容的类别再利用正则表达式对所述文本内容进行分类。具体地,如图2所示,利用逻辑回归分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则执行步骤S201;其中,步骤S201:利用正则表达式对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作。
本实施例中,通过使用分类器技术确定分类后,再进行文本内容的关键信息提取处理,因此在进行提取时只加载了相关分类的神经网络模型和正则表达式,能大幅减少内存占用和大幅度提高关键信息提取速度。
步骤S30、利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;
人工神经网络由大量的神经元相互联接构成,每个神经元代表一种特定的输出函数,称为激励函数(activation function)。每两个神经元间的连接都代表一个对于通过该两个连接神经元的加权值,称之为权重,这相当于人工神经网络的记忆。
具体地,本实施例中,神经网络可以是具有自学习功能的任意一种神经网络。例如神经网络可以是反向传播(back propagation, BP)神经网络、卷积神经网络(convolutional neural networks, CNN)、残差网络(residual network)等,也可以是传统GAN中的生成网络、条件生成式对抗网络(conditional generative adversarialnetworks, CGAN)中生成网络、深度卷积生成式对抗网络(deep convolutionalgenerative adversarial networks, DCGAN)中的生成网络、沃瑟斯坦生成式对抗网络(wasserstein generative adversarial networks, WGAN)中的生成网络等,在此不做限制。
在一实施例中,神经网络模型可以是卷积神经网络(CNN)模型。CNN在本质上是一种输入到输出的映射,能够学习大量的输入与输出之间的映射关系,用已知的模式对CNN加以训练,CNN就具有输入输出对之间的映射能力。CNN的样本集是由形如输入向量、理想输出向量的向量对构成的,在本实施例中由文本内容的词向量、表征关键信息的向量的向量对构成。
具体地,当神经网络模型为卷积神经网络模型时,神经网络模型的网络结构中,包括卷积层(alternating convolutional layer)和池化层(pooling layer)。相邻两层之间使用局部连接的模式,同一层中某些神经元之间的连接的权重是共享的(即相同的)。进一步地,神经网络模型还可以是CNN中的网络中的网络(network in network, NIN)。NIN的网络结构可包括:多层感知机卷积层(mlpconv),全局平均池化层(average pooling)。其中,mlpconv在两个卷积层之间加一个多层感知机,感知机的输入是上一层卷积词向量得到的特征向量,输出一个新的词向量,作为下一层更高维表征关键信息向量的值。
本实施例中,所述神经网络模型的一个示例性的训练过程如下:获取某一类别的样本文本内容,其中所述样本文本内容中的词语为采用序列标注规则标注好的词语;将所述样本文本内容经过词向量模型后得到相应的样本向量信息;将所述样本向量信息送入神经网络模型进行模型训练以得到与该类别的文本内容对应的所述神经网络模型。这里所提到的词向量转换是对样本文本内容中上下文语言理解的关键步骤,选用适当的转换方法和训练模型可以相应地提高提取关键信息的效率和准确度。
具体地,在一个实施例中,可以对样本文本内容采用分词标注或命名实体标注产生训练样本。采用分词标注方式,其中B代表这个汉字是词汇的开始字符,M代表这个汉字是词汇的中间字符,E代表这个汉字是词汇的结束字符,S代表单字词。采用命名实体标注方式,其中BA代表这个汉字是地址首字,MA代表这个汉字是地址中间字,EA代表这个汉字是地址的尾字;BP代表这个汉字是人名首字,MP代表这个汉字是人名中间字,EP代表这个汉字是人名尾字等等,在此并不限制其他标注方式的使用。
在对样本文本内容采用序列标注规则标注好后,经词向量模型将其转换为词向量的表达方式,其中词向量模型可以使用任意词向量转换方法,也可以是通过使用机器学习方法中的任意适用的词向量模型进行转换,比如 One-hot表示法、词袋模型(Bag ofWords)、word2vector模型等等。然后将得到的样本词向量输入到神经网络模型进行训练,得到相应类别的文本内容的关键信息提取模型。其中,word2vector模型可以是2013年末Google发布的word2vector工具,通过word2vector,可以将一个词表示为词向量,将文字数字化,更好的让计算机理解,使用word2vector模型,可以方便地找到同义词或联系紧密的词,或者意义相反的词等。
在进行模型训练时,可以采用有监督的学习方式,对于任意训练样本,其关键信息提取位置都是已知的。神经网络模型的建立需要进行长而复杂的训练过程,对网络中的特征提取参数进行一定的学习,使得其能够建立起从样本词向量到关键信息提取的映射。
在一个实施例中,某一类别文本内容对应的关键信息提取神经网络模型可以为多个,可以根据要获取的数据的内容类型分别训练对应的神经网络模型。例如当要获取火车票短信中的开车日期以及座位号时,根据开车日期对应的神经网络模型对样本向量进行处理,得到开车日期的关键信息;根据座位号对应的神经网络模型对样本向量进行处理,得到座位号的关键信息。
所述神经网络模型是一种基于对数据进行表征学习的方法,是一种能够模拟出人脑的神经结构的机器学习方法,本实施例利用这一点特质,将大量的某一类别的文本内容作为样本训练神经网络模型,通过机器学习,能够识别并提取不同表达形式的关键信息,提高信息提取准确率,有效克服了传统的正则表达式只能对有限的设定好的表达形式进行信息提取。
步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
具体地,在一个实施例中,按照预先定义的规则从所述文本内容中匹配关键信息。例如,对于包含验证法、动态密码的短信信息,可以从短信信息中提取长度大于长度阈值且由字母和数字组成的字符串,并将提取的所述字符串作为从短信信息中提取的关键信息,该关键信息可以是验证码、动态密码等。在另一个实施例中,可以利用正则匹配方法获取文本内容中的日期文本,所谓正则匹配法是指用事先定义好的特定字符及这些特定字符的组合,组成规则字符串,利用规则字符串匹配文本中的词语,获取符合规则字符串的词语。
对于少量的、特殊范式的信息,用专门定制的正则表达式能较为快速且准确地提取所需的信息内容,进而弥补少量的样本信息或错误的标注无法训练出准确的神经网络模型的短板。
根据本发明一实施方式,步骤S30包括:利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S301,否则执行步骤S40;其中,所述步骤S301包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则执行步骤S40。
步骤S40包括:利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S401,否则不执行任何操作;其中,所述步骤S401包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则不执行任何操作。
图3、图4示出了本发明一实施例文本内容关键信息的提取方法中步骤S40、步骤S30的流程示意图(虚线框内的区域)。所述文本内容关键信息的提取方法以本发明实施例图1为基础,进一步地,在得到所述文本内容的关键信息后对该关键信息进行校验以判断所提取的关键信息是否为所需的内容。
具体地,使用相应类别的神经网络模型进行关键信息提取,如果能够提取出关键信息,则对该关键信息进行校验,校验通过的直接输出结果;否则利用正则表达式进行关键信息提取,如果能提取出关键信息,则对该关键信息进行校验,校验通过的直接输出结果。
本实施例通过对提取的关键信息进行校验,提高了输出结果的可靠性、准确率。
在一个实施例中,神经网络模型可以为长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型。
具体地,LSTM是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据,在自然语言处理任务中常被用来建模上下文信息。
进一步地,基于如上文描述的文本内容关键信息的提取方法,本发明的另一个实施例提供一文本内容关键信息的提取装置。如图5所示,该装置包括:获取单元501,用于获取待提取关键信息的文本内容;分类单元502,用于利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则指令第一提取单元503执行关键信息提取,否则不执行任何操作;第一提取单元503,用于利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则指令第二提取单元504执行关键信息提取;第二提取单元504,用于利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
根据本发明一实施方式,如图9所示,所述装置还包括:模型训练单元505,用于根据如下过程训练所述神经网络模型:获取某一类别的样本文本内容,其中所述样本文本内容中的词语为采用序列标注规则标注好的词语;将所述样本文本内容经过词向量模型后得到相应的样本向量信息;将所述样本向量信息送入神经网络模型进行模型训练以得到与该类别的文本内容对应的所述神经网络模型。
根据本发明一实施方式,如图6所示,分类单元502其特征包括:利用逻辑回归分类器和/或正则表达式对所述文本内容进行分类。
根据本发明一实施方式,分类单元502包括:第一分类单元502A,用于利用逻辑回归分类器对所述文本内容进行分类,若得到所述文本内容的类别则指令第一提取单元503执行关键信息提取,否则指令第二分类单元502B执行分类;第二分类单元502B,用于利用正则表达式对所述文本内容进行分类,若得到所述文本内容的类别则指令第一提取单元503执行关键信息提取,否则不执行任何操作。
根据本发明一实施方式,如图7所示,所述第一提取单元503,其特征包括:利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则指令第一校验单元503A执行校验,否则指令第二提取单元504执行关键信息提取;其中,所述第一校验单元503A用于对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则指令第二提取单元504执行关键信息提取;如图8所示,所述第二提取单元504,其特征包括:利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则指令第二校验单元504A执行校验,否则不执行任何操作;其中,所述第二校验单元504A用于对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则不执行任何操作。
根据本发明一实施方式,神经网络模型为长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型。
根据本发明一实施方式,该装置适用于手机短信中的文本内容关键信息的提取。
根据本发明的又一个实施例,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
根据本发明的再一个实施例,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
这里需要指出的是:以上对针对文本内容关键信息的提取装置实施例的描述和以上针对计算机设备、可读存储介质实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对文本内容关键信息的提取装置实施例的描述和以上针对计算机设备、可读存储介质实施例的未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (10)
1.一种文本内容关键信息的提取方法,其中,所述方法包括:
步骤S10,获取待提取关键信息的文本内容;
步骤S20,利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作;
步骤S30,利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则执行步骤S40;
步骤S40,利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
2.根据权利要求1所述的方法,其中,所述神经网络模型的训练过程如下:
获取某一类别的样本文本内容,其中所述样本文本内容中的词语为采用序列标注规则标注好的词语;
将所述样本文本内容经过词向量模型后得到相应的样本向量信息;
将所述样本向量信息送入神经网络模型进行模型训练以得到与该类别的文本内容对应的所述神经网络模型。
3.根据权利要求1所述的方法,其中,所述利用分类器对所述文本内容进行分类包括:
利用逻辑回归分类器和/或正则表达式对所述文本内容进行分类。
4.根据权利要求3所述的方法,其中,所述步骤S20包括:
利用逻辑回归分类器对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则执行步骤S201;
步骤S201:利用正则表达式对所述文本内容进行分类,若得到所述文本内容的类别则执行步骤S30,否则不执行任何操作。
5.根据权利要求1所述的方法,其中,
所述步骤S30包括:利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S301,否则执行步骤S40;
其中,所述步骤S301包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则执行步骤S40;
所述步骤S40包括:利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则执行步骤S401,否则不执行任何操作;
其中,所述步骤S401包括:对得到的所述关键信息进行校验,若校验通过则输出所述关键信息,否则不执行任何操作。
6.根据权利要求1或2所述的方法,其中,所述方法适用于手机短信中的文本内容关键信息的提取。
7.根据权利要求1或2所述的方法,其中,所述神经网络模型为长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型。
8.一种文本内容关键信息的提取装置,其特征在于,包括:
获取单元,用于获取待提取关键信息的文本内容;
分类单元,用于利用分类器对所述文本内容进行分类,若得到所述文本内容的类别则指令第一提取单元执行关键信息提取,否则不执行任何操作;
第一提取单元,用于利用与所述得到的所述文本内容的类别对应的神经网络模型对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则指令第二提取单元执行关键信息提取;
第二提取单元,用于利用正则表达式对所述文本内容进行关键信息提取处理,若得到所述文本内容的关键信息则输出该关键信息,否则不执行任何操作。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262555.9A CN111159417A (zh) | 2020-04-07 | 2020-04-07 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262555.9A CN111159417A (zh) | 2020-04-07 | 2020-04-07 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159417A true CN111159417A (zh) | 2020-05-15 |
Family
ID=70567915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010262555.9A Pending CN111159417A (zh) | 2020-04-07 | 2020-04-07 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159417A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986015A (zh) * | 2020-06-18 | 2020-11-24 | 励程 | 提取财务信息用于记账的方法和系统 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112749530A (zh) * | 2021-01-11 | 2021-05-04 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN113094509A (zh) * | 2021-06-08 | 2021-07-09 | 明品云(北京)数据科技有限公司 | 文本信息提取方法、系统、设备及介质 |
CN113282753A (zh) * | 2021-06-09 | 2021-08-20 | 中国银行股份有限公司 | 标题文本数据分类方法及装置 |
CN114390137A (zh) * | 2020-10-20 | 2022-04-22 | 阿里巴巴集团控股有限公司 | 短信的处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078631A1 (en) * | 2010-09-26 | 2012-03-29 | Alibaba Group Holding Limited | Recognition of target words using designated characteristic values |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN108984500A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 金额信息的提取方法、终端设备及介质 |
CN110909864A (zh) * | 2019-10-22 | 2020-03-24 | 北京大学 | 一种结合正则表达式和神经网络的自然语言任务处理方法和装置 |
-
2020
- 2020-04-07 CN CN202010262555.9A patent/CN111159417A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078631A1 (en) * | 2010-09-26 | 2012-03-29 | Alibaba Group Holding Limited | Recognition of target words using designated characteristic values |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN108984500A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 金额信息的提取方法、终端设备及介质 |
CN110909864A (zh) * | 2019-10-22 | 2020-03-24 | 北京大学 | 一种结合正则表达式和神经网络的自然语言任务处理方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986015A (zh) * | 2020-06-18 | 2020-11-24 | 励程 | 提取财务信息用于记账的方法和系统 |
CN111986015B (zh) * | 2020-06-18 | 2024-04-30 | 励程 | 提取财务信息用于记账的方法和系统 |
CN114390137A (zh) * | 2020-10-20 | 2022-04-22 | 阿里巴巴集团控股有限公司 | 短信的处理方法、装置、设备及存储介质 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112215017B (zh) * | 2020-10-22 | 2022-04-29 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112749530A (zh) * | 2021-01-11 | 2021-05-04 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN112749530B (zh) * | 2021-01-11 | 2023-12-19 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN113094509A (zh) * | 2021-06-08 | 2021-07-09 | 明品云(北京)数据科技有限公司 | 文本信息提取方法、系统、设备及介质 |
CN113282753A (zh) * | 2021-06-09 | 2021-08-20 | 中国银行股份有限公司 | 标题文本数据分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159417A (zh) | 文本内容关键信息的提取方法、装置、设备及存储介质 | |
CN108733722B (zh) | 一种对话机器人自动生成方法及装置 | |
CN110717514A (zh) | 会话意图识别方法、装置、计算机设备和存储介质 | |
CN106503236A (zh) | 基于人工智能的问题分类方法以及装置 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN110827797B (zh) | 语音应答事件分类处理方法和装置 | |
CN110728182B (zh) | 基于ai面试系统的面试方法、装置和计算机设备 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN113868419B (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN110232128A (zh) | 题目文本分类方法及装置 | |
WO2020036191A1 (ja) | 学習データ作成装置、学習データ作成方法、及びプログラム | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN113362083B (zh) | 报修方法、装置、电子设备及存储介质 | |
KR102589074B1 (ko) | 챗봇 운영 방법 및 장치 | |
CN112380861B (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN113312445B (zh) | 数据处理方法、模型构建方法、分类方法及计算设备 | |
CN114781485A (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 | |
CN114138928A (zh) | 文本内容提取的方法、系统、装置、电子设备及介质 | |
CN113255836A (zh) | 一种作业数据处理方法、装置、计算机设备和存储介质 | |
CN118410877B (zh) | 一种答案确定方法、装置、电子设备及存储介质 | |
CN113722559A (zh) | 数据需求识别模型的训练方法、使用方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |