CN108536678A - 文本关键信息提取方法、装置、计算机设备和存储介质 - Google Patents

文本关键信息提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108536678A
CN108536678A CN201810327596.4A CN201810327596A CN108536678A CN 108536678 A CN108536678 A CN 108536678A CN 201810327596 A CN201810327596 A CN 201810327596A CN 108536678 A CN108536678 A CN 108536678A
Authority
CN
China
Prior art keywords
target
matrix
current
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810327596.4A
Other languages
English (en)
Other versions
CN108536678B (zh
Inventor
马志豪
鲁梦平
麦金凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810327596.4A priority Critical patent/CN108536678B/zh
Publication of CN108536678A publication Critical patent/CN108536678A/zh
Application granted granted Critical
Publication of CN108536678B publication Critical patent/CN108536678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本关键信息提取方法、装置、计算机设备和存储介质,方法包括:获取待提取关键信息的当前文本;对当前文本进行分词处理,得到当前文本对应的目标词语;获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵;根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致;从当前文本中提取目标位置对应的目标词语作为关键信息。上述方法提高了提取关键信息的准确性。

Description

文本关键信息提取方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及文本关键信息提取方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,日常活动产生的信息量越来越多,因此在很多场景下存在提取信息的需求,例如可以提取终端接收的信用卡消费短信中的还款日以及金额,以在还款日期临近时提醒用户。
传统技术中,根据信息形式是固定的,设置提取信息的位置,当接收到信息时,根据设置的位置从信息中提取数据。然而,目前信息的形式越来越多样化,根据预先设置的位置得到的信息并不准确。
发明内容
基于此,有必要针对上述的问题,提供一种文本关键信息提取方法、装置、计算机设备和存储介质,对文本进行关键信息提取时根据目标神经网络模型进行处理的目标向量矩阵根据文本内容得到,且利用模型进行特征提取时以目标词向量为单位进行特征提取,特征提取方向与目标词向量在目标向量矩阵的排列顺序一致,考虑了文本的排序以及文本中词语的整体性,因此得到的目标位置准确,提高了信息提取的准确性。
一种文本关键信息提取方法,所述方法包括:获取待提取关键信息的当前文本;对所述当前文本进行分词处理,得到所述当前文本对应的目标词语;获取所述目标词语对应的各个目标词向量,按照所述目标词语在所述当前文本的排列顺序将对应的所述各个目标词向量进行组合,得到目标向量矩阵;根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,所述目标神经网络模型以所述目标词向量为单位进行特征提取,所述目标神经网络模型的特征提取方向与所述目标词向量在所述目标向量矩阵的排列顺序一致;从所述当前文本中提取所述目标位置对应的目标词语作为关键信息。
一种文本关键信息提取装置,所述装置包括:当前文本获取模块,用于获取待提取关键信息的当前文本;分词模块,用于对所述当前文本进行分词处理,得到所述当前文本对应的目标词语;目标矩阵得到模块,用于获取所述目标词语对应的各个目标词向量,按照所述目标词语在所述当前文本的排列顺序将对应的所述各个目标词向量进行组合,得到目标向量矩阵;位置得到模块,用于根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,所述目标神经网络模型以所述目标词向量为单位进行特征提取,所述目标神经网络模型的特征提取方向与所述目标词向量在所述目标向量矩阵的排列顺序一致;提取模块,用于从所述当前文本中提取所述目标位置对应的目标词语作为关键信息。
在其中一个实施例中,所述装置还包括:内容类型获取模块,用于获取所述当前文本对应的业务类型,获取所述业务类型对应的多个待提取关键信息的目标内容类型;模型获取模块,用于获取与所述各个目标内容类型对应的目标神经网络模型;所述位置得到模块用于:根据所述各个已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到所述各个目标内容类型对应的目标位置;所述装置还包括:填充位置获取模块,用于获取所述各个目标内容类型在预设内容填充模板对应的填充位置;填充内容获取模块,用于根据所述各个目标位置对应的关键信息得到对应的填充内容;目标内容得到模块,用于将所述填充内容填充到对应的填充位置上,得到目标内容。
在其中一个实施例中,所述分词模块包括:当前数据获取单元,用于获取所述当前文本中预设数据类型的当前数据;替换单元,用于将所述当前数据替换为所述预设数据类型对应的替换数据,得到目标文本;分词单元,用于对所述目标文本进行分词处理,得到所述当前文本对应的目标词语。
在其中一个实施例中,所述位置得到模块用于:根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到所述当前文本中的各个目标词语对应的排列位置的被选中率;根据所述目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从所述各个目标词语对应的排列位置筛选出所述目标位置。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本关键信息提取方法的步骤。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本关键信息提取方法的步骤。
上述文本关键信息提取方法、装置、计算机设备和存储介质,获取待提取关键信息的当前文本,对当前文本进行分词处理,得到当前文本对应的目标词语,获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵,根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致,从当前文本中提取目标位置对应的目标词语作为关键信息。由于对文本进行关键信息提取时根据目标神经网络模型进行处理的目标向量矩阵根据文本内容得到,且利用模型进行特征提取时以目标词向量为单位进行特征提取,特征提取方向与目标词向量在目标向量矩阵的排列顺序一致,考虑了文本的排序以及文本中词语的整体性,因此得到的目标位置准确,提高了关键信息提取的准确性。
附图说明
图1为一个实施例中提供的文本关键信息提取方法的应用环境图;
图2为一个实施例中文本关键信息提取方法的流程图;
图3为一个实施例中按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵的流程图;
图4为一个实施例中根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置的流程图;
图5为一个实施例中文本关键信息提取方法的流程图;
图6为一个实施例中文本关键信息提取方法的流程图;
图7A为一个实施例中目标提取内容的示意图;
图7B为一个实施例中目标提取内容的示意图;
图8为一个实施例中目标向量矩阵的示意图;
图9为一个实施例中文本关键信息提取装置的结构框图;
图10为一个实施例中目标矩阵得到模块的结构框图;
图11为一个实施例中位置得到模块的结构框图;
图12为一个实施例中文本关键信息提取装置的结构框图;
图13为一个实施例中文本关键信息提取装置的结构框图;
图14为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中提供的文本关键信息提取方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及服务器120。当要提取终端中接收到的信用卡账单短信中的还款日期等关键信息时,终端110向服务器120发送接收到的信用卡账单短信,服务器120将接收到的信用卡账单短信作为待进行文本关键信息提取的当前文本,执行本发明实施例提供的文本关键信息提取方法,获取到提取的关键信息如还款日期,并将还款日期发送给终端110。终端110根据接收到的还款日提醒用户按时进行还款。
可以理解,上述应用环境仅是一种示例,并不构成对本发明实施例提供的文本关键信息提取方法的限制。在一个实施例中,本发明实施例提供的方法还可以在终端110上执行。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过网络进行连接,本发明在此不做限制。
如图2所示,在一个实施例中,提出了一种文本关键信息提取方法,本实施例提供的方法可以应用于上述图1中的终端110或服务器120等计算机设备中,具体可以包括以下步骤:
步骤S202,获取待进行文本关键信息提取的当前文本。
具体地,文本是由语言文字组成的,当前文本是需要进行文本关键信息提取的文本。当前文本可以是通过短信、邮箱或者即时通讯工具接收到的,也可以是通过其他数据获取方式得到的,例如通过扫描纸质文档得到的,具体不做限制。例如,当前文本可以是终端接收到的银行信用卡账单通知短信、酒店发送的旅馆预定邮件通知或者飞机票订票通知等。关键信息是指需要提取的信息,关键信息可以根据关注度进行确定,可以将用户关注程度高的信息作为关键信息。例如,对于银行信用卡账单通知短信,关键信息可以为还款金额或者还款日期。对于旅馆预定邮件,关键信息可以为入住日期或者酒店房号等。
在一个实施例中,当前文本是对内容信息进行进一步处理得到。例如,当前文本可以是承载在图片中的文字,因此获取到图片后,对图片中的文本信息进行识别,得到待提取关键信息的当前文本。或者,获取到的内容信息还包括图片或者视频文件,因此可以忽略内容信息中的图片或者视频文件,获取待提取关键信息的内容信息对应的当前文本。
步骤S204,对当前文本进行分词处理,得到当前文本对应的目标词语。
具体地,分词是指将一段文本数据切分为多个词语,分词的方法可以根据实际需要进行设置。例如可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法中的一种或多种方法进行分词。还可以采用结巴分词应用工具或者Hanlp分词应用工具等分词工具对当前文本进行分词处理。得到当前文本后,对当前文本进行分词处理,得到当前文本对应的各个目标词语。
在一个实施例中,对当前文本进行分词时,可以对当前文本进行预处理。预处理的方式可以是去除无效词语、对特定数据类型例如数字进行替换等,无效词语例如可以是语气词例如“呀”以及“哦”等。
在一个实施例中,还可以获取当前文本中日期对应的字符,将日期对应的字符作为一个词语,并在分词时设置需要将日期对应的字符作为一个词语,以避免将一个日期分为多个词语。可以利用正则匹配方法获取当前文本中的日期文本。正则匹配方法是指用事先定义好的特定字符及这些特定字符的组合,组成规则字符串,利用规则字符串匹配文本中的词语,获取符合规则字符串的词语。
在一个实施例中,可以去除当前文本中的语气词例如“呀”以及“哦”等无效词语,以减少当前文本的数据量并去除无效词语,提高关键信息提取的速度以及准确度。
在一个实施例中,当分词后得到的目标词语数量超过预设数目时,可以删除当前文本中排列在后的目标词语以及排列在前的目标词语中的一种或多种,得到预设数目的目标词语,具体删除方法可以根据实际需要进行设置。例如,对于信用卡账单短信,短信的末尾携带的一般是广告信息,因此,可以删除短信中排列在后的预设数目的词语。
在一个实施例中,对当前文本进行分词处理,得到当前文本对应的目标词语包括:获取当前文本中预设数据类型的当前数据。将当前数据替换为预设数据类型对应的替换数据,得到目标文本。对目标文本进行分词处理,得到当前文本对应的目标词语。
具体地,数据类型可以包括文本、数字、日期以及时间等类型,预设数据类型可以根据实际需要进行设置。在一个实施例中,预设数据类型可以包括数字、日期以及时间类型中的一种或多种。替换数据可以根据需要进行设置。可以是各个预设数据类型的当前数据均替换为相同的替换数据,也可以是不同的预设数据类型对应不同的替换数据。具体不做限制。例如,对于数字以及日期类的数据类型,对应的替换数据可以均为“number”。在一个实施例中,具体日期对应的替换数据可以为“日期”,例如可以将当前文本中的“2016年7月12日”替换为“日期”一词,将当前文本中表示金额的数字“196”替换为“数值”一词。通过对数字、日期以及时间等具体的数值变化对文本的前后内容影响不大的当前数据进行替换,减少了得到的目标词语的个数,提高了关键信息提取的速度。
步骤S206,获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵。
具体地,词向量用于将词语进行向量化表示。词向量的表示方法可以为稀疏描述方法(One-hot Representation)或者分布式描述方法(Distributed Representation)。矩阵是指按照阵列排列的复数或实数集合。目标词语对应的各个词向量可以是预先设置好的。目标词向量在目标向量矩阵的排序是根据对应的目标词语在当前文本的排列顺序确定的。可以将一个或多个目标词向量作为目标向量矩阵的一行,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。也可以将一个或多个目标词向量作为目标向量矩阵的一列,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。例如,当前文本的目标词语对应的目标词向量依次为a、b、c、d、e,则可以将每一个词向量作为矩阵的一行,且排序依次为a、b、c、d、e,得到目标向量矩阵。
稀疏描述法将词表示成一个由0和1组成的向量,向量的维度与词表中词语的个数相同,词表由需要进行向量化的词语组成,目标词语对应的目标词向量中,目标词语在词典中的排列顺序所对应的词向量位置的维度值为1,其余维度值为0。例如,一个词表包含100词语,则该词表的所有词语转换成100维的向量。举个实际的例子,“您”在词表的排列顺序为3,则“您”的词向量表示为[0,0,1,0,0……],“尾号”在词表的排列顺序5,则“尾号”的词向量表示为[0,0,0,0,1,……]。词语在词表的位置可以是随机设置的,也可以是在预设的文本集合中对词语的词频进行统计,根据词语的词频大小在词表依次排列词语。当得到目标词语后,获取目标词语在词表的排列顺序,根据排列顺序得到目标词向量。
分布式描述方法中是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“尾号”的词向量可以仅通过五维向量进行表示,例如[0.30,-0.17,-0.37,0.12,-0.54]。分布式描述方法对应的词向量可以利用词向量模型例如word2vector得到。
在一个实施例中,目标向量矩阵中的词向量的数量是预设的。当目标词向量的个数小于预先设置的数量时,可以在目标向量矩阵的第一个词向量之前和/或最后一个词向量之中增加无效词向量,无效词向量是利用模型参数进行特征提取时,不会对提取得到的特征造成影响的向量,例如为全为0的词向量。当目标词向量的个数大于预先设置的数量时,可以删除部分词向量,删除词向量的规则可以根据需要进行设置。例如删除当前文本中排列顺序为在后的目标词语的词向量。
步骤S208,根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致。
具体地,目标神经网络模型可以是卷积神经网络模型,根据已训练的目标神经网络模型对目标向量矩阵进行处理之前,需要通过训练数据对神经网络模型进行模型训练确定模型的特征提取参数。特征提取是指将输入的一个或多个特征映射为另外的特征,例如利用卷积核对输入的矩阵进行卷积。目标位置是指待提取的关键信息在当前文本中的位置。目标位置可以用在当前文本中的排列顺序进行表示,例如目标位置为7,表示是当前文本中的第7个目标词语。目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序是相同的,例如,当目标词向量在目标向量矩阵的排列顺序是根据目标词语在当前文本的排列顺序从上往下依次进行排列时,则特征提取方向为从上往下方向。以目标词向量为单位进行特征提取是指进行特征提取时,将目标词向量对应的特征映射为同一个特征,即每次特征提取时是将正整数个目标词向量对应的特征映射为同一个特征。例如可以是将1个或者3个目标词向量映射为一个特征。由于目标神经网络模型包括一个或多个特征提取层,根据目标神经网络模型对目标向量矩阵进行特征提取时,需要进行一次或多次特征提取,因此当进行第一次特征提取时,将正整数个目标词向量映射为第一特征。当进行第二次特征提取时,将正整数个目标词向量对应的一个或多个第一特征映射为第二特征。例如,当按照对应的目标词语在当前文本的排列顺序将目标向量矩阵中每一个目标词向量作为目标向量矩阵的一行从上到下依次排序时,且利用卷积神经网络模型的卷积核进行特征提取时,卷积的方向为从上到下,目标神经网络模型的各个卷积层的卷积核中列数量与目标词向量的维度即元素个数相同,行数量则不受目标词向量的维度限制。因此,当利用第一层卷积层的卷积核对目标向量矩阵进行卷积即特征提取时,第一层卷积层的卷积核对应的目标向量矩阵的区域是整数个目标词向量。得到第一层卷积层对应的输出矩阵后,由于卷积后的输出矩阵的列数量比第二层的卷积核的列数量小,则可以在输出矩阵的第一列之前或者最后一列之后增加列后再输入到第二层卷积层中,且增加的列的元素均为无效元素“0”,使输入到第二层卷积层的矩阵的列数量与卷积核的列数量相同,又不会因为增加了列而影响特征提取值。因此在利用第二层卷积层的卷积核对第一层卷积层的输出矩阵进行卷积时,进行卷积对应的特征也是正整数个目标词向量对应的特征。当第二层卷积层之后还有卷积层时,也可以参照上述对第一层卷积层的输出矩阵的处理方法对当前卷积层的上一卷积层的输出矩阵进行处理后再输入到当前卷积层中,在此不再赘述。本发明实施例中,由于以目标词向量为单位进行提取,因此提取得到的特征都是完整的目标词向量对应的特征,相当于对一个个具体的词语进行处理。
在进行模型训练时,可以采用有监督的学习方式,对于任意训练样本,其信息提取位置的位置都是己知的。神经网络的建立需要进行长而复杂的训练过程,对网络中的特征提取参数进行一定的学习,使其能够建立起从目标向量矩阵到目标位置的映射。神经网络主要由特征提取阶段和分类这两个阶段组成,以卷积神经网络为例,特征提取阶段可以包括多个卷积层和对应的伸缩变换层,卷积层用于进行特征提取,伸缩变换层用于对卷积层输出的特征矩阵进行缩放变换,使得变换后的矩阵输入到下一卷积层时,在卷积方向与目标词向量在目标向量矩阵的排列顺序一致时,以目标词向量为单位进行特征提取,分类层对最后卷积得到的卷积结果进行概率运算,得到各个类别的概率,根据各个类别的概率得到出目标分类。例如分类层可以利用激活函数如softmax函数得到各个类别对应的概率,将概率最大的类别得到目标分类,在本发明实施例中,类别为各个目标词语在当前文本的排列顺序。
在一个实施例中,目标神经网络模型可以为多个,可以根据要获取的数据的内容类型分别训练对应的目标神经网络模型。因此,得到目标向量矩阵后,根据各个目标神经网络模型对目标向量矩阵进行处理,得到各个内容类型对应的目标位置。例如,当要获取火车票订票短信中的开车日期以及座位号时,根据开车日期对应的目标神经网络模型对目标向量矩阵进行处理,得到开车日期对应的目标位置。根据座位号对应的目标神经网络模型中对目标向量矩阵进行处理,得到座位号对应的目标位置。
步骤S210,从当前文本中提取目标位置对应的目标词语作为关键信息。
具体地,得到目标位置后,提取当前文本中该目标位置所对应的目标词语作为关键信息。例如,当目标位置为8时,获取当前文本中进行分词后排列顺序为第8的目标词语作为关键信息。
在一个实施例中,根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到当前文本中的各个目标词语对应的排列位置的被选中率。根据目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从各个目标词语对应的排列位置筛选出目标位置。
具体地,待提取关键信息的数据类型可以为文本、数字、时间以及日期类型中的一种或多种。被选中率是指目标词语对应的排列位置为目标位置的概率。根据目标神经网络模型对目标向量矩阵进行特征提取后,得到的是目标词语对应的排列位置为目标位置的被选中率,可以将数据类型与待提取关键信息的数据类型相同的目标词语所对应的排列位置中,被选中率最大的位置的作为目标位置。例如,假设目标词语有4个,且排列位置为第1~第4个的被选中率依次为0.6、0.01、0.36以及0.03,且待提取关键信息为数字类型,而第1个目标词语为文本类型,第3个目标词语为数字类型,则可以将第3个词语对应的位置作为目标位置。
上述文本关键信息提取方法,获取待提取关键信息的当前文本,对当前文本进行分词处理,得到当前文本对应的目标词语,获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵,根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致,从当前文本中提取目标位置对应的目标词语作为关键信息。由于对文本进行关键信息提取时根据目标神经网络模型进行处理的目标向量矩阵根据文本内容得到,且利用模型进行特征提取时以目标词向量为单位进行特征提取,特征提取方向与目标词向量在目标向量矩阵的排列顺序一致,考虑了文本的排序以及文本中词语的整体性,因此得到的目标位置准确,提高了关键信息提取的准确性。
在一个实施例中,如图3所示,步骤S206即按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵包括:
步骤S302,将各个目标词向量分别作为向量矩阵中的目标矩阵对象。
具体地,矩阵对象是指矩阵中的一行或者一列。得到目标词向量后,可以将每一个目标词向量作为向量矩阵中的一行或一列。
步骤S304,按照目标词语在当前文本的排列顺序将各个目标矩阵对象依次进行排列,得到目标向量矩阵。
具体地,得到目标矩阵对象后,按照各个目标矩阵对象对应的目标词语在当前文本的排列顺序依次对目标矩阵对象进行排列,组成目标向量矩阵。例如,当将目标词向量作为矩阵中的一列时,则将第一个目标词语对应的目标词向量作为第一列,将最后一个目标词语对应的目标词向量作为最后一列,其他目标词语对应的目标词向量按照目标词语在当前文本的排列顺序从左向右作为一列依次排列,得到目标向量矩阵。或者当将目标词向量作为矩阵中的一行时,则可以将第一个目标词语对应的目标词向量作为第一行,将最后一个目标词语对应的目标词向量作为最后一行,其他目标词语对应的目标词向量按照目标词语在当前文本的排列顺序从上到下依次排列,得到目标向量矩阵。
在一个实施例中,如图4所示,目标神经网络模型为卷积神经网络模型,步骤S208即根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置的步骤具体可以包括以下步骤:
步骤S402,获取目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当当前特征提取层为首层时,当前输入矩阵为目标向量矩阵,当当前特征提取层不是首层时,当前输入矩阵为当前特征提取层的上一特征提取层的输出矩阵。
具体的,当前特征提取层是当前要进行提取的特征提取层。神经网络模型包括一个或多个特征提取层,例如卷积神经网络模型可以包括多个卷积层。当利用第一层卷积层进行卷积时,当前特征提取层是第一层卷积层,当利用第二层卷积层进行卷积时,当前特征提取层是第二层卷积层。当前特征提取矩阵是指当前特征提取层的特征提取矩阵,当前输入矩阵是指要利用当前特征提取矩阵进行特征提取的矩阵。首层是指神经网络模型的第一层特征提取层。当利用上一层特征提取层进行特征提取后得到输出特征时,将该输出特征作为下一层特征提取层的输入矩阵。因此当当前特征提取层是第一层特征提取层时,当前输入矩阵为目标向量矩阵。当当前特征提取层不是第一层特征层时,当前输入矩阵为当前特征提取层的上一层特征提取层的输出矩阵。
步骤S406,当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵,目标输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度相同,预设方向维度对应的预设方向为目标向量矩阵中目标词向量的宽度所对应的方向。
具体地,缩放可以为缩小或者放大。预设方向维度是指在预设方向上矩阵元素的个数,一个矩阵值为一个矩阵元素。目标词向量的宽度与目标词向量的维度个数相同。预设方向是根据目标向量矩阵中目标词向量的排列方向得到的。例如,当目标词向量是作为矩阵的行进行排列时,目标词向量的宽度所对应的方向为行方向,因此预设方向维度为行所对应的维度,即矩阵的一行对应的矩阵元素个数。当目标词向量是作为矩阵的列进行排列时,预设方向为列的方向。因此预设方向维度为列所对应的维度,即一列所对应的矩阵元素的个数。当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,需要对当前输入矩阵进行缩放,使得到的目标输入矩阵对应的预设方向维度与特征提取矩阵对应的预设方向维度相同。当当前输入矩阵对应的预设方向维度与特征提取矩阵对应的预设方向维度一致时,则可以将将当前输入矩阵作为目标输入矩阵。
在一个实施例中,在模型训练时可以设置第一层特征提取层中特征提取矩阵的预设方向维度与目标向量矩阵预设方向维度相同,因此,将目标向量矩阵输入到第一层特征提取层时,无需对目标向量矩阵进行缩放。可以理解,当第一层特征提取层中特征提取矩阵的预设方向维度与目标向量矩阵预设方向维度不相同时,也可以对目标向量矩阵进行缩放,使得缩放后的目标向量矩阵的预设方向维度与第一层特征提取层中特征提取矩阵的预设方向维度相同。
在一个实施例中,当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵包括:当当前输入矩阵对应的预设方向维度小于当前特征提取矩阵对应的预设方向维度时,在当前输入矩阵的预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到目标输入矩阵。
具体地,首矩阵对象为第一个矩阵对象,尾矩阵对象为最后一个矩阵对象。无效矩阵对象是指利用模型参数进行特征提取时,不会对提取得到的特征造成影响的矩阵对象,例如矩阵值全为0的矩阵对象。当当前输入矩阵对应的预设方向维度小于当前特征提取矩阵对应的预设方向维度时,要使目标输入矩阵在预设方向维度与当前特征提取矩阵对应的预设方向维度一致,因此需要增加无效矩阵对象。矩阵对象是在预设方向上的首矩阵对象之前和/或尾矩阵对象之后中增加的,即可以在首矩阵对象之前增加无效对象,也可以在尾矩阵对象之后增加无效矩阵对象。例如,当预设方向为行对应的方向,则预设方向的首矩阵对象为矩阵的第一列,尾矩阵对象为矩阵的最后一列,因此可以在第一列以前增加矩阵值全为0的列,也可以在最后一列之后增加矩阵值全为0的列,或者在第一列以前以及最后一列之后增加矩阵值全为0的列。当预设方向为列对应的方向,则预设方向的首矩阵对象为第一行,尾矩阵对象为最后一行。因此可以在第一行以前增加矩阵值全为0的行,也可以在最后一行之后增加矩阵值全为0的行,或者在第一行以前以及最后一行之后增加矩阵值全为0的行。
在一个实施例中,当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵包括:当当前输入矩阵对应的预设方向维度大于当前特征提取矩阵对应的预设方向维度时,对当前输入矩阵进行下采样,得到目标输入矩阵,其中,进行下采样时以目标词向量为单位进行采样,下采样的方向与目标词向量在目标向量矩阵的排列顺序一致。
具体地,下采样是指对当前输入矩阵的多个值采样一次,采样时可以取多个值中的最大值或者平均值作为采样值。当当前输入矩阵对应的预设方向维度大于特征提取矩阵对应的预设方向维度时,要使目标输入矩阵在预设方向维度与特征提取矩阵对应的预设方向维度一致,因此需要减少当前输入矩阵对应的预设方向维度。进行下采样时,以目标词向量为单位进行采样是指进行下采样时,进行一次采样的多个特征是正整数个目标词向量对应的特征。下采样的方向与目标词向量在目标向量矩阵的排列顺序是一致的。
步骤S408,根据当前特征提取矩阵对目标输入矩阵进行特征提取,得到当前输出矩阵。
具体地,得到当前特征提取矩阵后,对目标输入矩阵进行特征提取,将特征提取后得到的矩阵作为当前输出矩阵。例如,当目标神经网络模型为卷积神经网络模型时,利用当前卷积核对目标输入矩阵进行卷积,得到卷积后的矩阵作为当前输出矩阵。
步骤S410,根据当前输出矩阵得到待提取关键信息对应的目标位置。
具体地,目标神经网络模型包括一层或者多层特征提取层。当当前特征提取矩阵之后还有特征提取层时,将当前输出矩阵作为下一层特征提取层的输入矩阵,利用下一层特征提取层的特征提取矩阵对输入矩阵进行特征提取,直至利用最后一层特征提取层进行特征提取得到输出矩阵后,利用激活函数例如softmax函数进行归一化,得到各个目标词语在当前文本中的排列位置为待提取关键信息的位置的概率,因此可以根据各个目标词语在当前文本中的排列位置为待提取关键信息的位置的概率得到目标位置。可以选取概率最大的位置作为目标位置,也可以结合概率以及其他因素得到目标位置。例如,结合待提取关键信息的数据类型得到目标位置。将数据类型与待提取关键信息的数据类型一致的目标词语对应的位置中,概率最大的位置作为目标位置。在一个实施例中,目标神经网络模型的特征提取层的数量可以为两层。
本发明实施例中,通过在当当前输入矩阵对应的预设方向维度与特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵,且目标输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度相同,预设方向维度对应的预设方向为目标向量矩阵中目标词向量的宽度所对应的方向,因此可以使得进行特征提取时以目标词向量为单位进行特征提取,且考虑了文本的排序,因此提高了关键信息提取的准确性。
在一个实施例中,如图5所示,文本关键信息提取方法还包括以下步骤:
步骤S502,获取样本数据,样本数据包括训练文本对应的训练词语以及对应的信息提取位置。
具体地,训练文本为进行模型训练之前获取得到的文本数据,例如可以是在进行模型训练之前手机接收到的银行账单短信。训练文本的数量可以根据需要进行设置,例如可以是10万个。训练文本对应的训练词语是对训练文本进行分词得到的词语,信息提取位置是训练文本中关键信息所对应的训练词语在训练文本中的位置。信息提取位置可以是人工标注的,例如当需要对贷款金额进行提取的神经网络模型进行训练时,可以对训练文本数据中的贷款金额的位置进行标注。信息提取位置也可以是利用其它方法对训练文本数据进行解析得到的,例如对于形式固定即待提取关键信息对应的位置固定的训练文本,可以将预设的位置作为训练文本对应的信息提取位置。
步骤S504,获取训练词语对应的各个训练词向量,按照训练词语在训练文本的排列顺序将对应的各个训练词向量进行组合,得到训练向量矩阵。
具体地,训练词向量是指训练词语对应的词向量,训练词向量的获取方法可以参照本发明实施例提供的目标词向量的方法进行获取。本发明在此不做限制。训练词向量在训练向量矩阵的排序是根据对应的训练词语在训练文本的排列顺序确定的,按照训练词语在训练文本的排列顺序利用训练词向量构建得到训练向量矩阵。可以将一个或多个训练词向量作为训练向量矩阵的一行,并根据对应的训练词语在训练文本的排列顺序依次排序,得到训练向量矩阵。可以将一个或多个训练词向量作为训练向量矩阵的一列,并根据对应的训练词语在训练文本的排列顺序依次排序,得到训练向量矩阵。可以理解,模型训练时将训练词向量组成训练词向量矩阵与将目标词向量组成目标词向量矩阵的方法是一致的。即当训练词向量是从上到下依次排序组成训练词向量矩阵时,目标词向量是从上到下依次排序组成目标词向量矩阵。
步骤S506,将训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到目标神经网络模型,其中,进行模型训练时以训练词向量为单位进行特征提取,进行模型训练的特征提取方向与训练词向量在训练向量矩阵的排列顺序一致。
具体地,训练样本用于对模型进行训练,以对模型参数进行学习,训练得到目标神经网络模型。在进行模型训练时,采用有监督的模型训练方式进行模型训练,以根据模型参数建立起根据向量矩阵得到输出的映射。其中可以根据信息提取位置得到训练向量矩阵对应的实际值,在模型训练时得到模型预测值,将实际值与模型预测值进行比较以调整模型中的特征提取矩阵的参数,直至模型收敛,得到目标神经网络模型。在进行模型训练时,模型的特征提取方向与训练词向量在训练向量矩阵的排列顺序是相同的,例如,当训练词向量在训练向量矩阵的排列顺序是根据训练词语在当前文本的排列顺序从上往下进行排列时,则特征提取方向为从上往下方向。以训练词向量为单位进行特征提取是指进行特征提取时,将训练词向量对应的特征映射为同一个特征,即每次特征提取时是将正整数个训练词向量对应的特征映射为同一个特征。
在一个实施例中,根据信息提取位置得到训练向量矩阵对应的实际值的步骤包括:获取各个训练词语对应的元素值,当训练词语为非关键信息时,训练词语对应的元素值为无效元素值,当训练词语为关键信息时,训练词语对应的元素值为有效元素值。按照各个训练词语的在训练文本数据的排列顺序依次排列训练词语对应的元素值,得到训练标签向量,作为训练向量矩阵对应的实际值。
具体地,无效元素值可以是0,有效元素值可以是1。当训练词语是此次进行模型训练时训练文本的信息提取位置对应的训练词语时,则该训练词语为关键信息,否则为非关键信息。例如,假设A训练文本包括6个训练词语,其中第6个为提取数据,则训练标签向量可以为[0,0,0,0,0,1]。假设B训练文本包括6个训练词语,其中第3个为提取数据,则训练标签向量可以为[0,0,1,0,0,0]。
图6示出了一个实施例中文本关键信息提取方法的实现流程图,具体还可以包括以下步骤:
步骤S602,获取当前文本对应的业务类型,获取业务类型对应的多个待提取关键信息的目标内容类型。
具体地,业务类型根据文本所对应的业务进行划分,具体可以根据需要进行设置。例如可以分为信用卡消费类型、行程类型或者住宿类型等。信用卡消费类型是指该当前文本是关于信用卡消费的。行程类型是指该当前文本是关于出行信息例如乘坐飞机的日期以及飞机座位号等。住宿类型是指当前文本是关于住宿信息的,例如酒店名称以及租住日期等。得到当前文本后,可以根据当前文本中的内容确定当前文本的业务类型。例如当当前文本中出现还款等特定的字符时,可以确定当前文本的业务类型为信用卡类型。内容类型是指要获取的内容的类型,具体可以根据需要进行设置,例如可以是还款日期、还款金额或者出行日期等内容类型。可以预先设置业务类型与内容类型的对应关系,一个业务类型可以对应一个或多个内容类型。得到当前文本对应的业务类型后,根据业务类型与内容类型的对应关系得到目标内容类型。
步骤S604,获取与各个目标内容类型对应的目标神经网络模型。
具体地,各个内容类型对应的目标神经网络模型可以是不同的,内容类型与神经网络模型可以是一一对应的关系。因此得到目标内容类型后,获取各个目标内容类型对应的神经网络模型作为目标神经网络模型。
得到各个目标神经网络模型后,步骤S208即根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据各个已训练的目标神经网络模型对目标向量矩阵进行处理,得到各个目标内容类型对应的目标位置。即根据各个目标神经网络模型对目标向量矩阵进行处理,得到每一个目标内容类型对应的目标位置。
步骤S606,获取各个目标内容类型在预设内容填充模板对应的填充位置。
具体地,内容填充模板是预先设置的,具体可以根据需要进行设置,可以包括文字、图像以及视频等一种或多种内容。目标内容类型对应的填充位置也可以是预先设置的。例如,内容填充模板可以是“你本月xx银行待还款金额为xx元,离还款日还剩xx天”。其中上述内容填充模板中的xx为填充位置。
步骤S608,根据各个目标位置对应的关键信息得到对应的填充内容。
具体地,可以将目标位置对应的关键信息作为填充内容,也可以根据关键信息进行进一步处理,得到填充内容。例如当获取得到关键信息为还款日为4月29日,而当前日期为3月18日时,则填充内容可以为11,表示还款日与当前日期的相差天数为11天。或者当接收到两条信用卡消费短信,对第一条信用卡消费短信进行文本关键信息提取,提取到的数据是还款日期为1月25日,还款金额为500元。对第二条信用卡消费短信进行文本关键信息提取,提取到的数据是还款日期为1月15日,还款金额为1000元。则关键信息对应的填充内容可以为1月以及1500元,其中1500元为1月份的总还款金额。
步骤S610,将填充内容填充到对应的填充位置上,得到目标内容。
具体地,得到填充内容后,将该填充内容填充到对应的填充位置上,得到由内容填充模板以及填充内容组成的目标内容。目标内容可以如图7A所示,其中文本是从邮箱中获取的,2499、9968为提取到的还款金额,1月以及2月可以为提取到的还款日期“1月25日”以及“2月15日”分别对应的填充内容。目标内容也可以为如图7B的“离本月还款日还剩4天”所示,其中关键信息对应的内容类型为还款日期,关键信息可以为2018年3月5日,当前日期为2018年3月1日。图7B中“我已还款”以及“立即还款”为操作控件,当接收到对“我已还款”的点击操作时,可以不再显示该目标内容,当接收到对“立即还款”的点击操作时,可以根据提取到的关键信息跳转到对应的还款页面进行还款处理。例如,跳转到微信应用对应的还款页面进行还款。
以下以一个具体的实施例对本发明提供的文本关键信息提取方法进行说明,包括以下步骤:
1、获取待进行文本关键信息提取的当前文本,例如,当接收到信用卡账单短信时,将信用卡账单短信作为当前文本。假设接收到的短信为“您尾号0086交行信用卡07/22~08/21账单已生成,应还款¥8097,最低还款¥809,到期还款日09月15日,即日起至2017年12月31日,使用官方AP“买单吧”跨行还款,即享还款手续费全免[交通银行]”。
2、获取数据类型为数字、日期的当前数据,将当前数据替换为预设的词语“number”,得到目标文本。因此,上述接收到的短信对应的目标文本为“您尾号number交行信用卡number账单已生成,应还款¥number,最低还款¥number,到期还款日number,即日起至number,使用官方AP“买单吧”跨行还款,即享还款手续费全免[交通银行]”。
3、对目标文本进行分词处理,得到目标词语。上述的目标文本分词结果可以如下,其中“|”为分词符:“您|尾号|number|交行|信用卡|number|账单|已|生成|应|还款|number|最低|还款|number|到期|还款|日|number|即日起|至|number|使用|官方|买单|吧|跨行|还款|即享|还款|手续费|全免|交通银行”。
4、获取各个目标词语对应的目标词向量,照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵。例如,通过预先生成的字典得到“您”在词典中的排序为6、“尾号”在词典中的排序为4,“number”在词典中的排序为3……等,最终得到的目标词语在词典的排序依次为6|4|3|47|9|6|3|27|114|21|5|3|15|5|3|13|5|11|3|84|25|3|44|105|49|48|16|。假设词典中有100个词,则词向量为100维。故“您”对应的目标词向量中第6个元素为1,其他为0。“尾号”对应的目标词向量中第4个元素为1,其他为0。
5、按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵。将“您”对应的目标词向量作为目标向量矩阵的第一行,“尾号”对应的目标词向量作为目标向量矩阵的第二行,其他词向量亦按照对应的目标词语在当前文本的排列顺序依次作为矩阵的一行,得到目标向量矩阵。由于根据步骤1的文本得到的目标向量矩阵元素数量多,在申请文件中不方便显示。因此以词典包括6个词语,文本包括3个词语,且在词典的顺序依次为6、4、3为例,得到的目标向量矩阵可以如图8所示。
6、根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置。其中卷积神经网络模型有两个,一个是获取还款日期的模型,一个是获取金额的模型。其中卷积神经网络模型有两个卷积层,各个卷积层的卷积核的列数均为100列,行数为3行。由于目标向量矩阵有100列,卷积方向为从上到下,因此在第一个卷积层中卷积核每移动一次进行卷积的目标词向量为3个。由于第一层卷积层的输出矩阵的列数小于100列,因此,需要在输出矩阵的第一列之前或者最后一列之后增加全为0的列,使得输入到第二层的矩阵的列数为100列。得到增加了无效列的矩阵后,将该矩阵输入到第二卷积层中,进行卷积,得到卷积结果。根据卷积结果以及softmax激活函数得到各个目标词语对应的位置为目标位置的概率。将目标词语对应的位置中概率最大的位置作为目标位置。假设还款日期对应的模型输出的目标位置为19,还款金额对应的模型输出的目标位置为12。
7、从当前文本中提取目标位置对应的目标词语作为关键信息。从文本中目标词语的排序可以得到文本中第19位对应的目标词语为09月15日。文本中第12位对应的目标词语为8097,因此可以得到还款日期为9月15日,还款金额为8097元。
8、保存提取得到的关键信息,并在距离还款日还剩1天时,提醒用户需要还款8097元。
如图9所示,在一个实施例中,提供了一种文本关键信息提取装置,该文本关键信息提取装置可以集成于上述的终端110或者服务器120中,具体可以包括当前文本获取模块902、分词模块904、目标矩阵得到模块906、位置得到模块908以及提取模块910。
当前文本获取模块902,用于获取待提取关键信息的当前文本。
分词模块904,用于对当前文本进行分词处理,得到当前文本对应的目标词语。
目标矩阵得到模块906,用于获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵。
位置得到模块908,用于根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致。
提取模块910,用于从当前文本中提取目标位置对应的目标词语作为关键信息。
在一个实施例中,如图10所示,目标矩阵得到模块906包括:
对象得到单元906A,用于将各个目标词向量分别作为向量矩阵中的目标矩阵对象。
排列单元906B,用于按照目标词语在当前文本的排列顺序将各个目标矩阵对象依次进行排列,得到目标向量矩阵。
在一个实施例中,如图11所示,目标神经网络模型为卷积神经网络模型,位置得到模块908包括:
当前矩阵获取单元908A,用于获取目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当当前特征提取层为首层时,当前输入矩阵为目标向量矩阵,当当前特征提取层不是首层时,当前输入矩阵为当前特征提取层的上一特征提取层的输出矩阵。
缩放单元908B,用于当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵,目标输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度相同,预设方向维度对应的预设方向为目标向量矩阵中目标词向量的宽度所对应的方向。
特征提取单元908C,用于根据当前特征提取矩阵对目标输入矩阵进行特征提取,得到当前输出矩阵。
目标位置得到单元908D,用于根据当前输出矩阵得到待提取关键信息对应的目标位置。
在一个实施例中,缩放单元908B用于:当当前输入矩阵对应的预设方向维度小于当前特征提取矩阵对应的预设方向维度时,在当前输入矩阵的预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到目标输入矩阵。或,当当前输入矩阵对应的预设方向维度大于当前特征提取矩阵对应的预设方向维度时,对当前输入矩阵进行下采样,得到目标输入矩阵,其中,进行下采样时以目标词向量为单位进行采样,下采样的方向与目标词向量在目标向量矩阵的排列顺序一致。
在一个实施例中,如图12所示,文本关键信息提取装置还包括:
样本数据获取模块1202,用于获取样本数据,样本数据包括训练文本对应的训练词语以及对应的信息提取位置。
训练矩阵得到模块1204,用于获取训练词语对应的各个训练词向量,按照训练词语在训练文本的排列顺序将对应的各个训练词向量进行组合,得到训练向量矩阵。
训练模块1206,用于将训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到目标神经网络模型,其中,进行模型训练时以训练词向量为单位进行特征提取,进行模型训练的特征提取方向与训练词向量在训练向量矩阵的排列顺序一致。
在其中一个实施例中,如图13所示,文本关键信息提取装置还包括:
内容类型获取模块1302,用于获取当前文本对应的业务类型,获取业务类型对应的多个待提取关键信息的目标内容类型。
模型获取模块1304,用于获取与各个目标内容类型对应的目标神经网络模型。
位置得到模块908用于:根据各个已训练的目标神经网络模型对目标向量矩阵进行处理,得到各个目标内容类型对应的目标位置。
文本关键信息提取装置还包括:
填充位置获取模块1306,用于获取各个目标内容类型在预设内容填充模板对应的填充位置。
填充内容获取模块1308,用于根据各个目标位置对应的关键信息得到对应的填充内容。
目标内容得到模块1310,用于将填充内容填充到对应的填充位置上,得到目标内容。
在其中一个实施例中,分词模块包括:
当前数据获取单元,用于获取当前文本中预设数据类型的当前数据。
替换单元,用于将当前数据替换为预设数据类型对应的替换数据,得到目标文本。
分词单元,用于对目标文本进行分词处理,得到当前文本对应的目标词语。
在其中一个实施例中,位置得到模块用于:根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到当前文本中的各个目标词语对应的排列位置的被选中率。根据目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从各个目标词语对应的排列位置筛选出目标位置。
图14示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图14所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本关键信息提取方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本关键信息提取方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本关键信息提取装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本关键信息提取装置的各个程序模块,比如,图9所示的当前文本获取模块902、分词模块904、目标矩阵得到模块906、位置得到模块908以及提取模块910。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本关键信息提取方法中的步骤。
例如,图14所示的计算机设备可以通过如图12所示的当前文本获取模块902获取待提取关键信息的当前文本。通过分词模块904对当前文本进行分词处理,得到当前文本对应的目标词语。通过目标矩阵得到模块906获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵。通过位置得到模块908根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致。通过提取模块910从当前文本中提取目标位置对应的目标词语作为关键信息。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待提取关键信息的当前文本;对当前文本进行分词处理,得到当前文本对应的目标词语;获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵;根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致;从当前文本中提取目标位置对应的目标词语作为关键信息。
在一个实施例中,处理器执行的按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵包括:将各个目标词向量分别作为向量矩阵中的目标矩阵对象;按照目标词语在当前文本的排列顺序将各个目标矩阵对象依次进行排列,得到目标向量矩阵。
在一个实施例中,目标神经网络模型为卷积神经网络模型,处理器执行的根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置的步骤包括:获取目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当当前特征提取层为首层时,当前输入矩阵为目标向量矩阵,当当前特征提取层不是首层时,当前输入矩阵为当前特征提取层的上一特征提取层的输出矩阵;当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵,目标输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度相同,预设方向维度对应的预设方向为目标向量矩阵中目标词向量的宽度所对应的方向;根据当前特征提取矩阵对目标输入矩阵进行特征提取,得到当前输出矩阵;根据当前输出矩阵得到待提取关键信息对应的目标位置。
在一个实施例中,处理器执行的当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵包括:当当前输入矩阵对应的预设方向维度小于当前特征提取矩阵对应的预设方向维度时,在当前输入矩阵的预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到目标输入矩阵;或当当前输入矩阵对应的预设方向维度大于当前特征提取矩阵对应的预设方向维度时,对当前输入矩阵进行下采样,得到目标输入矩阵,其中,进行下采样时以目标词向量为单位进行采样,下采样的方向与目标词向量在目标向量矩阵的排列顺序一致。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取样本数据,样本数据包括训练文本对应的训练词语以及对应的信息提取位置;获取训练词语对应的各个训练词向量,按照训练词语在训练文本的排列顺序将对应的各个训练词向量进行组合,得到训练向量矩阵;将训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到目标神经网络模型,其中,进行模型训练时以训练词向量为单位进行特征提取,进行模型训练的特征提取方向与训练词向量在训练向量矩阵的排列顺序一致。。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取当前文本对应的业务类型,获取业务类型对应的多个待提取关键信息的目标内容类型;获取与各个目标内容类型对应的目标神经网络模型;根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据各个已训练的目标神经网络模型对目标向量矩阵进行处理,得到各个目标内容类型对应的目标位置;方法还包括:获取各个目标内容类型在预设内容填充模板对应的填充位置;根据各个目标位置对应的关键信息得到对应的填充内容;将填充内容填充到对应的填充位置上,得到目标内容。
在一个实施例中,处理器执行的对当前文本进行分词处理,得到当前文本对应的目标词语包括:获取当前文本中预设数据类型的当前数据;将当前数据替换为预设数据类型对应的替换数据,得到目标文本;对目标文本进行分词处理,得到当前文本对应的目标词语。
在一个实施例中,处理器执行的根根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到当前文本中的各个目标词语对应的排列位置的被选中率;根据目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从各个目标词语对应的排列位置筛选出目标位置。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待提取关键信息的当前文本;对当前文本进行分词处理,得到当前文本对应的目标词语;获取目标词语对应的各个目标词向量,按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵;根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,目标神经网络模型以目标词向量为单位进行特征提取,目标神经网络模型的特征提取方向与目标词向量在目标向量矩阵的排列顺序一致;从当前文本中提取目标位置对应的目标词语作为关键信息。
在一个实施例中,处理器执行的按照目标词语在当前文本的排列顺序将对应的各个目标词向量进行组合,得到目标向量矩阵包括:将各个目标词向量分别作为向量矩阵中的目标矩阵对象;按照目标词语在当前文本的排列顺序将各个目标矩阵对象依次进行排列,得到目标向量矩阵。
在一个实施例中,目标神经网络模型为卷积神经网络模型,处理器执行的根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置的步骤包括:获取目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当当前特征提取层为首层时,当前输入矩阵为目标向量矩阵,当当前特征提取层不是首层时,当前输入矩阵为当前特征提取层的上一特征提取层的输出矩阵;当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵,目标输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度相同,预设方向维度对应的预设方向为目标向量矩阵中目标词向量的宽度所对应的方向;根据当前特征提取矩阵对目标输入矩阵进行特征提取,得到当前输出矩阵;根据当前输出矩阵得到待提取关键信息对应的目标位置。
在一个实施例中,处理器执行的当当前输入矩阵对应的预设方向维度与当前特征提取矩阵对应的预设方向维度不一致时,对当前输入矩阵进行缩放,得到目标输入矩阵包括:当当前输入矩阵对应的预设方向维度小于当前特征提取矩阵对应的预设方向维度时,在当前输入矩阵的预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到目标输入矩阵;或当当前输入矩阵对应的预设方向维度大于当前特征提取矩阵对应的预设方向维度时,对当前输入矩阵进行下采样,得到目标输入矩阵,其中,进行下采样时以目标词向量为单位进行采样,下采样的方向与目标词向量在目标向量矩阵的排列顺序一致。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取样本数据,样本数据包括训练文本对应的训练词语以及对应的信息提取位置;获取训练词语对应的各个训练词向量,按照训练词语在训练文本的排列顺序将对应的各个训练词向量进行组合,得到训练向量矩阵;将训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到目标神经网络模型,其中,进行模型训练时以训练词向量为单位进行特征提取,进行模型训练的特征提取方向与训练词向量在训练向量矩阵的排列顺序一致。。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取当前文本对应的业务类型,获取业务类型对应的多个待提取关键信息的目标内容类型;获取与各个目标内容类型对应的目标神经网络模型;根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据各个已训练的目标神经网络模型对目标向量矩阵进行处理,得到各个目标内容类型对应的目标位置;方法还包括:获取各个目标内容类型在预设内容填充模板对应的填充位置;根据各个目标位置对应的关键信息得到对应的填充内容;将填充内容填充到对应的填充位置上,得到目标内容。
在一个实施例中,处理器执行的对当前文本进行分词处理,得到当前文本对应的目标词语包括:获取当前文本中预设数据类型的当前数据;将当前数据替换为预设数据类型对应的替换数据,得到目标文本;对目标文本进行分词处理,得到当前文本对应的目标词语。
在一个实施例中,处理器执行的根根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:根据已训练的目标神经网络模型对目标向量矩阵进行处理,得到当前文本中的各个目标词语对应的排列位置的被选中率;根据目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从各个目标词语对应的排列位置筛选出目标位置。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本关键信息提取方法,所述方法包括:
获取待提取关键信息的当前文本;
对所述当前文本进行分词处理,得到所述当前文本对应的目标词语;
获取所述目标词语对应的各个目标词向量,按照所述目标词语在所述当前文本的排列顺序将对应的所述各个目标词向量进行组合,得到目标向量矩阵;
根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,所述目标神经网络模型以所述目标词向量为单位进行特征提取,所述目标神经网络模型的特征提取方向与所述目标词向量在所述目标向量矩阵的排列顺序一致;
从所述当前文本中提取所述目标位置对应的目标词语作为关键信息。
2.根据权利要求1所述的方法,其特征在于,所述按照所述目标词语在所述当前文本的排列顺序将对应的所述各个目标词向量进行组合,得到目标向量矩阵包括:
将所述各个目标词向量分别作为向量矩阵中的目标矩阵对象;
按照所述目标词语在所述当前文本的排列顺序将所述各个目标矩阵对象依次进行排列,得到所述目标向量矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述目标神经网络模型为卷积神经网络模型,所述根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置的步骤包括:
获取所述目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;
当所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述目标输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度相同,所述预设方向维度对应的预设方向为所述目标向量矩阵中所述目标词向量的宽度所对应的方向;
根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;
根据所述当前输出矩阵得到待提取关键信息对应的目标位置。
4.根据权利要求3所述的方法,其特征在于,所述当所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,对所述当前输入矩阵进行缩放,得到目标输入矩阵包括:
当所述当前输入矩阵对应的预设方向维度小于所述当前特征提取矩阵对应的预设方向维度时,在所述当前输入矩阵的所述预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到所述目标输入矩阵;
当所述当前输入矩阵对应的预设方向维度大于所述当前特征提取矩阵对应的预设方向维度时,对所述当前输入矩阵进行下采样,得到所述目标输入矩阵,其中,进行下采样时以所述目标词向量为单位进行采样,下采样的方向与所述目标词向量在所述目标向量矩阵的排列顺序一致。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本数据,所述样本数据包括训练文本对应的训练词语以及对应的信息提取位置;
获取所述训练词语对应的各个训练词向量,按照所述训练词语在所述训练文本的排列顺序将对应的所述各个训练词向量进行组合,得到训练向量矩阵;
将所述训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到所述目标神经网络模型,其中,进行模型训练时以所述训练词向量为单位进行特征提取,进行模型训练的特征提取方向与所述训练词向量在所述训练向量矩阵的排列顺序一致。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述当前文本对应的业务类型,获取所述业务类型对应的多个待提取关键信息的目标内容类型;
获取与所述各个目标内容类型对应的目标神经网络模型;
所述根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:
根据所述各个已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到所述各个目标内容类型对应的目标位置;
所述方法还包括:
获取所述各个目标内容类型在预设内容填充模板对应的填充位置;
根据所述各个目标位置对应的关键信息得到对应的填充内容;
将所述填充内容填充到对应的填充位置上,得到目标内容。
7.根据权利要求1所述的方法,其特征在于,所述对所述当前文本进行分词处理,得到所述当前文本对应的目标词语包括:
获取所述当前文本中预设数据类型的当前数据;
将所述当前数据替换为所述预设数据类型对应的替换数据,得到目标文本;
对所述目标文本进行分词处理,得到所述当前文本对应的目标词语。
8.根据权利要求1所述的方法,其特征在于,所述根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置包括:
根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到所述当前文本中的各个目标词语对应的排列位置的被选中率;
根据所述目标词语对应的排列位置的被选中率以及待提取关键信息的数据类型从所述各个目标词语对应的排列位置筛选出所述目标位置。
9.一种文本关键信息提取装置,所述装置包括:
当前文本获取模块,用于获取待提取关键信息的当前文本;
分词模块,用于对所述当前文本进行分词处理,得到所述当前文本对应的目标词语;
目标矩阵得到模块,用于获取所述目标词语对应的各个目标词向量,按照所述目标词语在所述当前文本的排列顺序将对应的所述各个目标词向量进行组合,得到目标向量矩阵;
位置得到模块,用于根据已训练的目标神经网络模型对所述目标向量矩阵进行处理,得到待提取关键信息对应的目标位置,其中,所述目标神经网络模型以所述目标词向量为单位进行特征提取,所述目标神经网络模型的特征提取方向与所述目标词向量在所述目标向量矩阵的排列顺序一致;
提取模块,用于从所述当前文本中提取所述目标位置对应的目标词语作为关键信息。
10.根据权利要求9所述的装置,其特征在于,所述目标矩阵得到模块包括:
对象得到单元,用于将所述各个目标词向量分别作为向量矩阵中的目标矩阵对象;
排列单元,用于按照所述目标词语在所述当前文本的排列顺序将所述各个目标矩阵对象依次进行排列,得到所述目标向量矩阵。
11.根据权利要求9或10所述的装置,其特征在于,所述目标神经网络模型为卷积神经网络模型,所述位置得到模块包括:
当前矩阵获取单元,用于获取所述目标神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;
缩放单元,用于当所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述目标输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度相同,所述预设方向维度对应的预设方向为所述目标向量矩阵中所述目标词向量的宽度所对应的方向;
特征提取单元,用于根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;
目标位置得到单元,用于根据所述当前输出矩阵得到待提取关键信息对应的目标位置。
12.根据权利要求11所述的装置,其特征在于,所述缩放单元用于:
当所述当前输入矩阵对应的预设方向维度小于所述当前特征提取矩阵对应的预设方向维度时,在所述当前输入矩阵的所述预设方向上的首矩阵对象之前和/或尾矩阵对象之后增加无效矩阵对象,得到所述目标输入矩阵;
当所述当前输入矩阵对应的预设方向维度大于所述当前特征提取矩阵对应的预设方向维度时,对所述当前输入矩阵进行下采样,得到所述目标输入矩阵,其中,进行下采样时以所述目标词向量为单位进行采样,下采样的方向与所述目标词向量在所述目标向量矩阵的排列顺序一致。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
样本数据获取模块,用于获取样本数据,所述样本数据包括训练文本对应的训练词语以及对应的信息提取位置;
训练矩阵得到模块,用于获取所述训练词语对应的各个训练词向量,按照所述训练词语在所述训练文本的排列顺序将对应的所述各个训练词向量进行组合,得到训练向量矩阵;
训练模块,用于将所述训练向量矩阵以及对应的信息提取位置作为训练样本进行模型训练,得到所述目标神经网络模型,其中,进行模型训练时以所述训练词向量为单位进行特征提取,进行模型训练的特征提取方向与所述训练词向量在所述训练向量矩阵的排列顺序一致。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至8中任一项权利要求所述文本关键信息提取方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至8中任一项权利要求所述文本关键信息提取方法的步骤。
CN201810327596.4A 2018-04-12 2018-04-12 文本关键信息提取方法、装置、计算机设备和存储介质 Active CN108536678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810327596.4A CN108536678B (zh) 2018-04-12 2018-04-12 文本关键信息提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810327596.4A CN108536678B (zh) 2018-04-12 2018-04-12 文本关键信息提取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108536678A true CN108536678A (zh) 2018-09-14
CN108536678B CN108536678B (zh) 2023-04-07

Family

ID=63480021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810327596.4A Active CN108536678B (zh) 2018-04-12 2018-04-12 文本关键信息提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108536678B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗系统有限公司 结构化数据提取装置、方法及存储介质
CN109710574A (zh) * 2018-12-25 2019-05-03 东软集团股份有限公司 一种从文献中提取关键信息的方法和装置
CN109767326A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 可疑交易报告生成方法、装置、计算机设备和存储介质
CN109992761A (zh) * 2019-03-22 2019-07-09 武汉工程大学 一种基于规则的自适应文本信息提取方法及软件存储器
CN110020431A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN110347826A (zh) * 2019-06-17 2019-10-18 昆明理工大学 一种基于字符提取老挝语词特征的方法
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN110852064A (zh) * 2019-10-31 2020-02-28 腾讯科技(深圳)有限公司 关键句提取方法及装置
CN110991161A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112036572A (zh) * 2020-08-28 2020-12-04 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置
CN112184318A (zh) * 2020-09-30 2021-01-05 成都力欧互动网络科技有限公司 一种广告发布方法及装置
WO2021027283A1 (zh) * 2019-08-12 2021-02-18 北京国双科技有限公司 文本信息提取方法及装置
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答系统语句关键词提取方法
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答系统语句关键词提取方法
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUIJIAN HAN等: "Semantic Word Rank Algorithm Based on the Relation Degree of the Words", 《2016 12TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY》 *
JIAJUN CHENG等: "Deep ConvRNN for Sentiment Parsing of Chinese Microblogging Texts", 《2017 2ND IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND APPLICATIONS》 *
于亮: "科技文献的文本特征抽取研究与应用", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991161B (zh) * 2018-09-30 2023-04-18 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN110991161A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗系统有限公司 结构化数据提取装置、方法及存储介质
CN109767326A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 可疑交易报告生成方法、装置、计算机设备和存储介质
CN109710574A (zh) * 2018-12-25 2019-05-03 东软集团股份有限公司 一种从文献中提取关键信息的方法和装置
CN109710574B (zh) * 2018-12-25 2020-08-11 东软集团股份有限公司 一种从文献中提取关键信息的方法和装置
CN110020431A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN110020431B (zh) * 2019-03-06 2023-07-18 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN109992761A (zh) * 2019-03-22 2019-07-09 武汉工程大学 一种基于规则的自适应文本信息提取方法及软件存储器
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质
CN110347826A (zh) * 2019-06-17 2019-10-18 昆明理工大学 一种基于字符提取老挝语词特征的方法
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN112395422A (zh) * 2019-08-12 2021-02-23 北京国双科技有限公司 文本信息提取方法及装置
WO2021027283A1 (zh) * 2019-08-12 2021-02-18 北京国双科技有限公司 文本信息提取方法及装置
CN110852064B (zh) * 2019-10-31 2021-10-26 腾讯科技(深圳)有限公司 关键句提取方法及装置
CN110852064A (zh) * 2019-10-31 2020-02-28 腾讯科技(深圳)有限公司 关键句提取方法及装置
CN111177326B (zh) * 2020-04-10 2020-08-04 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111177326A (zh) * 2020-04-10 2020-05-19 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112036572A (zh) * 2020-08-28 2020-12-04 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置
CN112036572B (zh) * 2020-08-28 2024-03-12 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置
CN112184318A (zh) * 2020-09-30 2021-01-05 成都力欧互动网络科技有限公司 一种广告发布方法及装置
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN112381038B (zh) * 2020-11-26 2024-04-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质

Also Published As

Publication number Publication date
CN108536678B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108536678A (zh) 文本关键信息提取方法、装置、计算机设备和存储介质
CN109493199A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN108520460A (zh) 业务数据测算处理方法、装置、计算机设备和存储介质
CN109344234A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN112347367B (zh) 信息服务提供方法、装置、电子设备和存储介质
CN104751194A (zh) 一种财务费用报销的处理方法及装置
CN109271627A (zh) 文本分析方法、装置、计算机设备和存储介质
CN111615702A (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN110956739A (zh) 一种票据识别方法及装置
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN110222695A (zh) 一种证件图片处理方法及装置、介质、电子设备
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN107239775A (zh) 地物分类方法及装置
CN106649661A (zh) 知识库构建方法和装置
CN109886719A (zh) 基于网格的数据挖掘处理方法、装置和计算机设备
CN110210479A (zh) 一种垃圾物品上的文字信息提取方法
CN110427819A (zh) 一种识别图像中ppt边框的方法及相关设备
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN106095972A (zh) 一种信息分类方法及装置
Ning et al. Choosing an appropriate training set size when using existing data to train neural networks for land cover segmentation
CN109492170A (zh) 信息推送方法及相关产品
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN111881943A (zh) 图像分类的方法、装置、设备和计算机可读介质
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
CN110084105A (zh) 合同文件分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant