CN113094509B - 文本信息提取方法、系统、设备及介质 - Google Patents

文本信息提取方法、系统、设备及介质 Download PDF

Info

Publication number
CN113094509B
CN113094509B CN202110634516.1A CN202110634516A CN113094509B CN 113094509 B CN113094509 B CN 113094509B CN 202110634516 A CN202110634516 A CN 202110634516A CN 113094509 B CN113094509 B CN 113094509B
Authority
CN
China
Prior art keywords
text
document data
classification
loss function
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110634516.1A
Other languages
English (en)
Other versions
CN113094509A (zh
Inventor
姚娟娟
钟南山
樊代明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mingping Medical Data Technology Co ltd
Original Assignee
Mingpinyun Beijing Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mingpinyun Beijing Data Technology Co Ltd filed Critical Mingpinyun Beijing Data Technology Co Ltd
Priority to CN202110634516.1A priority Critical patent/CN113094509B/zh
Publication of CN113094509A publication Critical patent/CN113094509A/zh
Application granted granted Critical
Publication of CN113094509B publication Critical patent/CN113094509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本信息提取方法、系统、设备及介质,包括:获取用户的信息档案,所述信息档案为用户来访目的地之后形成的文本数据;预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;根据所述分类结果所对应的文档数据,提取与分类主题相关联的关键信息。本发明通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,不仅有利于挖掘深层次特征信息,还提高信息提取的效率与精准度。

Description

文本信息提取方法、系统、设备及介质
技术领域
本发明属于数据处理技术领域,特别是涉及一种文本信息提取方法、系统、设备及介质。
背景技术
随着信息技术的不断发展,计算机已然成为了信息传递的一种重要媒介,因此将图像中的文字转换为计算机可进行处理的格式有利于人们对信息的理解、加工和传递。许多视觉领域内和文本相关的任务,如图像检索、智能无障碍辅助设施等都需要以精确的文本识别结果进行构建。
目前,用户的信息档案主要以纸质化形式存在。然而,当需要迅速查询用户信息时,只能通过手动翻找的方式进行浏览,这样操作不仅费时费力、效率低下、同时,还会由于时间紧迫性遗漏用户的关键信息。因此,通过这种方法很难查找到与主题匹配度较高的结果,不利于信息档案的提取与查找。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文本信息提取方法、系统、设备及介质,用于解决现有技术文本信息提取时,效率和精度不高的问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种文本信息提取方法,包括:
获取用户的信息档案,所述信息档案为用户来访目的地之后形成的文本数据;
预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;
结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息。
于所述第一方面的一实施例中,构建所述文本分类模型的步骤,包括:
获取所述文档数据的字符向量与词向量,将所述字符向量与词向量进行拼接后输入到双向GRU网络,得到第一文本特征,利用自注意力层对所述第一文本特征进行加权计算,得到第二文本特征;
调用知识库中概念图谱对所述文档数据进行概念化处理,得到由概念向量集合构成的概念集;并将所述第二文本特征经池化层处理得到特征向量;
在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征;
结合所述第二文本特征与概念集特征,利用反向传播算法进行训练得到文本分类模型。
于所述第一方面的一实施例中,还包括:通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:
Figure DEST_PATH_IMAGE001
其中,M为训练集大小,N为类别数,R为预测类别,R’为实际类别,λ||θ||2为正则项。
于所述第一方面的一实施例中,所述利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据的步骤,包括:
利用OCR检测,确定所述文本块内文本信息的位置;利用OCR识别,识别所述文本块内的文字;参照版面布局,将识别出的文本信息按从上到下从左到右的顺序依次排列,形成与版式相对应的文档数据。
于所述第一方面的一实施例中,还包括:利用NLP算法对所述分类结果所对应的文档数据进行分词处理,采用TF-IDF方式提取所述文档数据中的文本特征值,通过文本特征值与分类主题之间的关联性,得到文档数据与分类主题相关联的关键信息。
于所述第一方面的一实施例中,还包括:
构建用于识别所述文档数据中字符的第一卷积神经网络;
将所述文档数据输入所述第一卷积神经网络,进行文本字符识别,获取字符识别结果;
利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习,得到关键信息提取模型,利用所述关键信息提取模型得到所述文档数据中与所述分类主题相关联的关键信息。
于所述第一方面的一实施例中,利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习的数学表达为:
L=λ1loss+λ2lctc
其中,L为所述文档数据分类结果和字符识别结果的损失总和,λ1为交叉熵损失函数的损失权重,loss为所述文档数据分类结果的损失,λ2为CTC损失函数的损失权重,lctc为所述文档数据字符识别的损失。
本发明的第二方面提供一种文本信息提取系统,包括:
档案获取模块,用于获取用户的信息档案,所述信息档案为用户来访目的地后形成的文本数据;
文本分割模块,用于预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
文本转换模块,利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;
分类处理模块,用于结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
信息提取模块,根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息。
本发明的第三方面提供一种文本信息提取设备,包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现上述的文本信息提取方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于使所述计算机执行上述的文本信息提取方法。
如上所述,本发明所述的文本信息提取方法、系统、设备及介质的一个技术方案,具有以下有益效果:
本发明通过文本数据的版式分割成多个文本块,利用OCR技术单独检测、设别每个所述文本块的文字内容,适应各种不同版式信息档案,扩展了其通用性;同时,通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;还有,通过对文档数据的字符识别与分类结果,提取与分类主题相关联的关键信息,不仅提高了信息提取的精确度,还改善了信息的局限性。
附图说明
图1显示为本发明提供的一种文本信息提取方法流程图;
图2显示为本发明提供的一种文本信息提取方法中文本分类模型的构建流程图;
图3显示为本发明提供的一种文本分类模型的结构示意图;
图4显示为本发明提供的一种文本信息提取方法中信息提取模型的构建流程图;
图5显示为本发明提供的一种文本信息提取系统结构框图;
图6显示为本发明提供的一种文本信息提取设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明解决的技术问题是,由于目前大多数医院在用户就医诊断后都局限于将用户的病历以及健康档案存储于本地医院,形成本地数据,不会上传到云端,或者,即使上传到云端由于用户的私密性、以及安全性考虑,也不会共享用户的医用数据。因此,用户到医院就诊、检查后都会形成纸质化的信息档案(即医学档案)反馈给用户。
然而,当用户下次到不同医院就诊时,如果医生想了解用户病史信息时,只能通过医生现场翻阅用户医学档案,这样操作不仅费时费力、效率低下、同时,还会因为时间紧迫性遗漏用户的关键信息。
请参阅图1,为本发明提供的一种文本信息提取方法流程图,包括:
步骤S1,获取用户的信息档案,所述信息档案包含用户来访目的地之后形成的文本数据;
其中,在用户去医院时,医务人员通过对用户进行检查、就诊后填写的纸质报告、就诊记录与检查信息等形成的信息档案,通过投影或扫描等方式将纸质化的信息档案进行上传,转化为电子档形式的文本数据。
例如,所述信息档案包括用户的基本信息、健康状态、家族史、疾病史、体检信息等方面。其中,所述基本信息包括用户的性别、年龄、职业、婚姻状况等个人基本信息。所述健康状态包括用户是否存在身体缺陷、是否存在先天疾病以及是否近视等信息。所述家族史包括用户的家族病史;所述疾病史包括用户的曾患疾病信息;所述体检信息包括用户的体检信息,例如:心率、肝功能、血脂、尿常规、肾功能、肿瘤标志物等。
步骤S2,预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
其中,文本数据表现的形式有多种,例如,报表数据、纯文本数据、或包含图片的文本数据。
具体地,由于采集的文本数据可能因亮度、光线以及色调等因素形成噪声,影响文本数据的质量。因此,采用归一化预处理所述文本数据,例如,可通过简单缩放、逐样本均值消减、或特征标准化等方式归一化处理文本数据,便于后续根据文本数据版式分割。
又例如,由于文本数据中有时包括图片,还可以采用小范围随机数据丢弃、随机加噪、色彩增强、色调变换、对比度变化、随机模糊等对图片进行数据增强,以增强图片质量。
本实施例中,主要针对文本数据进行处理,如果按照版式分割,例如,纯文本块或包含图片的文本块,造成分割的文本块存在只包含图片,即不含文字的形式。
步骤S3,利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;
具体地,利用OCR检测,确定所述文本块内文本信息的位置;利用OCR识别,识别所述文本块内的文字;参照版面布局,将识别出的文本信息按从上到下从左到右的顺序依次排列,形成与版式相对应的文档数据。
需要说明的是,OCR (optical character recognition)文字识别是指电子设备(例如,扫描仪或数码相机)检查纸上打印的字符,用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,对图像文件进行分析处理,获取文字及版面信息的过程。
例如,如果是纯文本块,则正常执行上述步骤S3;如果文本块只包含图片,例如,CT图片、彩超图片等,则丢弃只包含图片的文本块,通过识别图片相对应描述的文本块文字即可,如,检查结论等。
步骤S4,结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
其中,多头注意机制属于一种特殊的自注意机制,可以通过输入层输出的词向量序列构建序列的对称相似性矩阵。
Bi-GRU网络用于获取多头自注意层输出序列的上下文内信息。在信息提取的任务中,RNN(Recurrent Neural Network)是使用最多的模型。LSTM(Long-Short TermMemory)相对于RNN引入了长期记忆和门结构,缓解了RNN长期去依赖性的问题,但同时也增加了模型的计算量。而GRU(gate recurrent unit)则进一步优化了LSTM,只保留了newgate和reset gate两个门操作,因此GRU单元的参数更少,收敛速度比LSTM单元更快。
步骤S5,根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息。
具体地,通过将文档数据按照疾病种类分类,按照判断该疾病的症状、异常指标以及治疗方案作为关联的关键信息,有助于医生能够迅速了解用户历史疾病记录,同时,作为本次诊断的参考依据。
例如,如果分类主题为某类疾病,如,呼吸道感染,那么其对应的关键信息可为判断确诊的异常指标(依据),白细胞计算、或淋巴细胞比例等指标,其对应的关键信息还包括涉及症状、以及相应的治疗方案等。
在本实施例中,通过文本数据的版式分割成多个文本块,利用OCR技术单独检测、设别每个所述文本块的文字内容,适应各种不同版式信息档案,扩展了其通用性;同时,通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;还有,通过对文档数据的字符识别与分类结果,提取与分类主题相关联的关键信息,不仅提高了信息提取的精确度,还改善了信息的局限性。
请参阅图2,为本发明提供的一种文本信息提取方法中文本分类模型的构建流程图,详述如下:
步骤S201,获取所述文档数据的字符向量与词向量,将所述字符向量与词向量进行拼接后输入到双向GRU网络,得到第一文本特征,利用自注意力层对所述第一文本特征进行加权计算,得到第二文本特征;
步骤S202,调用知识库中概念图谱对所述文档数据进行概念化处理,得到由概念向量集合构成的概念集;并将所述第二文本特征经池化层处理得到特征向量;
步骤S203,在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征;
步骤S204,结合所述第二文本特征与概念集特征,利用反向传播算法进行训练得到文本分类模型。
具体地,通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:
Figure DEST_PATH_IMAGE002
其中,M为训练集大小,N为类别数,R为预测类别,R’为实际类别,
λ||θ||2为正则项。
在本实施例中,采用反向传播算法,以及引入 L2正则化以避免网络模型过拟合问题。L2 正则化通过在损失函数中加入 L2 范数作为惩罚项,使得模型拟合更倾向于低维的模型,可以有效防止过拟合。相比于L1正则化会产生稀疏性问题,L2正则化可以使系数向量更加平滑,避免稀疏性问题。
请参阅图3,为本发明提供的一种文本分类模型的结构示意图,详述如下:
融合知识图谱、注意力机制和双向GRU网络构建的文本分类模型,该模型借鉴了神经网络翻译模型的设计思想,采用基于Transformer的编码器-解码器网络结构,同时,融合概念图片获取文本的先验知识,如图3所示,该网络模型主要包括以下两部分:
第一部分,使用字符向量与词向量拼接后作为输入,经过Bi-GRU提取第一文本特征,并利用多头自注意力层对重要文本信息进行加权,获得第二文本特征。
第二部分,通过调用微软的知识库中概念图谱的API接口,获取文本概念集并向量化,通过与文本特征向量进行Attention计算,提升概念集中与文本关系密切的概念权重,得到最终概念集特征。
例如,使用卷积神经网络可以提取出单词字符中的形态学信息(例如,单词的前缀后缀),将字符嵌入作为词向量的拓展,为缺少词向量的单词提供额外信息。通过使用字符级词嵌入向量与词向量相拼接作为文本编码模型的输入,例如,输入文本单词序列{Z1,Z2…,Zn},ZX表示句中第X个单词,其中,ZX单词中包含长度为 L 的字符,Cy为单词 ZX中每个字符嵌入向量,每一个字符都代表其相应的一个特征。使用一个标准卷积神经网络处理每一个单词中的字符序列,训练得到单词的字符级向量。
随后将ZX单词映射为词向量,对词向量与字符向量进行拼接。
最终获得词向量矩阵 E=[E1,E2,…,En]作为 Bi-GRU的输入。前向 GRU 按照正常的顺序读取输入序列(E1~En ),反向GRU 则按逆序读取输入序列(En~ E1),每个t时刻的输入向量Ex经过门控循环单元的计算,获取每个时刻的前向隐藏状态和反向隐藏状态,将各个时刻的前向隐藏状态与其对应时刻的反向隐藏状态连接,得到该时刻的隐藏状态。
随后将每个时刻隐藏状态输入自注意力层,对每个时间步输入的词根据注意力计算进行加权,使重要的词语获得更高的权重。
即Bi-GRU层输出的隐藏状态,目的是在输入序列内部进行注意力计算,寻找序列内部的联系。通过自注意力层计算出注意力权重,将Bi-GRU输出的t时刻的隐藏状态加权平均:最终输出特征矩阵,即,第二特征。
又例如,使用微软发布的Concept Graph知识图谱对文本进行概念化,获取文本相关概念集。将每条文本通过知识库获取文本的概念集合C=(c1,c2,…,cm),cx表示第x个概念集中的概念向量。为增加重点概念向量的权重,减小与文本无关的概念向量对结果的影响,首先将第二文本特征矩阵经过最大池化层,转换为特征向量y,随后引入注意力机制,计算概念集中第x向量与其文本特征向量y的关系权重。
在概念集内部加入自注意力机制并进行注意力计算,以获取每个概念cx在整个概念集中的重要性权重;注意力机制赋予重要概念较大的权重,赋予不重要的概念极小的权重(接近于零),以突出概念集中重要概念,获取每个概念向量的注意力权重后,对每个概念向量进行加权计算,得到最终概念集特征。
在本实施例中,构建一种融合知识图谱和注意力机制的神经网络模型,借助现有知识库获取文本相关的概念集,以获得文本相关先验知识,弥补文本缺乏上下文信息的不足。将字符向量、词向量以及文本的概念集作为模型的输入,运用编码器-解码器模型对文本与概念集进行编码,利用注意力机制计算每个概念权重值,减小无关噪声概念对文本分类的影响,在此基础上,通过双向门控循环单元编码文本输入序列,获取文本分类特征,从而更准确地进行文本分类。
在另一些实施例中,还包括:利用NLP算法对所述分类结果所对应的文档数据进行分词处理,采用TF-IDF方式提取所述文档数据中的文本特征值,通过文本特征值与分类主题之间的关联性,得到文档数据与分类主题相关联的关键信息。
其中,自然语言处理(NLP)是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。
具体地,基于词典的中文分词和基于统计的中文分词对文档数据进行分词与去停用词处理,得到词向量;例如,采用jieba分词这种较为广泛的概率语音模型分词工具,使得在切分文档数据时,在所有结果中求某个切分方案S,使得概率P(S)最大。例如,通过去停用词处理,过滤某些字或词,如,停气词为医案中出现概率较高,与抽取的症状没有关联或不影响抽取结果的一些词;其中,jieba分词对应的基础库优选结合医学领域的专有词汇,能够显著提升分词精准度,另外,通过去停气词处理也能达到节省存储空间,提高搜索效率的目的。
通过将词向量按照词频以及词在文档数据中重要性提取文本特征值,例如,通过词频是否大于预设值,若是,则舍弃;若否,依次计算词频、逆文档词频,从而计算TF-IDF的频率,抽取文档数据中的词得到文本特征值,利用文本特征值与分类主题之间的关联性,例如,相似性、知识图谱关联性,如,疾病类型,以及与该疾病关联的异常指标、症状以及诊断方案,从而迅速准确提取到文档数据与分类主题相关联的关键信息。
在本实施例中,通过上述方式,能够有效准确得到关键信息,提高了关键信息的准确性。
请参阅图4,为本发明提供的一种文本信息提取方法中信息提取模型的构建流程图,详述如下:
步骤S401,构建用于识别所述文档数据中字符的第一卷积神经网络;
步骤S402,将所述文档数据输入所述第一卷积神经网络,进行文本字符识别,获取字符识别结果;
步骤S403,利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习,得到关键信息提取模型,利用所述关键信息提取模型得到所述文档数据中与所述分类主题相关联的关键信息。
具体地,利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习的数学表达为:
L=λ1loss+λ2lctc
其中,L为所述文档数据分类结果和字符识别结果的损失总和,λ1为交叉熵损失函数的损失权重,loss为所述文档数据分类结果的损失,λ2为CTC损失函数的损失权重,lctc为所述文档数据字符识别的损失。
例如,CTC损失函数的主要作用在于将每个时刻的字符概率进行组合,以此可以将网络的字符概率输出和分类结果(文本标签)进行对齐,从而将网络各层结构组织起来进行训练。
将所述文档数据输入所述第一卷积神经网络,进行文本字符识别,获取字符识别结果;根据文档数据的分类结果,将所述分类结果中的分类标签输入交叉熵损失函数进行监督训练,进而更新第一卷积神经网络的关联参数,进而获取关键信息提取模型;通过交叉熵损失函数和CTC损失函数对所述第一卷积神经网络进行迭代训练,能够提高关键信息提取模型的文本信息提取精度,可实施性较强,鲁棒性较强,成本较低。
在一些实施例中,还可以采用随机梯度下降优化算法对第一卷积神经网络进行优化,学习率调整可以使用余弦退火策略,可以理解的,此处仅对网络训练过程中部分训练方法进行举例,具体训练过程可以根据实际情况进行设置,此处不再赘述。
请参阅图5,为本发明提供的一种文本信息提取系统结构框图,所述文本信息提取系统1详述如下:
档案获取模块11,用于获取用户的信息档案,所述信息档案包含用户来访目的地后形成的文本数据;
文本分割模块12,用于预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
文本转换模块13,利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;
分类处理模块14,用于结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
信息提取模块15,根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息。
其中,需要说明的是,上述文本分割模块12、文本转换模块13、分类处理模块14与信息提取模块15均是以计算机程序方式嵌入到存储模块10。
还需要说明的是,文本信息提取方法与文本信息提取系统为一一对应的关系,在此,文本信息提取系统所涉及的技术细节与技术效果和上述识别方法相同,在此不一一赘述,请参照上述文本信息提取方法。
下面参考图6,其示出了适于用来实现本公开实施例的文本信息提取设备(例如电子设备设备或服务器600的结构示意图。本公开实施例中的电子设备设备可以包括但不限于诸如手机、平板电脑、膝上型电脑、台式电脑、电脑一体机、服务器、工作站、电视、机顶盒、智能眼镜、智能手表、数码相机、MP4播放器、MP5播放器、学习机、点读机、电纸书、电子词典、车载终端、虚拟现实(VirtualReality,VR)播放器或增强现实(Augmented Reality,AR)播放器等的固定器。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:执行上述步骤S1到步骤S5的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明通过文本数据的版式分割成多个文本块,利用OCR技术单独检测、设别每个所述文本块的文字内容,适应各种不同版式信息档案,扩展了其通用性;同时,通过双向GRU编码上下文信息、结合注意力机制使文本分类模型关注文本内部词语的关系,有利于挖掘深层次特征信息;还有,通过对文档数据的字符识别与分类结果,提取与分类主题相关联的关键信息,不仅提高了信息提取的精确度,还改善了信息的局限性,有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种文本信息提取方法,其特征在于,包括:
获取用户的信息档案,所述信息档案为用户来访目的地之后形成的文本数据;
预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;利用OCR检测,确定所述文本块内文本信息的位置;利用OCR识别,识别所述文本块内的文字;参照版面布局,将识别出的文本信息按从上到下从左到右的顺序依次排列,形成与版式相对应的文档数据;
结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息;其中,构建用于识别所述文档数据中字符的第一卷积神经网络;将所述文档数据输入所述第一卷积神经网络,进行文本字符识别,获取字符识别结果;根据文档数据的分类结果,将所述分类结果中的分类标签输入交叉熵损失函数进行监督训练,进而更新第一卷积神经网络的关联参数,进而获取关键信息提取模型,通过交叉熵损失函数和CTC损失函数对所述第一卷积神经网络进行迭代训练;利用所述关键信息提取模型得到所述文档数据中与所述分类主题相关联的关键信息;
利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习的数学表达为:
L=λ1loss+λ2lctc
其中,L为所述文档数据分类结果和字符识别结果的损失总和,λ1为交叉熵损失函数的损失权重,loss为所述文档数据分类结果的损失,λ2为CTC损失函数的损失权重,lctc为所述文档数据字符识别的损失;
利用NLP算法对所述分类结果所对应的文档数据进行分词处理,采用TF-IDF方式提取所述文档数据中的文本特征值,通过文本特征值与分类主题之间的关联性,得到文档数据与分类主题相关联的关键信息。
2.根据权利要求1所述的文本信息提取方法,其特征在于,构建所述文本分类模型的步骤,包括:
获取所述文档数据的字符向量与词向量,将所述字符向量与词向量进行拼接后输入到双向GRU网络,得到第一文本特征,利用自注意力层对所述第一文本特征进行加权计算,得到第二文本特征;
调用知识库中概念图谱对所述文档数据进行概念化处理,得到由概念向量集合构成的概念集;并将所述第二文本特征经池化层处理得到特征向量;
在所述概念集中引入注意力机制,计算概念集中第x个向量与第y个特征向量之间的关系权重,通过获取每个概念向量的注意力权重,对每个概念向量进行加权计算得到概念集特征;
结合所述第二文本特征与概念集特征,利用反向传播算法进行训练得到文本分类模型。
3.根据权利要求2所述的文本信息提取方法,其特征在于,还包括:通过最小化交叉熵损失函数来优化文本分类模型,所述交叉熵损失函数为:
Figure 801846DEST_PATH_IMAGE001
其中,M为训练集大小,N为类别数,R为预测类别,R’为实际类别,λ||θ||2为正则项。
4.一种文本信息提取系统,其特征在于,包括:
档案获取模块,用于获取用户的信息档案,所述信息档案为用户来访目的地后形成的文本数据;
文本分割模块,用于预处理所述文本数据,按照所述文本数据的版式分割所述文本数据形成多个文本块;
文本转换模块,利用OCR技术识别各个所述文本块的文字,形成与版式对应的文档数据;
分类处理模块,用于结合知识图谱、注意力机制和双向GRU网络构建文本分类模型,利用所述文本分类模型对所述文档数据进行分类得到分类结果;
信息提取模块,根据所述分类结果所对应的文档数据,提取所述文档数据中与分类主题相关联的关键信息;其中,构建用于识别所述文档数据中字符的第一卷积神经网络;将所述文档数据输入所述第一卷积神经网络,进行文本字符识别,获取字符识别结果;根据文档数据的分类结果,将所述分类结果中的分类标签输入交叉熵损失函数进行监督训练,进而更新第一卷积神经网络的关联参数,进而获取关键信息提取模型,通过交叉熵损失函数和CTC损失函数对所述第一卷积神经网络进行迭代训练;利用所述关键信息提取模型得到所述文档数据中与所述分类主题相关联的关键信息;
利用交叉熵损失函数和CTC损失函数对所述字符识别结果与分类结果进行监督学习的数学表达为:
L=λ1loss+λ2lctc
其中,L为所述文档数据分类结果和字符识别结果的损失总和,λ1为交叉熵损失函数的损失权重,loss为所述文档数据分类结果的损失,λ2为CTC损失函数的损失权重,lctc为所述文档数据字符识别的损失;
利用NLP算法对所述分类结果所对应的文档数据进行分词处理,采用TF-IDF方式提取所述文档数据中的文本特征值,通过文本特征值与分类主题之间的关联性,得到文档数据与分类主题相关联的关键信息。
5.一种文本信息提取设备,其特征在于,包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现权利要求1至3中任一所述的文本信息提取方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于使计算机执行权利要求1至3中任一所述的文本信息提取方法。
CN202110634516.1A 2021-06-08 2021-06-08 文本信息提取方法、系统、设备及介质 Active CN113094509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110634516.1A CN113094509B (zh) 2021-06-08 2021-06-08 文本信息提取方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110634516.1A CN113094509B (zh) 2021-06-08 2021-06-08 文本信息提取方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113094509A CN113094509A (zh) 2021-07-09
CN113094509B true CN113094509B (zh) 2021-12-21

Family

ID=76664448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110634516.1A Active CN113094509B (zh) 2021-06-08 2021-06-08 文本信息提取方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113094509B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806619B (zh) * 2021-08-19 2022-09-09 广州云硕科技发展有限公司 一种语义分析系统以及语义分析方法
CN113851184B (zh) * 2021-09-29 2023-07-04 湖南工商大学 一种基于人工智能的粪大肠杆菌群数的预测方法及装置
CN114090776A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文档解析方法、系统及装置
CN114049493B (zh) * 2022-01-11 2022-04-01 北京融信数联科技有限公司 基于智能体图谱的图像识别方法、系统和可读存储介质
CN114333829B (zh) * 2022-03-09 2022-06-17 北京中科开迪软件有限公司 一种语音查找光盘数字档案库的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340037B (zh) * 2020-03-25 2022-08-19 上海智臻智能网络科技股份有限公司 文本版面分析方法、装置、计算机设备和存储介质
CN111159417A (zh) * 2020-04-07 2020-05-15 北京泰迪熊移动科技有限公司 文本内容关键信息的提取方法、装置、设备及存储介质
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法

Also Published As

Publication number Publication date
CN113094509A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113094509B (zh) 文本信息提取方法、系统、设备及介质
WO2022007823A1 (zh) 一种文本数据处理方法及装置
WO2023024614A1 (zh) 文档分类的方法、装置、电子设备和存储介质
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN113094476A (zh) 基于自然语言处理风险预警方法、系统、设备及介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN108804544A (zh) 互联网影视多源数据融合方法和装置
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN111538818A (zh) 数据查询方法、装置、电子设备及存储介质
CN114023414A (zh) 一种体检报告多层次结构录入方法、系统以及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN116304042A (zh) 一种基于多模态特征自适应融合的虚假新闻检测方法
WO2022127333A1 (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
JP2023510667A (ja) キャラクタ取得、ページ処理と知識グラフ構築方法及び装置、媒体
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114443864A (zh) 跨模态数据的匹配方法、装置及计算机程序产品
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN113887422A (zh) 基于人工智能的表格图片内容提取方法、装置及设备
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220729

Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai

Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd.

Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing

Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd.