CN112464927A - 一种信息提取方法、装置及系统 - Google Patents
一种信息提取方法、装置及系统 Download PDFInfo
- Publication number
- CN112464927A CN112464927A CN202011337788.7A CN202011337788A CN112464927A CN 112464927 A CN112464927 A CN 112464927A CN 202011337788 A CN202011337788 A CN 202011337788A CN 112464927 A CN112464927 A CN 112464927A
- Authority
- CN
- China
- Prior art keywords
- information
- sentence
- vector
- sentence vectors
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息提取方法、装置及系统。所述方法包括:获取文件中的文本信息及文本信息中字符的位置信息;根据所述文本信息构建若干句向量;结合所述位置信息对所述句向量分类,获取所述句向量的类别;根据所述句向量的类别生成结构化表示的字符串信息。本发明针对具有特定格式的文件提高了具有特定格式文件的信息提取的准确性,提升了信息提取的准确率、鲁棒性和通用性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种信息提取方法、装置及系统。
背景技术
信息提取是一种将自然语言表述的文本信息转换成键值对,进行数据的结构化表示,以定位自然语言文档中特定信息的技术。目前,信息提取普遍采用自动学习的方法,常用的提取模型包括:基于正则文法推导的模型、基于模板推导的模型、基于结构比较的模型、基于视觉特征的模型等等。然而现有技术中,利用上述模型的信息提取方法对于普通文件以及具有特定格式文件的处理过程均相同,这样导致信息提取的准确率难以提升。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种信息提取方法、装置及系统。所述技术方案如下:
第一方面,提供了一种信息提取方法,所述方法包括:
获取文件中的文本信息及文本信息中字符的位置信息;
根据所述文本信息构建若干句向量;
结合所述位置信息对所述句向量分类,获取所述句向量的类别;
根据所述句向量的类别生成结构化表示的字符串信息。
进一步地,所述对所述句向量进行分类,获取所述句向量的类别,包括:
将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
进一步地,所述根据所述句向量的类别生成结构化表示的字符串信息,包括:
根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
进一步地,所述根据文本信息构建若干句向量,包括:
对所述文本信息进行分词处理,获得分词;
将所述分词转换成词向量;
根据所述词向量构建所述句向量。
进一步地,所述将所述分词转换成词向量,包括:利用词向量模型为所述分词匹配对应的所述词向量。
进一步地,所述根据所述词向量构建所述句向量,包括:利用词袋模型或统计模型处理所述词向量,构建所述句向量。
第二方面,提供了一种信息提取装置,所述装置包括:
识别模块,用于获取文件中的文本信息及文本信息中字符的位置信息;
句向量构建模块,用于根据所述文本信息构建若干句向量;
类别识别模块,用于结合所述位置信息对所述句向量分类,获取所述句向量的类别;
转换模块,用于根据所述句向量的类别生成结构化表示的字符串信息。
进一步地,所述类别识别模块,包括:
图构建模块,用于将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
分类模块,用于利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
进一步地,所述转换模块,具体用于根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
进一步,句向量构建模块,包括:
分词处理模块,用于对文本信息进行分词处理,获得分词。
词向量获取模块,用于将分词转换成词向量。
构建模块,用于根据词向量构建句向量。
进一步地,词向量获取模块,具体用于利用词向量模型为分词匹配对应的词向量。
进一步地,构建模块,具体用于利用词袋模型或统计模型处理词向量,构建句向量。
第三方面,提供了一种计算机系统,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行上述第一方面所述的信息提取方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明针对具有特定格式的文件,结合文本信息中字符的位置信息对文本信息构建的句向量进行分类,根据句向量的类别生成结构化表示的字符串,使得在判断句向量类别时,参考文本和位置信息两个维度的指标,确保了分类的准确性,有利于按照句向量的类别确定句向量对应的文本信息的特性,进而提高了具有特定格式文件的信息提取的准确性;
2、本发明采用图网络模型进行结构化信息提取,相较于基于模板推导的模型能够适应不同长短的文本信息,可以有效提升信息提取的准确率、鲁棒性和通用性;
3、本发明在生成结构化表示的字符串信息时,根据位置信息对同一类别的句向量对应的文本信息进行拼接组合,通过位置信息确保文本信息拼接的正确性,使语义连贯。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的信息提取方法流程图;
图2是本发明实施例提供的信息提取装置结构示意图;
图3是本发明实施例提供的计算机系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的信息提取技术中没有针对特定格式文件的信息提取方法,然而我们发现特定格式文件的格式本身就含有结构信息,如果能将格式信息与文本的语义信息相结合进行信息提取,将能够进一步提高特定格式文件信息提取的准确性。因此为了进一步提高特定格式文件的信息提取的准确率,将特定格式文件的格式信息与语义信息结合,本发明公开一种信息提取方法、装置及系统,具体技术方案如下:
如图1所示,一种信息提取方法,包括:
S1、获取文件中的文本信息及文本信息中字符的位置信息。
上述,文件主要指具有特定格式的文件,具体可以是:营业执照、证书、身份证、发票等。文本信息主要指文件中的文字、数字、字母、特殊符号等字符,一般情况下文件中的标点符号作为划分文本信息中的句的依据,不包含在文本信息中。
在一个实施例中,步骤S1具体为采用光学字符识别技术获取文件图片中的文本信息及文本信息中字符在文件图片中的位置信息。
光学字符识别技术(OCR)包括:
S11、获取文件的文件图片,并对文件图片进行预处理;
S12、识别文件图片中文本的方向;
S13、文本检测;
S14、文本识别。
上述,文件图片可以是文件的照片也可以是文件的扫描件。对文件图片进行预处理,主要是针对图像的成像问题进行修正,包括:几何变换、去除模糊、图像增强、光线校正等等。文本检测主要为了确定图像中的文本区域,常用的方法是采用Faster R-CNN等深度学习模型方法。文本识别主要为识别文本检测定位出的一个字符或字符串,文本检测一般以文字行定位。步骤S1中所述的字符的位置信息一般为文本检测过程中自动划分的字符行的坐标。
S2、根据文本信息构建若干句向量。
上述,由于文本信息中每一个文字行的字数不等,因此需要构建固定维度的句向量来表示文字行,句向量是文本信息中一行字符的向量化表示。
在一个实施例中,步骤S2包括:
S21、对文本信息进行分词处理,获得分词;
S22、将分词转换成词向量;
S23、根据词向量构建句向量。
上述,步骤S21中的分词处理可以采用现有技术中的词典匹配法、自然语言模型分析法(NLP)、一元模型法、N元模型法等。步骤S22中将分词转换成词向量,可以通过词向量模型匹配的方法,即利用词向量模型为分词匹配对应的词向量。其中词向量模型通常采用训练完成的Word2Vec,Word2Vec以一个大型文本语料库作为输入,生成一个向量空间,语料库中每个唯一的单词在该空间中分配一个对应的向量。步骤S23中,构建句向量可以利用词袋模型(Bag Of Words)或者统计模型对词向量进行处理,构建句向量。词袋模型假定对于一个文本,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文本中每个单词的出现都是独立的,不依赖于其它单词是否出现,通过词频构建向量。统计模型例如TF-IDF、基于统计的共现矩阵模型、主题模型等等。
S3、结合所述位置信息对句向量分类,获取句向量的类别。
上述,对句向量进行分类,主要为了确定不同句向量对应的文本信息是否表示同一类型的信息,以便后续确定类型与文本信息的对应关系。具体地,根据不同的文件包括不同的句向量类别,例如,对于营业执照,句向量类别可以是:名称、类型、性质、法定代表人、成立日期、营业期限、经营范围等;对于身份证,句向量类别可以是:姓名、性别、出生日期、住址、身份证号码等。一般情况下,上述类别通常为结构化字符信息中的键(key),句向量对应的文本信息通常为结构化字符信息中的值(value)。
在一个实施例中,步骤S3包括:
S31、将句向量表征为节点,将与句向量对应的文本信息所包含字符的位置信息表征为边,构建图网络;
S32、利用图网络模型对图网络中的节点分类,获得句向量的类别。
上述,由于句向量由文本信息中的一行字符转换而来,因此图网络中包含了文本信息中的各个句子以及各个句子中字符的位置信息。图网络模型是利用带有分类标记的图网络训练完成的神经网络模型。图网络模型具有高归纳偏置,因此其训练所需要的样本数据量要比一般的神经网络模型要少。分类时输出的是各节点在不同类别中的概率,根据该概率判断节点的类别,进而获得句向量的类别。本发明在对句向量分类时还考虑到了其中字符的位置信息,使得相同字符类型的文本信息对应的句向量在划分类别时更加准确,例如,在发票的信息提取过程中,表示单价和金额均采用的数值型字符,一般的信息提取方法容易将其混淆,而结合位置信息对其类型进行判断,则大大提高了准确性。此外,图网络模型不存在模板规定,相对于一般的模板推导模型,更加适用于长短不同的文本信息,更加灵活。
S4、根据句向量的类别生成结构化表示的字符串信息。
在一个实施例中,步骤S4包括:根据位置信息对同一类别的句向量对应的文本信息进行拼接组合,生成结构化表示的字符串信息。
上述,对文本信息的拼接组合按照字符的坐标的顺序进行,这样可以实现在不参考语义的情况下,保证各句向量对应的文本信息在拼接完成后的语义连贯通顺。需要说明的是,结构化表示的字符串信息主要指以键值对(key=value)的形式输出字符串信息。
如图2所示,基于上述信息提取方法,本发明还提供一种信息提取装置,包括:
识别模块201,用于获取文件中的文本信息及文本信息中字符的位置信息。
上述,文件主要指具有特定格式的文件,文本信息主要指文件中的文字、数字、字母、特殊符号等字符,一般情况下文件中的标点符号作为划分文本信息中的句的依据,不包含在文本信息中。
在一个实施例中,识别模块201,具体用于采用光学字符识别技术获取所述文件图片中的所述文本信息及所述文本信息中字符在所述文件图片中的位置信息。
句向量构建模块202,用于根据文本信息构建若干句向量。
在一个实施例中,句向量构建模块202,包括:
分词处理模块,用于对文本信息进行分词处理,获得分词。
词向量获取模块,用于将分词转换成词向量。
构建模块,用于根据词向量构建句向量。
在一个实施例中,词向量获取模块,具体用于利用词向量模型为分词匹配对应的词向量。
在一个实施例中,构建模块,具体用于利用词袋模型或者统计模型处理词向量,构建句向量。
类别识别模块203,用于结合位置信息对句向量分类,获取句向量的类别。
在一个实施例中,类别识别模块203,包括:
图构建模块,用于将句向量表征为节点,将与句向量对应的文本信息所包含字符的位置信息表征为边,构建图网络。
分类模块,用于利用图网络模型对图网络中的节点分类,获得句向量的类别。
转换模块204,用于根据句向量的类别生成结构化表示的字符串信息。
在一个实施例中,转换模块204,具体用于根据位置信息对同一类别的句向量对应的文本信息进行拼接组合,生成结构化表示的字符串信息。
基于上述信息提取方法,本发明还提供一种计算机系统,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行上述信息提取方法。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器310,视频显示适配器311,磁盘驱动器312,输入/输出接口313,网络接口314,以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320之间可以通过通信总线330进行通信连接。
其中,处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储用于控制电子设备300运行的操作系统321,用于控制电子设备300的低级别操作的基本输入输出系统322(BIOS)。另外,还可以存储网页浏览器323,数据存储管理系统324,以及设备标识信息处理系统325等等。上述设备标识信息处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口313用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口314用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线330包括一通路,在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320)之间传输信息。
另外,该电子设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,存储器320,总线330等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明针对具有特定格式的文件,结合文本信息中字符的位置信息对文本信息构建的句向量进行分类,根据句向量的类别生成结构化表示的字符串,使得在判断句向量类别时,参考文本和位置信息两个维度的指标,确保了分类的准确性,有利于按照句向量的类别确定句向量对应的文本信息的特性,进而提高了具有特定格式文件的信息提取的准确性;
2、本发明采用图网络模型进行结构化信息提取,相较于基于模板推导的模型能够适应不同长短的文本信息,可以有效提升信息提取的准确率、鲁棒性和通用性;
3、本发明在生成结构化表示的字符串信息时,根据位置信息对同一类别的句向量对应的文本信息进行拼接组合,通过位置信息确保文本信息拼接的正确性,使语义连贯。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息提取方法,其特征在于,包括:
获取文件中的文本信息及文本信息中字符的位置信息;
根据所述文本信息构建若干句向量;
结合所述位置信息对所述句向量分类,获取所述句向量的类别;
根据所述句向量的类别生成结构化表示的字符串信息。
2.如权利要求1所述的方法,其特征在于,所述对所述句向量进行分类,获取所述句向量的类别,包括:
将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
3.如权利要求1所述的方法,其特征在于,所述根据所述句向量的类别生成结构化表示的字符串信息,包括:
根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
4.如权利要求1~3中任一项所述的方法,其特征在于,所述根据文本信息构建若干句向量,包括:
对所述文本信息进行分词处理,获得分词;
将所述分词转换成词向量;
根据所述词向量构建所述句向量。
5.如权利要求4所述的方法,其特征在于,所述将所述分词转换成词向量,包括:利用词向量模型为所述分词匹配对应的所述词向量。
6.如权利要求4所述的方法,其特征在于,所述根据所述词向量构建所述句向量,包括:利用词袋模型或统计模型处理所述词向量,构建所述句向量。
7.一种信息提取装置,其特征在于,包括:
识别模块,用于获取文件中的文本信息及文本信息中字符的位置信息;
句向量构建模块,用于根据所述文本信息构建若干句向量;
类别识别模块,用于结合所述位置信息对所述句向量分类,获取所述句向量的类别;
转换模块,用于根据所述句向量的类别生成结构化表示的字符串信息。
8.如权利要求7所述的装置,其特征在于,所述类别识别模块,包括:
图构建模块,用于将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
分类模块,用于利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
9.如权利要求7所述的装置,其特征在于,所述转换模块,具体用于根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述权利要求1~6任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337788.7A CN112464927B (zh) | 2020-11-25 | 2020-11-25 | 一种信息提取方法、装置及系统 |
CA3140455A CA3140455A1 (en) | 2020-11-25 | 2021-11-25 | Information extraction method, apparatus, and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337788.7A CN112464927B (zh) | 2020-11-25 | 2020-11-25 | 一种信息提取方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464927A true CN112464927A (zh) | 2021-03-09 |
CN112464927B CN112464927B (zh) | 2023-10-31 |
Family
ID=74798928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011337788.7A Active CN112464927B (zh) | 2020-11-25 | 2020-11-25 | 一种信息提取方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112464927B (zh) |
CA (1) | CA3140455A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743052A (zh) * | 2021-08-17 | 2021-12-03 | 的卢技术有限公司 | 一种融合多模态的简历版面分析方法及装置 |
CN114332872A (zh) * | 2022-03-14 | 2022-04-12 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN115879880A (zh) * | 2022-12-01 | 2023-03-31 | 广东电网有限责任公司 | 一种电力业扩资料rpa采集方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160140220A1 (en) * | 2013-06-14 | 2016-05-19 | Proxem | Method for automatic thematic classification of a digital text file |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
-
2020
- 2020-11-25 CN CN202011337788.7A patent/CN112464927B/zh active Active
-
2021
- 2021-11-25 CA CA3140455A patent/CA3140455A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160140220A1 (en) * | 2013-06-14 | 2016-05-19 | Proxem | Method for automatic thematic classification of a digital text file |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743052A (zh) * | 2021-08-17 | 2021-12-03 | 的卢技术有限公司 | 一种融合多模态的简历版面分析方法及装置 |
CN114332872A (zh) * | 2022-03-14 | 2022-04-12 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN115879880A (zh) * | 2022-12-01 | 2023-03-31 | 广东电网有限责任公司 | 一种电力业扩资料rpa采集方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112464927B (zh) | 2023-10-31 |
CA3140455A1 (en) | 2022-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765996B (zh) | 文本信息处理方法及装置 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
US9766868B2 (en) | Dynamic source code generation | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
US9619209B1 (en) | Dynamic source code generation | |
US9286526B1 (en) | Cohort-based learning from user edits | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
US20240296691A1 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
US11461411B2 (en) | System and method for parsing visual information to extract data elements from randomly formatted digital documents | |
CN113642569A (zh) | 非结构化数据文档处理方法及相关设备 | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、系统及存储介质 | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN116912847A (zh) | 一种医学文本识别方法、装置、计算机设备及存储介质 | |
CN110008807B (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112487138A (zh) | 带格式文本的信息抽取方法和装置 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN112100364A (zh) | 文本语义理解方法和模型训练方法、装置、设备和介质 | |
CN113792143B (zh) | 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN112784594B (zh) | 一种文档处理方法、装置、电子设备及可读存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |