CN109145260A - 一种文本信息自动提取方法 - Google Patents
一种文本信息自动提取方法 Download PDFInfo
- Publication number
- CN109145260A CN109145260A CN201810975598.4A CN201810975598A CN109145260A CN 109145260 A CN109145260 A CN 109145260A CN 201810975598 A CN201810975598 A CN 201810975598A CN 109145260 A CN109145260 A CN 109145260A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- content
- user
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
Description
技术领域
本发明涉及自然语言处理领域和计算机辅助系统领域,特别是指一种文本信息自动提取方法。
背景技术
在现代科学研究活动中,阅读科技文献是研究人员获取专业知识,收集相关数据,了解领域热点和发展方向的重要方式之一。随着我国基础科学研究的不断进步,科学研究成果及其相应的科技文献呈井喷式增长,同时由于数据挖掘技术的发展,对海量数据分析的需求空前以往。因此采用自然语言处理技术,对科技论文的语句信息进行自动抽取,成为获取科研信息的一个重要途径。
目前国内外已研发了多种分词及关键词提取技术,用于提取文本中的主题词或句子,但提取结果中缺乏适用于领域研究的相应标签和语义信息,并不满足文本信息提取的科研要求。
刘胜宇等人针对这个问题,提出一种基于依存结构卷积神经网络的药物相互作用关系抽取方法[刘胜宇.生物医学文本中药物信息抽取方法研究[D].哈尔滨工业大学.2016],实验表明,该方法可进一步提升药物相互作用关系抽取的性能。但是刘胜宇等人提出的方法基于离线学习的设计理念,在训练过程中使用全部数据进行学习,学习完成后才将训练好的文本信息自动提取模型投入实际使用,该模型训练所需的训练数据需由人工手工一次性标注,过程耗时较长,导致该方法的适用性不强。
发明内容
本发明要解决的技术问题是提供一种文本信息自动提取方法,以解决现有技术所存在的基于离线的文本信息自动提取模型所需的训练数据需由人工手工一次性标注,适用性不强的问题。
为解决上述技术问题,本发明实施例提供一种文本信息自动提取方法,包括:
获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;
对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;
捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,其中,将用户选择的该文本片段所在句中具有独立语法成分的文本序列作为标记内容;
基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,所述文本自动提取模型,用于实现标记内容和标签的自动提取。
进一步地,所述获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式包括:
获取用户上传的文本文件;
对获取的文本文件进行格式转换,使之转换为能用计算机逐字符分析的文档格式;
其中,所述能用计算机逐字符分析的文档格式包括:超文本标记语言、TXT文本文档或WORD文档。
进一步地,所述对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元包括:
将格式转换后形成的文档中的碎片化文本单元通过模式匹配技术整合成便于使用自然语言处理技术解析的多层次文本单元;
其中,所述多层次文本单元包括:词、句或段落。
进一步地,在捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签之前,所述方法还包括:
建立用户与文档之间的交互规则,使计算机能够识别用户在阅读过程中发出的交互操作信息;
其中,所述交互操作信息包括:操作坐标及操作模式。
进一步地,所述捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签包括:
捕捉用户选择的文本片段,基于形成的多层次文本单元,根据建立的用户与文档之间的交互规则,索引出该文本片段所在词和所在句;
采用句法解析技术,分析该文本片段所在句,将该文本片段所在句中具有独立语法成分的文本序列作为推荐文本内容供用户选择,将用户选择的推荐文本内容作为标记内容;
基于统计学习方法,计算每个历史标签的可信度,按照可信度大小依次对标记内容进行标签推荐。
进一步地,所述基于统计学习方法,计算每个历史标签的可信度,按照可信度大小依次对标记内容进行标签推荐包括:
分别构建标签表和标记内容表,其中,标签表存储用户使用过的标签集合,标记内容表存储每个标签与标记内容之间的映射关系;
将标记内容中每个单词与标签表中各个标签的响应度的组合作为标签推荐的可信度;
按照可信度大小依次对标记内容进行标签推荐;
用户对推荐的标签进行选择,记录用户选择的标签及相应的标记内容,并更新标签表及标记内容表。
进一步地,每个单词与标签表中各个标签的响应度的组合的计算公式为:
其中,Pj表示第j个标签Lj的可信度,P(Wi,Lj)表示标记内容中第i个单词Wi对第j个标签Lj的响应度,n表示标记内容中的单词数量。
进一步地,P(Wi,Lj)表示为:
其中,count(Wi,Lj)是标记内容表中单词Wi被标记为标签Lj的次数,count(Lj)是标签表中标签Lj的出现次数,count(Wi)是标记内容表中单词Wi出现的次数。
进一步地,所述文本自动提取模型包括:语句分类模型和标签匹配模型;
所述基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型包括:
基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练语句分类模型;
通过训练得到的语句分类模型,将用户上传的文本文件中的所有语句按照是否具有语句信息进行分类;
对分类得到的具有语句信息的目标语句,利用标签匹配模型自动匹配相应的标签,其中,所述目标语句为标记内容。
进一步地,所述对分类得到的具有语句信息的目标语句,利用标签匹配模型自动匹配相应的标签包括:
基于语句分类后得到具有语句信息的目标语句序列,标签匹配模型采用统计学习方法,为每一个目标语句自动匹配相应标签。
本发明的上述技术方案的有益效果如下:
上述方案中,获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,从而实现标记内容和标签的辅助提取;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。这样,采用在线学习的训练思想,随着用户阅读量的不断增加,辅助提取的标记内容和标签也会随之增加,将辅助提取的标记内容和标签用于文本自动提取模型的训练,能够不断优化文本自动提取模型,从而不断提高文本信息(标记内容和标签)自动提取的准确性。
附图说明
图1为本发明实施例提供的文本信息自动提取方法的流程示意图;
图2为本发明实施例提供的文本信息自动提取方法的详细流程示意图;
图3为本发明实施例提供的html中span的嵌套结构示意图;
图4为本发明实施例提供的文本内容整合算法示意图;
图5为本发明实施例提供的句法解析树示意图;
图6为本发明实施例提供的标记内容及标签的存储流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的基于离线的文本信息自动提取模型所需的训练数据需由人工手工一次性标注,适用性不强的问题,提供一种文本信息自动提取方法。
如图1所示,本发明实施例提供的文本信息自动提取方法,包括:
步骤1,获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;
步骤2,对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;
步骤3,捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,其中,将用户选择的该文本片段所在句中具有独立语法成分的文本序列作为标记内容;
步骤4,基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,所述文本自动提取模型,用于实现标记内容和标签的自动提取。
本发明实施例所述的文本信息自动提取方法,获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,从而实现标记内容和标签的辅助提取;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。这样,采用在线学习的训练思想,随着用户阅读量的不断增加,辅助提取的标记内容和标签也会随之增加,将辅助提取的标记内容和标签用于文本自动提取模型的训练,能够不断优化文本自动提取模型,从而不断提高文本信息(标记内容和标签)自动提取的准确性。
为了更好地理解本发明实施例提供的文本信息自动提取方法,对其进行详细说明,如图2所示,所述文本信息自动提取方法可以包括以下步骤:
步骤1,格式转换:获取用户上传的文本文件,对获取的文本文件进行格式转换,使之转换为便于计算机识别、处理的文档格式,包括超文本标记语言(HTML)、TXT文本文档或WORD文档等在内的一切可用于计算机逐字符分析的文档格式。
由于科技论文常以PDF形式展现,因此,可以将PDF文本解析成可被计算机识别、处理的HTML文档。
本实施例中,可以选取pdf2htmlEX工具作为文件格式转换的工具。该工具是一种高保真pdf至html转换工具,转换后同时保留文字和格式,支持从pdf中提取字体,可保证渲染准确性。pdf格式的论文经pdf2htmlEX转换后,输出一个html文件。
步骤2,预处理:对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元。
本实施例中,多层次文本单元是指含有文本的,可被计算机独立分析的单元,该单元具有层次及结构,比如:词/单词(word)、句/语句(sentence)、段落(sentences)。
本实施例中,由于pdf文件格式特殊,格式转换后会形成碎片化文本单元,该碎片化文本单元存在噪声,例如:原pdf中数字信息为‘13.14’,解析后形成‘13’,‘.’,‘14’等碎片化文本单元,并且各单元间丢失分词和断句信息,计算机无法直接通过碎片化文本单元了解到哪一个单词在哪一句的具体定位。因此需采用预处理技术,将格式转换后形成的文档中的碎片化文本单元形成多层次文本单元。
本实施例中,可以将格式转换后形成的文档中的碎片化文本单元通过模式匹配技术整合成便于使用自然语言处理技术解析的多层次文本单元,具体步骤可以包括:
步骤21,根据格式转换后形成的文档中的碎片化文本单元的内容、样式对其进行分类与标识,以服务于下一步的文本整合与分析;主要包括以下步骤:
步骤211,利用正则表达式在html中抽取css样式表。html中每个div对应一个class序列,样式形如class=“x5y6h1t9”,每个样式规定了该div的坐标、位置、大小等。使用正则表达式对其中约束div横纵坐标的css代码进行抽取,得到每个div在页面中的相对坐标。
步骤212,利用HTML解析工具BeautifulSoup对html进行解析。根据上述的html文件,结合深度优先搜索算法,得到以span为最小单元且每个span匹配唯一ID的新html文件。使用深度优先搜索算法将其中每一个span都搜索出来并加以编号(span字段表如表1所示),形成span列表(spanList)以便后续的操作与处理。在搜索的过程中将扫描到的span列表(spanList)进行存储,并将修改过的html重新存储一个新的html文件,以在浏览器上作为内联对象展示。html中的span嵌套关系如图3所示。
表1span字段表
步骤213,对spanList列表中各项span的content进行类型匹配,匹配原则如表2所示。
表2content内容表
类型 | 含义 | 识别匹配方法 |
1 | 行尾- | 内容为-,且下一个span的横坐标小于自身横坐标 |
2 | 行首span | 上一个span横坐标大于自身横坐标 |
3 | 句子分隔符 | 字符‘.’前后span不为数字形式 |
4 | 句子分隔符 | ‘!’、‘?’、‘;’ |
5 | 单词分隔符 | ‘,’、‘空格’ |
6 | 纯文本串 | 其他 |
步骤22,利用预先设计的匹配规则(如表2所示)以及标识结果,通过模式匹配技术整合形成便于使用自然语言处理技术解析的多层次文本单元,诸如:词/单词(word)、句/语句(sentence)、段落(sentences)等,三者的关系如图4所示,其中,文本内容整合的具体步骤可以包括:
步骤221,创建一个新的word对象和sentence对象,遍历span列表。
步骤222,若遇到纯字母串:将其直接插入word对象。
步骤223,若遇到单词分隔符:将word对象插入sentence对象,并创建存储单词分隔符的word对象插入到sentence对象中,进而再生成新的word对象。
步骤224,若遇到行尾部-:将其插入word对象中的span列表,但不插入到content。
步骤225,若遇到行首span:若上一个span为行尾‘-’,将其插入word对象,否则将之前的word对象打包送入sentence对象,生成新的word对象存储该span。
步骤226,若遇到句子分隔符:打包word对象插入sentence对象,生成新的word对象存储,将该句子分隔符插入sentence对象,然后将sentence打包送入sentence列表。
步骤227最终得到一个sentence列表,并将多个纵坐标相距较远的sentence形成sentences列表。
本实施例中,在捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签(步骤3)之前,所述方法还包括:
建立用户与文档之间的交互规则,使计算机能够识别用户在阅读过程中发出的交互操作信息。
本实施例中,建立用户与文档之间的交互规则,使计算机能够识别用户在阅读过程中发出的交互操作信息,具体指对于用户的交互操作,计算机准确识别其操作坐标(上述所得每个div在页面中的相对坐标)及操作模式(例如:“双击”或“滑动选中”等操作);当用户点击某个单词,浏览器可以准确捕捉用户点击的span对象,将文章编号和spanid发至服务器,由服务器进行解析与推荐,获取其操作坐标;同时监听鼠标的按键事件,按下的时候记一个坐标,鼠标按键释放的时候,判断是否有位移,从而判断出操作模式。
步骤3,文本信息辅助提取:捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,其具体步骤可以包括:
步骤31,捕捉用户选择的文本片段,基于形成的多层次文本单元,根据建立的用户与文档之间的交互规则,索引出该文本片段所在词和所在句。
本实施例中,文本片段是指用户通过“双击”或“滑动选中”选择的文本,该文本可能任意的、不完整的,因此称之为文本片段。如完整单词为“Stanford”,但用户因为随意性滑动仅选中“Stanfo”,计算机需要基于形成的多层次文本单元和建立的用户与文档之间的交互规则找到该文本片段所在词“Stanford”和所在句“It is Standford parser”。每个sentence对象的第一个word的第一个spanid,到最后一个word的最后一个spanid,为sentence维护的span区间,当用户点击某个单词,浏览器可以准确捕捉用户点击的span对象,可以根据spanid的定位,获取用户用户选择的文本片段的所在单词和所在语句。
步骤32,采用句法解析技术,分析该文本片段所在句,将该文本片段所在句中具有独立语法成分的文本序列作为推荐文本内容供用户选择,将用户选择的推荐文本内容作为标记内容,其具体步骤可以包括:
步骤321,使用句法解析工具对该文本片断所在句进行句法解析。本实施例中,可以采用美国Stanford大学开发的Stanford parser。Stanford parser既是一个高度优化的概率上下文无关文法和词汇化依存分析器,也是一个词汇化上下文无关文法分析器,其解析结果有益于信息辅助提取。
步骤322,基于上述句法解析结果,结合sentence列表,将语句中具有独立语法成分的文本序列作为标记内容。如语句列表为[‘It’,‘’,‘is’,‘Stanford’,‘parser’,‘.’],其中真实内容列表为[‘It’,‘is’,‘Stanford’,‘parser’],真实内容的序号下标列表为[0,2,3,4],将[‘It’,‘is’,‘Stanford’,‘parser’]进行句法解析,句法解析效果如图5所示。当用户点击的spanid所在的单词,比如‘Stanford’,检索图5中包含‘Standford’的区间,为NP,VP,Root,然后在内容列表中寻找对应语句列表的单词区间,故推荐文本内容为:
(1)Stanford parser
(2)is Stanford parser
(3)It is Stanford parser
步骤323,由用户进行选择,并将用户选择的推荐文本内容作为标记内容,进行后续的标签推荐。
步骤33,基于统计学习方法,计算每个历史标签的可信度,按照可信度大小依次对标记内容进行标签推荐,具体包括以下步骤:
步骤331,分别构建标签表和标记内容表,其中,标签表存储用户使用过的标签集合,标记内容表存储每个标签与标记内容之间的映射关系。具体实施方式为:使用递归算法将标记内容和标签提取出来,分别动态地存入数据库中,并为其在数据库中建立匹配关系。数据库中的标签表和标记内容表分别如表3和表4所示,标记内容及标签的存储流程如图6所示,先判断标签是否存在;若标签存在,则判断标记内容是否存在,若标记内容存在,则结束,若标记内容不存在,则将标签与标记内容按单词进行分割,判断分割后得到的单词是否包含数字,若分割后得到的单词包含数字,则将单词中的数字转化为通配符,并将标签存入标签表、标记内容存入标记内容表,若分割后得到的单词不包含数字,则直接将标签存入标签表、标记内容存入标记内容表;若标签不存在,则执行将标签与标记内容按单词进行分割的步骤。
表3标签表
字段名 | 类型 | 注释 |
ID | Int | 标签ID(主键) |
LabelName | Char | 标签内容 |
LabelCreaterId | Int | 标签创建者ID |
PaperId | Int | 标签所属文章ID |
表4标记内容表
字段名 | 类型 | 注释 |
ID | Int | 标记内容ID(主键) |
MarkContent | Char | 标记内容 |
MarkContentCreaterId | Int | 标记内容创建者ID |
PaperId | Int | 标记内容所属文章ID |
Labeld | Int | 标记内容所属标签ID |
另,针对图6,需要说明以下2点:
1)对标签和标记内容是否存在的检查目的是防止数据重复存储。
2)将单词中的数字转换为某一通配符,本系统中采用符号’#’作为通配符,其目的是提高推荐准确率,如用户存储的标记内容为“Al2Cu5Ni”,标签为“材料对象”,数据库标签表中标签的存储形式为“Al#Cu#Ni”。当用户再次存储形如“Al?Cu?Ni”的标记内容时,系统能够将其与数据库中的“Al#Cu#Ni”进行匹配,并向用户推荐标签“材料对象”。
步骤332,将标记内容中每个单词与标签表中各个标签的响应度的组合作为标签推荐的可信度。
本实施例中,每个单词与标签表中各个标签的响应度计算公式为:
其中,P(Wi,Lj)为第i个单词Wi对第j个标签Lj的响应度,count(Wi,Lj)是标记内容表中单词Wi被标记为标签Lj的次数,count(Lj)是标签表中标签Lj的出现次数,count(Wi)是标记内容表中单词Wi出现的次数。
每个单词与标签表中各个标签的响应度的组合(可信度)计算公式为:
其中,Pj表示第j个标签Lj的可信度,P(Wi,Lj)表示标记内容中第i个单词Wi对第j个标签Lj的响应度,n表示标记内容中的单词数量。
步骤333,根据计算得到的每个标签的可信度,对标签集合进行排序,按照可信度大小依次对标记内容进行标签推荐,概率最高的前N个推荐给用户作为待选标签。例如,用户选中“560MPa”进行标记,系统为用户推荐“压强”、“区间”、“公式”、“射线”、“温度”、“样例”等N个标签,其中标签“压强”排在第一位。
步骤334,用户对推荐的标签进行选择,同时,系统记录用户选择的标签及标记内容,并更新标签表及标记内容表,具体可以包括以下步骤:
步骤3341,将上述标签按照表3的样式更新至标签表。
步骤3342,将标记内容拆分为单词序列,将其中代表数值的字符统一替换为某一通配符,逐个将分割出的单词与标签记录保存至标记内容表中,形成新的记录。本系统中采用符号’#’作为通配符,如用户选择的标记内容为“Al2Cu5Ni”,标签为“材料对象”,将该标记内容转换成“Al#Cu#Ni”,然后将转换后的标记内容和标签对应的ID保存到标记内容表中。
步骤4,文本信息自动提取:基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,实现标记内容和标签的自动提取。
本实施例中,所述文本自动提取模型包括:语句分类模型和标签匹配模型。语句分类模型可以选择隐马尔可夫模型(Hidden Markov Model,HMM)和特征规则相结合的方法来进行语句的分类。该方法并不用于限定本发明,在生产实践中可更改语句分类的算法。
语句分类的目的是从文本中识别和抽取重要的、具有有用语句信息的目标语句,跟HMM模型中隐藏状态的定义存在相似性,所以可以使用隐马尔可夫模型进行目标语句识别。因此首先对语句进行特征表达,再将其输入到HMM中进行统计分析,此方法能减少出错的概率,有利于提高语句识别的准确度。
在本实施例中,目标语句(即:标记内容)为HMM中的隐藏状态,而特征表示的语句为可观察状态,通过求观察状态序列的条件概率P(特征表示的语句序列/目标语句状态集)来找到最有可能的隐藏状态序列,从而达到识别目标语句的目的。
本实施例中,基于HMM的文本自动提取模型可分为两个阶段,模型训练阶段和推理阶段。
步骤41,模型训练阶段:基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练语句分类模型。
在模型训练阶段,训练数据集为用户已进行分析的标签和标记内容,以及上述不断更新的辅助提取获得的标签和标记内容。模型训练主要包含两个过程:特征表示和HMM模型训练。
本实施例中,步骤41可以包括以下步骤:
步骤411,特征表示:对论文中的语句进行特征提取,即用GIS算法(generalizediterative scaling algorithm)进行特征训练并求出特征参数(本实施例中选取的是语句是否已经存在标记内容表中(feature1)、语句是否是缩写、专有名词、数字、公式等特殊的表达式(feature 2)、语句位置(feature 3)和与论文标题匹配程度(feature 4)这四个特征),最终输出特征表示的语句序列。
步骤412,HMM模型训练:在模型训练阶段包含以下过程:
(1)搜集文本数据。寻找观察状态序列O={O1,O2,…On},即上述经过特征表示的语句序列。
(2)确定隐含状态的数目。按照传统HMM的应用理论,在目标语句识别中只有“是”和“否”两个隐含状态,本实施例中的语句也只是被归为“属于目标语句”和“不属于目标语句”两类,因为这种方法太笼统,生成的目标语句冗余信息较多,所以传统HMM很少用在目标语句的识别中。本实施例中将隐含状态设置为“A”、“B”、“C”、“D”、“E”来依次表示该语句符合目标语句的程度,分别对应“符合”、“较符合”、“一般”、“较不符合”和“不符合”五种,使得对目标语句的判断更加准确。
本实施例中,所述目标语句等同于上文中的标记内容。
(3)HMM模型训练。使用前向后向算法(也称为Baum-Welch算法)进行训练,计算HMM参数,经过不断地迭代,当损失降低到设定的阈值时,停止计算,得到HMM模型。
(4)采用在线学习的思想,结合用户辅助提取的标记内容和标签,对目标语句识别的HMM模型进行再训练,即:迭代一次(3)中所述的后向算法,随着用户阅读量和提取数据的增多,HMM模型预测更加准确。
步骤42,模型推理阶段:对分类得到的具有语句信息的目标语句,利用标签匹配模型自动匹配相应的标签,具体可以包括以下步骤:
步骤421,根据训练好的HMM,结合维特比(Viterbi)算法通过迭代计算所有可能的目标语句的概率使得P(特征表示的语句序列/目标语句状态集)最大来找到可能性最大的目标语句,组成最佳目标语句,对用户上传的文本文件中的所有语句进行分类,得到各个语句符合目标语句的程度,假设在论文中共提取1000个语句,根据设定的压缩比(假设为20%)按照顺序依次从被标记为“A”、“B”、“C”、“D”、“E”的5个语句集合中抽取目标语句(1000*20%=200个目标语句)。假设文中分别有150个语句被标记成“A”和200个语句被标记成“B”,那么目标语句就由“A”集合中的150个语句和“B”集合中前50个语句组成。
步骤422,基于语句分类后得到具有语句信息的目标语句序列,标签匹配模型采用统计学习方法,为每一个目标语句(即标记内容)自动匹配相应标签。本步骤与步骤33计算方法相同,即基于统计学习方法,结合上述识别和抽取的目标语句,计算每个历史标签的可信度,选择可信度最大的标签作为该目标语句的标签。
综上,本发明实施例,采用在线学习的训练思想,记录用户选择的文本片段作为训练样本,不断训练文本自动解析模型,随着用户阅读量和提取数据的增多,文本自动提取模型不断被优化,提取的标记内容和标签的准确性将不断提高。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本信息自动提取方法,其特征在于,包括:
获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;
对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;
捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,其中,将用户选择的该文本片段所在句中具有独立语法成分的文本序列作为标记内容;
基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,所述文本自动提取模型,用于实现标记内容和标签的自动提取。
2.根据权利要求1所述的文本信息自动提取方法,其特征在于,所述获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式包括:
获取用户上传的文本文件;
对获取的文本文件进行格式转换,使之转换为能用计算机逐字符分析的文档格式;
其中,所述能用计算机逐字符分析的文档格式包括:超文本标记语言、TXT文本文档或WORD文档。
3.根据权利要求1所述的文本信息自动提取方法,其特征在于,所述对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元包括:
将格式转换后形成的文档中的碎片化文本单元通过模式匹配技术整合成便于使用自然语言处理技术解析的多层次文本单元;
其中,所述多层次文本单元包括:词、句或段落。
4.根据权利要求1所述的文本信息自动提取方法,其特征在于,在捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签之前,所述方法还包括:
建立用户与文档之间的交互规则,使计算机能够识别用户在阅读过程中发出的交互操作信息;
其中,所述交互操作信息包括:操作坐标及操作模式。
5.根据权利要求4所述的文本信息自动提取方法,其特征在于,所述捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签包括:
捕捉用户选择的文本片段,基于形成的多层次文本单元,根据建立的用户与文档之间的交互规则,索引出该文本片段所在词和所在句;
采用句法解析技术,分析该文本片段所在句,将该文本片段所在句中具有独立语法成分的文本序列作为推荐文本内容供用户选择,将用户选择的推荐文本内容作为标记内容;
基于统计学习方法,计算每个历史标签的可信度,按照可信度大小依次对标记内容进行标签推荐。
6.根据权利要求5所述的文本信息自动提取方法,其特征在于,所述基于统计学习方法,计算每个历史标签的可信度,按照可信度大小依次对标记内容进行标签推荐包括:
分别构建标签表和标记内容表,其中,标签表存储用户使用过的标签集合,标记内容表存储每个标签与标记内容之间的映射关系;
将标记内容中每个单词与标签表中各个标签的响应度的组合作为标签推荐的可信度;
按照可信度大小依次对标记内容进行标签推荐;
用户对推荐的标签进行选择,记录用户选择的标签及相应的标记内容,并更新标签表及标记内容表。
7.根据权利要求6所述的文本信息自动提取方法,其特征在于,每个单词与标签表中各个标签的响应度的组合的计算公式为:
其中,Pj表示第j个标签Lj的可信度,P(Wi,Lj)表示标记内容中第i个单词Wi对第j个标签Lj的响应度,n表示标记内容中的单词数量。
8.根据权利要求7所述的文本信息自动提取方法,其特征在于,P(Wi,Lj)表示为:
其中,count(Wi,Lj)是标记内容表中单词Wi被标记为标签Lj的次数,count(Lj)是标签表中标签Lj的出现次数,count(Wi)是标记内容表中单词Wi出现的次数。
9.根据权利要求1所述的文本信息自动提取方法,其特征在于,所述文本自动提取模型包括:语句分类模型和标签匹配模型;
所述基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型包括:
基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练语句分类模型;
通过训练得到的语句分类模型,将用户上传的文本文件中的所有语句按照是否具有语句信息进行分类;
对分类得到的具有语句信息的目标语句,利用标签匹配模型自动匹配相应的标签,其中,所述目标语句为标记内容。
10.根据权利要求9所述的文本信息自动提取方法,其特征在于,所述对分类得到的具有语句信息的目标语句,利用标签匹配模型自动匹配相应的标签包括:
基于语句分类后得到具有语句信息的目标语句序列,标签匹配模型采用统计学习方法,为每一个目标语句自动匹配相应标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810975598.4A CN109145260B (zh) | 2018-08-24 | 2018-08-24 | 一种文本信息自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810975598.4A CN109145260B (zh) | 2018-08-24 | 2018-08-24 | 一种文本信息自动提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145260A true CN109145260A (zh) | 2019-01-04 |
CN109145260B CN109145260B (zh) | 2020-04-24 |
Family
ID=64828011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810975598.4A Active CN109145260B (zh) | 2018-08-24 | 2018-08-24 | 一种文本信息自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145260B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175334A (zh) * | 2019-06-05 | 2019-08-27 | 苏州派维斯信息科技有限公司 | 基于自定义的知识槽结构的文本知识抽取系统和方法 |
CN110472015A (zh) * | 2019-08-13 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本信息提取方法、装置、终端及存储介质 |
CN110533143A (zh) * | 2019-07-29 | 2019-12-03 | 深圳点猫科技有限公司 | 生成电子卡片的方法与装置、存储介质及计算机设备 |
CN111291410A (zh) * | 2020-02-13 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 电子文档的脱敏处理方法及其装置 |
CN111401000A (zh) * | 2020-04-03 | 2020-07-10 | 上海一者信息科技有限公司 | 一种在线辅助翻译的译文实时预览方法 |
CN112035408A (zh) * | 2020-09-01 | 2020-12-04 | 文思海辉智科科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN112651236A (zh) * | 2020-12-28 | 2021-04-13 | 中电金信软件有限公司 | 提取文本信息的方法、装置、计算机设备和存储介质 |
CN112818677A (zh) * | 2021-02-22 | 2021-05-18 | 康美健康云服务有限公司 | 一种基于互联网的信息评估方法及系统 |
CN113051879A (zh) * | 2019-12-26 | 2021-06-29 | 东软集团(上海)有限公司 | 智能签批方法、装置以及存储介质 |
CN113435178A (zh) * | 2021-06-17 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种文档解析方法及装置 |
CN117350249A (zh) * | 2023-12-05 | 2024-01-05 | 佰墨思(成都)数字技术有限公司 | 一种电子文档数据自动录入的控件配置方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170075991A1 (en) * | 2015-09-14 | 2017-03-16 | Xerox Corporation | System and method for classification of microblog posts based on identification of topics |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
US20180129944A1 (en) * | 2016-11-07 | 2018-05-10 | Xerox Corporation | Document understanding using conditional random fields |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
WO2018141942A1 (en) * | 2017-02-03 | 2018-08-09 | Koninklijke Philips N.V. | Classifier training |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及系统 |
-
2018
- 2018-08-24 CN CN201810975598.4A patent/CN109145260B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170075991A1 (en) * | 2015-09-14 | 2017-03-16 | Xerox Corporation | System and method for classification of microblog posts based on identification of topics |
US20180129944A1 (en) * | 2016-11-07 | 2018-05-10 | Xerox Corporation | Document understanding using conditional random fields |
WO2018141942A1 (en) * | 2017-02-03 | 2018-08-09 | Koninklijke Philips N.V. | Classifier training |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN108415900A (zh) * | 2018-02-05 | 2018-08-17 | 中国科学院信息工程研究所 | 一种基于多级共现关系词图的可视化文本信息发现方法及系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175334A (zh) * | 2019-06-05 | 2019-08-27 | 苏州派维斯信息科技有限公司 | 基于自定义的知识槽结构的文本知识抽取系统和方法 |
CN110175334B (zh) * | 2019-06-05 | 2023-06-27 | 苏州派维斯信息科技有限公司 | 基于自定义的知识槽结构的文本知识抽取系统和方法 |
CN110533143A (zh) * | 2019-07-29 | 2019-12-03 | 深圳点猫科技有限公司 | 生成电子卡片的方法与装置、存储介质及计算机设备 |
CN110472015A (zh) * | 2019-08-13 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本信息提取方法、装置、终端及存储介质 |
CN110472015B (zh) * | 2019-08-13 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 一种文本信息提取方法、装置、终端及存储介质 |
CN113051879A (zh) * | 2019-12-26 | 2021-06-29 | 东软集团(上海)有限公司 | 智能签批方法、装置以及存储介质 |
CN111291410A (zh) * | 2020-02-13 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 电子文档的脱敏处理方法及其装置 |
CN111291410B (zh) * | 2020-02-13 | 2021-09-07 | 支付宝(杭州)信息技术有限公司 | 电子文档的脱敏处理方法及其装置 |
CN111401000A (zh) * | 2020-04-03 | 2020-07-10 | 上海一者信息科技有限公司 | 一种在线辅助翻译的译文实时预览方法 |
CN111401000B (zh) * | 2020-04-03 | 2023-06-20 | 上海一者信息科技有限公司 | 一种在线辅助翻译的译文实时预览方法 |
CN112035408A (zh) * | 2020-09-01 | 2020-12-04 | 文思海辉智科科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN112035408B (zh) * | 2020-09-01 | 2023-10-31 | 文思海辉智科科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN112651236A (zh) * | 2020-12-28 | 2021-04-13 | 中电金信软件有限公司 | 提取文本信息的方法、装置、计算机设备和存储介质 |
CN112818677A (zh) * | 2021-02-22 | 2021-05-18 | 康美健康云服务有限公司 | 一种基于互联网的信息评估方法及系统 |
CN113435178A (zh) * | 2021-06-17 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种文档解析方法及装置 |
CN117350249A (zh) * | 2023-12-05 | 2024-01-05 | 佰墨思(成都)数字技术有限公司 | 一种电子文档数据自动录入的控件配置方法及系统 |
CN117350249B (zh) * | 2023-12-05 | 2024-02-09 | 佰墨思(成都)数字技术有限公司 | 一种电子文档数据自动录入的控件配置方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109145260B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145260A (zh) | 一种文本信息自动提取方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
CN111177591B (zh) | 面向可视化需求的基于知识图谱的Web数据优化方法 | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
CN110298033A (zh) | 关键词语料标注训练提取工具 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
CN104408173A (zh) | 一种基于b2b平台的核心关键词自动提取方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN102063424A (zh) | 一种中文分词方法 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN106528524A (zh) | 一种基于MMseg算法与逐点互信息算法的分词方法 | |
Berzak et al. | Reconstructing native language typology from foreign language usage | |
CN111353306A (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN114139533A (zh) | 一种面向中文小说领域的文本内容审核方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Zhu et al. | Webpage understanding: an integrated approach | |
CN108519963B (zh) | 一种将流程模型自动转换为多语言文本的方法 | |
CN104317882A (zh) | 一种决策级中文分词融合方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |