CN110147545B - 文本的结构化输出方法及系统、存储介质和计算机设备 - Google Patents

文本的结构化输出方法及系统、存储介质和计算机设备 Download PDF

Info

Publication number
CN110147545B
CN110147545B CN201811089125.0A CN201811089125A CN110147545B CN 110147545 B CN110147545 B CN 110147545B CN 201811089125 A CN201811089125 A CN 201811089125A CN 110147545 B CN110147545 B CN 110147545B
Authority
CN
China
Prior art keywords
label
text
word
words
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811089125.0A
Other languages
English (en)
Other versions
CN110147545A (zh
Inventor
蒋兴华
曹浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811089125.0A priority Critical patent/CN110147545B/zh
Publication of CN110147545A publication Critical patent/CN110147545A/zh
Application granted granted Critical
Publication of CN110147545B publication Critical patent/CN110147545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种文本的结构化输出方法。文本的结构化输出方法包括:识别图片中的文本内容;根据分词模型将文本分割为词语;根据词向量模型将词语转换为词向量;根据词向量和深度语义模型获取词向量与预设标签的关联概率矩阵;及根据概率模型和预设标签的关联概率矩阵将文本结构化输出为结构化内容。本发明实施方式的文本的结构化输出方法通过分词模型将文本分割为一个个词语,然后通过词向量模型将词语转化为词向量并输入到深度语义模型进行处理以得到预设标签的关联概率矩阵,然后根据概率模型和预设标签的关联概率矩阵输出结构化内容,针对文本进行输出而与版式无关,对版式复杂或者无版式的文本也可以准确地输出结构化内容。本发明还公开了一种文本的结构化输出系统、非易失性计算机可读存储介质和计算机设备。

Description

文本的结构化输出方法及系统、存储介质和计算机设备
技术领域
本发明涉及文本识别技术领域,特别涉及一种文本的结构化输出方法、文本的结构化输出系统、非易失性计算机可读存储介质和计算机设备。
背景技术
目前,文本的结构化输出方法大多是根据文字或模板进行配准从而得到被识别的文字或图片输出结构化内容,但对于版式较多或者无版式的文本就难以进行准确的配准,从而影响输出的结构化内容的准确性。
发明内容
本发明的实施例提供了一种文本的结构化输出方法、文本的结构化输出系统、非易失性计算机可读存储介质和计算机设备。
本发明实施方式的文本的结构化输出方法包括:
识别图片中的文本内容;
根据分词模型将所述文本内容分割为多个词语;
根据词向量模型将所述词语转换为词向量;
根据所述词向量和深度语义模型获取所述词向量与预设标签的关联概率矩阵;及
根据预设的概率模型和所述预设标签的关联概率矩阵将所述文本内容输出结构化内容。
本发明实施方式的文本的结构化输出方法通过分词模型将文本分割为一个个词语,然后通过词向量模型将词语转化为词向量并输入到深度语义模型进行处理以得到预设标签的关联概率矩阵,然后根据预设的概率模型和预设标签的关联概率矩阵输出结构化内容,针对文本进行输出而与版式无关,对版式复杂或者无版式的文本也可以准确地输出结构化内容。
本发明实施方式的文本的结构化输出系统包括识别模块、分词模块、转换模块、获取模块和输出模块。所述识别模块用于识别图片中的文本内容;所述分词模块用于根据分词模型将所述文本分割为词语;所述转换模块用于根据词向量模型将所述词语转换为词向量;所述获取模块用于根据所述词向量和深度语义模型获取所述词向量与预设标签的关联概率矩阵;所述输出模块用于根据预设的概率模型和所述预设标签的关联概率矩阵将所述文本输出为结构化内容。
本发明实施方式的一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行上述文本的结构化输出方法。
本发明实施方式的计算机设备,包括存储器及处理器,所述存储器中储存有计算机可读指令,所述指令被所述处理器执行时,使得所述处理器执行上述文本的结构化输出方法。
本发明实施方式的文本的结构化输出方法、文本的结构化输出系统、非易失性计算机可读存储介质和计算机设备通过分词模型将文本分割为一个个词语,然后通过词向量模型将词语转化为词向量并输入到深度语义模型进行处理以得到预设标签的关联概率矩阵,然后根据预设的概率模型和预设标签的关联概率矩阵输出结构化内容,针对文本进行输出而与版式无关,对版式复杂或者无版式的文本也可以准确地输出结构化内容。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某些实施方式的文本的结构化输出方法的流程示意图;
图2是本发明某些实施方式的文本的结构化输出系统的模块示意图;
图3是本发明某些实施方式的文本的结构化输出方法的流程示意图;
图4是本发明某些实施方式的文本的结构化输出系统的模块示意图;
图5是本发明某些实施方式的文本的结构化输出方法的流程示意图;
图6是本发明某些实施方式的文本的结构化输出系统的模块示意图;
图7是本发明某些实施方式的文本的结构化输出方法的流程示意图;
图8是本发明某些实施方式的文本的结构化输出系统的模块示意图;
图9是本发明某些实施方式的文本的结构化输出方法的流程示意图;
图10是本发明某些实施方式的文本的结构化输出方法的原理示意图;
图11是本发明某些实施方式的文本的结构化输出方法的原理示意图;
图12是本发明某些实施方式的文本的结构化输出方法的原理示意图;
图13是本发明某些实施方式的计算机可读存储介质的示意图;和
图14是本发明某些实施方式的计算机设备的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体地限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,在某些实施方式中,本发明实施方式的文本的结构化输出方法包括:
011:识别图片中的文本内容;
012:根据分词模型将文本内容分割为多个词语;
014:根据词向量模型将词语转换为词向量;
016:根据词向量和深度语义模型获取词向量与预设标签的关联概率矩阵;及
018:根据预设的概率模型和预设标签的关联概率矩阵将文本内容输出结构化内容。
请参阅图2,本发明实施方式的文本的结构化输出系统100包括识别模块11、分词模块 12、转换模块14、获取模块16和输出模块18。识别模块11用于识别图片中的文本内容;分词模块12用于根据分词模型将文本内容分割为多个词语;转换模块14用于根据词向量模型将词语转换为词向量;获取模块16用于根据词向量和深度语义模型获取词向量与预设标签的关联概率矩阵;输出模块18用于根据预设的概率模型和预设标签的关联概率矩阵将文本内容输出结构化内容。
也即是说,步骤011可以由识别模块11实现。步骤012可以由分词模块12实现。步骤014可以由转换模块14实现。步骤016可以由获取模块16实现。步骤018可以由输出模块 18实现。
具体地,首先根据分词模型将文本分割为一个个词语,文本可以是光学字符识别(Optical Character Recognition,OCR)的结果文本(即OCR文本),也可以是普通文本,即只要是文本即可,应用范围较广。文本的长度不限,经过分词模型分割后至少可以得到一个词语。分词模型可以是N元模型(n-gram),N元模型是一种较为成熟的用于分词的模型,可以根据前n-1项推测第n项,对文本的分词较为准确。在分词后,将被分割出来的词语输入词向量模型,词向量模型用于将词语转化为词向量。例如,每个词语用一个二进制字符串表示,以便计算机设备能够处理。词向量模型可以是Skip-gram模型或连续词袋模型(ContinuousBag-of-Words),也可以同时利用Skip-gram模型和连续词袋模型进行词向量的转化。词向量和词语是一一对应的。
接着将词向量输入到深度语义模型中,深度语义模型可以是双向的长短期记忆模型。深度语义模型可以计算每个词向量(即词语)和预设标签的关联概率,其中,关联概率为某个词语属于某个预设标签的概率,预设标签包括开始标签、中间标签和结尾标签这三类标签,例如,需要结构化输出的文本为“李明优图研发中心工程师”,分词模型将它分为了五个词语“李明”,“优图”,“研发”,“中心”,“工程师”。词向量模型将五个词语转化为词向量并输入到深度语义模型中,可以计算得到“李明”这个词为人名的开始标签的关联概率,为人名的中间标签的关联概率,为人名的结尾标签的概率,为公司名称的开始标签的关联概率等等,依此类推,可以得到“李明”这个词语与所有预设标签的关联概率。同理,可以得到“优图”,“研发”,“中心”,“工程师”这些词语与所有预设标签的关联概率。从而根据所有词语与所有预设标签的关联概率以形成预设标签的关联概率矩阵。
最后,根据预设标签的关联概率矩阵和概率模型最终确定每个词语所属的预设标签。在确定每个词语所属的预设标签后将文本输出为结构化内容,其中,结构化内容包括开始标签、中间标签和结尾标签中的任意一个或多个,每个词语属于一个预设标签。例如,上述例子中最后确定“李明”属于人名的开始标签,“优图”属于职位的开始标签,“研发”属于职位的中间标签,“中心”属于职位的中间标签,“工程师”属于职位的结尾标签。最终输出为“姓名:李明,职位:优图研发中心工程师”两个结构化内容。其中,结构化内容:“姓名:李明”,这一结构化内容仅包括了人名的开始标签(对应词语“李明”)。结构化内容:“职位:优图研发中心工程师”则包括了职位的开始标签(对应词语“优图”)、职位的中间标签(“研发”和“中心”)和职位的结尾标签(对应“工程师”),且职位的中间标签对应两个词语,也就是说,一个结构化内容可能包含三个以上的词语,而每个结构化内容最多包含三个标签,所以一个预设标签可以对应多个词语,而每个词语仅属于一个预设标签,换言之,预设标签和词语的关系是一对多的,保证了每个词语都有对应的预设标签。概率模型可以是条件随机场模型(conditional random fields,CRF)、隐马尔科夫模型(Hidden Markov Model,HMM)或基于深度学习的方法模型中的任意一种。
本发明实施方式的文本的结构化输出方法通过分词模型将文本分割为一个个词语,然后通过词向量模型将词语转化为词向量并输入到深度语义模型进行处理以得到预设标签的关联概率矩阵,然后根据预设的概率模型和预设标签的关联概率矩阵输出结构化内容,针对文本进行输出而与版式无关,对版式复杂或者无版式的文本也可以准确地输出结构化内容。另外,针对文本进行输出,无需复杂的配准算法,提升对于复杂文本的检测算法性能,用户体验好。
请参阅图3,在某些实施方式中,结构化输出方法还包括:
013:根据多个词语确定文本内容所属的行业;及
015:根据行业确定预设标签。
请参阅图4,在某些实施方式中,结构化输出系统100还包括第一确定模块13和第二确定模块15。第一确定模块13用于根据多个词语确定文本内容所属的行业。第二确定模块15 用于根据行业确定预设标签。
也即是说,步骤013可以由第一确定模块13。步骤015可以由第二确定模块15确定。
具体地,行业包括快递行业、银行行业、零售行业或教育行业中任意一种,行业可以包括快递行业;或者,行业可以包括银行行业;或者,行业可以包括零售行业;或者,行业可以包括快递行业和银行行业;或者,行业可以包括快递行业、银行行业和零售行业;或者,行业可以包括快递行业、银行行业、零售行业和教育行业。行业还可以包括更多其他不同的行业,在此不做限制。
不同行业对应的预设标签也是不同的,结构化输出系统100可以包括一种行业的预设标签,也可以包括多种不同的行业的预设标签,可根据不同的应用场景进行选择。由于不同行业所使用的标签一般具有较大差异,所以根据与标签对应的词语就可以轻松的确定文本内容所属的行业,例如快递行业一般会有邮编标签、运费标签等行业特点的预设标签;银行行业一般具有存款金额标签、存款时间标签和银行名称标签等具有行业特点的预设标签;零售行业一般具有商品数量标签、商品名称标签等具有行业特点的预设标签;教育行业一般具有学号标签、年级标签等具有行业特点的预设标签;在确定词语对应的预设标签时,由于几乎所有行业都有人名标签、地址标签等常用的标签,所以无需对人名标签、地址标签等广泛应用于各行业的标签进行匹配(即不需要对所有预设标签都进行匹配),仅需要将词语与具有行业特点的标签进行匹配即可。例如文本内容中包含邮编标签、运费标签等对应的词语即可确定该文本内容所属的行业为快递行业。例如文本内容中包含存款金额,银行等标签对应词语是即可确定该文本内容所属的行业为银行行业。例如文本内容中包含商品数量标签、商品名称标签等对应的词语即可确定该文本内容所属的行业为零售行业。例如文本内容中包含学号标签、年级标签等对应的词语时即可确定该文本内容所属的行业为教育行业。当然,不限于上述举例的几种行业。如此,即可根据词语确定文本内容所属的行业,在确定行业之后即可确定与该行业对应的预设标签,将词语与对应的行业的预设标签进行匹配以得到关联概率,而无需将词语与结构化输出系统100中的所有行业的预设标签进行匹配以得到关联概率,有利于减少计算量,提高输出效率。
请参阅图5,在某些实施方式中,步骤016包括:
0162:将词向量按正序和反序分别输入深度语义模型并分别输出正序输出结果和反序输出结果;及
0164:根据正序输出结果和反序输出结果确定词向量与预设标签的关联概率并生成预设标签的关联概率矩阵。
请参阅图6,在某些实施方式中,分词模块包括处理单元162和第一确定单元164。处理单元162用于将词向量按正序和反序分别输入深度语义模型并分别输出正序输出结果和反序输出结果;第一确定单元164用于根据正序输出结果和反序输出结果确定词向量与预设标签的关联概率并生成预设标签的关联概率矩阵。
也即是说,步骤0162可以由处理单元162实现。步骤0164可以由第一确定单元164实现。
具体地,将文本分割成一个个词语并转化为词向量后,将词向量一个个按正序(例如正序为用户正常阅读的顺序,如从左到右)输入到深度语义模型中,得到正序输出结果。同时将词向量一个个按反序(也就是正序相反的顺序)输入到深度语义模型,得到反序输出结果。根据正序输出结果和反序输出结果得到词向量(即词语)与预设标签的关联概率,因为该关联概率是根据正序输出结果和反序输出结果整合得到,即考虑了词语在整个文本中的上下文 (即词语前后位置的词语)的关系,得到的关联概率较为准确。然后,根据所有词语和所有预设标签的关联概率生成预设标签的关联概率矩阵。
请参阅图7,在某些实施方式中,步骤018包括:
0182:根据预设标签的关联概率矩阵和概率模型确定文本内容中的每个词语所属的预设标签;
0184:根据词语在文本内容中的位置确定属于相同的预设标签的词语在结构化内容中的位置;及
0186:根据词语、词语所属的预设标签和词语在结构化内容中的位置输出结构化内容。
请参阅图8,在某些实施方式中,输出模块包括第二确定单元182、第三确定单元184和输出单元186。第二确定单元182用于根据预设标签的关联概率矩阵和概率模型确定文本内容中的每个词语所属的预设标签;第三确定单元184用于根据词语在文本内容中的位置确定属于相同的预设标签的词语在结构化内容中的位置;输出单元186用于根据词语、词语所属的预设标签和词语在结构化内容中的位置输出结构化内容。
也即是说,步骤0182可以由第二确定单元182实现。步骤0184可以由第三确定单元184 实现。步骤0186可以由输出单元186实现。
具体地,先根据预设标签的关联概率矩阵和概率模型确定词语所属的预设标签。在确定了词语所属的预设标签后,由于文本中有可能存在预设标签相同的词语,例如文本中存在“优图研发中心工程师”,分词为“优图”,“研发”,“中心”,“工程师”,最终确定“优图”为职位的开始标签,“研发”为职位的中间标签,“中心”也为职位的中间标签,“工程师”为职位的结尾标签。存在两个职位的中间标签“研发”和“中心”,因为一个文本一般是按照正常的语序的,所以词语在文本中的相对位置具有一定的参考价值,可以根据词语在文本中的位置确定预设标签相同的词语在结构化内容中的位置。例如,在上述文本中,“研发”在“中心”的前面,所以结构化内容中“研发”也在“中心”的前面。然后根据词语、词语所属的预设标签以及词语在结构化内容中的位置最终输出结构化内容:“职位:优图研发中心工程师”。
请参阅图9,在某些实施方式中,步骤182包括:
01822:根据预设标签的关联概率矩阵和文本内容中每个词语前后位置的词语确定词语所属的预设标签。
请再次参阅图8,在某些实施方式中,第二确定单元182还用于根据预设标签的关联概率矩阵和文本内容中每个词语前后位置的词语确定词语所属的预设标签。
也即是说,步骤01822可以由第二确定单元182实现。
具体地,在得到的预设标签的关联概率矩阵中,每个词语都会有一个概率最大的预设标签,但这个概率最大的预设标签不一定就是正确的预设标签,因为词语不是单独存在的,符合上下文的语境和语义的词语才是正确的,所以概率模型根据词语在文本中的上下文及每一个词语前后的词语来进一步修正词语最终所属的预设标签。例如,单独只考虑“李明”这个词,他属于人名的开始标签的概率可能高达到0.8,属于公司名称的开始标签的概率可能只有 0.1。然而,在“李明服装有限公司”这一文本中,“李明”这个词却是公司名称的前缀,也就是说“李明”应该是属于公司名称的开始标签,概率模型正是根据文本的上下文来进一步修正词语最终所属的预设标签,从而使得每个词语的最终确定的预设标签更为准确。
请参阅图10,在一个例子中,需要进行结构化输出的文本为李明优图研发中心工程师”,首先通过分词模型分为五个词语“李明”,“优图”,“研发”,“中心”,“工程师”。然后通过词向量模型将词语转化为词向量,上述词语对应的词向量分别为x1,x2,x3,x4,x5。之后将词语的词向量输入到深度语义模型中,正序输入x1,x2,x3,x4,x5。x1正序输入后得到f1,将f1和x2正序输入得到f2,将f2和x3正序输入得到f3,将f3和x4正序输入得到f4,将f4和x5正序输入得到f5,因为f1会影响f2,而f2会影响f3,f3会影响f4,f4会影响f5,也就是说,第n个正序输出结果由前n-1个正序输出结果以及当前输入的词向量确定,最终得到正序输出结果f1至f5。反序输入x5,x4,x3,x2,x1,x5反序输入后得到b5,将b5和x4反序输入得到b4,将b4和x3反序输入得到b3,将b3和x2反序输入得到b2,将b2和x1反序输入得到b1,因为b5会影响b4,而b4会影响b3,b3会影响b2,b2会影响b1,也就是说,第n 个反序输出结果由前n-1个反序输出结果以及当前输入的词向量确定,最终得到反序输出结果b1至b5。然后根据f1至f5以及b1至b5得到每个词向量(即词语)与所有预设标签的关联概率以生成预设标签的关联概率矩阵其中,cn,m为第n个词语的第m个预设标签的关联概率。如图10所示,c1即表示上述矩阵的第一列,c2即表示上述矩阵的第二列, c3即表示上述矩阵的第三列,c4即表示上述矩阵的第四列,c5即表示上述矩阵的第五列,依此类推。然后根据概率模型,考虑每个词语在文本中前后位置的词语从而修正每个词语最终所属的预设标签,也即是说,在矩阵中找到一条最佳路径。例如,c1,1为“李明”属于人名标签的开始标签的概率,为0.8。c1,2为“李明”属于人名标签的中间标签的概率,为0.1。c2,1为“优图”属于职位的开始标签(如图10中的B-OFF)的概率,为0.5。c2,2为“优图”属于职位的中间标签(如图10中的I-OFF)的概率,为0.2。依此类推,每个词语与每一个标签都有一个对应的概率值(即关联概率)。然后,根据词语前后位置的词语,例如“李明”前面没有词语,后面是“优图”,根据预设标签的关联概率矩阵和后面的词语从而判断“李明”最终所属的预设标签为人名的开始标签(如图10中的B-PER)。“优图”前面是“李明”,后面是“研发”,“中心”,“工程师”,从而判断“优图”是职位的开始标签(如图10中的B-OFF)。同理,“研发”为职位的中间标签(如图10中的I-OFF),“中心”为职位的中间标签(如图10中的I-OFF),“工程师”为职位的结尾标签(如图10中的E-OFF)。预设标签相同的词语根据词语在文本中的相对位置确定其在结构化内容中的位置,最终输出为:“姓名:李明”,“职位:优图研发中心工程师”。上述例子仅为了更清楚的对本发明进行说明,不作为对本发明的限定。
在某些实施方式中,预设标签还包括空白标签,每个词语为空白标签、开始标签、中间标签和结尾标签中的任意一个。
具体地,预设标签包括四类标签,即空白标签、开始标签、中间标签和结尾标签。在对文本进行输出时,有一些词语在文本中是不具有任何意义的,对于这些词语,将它归属于空白标签后,在进行输出时并不会进行输出,也就是说,输出的结果只包含有意义的结构化内容(即开始标签、中间标签和结尾标签中的一个或多个)。例如,如图11所示,对于一个名片上的所有文字进行OCR识别得到OCR文本后,由于名片可能存在一些LOGO、或者用户并不需要的结构化内容等,OCR文本中对应的也会存在这些词语,然而这并不是用户想要的 (如图11所示,对于个人名片的公司网址(www.xxx.com),用户可能并不需要),所以在确定词语的预设标签时将公司网址的相关词语归属为空白标签,最终输出结果如图12所示,“姓名:李明”,“职位:优图研发中心工程师”,“公司:XXX公司”。如此,不对属于空白标签的词语进行输出,只保留对用户有用的结构化内容,用户体验较好。
请参阅图13,本发明实施例还提供了一种计算机可读存储介质500。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质500,当计算机可执行指令被一个或多个处理器600执行时,使得处理器600执行上述任意一种实施方式的文本的结构化输出方法。
例如,当计算机可执行指令被处理器600执行时,处理器600执行以下步骤的文本的结构化输出方法:
011:识别图片中的文本内容;
012:根据分词模型将文本内容分割为多个词语;
014:根据词向量模型将词语转换为词向量;
016:根据词向量和深度语义模型获取词向量与预设标签的关联概率矩阵;及
018:根据预设的概率模型和预设标签的关联概率矩阵将文本内容输出结构化内容。
又例如,当计算机可执行指令被处理器600执行时,处理器600执行以下步骤的文本的结构化输出方法:
013:根据多个词语确定文本内容所属的行业;及
015:根据行业确定预设标签。
请参阅图14,本发明实施例还提供一种计算机设备700。计算机设备700包括存储器720 及处理器740,存储器720中储存有计算机可读指令,计算机可读指令被处理器740执行时,使得处理器740执行上述任意一种实施方式的文本的结构化输出方法。
计算机设备700可以为电脑、智能手机、平板电脑、笔记本电脑、智能手表、智能手环、智能头盔、智能眼镜等等。
例如,计算机可读指令被处理器740执行时,处理器740执行以下步骤的文本的结构化输出方法:
011:识别图片中的文本内容;
012:根据分词模型将文本内容分割为多个词语;
014:根据词向量模型将词语转换为词向量;
016:根据词向量和深度语义模型获取词向量与预设标签的关联概率矩阵;及
018:根据预设的概率模型和预设标签的关联概率矩阵将文本内容输出结构化内容。
又例如,计算机可读指令被处理器740执行时,处理器740执行以下步骤的文本的结构化输出方法:
013:根据多个词语确定文本内容所属的行业;及
015:根据行业确定预设标签。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于执行特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的执行,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于执行逻辑功能的可执行指令的定序列表,可以具体执行在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体地示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来执行。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来执行。例如,如果用硬件来执行,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来执行:具有用于对数据信号执行逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解执行上述实施方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式执行,也可以采用软件功能模块的形式执行。所述集成的模块如果以软件功能模块的形式执行并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种文本的结构化输出方法,其特征在于,所述文本的结构化输出方法包括:
识别图片中的文本内容;
根据分词模型将所述文本内容分割为多个词语;
根据词向量模型将所述词语转换为词向量;
根据所述词向量和深度语义模型获取所述词向量与预设标签的关联概率矩阵;及
根据所述预设标签的关联概率矩阵和概率模型确定所述文本内容中的每个所述词语所属的所述预设标签,所述概率模型根据词语在文本中的上下文及每一个词语前后的词语来进一步修正词语最终所属的预设标签;
根据所述词语在所述文本内容中的位置确定属于相同的所述预设标签的所述词语在所述结构化内容中的位置;及
根据所述词语、所述词语所属的所述预设标签和所述词语在结构化内容中的位置输出所述结构化内容。
2. 根据权利要求1所述的文本的结构化输出方法,其特征在于,所述结构化输出方法还包括:
根据所述多个词语确定所述文本内容所属的行业,其中,所述行业包括快递行业、银行行业、零售行业或教育行业中任意一种;及
根据所述行业确定所述预设标签。
3. 根据权利要求1所述的文本的结构化输出方法,其特征在于,所述根据所述词向量和深度语义模型获取所述词向量与预设标签的关联概率矩阵的步骤包括:
将所述词向量按正序和反序分别输入所述深度语义模型并分别输出正序输出结果和反序输出结果,其中,所述深度语义模型包括双向长短期记忆模型;及
根据所述正序输出结果和所述反序输出结果确定所述词向量与所述预设标签的关联概率并生成所述预设标签的关联概率矩阵。
4.根据权利要求1所述的文本的结构化输出方法,其特征在于,所述根据所述预设标签的关联概率矩阵和所述概率模型确定所述文本内容中的每个所述词语所属的所述预设标签的步骤包括:
根据所述预设标签的关联概率矩阵和所述文本内容中每个所述词语前后位置的所述词语确定所述词语所属的所述预设标签。
5.根据权利要求1所述的文本的结构化输出方法,其特征在于,所述预设标签包括空白标签、开始标签、中间标签和结尾标签,每个所述结构化内容包括所述开始标签、所述中间标签和所述结尾标签中的任意一个或多个,每个所述词语为所述空白标签、所述开始标签、所述中间标签和所述结尾标签中的任意一个。
6.一种文本的结构化输出系统,其特征在于,所述文本的结构化输出系统包括:
识别模块,所述识别模块用于识别图片中的文本内容;
分词模块,根据分词模型将所述文本内容分割为多个词语;
转换模块,根据词向量模型将所述词语转换为词向量;
获取模块,根据所述词向量和深度语义模型获取所述词向量与预设标签的关联概率矩阵;及
输出模块,所述输出模块包括第二确定单元、第三确定单元和输出单元,所述第二确定单元用于根据所述预设标签的关联概率矩阵和概率模型确定所述文本内容中的每个所述词语所属的所述预设标签,所述概率模型根据词语在文本中的上 下文及每一个词语前后的词语来进一步修正词语最终所属的预设标签;所述第三确定单元用于根据所述词语在所述文本内容中的位置确定属于相同的所述预设标签的所述词语在所述结构化内容中的位置;及所述输出单元用于根据所述词语、所述词语所属的所述预设标签和所述词语在结构化内容中的位置输出所述结构化内容。
7. 根据权利要求6所述的文本的结构化输出系统,其特征在于,所述结构化输出系统还包括:
第一确定模块,所述第一确定模块用于根据所述多个词语确定所述文本内容所属的行业,其中,所述行业包括快递行业、银行行业、零售行业或教育行业中任意一种;及
第二确定模块,所述第二确定模块用于根据所述行业确定所述预设标签。
8. 根据权利要求6所述的文本的结构化输出系统,其特征在于,所述获取模块包括:
处理单元,所述处理单元用于将所述词向量按正序和反序分别输入所述深度语义模型并分别输出正序输出结果和反序输出结果,其中,所述深度语义模型包括双向长短期记忆模型;及
第一确定单元,所述第一确定单元用于根据所述正序输出结果和所述反序输出结果确定所述词向量与所述预设标签的关联概率并生成所述预设标签的关联概率矩阵。
9.根据权利要求6所述的文本的结构化输出系统,其特征在于,所述第二确定单元还用于根据所述预设标签的关联概率矩阵和所述文本内容中每个所述词语前后位置的所述词语确定所述词语所属的所述预设标签。
10.根据权利要求6所述的文本的结构化输出系统,其特征在于,所述预设标签包括空白标签、开始标签、中间标签和结尾标签,每个所述结构化内容包括所述开始标签、所述中间标签和所述结尾标签中的任意一个或多个,每个所述词语为所述空白标签、所述开始标签、所述中间标签和所述结尾标签中的任意一个。
11.一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行权利要求1至5中任一项所述的文本的结构化输出方法。
12.一种计算机设备,包括存储器及处理器,所述存储器中储存有计算机可读指令,所述指令被所述处理器执行时,使得所述处理器执行权利要求1至5中任一项所述的文本的结构化输出方法。
CN201811089125.0A 2018-09-18 2018-09-18 文本的结构化输出方法及系统、存储介质和计算机设备 Active CN110147545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811089125.0A CN110147545B (zh) 2018-09-18 2018-09-18 文本的结构化输出方法及系统、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811089125.0A CN110147545B (zh) 2018-09-18 2018-09-18 文本的结构化输出方法及系统、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110147545A CN110147545A (zh) 2019-08-20
CN110147545B true CN110147545B (zh) 2023-08-29

Family

ID=67588427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811089125.0A Active CN110147545B (zh) 2018-09-18 2018-09-18 文本的结构化输出方法及系统、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110147545B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541373B (zh) * 2019-09-20 2023-10-31 北京国双科技有限公司 司法文本识别方法、文本识别模型获得方法及相关设备
CN111832300A (zh) * 2020-07-24 2020-10-27 中国联合网络通信集团有限公司 基于深度学习的合同审核方法和装置
CN111914535B (zh) * 2020-07-31 2023-03-24 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN112712879B (zh) * 2021-01-18 2023-05-30 腾讯科技(深圳)有限公司 医学影像报告的信息提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
JP2017102599A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 推定装置、パラメタ学習装置、方法、及びプログラム
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102599A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 推定装置、パラメタ学習装置、方法、及びプログラム
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110147545A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147545B (zh) 文本的结构化输出方法及系统、存储介质和计算机设备
CN108733778B (zh) 对象的行业类型识别方法和装置
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
US10902211B2 (en) Multi-models that understand natural language phrases
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111291552B (zh) 一种文本内容修正的方法和系统
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN111507214A (zh) 文档识别方法、装置及设备
CN112926700B (zh) 针对目标图像的类别识别方法和装置
CN114444508A (zh) 日期识别方法、装置、可读介质及电子设备
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
US20120281919A1 (en) Method and system for text segmentation
CN111274799A (zh) 一种文章标题生成方法、装置及存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
CN114359941A (zh) 发票信息的抽取方法、装置、电子设备及存储介质
CN111985235B (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质
CN113806562B (zh) 模型训练方法、装置、设备及存储介质
CN114049528B (zh) 一种品牌名称识别的方法及设备
CN115358186B (zh) 一种槽位标签的生成方法、装置及存储介质
CN112906559B (zh) 由机器实施的用于批改算式的方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant