CN113449731A - 信息处理装置 - Google Patents

信息处理装置 Download PDF

Info

Publication number
CN113449731A
CN113449731A CN202010903990.5A CN202010903990A CN113449731A CN 113449731 A CN113449731 A CN 113449731A CN 202010903990 A CN202010903990 A CN 202010903990A CN 113449731 A CN113449731 A CN 113449731A
Authority
CN
China
Prior art keywords
information
processing apparatus
document
character string
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010903990.5A
Other languages
English (en)
Inventor
久保周作
小林邦彦
冈田茂
铃木裕介
安达真太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN113449731A publication Critical patent/CN113449731A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

一种信息处理装置,用以适当地提取作为文章的一部分而出现的信息。所述信息处理装置具有图像获取部获取所发送来的图像数据所示的文档图像作为表示所签订的合约的文档的图像。字符识别部从所获取的文档图像中识别字符。结合部生成将由字符识别部通过在文章中的经换行处连结所识别的所述字符的排列生成结合字符串。信息提取部从由结合部所生成的结合字符串中,提取表示经指定的信息的部分(以下称为“指定信息”)。在结合字符串中包含多个第一字符串中的任一个的情况下,信息提取部提取以与所含的第一字符串对应的规则所配置的第二字符串作为指定信息。信息提取部从所提取的指定信息中排除既定的语句,提取排除后剩余的信息作为指定信息。

Description

信息处理装置
技术领域
本发明涉及一种信息处理装置。
背景技术
专利文献1中记载了下述技术,即:提取在文档中的出现位置处于规定范围的字符段并进行词类模式(word pattern)的对照,由此提取文档属性。
[现有技术文献]
[专利文献]
[专利文献1]日本专利特开2004-178044号公报
发明内容
[发明所要解决的问题]
若为专利文献1的技术,则可从名片那样字符的出现范围固定的文档中提取信息。但是,例如对于合同的签约人名那样作为文章的一部分而出现的信息来说,在文档内出现的位置不固定,因而难以提取。而且,若所述信息跨越了在文章的中途换行的部位,则提取变得更困难。
因此,本发明的目的在于适当提取作为文章的一部分而出现的信息。
[解决问题的技术手段]
本发明的技术方案1的信息处理装置包括处理器,所述处理器获取表示文档的图像,从所获取的所述图像中识别字符,经换行处通过在文章中的经换行处连结所识别的所述字符的排列生成结合字符串,从所生成的所述结合字符串中提取表示经指定的信息的部分。
本发明的技术方案2的信息处理装置根据技术方案1所记载的实施方式,其中,所述处理器从所获取的所述图像中将满足既定条件的部分删除后识别字符。
本发明的技术方案3的信息处理装置根据技术方案2所记载的实施方式,其中,所述处理器从所获取的所述图像中,将特定颜色的部分作为满足所述条件的部分而删除。
本发明的技术方案4的信息处理装置根据技术方案1所记载的实施方式,其中,所述处理器基于对所获取的所述图像进行转换结果所得的图像来识别字符。
本发明的技术方案5的信息处理装置根据技术方案1所记载的实施方式,其中,所述处理器将所述文章分割而生成多个所述结合字符串,针对多个所述结合字符串依次进行所述提取,若满足既定的结束条件则结束所述提取。
本发明的技术方案6的信息处理装置根据技术方案5所记载的实施方式,其中,所述处理器以所述文章所含的特定字符为界而将所述文章分割。
本发明的技术方案7的信息处理装置根据技术方案5所记载的实施方式,其中,所述处理器在与所述经指定的信息的种类相应的部位将所述文章分割。
本发明的技术方案8的信息处理装置根据技术方案5所记载的实施方式,其中,所述处理器在与所述文档的种类相应的部位将所述文章分割。
本发明的技术方案9的信息处理装置根据技术方案1至8中任一项所记载的实施方式,其中,在所获取的表示所述文档的图像为所述文档的多个页数份的大小的情况下,所述处理器将所述图像分割为所述多个页数份后,识别字符。
本发明的技术方案10的信息处理装置根据技术方案1至9中任一项所记载的实施方式,其中,在所述结合字符串中包含多个第一字符串中的任一个的情况下,所述处理器提取第二字符串作为所述部分,所述第二字符串是以与所含的所述第一字符串对应的规则所配置。
本发明的技术方案11的信息处理装置根据技术方案1至10中任一项所记载的实施方式,其中,所述处理器从所提取的所述部分中排除既定语句。
本发明的技术方案12的信息处理装置根据技术方案11所记载的实施方式,其中,所述既定语句为表示在所述文档中出现的人物的特定称呼的语句。
本发明的技术方案13的信息处理装置根据技术方案1至12中任一项所记载的实施方式,其中,所述处理器从所生成的所述结合字符串中,提取特定词类的语句作为所述部分。
本发明的技术方案14的信息处理装置根据技术方案13所记载的实施方式,其中,所述词类为固有名词。
[发明的效果]
根据技术方案1的发明,可适当地提取作为文章的一部分而出现的信息。
根据技术方案2的发明,与不进行本发明的删除的情况相比,可抑制指定信息的提取精度劣化。
根据技术方案3的发明,与不进行本发明的删除的情况相比,可抑制因将特定颜色的部分识别为字符而导致指定信息的提取精度劣化。
根据技术方案4的发明,可利用图像转换的技术来识别字符。
根据技术方案5的发明,与不分割文档的情况相比,可减轻信息提取处理的负荷。
根据技术方案6的发明,与随意分割文章的情况相比,可不易产生未提取被分断的字符串的事态。
根据技术方案7的发明,与在文档的开头部分不分割文档的情况相比,可更可靠地减轻经指定的信息的提取处理的负荷。
根据技术方案8的发明,与不进行本发明的分割的情况相比,可更可靠地减轻经指定的信息的提取处理的负荷。
根据技术方案9的发明,可针对每一行或每一列防止句子跨页连续的误识别。
根据技术方案10的发明,可提取配置与特定的字符串(第一字符串)成为特定关系的字符串(第二字符串)。
根据技术方案11、技术方案12的发明,与不进行语句的排除的情况相比,可提取精度更高的信息的部分。
根据技术方案13的发明,与不进行本发明的提取的情况相比,可适当地提取特定词类的语句。
根据技术方案14的发明,与不进行本发明的提取的情况相比,可适当地提取固有名词的语句。
附图说明
图1为表示实施例的信息提取支持系统的总体结构的图。
图2为表示文档处理装置的硬件结构的图。
图3为表示读取装置的硬件结构的图。
图4为表示信息提取支持系统中实现的功能结构的图。
图5为表示文章的经换行处的一例的图。
图6为表示所生成的结合字符串的一例的图。
图7为表示字符串表的一例的图。
图8的(a)~图8的(c)为表示指定信息的提取的一例的图。
图9的(a)及图9的(b)为表示与指定信息的提取有关的画面的一例的图。
图10为表示提取处理的动作顺序的一例的图。
[符号的说明]
1:信息提取支持系统
10:文档处理装置
20:读取装置
101:图像获取部
102:字符识别部
103:结合部
104:信息提取部
201:图像读取部
202:信息显示部
具体实施方式
[1]实施例
图1表示实施例的信息提取支持系统1的总体结构。信息提取支持系统1为进行下述处理的系统,所述处理用于从文档中提取经指定的信息。所谓文档,为通过字符记录了内容的介质。此处提及的介质中,不仅包含书本那样的有形物,而且也包含电子书籍那样的无形物。
文档所使用的字符中,包含汉字、平假名、片假名、字母及符号(句号逗号等)等。所谓文章,是以多个句子进行表述而成,所谓句子,为在末尾配置有句号(即,“。”)的字符串。本实施例中,取下述情况为例进行说明,即:从作为文档的一例的合同中,提取签约人名、商品名或服务名等信息。
信息提取支持系统1包括通信线路2、文档处理装置10及读取装置20。通信线路2为包含移动体通信网及国际互联网(Internet)等的通信系统,对接入至系统自身的装置彼此的数据交接进行中继。文档处理装置10及读取装置20以有线通信的形式接入至通信线路2。此外,对通信线路2的接入也可为无线通信。
读取装置20为进行下述处理的信息处理装置,即:读取文档,并生成表示所述文档中出现的字符等的图像数据。读取装置20生成以合同原本作为文档而读取的合同图像数据。文档处理装置10为进行下述处理的信息处理装置,即:根据合同的图像来提取信息。文档处理装置10基于读取装置20所生成的合同图像数据来提取信息。
图2表示文档处理装置10的硬件结构。文档处理装置10为包括处理器11、存储器(memory)12、存储区(storage)13、通信装置14及用户接口(User Interface,UI)装置15的计算机(computer)。处理器11例如具有中央处理器(Central Processing Unit,CPU)等运算装置、寄存器(register)及周边电路等。存储器12为处理器11可读取的记录介质,具有随机存取存储器(Random Access Memory,RAM)及只读存储器(Read Only Memory,ROM)等。
存储区13为处理器11可读取的记录介质,例如具有硬盘驱动器或闪速存储器等。处理器11通过将RAM用作工作区(work area)来执行存储于ROM或存储区13的程序,从而控制各硬件的动作。通信装置14为具有天线及通信电路等,经由通信线路2进行通信的通信部件。
UI装置15为对利用本装置的用户提供的接口。UI装置15例如具有触摸屏(touchscreen),显示图像并且受理来自用户的操作,所述触摸屏具有作为显示部件的显示器(display)、及设于显示器的表面的触摸面板(touch panel)。而且,UI装置15除了触摸屏以外,也具有键盘等操作件,受理对这些操作件的操作。
图3表示读取装置20的硬件结构。读取装置20为包括处理器21、存储器22、存储区23、通信装置24、UI装置25及图像读取装置26的计算机。从处理器21到UI装置25与图2所示的从处理器11到UI装置15为同种硬件。
图像读取装置26为读取文档并生成表示所述文档中出现的字符等(字符、记号、图画及图案等)的图像数据的装置,为所谓的扫描仪(scanner)。在文档中出现的字符等有色彩的情况下,图像读取装置26具有也读取所述色彩的彩色扫描功能。
信息提取支持系统1中,通过所述各装置的处理器执行程序而控制各部,从而实现以下所述的各功能。各功能进行的动作也作为实现所述功能的装置的处理器所进行的动作而表示。
图4表示信息提取支持系统1中实现的功能结构。文档处理装置10包括图像获取部101、字符识别部102、结合部103及信息提取部104。读取装置20包括图像读取部201及信息显示部202。
读取装置20的图像读取部201控制图像读取装置26,读取文档中出现的字符等,生成表示所述文档的图像(以下称为“文档图像”)。若用户一边将合同原本逐页翻开一边设置于图像读取装置26进行读取操作,则图像读取部201每当进行读取操作时生成文档图像。
图像读取部201将表示所生成的文档图像的图像数据发送至文档处理装置10。文档处理装置10的图像获取部101获取所发送来的图像数据所示的文档图像作为表示所签订的合约的文档的图像。图像获取部101将所获取的文档图像供给于字符识别部102。字符识别部102从所供给的文档图像中识别字符。
字符识别部102例如使用众所周知的光学字符识别(Optical CharacterRecognition,OCR)技术来识别字符。字符识别部102首先对文档图像进行布局分析,即,确定字符所排列的区域,在横写的情况下逐行地确定字符所排成的行,在竖写的情况下逐列地确定字符所排成的列。字符识别部102还进行下述处理,即:识别各行或各列中出现的字符及字符的间隙的空白区域,由此将包含字符的矩形图像逐个字符地切出。
此时,字符识别部102也算出所切出的字符(随后将识别的字符)在图像内的位置。字符识别部102例如算出以文档图像的左上角为原点的二维坐标系统的坐标所表示的位置作为字符的位置。字符的位置例如是以所切出的矩形图像的中心像素的位置表示。字符识别部102对所切出的矩形图像所含的字符进行归一化、特征量提取、匹配及知识处理等处理而识别。
所谓归一化,是将字符的尺寸及形状设为一定的处理。所谓特征量提取,是提取表示字符的特征的量的处理。所谓匹配,是预先存储标准字符的特征量,确定与所提取的特征量最类似的特征量的字符的处理。所谓知识处理,是预先存储日语的单词信息,在未存储有所识别的字符所示的单词的情况下,修订为所存储的相似单词的处理。
字符识别部102将字符数据供给于结合部103,所述字符数据表示所识别的字符、针对所述字符所算出的位置、及字符排列方向(确定了行的情况下为横向,确定了列的情况下为纵向)。结合部103通过在由字符识别部102所识别的字符组成的文章中的经换行处连结所述字符的排列来生成字符串(以下称为“结合字符串”)。
所谓此处提及的换行,是指句子在行的中途结束而转至下一行。此外,在文章横写的情况下,将字符的排列称为“行”,但在竖写的情况下,也就是字符纵向排成列的情况下,也将句子在列的中途结束而转至下一列称为“换行”。而且,换行中,不仅包含文章的作者明确进行的换行,而且也包含文档制作应用自动进行的字符串的折返(也称为段落内换行)。
图5表示文章的换行部分的一例。图5中,表示标题A1以及段落A2、段落A3、段落A4、段落A5所示的文档图像D1。从标题A1到段落A5,字符均从开头起排列直到明确地换行至最后。结合部103根据从字符识别部102供给的字符数据所示的字符的位置及字符排列方向,确定形成文章的字符的排列。
文档图像D1的情况下,在本实施例中,结合部103确定从标题A1到段落A5的字符的排列。此时,结合部103针对上文所述的段落内换行,将换行前的行的字符串与换行后的行的字符串结合。接下来,结合部103决定所确定的字符的排列顺序。例如文档图像D1的情况下,结合部103基于距文档图像的左边C1的距离及距上边C2的距离,决定字符的排列顺序。
具体来说,结合部103使距左边C1的距离小于上边C2的长度的一半的字符的排列顺序,较距左边C1的距离为上边C2的长度的一半以上的字符的排列顺序更靠前。而且,距左边C1的距离小于上边C2的长度的一半的字符的排列中,距上边C2的距离越短,则结合部103使顺序越靠前,距左边C1的距离为上边C2的长度的一半以上的字符的排列中,距上边C2的距离越短,则结合部103使顺序越靠前。
图5的示例中,结合部103决定最初为标题A1,接下来为段落A2、段落A3、段落A4,最后为段落A5的顺序。结合部103生成下述字符串作为结合字符串,即,将所确定的字符的排列以所决定的顺序排列结合。这样生成的结合字符串成为将文章的经换行处连结的字符串。此外,所述示例中,结合部103确定针对段落内换行预先进行了结合的字符的排列,但也可不将段落内换行预先结合,而针对每一行确定字符的排列。此时,结合部103也利用相同方法决定各行的字符的排列顺序,从而生成结合字符串。
图6表示所生成的结合字符串的一例。图6的示例中,结合部103生成将标题A1、段落A2、段落A3、段落A4、段落A5依次结合而成的结合字符串B1。结合字符串B1成为将文档图像D1中出现的文章的经换行处连结的形式。结合部103将表示所生成的结合字符串的字符串数据供给于信息提取部104。
信息提取部104从由结合部103所生成的结合字符串中提取表示经指定的信息的部分(以下称为“指定信息”)。在本实施例中,在结合字符串中包含多个第一字符串中的任一个的情况下,信息提取部104提取第二字符串作为指定信息,所述第二字符串是以与所含的第一字符串对应的规则所配置。
而且,信息提取部104从通过所述方法提取的指定信息中排除既定语句,提取排除后剩余的信息作为指定信息。信息提取部104利用使第一字符串、第二字符串及排除语句(即,被规定为排除的语句)相对应的字符串表来提取指定信息。
图7表示字符串表的一例。图7的示例中,针对“(以下,称为甲)”、“(以下称为甲)”、“(以下称为“甲”)”、“(以下,称为“甲”)”、“(以下,称为“甲”。)”、“(以下,称为乙)”、“(以下称为乙)”、“(以下称为“乙”)”、“(以下,称为“乙”)”、“(以下,称为“乙”。)”的第一字符串,对应有“签约人名”的第二字符串。
而且,针对“签约人名”的第二字符串,对应有“订货方/接受订货方/买方/卖方/买家/卖家/今日/买入方/卖出方/作为~~的”的排除语句。参照图8的(a)~图8的(c)对使用所述字符串表的指定信息的提取例进行说明。
图8的(a)~图8的(c)表示指定信息的提取的一例。图8的(a)中,示出“卖方ABCD股份有限公司(以下称为甲),与买方EFG产业股份有限公司(以下称为乙)……。”的结合字符串B2。
信息提取部104从由结合部103供给的字符串数据所示的结合字符串中,检索与第一字符串一致的字符串。若为图8的(a)~图8的(c)的示例,则信息提取部104如图8的(b)所示那样,检索“(以下称为甲)”的字符串F1、及“(以下称为乙)”的字符串F2。信息提取部104获取配置于所检索到的字符串之前的字符串。
此外,信息提取部104在检索到的字符串之前存在其他检索到的字符串的情况下,从紧邻所述字符串之后的字符开始获取字符串。而且,信息提取部104在检索到的字符串之前有逗号(“,”)的情况下,从紧邻所述逗号之后的字符开始获取字符串。若为图8的(a)~图8的(c)的示例,则信息提取部104如图8的(b)所示,获取字符串F1之前的“卖方ABCD股份有限公司”的字符串G1。
而且,虽然在字符串F2之前也有字符串F1,但其前有逗号,因而信息提取部104获取从紧邻逗号之后的字符到紧邻字符串F2之前的字符的、“买方EFG产业股份有限公司”的字符串G2。另外,信息提取部104从所获取的字符串G1及字符串G2中将排除语句排除。例如若为字符串G1,则信息提取部104如图8的(c)所示,提取排除了“卖方”的排除语句的、“ABCD股份有限公司”的字符串H1。
而且,若为字符串G2,则信息提取部104如图8的(c)所示,提取排除了“买方”的排除语句的、“EFG产业股份有限公司”的字符串H2。这样,本实施例中,排除语句中包含表示文档中出现的人物的特定称呼的语句。本实施例中“出现的人物”为签约人本人,“表示特定称呼的语句”为“订货方/接收订货方/买方/卖方/买家/卖家/买入方/卖出方”。订货方等为以其他称谓方式表示签约人本人的语句。
信息提取部104将表示以上那样提取的指定信息的指定信息数据发送至读取装置20。读取装置20的信息显示部202显示由信息提取部104所提取的指定信息。信息显示部202例如显示与指定信息的提取有关的画面。
图9的(a)及图9的(b)表示与指定信息的提取有关的画面的一例。图9的(a)的示例中,作为信息提取画面,信息显示部202显示:文档指定栏E1,指定成为提取指定信息的对象的文档;信息指定栏E2,指定要提取的信息;以及提取的开始按键E3。若进行按下开始按键E3的操作,则信息显示部202将提取要求数据发送至文档处理装置10,所述提取要求数据表示由文档指定栏E1及信息指定栏E2所指定的文档及指定信息。
文档处理装置10的信息提取部104若接收提取要求数据,则从提取要求数据所示的文档的结合字符串中,提取同样地由提取要求数据所示的指定信息,将表示所提取的指定信息的指定信息数据发送至读取装置20。如图9的(b)所示,信息显示部202显示所接收的指定信息数据所示的指定信息作为提取结果。
信息提取支持系统1所包括的各装置通过所述结构而进行提取指定信息的提取处理。
图10表示提取处理的动作顺序的一例。首先,读取装置20(图像读取部201)读取作为文档而设置的合同中出现的字符等,从而生成文档图像(步骤S11)。接下来,读取装置20(图像读取部201)将表示所生成的文档图像的图像数据发送至文档处理装置10(步骤S12)。
文档处理装置10(图像获取部101)获取所发送来的图像数据所示的文档图像(步骤S13)。接下来,文档处理装置10(字符识别部102)从所获取的文档图像中识别字符(步骤S14)。接着,文档处理装置10(结合部103)通过在文章中的经换行处连结所识别的所述字符的排列生成结合字符串经换行处(步骤S15)。
接下来,文档处理装置10(信息提取部104)从步骤S15中生成的结合字符串中,提取表示经指定的信息的部分即指定信息(步骤S16)。接着,文档处理装置10(信息提取部104)将表示步骤S16中提取的指定信息的指定信息数据发送至读取装置20(步骤S17)。读取装置20(信息显示部202)显示所发送来的指定信息数据所示的指定信息(步骤S18)。
如以上那样,本实施例中,生成结合字符串而提取指定信息。文档中出现的字符串例如若记载于横跨段落内换行的位置,则成为在中途被分断的两个字符串。例如若图8所示的“ABCD股份有限公司”因段落内换行而被分断为“ABC”与“D股份有限公司”,则不会提取“ABCD股份有限公司”的签约人名的指定信息。
本实施例中,通过生成结合字符串而不会产生这种分断,因而与不生成结合字符串的情况相比,适当地提取作为文章的一部分而出现的信息作为指定信息。而且,本实施例中,提取以与第一字符串对应的规则所配置的第二字符串。由此,提取配置与特定的字符串(第一字符串)成为特定关系的字符串(第二字符串)。
而且,本实施例中,将排除语句排除。由此,与不进行语句的排除的情况相比,提取精度更高的指定信息。
[2]变形例
所述实施例仅为本发明的实施的一例,也可如以下那样变形。而且,实施例及各变形例也可视需要组合实施。
[2-1]信息的提取方法
信息提取部104也可利用与实施例不同的方法来提取指定信息。信息提取部104例如也可从由结合部103所生成的结合字符串中,提取特定词类的语句作为指定信息。所谓特定词类,例如为固有名词。若提取指定信息的对象文档为合同,则例如“公司名”、“制品名”及“服务名”等作为固有名词而出现。
信息提取部104例如预先存储可能在文档中出现的固有名词的列表,从结合字符串中检索列表所含的各固有名词。在存在通过检索所发现的固有名词的情况下,信息提取部104提取所述固有名词作为指定信息。由此,与不进行本变形例的提取的情况相比,适当提取特定词类的语句(所述示例中为固有名词的语句)。
[2-2]文章的分割
实施例中,针对一个文档生成一个结合字符串,但也可针对一个文档生成多个结合字符串。本变形例中,结合部103将文档中出现的文章分割而生成多个结合字符串。结合部103例如以文章所含的特定字符为界而将文章分割。
接着,信息提取部104针对多个结合字符串依次进行指定信息的提取,若满足既定的结束条件,则结束指定信息的提取。所谓特定字符,例如为“:”(即,冒号)、“第○章”(“○”中填入数字)或“之后为空白的字符”等。这些字符均表示文章告一段落。因此,句子在这些字符的前后完结,因而几乎不会跨这些字符将字符串分断。
因此,在从经分割的结合字符串中提取指定信息的情况下,例如与随意分割文章的情况相比,不易产生未提取经分断的字符串的事态。信息提取部104例如也可将在提取了至少一个必要的指定信息的情况下满足的条件用作结束条件。
例如若是从合同中提取“签约人名”及“商品名”的情况,则信息提取部104在从经分割的结合字符串中提取了至少一个“签约人名”及至少一个“商品名”时,判断为满足结束条件而结束指定信息的提取。此时,在多个经分割的结合字符串中,可能产生不进行指定信息的提取处理的结合字符串。因此,与不分割文档的情况相比,减轻指定信息的提取处理的负荷。
此外,结合字符串的分割方法不限于所述方法。结合部103例如也可在与指定信息的种类相应的部位将文章分割。例如若指定信息的种类为“签约人名”,则结合部103生成将文档的开头部分(例如文量相当于最初的10%的部分等)与其后的部分加以分割的结合字符串。签约人名在文档的开头部分出现的可能性与其他部分相比更高,因而与在文档的开头部分不将文档分割的情况相比,可更可靠地减轻指定信息的提取处理的负荷。
此外,若指定信息的种类为“签约人盖章”,则结合部103生成将文档的结尾部分(例如文量相当于最后的10%的部分等)与之前的部分加以分割的结合字符串。此时,信息提取部104也可从多个结合字符串中配置于与指定信息的种类相应的位置(若为“签约人盖章”的示例,则为文章的结尾的位置)的、经分割的结合字符串起,依次进行指定信息的提取。由此,与对经分割的结合字符串一律以在文章中出现的顺序进行指定信息的提取的情况相比,可更可靠地减轻指定信息的提取处理的负荷。
而且,结合部103也可在与指定信息的提取对象即文档的种类相应的部位将文章分割。例如若文档的种类为“合同”,则结合部103以从文档开头起的文量比率成为1:8:1的方式将结合字符串分割。而且,若文档的种类为“建议书”,则结合部103以从文档开头起的文量比率成为1:4:4:1的方式将结合字符串分割。
此时,信息提取部104从多个结合字符串中的配置于与文档的种类相应的位置的、经分割的结合字符串起,依次进行指定信息的提取。例如若文档的种类为合同,则信息提取部104在经分割为1:8:1的结合字符串中,以最初的结合字符串、最后的结合字符串、正中的结合字符串的顺序进行指定信息的提取。
而且,若文档的种类为建议书,则信息提取部104在经分割为1:4:4:1的结合字符串中,以最初的结合字符串、最后的结合字符串、第二个结合字符串、第三个结合字符串的顺序进行指定信息的提取。合同的情况下,容易成为指定信息的“签约人名”、“商品名”及“服务名”等容易出现在文档的开头。而且,同样地容易成为指定信息的“签约人盖章”容易出现在文档的结尾。
而且,建议书的情况下,容易成为指定信息的“客户名”、“建议公司名”、“商品名”及“服务名”等容易出现在文档的开头或结尾。这样,通过从指定信息容易出现的位置的结合字符串起依次进行提取处理,从而与对经分割的结合字符串一律以在文章中出现的顺序进行指定信息的提取的情况相比,更可靠地减轻指定信息的提取处理的负荷。
[2-3]图像的分割
例如在读取双联页的文档图像的情况下,有时一张图像中包含两页份。而且,以四面(4-up)或八面(8-up)等布局制作的文档图像的情况下,有时一张图像中包含三页以上的页。在这样由图像获取部101所获取的文档图像为所述文档的多个页数份的大小的情况下,字符识别部102将所述文档图像分割为这些多个页数份后,识别字符。
文档图像通常为长方形的图像。例如,字符识别部102检测在由所获取的文档图像的相向的边所夹持且不含文档图像的角的长方形的区域中,不存在所识别的字符且宽度达到最大的区域(以下称为“非字符区域”)的宽度,且所述宽度为阈值以上的情况下,字符识别部102将由所述非字符区域分隔所得的区域的个数判断为一张图像所含的页的页数。
所谓此处提及的“宽度”,是与从一条边朝向另一条边的方向正交的方向的尺寸。字符识别部102若进行所述判断,则例如以穿过各非字符区域的宽度方向的中心的线将文档图像分割,生成新的文档图像作为分割图像。字符识别部102针对所生成的各分割图像,与实施例同样地进行字符的识别。
在一张图像中包含两页以上的页的情况下,视字符的大小及间隔不同,例如可能将左侧一页的行的后续弄错为右侧一页的行而非下一行。而且,若为竖写的文档,则可能将上一页的列的后续弄错为下一页的列而非左侧一列。本变形例中,将图像分割为每一页,因而可针对每一行或每一列防止句子跨页连续的误识别。
[2-4]无用部分的删除
字符识别部102也可将由图像获取部101所获取的文档图像中满足既定条件(以下称为“删除条件”)的部分删除后,识别字符。满足删除条件的部分为对于识别字符而言无用的部分,以下也称为“无用部分”。
具体而言,字符识别部102将所获取的文档图像中特定颜色的部分作为满足所述条件的部分而删除。所谓特定颜色,例如为印鉴所使用的红色。此时,与不删除无用部分的情况相比,抑制下述情况,即:包含文档所含的印鉴的字符的、文章的字符串被识别而使指定信息的提取精度劣化。
此外,字符识别部102也可从所获取的文档图像中,将除包含所识别的字符的字符区域以外的部分作为无用部分而删除。字符识别部102例如将包围所识别的字符的块的、最小的四边形确定为字符区域。另外,字符识别部102将除所确定的字符区域以外的部分作为无用部分而删除。字符识别部102删除无用部分后,与实施例同样地识别合约的字符。
例如在读取合同所得的文档图像中,有时含有页的折痕的阴影及装订带的阴影等。若读取区域中包含这些阴影等且将这些阴影等误识别为字符,则可能使指定信息的提取精度劣化。本变形例中,通过进行所述删除处理,而除去这些阴影等的影响,与不进行所述删除处理的情况相比,抑制指定信息的提取精度劣化。
[2-5]无用部分的转换
字符识别部102将文档图像中的无用部分删除,但也可取而代之通过转换为不含无用部分的图像,从而设为结果无用部分经删除的状态。关于图像的转换,例如也可使用被称为生成式对抗网络(Generative Adversarial Networks,GAN)的机器学习。
所谓GAN,为一边使两个网络(生成器和辨别器)竞争一边进行学习的架构(architecture),常用作图像生成的方法。生成器根据随机的噪声图像生成假的图像。辨别器判定所生成的图像是否为示教数据所含的“真实图像”。
字符识别部102例如通过GAN来生成未盖章的合同的图像,基于所生成的图像而与实施例同样地识别字符。这样,本变形例中,字符识别部102基于对所获取的文档图像进行转换结果所得的图像来识别字符。由此,利用图像转换的技术而抑制指定信息的提取精度劣化。
[2-6]文档图像
实施例中,图像获取部101获取读取合同原本而生成的文档图像,但不限于此,例如也可获取在进行电子签约的系统中电子制作的合同数据所示的文档图像。同样地,图像获取部101也可获取与文档的种类无关而电子制作的文档数据所示的文档图像。
[2-7]功能结构
在信息提取支持系统1中实现图4所示的功能的方法不限于实施例所述的方法。例如,文档处理装置10可在一个框体内包括所有结构元件,或也可如由云服务(cloudservice)所提供的计算机资源那样,包括分散于两个以上的框体内的结构元件。
而且,图像获取部101、字符识别部102、结合部103及信息提取部104中的一个以上的功能也可由读取装置20实现。而且,图像读取部201及信息显示部202中的一个以上的功能也可由文档处理装置10实现。
而且,例如在实施例中,信息提取部104进行提取指定信息的处理与将排除语句排除的处理此两个处理,但也可由不同功能进行这些处理。而且,例如也可由一个功能进行结合部103及信息提取部104进行的动作。总而言之,只要信息提取支持系统总体实现图4所示的功能,则实现各功能的装置的结构、各功能进行的动作的范围可自由设定。
[2-8]处理器
所述各实施例中,所谓处理器是指广义的处理器,包含通用的处理器(例如CPU等)或专用的处理器(例如图形处理器(Graphics Processing Unit,GPU)、特殊应用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、可编程逻辑器件等)。
而且,所述各实施例的处理器的动作也可并非仅由一个处理器达成,而是由存在于物理上远离的位置的多个处理器协作达成。而且,处理器的各动作的顺序并非仅限定于所述各实施方式中记载的顺序,也可适当变更。
[2-9]发明的范畴
除了文档处理装置10及读取装置20这样的各信息处理装置以外,本发明也可作为包括这些信息处理装置的信息处理系统(信息提取支持系统1为其一例)而把握。而且,本发明也可作为用于实现各信息处理装置实施的处理的信息处理方法而把握,或也可作为用于使控制各信息处理装置的计算机发挥功能的程序而把握。所述程序能以存储有所述程序的光盘等记录介质的形态提供,或也能以经由国际互联网等通信线路而下载至计算机,并进行安装而可利用等的形态提供。

Claims (14)

1.一种信息处理装置,包括处理器,
所述处理器获取表示文档的图像,
从所获取的所述图像中识别字符,
通过在文章中的经换行处连结所识别的所述字符的排列生成结合字符串经换行处,
从所生成的所述结合字符串中,提取表示经指定的信息的部分。
2.根据权利要求1所述的信息处理装置,其中,
所述处理器从所获取的所述图像中将满足既定条件的部分删除后识别字符。
3.根据权利要求2所述的信息处理装置,其中,
满足所述条件的部分为具有特定颜色的部分。
4.根据权利要求1所述的信息处理装置,其中,
所述处理器基于对所获取的所述图像进行转换结果所得的图像来识别字符。
5.根据权利要求1所述的信息处理装置,其中,
所述处理器将所述文章分割而生成多个结合字符串,针对多个所述结合字符串依次进行所述提取,若满足既定的结束条件则结束所述提取。
6.根据权利要求5所述的信息处理装置,其中,
所述处理器以所述文章所含的特定字符为界而将所述文章分割。
7.根据权利要求5所述的信息处理装置,其中,
所述处理器在与所述经指定的信息的种类相应的部位将所述文章分割。
8.根据权利要求5所述的信息处理装置,其中,
所述处理器在与所述文档的种类相应的部位将所述文章分割。
9.根据权利要求1至8中任一项所述的信息处理装置,其中,
在所获取的所述图像为所述文档的多个页数份的大小的情况下,所述处理器将所述图像分割为所述多个页数份后识别字符。
10.根据权利要求1至9中任一项所述的信息处理装置,其中,
在所述结合字符串中包含多个第一字符串中的任一个的情况下,所述处理器提取第二字符串作为所述部分,所述第二字符串是以与所含的所述第一字符串对应的规则所配置。
11.根据权利要求1至10中任一项所述的信息处理装置,其中,
所述处理器从所提取的所述部分中排除既定语句。
12.根据权利要求11所述的信息处理装置,其中,
所述既定语句为表示在所述文档中出现的人物的特定称呼的语句。
13.根据权利要求1至12中任一项所述的信息处理装置,其中,
所述处理器从所生成的所述结合字符串中,提取特定词类的语句作为所述部分。
14.根据权利要求13所述的信息处理装置,其中,
所述词类为固有名词。
CN202010903990.5A 2020-03-27 2020-09-01 信息处理装置 Pending CN113449731A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-058736 2020-03-27
JP2020058736A JP2021157627A (ja) 2020-03-27 2020-03-27 情報処理装置

Publications (1)

Publication Number Publication Date
CN113449731A true CN113449731A (zh) 2021-09-28

Family

ID=77808497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010903990.5A Pending CN113449731A (zh) 2020-03-27 2020-09-01 信息处理装置

Country Status (3)

Country Link
US (1) US20210303790A1 (zh)
JP (1) JP2021157627A (zh)
CN (1) CN113449731A (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0539158A2 (en) * 1991-10-21 1993-04-28 Canon Kabushiki Kaisha Method and apparatus for character recognition
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
WO2004053724A1 (ja) * 2002-12-06 2004-06-24 Sharp Kabushiki Kaisha データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
JP5998686B2 (ja) * 2012-07-09 2016-09-28 富士ゼロックス株式会社 情報処理装置及びプログラム
EP2915068A4 (en) * 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
JP6265178B2 (ja) * 2015-07-30 2018-01-24 京セラドキュメントソリューションズ株式会社 画像処理装置、画像処理方法
US10127247B1 (en) * 2017-09-11 2018-11-13 American Express Travel Related Services Company, Inc. Linking digital images with related records
KR101985612B1 (ko) * 2018-01-16 2019-06-03 김학선 종이문서의 디지털화 방법

Also Published As

Publication number Publication date
JP2021157627A (ja) 2021-10-07
US20210303790A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
KR101037458B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기억 매체
US8396294B2 (en) Image processing device, image processing method, and program and recording medium thereof
CN109712218B (zh) 电子书笔记处理方法、手写阅读设备和存储介质
JP2009009527A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
US20150138220A1 (en) Systems and methods for displaying scanned images with overlaid text
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
CN113449731A (zh) 信息处理装置
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
US20210303843A1 (en) Information processing apparatus
US20210157969A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium storing program
JP4892600B2 (ja) 画像処理装置
JP7380319B2 (ja) 情報処理装置及びプログラム
JPS63129484A (ja) 文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH03127169A (ja) マルチメディア文書構造化方式
CN116721431A (zh) 还原图像中字符排版的方法
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2004133841A (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JPH04346189A (ja) 文字列種類識別装置
JPH02240789A (ja) 文字列切り出し方式
JPS62251888A (ja) 文字認識装置
JPH0433079A (ja) 表処理方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination