CN105847632A - 信息处理装置以及方法 - Google Patents
信息处理装置以及方法 Download PDFInfo
- Publication number
- CN105847632A CN105847632A CN201510552688.9A CN201510552688A CN105847632A CN 105847632 A CN105847632 A CN 105847632A CN 201510552688 A CN201510552688 A CN 201510552688A CN 105847632 A CN105847632 A CN 105847632A
- Authority
- CN
- China
- Prior art keywords
- user
- unit
- text line
- view data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000010365 information processing Effects 0.000 title abstract 3
- 230000008569 process Effects 0.000 claims description 64
- 238000012937 correction Methods 0.000 claims description 30
- 230000008520 organization Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 81
- 238000012790 confirmation Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 210000002196 fr. b Anatomy 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 241000931705 Cicada Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002925 chemical effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/44—Secrecy systems
- H04N1/4406—Restricting access, e.g. according to user identity
- H04N1/4413—Restricting access, e.g. according to user identity involving the use of passwords, ID codes or the like, e.g. PIN
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00244—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00281—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal
- H04N1/00307—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal with a mobile telephone apparatus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0081—Image reader
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理装置以及方法,其课题在于,从摄像得到的图像中推定记载有具有规定的属性的文字列的部位。在信息处理装置中,具备:确定部,确定多个在图像数据中的记载有文字列的部位;布局信息取得部,关于所确定了的多个部位中的各个部位,取得包括在图像数据中的位置以及所记载的字符的尺寸的布局信息;以及推定部,关于多个部位中的各个部位,根据与其他部位的位置关系以及与其他部位的尺寸关系,计算作为在图像数据中可能包含的具有规定的属性的文字列的似然度,根据似然度,推定记载有具有规定的属性的文字列的部位。
Description
技术领域
本公开涉及一种用于处理图像数据的技术。
背景技术
以往,提出了一种标题提取装置,该标题提取装置对文本图像内的黑色像素进行扫描,将外接于它们相连结的区域的矩形区域提取为字符矩形,整合邻接的多个字符矩形,将与这些字符矩形外接的矩形区域提取为文字列矩形,根据各文字列矩形的下划线属性、带框属性、格线属性等属性以及文本图像内的文字列矩形的位置、相互的位置关系,进行标题类似度的得分计算,将获得了高分的文字列矩形提取为标题矩形(参照专利文献1)。
另外,提出了一种文本处理装置,该文本处理装置具有:存储了表示成为文本的题目的可能性高的文字列或者该可能性低的文字列的句法的句法数据的存储单元;被输入将文本电子化而得到的文本数据的输入单元;解析向上述输入单元输入了的文本数据,并且提取表示文字列的文字列数据的提取单元;分别解析通过上述提取单元提取到的文字列数据,针对每个文字列确定在与上述文本数据对应的文本中记载了的文字列的句法的句法解析单元;以及根据上述句法解析单元的确定结果与上述存储单元的存储内容,从通过上述提取单元提取到的文字列数据中,确定表示与上述文本数据对应的文本的题目的文字列数据的确定单元。(参照专利文献2)。此外,提出了各种生成图像数据的名称的方法(参照专利文献3以及4)。
现有技术文献
专利文献
专利文献1:日本特开平9-134406号公报
专利文献2:日本特开2006-085582号公报
专利文献3:日本特开2008-171380号公报
专利文献4:日本特表2008-538148号公报
发明内容
发明要解决的技术问题
以往,进行保存对文本等进行摄像而得到的数据的操作,但在数据的保存、利用时,优选设定用户能够把握数据的内容的名称,设定该名称的作业使得用户耗费时间劳力。另外,也提出了各种关于从摄像得到的图像数据中进行字符识别而对数据自动地设定名称的技术,但存在如果不接近于预先设定的布局的话则难以进行检测等的问题。
本公开鉴于上述的问题,将从摄像得到的图像中推定记载有具有规定的属性的文字列的部位作为课题。
解决技术问题的技术手段
本公开的一个例子涉及一种信息处理装置,具备:确定单元,确定多个在图像数据中的记载有文字列的部位;布局信息取得单元,关于通过所述确定单元确定了的多个部位中的各个部位,取得包括在该图像数据中的位置以及所记载的字符的尺寸的布局信息;以及推定单元,关于所述多个部位中的各个部位,根据与其他部位的位置关系以及与其他部位的尺寸关系,计算作为在所述图像数据中可能包含的具有规定的属性的文字列的似然度,根据该似然度,推定记载有具有该规定的属性的文字列的部位。
本公开能够作为信息处理装置、系统、通过计算机执行的方法或者使计算机执行的程序来把握。另外,本公开也能够作为在由计算机及其他装置、设备等能够读取的记录介质中记录了这样的程序而得到单元来把握。在这里,计算机等能够读取的记录介质是指能够通过电、磁、光学、机械或者化学的作用来累积数据、程序等信息,并由计算机等读取的记录介质。
发明效果
根据本公开,能够从摄像得到的图像中推定记载有具有规定的属性的文字列的部位。
附图说明
图1是示出实施方式的系统的结构的概略图。
图2是示出实施方式的扫描仪的硬件结构的图。
图3是示出实施方式的系统的功能结构的概略的图。
图4是示出实施方式的账户创建/用户认证处理的流程的概要的序列图。
图5是示出实施方式的许可取得处理的流程的概要的序列图。
图6是示出实施方式的图像数据处理的流程的概要的序列图。
图7是示出实施方式的名称生成处理的流程的概要的流程图的前半部。
图8是示出实施方式的名称生成处理的流程的概要的流程图的后半部。
图9是示出在实施方式中使用的、关于日期的格式信息表格的结构的概略图。
图10是示出在实施方式中使用的、布局信息表格的结构的概略图。
图11是示出在实施方式中显示于用户终端9的确认画面的概略的图。
符号说明
1 图像数据处理服务器
3 扫描仪
9 用户终端
具体实施方式
下面,根据附图,说明本公开的图像数据处理服务器、系统、方法以及程序的实施方式。但是,下面说明的实施方式例示实施方式,并非将本公开的图像数据处理服务器、系统、方法以及程序限定于下面说明的具体的结构。在实施时,也可以适当采用与实施的形式相应的具体的结构,并且进行各种改进、变形。
在本实施方式中,说明在作为与扫描仪联动的系统而实施本公开的图像数据处理服务器、系统、方法以及程序的情况下的实施方式。但是,本公开的图像数据处理服务器、系统、方法以及程序能够广泛应用于用于处理通过摄像装置取得了的图像数据的技术,本公开的应用对象不限定于在本实施方式中示出了的例子。
<系统的结构>
图1是示出本实施方式的系统1的结构的概略图。本实施方式的系统1具备经由因特网、广域网等网络连接了的扫描仪3以及图像数据处理服务器1。
图像数据处理服务器1是具备CPU(Central Processing Unit,中央处理单元)11、ROM(Read Only Memory,只读存储器)12、RAM(Random Access Memory,随机存取存储器)13、EEPROM(Electrically Erasable and Programmable Read Only Memory,电可擦编程只读存储器)、HDD(Hard Disk Drive,硬盘驱动器)等存储装置14以及通信单元15等的计算机。此外,为了简化说明,在图中,将图像数据处理服务器1示为单一框体的计算机,但在本实施方式中,图像数据处理服务器1的功能的一部分或者全部是利用云技术等通过设置在远程位置的装置、被分散设置的多个装置来执行的,从而对用户提供图像数据处理服务。但是,图像数据处理服务器1的结构不限定于本实施方式中的示例。
图2是示出本实施方式的扫描仪3的硬件结构的图。扫描仪3是通过对用户放置了的文本、名片、收据或者照片/插图等原稿进行摄像来取得图像数据的装置,是具备将原稿送到摄像部37的输纸装置36、摄像部37、扫描按钮38、CPU31、ROM32、RAM33、存储装置34以及通信单元35等的摄像装置。此外,在本实施方式中,作为扫描仪3的摄像方式,例示了采用在自动输送在输纸装置36中放置了的原稿的同时进行摄像的摄像方式的扫描仪3,但扫描仪的摄像方式不受限定。例如,扫描仪也可以是通过用户对放置在读取位置的原稿进行摄像的类型的扫描仪。另外,在本实施方式中,作为在本系统中使用的摄像装置,说明了使用扫描仪3的例子,但在本系统中使用的摄像装置不限定于扫描仪。例如,也可以采用相机作为摄像装置。
本实施方式的扫描仪3是由于具备无线通信功能而具有与无线LAN连接的功能的扫描仪。另外,本实施方式的扫描仪3具有为了向扫描仪3指示摄像而由用户按下或者触摸的扫描按钮38,但不具有触摸面板显示器、键盘等用于实现字符输入输出、项目选择的用户界面,不具有Web浏览器功能、服务器功能。但是,能够采用本实施方式的方法的扫描仪的通信单元以及硬件结构等不限定于本实施方式中的示例。
另外,对本实施方式的系统连接所谓智能手机、平板电脑,个人计算机等用户终端9。用户终端9是具备CPU91、ROM92、RAM93、存储装置94、输入输出装置95以及通信单元96等的计算机。用户终端9既可以通过如图1所示地与连接了扫描仪3的局域网连接来与扫描仪3、图像数据处理服务器1进行通信,也可以通过与移动电话网连接来与扫描仪3、图像数据处理服务器1进行通信。
另外,在用户终端9中,预先下载并安装了用于利用本实施方式的系统的应用。应用能够针对扫描仪3,经由网络进行设定等。因此,本实施方式的扫描仪3能够省略触摸面板显示器、键盘等用于实现字符输入输出、项目选择的用户界面。另外,应用能够针对图像数据处理服务器1,经由网络进行账户创建、登录、注销以及设定等。因此,根据本实施方式的系统,用户通过操作用户终端9来完成系统整体所涉及的准备,仅通过将原稿放置于扫描仪3并操作扫描按钮38,就能够将从原稿得到的数据发送到合适的云服务。
另外,图像数据处理服务器1以及用户终端9能够与对用户提供各种服务的因特网上的多个云服务(包括通过第三方提供的服务)进行通信。此外,在图1中,关于图像数据处理服务器1以外的云服务的硬件结构,省略了图示,云服务是利用云技术来分散配置各个具有与图像数据处理服务器1相同的硬件结构的计算机而形成的。作为这些云服务,例如可列举出文本管理服务、名片管理服务、收据管理服务以及照片/插图管理服务等,但能够与本实施方式的系统1协作的云服务不限定于在本公开中例示了的云服务。
图3是示出本实施方式的系统的功能结构的概略的图。关于图像数据处理服务器1,通过在存储装置14中记录了的程序被RAM13读出并由CPU11执行来控制图像数据处理服务器1所具备的各硬件,从而图像数据处理服务器1作为具备用户认证部21、服务设定部22、许可取得部23、图像接收部24、类别判定部25、字符识别部26、名称生成部27、数据发送部28以及结果通知部29的装置发挥功能。此外,在本实施方式中,图像数据处理服务器1所具备的各功能通过作为通用处理器的CPU11来执行,但这些功能的一部分或者全部也可以通过一个或者多个专用处理器来执行。
用户认证部21接受从用户终端9或者扫描仪3发送了的认证请求,认证用户终端9或者扫描仪3的用户。认证请求包括为了进行认证所需的认证信息。在本实施方式中,作为认证信息,使用用户ID以及密码,但作为认证信息,也可以使用其他信息。此外,本实施方式的扫描仪3如上所述,不具有用于实现字符输入输出、项目选择的用户界面,所以利用从用户终端9向扫描仪3通知了的认证信息,对图像数据处理服务器1发送认证请求。
本实施方式中,为了认证用户,使用访问令牌(下面,为了与后述的云服务用访问令牌区分,称为“图像数据处理服务器用访问令牌”)。用户认证部21如果从用户终端9或者扫描仪3接收到认证请求,则验证在认证请求中包含的认证信息,在是合适的认证信息的情况下,对认证请求的发送源(用户终端9或者扫描仪3)发送图像数据处理服务器用访问令牌。接收到图像数据处理服务器用访问令牌的用户终端9或者扫描仪3之后使用该图像数据处理服务器用访问令牌,与图像数据处理服务器1进行通信。
服务设定部22将在图像数据是规定的类别的图像数据的情况下的被用户指定为图像数据等的发送目的地的云服务,设定为规定的云服务。即,在本实施方式的图像数据处理服务器1中,能够将在图像数据是规定的类别的图像数据的情况下的数据发送目的地云服务设定为用户所期望的云服务。例如,在存在多个文本管理服务的情况下(例如,图1所示的文本管理服务A以及文本管理服务B),用户通过经由在用户终端9中进行动作的应用而向图像数据处理服务器1指定所期望的文本管理用云服务,从而能够在图像数据是文本的图像数据的情况下,将成为数据的发送目的地的云服务设为用户指定的文本管理服务。这一点关于管理其他类别的图像数据所涉及的数据的云服务、即名片管理服务、收据管理服务、照片/插图管理服务也一样。
许可取得部23依照从进行了用户认证的用户终端9发送了的请求,对规定的云服务发送访问许可请求,并从该规定的云服务取得对该规定的云服务的用户账户的访问许可。
在本实施方式中,作为用于从云服务接受访问许可的手段,使用OAuth2.0认证,作为访问许可,使用访问令牌(下面,为了与上述的图像数据处理服务器用访问令牌区分,称为“云服务用访问令牌”)。图像数据处理服务器1通过针对与本系统协作的云服务中的、通过服务设定部22设定了的每个云服务,发送访问许可请求,从而接收从各云服务发放的访问令牌。将所接收到的每个云服务的访问令牌与图像数据处理服务器1中的该用户的账户关联起来,保存到图像数据处理服务器1。
图像接收部24经由网络接收通过进行了用户认证的扫描仪3而取得并发送了的图像数据。
类别判定部25判定所接收到的图像数据的类别。此外,在本实施方式中,在通过类别判定部25判定的类别中,包括文本、名片、收据以及照片/插图中的至少某一种。但是,能够通过类别判定部25判定的图像数据的类别不限定于本实施方式中的示例。
字符识别部26针对图像数据进行光学字符识别(Optical Character Recognition:OCR)。
名称生成部27使用作为光学字符识别的结果取得了的文字列,生成图像数据或者根据该图像数据而生成的数据的名称。名称生成部27例如在作为由类别判定部25实施的判定的结果,图像数据的类别是文本的情况下,将包括文本的标题以及创建日期的文字列设为数据的名称,在图像数据的类别是名片的情况下,将包括姓名以及所属组织名称的文字列设为数据的名称,在图像数据的类别是收据的情况下,将包括店铺名称以及接收日期的文字列设为数据的名称。
此外,在本实施方式中,名称生成部27为了生成图像数据或者根据该图像数据而生成的数据的名称,具备下面说明的确定部271、布局信息取得部272、推定部273、订正部274、显示部275、用户输入接收部276、修正部277、布局信息累积部278、参数更新部279以及格式信息登记部280。
确定部271确定多个在图像数据中的记载有文字列的部位。
布局信息取得部272关于通过确定部271确定了的多个部位中的各个部位,取得包括在该图像数据中的位置以及所记载的字符的尺寸的布局信息。
推定部273对于多个部位中的各个部位,根据与其他部位的位置关系以及与其他部位的尺寸关系,计算作为在图像数据中可能包含的具有规定的属性的文字列(下面,也称为“属性文字列”)的似然度,根据似然度,推定记载有具有规定的属性的文字列的部位(下面,也称为“属性文字列记载部位”)。如果通过推定部273推定到属性文字列记载部位,则字符识别部26针对图像数据中的、至少被推定部273推定为是属性文字列记载部位的部分,进行字符识别。
此外,在本实施方式中,属性文字列记载部位是记载有适合于对通过类别判定部25判定了的类别的图像数据进行分类的文字列的部位,从这里取得的属性文字列被用作用于生成数据的名称的文字列。具体地说,在通过类别判定部25判定了的类别是文本的情况下,推定部273关于多个部位中的各个部位,计算作为包括标题的文字列的似然度以及作为包括日期的文字列的似然度,根据似然度,推定记载有包括标题的文字列的部位以及记载有包括日期的文字列的部位。另外,在通过类别判定部25判定了的类别是名片的情况下,推定部273针对多个部位中的各个部位,计算作为包括姓名的文字列的似然度以及作为包括组织名称的文字列的似然度,根据似然度,推定记载有包括姓名的文字列的部位以及记载有包括组织名称的文字列的部位。另外,在通过类别判定部25判定了的类别是收据的情况下,推定部273关于多个部位中的各个部位,计算作为包括店铺名称的文字列的似然度以及作为包括日期的文字列的似然度,根据似然度,推定记载有包括店铺名称的文字列的部位以及记载有包括日期的文字列的部位。
订正部274在图像数据的布局信息与通过布局信息累积部278累积了的布局信息一致或者近似的情况下,根据与一致或者近似的布局信息关联起来了的、被用户指定为属性文字列记载部位的部位,订正通过推定部273推定到的部位。
显示部275显示通过确定部271确定了的多个部位,以使得被推定部273推定为是属性文字列记载部位的部位能够由用户把握。
用户输入接收部276接收由确认了显示部275的显示内容的用户实施的修正的输入。在这里,在所输入的修正内容中,包括通过用户指定了的属性文字列记载部位以及通过用户输入了的属性文字列。
修正部277根据由用户实施的修正的输入,修正在由名称生成部27实施的名称生成中使用的文字列。
布局信息累积部278在通过用户输入接收部276接收了由用户实施的修正的输入的情况下,将对象图像数据中的被用户指定为正确的属性文字列记载部位的部位、与通过布局信息取得部272取得了的对象图像数据的布局信息关联起来,并累积到布局信息表格。
参数更新部279在通过用户输入接收部276接收了由用户实施的修正的输入的情况下,为了使得关于被用户指定为属性文字列记载部位的部位而计算的似然度成为更高的值,更新参数。
格式信息登记部280在通过用户输入接收部276接收了属性文字列的用户输入的情况下,登记根据所接收了的文字列而确定了的格式信息。
数据发送部28在通过类别判定部25判定图像数据是规定的类别的图像数据的情况下,将该图像数据或者根据该图像数据而生成的数据(下面,仅称为“数据”)发送到规定的云服务的用户账户。在向云服务的用户账户发送数据时,利用通过许可取得部23从各云服务取得了的各云服务用访问令牌中的、与被用户认证部21认证为发送了图像数据的扫描仪3的用户的用户的账户关联起来地保存到图像数据处理服务器1中的访问令牌。
这样,数据发送部28在通过类别判定部25判定为图像数据是文本的图像数据的情况下,能够利用针对被认证为发送了该图像数据的扫描仪3的用户的用户而从文本管理服务取得了的访问令牌,来将该图像数据或者根据该图像数据而生成的数据发送到该用户指定的文本管理服务的用户账户。
结果通知部29通过进行发布(release)结果通知,向用户通知由数据发送部28实施的数据发送的结果(完成/失败等)。
关于扫描仪3,通过在存储装置34中记录了的程序被RAM33读出并由CPU31执行来控制扫描仪3中具备的各硬件,从而扫描仪3作为具备认证请求发送部41、用户操作接收部42、图像数据取得部43以及图像发送部44的装置发挥功能。此外,在本实施方式中,扫描仪3中具备的各功能通过作为通用处理器的CPU31来执行,但这些功能的一部分或者全部也可以通过一个或者多个专用处理器来执行。
认证请求发送部41对图像数据处理服务器1发送包括从用户终端9对该扫描仪3通知了的认证信息的认证请求。
用户操作接收部42接收规定的用户操作。在本实施方式中,作为规定的用户操作,将扫描仪3中具备的扫描按钮38的按下或者触摸作为用于一并指示从扫描开始到向合适的云服务发送数据的一系列处理的用户操作来接收。但是,成为扫描开始的契机的规定的用户操作不限定于本公开中的示例。
如果通过用户操作接收部42接收了规定的用户操作,则图像数据取得部43通过对对象进行摄像来取得图像数据。具体地说,如果通过用户操作接收部42接收了扫描按钮38的操作,则本实施方式的扫描仪3的图像数据取得部43控制输纸装置36来将原稿送到摄像部37,并控制摄像部37来对原稿进行摄像,从而取得原稿的图像数据。
图像发送部44将通过图像数据取得部43取得了的图像数据经由网络发送到图像数据处理服务器1。另外,关于由图像发送部44实施的图像数据的发送,不经由规定的用户操作(在本实施方式中,是扫描按钮38的操作)以外的操作,而是接着图像数据的取得地执行。
<处理的流程>
接下来,说明通过本实施方式的系统1执行的处理的流程。此外,下面说明的处理的具体的内容以及处理顺序是用于实施本公开的一个例子。具体的处理内容以及处理顺序也可以根据本公开的实施方式来适当选择。
图4是示出本实施方式的账户创建/用户认证处理的流程的概要的序列图。
在步骤S101中,创建用户账户。用户在智能手机等用户终端9中起动应用。起动了的应用提示用户输入账户创建所需的信息(例如,用户ID以及密码等),将通过用户输入了的信息发送到图像数据处理服务器1。图像数据处理服务器1判定从用户终端9接收到的信息是否合适,在判定为合适的情况下,生成该用户的账户。另外,应用将用于登录所创建的用户账户的认证信息(在本实施方式中,是用户ID以及密码)保存到用户终端9中。
在步骤S102以及步骤S103中,进行由用户终端9实施的向图像数据处理服务器1的登录处理。用户认证部21接受从用户终端9发送了的认证请求,认证用户终端9的用户。具体地说,用户认证部21如果从用户终端9接收到认证请求(步骤S102),则验证认证请求中包含的认证信息,在与在步骤S101中创建了的账户信息一致的情况下,对作为认证请求的发送源的用户终端9发送图像数据处理服务器用访问令牌(步骤S103)。接收到图像数据处理服务器用访问令牌的用户终端9之后使用所接收到的访问令牌,与图像数据处理服务器1进行通信。
另外,用户在图像数据处理服务器1中创建了账户之后,起动用户终端9的应用,经由无线网络将用户终端9连接到扫描仪3。然后,应用将在步骤S101中创建并且保存到用户终端9的、用于登录到图像数据处理服务器1的认证信息通知给扫描仪3。接受了认证信息的通知的扫描仪3的认证请求发送部41将包括该认证信息的认证请求发送到图像数据处理服务器1。
在步骤S104以及步骤S105中,进行由扫描仪3实施的向图像数据处理服务器1的登录处理。如果从扫描仪3发送了的认证请求被图像数据处理服务器1接收到(步骤S104),则图像数据处理服务器1的用户认证部21认证扫描仪3的用户。用户认证部21验证从扫描仪3接收到的认证请求中包含的认证信息,在与在步骤S101中创建了的账户信息一致的情况下,对作为认证请求的发送源的扫描仪3发送图像数据处理服务器用访问令牌(步骤S105)。接收到图像数据处理服务器用访问令牌的扫描仪3之后使用所接收到的访问令牌,与图像数据处理服务器1进行通信。
图5是示出本实施方式的许可取得处理的流程的概要的序列图。本实施方式的许可取得处理是以通过用户起动了用于利用本实施方式的系统的应用为契机来执行的。此外,在本实施方式中,作为用于从云服务接受访问许可的手段,采用OAuth2.0认证,但在认证中也可以采用其他手段。
在步骤S201以及步骤S202中,进行针对云服务的访问许可请求。用户在用户终端9中起动应用,操作应用的代理,从而将用户终端9连接到图像数据处理服务器1所提供的Web网站。此外,在本实施方式中,由应用安装了的Web浏览器被用作代理,但为了连接到图像数据处理服务器1所提供的Web网站,也可以使用在用户终端9中安装了的其他Web浏览器。
然后,如果通过图像数据处理服务器1的Web网站,接收到用户经由Web浏览器而进行的向云服务的连接指示(步骤S201),则图像数据处理服务器1的许可取得部23针对云服务发送访问许可请求(步骤S202)。该访问许可请求是图像数据处理服务器1请求利用各云服务的该用户的账户的许可的请求。此外,各云服务的用户账户既可以通过用户来预先设定,也可以经由应用来新创建。此外,针对图像数据的每种类别,能够指定用户所期望的云服务,许可取得部23针对被用户指定了的云服务,发送访问许可请求,这与上面在服务设定部22以及许可取得部23的说明中叙述的一样。
接受了访问许可请求的云服务在用户终端9中显示用于认可确认的弹出框。其后,如果通过确认了所显示的弹出框的用户进行了批准(允许)图像数据处理服务器1利用弹出框所涉及的云服务的该用户的账户的操作,则从Web浏览器向该云服务通知被用户批准了这一情况。
在步骤S203中,通过接受了表示被用户批准了的意思的通知的云服务,将认可代码经由用户终端9的Web浏览器转送到图像数据处理服务器1。图像数据处理服务器1的许可取得部23经由用户终端9接收从云服务发送了的认可代码。其后,处理前进到步骤S204。
在步骤S204以及步骤S205中,取得云服务用访问令牌。图像数据处理服务器1的许可取得部23对云服务发送包括认可代码的访问令牌请求(步骤S204),作为与认可代码的交换,从云服务取得访问令牌(步骤S205)。将所取得的每个云服务的访问令牌与图像数据处理服务器1中的用户账户关联起来,保存到图像数据处理服务器1。其后,结束本序列图所示的处理。
通过上述说明了的图4以及图5所示的处理,通过扫描仪3取得图像数据处理服务器1的访问令牌,通过图像数据处理服务器1取得云服务的访问令牌,并且成为关联了它们的用户账户的状态。因此,根据本实施方式的系统,能够进行使用图6在后面叙述的、经由图像数据处理服务器1的从扫描仪3向云服务的扫描数据的发送(发布)。
图6是示出本实施方式的图像数据处理的流程的概要的序列图。本实施方式的图像数据处理是以将原稿搭载于扫描仪3并通过用户操作扫描仪3的扫描按钮38为契机来执行的。
在步骤S301中,被扫描了的图像数据被上传到图像数据处理服务器1。如果通过扫描仪3的用户操作接收部42接收了扫描按钮38的操作,则图像数据取得部43通过输纸装置36将原稿送到摄像部37,并使摄像部37对原稿进行摄像,从而取得原稿的图像数据。然后,扫描仪3的图像发送部44将所取得的图像数据发送到图像数据处理服务器1。此时,在发送中,使用在步骤S105中预先取得的图像数据处理服务器用访问令牌。
另外,在本实施方式中,由图像发送部44实施的图像数据的发送不经由扫描按钮38的操作以外的用户操作,而是接着图像数据的取得地执行。图像数据处理服务器1的图像接收部24接收从扫描仪3发送了的图像数据。另外,图像接收部24检查连同图像数据一起被接收到的访问令牌,从而确认所接收到的图像数据是否是从进行了用户认证的扫描仪3发送了的图像数据。在所接收到的图像数据不是从进行了用户认证的扫描仪3发送了的图像数据的情况下,本序列图所示的处理结束(省略图示)。另一方面,在所接收到的图像数据是从进行了用户认证的扫描仪3发送了的图像数据的情况下,处理前进到步骤S302。
在步骤S302中,进行原稿类别的自动判别。类别判定部25判定所接收到的图像数据是文本、名片、收据以及照片/插图中的哪一种类别所涉及的图像数据。在类别的判定中,能够使用布局识别、字符识别、色彩识别、原稿尺寸识别等基于图像的特征的判定方式,但在类别判定中,能够采用包括公知的技术或者将来开发的技术的各种技术,不限定于本公开中的示例。
另外,字符识别部26针对图像数据,进行光学字符识别(Optical CharacterRecognition:OCR)。然后,名称生成部27使用作为光学字符识别的结果取得了的文字列,生成图像数据或者根据该图像数据而生成的数据的名称。具体的名称生成的方法如上所述。另外,关于图像数据,也可以不论从扫描仪接收到的数据格式是什么,都变换成PDF(Portable Document Format,便携文件格式)等适合于所判定的原稿类别的格式。其后,处理前进到步骤S303。
在步骤S303中,确定与原稿类别对应的云服务,对相符合的云服务发送数据。数据发送部28依照在步骤S302中判定了的原稿类别,将该图像数据或者根据该图像数据而生成的数据以及生成了的名称发送到与该原稿类别对应的云服务的用户账户。在向云服务的用户账户发送数据时,使用在步骤S205中取得并且与图像数据处理服务器1的用户账户关联起来地保存了的各云服务用访问令牌。其后,处理前进到步骤S304。
在步骤S304以及步骤S305中,发送发布结果。如果由数据发送部28实施的数据发送完成,从作为发送目的地的云服务接收到结果通知(步骤S304),则图像数据处理服务器1的结果通知部29进行发布结果通知,从而向用户通知数据发送的完成或者失败等(步骤S305)。具体地说,结果通知部29经由能够对用户终端9进行推送通知的规定的通知中枢服务(例如,Azure通知中枢),针对用户终端9所标准装备的通知功能、应用,通知关于数据被发送到规定的云服务并被保存到该云服务的情况。但是,在结果通知中,也可以采用其他技术。其后,本序列图所示的处理结束。
图7以及图8是示出本实施方式的名称生成处理的流程的概要的流程图。在下面说明的名称生成处理的说明中,将更详细地说明上述的步骤S302的处理,并且是以图像数据处理服务器1的图像接收部24接收到从扫描仪3发送了的图像数据为契机来执行的。此外,在本实施方式中,说明了名称生成处理通过图像数据处理服务器1来执行的例子,但执行名称生成处理的主体不限定于图像数据处理服务器1。例如,名称生成处理既可以通过扫描仪来进行,也可以通过扫描仪作为外围设备被连接到的个人计算机来进行。
在步骤S401中,判定原稿类别。类别判定部25判定所接收到的图像数据是文本、名片、收据以及照片/插图中的哪一种类别所涉及的图像数据。在本实施方式中,原稿的类别根据连同图像数据一起取得了的原稿的尺寸信息来判定。例如,名片的尺寸一般为55mm*91mm,所以与它一致或者近似的尺寸的原稿能够判定为是名片。另外,收据的尺寸的横向宽度为38mm、45mm、60mm或者110mm中的某一个的情况较多,所以横向宽度与这些尺寸一致或者近似的原稿能够判定为是收据。然后,在本实施方式中,将其他尺寸的原稿中的、通过布局识别、字符识别、色彩识别而被判定为不是照片/插图的原稿判定为是文本。其后,处理前进到步骤S402。
在步骤S402中,解析原稿的布局。确定部271确定多个在图像数据中的记载有文字列的部位,布局信息取得部272关于通过确定部271确定了的多个部位中的各个部位,取得包括在该图像数据中的位置以及所记载的字符的尺寸的布局信息。更具体地说,布局信息取得部272对于在图像数据中的记载有文字列的各个部位(行),取得包括尺寸、在图像数据中的行的纵向位置以及行的横向位置的布局信息。此外,在本实施方式中,行的纵向位置通过从原稿的上端起的距离来表示。另外,行的横向位置通过从原稿的左端起的距离、或者表示该行是向左对齐、向右对齐还是向中对齐的信息来表示。其后,处理前进到步骤S403。
在步骤S403中,推定在图像数据中的属性文字列记载部位。推定部273对于在步骤S402中确定了的多个部位中的各个部位,根据与其他部位的相对的关系性(在本实施方式中,是位置关系以及尺寸关系),计算作为在图像数据中可能包含的属性文字列的似然度,根据似然度,推定属性文字列记载部位。在似然度的计算中,包括使用参数来分别调整位置关系所涉及的分数以及尺寸关系所涉及的分数的运算。以下,说明在本实施方式中的似然度的具体计算方法。
在本实施方式中,推定部273根据与周围的其他文字列的关系性(位置/尺寸/距离等)来计算似然度。推定部273对关于各个部位而计算出的似然度进行比较,将似然度最高的部位推定为属性文字列记载部位(例如,文本的标题或者日期、名片的姓名或者组织名称、收据的店铺名称或者日期等)。例如,在判定为图像数据的原稿类别是文本的情况下,推定部273使用以下所示的公式,计算表示各个部位是该文本的标题的可能性的似然度。
标题似然度=(a*位置分数A)+(b*尺寸分数B)+(c*距离分数C)
在这里,位置分数A、尺寸分数B以及距离分数C的内容如下所述。
位置分数A=10-从原稿上部起的位置排名
尺寸分数B=候补字符尺寸(高度)/本文的字符尺寸
距离分数C=到最接近左方向的文字列的距离+到最接近右方向的文字列的距离+到最接近上方向的文字列的距离+到最接近下方向的文字列的距离
其中,在从原稿上部起的位置排名为第10名以后的情况下,“位置分数=0”。另外,参数a、b以及c是在计算似然度时用于校正上述分数的参数,在后述的步骤S413中进行校正。
另外,例如,在判定为图像数据的原稿类别是文本的情况下,推定部273使用以下所示的公式,计算表示各个部位是该文本的日期的可能性的似然度。
日期似然度=(a*位置分数A)+(b*尺寸分数B)+(c*格式分数C)
在这里,位置分数A、尺寸分数B以及格式分数C的内容如下所述。
位置分数A=10-从原稿右上部起的位置排名
尺寸分数B=(候补字符尺寸(高度)-本文的字符尺寸)的绝对值
格式分数C=与格式匹配了的字符数
其中,在从原稿上部起的位置排名为第10名以后的情况下,“位置分数=0”。另外,格式分数C的计算中使用的“与格式匹配了的字符数”是对日期的格式信息与对照文字列进行比较而匹配了的字符数(包括数值以及分隔符)。在步骤S403的时间点下,未实施日期候补的字符识别(步骤S404),字符数无法计数,所以将格式分数暂时设为“0”,计算日期似然度。另外,参数a、b以及c是在计算似然度时用于校正上述分数的参数,在后述的步骤S413中进行校正。
在图像数据中,如果推定到属性文字列记载部位,则处理前进到步骤S404。
在步骤S404中,进行字符识别。字符识别部26针对图像数据中的、至少在步骤S403中被推定部273推定为是属性文字列记载部位的部分,进行字符识别。在本实施方式中,字符识别部26关于各种属性(例如,文本的标题或者日期、名片的姓名或者组织名称、收据的店铺名称或者日期等),按似然度从高到低的顺序确定前几个部位,进行字符识别。例如,在原稿是文本的情况下,针对标题似然度所涉及的前3个部位、日期似然度所涉及的前5个部位,进行字符识别。
在这里,关于规定的属性而从似然度最高的部位进行字符识别得到的文字列在后述的步骤S411中被用于数据的名称生成。例如,从文本的图像数据进行字符识别得到的多个部位所涉及的文字列中的、从标题似然度最高的部位进行字符识别得到的标题文字列以及从日期似然度最高的部位进行字符识别得到的日期文字列,被用于文本数据的名称生成。另外,关于似然度为第2位以下的部位所涉及的文字列,为了使得在后述的步骤S408中的修正时能够由用户选择,也可以作为候补被保存。这些文字列既可以嵌入到图像数据文件中,也可以保存到与图像数据不同的文件(例如,XML文件)中。其后,处理前进到步骤S405。
在步骤S405中,进行格式的核对。推定部273根据通过字符识别部26取得了的文字列与预先登记的格式信息的核对结果,校正似然度。在步骤S404中,进行了日期候补的字符识别,所以推定部273通过核对日期候补的文字列与日期格式信息,来计算在步骤S403中暂时被设为“0”的“格式分数C=与格式匹配了的字符数”。推定部273使用被更新了的格式分数C来再次计算日期似然度,将从日期似然度最高的部位进行字符识别得到的文字列推定为日期文字列。此外,在本步骤中说明了的格式核对处理也可以根据文字列的属性而省略。例如,在从原稿类别是文本的图像数据中取得了标题候补的文字列的情况下,推定部273也可以不进行特别的格式核对,而是将所取得的文字列整体设为文本的标题。
图9是示出在本实施方式中使用的、关于日期的格式信息表格的结构的概略图。格式信息定义了某种属性所涉及的文字列中能够使用的格式,在图9所示的例子中,在关于日期的格式信息表格中,将[年]、[月]、[日]的顺序以及分隔符(逗号“,”、斜线“/”)的组合的列表登记为日期的格式。此外,在格式信息中,也可以定义日期以外的属性。例如,关于标题,也可以将括弧等记号定义为格式信息,关于公司名,也可以将“株式公司”、“(株)”等字符定义为格式信息。另外,在格式信息中定义格式的方法不限定于在本实施方式中的例子。格式也可以使用例如正则表达式来定义。其后,处理前进到步骤S406。
在步骤S406中,根据布局信息订正推定结果。订正部274对在步骤S402中取得了的处理对象的图像数据的布局信息、与在布局信息表格中累积了的布局信息进行比较。作为比较的结果,在从布局信息表格中检索出与处理对象的图像数据的布局信息一致或者近似的布局信息的情况下,订正部274根据与一致或者近似的布局信息关联起来了的、被用户指定为属性文字列记载部位的部位,订正通过推定部273推定到的部位。在这里,在比较中使用的布局信息是在过去通过用户修正了推定部273的推定结果的原稿的布局信息。即,订正部274关于与过去的修正所涉及的布局信息一致或者近似的布局的图像数据,执行与过去的修正相同的订正处理。其后,处理前进到步骤S407。
图10是示出在本实施方式中使用的、布局信息表格的结构的概略图。在布局信息表格中,组合一个原稿所涉及的原稿的布局信息、与对该原稿进行了的修正的内容,作为一个记录来进行累积。关于未进行由用户实施的修正的原稿,在布局信息表格中不进行累积。更具体地说,在布局信息中,关于图像数据中的记载有文字列的各个部位(行),包括尺寸、图像数据中的行的纵向位置以及行的横向位置。另外,通过修正而对所指定的部位(行)的信息附加标记,从而示出对该原稿进行了的修正的内容。在图10所示的例子中,通过用户修正,对被设为标题行的行的信息附加了标题行标记,通过用户修正,对被设为日期行的行的信息附加了日期行标记。此外,在布局信息表格中,最后被累积的布局信息的记录以在步骤S406的比较处理中第1个被比较的方式来被累积,以前累积了的记录依次往后推延在比较处理中的排名。通过这样,能够提升最近被累积了的修正的优先度。
在步骤S407以及步骤S408中,显示确认画面,接收用户输入。显示部275为了使得被推定部273推定为是属性文字列记载部位的部位能够由用户把握,显示包括通过确定部271确定了的多个部位的确认画面(步骤S407)。然后,用户输入接收部276接收由确认了显示部275的显示内容的用户实施的修正的输入(步骤S408)。其后,处理前进到步骤S408。
图11是示出在本实施方式中显示于用户终端9的确认画面的概略的图。在本实施方式中,显示部275为了让用户确认推定内容以及字符识别的结果,将确认画面分成2个区域,以2种方法进行显示。
在区域1中,根据图像数据显示原稿图像,在原稿图像上,用框来示出通过确定部271确定了的多个部位。框的显示位置能够利用布局信息中包含的坐标、尺寸的信息来确定。在这里,在步骤S406之前的处理中被设为属性文字列记载部位的部位用粗线来描绘,其他部位的框用细线来描绘。另外,框的颜色根据用框来示出的部位的属性(标题、日期、姓名、组织名称、店铺名称等)而不同。例如,可以用红框显示标题关联部位,用蓝框显示日期关联部位。在确认画面中示出的属性文字列记载部位有误的情况下,用户能够通过使用触摸面板等输入单元,选择在原稿图像上显示了的多个部位的框中的某一个,来选择正确的部位作为属性文字列记载部位,或者修正字符识别的结果。这样的显示方法适合于所谓平板电脑等具有较大的触摸面板显示器的用户终端。
在区域2中,通过字符识别得到的多个文字列针对每种属性(标题、日期、姓名、组织名称、店铺名称等)而进行列表显示。在列表中,在这里,在步骤S406之前的处理中被推定或者订正为属性文字列的文字列在列表的最上方显示,其他文字列在列表的第2位以下显示。在确认画面中示出的属性文字列有误的情况下,用户能够通过使用触摸面板等输入单元,选择列表中显示了的多个文字列中的某一个,来从列表中选择作为属性文字列记载部位是正确的部位所涉及的文字列,或者修正字符识别的结果。这样的显示方法适合于所谓智能手机等具有较小的触摸面板显示器的用户终端。
在本实施方式中,确认画面被从图像数据处理服务器1发送到用户终端9,通过由用户终端9执行的应用来进行显示。此外,在本实施方式中,将不具有显示器的扫描仪直接连接到网络来使用,通过图像数据处理服务器1进行图像数据处理,所以确认画面被显示于用户终端9,但确认画面也可以通过其他输出装置来输出。例如,当在具有显示器的扫描仪中实施本公开的情况下,确认画面既可以在扫描仪的显示器中显示,在扫描仪作为个人计算机的外围设备而被连接的情况下,确认画面也可以在个人计算机的显示器中显示。
在步骤S409以及步骤S410中,在存在由用户实施的修正的输入的情况下,修正用于名称生成的文字列。当在步骤S408中接收了由用户实施的修正的输入的情况下(步骤S409的“是”),修正部277根据修正的输入,修正在由名称生成部27实施的名称的生成中使用的文字列(步骤S410)。具体地说,在通过用户选择了正确的部位作为属性文字列记载部位的情况下,修正部277关于被用户选择了的部位,将在步骤S404的字符识别中得到了的文字列设为正确的属性文字列。另外,在通过用户修正了字符识别的结果的情况下,将通过用户输入了的文字列设为正确的属性文字列。当在步骤S408中未接收收到由用户实施的修正的输入的情况(步骤S409的“否”)、以及完成了用于名称生成的文字列的修正的情况下,处理前进到步骤S411。
在步骤S411中,生成数据的名称。名称生成部27根据作为关于似然度最高的部位进行字符识别的结果而取得了的文字列,生成数据的名称。例如,在原稿是文本的情况下,名称生成部27组合所取得的日期以及标题文字列,生成数据名称。其后,处理前进到步骤S412。
此外,在本实施方式中,主要说明了原稿类别是文本的图像数据的处理,但在处理其他原稿类别所涉及的图像数据的情况下,除了成为提取的对象的属性文字列以及属性文字列记载部位的推定方法不同这一点之外,处理的流程大致相同。例如,在原稿类别是名片的情况下,作为属性文字列提取姓名文字列以及组织名称文字列,使用这些文字列来生成数据名称。另外,例如,在原稿类别是收据的情况下,作为属性文字列提取店铺名称文字列以及日期文字列,使用这些文字列来生成数据名称。
步骤S412到步骤S414所示的处理是用于学习通过用户修正了的信息(条件与修正内容)而提高下次以后的名称生成处理中的名称生成的精度的学习处理。
在步骤S412中,累积布局信息。布局信息累积部278在通过用户输入接收部276接收了由用户实施的修正的输入的情况下,将被用户指定为属性文字列记载部位的部位、与通过布局信息取得部272取得了的布局信息关联起来而累积到布局信息表格。布局信息的结构如使用图10在上面叙述的那样。在这里,所累积了的布局信息被用于在步骤S406中说明了的推定结果的订正。其后,处理前进到步骤S413。
在步骤S413中,更新参数。参数更新部279在通过用户输入接收部276接收了由用户实施的修正的输入的情况下,更新参数,以使得关于被用户指定为属性文字列记载部位的部位而计算的似然度成为更高的值。
例如,关于在计算标题似然度时使用的参数,将被错误地推定为标题行的“行a”的各分数(位置分数Aa、尺寸分数Ba以及距离分数Ca)、与通过用户修正而选择了的正确的标题行“行b”的各分数(位置分数Ab、尺寸分数Bb、距离分数Cb)进行比较,根据其大小来进行变更。更具体地说,参数更新部279对行a与行b的位置分数进行比较,如果位置分数Aa<位置分数Ab,则使参数a增加(例如3%),如果位置分数Aa>位置分数Ab,则使参数a减少(例如3%)。另外,参数更新部279关于尺寸分数以及距离分数也通过同样的方法来进行更新。其后,处理前进到步骤S414。
在步骤S414中,登记格式信息。格式信息登记部280在通过用户输入接收部276接收了属性文字列的用户输入的情况下,登记根据所接收的文字列而确定了的格式信息。格式信息的结构如使用图9在上面叙述的那样。例如,在通过用户输入了的日期的文字列是以在格式信息表格中未登记的格式来记载了的日期的情况下,格式信息登记部280将用于用户输入所涉及的日期文字列的格式作为新的格式信息登记到格式信息表格。其后,本流程图所示的处理结束。
<效果>
根据上述说明了的实施方式,能够从摄像得到的图像中推定记载有具有规定的属性的文字列的部位。另外,根据推定的结果进行字符识别的部位被限定,从而不需要对图像数据整体进行字符识别处理,能够减轻处理负荷。
Claims (18)
1.一种信息处理装置,其特征在于,包括:
确定单元,确定多个在图像数据中的记载有文字列的部位;
布局信息取得单元,针对通过所述确定单元确定了的多个部位中的各个部位,取得包括在该图像数据中的位置以及所记载的字符的尺寸的布局信息;以及
推定单元,针对所述多个部位中的各个部位,根据与其他部位的位置关系以及与其他部位的尺寸关系,计算作为可能被包含在所述图像数据中的具有规定的属性的文字列的似然度,根据该似然度,推定记载有具有该规定的属性的文字列的部位。
2.根据权利要求1所述的信息处理装置,其特征在于,还包括:
字符识别单元,针对所述图像数据中的、至少通过所述推定单元而被推定为是记载有具有所述规定的属性的文字列的部位的部分,进行字符识别;以及
名称生成单元,使用作为所述字符识别的结果取得了的文字列,生成所述图像数据的名称或者根据该图像数据而生成的数据的名称。
3.根据权利要求1或者2所述的信息处理装置,其特征在于,还包括:
类别判定单元,判定所述图像数据的类别,
所述推定单元推定记载有适合于对通过所述类别判定单元判定了的类别的图像数据进行分类的文字列的部位,来作为记载有具有所述规定的属性的文字列的部位。
4.根据权利要求3所述的信息处理装置,其特征在于,
在通过所述类别判定单元判定的类别中,包括文本,
在通过所述类别判定单元判定了的类别是文本的情况下,所述推定单元针对所述多个部位中的各个部位,计算作为包括标题的文字列或者包括日期的文字列的似然度,根据该似然度,推定记载有包括标题的文字列或者包括日期的文字列的部位。
5.根据权利要求3或者4所述的信息处理装置,其特征在于,
在通过所述类别判定单元判定的类别中,包括名片,
在通过所述类别判定单元判定了的类别是名片的情况下,所述推定单元针对所述多个部位中的各个部位,计算作为包括姓名的文字列或者包括组织名称的文字列的似然度,根据该似然度,推定记载有包括姓名的文字列或者包括组织名称的文字列的部位。
6.根据权利要求3至5中的任一项所述的信息处理装置,其特征在于,
在通过所述类别判定单元判定的类别中,包括收据,
在通过所述类别判定单元判定了的类别是收据的情况下,所述推定单元针对所述多个部位中的各个部位,计算作为包括店铺名称的文字列或者包括日期的文字列的似然度,根据该似然度,推定记载有包括店铺名称的文字列或者包括日期的文字列的部位。
7.根据权利要求3至6中的任一项所述的信息处理装置,其特征在于,
在通过所述类别判定单元判定的类别中,包括文本、名片、收据以及照片/插图中的至少一个。
8.根据权利要求2所述的信息处理装置,其特征在于,还包括:
显示单元,显示通过所述确定单元确定的多个部位,以使得被所述推定单元推定为是记载有具有所述规定的属性的文字列的部位的部位能够由用户把握;
用户输入接收单元,接收由确认了所述显示单元的显示内容的用户实施的修正的输入;以及
修正单元,根据所述修正的输入,修正由所述名称生成单元实施的名称的生成中使用的文字列。
9.根据权利要求8所述的信息处理装置,其特征在于,
所述推定单元通过包括使用参数来分别调整与所述位置关系相关的分数以及与所述尺寸关系相关的分数的运算的处理,计算所述似然度,
所述信息处理装置还包括参数更新单元,该参数更新单元在通过所述用户输入接收单元接收了由用户实施的修正的输入的情况下,更新所述参数,以使得针对被用户指定为记载有具有所述规定的属性的文字列的部位的部位而计算出的所述似然度成为更大的值。
10.根据权利要求8或者9所述的信息处理装置,其特征在于,还包括:
布局信息累积单元,在通过所述用户输入接收单元接收了由用户实施的修正的输入的情况下,将被用户指定为记载有具有所述规定的属性的文字列的部位的部位、与通过所述布局信息取得单元取得了的所述布局信息关联起来而进行累积;以及
订正单元,在所述图像数据的布局信息与通过所述布局信息累积单元累积了的布局信息一致或者近似的情况下,根据与一致或者近似的布局信息关联起来了的、被用户指定为记载有具有所述规定的属性的文字列的部位的部位,订正通过所述推定单元推定到的部位。
11.根据权利要求8至10中的任一项所述的信息处理装置,其特征在于,
所述推定单元根据通过所述字符识别单元取得了的文字列、与预先登记的格式信息的核对结果,校正所述似然度。
12.根据权利要求11所述的信息处理装置,其特征在于,
所述用户输入接收单元还接收具有所述规定的属性的文字列的用户输入,
所述信息处理装置还包括格式信息登记单元,该格式信息登记单元在通过所述用户输入接收单元接收了具有所述规定的属性的文字列的用户输入的情况下,登记根据所接收的文字列而确定了的格式信息。
13.根据权利要求1至12中的任一项所述的信息处理装置,其特征在于,还包括:
图像接收单元,经由网络接收从摄像装置发送的、通过该摄像装置取得的图像数据。
14.根据权利要求13所述的信息处理装置,其特征在于,还包括:
用户认证单元,认证摄像装置的用户,
所述图像接收单元经由网络接收从进行了用户认证的所述摄像装置发送的、通过该摄像装置取得的图像数据。
15.根据权利要求14所述的信息处理装置,其特征在于,还包括:
许可取得单元,从经由网络提供服务的规定的服务取得对该规定的服务中的所述用户的账户的访问许可;以及
数据发送单元,在通过所述类别判定单元判定所述图像数据是规定的类别的图像数据的情况下,使用关于被认证为发送了该图像数据的所述摄像装置的用户的用户而从所述规定的服务取得了的所述访问许可,将该图像数据或者根据该图像数据而生成的数据发送到所述规定的服务中的所述用户的账户。
16.根据权利要求15所述的信息处理装置,其特征在于,
所述用户认证单元还认证用户终端的用户,
所述许可取得单元依照从进行了用户认证的所述用户终端发送的请求,对所述规定的服务发送访问许可请求,并取得所述访问许可。
17.根据权利要求14至16中的任一项所述的信息处理装置,其特征在于,
所述用户认证单元接受作为通过所述摄像装置发送的认证请求的、包括从用户终端对所述摄像装置通知了的认证信息的认证请求,认证所述摄像装置的用户。
18.一种方法,其特征在于,由计算机执行以下步骤:
确定步骤,确定多个在图像数据中的记载有文字列的部位;
布局信息取得步骤,针对在所述确定步骤中确定的多个部位中的各个部位,取得包括在该图像数据中的位置以及所记载的字符的尺寸的布局信息;以及
推定步骤,关于所述多个部位中的各个部位,根据与其他部位的位置关系以及与其他部位的尺寸关系,计算作为可能被包含在所述图像数据中的具有规定的属性的文字列的似然度,根据该似然度,推定记载有具有该规定的属性的文字列的部位。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015017383A JP6050843B2 (ja) | 2015-01-30 | 2015-01-30 | 情報処理装置、方法およびプログラム |
JP2015-017383 | 2015-01-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105847632A true CN105847632A (zh) | 2016-08-10 |
CN105847632B CN105847632B (zh) | 2019-05-31 |
Family
ID=56553472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510552688.9A Expired - Fee Related CN105847632B (zh) | 2015-01-30 | 2015-09-01 | 信息处理装置以及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9641715B2 (zh) |
JP (1) | JP6050843B2 (zh) |
CN (1) | CN105847632B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108377309A (zh) * | 2017-01-30 | 2018-08-07 | 佳能株式会社 | 图像处理装置、图像处理装置的控制方法和存储介质 |
CN108377308A (zh) * | 2017-01-30 | 2018-08-07 | 佳能株式会社 | 图像处理装置及其控制方法和存储介质 |
CN108984578A (zh) * | 2017-05-31 | 2018-12-11 | 株式会社日立制作所 | 计算机、文档识别方法以及系统 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
CN109753964A (zh) * | 2017-11-06 | 2019-05-14 | 株式会社日立制作所 | 计算机以及文件识别方法 |
CN110569835A (zh) * | 2018-06-06 | 2019-12-13 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229314B1 (en) | 2015-09-30 | 2019-03-12 | Groupon, Inc. | Optical receipt processing |
JP6753370B2 (ja) * | 2017-07-12 | 2020-09-09 | 京セラドキュメントソリューションズ株式会社 | 原稿読取装置 |
JP7035474B2 (ja) * | 2017-11-17 | 2022-03-15 | 富士フイルムビジネスイノベーション株式会社 | 文書処理装置およびプログラム |
US10963686B2 (en) * | 2017-12-01 | 2021-03-30 | International Business Machines Corporation | Semantic normalization in document digitization |
JP2019145981A (ja) * | 2018-02-20 | 2019-08-29 | コニカミノルタ株式会社 | サービス使用支援装置、サービス利用方法、およびコンピュータプログラム |
JP7102170B2 (ja) * | 2018-02-28 | 2022-07-19 | キヤノン株式会社 | 画像処理装置、および画像処理装置の制御方法とプログラム |
JP2019204399A (ja) * | 2018-05-25 | 2019-11-28 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US10960684B1 (en) | 2019-11-14 | 2021-03-30 | Capital One Services, Llc | Schemes to validate and protect secure documents |
JP7400548B2 (ja) | 2020-03-03 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、画像処理装置、情報処理システム、及びプログラム |
JP2022101136A (ja) * | 2020-12-24 | 2022-07-06 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2022181367A (ja) * | 2021-05-26 | 2022-12-08 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP2023048040A (ja) * | 2021-09-27 | 2023-04-06 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
US11687935B1 (en) * | 2022-04-06 | 2023-06-27 | Capital One Services, Llc | Systems and methods for validating an instrument |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05159101A (ja) * | 1991-11-01 | 1993-06-25 | Fuji Xerox Co Ltd | 文書論理構造認識および文書内容認識のための装置および方法 |
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
JPH10275196A (ja) * | 1997-03-28 | 1998-10-13 | Sanyo Electric Co Ltd | データ入力装置 |
JPH10334182A (ja) * | 1997-05-30 | 1998-12-18 | Nec Eng Ltd | 読取り位置情報修正システム及びコンピュータを読取り位置情報修正システムとして機能させるためのプログラムを記録した記録媒体 |
JPH11232381A (ja) * | 1998-02-13 | 1999-08-27 | Oki Electric Ind Co Ltd | 文字読取装置 |
JP2006072512A (ja) * | 2004-08-31 | 2006-03-16 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006085582A (ja) | 2004-09-17 | 2006-03-30 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
US7587412B2 (en) * | 2005-08-23 | 2009-09-08 | Ricoh Company, Ltd. | Mixed media reality brokerage network and methods of use |
US7855810B2 (en) | 2005-02-18 | 2010-12-21 | Eastman Kodak Company | Method for automatically organizing a digitized hardcopy media collection |
CN101226595B (zh) | 2007-01-15 | 2012-05-23 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
JP2008192032A (ja) * | 2007-02-07 | 2008-08-21 | Fuji Xerox Co Ltd | 文書処理装置、文書処理方法、プログラム |
-
2015
- 2015-01-30 JP JP2015017383A patent/JP6050843B2/ja active Active
- 2015-05-15 US US14/713,882 patent/US9641715B2/en active Active
- 2015-09-01 CN CN201510552688.9A patent/CN105847632B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05159101A (ja) * | 1991-11-01 | 1993-06-25 | Fuji Xerox Co Ltd | 文書論理構造認識および文書内容認識のための装置および方法 |
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
JPH10275196A (ja) * | 1997-03-28 | 1998-10-13 | Sanyo Electric Co Ltd | データ入力装置 |
JPH10334182A (ja) * | 1997-05-30 | 1998-12-18 | Nec Eng Ltd | 読取り位置情報修正システム及びコンピュータを読取り位置情報修正システムとして機能させるためのプログラムを記録した記録媒体 |
JPH11232381A (ja) * | 1998-02-13 | 1999-08-27 | Oki Electric Ind Co Ltd | 文字読取装置 |
JP2006072512A (ja) * | 2004-08-31 | 2006-03-16 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108377308A (zh) * | 2017-01-30 | 2018-08-07 | 佳能株式会社 | 图像处理装置及其控制方法和存储介质 |
US11423681B2 (en) | 2017-01-30 | 2022-08-23 | Canon Kabushiki Kaisha | Image processing apparatus, method of controlling the same, and storage medium |
CN108377309A (zh) * | 2017-01-30 | 2018-08-07 | 佳能株式会社 | 图像处理装置、图像处理装置的控制方法和存储介质 |
US10706276B2 (en) | 2017-01-30 | 2020-07-07 | Canon Kabushiki Kaisha | Image processing apparatus, control method therefor, and storage medium |
CN108377308B (zh) * | 2017-01-30 | 2020-10-30 | 佳能株式会社 | 图像处理装置及其控制方法和存储介质 |
CN108377309B (zh) * | 2017-01-30 | 2020-11-06 | 佳能株式会社 | 图像处理装置、图像处理装置的控制方法和存储介质 |
CN108984578B (zh) * | 2017-05-31 | 2022-03-11 | 株式会社日立制作所 | 计算机、文档识别方法以及系统 |
CN108984578A (zh) * | 2017-05-31 | 2018-12-11 | 株式会社日立制作所 | 计算机、文档识别方法以及系统 |
CN109753964B (zh) * | 2017-11-06 | 2023-02-21 | 株式会社日立制作所 | 计算机以及文件识别方法 |
CN109753964A (zh) * | 2017-11-06 | 2019-05-14 | 株式会社日立制作所 | 计算机以及文件识别方法 |
CN110569835A (zh) * | 2018-06-06 | 2019-12-13 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
CN110569835B (zh) * | 2018-06-06 | 2024-03-05 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
CN109308476B (zh) * | 2018-09-06 | 2019-08-27 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2016143165A (ja) | 2016-08-08 |
US20160227066A1 (en) | 2016-08-04 |
JP6050843B2 (ja) | 2016-12-21 |
CN105847632B (zh) | 2019-05-31 |
US9641715B2 (en) | 2017-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105847632A (zh) | 信息处理装置以及方法 | |
CN105847226B (zh) | 访问令牌管理系统 | |
US20230084139A1 (en) | Biometric authentication method, system, and computer program | |
US9245296B2 (en) | Expense report system with receipt image processing | |
US9916626B2 (en) | Presentation of image of source of tax data through tax preparation application | |
US11017223B2 (en) | Method for evaluating a document | |
JP6712045B2 (ja) | 情報処理システムと、その処理方法及びプログラム | |
US10332213B2 (en) | Expense report system with receipt image processing by delegates | |
CN102333169B (zh) | 成像装置、认证系统、成像装置的控制方法 | |
CN105933570B (zh) | 图像数据处理服务器、系统以及方法 | |
CN103975342A (zh) | 用于移动图像捕获和处理的系统和方法 | |
CN103716483A (zh) | 通信系统、客户端设备、中继设备和方法 | |
US20110203005A1 (en) | Software distribution method, information processing apparatus, and software distribution system | |
JP6534355B2 (ja) | Pdfファイル管理システム、pdfファイル管理サーバ、pdfファイルデータ取得サーバ、pdfファイル管理方法、pdfファイルデータ取得方法、pdfファイル管理プログラム、およびpdfファイルデータ取得プログラム | |
JP5216985B2 (ja) | データ処理装置及び保険証照合システム | |
CN105847618B (zh) | 图像数据处理系统 | |
JP2008186339A (ja) | 情報処理装置、認証システム、認証方法および認証プログラム | |
US7873834B2 (en) | Image forming apparatus, storage medium storing program for acquiring time stamp, digital data management system, and method for acquiring time stamp | |
JP2007133649A (ja) | 講義支援装置、講義支援方法および講義支援プログラム | |
KR101429929B1 (ko) | 생체 인식 및 인구통계학적 데이터의 전송 및 관리 시스템 그리고 장치 | |
US20090018901A1 (en) | Information output network system | |
JPH10105517A (ja) | 自動個人確認処理方法 | |
CN110431594A (zh) | 图像处理装置、图像处理系统、图像处理方法和程序 | |
US20230237136A1 (en) | Processing system, information processing apparatus, non-transitory computer-readable storage medium storing control program, and image processing apparatus | |
JP2005084995A (ja) | 通行料金収受システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190531 |
|
CF01 | Termination of patent right due to non-payment of annual fee |