CN1439984A - 单据信息处理装置,单据信息处理系统和程序 - Google Patents

单据信息处理装置,单据信息处理系统和程序 Download PDF

Info

Publication number
CN1439984A
CN1439984A CN 02141402 CN02141402A CN1439984A CN 1439984 A CN1439984 A CN 1439984A CN 02141402 CN02141402 CN 02141402 CN 02141402 A CN02141402 A CN 02141402A CN 1439984 A CN1439984 A CN 1439984A
Authority
CN
China
Prior art keywords
mentioned
text strings
document
printed data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 02141402
Other languages
English (en)
Inventor
嶋好博
新庄広
永崎健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Computer Peripherals Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Computer Peripherals Co Ltd, Hitachi Ltd filed Critical Hitachi Computer Peripherals Co Ltd
Publication of CN1439984A publication Critical patent/CN1439984A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种单据信息处理装置,单据信息处理系统和程序。本发明提取以单据描绘式样表现的印刷数据的内容并赋予属性。而且利用带位置坐标的文字信息、线信息和边框结构辞典、属性辞典。备有作为印刷数据获得描述单据的信息的机构,从印刷数据提取内容栏的位置坐标的机构和提取内容栏中所含文字串的机构,以及把与内容对应的项目作为属性赋予该文字串的机构。

Description

单据信息处理装置,单据信息处理系统和程序
技术领域
本发明涉及由文本、图表等组成的单据信息进行处理的技术领域,涉及处理所输入的数据并输出该处理数据,并且恢复输出数据并赋予属性的单据信息处理装置,单据信息处理系统及其程序。
技术背景
一般来说,在处理所输入的数据并输出、恢复该处理数据的信息处理装置中,输出的单据的张数很多,而且,有时附带有把这些单据保存规定期间的义务。例如,在医疗领域的单据信息处理的流程中,首先,在医疗机构中作成记载患者的诊治内容的处方(诊治费用清单),接着,这些处方每月提交给审查机构,进行记载内容的审查。
现有技术中,这些单据往往在医疗机构中以纸的形式从计算机系统的打印机输出,以纸的形式原样提交给审查机构。特开2001-34627号中记载为了检索、检查以纸的形式提交的处方而用文字识别的情况。在以纸的形式原样提交单据的纸方式中,从纸资源的保护的观点来说成为资源浪费,此外,以纸的形式原样存在着需要确保体积增大的宽敞的保管场所这样的问题。此外,以纸的形式存在着如果单据的数量增加则检索或阅览目的单据变得困难这样的问题。进而,在用文字识别的场合,有时因纸的污秽等而数据读取的精度降低,需要靠目视来修正文字识别结果这样的人工作业。为了解决上述问题,也部分地采用在医疗机构的计算机系统中,作成给诊治内容赋予属性的数据库,向电子媒体输出该数据库,以电子媒体提交给审查机构的数据库方式,可以选择采用以纸或电子媒体的形式的提交。
以电子媒体提交把给诊治内容赋予属性的数据库的上述数据库方式,与单纯把单据印在纸上以纸的形式提交单据的纸方式相比,医疗机构中的计算机系统的改造上可能要花费成本。此外,为了作为数据库赋予属性,有必要把与伤病名、治疗内容对应的数码作为标准保持在医疗机构的计算机系统中,该标准的变更等维护作业上有可能增加医疗机构的负担。
现有技术中,作为把诊治内容保存在电子媒体的场合的另一种数据形式,有以单据描绘式样保管印刷数据的印刷数据方式。关于此一以单据描绘式样保管印刷数据的印刷数据方式,储存用不受输出装置的规格影响的基本描述语言来描述的描绘命令的集合,适合输出装置的规格地输出的情况,在特开平6-162008号、特开2001-216453号中记载着。此外,在特开平7-311778号中记载着用打印机选择器在虚拟打印机驱动器和打印机驱动器之间切换,不印刷在纸上,而用虚拟打印机驱动器以文件的形式保存单据数据的情况。进而,在特开2001-216453号中记载着在用通信网络所连接的客户机和服务器间传送以单据描绘形式保存的印刷数据,在画面上显示单据的情况。此外,在特开平7-311778号中记载着由描绘命令作成显示用的浏览器数据的情况。此外,关于印刷或用画面显示像记载于单据的姓名文字串中的文字那样,含有标准的文字码无法确定的库外字的文字串的情况,在特开2000-250897号中,记载着为了保持库外字的表现形态的同一性,在具有不同的文字码体系的系统间就库外字内类似的字体,给各系统的库外字码建立对应关系的情况。
发明内容
可是,在上述以单据描绘式样保管印刷数据的印刷数据方式中,存在着以下这种问题。也就是说,
(1)为了审查单据的内容,有必要给作为单据的记载内容的伤病名或治疗方法的文字串中赋予数码。赋予数码必要的理由是因为在预先确定的标准中在诊治内容中确定数码(以下称为内容码),根据该数码算出诊治费用。因为在单据中记载着项目和与之对应的内容,故与对应于内容的项目建立起对应关系,也就是有必要给对应的项目栏记载的文字串赋予属性。例如,在伤病名这个项目中作为内容记载着心力衰竭这个文字串的场合,对作为内容的心力衰竭有必要赋予伤病名这个属性。可是,虽然在特开平6-162008号、特开2001-216453号中记载着表示作为描绘命令的集合的印刷数据的情况,但是没有考虑给记载内容赋予属性或提取内容。印刷数据内的文字串序号是各式各样的,因为项目文字串和与之对应的内容文字串没有明显的区别,故照印刷数据原样所得到的文字串意味着什么,属性的判别是不可能的。例如,虽然在处方中记载着汉字文字串和数字文字串,但是汉字文字串是代表伤病名还是代表治疗方法,判别是不可能的。特别是,在记载着数字文字串的场合,该数字文字串是处方的请求评分还是一部分负担费用,属性的判别是不可能的。
(2)在以印刷数据的形式提交给审查机构的场合,在把该印刷数据在画面上显示或者印刷时,每个医疗机构分配给库外字的文字码不同,库外字的处理不明。虽然特开2000-250897号中记载着预先建立库外字的对应关系,但是分别针对多个医疗机构所分配的库外字建立对应关系实用上是困难的。
(3)有时配方附加续页,把该续页作为印刷数据处理的方法或从续页的提取内容和内容数码化的方法不明。
(4)对印刷数据的编辑方法不明。处方上有记载作为项目的确定评分的栏。虽然在审查机构审查了诊治内容后,把确定评分记入该确定评分栏,但是对于印刷数据,插入确定评分的编辑方法不明。其理由是因为文字串在印刷数据内散布,确定评分的文字串的插入位置无法单纯地确定。
(5)虽然在对印刷数据进行检索的场合,提取包含关键文字串的文字串的情况在特开2001-216453号中记载着,但是没有考虑利用属性的检索。因而,例如,在检索作为属性具有请求评分的数字文字串大于规定值的处方的场合,处方中记载着多个数字文字串,提取想要的处方是困难的。
为了解决上述问题,本申请中所公开的发明中代表性的如下。
本申请公开了一种单据处理装置,备有包括单据上所记载的文字和该文字所记载的坐标和线信息的印刷数据的取得机构,控制该印刷数据的处理的控制机构和数据存储机构,其特征在于,上述存储机构储存单据上所印刷的边框的信息,上述控制机构控制根据从上述取得机构取得的印刷数据用上述边框的信息提取单据的内容栏和项目栏上所记载的文字串,把与上述内容栏对应的项目栏中所记载的文字串作为属性赋予该内容栏的文字串,把上述赋予了属性的文字串储存在上述数据存储机构的处理。详细地说,其特征在于,项目栏与该项目栏中的文字串,内容栏与对应的项目栏中所记载的文字串建立对应关系,作为辞典储存上述边框信息,上述控制机构从上述印刷数据提取线信息,对照储存于上述辞典的边框信息和上述所提取的线信息,基于上述对照结果,把储存于上述辞典的对应的项目栏的文字串作为属性赋予内容栏内的文字串。由此,由于根据印刷数据检测内容栏的位置坐标,给该内容栏中所含的文字串赋予属性,所以可以在项目的文字串和与该项目对应的内容的文字串中挑选印刷数据内的文字串。此外,由于利用预先保持框架的结构的框架结构辞典,或保持项目栏和内容栏的相对位置关系的属性辞典,所以对于从印刷数据提取的文字串,可以区别项目的文字串和与该项目对应的内容的文字串。
进而,对印刷数据的续页的内容赋予特定的属性,借此把续页的印刷数据与第1页的印刷数据合并成一个印刷数据,此外,由于对续页的内容赋予特定的属性,例如赋予处方中称为明细栏的属性,所以可以从续页提取内容。
此外,公开了用来在计算机中执行以下步骤的程序:解释取得的描绘命令的内容的步骤,就文字的描绘命令判定该文字是库内字还是库外字的步骤,在判定为库外字的场合,取得该库外字的位图数据的步骤,以及输出包括上述位图数据和上述库外字的位置坐标的印刷数据的步骤。由此,由于针对印刷数据保持库外字的位图消息,所以即使在单据上包含分别分配给多个医疗机构的库外字的场合,也可以正确地在画面上显示库外字的字体,用打印机在纸上印刷。
附图的简要说明
图1是作为本发明的一个实施例的单据信息处理装置的构成图。
图2是内容提取部121的处理流程图。
图3是输入数据和处理结果的数据的说明图。
图4是成为信息处理的对象的单据之一例。
图5是表示步骤203里所示的边框提取的结果和步骤205里所示的文字串提取的结果的图。
图6是说明边框·属性辞典122的图。
图7是说明步骤209的边框外部的属性赋予·内容提取的处理结果的图。
图8是说明库外字信息305的细节的图。
图9是说明步骤1004印刷信息的生成处理的顺序的图。
图10是靠虚拟打印机驱动器111作成印刷数据文件113的顺序的说明图。
图11是说明带属性内容文件128之一例的图。
图12是画面显示·在印刷部125的印刷数据向位图消息的恢复顺序的说明图。
图13是说明边框结构辞典的构成的图。
图14是说明边框属性辞典1400的构成的图。
图15是表示步骤204的属性赋予的处理顺序的图。
图16是把内容文字串变换成数码的变换表124的数据形式的说明图。
图17是说明边框内部的内容提取步骤208的处理顺序的图。
图18是步骤209的边框外部的属性赋予·内容提取处理中用的边框·属性辞典之一例。
图19是步骤209的边框外部的属性赋予内容提取处理的流程图。
图20是说明编辑·检索部126中的对印刷数据的编辑处理的顺序的图。
图21是说明有续页的处方的印刷数据的形式的图。
具体实施方式
下面,基于附图就本发明的最佳实施例进行说明。再者,本申请的处理也可以通过在计算机等信息机上安装执行本申请的处理流程的程序来实现。
图1是作为本发明的一个实施例的单据信息处理装置的构成图。经由通信网络100,由设置在医疗机构的单据作成部101和设置在审查机构的单据内容数码化部102组成。控制部107控制单据作成部101的各部,靠所起动的请求程序108,例如从键盘等输入诊治内容而作成单据信息。在印刷到纸上的场合,所作成的单据信息靠打印机选择器109来选择打印机驱动器110,在打印机103以纸的形式输出。另一方面,在作为印刷数据以文件的形式输出的场合,选择虚拟打印机驱动器111。本发明中的虚拟打印机驱动器并不向实际的打印机输出单据信息,而是根据请求程序108来解释为印刷用所输出的描绘命令向作为电子文件形式的印刷数据文件113输出单据信息。作为描绘命令可以是图表的印刷·显示用的命令,也可以是描述单据的基本描述语言或面向因特网的描述语言XML。再者,关于虚拟打印机驱动器,在特开平7-311778中记载着一个例子。此外,在单据作成部101上具备库外字文件112,在对作为单据信息的文字使用库外字的场合,虚拟打印机驱动器111向印刷数据文件113输出库外字信息。在印刷数据文件113中保存着包含位置坐标的文字信息、线信息、包含表示库外字字体的位图消息的库外字信息、以及页的控制信息。印刷数据文件113经由通信网络100传送到单据内容数码化部102。再者,该印刷数据文件113也可以用电子媒体,例如软盘等,配送到单据内容数码化部102。此外,也可以是单据内容数码化部102与单据作成部101位于同一计算机内部。
在单据内容数码化部102中,在印刷数据文件129中保管所传送的印刷数据,并且分析该印刷数据,提取内容,并且变换成规定的数码。靠控制部120控制各部。此外,连接着显示装置104、键盘105、打印机106。在画面显示·印刷部125中,根据印刷数据来生成位图消息,在显示装置104中把单据显示在画面上。此外,靠打印机106把单据印刷在纸上。在内容提取部121中,从印刷数据提取单据的项目栏和与项目栏对应的内容栏。这里,用备有预先设定的框架结构或作为项目名的属性的框架·属性辞典122,提取内容。例如,在处方中作为项目有伤病名,在与伤病名对应的内容栏中具体的伤病名、例如记载着心力衰竭等,在该内容提取部121中,提取作为与作为项目的伤病名对应的具体的内容的心力衰竭等文字串,储存在带属性内容文件128中。此外,在数码变换部123中,用保管着伤病名及其内容码的变换表124,把提取的内容文字串变换成内容码,储存在数码化文件127中。
在编辑·检索部126中,对印刷数据进行具有指定属性的内容栏的变更,并且按照包含属性的检索条件来检索印刷数据,求出想要的单据信息。
图4中作为信息处理对象的单据之一例,用400示出印刷在纸上,或者,显示在画面上的状态的单据。单据如图所示,由文字信息和线信息组成。由纵线和横线所围成的区域是边框。由边框内的文字串410、420、412、421、422等和边框外的文字串401、402、403、404组成。与记载成“姓名”的项目栏410对应有内容文字串420,在该栏中记载着“山田次郎”。此外,同样地,与项目栏412对应有内容文字串421、422。进而与项目栏413对应有内容文字串424、425。也有项目的文字串415“请求评分”和与之对应的内容文字串426“6,655”记载于同一边框的场合。在项目的文字串416“确定评分”中,没有记载对应的内容文字串。对记载成“评分”414的文字串,记载着内容文字串423。此外,与项目名的文字串417“一部分负担费用日元”对应的内容文字串427“8,445”与项目的边框是同一个。边框外的文字串401、402、403、404分别是内容文字串。作为对于属性“诊治年”的内容文字串401记载着“13”,作为对于属性  “诊治月”的内容文字串402记载着“10”,作为属性“县编号”的内容文字串403记载着“33”,作为属性  “医疗机构码”的内容文字串404记载着“123456”。
下面详细说明图1中所示的各部的细节。
图10是靠虚拟打印机驱动器111来作成印刷数据文件113的顺序的说明图。如果用虚拟打印机驱动器来执行印刷,则进行步骤1001、1002以后的处理,直到在步骤1000里送到虚拟打印机驱动器的描绘命令穷尽为止。在步骤1001里接收描绘命令,在步骤1002里,判定该描绘命令是页开始控制信息、文字·线·库外字信息、页结束控制信息中的哪一种。若是页开始控制信息的场合,在步骤1003里打开印刷数据文件113。此外,在该描绘命令是文字·线·库外字信息的场合,在步骤1004里生成印刷信息。进而,在该描绘命令是页结束控制信息的场合,在步骤1005里关闭印刷数据文件113,在步骤1006里移动到由1007表示的处理点。
图9是说明步骤1004印刷信息的生成处理的顺序的图。在步骤900里输入描绘命令,在步骤901里解释该描绘命令。在步骤902里判定描绘命令的描绘对象是文字还是文字以外,例如线。若是描绘命令的描绘对象是文字的场合,在步骤903里判别是库内字还是库外字。这里,所谓库内字是标准地分配了文字码的文字,是作为工业标准可以确定的文字码。另一方面,所谓库外字是作为工业标准不能确定的文字码。在库内字的场合,根据描绘命令的解释结果在步骤904里指定字体,进而,在步骤905里指定文字位置,在步骤906里生成文字信息,在步骤907里把文字信息储存在印刷数据文件113中。文字信息的例子示于303。另一方面,若是在步骤903里判定成库外字的场合,在步骤908里访问以位图形式储存库外字的字体的库外字文件112的位图图像,在步骤909里读入该库外字的图像。然后,在步骤910里指定文字的位置坐标,在步骤911里生成库外字信息305,在步骤912里把库外字信息305储存在印刷数据文件113中。库外字信息305之一例示于800。在步骤902里判定成描绘命令的描绘对象是文字以外的场合,在步骤913里指定线的起点和终点的位置坐标,在步骤914里生成线信息304,在步骤915里把线信息304储存在印刷数据文件113中。最后在步骤916里发送根据描绘命令的印刷信息的生成结束。
图2是内容提取部121的处理的流程图。对于含有文字信息和线信息、库外字信息的印刷数据,在步骤200里首先作为文字信息提取各文字的位置坐标。然后,在步骤201里提取库外字信息,在步骤202里提取线信息。作为线信息,包括线的起点坐标和终点坐标,有纵线和横线。在步骤203里用线信息提取由纵线和横线所围成的边框。在步骤204里对所提取的各边框用边框·属性辞典122赋予属性。步骤204的属性赋予的详细处理在图15中说明。图15是表示步骤204的属性赋予的处理顺序的图。首先,在步骤1500里输入预先准备的由1300、1400表示的边框·属性辞典。此外,在步骤1501里输入从印刷数据在步骤203里提取的边框提取结果。接着,在步骤1502里进行边框·属性辞典和边框提取结果的对照,确定与辞典中所设定的边框对应的边框。然后,在步骤1503里用属性辞典1400对提取的边框赋予属性。
在步骤205里用文字信息提取作为文字的排列的文字串。图5示出在步骤203里表示的边框提取的结果和在步骤205里表示的文字串提取的结果。根据印刷数据的由500表示的单据,边框内的文字串作为包围文字串的长方形的坐标来提取。边框510内的文字串530,边框511内的文字串531,边框512内的文字串532,边框513内的多个文字串533,边框514内的文字串534,边框515内的文字串535,边框516内的文字串536,边框517的多个文字串557,边框518内的多个文字串558,边框519内的文字串559,边框520内的多个文字串560,分别被提取。
接着,重复步骤207以后的处理,直到在步骤206里文字串穷尽为止。在步骤207里判定该文字串是边框内部还是边框外部,如果是边框内部,则在步骤208里进行边框内部的内容提取。另一方面,如果该文字串是边框外部,则在步骤209里进行对边框外部文字串的属性赋予和内容提取。
边框内部的内容提取步骤208的细节在图17中说明。首先,在步骤1700里输入提取的边框的坐标和文字串的坐标。然后,在步骤1701里进行边框与内部的文字串的建立对应关系。在步骤1702里输入边框的属性,在步骤1703里把该边框的带属性文字串。
下面,图19是步骤209的边框外部的属性赋予内容提取的流程图。在边框·属性辞典1800被读入的状态下,在步骤1900里边框外的文字串被输入。然后,进行步骤1902、1903以后的处理,直到在步骤1901里边框·属性辞典1800中所保管的属性穷尽为止。在步骤1902里设定与边框·属性辞典1800的属性对应的项目文字串,在步骤1903里进行所输入的文字串与项目文字串的对照。然后,在步骤1904里若是输入文字串与项目文字串一致,则在步骤1905里暂时登记该属性。在步骤1906里如果有暂时登记的属性,则在步骤1907里设定与边框·属性辞典1800的与该属性对应的探索方向,并且在步骤1908里设定探索范围。然后在步骤1909里探索与属性对应的内容文字串。在与所输入的文字串对照的项目文字串不一致的场合,拒绝探索就可以了。再者,在单据上本来就没有边框的印刷数据的场合,进行步骤209的边框外部的属性赋予·内容提取处理就可以了。此外,在用边框或项目预先印刷在纸上的处方专用纸印刷的请求程序108的场合,在作成的印刷数据中没有边框和项目两者。在这种没有线信息和项目的文字信息两者的印刷数据的场合,也可以在从存在的文字信息提取的文字串中设定与由600表示的边框结构辞典同样的虚拟边框,用该虚拟边框提取文字串并赋予属性。
图7是说明步骤209的边框外部的属性赋予·内容提取的处理结果的图。对由400表示的输入单据的步骤209的处理结果示于700。通过步骤209从边框内的文字串中提取与内容对应的文字串。在步骤203里所提取的710至720中所示的边框与预先准备的图6中所示的辞典600对照,在步骤204里边框的种类、属性赋予各边框。对输入单据,用粗实线表示的边框711、713、715、717、718、719、720内的文字串731、733、734、736、739、720、744、745是表示内容的文字串。再者,边框718、719、720边框种类如1439、1440、1441中所示是项目·内容同一边框,包含项目的文字串和内容的文字串,从这些文字串根据配置信息来选择内容文字串。
图3是输入数据和处理结果的数据的说明图。印刷数据300表示1页量的数据。由页开始控制信息302、文字信息303、线信息304、库外字信息305、页结束控制信息306组成。页开始控制信息302是表示页的开始的控制信息。在文字信息303中包含文字码及该文字的位置坐标。例如,在文字“伤”中,作为位置坐标保管着x坐标的值171,y坐标的值1692。此外,作为文字信息、在库外字的场合,在库外字信息305中有分配给该库外字的文字码和该文字的位置信息。线信息304包括线的起点坐标和终点坐标。例如,某条线的起点的x坐标是200,y坐标是500,终点的x坐标是200,y坐标是4000。在本例中,从坐标值看出是纵线。再者,次页的印刷数据示于301。库外字信息305由库外字的文字码和库外字的文字字体的位图消息组成。图8是说明库外字信息305的细节的图。由800表示的库外字信息中,包含库外字的数码和该库外字的位图消息。图中,由801、802、803表示的库外字数据中,库外字的数码,例如,在801的库外字数据中分配由16进数f040表示的文字码,其次位图消息由0、1的排列来保管。由128表示的带属性内容文件的文字串数据示于310。再者,311示出带属性文字串数据的次页。文字串数据312、313、314保管着表示属性及其内容的文字串。例如,在文字串数据312中,作为属性保存着“伤病名”,作为对应的内容保存着“心力衰竭”。数码化文件127中所保存的数码化数据示于320、321、320是1页量的数码化数据,321是次页量的数码化数据。312中表示的内容文字串“心力衰竭”变换成由322表示的内容码“1000”。此外,313中表示的“高血脂症”变换成内容码323“1010”,314中表示的“硼酸0.4g”变换成内容码324“2000”。
图21是说明有续页的处方的印刷数据的形式的图。印刷数据2100由第1页的印刷数据2101,作为续页的第2页的印刷数据2102,其次的页的印刷数据2103组成。在各页中设定页开始控制信息2110、2120,页结束控制信息2114、2124。文字信息2111、2121,线信息2112、2122,库外字信息2113、2123与由300所示的1页的印刷数据同样地设定。与第2页以后的续页对应的印刷数据2102的内容,固定地赋予属性,例如处方中由1455表示的“摘要”就可以了,或者,也可以另外具备面向续页的边框·属性辞典122,在内容提取部121中对与续页相当的印刷数据也提取内容。这样一来,对与处方的续页相当的印刷数据也给内容文字串赋予属性而具有可以数码化这样的效果。
图6是说明边框·属性辞典122的图。对于由600表示的标准的单据,作为辞典保管边框610、611、612、613、614、615、616、617、618、619、620。其内,由粗实线表示的边框611、613、615、617、618、619、620是成为内容文字串所记载的内容栏。另一方面,边框610、612、614、616是项目,也就是表示内容栏的属性的项目栏。预先,在该辞典内备有边框是内容栏还是项目栏的信息。边框·属性辞典122由图13中所示的边框结构辞典1300和图14中所示的边框属性辞典1400组成。图13是说明边框结构辞典的构成的图。边框结构辞典1300的数据形式是备有边框编号1301、边框中心坐标1302、边框高度1303、边框宽度1304的各值的形式。在本实施例中,边框有从1311到1321的11个边框,分别备有边框编号1301、边框中心坐标1302、边框高度1303、边框宽度1304的各值。例如,在由1311表示的边框编号1中,边框中心坐标如1330中所示,x坐标是150,y坐标是1500。此外,该边框的边框高度如1331中所示为“100”,边框宽度如1332中所示为“500”。此外,图14是说明边框属性辞典1400的构成的图。边框属性辞典1400的数据形式是备有边框编号1401、边框种类1402、属性1403的各值的形式。边框编号从1411到1421有11个,与由图13的从1311到1321表示的边框编号相同。作为1402中所示的边框种类,有项目所记载的边框、内容所记载的边框、项目和内容记载于同一处所的边框。对应于各边框编号,边框种类设定为1411至1421。进而,对于各边框编号,属性设定为1451至1461。例如,由1411表示的边框编号1的边框,对应于边框610,边框种类为1431中所示的项目,属性为1451“姓名”。1412的边框编号2,对应于边框611,边框种类为1432内容,属性为1452“姓名”。这样一来,与610中所示的边框1对应的内容栏是611的边框2这种对应关系在该边框属性辞典中保管着。此外,由1421表示的边框编号11的边框,对应于边框620,边框种类为1441中所示的项目·内容,其属性为1461中所示的“一部分负担费用”。
图18是说明步骤209的边框外部的属性赋予·内容提取处理中用的边框·属性辞典之一例1800的数据形式的图。该辞典的数据由属性1801、项目文字串1802、探索方向1803、探索范围1804组成。为了提取具有属性1801的内容文字串,以项目文字串1802中所示的文字串为线索,探索规定的探索方向且位于探索范围的内容文字串。作为属性1810“诊治年”,设定项目文字串1820“年”,探索对应的内容文字串的方向1830为“左方”,在由1834表示的探索范围中,探索内容文字串。同样,对于属性1811“诊治月”,设定项目文字串1821“月份”、探索方向1803“左方”、探索范围。对于属性1813“医疗机构码”,设定项目文字串1823“医码”、探索方向1833“右方”、探索范围。
图11是说明带属性内容文件128之一例的图。带属性内容文件128的数据形式如1100中所示,由与属性对应的项目和与该项目对应的内容栏的文字串组成。对于1101至1112的项目,分别提取1121至1132的内容文字串并保管于带属性内容文件128。例如,与属性“诊治年”对应的项目名1101与“年”相关联地保管内容文字串“13”。此外,对于1111中所示的项目名“请求评分”保管内容文字串“6,665”。
图16是把内容文字串变换成数码的变换表124的数据形式的说明图。作为变换表124之一例,伤病名的变换表示于1600。作为变换表,包括药剂名的变换表,诊治行为的变换表。由数据示于1601的伤病名和示于1602的内容码组成。如果示出一个例子,则作为伤病名的“心力衰竭”1611,作为数码分配1621中所示的“1000”。此外,对1612“高血脂症”分配内容码“1010”,对1613“腰痛症”分配内容码1623“1020”,对1614“关节痛”分配内容码1624“1030”。
图12是画面显示·印刷部125中的印刷数据向位图消息的恢复顺序的说明图。所恢复的位图消息向显示装置104或打印机106输出。首先,在步骤1200里打开印刷数据文件129,进行步骤1204以后的处理,直到在步骤1201里印刷数据内的描绘命令穷尽为止,最后在步骤1203里关闭该印刷数据文件129。在步骤1204里输入印刷数据内的描绘命令,在步骤1205里解释描绘命令。然后,在步骤1206里判定该描绘命令的描绘对象是文字还是线。若是文字的场合,在步骤1207里判定是库内字还是库外字。在库内字的场合,在步骤1210里设定字体,在步骤1211里设定位置坐标。然后在步骤1212里把文字图像描绘成位图消息。另一方面,在描绘对象为库外字的场合,在步骤1213里访问印刷数据文件中所储存的库外字信息800的库外字位图数据,在步骤1214里读入该库外字图像。然后在步骤1215里设定位置坐标,在步骤1216里把库外字图像描绘成位图消息。另一方面,在描绘对象为线的场合,在步骤1208里设定起点和终点的位置坐标,在步骤1209里把线描绘成位图消息。因为用印刷数据内所保存的库外字信息从印刷数据恢复单据,故即使针对作成处方的医疗机构的库外字的分配不同,也可以在审查机构正确地恢复包含该库外字的印刷数据,具有能够在画面上显示·印刷这样的效果。
图20是说明编辑检索部126中的对印刷数据的编辑处理的顺序的图。首先,在步骤2000里指定内容的更新等打算编辑的单据内容栏的属性。然后在步骤2001里从例如键盘105输入更新的内容文字串。在步骤2002里读入作为编辑对象的印刷数据文件129。在步骤2003里从印刷数据提取与所指定的属性对应的内容边框。内容边框的提取处理可以通过与图15中所示的提取内容边框并进行属性赋予的处理同样的处理来实现。在步骤2004里提取该内容边框内的文字串。在步骤2005里进行在该边框内有没有文字的判定。若是有编辑对象的文字串,则在步骤2006里从印刷数据删除适当的文字信息。在步骤2007里生成带位置坐标的文字信息。这里,把根据该边框的坐标算出的位置坐标附加于所输入的内容文字串,生成303中所示的文字信息。然后,在步骤2008里把所编辑的文字信息写入印刷数据文件129。这样一来,因为可以进行由描绘命令的形式组成的印刷数据的编辑,故可以例如把评分写入成为空栏的处方400的确定评分栏416。此外,在检索处理中,作为检索条件,指定属性和关于内容文字串的条件。例如,作为检索条件,对于属性指定“请求评分”,对于关于内容文字串的条件指定“6000分以上”。与步骤2003里所示的处理同样地提取与指定的属性对应的内容边框,通过与步骤2004同样的处理提取该内容边框中所含的文字串。对于该内容文字串,探索满足先前设定的检索条件“6000分以上”的单据。这样一来,因为可以指定属性而探索具有规定条件的内容文字串,故像数字文字串那样,即使是印刷数据中包括多个的内容文字串,也可以求出具有指定属性的文字串的单据,所以与单纯检索印刷数据内的数字文字串的场合相比,具有提高对印刷数据的检索精度的效果。
如上所述,本申请发明的单据信息处理装置,其特征在于,包括在所输入的单据数据的处理中,作为印刷数据获得描述单据的信息的机构,从该印刷数据提取内容栏的位置坐标的机构和提取内容栏中所含文字串的机构,以及把与内容对应的项目作为属性赋予该文字串的机构。上述提取内容栏的位置坐标的机构,其特征在于,包括预先把单据的边框的结构作为辞典保持的机构和从线信息提取边框的机构,以及把辞典内的边框与提取的边框对照而确定相当于内容栏的边框的机构。此外,也可以包括预先把单据的项目栏和内容栏的相对位置和项目栏的文字串作为属性辞典保持的机构,以及把属性辞典内的文字串与单据内的文字串对照而提取项目栏的文字串的机构,用项目栏和内容栏的相对位置算出内容栏的位置坐标。
进而,获得印刷数据的机构,其特征在于,与该单据的印刷数据一起获得单据的续页上记载的印刷数据,对续页的内容赋予特定的属性。
此外,其特征在于,在收到指定属性的场合,包括对印刷数据提取与该指定属性对应的内容栏的位置坐标的机构,在印刷数据中新生成或变更该内容栏中所含内容文字串的编辑机构,作为检索条件指定属性和与内容文字串有关的条件的机构,从该印刷数据提取与指定属性对应的内容栏的位置坐标的机构,提取内容栏中所含文字串的机构,以及探索内容栏的文字串满足规定条件的单据的机构。由此,由于可以提取与指定属性对应的内容栏的位置坐标,所以对于印刷数据可以进行在该内容栏中文字串的插入或修正等编辑处理。
此外,其特征在于,包括访问在表现所输入的单据的印刷数据的内部所保管的包含文字的位图消息的库外字信息的机构和用该库外字的位图消息描绘文字字体而把单据显示在画面上,或者在打印机中印刷的机构,因此上述获得印刷数据的机构,其特征在于,包括获得文字信息的机构和获得线信息的机构和获得包含文字的位图消息的库外字信息的机构。
像以上说明的这样,如果用本发明的单据信息处理装置,则因为可以对由描绘命令组成的印刷数据把项目作为属性提取与内容相当的文字串,故即使像数字文字串那样在印刷数据中包含多个文字串也可以对内容文字串赋予数码。例如,可以进行数字文字串是处方的请求评分还是一部分负担费用的属性判别,可以正确地赋予数码。
此外,即使每个医疗机构分配给库外字的文字码不同,也因为在印刷数据内部保管着库外字字体的位图消息,故可以根据包含库外字的印刷数据正确地恢复,在审查机构中可以把从各个医疗机构所提交的处方正确地显示在画面上,或者印刷。
此外,由于仅靠在医疗机构中所设置的单据作成部设定虚拟打印机驱动器就可以获得印刷数据,所以具有以廉价的装置构成可以作成处方的电子媒体这样的效果。
此外,有时在处方中附加续页,可以把该续页作为印刷数据来处理,从续页的内容提取和内容数码化是可能的。
进而,可以实现对印刷数据的编辑操作。例如,在处方中有记载作为项目的确定评分的栏。虽然在审查机构中审查诊治内容后,就把确定评分记入该确定评分栏,但是可以对印刷数据插入确定评分,没有必要准备保存确定评分的其他数据形式,处理变得容易。
此外,在对印刷数据进行检索的场合,可以实现利用属性的检索。例如,在作为属性检索具有请求评分的数字文字串大于规定值的处方的场合,即使在处方上记载着多个数字文字串,也可以提取想要的处方。

Claims (8)

1.一种单据处理装置,备有包括记载于单据上的文字和该文字所在的坐标和线信息的印刷数据的取得装置,控制该印刷数据的处理的控制装置和数据存储装置,其特征在于,
上述存储装置储存单据上所印刷的边框的信息,
上述控制装置控制如下的处理,即根据从上述取得装置取得的印刷数据,用上述边框的信息,提取单据的内容栏和项目栏上所记载的文字串,把与上述内容栏对应的项目栏中所记载的文字串作为属性赋予该内容栏的文字串,把上述赋予了属性的文字串储存在上述数据存储装置。
2.权利要求1所述的单据处理装置,其特征在于,
上述存储装置将项目栏与该项目栏中的文字串,内容栏与对应的项目栏中所记载的文字串对应起来,作为辞典储存上述边框信息,
上述控制装置从上述印刷数据提取线信息,
对照储存于上述辞典的边框信息和上述所提取的线信息,
基于上述对照结果,把储存于上述辞典的对应的项目栏的文字串作为属性赋予内容栏内的文字串。
3.权利要求1或2中的任何一项中所述的单据处理装置,其特征在于,上述控制装置对印刷数据的续页的内容赋予特定的属性。
4.一种程序,是在备有包括记载于单据上的文字和该文字所在的坐标和线信息的印刷数据的取得装置,和储存印刷于单据上的边框信息的数据存储装置的计算机中执行单据处理用的程序,其特征在于,包括
用上述印刷数据取得装置取得印刷数据的步骤,
访问上述存储装置而取得所储存的边框信息的步骤,
用该边框信息从上述印刷数据提取内容栏和项目栏中所记载的文字串的步骤,以及
把对应于上述内容栏的项目栏中所记载的文字串作为属性赋予该文字串并储存于上述存储装置的步骤。
5.权利要求4所述的程序,用来在计算机中执行
作为检索条件输入属性和关于内容栏中所记载的文字串的条件的步骤,
从该印刷数据提取与上述指定属性对应的内容栏的位置坐标的步骤,
提取上述内容栏中所含文字串的步骤,以及
输出上述内容栏的文字串满足上述检索条件的单据的步骤。
6.一种程序,用来在计算机中执行
取得描绘命令的步骤,
解释上述描绘命令的内容的步骤,
就文字的描绘命令判定该文字是库内字还是库外字的步骤,
在判定为库外字的场合,取得该库外字的位图数据的步骤,以及
输出包含上述位图数据和上述库外字的位置坐标的印刷数据的步骤。
7.一种单据信息处理装置,备有取得印刷数据的装置,显示该印刷数据的显示装置,和控制该印刷数据的处理的控制装置,其特征在于,
靠上述印刷数据取得装置所取得的印刷数据包括关于库外字的位图数据,
上述控制装置用上述位图数据在上述显示装置上显示库外字的字体。
8.一种单据信息处理系统,是包括单据作成装置和单据信息处理装置的单据信息处理系统,其特征在于,
上述单据作成装置和上述单据信息处理装置经由网络连接,上述单据作成装置包括取得描绘命令的装置和控制该描绘命令处理的控制装置,上述控制装置控制解释上述描绘命令的内容并输出印刷数据的步骤,
上述单据信息处理装置包括储存单据上所印刷的边框信息的存储装置,经由上述网络接收印刷数据的接收装置和控制该印刷数据处理的控制装置,上述控制装置控制根据上述取得的印刷数据用上述边框信息提取内容栏和项目栏的步骤,提取单据上所记载的文字串的步骤,以及把对应于上述内容栏的项目栏中所记载的文字串作为属性赋予该内容栏的文字串的步骤。
CN 02141402 2002-02-22 2002-08-28 单据信息处理装置,单据信息处理系统和程序 Pending CN1439984A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002046790A JP4276402B2 (ja) 2002-02-22 2002-02-22 帳票処理装置
JP046790/2002 2002-02-22

Publications (1)

Publication Number Publication Date
CN1439984A true CN1439984A (zh) 2003-09-03

Family

ID=27800005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02141402 Pending CN1439984A (zh) 2002-02-22 2002-08-28 单据信息处理装置,单据信息处理系统和程序

Country Status (2)

Country Link
JP (1) JP4276402B2 (zh)
CN (1) CN1439984A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810153A (zh) * 2014-02-17 2014-05-21 深圳市世纪安软信息技术有限公司 用于测温终端的测温表格生成方法及装置、测温系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085554A (ja) * 2004-09-17 2006-03-30 Oki Electric Ind Co Ltd 帳票分類処理システム、電子媒体帳票の作成方法および納入方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810153A (zh) * 2014-02-17 2014-05-21 深圳市世纪安软信息技术有限公司 用于测温终端的测温表格生成方法及装置、测温系统

Also Published As

Publication number Publication date
JP2003248794A (ja) 2003-09-05
JP4276402B2 (ja) 2009-06-10

Similar Documents

Publication Publication Date Title
US11868717B2 (en) Multi-page document recognition in document capture
US7587413B2 (en) Information storage and retrieval system for storing and retrieving the visual form of information from an application in a database
US7996759B2 (en) Data insertion from a database into a fixed electronic template form that supports overflow data
DE3486224T2 (de) Verfahren zum Speichern und Wiederauffinden von digitalen Informationen.
EP2544099A1 (en) Method for creating an enrichment file associated with a page of an electronic document
CN104361018B (zh) 电子档案信息整编方法及装置
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN1702617A (zh) 用于在起始模板和目标模板之间映射内容的方法和系统
JPH0776958B2 (ja) 文書整形装置
CN111797630A (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN112528602A (zh) 一种医药文档结构化内容分析方法、系统和存储介质
CN114023414A (zh) 一种体检报告多层次结构录入方法、系统以及存储介质
Mara et al. Breaking the code on broken tablets: The learning challenge for annotated cuneiform script in normalized 2d and 3d datasets
CN1113307C (zh) 格式化计算机生成的输出文件的方法和系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN105512096B (zh) 一种基于文档中内嵌字体的优化方法及装置
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data
CN1439984A (zh) 单据信息处理装置,单据信息处理系统和程序
Monroy et al. Visualization of variants in textual collations to analyze the evolution of literary works in the Cervantes project
CN110110270B (zh) 一种并行处理的大型族谱世系图的生成方法及装置
JP4538245B2 (ja) データベースの作成システム及びデータベースの作成方法
CN117787211B (zh) 一种图文设计页面识别排版整理方法
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム
CN114419649A (zh) 用于医疗票据ocr的版面分析方法和装置、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned