CN104077346A - 文档制作支援装置、方法及程序 - Google Patents
文档制作支援装置、方法及程序 Download PDFInfo
- Publication number
- CN104077346A CN104077346A CN201410092798.7A CN201410092798A CN104077346A CN 104077346 A CN104077346 A CN 104077346A CN 201410092798 A CN201410092798 A CN 201410092798A CN 104077346 A CN104077346 A CN 104077346A
- Authority
- CN
- China
- Prior art keywords
- document
- text line
- object character
- database
- relative importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
- G06V30/387—Matching; Classification using human interaction, e.g. selection of the best displayed recognition candidate
Abstract
本发明涉及文档制作支援装置、方法及程序,能够高效地对用户的文档制作进行支援。本实施方式的文档制作支援装置包括判定部、检索部和提示部。判定部,基于包含对处理对象的文字列即对象文字列进行文字识别后的文字识别结果、和示出该对象文字列出现在文档中哪个位置的位置信息的特征量,对包含该对象文字列的文档的种类即文档种类进行判定。检索部,在满足用于对与所述对象文字列关联的关联文字列进行检索的检索条件的情况下,从根据所述文档种类来设定优先度的作为该关联文字列的检索基础的数据库中,检索该关联文字列,按照基于所述优先度的评分从高到低的顺序得到该关联文字列;以及提示部,其按照基于所述优先度的评分从高到低的顺序提示所述关联文字列。
Description
技术领域
本发明的实施方式涉及文档制作支援装置、方法及程序。
背景技术
近年来,硬件和软件的计算机环境在飞跃性提高。尤其是随着小型终端的普及及其性能的提高,以往由于处理性能、存储容量的不足等不能实现的平板式的手写终端、模拟纸和铅笔的操作性的软件正在普及。
随着手写终端和关于手写的软件的增加,不仅将手写信息作为图像进行保存,将手写信息作为电子文本进行识别的手写文字识别技术也在普及。通过保存将手写信息作为电子文本进行识别的结果,能够活用于检索和再利用中。另外,通过与网络环境连接将制作好的文档公开,或者与他人共享的方法也在普遍普及。
【现有技术文献】
【专利文献】
【专利文献1】
日本特开2004-133565号公报
【专利文献2】
日本特开平9-91293号公报
发明内容
【发明要解决的技术问题】
在手写文档制作时,与通常利用键盘的电子文本制作不同,用户能够使用笔或手写笔等以自由的笔记进行输入。因此,有可能即使用户输入错记的单词或模糊程度高的关键词或句子,由于利用假名汉字转换功能的候补制约等不起作用,而使得用户自己没有注意到错误。进一步地,也有可能存在用户以省略的形式输入了文字列的情况下,用户自己日后再看时内容想不起来、或共享文档时等他人不能了解内容的情况。
另外,手写文字识别与一般地铅字OCR(optical character reader光字符识别)等相比,文字识别的精度不够。因此,在检索对手写信息进行文字识别后的电子文本的情况下,由于文字识别错误,会产生不能检索用户想写的文档,或者电子文本不能正确分类的状况。
存在通过譬如网络的多数票来修正这样的文字识别错误的方法,对于一般的关键词能够实现错误的修正。但是,考虑到个人的手写笔记等的用途的情况下,网络的命中件数并不一定能够有效起到作用。即,关于假设为个人笔记的单词或省略语,不能说网络的命中件数多的单词就是确切的候补,进一步地,关于像文档被共享这样的、团队或岗位内的独自用语或专业用语的插值或修正,也不能提示确切的候补。进一步地,通过多数票来修正的手法中,对于前后同现的复合单词或句子、在文档内分开的位置出现的单词或句子,也不能提示确切的候补。
本发明是为了解决上述问题而提出的,其目的在于,提供能够高效地支援用户的文档制作的文档制作支援装置、方法和程序。
【解决问题的技术手段】
本实施方式涉及的文档制作支援装置包括:判定部基于包含对处理对象的文字列即对象文字列进行文字识别后的文字识别结果、和示出该对象文字列出现在文档中哪个位置的位置信息的特征量,对包含该对象文字列的文档的种类即文档种类进行判定。检索部在满足用于对与所述对象文字列关联的关联文字列进行检索的检索条件的情况下,从根据所述文档种类来设定优先度的成为该关联文字列的检索基础的数据库中,检索该关联文字列,按照基于所述优先度的评分从高到低的顺序得到该关联文字列。提示部按照基于所述优先度的评分从高到低的顺序提示所述关联文字列。
附图说明
图1是示出本实施方式的文档制作支援装置的框图。
图2是示出文档制作支援装置的动作的流程图。
图3是示出由特征提取部判定的检索条件的一例的图。
图4是示出文档种类的生成处理的流程图。
图5是示出种类判定部的种类判定处理的流程图。
图6是示出对应表生成处理的流程图。
图7是示出候补检索部的检索处理的流程图。
图8是示出候补检索部的评分算出处理的具体例的图。
图9是示出显示于提示部的用户界面的一例的图。
图10是示出与文字识别精度对应的用户界面的一例的图。
图11是示出文字列的调整大小处理的图。
具体实施方式
以下,参照附图对本实施方式涉及的文档制作支援装置、方法和程序进行详细说明。另外,在以下的实施方式中,赋予同一的参照符号的部分作为进行同样动作的部分,对于重复的说明进行了适当地省略。
对于本实施方式涉及的文档制作支援装置,参照图1的框图进行说明。
本实施方式涉及的文档制作支援装置100包括:特征提取部101、种类判定部102、候补检索部103、候补选择部104、转换部105、提示部106、文档种类数据库107(以下、称为文档种类DB107)、同现句数据库108(以下、称为同现句DB108)、用户输入历史记录数据库109(以下、称为用户输入历史记录DB109)、同现语词典数据库110(以下、同现语词典DB110)、群共有词典数据库111(以下、称为群共有词典DB111)和字体数据库112(以下、称为字体DB112)。
特征提取部101从外部接收文档,将对文档中作为处理对象的对象文字列进行了文字识别处理的文字识别结果、和显示对象文字列出现在文档中的哪个位置的位置信息,作为包含对象文字列的文档的特征量进行提取。位置信息只要取得例如有关文档中的对象文字列的位置、以及包含对象文字列的行和段的块的位置的信息即可。
另外,在特征提取部101接收的文档是用户的手写笔划的情况下,特征提取部101对手写笔划进行手写文字识别处理。然后,特征提取部101将各个手写笔划的集合即对象文字列的文字识别结果和位置信息,作为包含对象文字列的文档的特征量进行提取。另外,对于文字识别处理,只要进行一般的文字识别处理即可,因此这里将其说明省略。
另外,特征提取部101判定是否满足用于对对象文字列检索关联文字列的条件即检索条件。关联文字列显示与对象文字列有关的修正候补的文字列或者插值候补的文字列。特征提取部101判定为满足检索条件的情况下,将特征量发送到种类判定部102。关于检索条件将参照图2和图3在后文叙述。
种类判定部102接收来自特征提取部101的特征量,参照后述的文档种类DB107,基于特征量判定包含对象文字列的文档的种类即文档种类。文档种类列举有例如日记、书信、论文这样一般的文档、会议笔记、社内笔记、购物清单等这样个人的文档。
候补检索部103从种类判定部102接收特征量和文档种类。候补检索部103从作为检索基础的后述的同现句DB108、用户输入历史记录DB109、同现语词典DB110和群共有词典DB111,基于根据文档种类设定的数据库的优先度,对与对象文字列关联的文字列进行检索,按照基于优先度的评分从高到低的顺序得到一个以上的关联文字列。
候补选择部104从候补检索部103接收一个以上的关联文字列。候补选择部104按照来自用户的指示选择关联文字列从而得到选择文字列。
转换部105从候补选择部104接收选择文字列,将选择文字列的字体转换为储存在后述的字体DB112中的字体。另外,指定显示选择文字列和对象文字列的区域,并且在以现在的字体大小来显示选择文字列和对象文字列时超出区域外的情况下,对选择文字列和对象文字列的字体大小进行调整使其收容在区域内。
提示部106从候补检索部103接收对象文字列和关联文字列,将对象文字列和关联文字列提示于显示器等。此时,将关联文字列按照基于优先度的评分从高到低的顺序提示。另外,提示部106按照来自用户的指示得到了选择文字列的情况下,从转换部105接收字体被转换了的选择文字列、或者字体被转换且字体大小被调整了的选择文字列和对象文字列,并对对象文字列和选择文字列进行提示。
文档种类DB107按照各文档种类对应储存文档种类的识别子(ID)和基准特征量。基准特征量是作为用于确定文档种类的基准的特征量。关于基准特征量将参照图5在后文叙述。
同现句DB108将web文档等作为语料库,通过一般的新语和未知语将与同现语的组合分别对应储存。
用户输入历史记录DB109根据用户输入了的关键词和句子的历史记录来储存同现语的组合。
同现语词典DB110储存一般的同现语、俗语、季语的对应、依存分析、语法制约等。
群共有词典DB111储存用于特定的群或成员之间的、在用户所属的群共同使用的特有的单词、记号等。
字体DB112储存基于用户的手写笔划的字体、和一般的铅字的字体作为字体信息。
接着,参照图2的流程图对文档制作支援装置100的动作进行说明。
另外,在图2的实例中,示出接收来自用户的手写笔划进行处理的实例,对于由键盘输入等产生的铅字文字列构成的文档也进行同样的处理。
在步骤S201中,特征提取部101取得用户输入了的手写笔划。对于手写笔划进行手写文字识别处理,在作为提取结果得到文本文字列的情况下,取得文本文字列。
在步骤S202中,特征提取部101提取对手写笔划进行文字识别后的文字识别结果和位置信息,得到包含对象文字列的文档的特征量。
在步骤S203中,特征提取部101判定是否满足检索条件。检索条件在本实施方式中可以设定为例如,用户输入特定的动作、输入特定的文字列、从取得手写笔划开始没有来自用户的输入的状态经过一定期间,满足任一种条件即满足检索条件。满足检索条件的情况下,进入到步骤S204,不满足检索条件的情况下,返回到步骤S201,继续手写笔划的取得。
在步骤S204中,种类判定部102对包含对象文字列的文档进行种类判定处理,判定文档种类。对于种类判定处理,将参照图4和图5在后文叙述。
在步骤S205中,候补检索部103基于文档种类的判定结果,从根据包含对象文字列的文档的文档种类而设定了优先度的数据库中,检索与对象文字列有关的文字列,按照基于优先度的评分从高到低的顺序得到关联文字列。关于候补检索部103的检索处理,将参照图6和图7在后文叙述。
在步骤S206中,提示部106提示对象文字列和一个以上的关联文字列。
在步骤S207中,候补选择部104基于来自用户的指示,从一个以上的关联文字列中选择文字列,得到选择文字列。
在步骤S208中,转换部105参照字体DB112,将选择文字列转换为用户的手写字体。由此,可以实现通过手写笔划表现的对象文字列、和被插入的选择文字列的文档中的整体性。
在步骤S209中,转换部105在作为插入目的地的指定区域,插入字体被转换了的选择文字列时,判定文字列是否没有超出指定区域外。文字列超出指定区域外时进入到步骤S210,文字列没有超出区域外、即文字列收容在区域内时,进入步骤S211。
在步骤S210中,转换部105调整对象文字列和选择文字列的字体大小,以将其收容在指定区域内。
在步骤S211中,提示部106将对象文字列和选择文字列插入到文档的指定区域。至此结束本实施方式的文档制作支援装置的动作。
另外,对于在步骤S204中的文档种类的判定,通过参照制作文档的应用软件的种类等,就预先了解用户制作的文档的文档种类时,也可以仅对文档种类进行一次判定。这种情况下,对文档种类进行了一次判定之后,不再进行步骤S204的处理,在步骤S203的处理之后进行步骤S205的处理即可。另外,在步骤S208中,示出了将选择文字列变更为手写字体的情况,但并不限定于此,也可以转换为一般的铅字字体。由此,能够容易地把握对对象文字列进行插值的位置。
接着,参照图3对由特征提取部101进行判定的检索条件的一例进行说明。
图3的(a)示出在没有来自用户的笔划输入的状态经过了一定时间的情况下,满足检索条件的实例。经过了一定时间的情况是指:例如系统预先设定的时间、或者用户设定的3s(秒)或10s(秒)这样的时间,在此期间没有笔划、其他操作等来自用户的输入的情况。该时间可以是固定値,也可以是取得用户写入文字列的速度、显示从输入某个文字列开始到输入下一个文字列为止的时间的用户停顿的倾向,然后动态确定提示候补所需的确切的停顿时长。
图3的(b)示出在特定的文字列被输入的情况下,满足检索条件的实例。存在特定的文字列输入的情况是指:作为句子断句的句号和逗号、终端的括弧等的记号被写入的情况。另外,也可以对文本识别结果应用语态分析,在得到的词类中出现了固有名词、用言等特定的类型的情况下,满足检索条件。
如图3的(a)和图3的(b)所示,将经过了一定时间的情况或者输入特定的文字列的情况作为检索条件的话,能够在用户自己没有发现错误的情况下提示关联文字列。
图3的(c)示出取得了来自用户的动作作为模糊部分的指定的情况下,满足检索条件的实例。例如,可以在对象文字列的前后想起作为插值候补的文字列的位置,在涂划填写、多次连续轻敲、对大致的范围反复画出下划线等的动作被输入的情况下,满足检索条件。如图3的(c)所示的动作是指:表现为在用户知道关于对象文字列存在某个其他的同现语,但是想不出是哪一个或者模糊记得的情况下的动作。因此,这样的动作被输入时,可以提示关联文字列。
图3的(d)和图3的(e)是将部分指定的实例这样的用户的动作输入作为检索条件的情况。例如,为了进行输出的指定,考虑有通过划圈来填写相当于文字列的数量的空白、或者用圆圈圈上展开关联的关键词的对象文字列来进行标记的输入例。用户的动作或标记并不限定于此,只要能够解释为笔划或者动作、且作为检索处理的触发器是系统能够解释的动作,也可以包含用户定义的动作的任意形式。
接着,参照图4的流程图对预先储存在文档种类DB107的文档种类的生成处理进行说明。图4所示的处理是在对象文字列被输入之前,用于预先设定文档种类的预备处理。
在步骤S401中,对储存在文档种类DB107的文档种类进行定义。例如,可以将笔记、日记、购物清单、论文这样的分类作为文档种类,文档种类的定义可以是用户设定,也可以是预先准备多种文档种类。
在步骤S402中,收集作为与文档种类对应的例文的文档即基准文档。例如,根据笔记、日记、论文这样的文档种类,准备用户实际的笔记、日记、论文即可。另外,基准文档的收集并不限于用户所具有的数据,也可以将文档种类的名称作为关键词在web进行检索,收集合适的文档作为基准文档。
在步骤S403中,特征提取部101提取基准文档的特征量即基准特征量。基准特征量采取与上述的特征提取部101的特征量提取处理同样的处理进行提取即可。基准特征量包含例如是否出现基准文档的单词或复合语、词类文字列、数量表达等、以及他们出现的位置作为特征量向量。
在步骤S404中,种类判定部102将基准文档的基准特征量和文档种类对应储存。另外,也可以使基准特征量和文档种类作为教师数据进行学习。另外,对前段的手写笔划的结果应用手写文字识别处理得到的文本提取结果,种类判定部102应用语态分析,也取得词类信息、依存分析结果。这里,即使对于输入不是采用笔的笔划信息、而是在通过键盘等输入的文本文字列的情况,也能够进行与手写文字识别的结果得到的文本文字列同样的处理。关于学习,作为能够辨别特征量的手段,可以使用在自然言语处理所采用的SVM(Support Vector Machine:支持向量机)、CRF(Conditional Random Fields:条件随机场)、ANN(Artificial Neural Network:人工神经网络)等一般的辨别器。
在步骤S405中,特征提取部101将基准特征量和文档种类的对应关系学习的学习结果即模型储存到文档种类DB107中。以上,完成文档种类的生成处理。
接着,参照图5的流程图对种类判定部102的种类判定处理进行说明。
在步骤S501中,从文档种类DB107读取基准特征量。
在步骤S502中,对从包含对象文字列的文档中提取出的特征量、与储存在文档种类DB107中的各个文档种类的基准特征量,分别进行比较并计算出相似度。
在步骤S503中,将基准特征量中、包含对象文字列的文档的特征量与基准特征量的相似度最高的基准特征量所对应的种类,判定作为包含对象文字列的文档的文档种类。以上结束种类判定处理。
接着,参照图6的流程图,对在种类判定部102中预先生成的对应表生成处理进行说明。图6所示的处理是在对象文字列被输入之前,用于预先设定与文档种类对应的数据库的优先度的预备处理。
在步骤S601中,从文档种类DB107中取得文档种类和基准特征量。
在步骤S602中,从能够参照的数据库中取得列表。能够参照的数据库是从系统能够访问(读入)的数据库。本实施方式中,设定有同现句DB108、用户输入历史记录DB109、同现语词典DB110、群共有词典DB111的数据库。这些能够利用的数据库在设定时探索,或者明示地将储存位置和数据库的特征作为列表赋予系统,从而能够取得列表。
在步骤S603中,基于列表对各数据库和各文档种类的相似度进行比较。作为一个实例,通过将与各文档种类对应的基准特征量的高频用语的集合假定为代表各文档种类的“文档”,能够生成文档向量。因此,在文档种类的文档向量、与将储存在各数据库中的单词作为向量的文档向量之间,通过计算例如余弦相似度能够比较相似度。
在步骤S604中,基于文档种类和数据库之间的相似度,生成并保持按照相似度的从高到低的顺序提取了数据库的相似对应表。即、相似度越高优先度设定得越高。相似对应表例如像表1那样,能够了解根据文档种类应该优先检索的数据库即可。
【表1】
定义1:文档种类“私人笔记”或者“购物清单”
-----------------------------------
参照优先度1:同现句DB
参照优先度2:用户输入历史记录DB
参照优先度3:同现语词典DB
-----------------------------------
定义2:文档种类“一般文档”或“会议笔记”
-----------------------------------
参照优先度1:同现句DB
参照优先度2:同现语词典DB
参照优先度3:同现语词典DB
-----------------------------------
另外,对于某个文档种类使用特定的数据库这种对应关系的附加也可以通过人手来制作。另外,由于确定了文档种类即可以确定作为检索基础的数据库,因此通过图6所示的对应表生成处理得到的对应表并不是每次检索处理都是必要的。因此,可以是参照预先输出完成的,只要是通过来自服务器的配信等,成为系统能够读入的状态即可。
通过这样根据文档种类来设定作为检索基础的数据库的优先度,能够根据文档检索确切的关联文字列。例如,如果是购物清单,则包含在以前用户购入的商品中的可能性较高,因此,可以将用户输入历史记录DB的优先度设定得较高,如果是会议笔记,则包含群内的专业用语的可能性较高,因此,可以将群共有词典的优先度设定得较高。
接着,参照图7的流程图对候补检索部103的检索处理进行说明。
在步骤S701中,读入文档种类和数据库的相似对应表。
在步骤S702中,从种类判定部102取得作为检索语句的对象文字列。
在步骤S703中,基于相似对应表,按照优先度的高的顺序选择数据库。
在步骤S704中,从在步骤S703中选择出的数据库中,将对象文字列作为检索语句进行检索,如果在数据库的中存在作为对象文字列的修正候补的文字列、进一步包含关键词的同现语、作为其他书写变化的文字列,则取得这些文字列作为关联文字列。进一步地,对于取得到的关联文字列,计算出考虑到数据库间的优先度的评分。
在步骤S705中,判定是否对作为检索对象的数据库全部进行检查。在对作为检索对象的数据库全部进行了检查的情况下,进入步骤S706,没有对数据库全部进行检查的情况下,即仍然存在没有检查的数据库的话,返回到步骤S703,重复同样的处理。
在步骤S706中,按照计算出的评分对关联文字列重新排列。以上,结束候补检索部103的检索处理。
接着,参照图8对候补检索部103的评分算出处理的具体实例进行说明。
图8的实例中,假设作为文档中的对象文字列取得“どうぶつ(doubutsu(动物))”。作为检索对象文字列的数据库,示出准备如下三种数据库的实例:关于同音异字转换的数据库A,根据一般文档的统计量记载有同时出现频率的同现句数据库B,根据用户或群间的输入历史记录,计算相邻的单词的同现信息并进行存储的用户输入历史记录数据库C。
不考虑数据库间的优先度的情况下,与对象文字列“どうぶつ(doubutsu(动物))”关联的关联文字列的评分如图8的(a)所示,按照在各数据库内的评分从高到低的顺序排序。各数据库内的评分是预先计算出将同现频率归一化的频率。图8(a)的实例中,从三个数据库按照评分高的顺序取得关联文字列的话,则是数据库A“動物(动物)0.8”、数据库C“動物たち(动物们)0.6”、数据库B“動物の森(动物的森林)0.5”、数据库B“動物占い(动物占卜)0.4”。
这里,参照相似对应表,在各个评分上乘以基于文档种类的各数据库的权重值。这里,数据库A设定为“0.1”、数据库B设定为“0.6”和数据库C设定为“0.3”。各关联文字列的评分乘以数据库间的权重后的结果构成图8的(b)的表格。
在图8的(b)所示的表格中,关联文字列801、原来的评分802、权重值803和更新后评分804分别相互对应。
关联文字列801是从词典中提取的与对象文字列关联的文字列。
原来的评分802是在关联文字列所属的各自数据库内的相似度的评分。
权重值803是根据数据库间的优先度确定的权重值。
更新后评分804是基于原来的评分802和权重值803的更新后的评分,与储存有关联文字列的数据库名共同示出。
考虑数据库间的优先度的话,例如,储存于数据库A的关联文字列“動物(动物)0.8”在数据库A的权重值803为“0.1”,因此,更新后评分804为0.8×0.1=0.08。同样地,储存于数据库B的关联文字列“動物の森(动物的森林)0.5”在数据库B的权重值803为“0.6”,因此,更新后评分804为0.5×0.6=0.30。
与储存于数据库B的关联文字列“動物の森(动物的森林)”相比,储存于数据库A的“動物(动物)”的原来的评分高。但是,数据库B比数据库A的优先度高,因此,相比于其他的关联文字列,储存于数据库B的“動物の森(动物的森林)”的评分也变高。通过这样考虑数据库间的优先度,能够向用户提示与处理对象的文档的种类对应的确切的文字列。
接着,参照图9对显示于提示部的用户界面的一例进行说明。
图9的(a)示出包含对象文字列的文档的文档种类为购物清单的情况,图9的(b)示出包含对象文字列的文档的文档种类为一般文档的情况。
图9的(a)的实例中,如表1所示,文档种类为购物清单时的数据库的优先度按照同现句DB、用户输入历史记录DB、同现语词典DB的顺序,因此,作为分别与对象文字列901“どうぶつの里(动物之家)”相对的同现语,基于评分提示有关联文字列902“さあこい(来啊)”“おいでよ(过来啊)”“みんな的(大家的)”。
另外,在图9的(b)的实例中,虽然是同一关键词,但文档种类不同,作为文档种类为一般文档的情况下的候补,与“さあこい(来啊)”“横浜(横滨)”“海浜公園(海滨公园)”“絶滅危惧(濒临灭绝)”等一起,作为对象文字列中的“どうぶつ(doubutsu(动物))”的转换候补的“動物(动物)”作为关联文字列902被提示。
用户用笔轻敲或者勾选用户想要的关联文字列等来进行确定,从而对这些候补来选择关联文字列,能够确定选择文字列。
接着,参照图10对与文字识别精度对应的用户界面的输出例进行说明。
图10的(a)是“どうぶつ(doubutsu(动物))”这样的手写笔划被正确文字识别为“どうぶつ(doubutsu(动物))”的情况下的结果,出现与图9的(b)所示的文档种类为一般文档时同样的候补。
另一方面,在图10的(b)中,示出了在将“どうぶつ(doubutsu(动物))”的文字识别结果为“どらぶつ(dorabutsu)”,文字识别结果为错误情况下的实例。
由于“どらぶつ(dorabutsu)”不能从词典中查出,因此判定为误识别,但并不能直接向用户明示为误识别。这种情况下,拓展为作为文字列与“どらぶつ(dorabutsu)”距离较近的“どうぶつ(doubutsu)”或其他的识别候补“どらぷつ(doraputsu)”等词汇,将这些文字列作为关联文字列来保持信息,对于检索等也可以与包含这些候补的单词进行匹配。
另外,也可以通过用户在对象文字列“どうぶつの里(动物之家)”的显示区域下划线,在满足检索条件的情况下,提示识别结果“どらぶつ(dorabutsu)”,促使用户修正和确认。
接着,参照图11对转换部105中的文字列的大小调整处理进行说明。
作为选择文字列的插入目的地的指定区域(文本区域),有时存在长、高、周边的图形、线条、逻辑结构的制约。在图11的(a)中,示出了记载在表的内部(单元格)中的文字列被插值插入的实例。对象文字列1101“どうぶつの里(动物之家)”这样用户的笔划是考虑了单元格1102的字体大小而书写的大小的文字,但是直接插入关联文字列1103“いこうよ(去吧)”的情况下,文字列会超出单元格。因此,用户在确定关联文字列1103“いこうよ(去吧)”、并且进一步书写的“どうぶつの里(动物之家)”写完的时候,整体变更一个句子1104“いこうよどうぶつの里(去动物之家吧)”的字体大小,缩小句子1104来进行插入,使其收容在文档的单元格1102的内部。
在图11的(b)中示出在图形1105的内部记载文字列的实例。关于图11的(b)也是一样,不是在确定关联文字列1103时就立即插入关联文字列1103,而是要等待图形内部的句子1104书写完毕,在句子1104写完的时候,缩小句子1104整体的文字大小。
另外,对文字列调整大小并不限定于此,也可以不变更文字列的大小而是变更单元格或者图形的大小。另外,在字体大小被变更了的情况下,也可以变更文字的颜色用以能够容易把握变更位置。
这样,考虑到用户的手写习惯、原记号等的特征笔划,能够强制由系统修正文字识别错误等,用户能够自然进行书写。另外,在文档中与对象文字列间隔距离地同现的词语也能够作为关联文字列来进行提示。例如,文档种类是书信的话,作为问候语的开头的敬启者、末尾的敬启这样的文档中间隔距离的单词设置,也能够作为关联文字列提示给用户。进一步地,在与手写笔划关联的单词的检索等中也能够利用。
根据以上所示的本实施方式涉及的文档制作支援装置,对于假设存在用户写入错误或者文字列模糊的文字列,通过对根据文档的种类而参照的数据库进行变更,能够提示基于文档的内容的确切的候补。另外,在插入选择文字列时,通过变更用户的手写字体地向文档中插入、或变更文字列的字体大小地插入用以收容在指定区域内,用户能够仅通过选择作业,将所要的文字列插入到文档中,能够高效地支援用户的文档制作。
在上述实施方式的中所示的处理顺序所示的指示能够基于软件程序执行。通过通用的计算机系统预先存储该程序,读入该程序,也能够得到与上述的文档制作支援装置同样的效果。上述实施方式所记载的指示,作为使计算机能够执行的程序,记录在磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、蓝光(注册商标)光盘等)、半导体存储器、或者与其类似的记录介质中。只要是计算机或者嵌入式系统能够读取的记录介质,其存储形式可以是任意形态。计算机只要从该记录介质中读入程序,基于该程序使CPU执行记录在程序中的指示,就可以实现与上述实施方式的文档制作支援装置同样的动作。当然,计算机取得或读入程序时也可以通过网络进行取得或读入。
另外,也可以基于从记录介质安装到计算机或嵌入式系统上的程序的指示,由在计算机上运行的OS(操作系统)、数据库管理软件、网络等的MW(中间件)等来执行用于实现本实施方式的各处理的一部分。
进一步地,本实施方式的记录介质并不限于独立于计算机或嵌入式系统的介质,也包括下载并存储或暂时存储了由LAN或网络等传输的程序的记录介质。
另外,记录介质并不限定为一个,从多个介质来执行本实施方式的处理的情况也包含在本实施方式的记录介质中,介质的构成可以任意。
另外,本实施方式的计算机或者嵌入式系统是用于基于存储在记录介质中的程序来执行本实施方式的各处理的,可以是由计算机,微型计算机等的一个组成的装置,或者是多个装置被网络连接的系统等中的任意构成。
另外,本实施方式的计算机并不限于个人电脑,也包括包含于信息处理设备中的运算处理装置、微型计算机等,能够通过程序来实现本实施方式的功能的设备、装置的统称。
虽然说明了本发明的几个实施方式,但这些的实施方式是作为例子而提出的,并非意图限定发明的范围。这些新的实施方式能够以其它各样方式来实施,在不脱离发明的主旨的范围内,各能够进行种省略、置换、变更。这些实施方式或该变形包含在发明的范围或主旨中,并且包含在权利要求书中记载的发明及其均等的范围中。
【符号说明】
100…文档制作支援装置、101…特征提取部、102…种类判定部、103…候补检索部、104…候补选择部、105…转换部、106…提示部、107…文档种类数据库(DB)、108…同现句数据库(DB)、109…用户输入历史记录数据库(DB)、110…同现语词典数据库(DB)、111…群共有词典数据库(DB)、112…字体数据库(DB)、801…关联文字列、802…原来的评分、803…权重值、804…更新后评分、901、1101…对象文字列、902,1103…关联文字列、1102…单元格、1104…句子、1105…图形。
Claims (9)
1.一种文档制作支援装置,其特征在于,包括:
判定部,其基于包含对处理对象的文字列即对象文字列进行文字识别后的文字识别结果、和示出该对象文字列出现在文档中哪个位置的位置信息的特征量,对包含该对象文字列的文档的种类即文档种类进行判定;
检索部,其在满足用于对与所述对象文字列关联的关联文字列进行检索的检索条件的情况下,从根据所述文档种类来设定优先度的成为该关联文字列的检索基础的数据库中,检索该关联文字列,按照基于所述优先度的评分从高到低的顺序得到该关联文字列;以及
提示部,其按照基于所述优先度的评分从高到低的顺序提示所述关联文字列。
2.如权利要求1所述的文档制作支援装置,其特征在于,
还包括提取部,其在所述对象文字列是手写笔划的情况下,将对该手写笔划进行文字识别后的文字识别结果和由该手写笔划所表现的文字列的位置信息,作为所述特征量进行提取。
3.如权利要求1或2所述的文档制作支援装置,其特征在于,
还包括转换部,其在将按照来自用户的指示而选择的关联文字列即选择文字列插入到所述文档中的指定区域的情况下,对所述对象文字列和所述选择文字列的字体大小进行变更后再插入,以便收容在该指定区域内。
4.如权利要求3所述的文档制作支援装置,其特征在于,
所述转换部将所述选择文字列转换为所述用户的手写字体并插入所述文档中。
5.如权利要求1~4中的任意一项所述的文档制作支援装置,其特征在于,
所述检索部通过满足如下任意一种检索条件来判定满足所述检索条件,所述检索条件是:预先设定的文字列和词类的出现类型是否作为所述文字识别结果被识别、对于所述对象文字列的动作是否通过用户的手写笔划被输入、取得该手写笔划后没有来自用户的输入的状态是否经过了第一期间。
6.如权利要求1~5中的任意一项所述的文档制作支援装置,其特征在于,
所述一个以上的数据库包括:基于在多个用户间共有的文档中出现的文字列生成的数据库。
7.如权利要求1~5中的任意一项所述的文档制作支援装置,其特征在于,
所述提示部根据所述文字识别结果变更提示的关联文字列。
8.一种文档制作支援方法,其特征在于,包括如下步骤:
基于包含对处理对象的文字列即对象文字列进行文字识别后的文字识别结果、和示出该对象文字列出现在文档中哪个位置的位置信息的特征量,对包含该对象文字列的文档的种类即文档种类进行判定;
在满足用于对与所述对象文字列关联的关联文字列进行检索的检索条件的情况下,从根据所述文档种类来设定优先度的成为该关联文字列的检索基础的数据库中,检索该关联文字列,按照基于所述优先度的评分从高到低的顺序得到该关联文字列;
按照基于所述优先度的评分从高到低的顺序提示所述关联文字列。
9.一种文档制作支援程序,其特征在于,用于使计算机作为如下单元起到作用:
判定单元,其基于包含对处理对象的文字列即对象文字列进行文字识别后的文字识别结果、和示出该对象文字列出现在文档中哪个位置的位置信息的特征量,对包含该对象文字列的文档的种类即文档种类进行判定;
检索单元,其在满足用于对与所述对象文字列关联的关联文字列进行检索的检索条件的情况下,从根据所述文档种类来设定优先度的成为该关联文字列的检索基础的数据库中,检索该关联文字列,按照基于所述优先度的评分从高到低的顺序得到该关联文字列;以及
提示单元,其按照基于所述优先度的评分从高到低的顺序提示所述关联文字列。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013059113A JP2014186395A (ja) | 2013-03-21 | 2013-03-21 | 文書作成支援装置、方法およびプログラム |
JP2013-059113 | 2013-03-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104077346A true CN104077346A (zh) | 2014-10-01 |
Family
ID=51569928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410092798.7A Pending CN104077346A (zh) | 2013-03-21 | 2014-03-13 | 文档制作支援装置、方法及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140289238A1 (zh) |
JP (1) | JP2014186395A (zh) |
CN (1) | CN104077346A (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6094400B2 (ja) | 2013-06-25 | 2017-03-15 | ソニー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
US9940510B2 (en) * | 2013-09-27 | 2018-04-10 | Hewlett-Packard Development Company, L.P. | Device for identifying digital content |
JP5664813B1 (ja) * | 2014-06-10 | 2015-02-04 | 富士ゼロックス株式会社 | デザイン管理装置及びプログラム |
CN106021572B (zh) * | 2016-05-31 | 2019-05-31 | 北京百度网讯科技有限公司 | 二元特征词典的构建方法和装置 |
CN106293462B (zh) * | 2016-08-04 | 2019-11-26 | 广州视睿电子科技有限公司 | 一种文字显示方法及装置 |
JP7095264B2 (ja) * | 2017-11-13 | 2022-07-05 | 富士通株式会社 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
WO2020059527A1 (ja) * | 2018-09-20 | 2020-03-26 | 富士フイルム株式会社 | フォント作成装置、フォント作成方法及びフォント作成プログラム |
JP7236928B2 (ja) * | 2019-05-17 | 2023-03-10 | 株式会社日立システムズ | 文字一致性確認システム、文字一致性確認装置、文字一致性確認方法及び文字一致性確認プログラム |
CN113569106B (zh) * | 2021-06-16 | 2023-10-13 | 东风汽车集团股份有限公司 | 一种can数据识别方法、装置和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106662A1 (en) * | 2005-10-26 | 2007-05-10 | Sizatola, Llc | Categorized document bases |
CN101021873A (zh) * | 2006-02-14 | 2007-08-22 | 索尼株式会社 | 搜索设备和方法、及程序 |
CN101226596A (zh) * | 2007-01-15 | 2008-07-23 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
US20080319882A1 (en) * | 2007-06-20 | 2008-12-25 | Wyle David A | Efficient work flow system and method for processing taxpayer source documents |
US20100169841A1 (en) * | 2008-12-30 | 2010-07-01 | T-Mobile Usa, Inc. | Handwriting manipulation for conducting a search over multiple databases |
US20110246919A1 (en) * | 2010-04-01 | 2011-10-06 | Samsung Electronics Co., Ltd. | Search system and method |
-
2013
- 2013-03-21 JP JP2013059113A patent/JP2014186395A/ja not_active Abandoned
-
2014
- 2014-02-21 US US14/186,761 patent/US20140289238A1/en not_active Abandoned
- 2014-03-13 CN CN201410092798.7A patent/CN104077346A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106662A1 (en) * | 2005-10-26 | 2007-05-10 | Sizatola, Llc | Categorized document bases |
CN101021873A (zh) * | 2006-02-14 | 2007-08-22 | 索尼株式会社 | 搜索设备和方法、及程序 |
CN101226596A (zh) * | 2007-01-15 | 2008-07-23 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
US20080319882A1 (en) * | 2007-06-20 | 2008-12-25 | Wyle David A | Efficient work flow system and method for processing taxpayer source documents |
US20100169841A1 (en) * | 2008-12-30 | 2010-07-01 | T-Mobile Usa, Inc. | Handwriting manipulation for conducting a search over multiple databases |
US20110246919A1 (en) * | 2010-04-01 | 2011-10-06 | Samsung Electronics Co., Ltd. | Search system and method |
Also Published As
Publication number | Publication date |
---|---|
US20140289238A1 (en) | 2014-09-25 |
JP2014186395A (ja) | 2014-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104077346A (zh) | 文档制作支援装置、方法及程序 | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
KR100682897B1 (ko) | 사전 업데이트 방법 및 그 장치 | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
JP5751253B2 (ja) | 情報抽出システム、方法及びプログラム | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
JP2011018330A (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
US9098487B2 (en) | Categorization based on word distance | |
CN105760359B (zh) | 问句处理系统及其方法 | |
CN104808806A (zh) | 根据不确定性信息实现汉字输入的方法和装置 | |
CN107357765A (zh) | Word文档碎片化方法及装置 | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
CN106610990A (zh) | 情感倾向性分析的方法及装置 | |
CN107148624A (zh) | 预处理文本的方法以及用于执行该方法的预处理系统 | |
WO2022256144A1 (en) | Application-specific optical character recognition customization | |
Schaback et al. | Multi-level feature extraction for spelling correction | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
WO2021230054A1 (ja) | 文抽出装置及び文抽出方法 | |
CN108345694B (zh) | 一种基于主题数据库的文献检索方法及系统 | |
US20210406453A1 (en) | Mapping annotations to ranges of text across documents | |
Stehouwer | Statistical language models for alternative sequence selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141001 |