CN105468581A - 词汇表管理装置、词汇表管理系统和词汇表管理方法 - Google Patents

词汇表管理装置、词汇表管理系统和词汇表管理方法 Download PDF

Info

Publication number
CN105468581A
CN105468581A CN201510607171.5A CN201510607171A CN105468581A CN 105468581 A CN105468581 A CN 105468581A CN 201510607171 A CN201510607171 A CN 201510607171A CN 105468581 A CN105468581 A CN 105468581A
Authority
CN
China
Prior art keywords
character string
vocabulary
document
text data
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510607171.5A
Other languages
English (en)
Other versions
CN105468581B (zh
Inventor
大林雄一
辻知佳
实克洋
中村刚
野村高志
高木淳平
吉田大辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of CN105468581A publication Critical patent/CN105468581A/zh
Application granted granted Critical
Publication of CN105468581B publication Critical patent/CN105468581B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)

Abstract

本发明提供一种词汇表管理装置、词汇表管理系统和词汇表管理方法。词汇表管理装置具备:读取部和输出部中的至少一个、存储部、获得部、分析部、用语匹配部和注册部。所述读取部对文档进行读取。所述输出部对文档进行输出。所述存储部可存储根据从文档中抽取的字符串而构成的词汇表。所述获得部从文档中获得文本数据。所述分析部对记述获得部获得的文本数据的语言和构成文本数据的字符串的词性进行分析,并基于分析结果抽取字符串。所述用语匹配部将抽取出的字符串与注册了用语的公共词典进行匹配。所述注册部在抽取出的字符串与公共词典的关键词不一致时,将抽取出的字符串注册到词汇表中。

Description

词汇表管理装置、词汇表管理系统和词汇表管理方法
技术领域
本发明涉及用于创建词汇表的词汇表管理装置、词汇表管理系统和词汇表管理方法。
背景技术
一直以来,对于本国语言或者外国语言的学习,大量阅读是有效方法之一。当前,为了学习,可以从互联网等地方获得大量的文章来进行阅读。
不过,从互联网上获得的文章等不是以特定水平的学习者为对象而创建的文章,因此直接使用的话并不适合于语言学习。
因此,例如,在有些技术中,按照英语的每个用语(例如,单词、熟语和措辞),如果该用语是使用者已掌握的,就在该用语上附上“掌握”的属性。还有,如果该用语是应该掌握的,就在该用语上附上“掌握中”的属性。于是,将获得的英语文章变换为简单的英语文章时,并在将获得的英语文章变换为以学习为目的的英语文章的情况下,使用属性为“掌握”或者“掌握中”的用语进行变换。还有,在将获得的英语文章变换为以内容理解为目的的英语文章的情况下,只使用属性为“掌握中”的用语进行变换。
不过,对于上述那样的技术,必须由人来进行收集英语的单词或熟语并注册到数据库中的操作,非常耗费时间和精力。
发明内容
鉴于以上那样的问题,本发明的目的是提供一种词汇表管理装置、词汇表管理系统和记录介质,能够减少对注册到词汇表的字符串进行收集的时间和精力,能够对符合词汇表使用目的的用语进行收集。
为了达到上述目的,本发明的一方式所涉及的词汇表管理装置具备:读取部和输出部中的至少一个、存储部、获得部、分析部、用语匹配部和注册部。所述读取部对文档进行读取。所述输出部对所述文档进行输出。所述存储部可存储根据从所述文档中抽取出的字符串而构成的词汇表。所述获得部从所述文档中获得文本数据。所述分析部对记述所述获得部获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串。所述用语匹配部将所述抽取出的字符串与注册了用语的公共词典进行匹配。所述注册部在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
为了达到上述目的,本发明的一方式所涉及的词汇表管理系统具备:图像形成装置和信息处理装置。所述信息处理装置通过网络与所述图像形成装置进行通信。所述图像形成装置具备:处理部、收集部和发送部。所述处理部对文档进行复印或者打印的处理。所述收集部从所述处理部处理的所述文档中,对要注册到根据从所述文档中抽取出的字符串而构成的词汇表中的字符串进行收集。所述发送部将所述收集部所收集的所述字符串发送给所述信息处理装置。所述信息处理装置具备:存储部、接收部和注册部。所述存储部对所述词汇表进行存储。所述接收部对从所述信息处理装置发送来的所述字符串进行接收。所述注册部将所述接收部接收的所述字符串注册到所述词汇表中。
为了达到上述目的,本发明的一方式所涉及的词汇表管理方法包含如下步骤:通过获得部,从文档中获得文本数据;通过分析部,对记述所获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;通过用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;通过注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
〔发明效果〕
如上述那样,根据本发明,能够减少对注册到词汇表的字符串进行收集的时间和精力,能够对符合词汇表使用目的的用语进行收集。
附图说明
图1表示词汇表管理装置的结构。
图2表示图像形成装置的结构。
图3表示客户端-服务器型的词汇表管理系统的结构。
图4表示词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表中为止的处理工序。
图5表示字符串到本地词汇表的注册处理的具体内容。
具体实施方式
以下,参照附图,对本发明实施方式进行说明。
[概要]
最开始,对本发明一实施方式所涉及的词汇表管理装置的概要进行说明。本发明的词汇表管理装置不需要使用者进行字符串的注册,而是对要注册的字符串进行收集而创建词汇表。对于本发明的词汇表管理装置,以使用者进行普通操作(例如,文档的复印或者打印等操作)作为前提,普通操作与要注册到词汇表中的字符串的收集没有关系。
然后,本发明的词汇表管理装置首先进行第一阶段的处理,即在使用者进行普通操作(例如,文档的复印或者打印等操作)时,从该普通操作对象的文档中收集(即抽取)要注册到词汇表中的字符串。普通操作是与要注册到词汇表中的字符串的收集没有关系的操作。
接下来,本发明的词汇表管理装置接着进行第二阶段的处理,即判断是否将所收集的字符串注册到词汇表中,并将判断为要注册的用语注册到词汇表中。
另外,在是否注册字符串的判断中,也可以利用该普通操作对象的文档是公司内部文件还是公司外部文件的信息。
还有,也可以将所收集的字符串中字符串的词性是名词或者动词的字符串注册到词汇表中。
还有,也可以基于下述的条件(A)和(B)来判断是否将抽取出的字符串注册到词汇表中。(A)所抽取字符串的源文档的语言是否是日语。(B)在该语言是日语的情况下,抽取出的字符串是否只由西文字母构成且是固有名词。
本发明的词汇表管理装置通过进行上述两个阶段的处理,能够适当地对为了注册到词汇表中而收集的字符串进行分类,并将词汇表构建为符合使用目的的词汇表。
还有,也能够减少使用者创建词汇表的时间和精力。
另外,对于收集用语而创建的词汇表,能够通过注册各用语的意思来提高所创建的词汇表的实用性。
另外,在以下的说明中,将词汇表管理装置所管理的词汇表记载为“本地词汇表”。还有,例如将互联网等网络上的词汇表或者词典等、且独立于本发明的词汇表管理装置而管理的词汇表或者词典等记载为“公共词典”。
上述,对本发明一实施方式所涉及的词汇表管理装置的概要进行了说明。
[结构]
接下来,对本发明的词汇表管理装置的结构进行说明。另外,在下述中,最开始对词汇表管理装置的结构进行说明。然后,对于将词汇表管理装置作为一个图像形成装置(MFP、MultifunctionPeripheral)来实现的结构进行说明。接着,对于将词汇表管理装置作为利用网络的客户端-服务器型的系统来实现的结构进行说明。
(词汇表管理装置的结构)
图1表示词汇表管理装置1的结构。词汇表管理装置1具备:扫描仪2、信息处理装置3、输出装置9。
扫描仪2用于进行上述的普通操作,即用于在使用者对文档进行复印或者电子化时对原稿(即文档)进行读取。
输出装置9对文档进行输出(例如,显示输出、打印输出、发送输出)。该文档是数据,存储在信息处理装置3或输出装置9中。例如,输出装置9是显示装置(例如显示器)、打印装置(例如打印机)或者网络机器等。网络机器向网络上的外部机器发送数据。输出装置9用于进行上述的普通操作,即用于使用者进行文档内容的浏览、文档的复印或者打印、经由网络将文档发送到其它机器。
信息处理装置3能够使用计算机来实现。信息处理装置3具备:存储部5、输入部6、控制部7和通信部8。
存储部5存储操作用的数据,并存储本地词汇表5a等。操作用的数据是控制部7在进行后面叙述的处理时所用的数据。本地词汇表5a是收集了用语的词汇表。
输入部6受理来自使用者的指示。
控制部7进行概要中所述的两个阶段的处理。该处理的具体内容在后面进行叙述。控制部7具有:OCR(OpticalCharacterRecognition)处理部7a、获得部7b、分析部7c、用语匹配部7d和注册部7e。
OCR处理部7a从扫描仪2所读取的原稿的图像数据中识别出文字,生成电子文本数据。另外,扫描仪2和OCR处理部7a的组合相当于读取部。
获得部7b获得文档的文本数据。文本数据由OCR处理部7a生成,或者由通信部8接收。
分析部7c对获得部7b获得的文本数据的记述所用语言进行分析,并从分析了的文本数据中抽取字符串。
用语匹配部7d进行所抽取出的字符串与公共词典的匹配。具体来说,用语匹配部7d判断所抽取出的字符串是否作为公共词典的关键词而存在。然后,在抽取出的字符串作为公共词典的关键词而存在的情况下,用语匹配部7d判断为匹配一致。
注册部7c将字符串和位置信息注册到本地词汇表5a中。该字符串是抽取出的字符串中分析部7c的分析结果符合条件的字符串,或者是与公共词典的匹配结果符合条件的字符串。位置信息是表示该字符串在源文档内的位置的信息。
通信部8与信息处理装置3的外部进行信息交换。
另外,在输出装置9是网络机器的情况下,该网络机器也可以兼用作通信部8。
上述是词汇表管理装置1的结构。
(将词汇表管理装置作为图像形成装置来实现的结构)
接下来,对于将词汇表管理装置作为图像形成装置10来实现的结构进行说明。图2表示图像形成装置10的结构。
图像形成装置10具备:控制部11、图像读取部12、图像处理部13、图像存储器14、图像形成部15、操作部18、传真机通信部19和存储部21。控制部11具备:CPU(CentralProcessingUnit)、RAM(RandomAccessMemory)、ROM(ReadOnlyMemory)和专用硬件电路等。控制部11负责图像形成装置10整体的动作控制。
控制部11与图像读取部12、图像处理部13、图像存储器14、图像形成部15、操作部18、传真机通信部19、网络接口部20、存储部21等连接。控制部11进行所连接的上述各部(模块)的动作控制以及在其与各模块之间收发信号或者数据。
控制部11按照来自使用者的任务执行指令,对上述各模块的驱动和处理进行控制,从而执行各功能(例如扫描仪功能、打印功能、复印机能和传真机收发功能等)。任务执行指令是使用者通过操作部18或者PC等输入的。PC等是网络连接的。
还有,控制部11进行在概要的项目中叙述了的处理。
还有,控制部11具有:OCR处理部11a、获得部11b、分析部11c、用语匹配部11d和注册部11e。
控制部11的各部(OCR处理部11a、获得部11b、分析部11c、用语匹配部11d和注册部11e)分别相当于上述的控制部7的各部(OCR处理部7a、获得部7b、分析部7c、用语匹配部7d和注册部7e)。还有,控制部11的上述各部是通过从ROM等存储中加载到RAM的程序由CPU执行而实现功能的功能模块。
图像读取部12从原稿中读取图像。图像读取部12相当于上述的词汇表管理装置1的扫描仪2。
图像处理部13根据需要,对图像读取部12所读取的图像的图像数据进行图像处理。例如,图像处理部13为了提高图像读取部12所读取的图像在图像形成后的品质,进行图像处理(例如阴影校正)。
图像存储器14对数据进行临时存储。数据是图像读取部12所读取的原稿的图像数据,或者是成为图像形成部15中的打印对象的数据。
图像形成部15进行图像读取部12所读取的图像数据等的图像形成(例如打印输出)。图像形成部15相当于上述的词汇表管理装置1的输出装置9。
操作部18具备触控面板部和操作按键部。
触控面板部和操作按键部受理来自使用者的指示,该指示与图像形成装置10可执行的各种动作和处理有关。触控面板部具备显示部18a。例如,显示部18a是设置有触控面板的LCD(LiquidCrystalDisplay)。操作部18相当于上述的词汇表管理装置1的输入部6。
传真机通信部19具备:未图示的编码/解码部、调制解调部和NCU(NetworkControlUnit)。传真机通信部19进行使用公共电话网络的传真收发。
网络接口部20具备通信模块(例如网络适配器)。例如,网络接口部20与LAN连接。例如,网络接口部20通过LAN,与局域内的装置(服务器、PC等外部机器)进行各种数据的收发。网络接口部20相当于上述的词汇表管理装置1的通信部8。
存储部21对原稿图像和本地词汇表21a等进行存储。原稿图像是图像读取部12所读取的图像的数据。另外,本地词汇表21a相当于上述的词汇表管理装置1的本地词汇表5a。存储部21是大容量的存储装置(例如HDD(HardDiskDrive))。
上述,对于将词汇表管理装置作为图像形成装置10来实现的结构进行了说明。
(将词汇表管理装置作为客户端-服务器型的系统来实现的结构)
接下来,对于将词汇表管理装置作为以信息处理装置50为中心的客户端-服务器型的词汇表管理系统100来实现的结构进行说明。图3表示客户端-服务器型的词汇表管理系统100的结构。
词汇表管理系统100具备图像形成装置40和信息处理装置50。词汇表管理系统100是通过图像形成装置40和信息处理装置50经由网络进行通信而实现的。另外,词汇表管理系统100也可以使用外部的公共词典服务器60进行处理。还有,使用者利用的PC(PersonalComputer,未图示)也可以连接在网络中。
图像形成装置40是在普通的图像形成装置中附加了功能部41的装置,功能部41用于收集要注册到本地词汇表中的字符串。例如,普通的图像形成装置具有对文档进行复印或者打印的处理部42。附加的功能部41含有收集部41a和发送部41b。收集部41a对要注册到本地词汇表中的字符串进行收集。具体来说,收集部41a在使用者使用图像形成装置40进行与字符串的收集没有关系的普通操作(例如文档的复印或者打印)时,从普通操作对象的文档中收集(即抽取)字符串。换句话说,收集部41a在处理部42进行处理后,从处理部42处理了的文档中对要注册到词汇表中的字符串进行收集。收集部41a相当于词汇表管理装置1的OCR处理部11a、获得部11b、分析部11c和用语匹配部11d。发送部41b将收集部41a收集的字符串发送到信息处理装置50。
信息处理装置50将从图像形成装置40送来的字符串注册到本地词汇表中。信息处理装置50具备:存储部51、接收部52和注册部53。存储部51可存储本地词汇表。接收部52接收从图像形成装置40送来的字符串。注册部53将接收部52接收的字符串注册到本地词汇表中。本地词汇表存储在存储部51中。存储部51和注册部53分别相当于词汇表管理装置1的存储部21和注册部11e。
公共词典服务器60具备任意数量的公共词典。公共词典在互联网等网络上有提供。还有,公共词典中收录有普通的用语。
信息处理装置50在将字符串注册到本地词汇表中之前,也可以检查该字符串是否在公共词典中。具体来说,信息处理装置50检查该字符串是否已在公共词典服务器60上。接下来,信息处理装置50在该字符串已在公共词典服务器60上的情况下,不将该字符串注册到本地词汇表中。还有,信息处理装置50在该字符串不在公共词典服务器60上的情况下,将该字符串注册到本地词汇表中。其结果,防止公共词典与本地词汇表之间的用语注册的重复。还有,抑制本地词汇表的容量大小。还有,本地词汇表成为符合其利用目的的词汇表。
还有,信息处理装置50为了检查即是公司内部文件又是日语的文档所含的字符串中以西文字母构成的字符串是否是固有名词,也可以利用公共词典。
例如,对于在面向公司内部的日语文档内含有字符串“Jupiter”的情况,是由于该字符串高概率地用作项目的名称或者新产品的代号。项目是在本公司进行的项目,新产品是本公司开发中的新产品。
另外,词汇表管理装置1、图像形成装置10和信息处理装置50也可以在自身装置内部具备公共词典。
上述,对于将词汇表管理装置作为以图像形成装置为中心的客户端-服务器型的词汇表管理系统100来实现的结构进行了说明。另外,公共词典服务器60与词汇表管理系统100组合使用,但不限定于这样的组合。例如,公共词典服务器60也可以与词汇表管理装置1或者图像形成装置10组合使用。
[处理的流程]
接下来,对于词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表21a中为止的处理流程进行说明。图4表示词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表21a中为止的处理工序。
另外,在以下的说明中,如图2所示,词汇表管理装置作为一个图像形成装置10来进行实施。而且,词汇表管理装置与网络上的公共词典服务器60协作。
首先,使用者使用图像形成装置10,进行任意文档的复印或者打印(步骤S1)。
接下来,图像形成装置10的操作部18受理来自使用者的公司内外区分(步骤S2)。公司内外区分是表示进行复印或者打印的文档是公司外部文档还是公司内部文件的区分。
接下来,获得部11b基于在步骤S2中所输入的公司内外区分,判断步骤S1中进行复印或者打印的文档是否是公司内部文件(步骤S3)。
在判断为步骤S1中进行复印或者打印的文档是公司内部文件的情况下(步骤S3的Y),获得部11b从进行复印或者打印的文档中获得文本数据(步骤S4)。另外,步骤S4中,在文档是由图像读取部12读取的情况下,由OCR处理部11a进行从图像数据到文本数据的变换。
接下来,分析部11c对获得部11b获得的文本数据进行分析。具体来说,分析部11c对记述文本数据的语言是哪种语言(例如是日语还是英语,或者是其它语言)进行分析(步骤S5)。
对于语言的分析,可以使用普通所知的技术,也可以对构成文本数据的大部分的文字种类进行分析。在对构成文本数据的大部分的文字种类进行分析的情况下,例如是日语的话,作为文字种类的平假名或者片假名占文本数据的大部分。
还有,记述文本数据的语言的判断也可以由使用者进行。
接下来,分析部11c基于该分析结果,判断记述文本数据的语言是否是日语(步骤S6)。
在文本数据是以日语记述的情况下(步骤S6的Y),分析部11c接下来对于通过词素分析等从文本数据中抽取的字符串的词性进行分析,对词性是名词或者动词的字符串进行抽取(步骤S7)。
还有,分析部11c为了可以将抽取出的字符串的出处提示给使用者,而获得抽取出的字符串的位置信息并存储到存储部21中(步骤S8)。位置信息是表示如下内容的信息:在步骤S5中抽取出的字符串是从源文档的哪个位置抽取出的。位置信息能够用于使用者在利用本地词汇表21a的用语时获知其出处。
接下来,分析部11c判断抽取出的字符串是否是只由西文字母构成的固有名词(步骤S9)。
在抽取出的字符串是只由西文字母构成且是固有名词以外的字符串的情况下(步骤S9的N),用语匹配部11d将抽取出的字符串与公共词典服务器60上的公共词典进行匹配。
接下来,用语匹配部11d判断匹配的结果是否一致(步骤S11)。另外,匹配的结果为一致是指抽取的字符串作为公共词典的关键词而存在。
在步骤S9中,抽取出的字符串是只由西文字母构成的固有名词的情况下(步骤S9的Y),以及在步骤S11中,匹配的结果是不一致的情况下(步骤S11的N),注册部11e将抽取出的字符串与其位置信息一起注册到本地词汇表21a中(步骤S12)。另外,在后面对注册处理的具体内容进行叙述。位置信息存储在存储部21中。
上述对词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表21a中为止的处理流程进行了说明。另外,上述处理中,从步骤S8开始到步骤S12为止是对步骤S7中抽取出的每个字符串逐个进行的。
[到本地词汇表的注册处理的具体内容]
接下来,对字符串到本地词汇表21a的注册处理的具体内容进行说明。图5表示字符串到本地词汇表21a的注册处理的具体内容。
首先,注册部11e判断本地词汇表21a是否存在(步骤S20)。
在本地词汇表21a还不存在的情况下(步骤S20的N),注册部11e创建本地词汇表21a的框架(步骤S21)。
在本地词汇表21a已存在的情况下(步骤S20的Y),接下来,注册部11e判断将要注册到本地词汇表21a中的字符串是否已经在本地词汇表21a中存在(步骤S22)。
在将要注册的字符串在本地词汇表21a中不存在的情况下(步骤S22的N),注册部11e将抽取出的字符串及其位置信息一起注册到本地词汇表21a中(步骤S23)。
上述,对字符串到本地词汇表21a的注册处理的具体内容进行了说明。
[补充事项]
另外,本技术不限定于上述的实施方式,在不脱离本技术的要旨的范围内可以增加各种变更是理所当然的。

Claims (9)

1.一种词汇表管理装置,具备:
读取部和输出部中的至少一个,所述读取部对文档进行读取,所述输出部对所述文档进行输出;
存储部,可存储根据从所述文档中抽取出的字符串而构成的词汇表;
获得部,从所述文档中获得文本数据;
分析部,对记述所述获得部获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;
用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;以及
注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
2.根据权利要求1所述的词汇表管理装置,其特征在于,
所述获得部在所述文档是公司内部文件时,从所述文档中获得文本数据。
3.根据权利要求2所述的词汇表管理装置,其特征在于,
所述分析部在所分析的所述字符串的所述词性是名词或动词时,对所述字符串进行抽取。
4.根据权利要求3所述的词汇表管理装置,其特征在于,
所述注册部在所述文本数据是以日语记述的、所抽取出的所述字符串是由西文字母构成的、且所抽取出的所述字符串是固有名词时,将所抽取出的所述字符串注册到所述词汇表中。
5.根据权利要求1所述的词汇表管理装置,其特征在于,
所述读取部是扫描仪,所述扫描仪将所述文档作为图像数据进行读取。
6.根据权利要求1所述的词汇表管理装置,其特征在于,
所述输出部对所述文档进行显示输出、打印输出或者发送输出。
7.根据权利要求1至权利要求6中的任意一项所述的词汇表管理装置,其特征在于,
所述注册部将所述字符串和位置信息注册到所述词汇表中,
所述位置信息表示所述字符串是从所述文档的何处抽取的。
8.一种词汇表管理系统,具备:
图像形成装置和信息处理装置,所述信息处理装置通过网络与所述图像形成装置进行通信,
所述图像形成装置具备:
处理部,对文档进行复印或者打印的处理;
收集部,从所述处理部处理的所述文档中,对要注册到根据从所述文档中抽取出的字符串而构成的词汇表中的字符串进行收集;以及
发送部,将所述收集部所收集的所述字符串发送给所述信息处理装置,
所述信息处理装置具备:
存储部,对所述词汇表进行存储;
接收部,对从所述信息处理装置发送来的所述字符串进行接收;以及
注册部,将所述接收部接收的所述字符串注册到所述词汇表中。
9.一种词汇表管理方法,包含如下步骤:
通过获得部,从文档中获得文本数据;
通过分析部,对记述所获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;
通过用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;以及
通过注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中。
CN201510607171.5A 2014-09-25 2015-09-22 词汇表管理装置、词汇表管理系统和词汇表管理方法 Expired - Fee Related CN105468581B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-194569 2014-09-25
JP2014194569A JP6277921B2 (ja) 2014-09-25 2014-09-25 用語集管理装置および用語集管理プログラム

Publications (2)

Publication Number Publication Date
CN105468581A true CN105468581A (zh) 2016-04-06
CN105468581B CN105468581B (zh) 2018-04-06

Family

ID=55584610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510607171.5A Expired - Fee Related CN105468581B (zh) 2014-09-25 2015-09-22 词汇表管理装置、词汇表管理系统和词汇表管理方法

Country Status (3)

Country Link
US (1) US9529792B2 (zh)
JP (1) JP6277921B2 (zh)
CN (1) CN105468581B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110235127A (zh) * 2017-01-20 2019-09-13 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN112541498A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146979B2 (en) * 2015-06-03 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processing visual cues to improve device understanding of user input
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム
US10997225B2 (en) 2018-03-20 2021-05-04 The Boeing Company Predictive query processing for complex system lifecycle management
US11966686B2 (en) * 2019-06-17 2024-04-23 The Boeing Company Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
CN1656477A (zh) * 2002-06-17 2005-08-17 国际商业机器公司 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN102725790A (zh) * 2010-02-05 2012-10-10 三菱电机株式会社 识别词典制作装置及声音识别装置
US20120331003A1 (en) * 2010-09-24 2012-12-27 International Business Machines Corporation Efficient passage retrieval using document metadata

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3978221B2 (ja) * 2003-12-26 2007-09-19 松下電器産業株式会社 辞書作成装置および辞書作成方法
JP5039654B2 (ja) * 2008-07-09 2012-10-03 株式会社キーエンス 流量計
JP2011096015A (ja) * 2009-10-29 2011-05-12 J&K Car Electronics Corp 電流値報知装置および発振制御回路
JP2013072973A (ja) 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
CN1656477A (zh) * 2002-06-17 2005-08-17 国际商业机器公司 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
CN102144229A (zh) * 2008-10-02 2011-08-03 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
CN102725790A (zh) * 2010-02-05 2012-10-10 三菱电机株式会社 识别词典制作装置及声音识别装置
US20120331003A1 (en) * 2010-09-24 2012-12-27 International Business Machines Corporation Efficient passage retrieval using document metadata

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110235127A (zh) * 2017-01-20 2019-09-13 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN110235127B (zh) * 2017-01-20 2023-05-26 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN112541498A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体

Also Published As

Publication number Publication date
JP6277921B2 (ja) 2018-02-14
US9529792B2 (en) 2016-12-27
CN105468581B (zh) 2018-04-06
US20160092436A1 (en) 2016-03-31
JP2016066233A (ja) 2016-04-28

Similar Documents

Publication Publication Date Title
CN105468581A (zh) 词汇表管理装置、词汇表管理系统和词汇表管理方法
US7245765B2 (en) Method and apparatus for capturing paper-based information on a mobile computing device
US7203663B1 (en) System and method for converting information on paper forms to electronic data
CN102750794B (zh) 一种票据自动录入系统及其应用方法
US20030200078A1 (en) System and method for language translation of character strings occurring in captured image data
CN101753763B (zh) 图像形成装置、原稿读取装置、服务器装置、数据处理系统
CN101582083A (zh) 基于万维网的图像内容的检测、提取以及识别
CN110737629A (zh) 一种用于归档电子文件的方法及系统
CN110765740A (zh) 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
US20240161522A1 (en) Automated categorization and processing of document images of varying degrees of quality
CN105335356B (zh) 一种面向语义识别的纸质翻译方法及翻译笔装置
KR100673198B1 (ko) 이미지 입력 시스템
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN114821613A (zh) 一种pdf中表格信息的抽取方法和系统
CN101394462A (zh) 信息处理装置及信息处理方法
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统
KR20130080745A (ko) 스마트폰의 카메라 모듈과 원격지 서버의 ocr 엔진을 이용한 전자문서 생성 방법 및 이를 위한 단말장치
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
US10264157B2 (en) Image processing apparatus, image processing method and image processing program
JP2003173421A (ja) 文字認識結果補正装置
JP2006309781A (ja) 帳票イメージ処理方法及びその装置
JP3682861B2 (ja) ファクシミリサーバとそのプログラム
KR20070067753A (ko) 문자 복구 기능을 갖는 화상형성장치 및 그 방법
KR100821519B1 (ko) 단어정보 제공 시스템
CN118038248A (zh) 图像处理方法及装置、文字图像处理模型训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180406