CN201917926U - 一种具有扫描功能的长术语自动抽取装置 - Google Patents

一种具有扫描功能的长术语自动抽取装置 Download PDF

Info

Publication number
CN201917926U
CN201917926U CN2010206893816U CN201020689381U CN201917926U CN 201917926 U CN201917926 U CN 201917926U CN 2010206893816 U CN2010206893816 U CN 2010206893816U CN 201020689381 U CN201020689381 U CN 201020689381U CN 201917926 U CN201917926 U CN 201917926U
Authority
CN
China
Prior art keywords
control circuit
terminology
extraction device
scan function
superimposer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010206893816U
Other languages
English (en)
Inventor
梁颖红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center
Original Assignee
Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center filed Critical Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center
Priority to CN2010206893816U priority Critical patent/CN201917926U/zh
Application granted granted Critical
Publication of CN201917926U publication Critical patent/CN201917926U/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Facsimiles In General (AREA)
  • Image Processing (AREA)

Abstract

本实用新型公开了一种具有扫描功能的长术语自动抽取装置,装置包括:壳体,壳体上具有输入接口和输出接口;控制板,其设置在壳体内,并且控制板中包括:主控制器和通过主控制器发出信号进行控制的图像扫描控制电路;图像扫描控制电路包括:可编程逻辑控制器、与可编程控制器连接的影像传感器、和与影像传感器连接的模/数转换器;识别电路,其与图像扫描控制电路连接,包括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为并联关系的多个输入接口;多个模式存储器。本实用新型的长术语自动抽取装置能直接将纸件文件通过扫描和识别进行术语抽取,并且可以采用抽取模式叠加的混合策略进行术语的抽取。

Description

一种具有扫描功能的长术语自动抽取装置
技术领域
本实用新型涉及一种术语抽取装置,尤其涉及一种基于混合策略的具有扫描功能的长术语自动抽取装置。
背景技术
术语自动抽取是信息处理中的一个重要课题。随着新科技、新事物、新现象、新概念的出现产生了术语,丰富了语言的词汇,当今社会科学发展日新月异,信息技术发展迅速,网络语言,新兴语言层出不穷,术语的变化越来越多样化,随着长术语的大量涌现,对于长术语的抽取越来越成为了术语自动抽取的难点和重点,长术语抽取对信息检索、信息抽取、数据挖掘、机器翻译等自然语言处理课题的研究,了解和把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。
近几年,国内外的一些学者对多字词术语自动抽取进行了广泛的研究。例如,以加权两个相邻的字来抽取术语;或者,使用互信息来确定词语之间的搭配关系;再或者,利用术语的前缀信息,只接受前缀是名词的串为术语;以及,利用反映术语的上下文信息的参数来进行术语抽取,得到了较好的识别结果。
分析上述多字词术语自动抽取技术后发现:在单独运用上下文信息和互信息来分析字符串与上下文的结合强度和字符串的内部结合强度时,一般只对双字词的抽取精度比较高,而多字词的抽取精确度则相对较低。在基于开放语料的术语抽取实验中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%。长术语自身易于隐藏,连接强度弱,如果运用单一特征来抽取,精度不是很高。由此可见,无论是基于统计学,还是基于语言学,每种独立的方法都有各自的局限性。
特别是对于一些纸质文件,需要先通过扫描仪器扫描并经过识别设备识别后,才能进行术语的抽取,这样增加了术语抽取的步骤。
实用新型内容
本实用新型针对现有技术的弊端,提供了一种具有扫描功能的长术语自动抽取装置。
本实用新型所述的具有扫描功能的长术语自动抽取装置,能够实现通过一件仪器对纸件文件进行术语抽取的目的。
本实用新型所述的具有扫描功能的长术语自动抽取装置,还能够实现对术语抽取模式进行叠加,最终采用混合策略抽取纸件文件中的长术语,并且能够确保抽取高精度的目的。
本实用新型提供了一种具有扫描功能的长术语自动抽取装置,所述装置包括:壳体,所述壳体上具有输入接口和输出接口;控制板,其设置在所述壳体内,并且所述控制板中包括:主控制器和通过所述主控制器发出信号进行控制的图像扫描控制电路;所述图像扫描控制电路包括:可编程逻辑控制器、与所述可编程控制器连接的影像传感器、和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连接,包括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为并联关系的多个输入接口;多个模式存储器,其中,各模式存储器具有与所述抽取模式叠加器的输入接口相结合的输出接口。
优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述装置还包括设置在所述壳体内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通过步进电机控制电路驱动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。
优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述抽取模式叠加器中的输出接口和输入接口均为USB接口。
优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述多个模式存储器为两个模式存储器,分别保存字符串与上下文结合强度信息和字符串内部结合强度信息。
优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述壳体中还包括电源,其连接至所述控制板。
本实用新型所述的长术语自动抽取装置采取上下文信息和互信息结合的混合策略进行长术语的抽取。由于具有抽取模式叠加装置,也可以采用其它策略组合进行长术语抽取。其根据长术语的特征,考虑了术语与术语上下文之间的关系,普通术语搭配的前缀、后缀信息库和术语的词性构成规则进行术语选择;然后再利用互信息计算候选术语的内部结合强度,以进行术语候选的抽取,得到了较好的抽取结果,避免了现有技术中对于长术语的遗漏。并且能够通过自带的扫描装置直接对纸件文件进行术语抽取。
附图说明
图1为本实用新型所述具有扫描功能的长术语自动抽取装置的结构示意图;
图2为本实用新型所述具有扫描功能的长术语自动抽取装置中的抽取模式叠加器的结构示意图。
具体实施方式
下面结合附图对本实用新型做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本实用新型所述的具有扫描功能的长术语自动抽取装置,充分考虑字符串与上下文信息的结合强度、以及字符串内部的结合强度,并依据此两种结合强度的信息来完成长术语的自动抽取。
如图1所示,本实用新型所述的具有扫描功能的长术语自动抽取装置,所述装置包括:壳体,所述壳体上具有输入接口和输出接口;控制板,其设置在所述壳体内,并且所述控制板中包括:主控制器和通过所述主控制器发出信号进行控制的图像扫描控制电路;所述图像扫描控制电路包括:可编程逻辑控制器、与所述可编程控制器连接的影像传感器、和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连接,包括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为并联关系的多个输入接口;多个模式存储器,其中,各模式存储器具有与所述抽取模式叠加器的输入接口相结合的输出接口。
在使用中,用户将拟混合的抽取模式所在的各模式存储器硬件插入抽取模式叠加器中,从而可以选择适当的混合模式。抽取模式叠加器将这些抽取模式进行叠加,作为抽取文件中长术语的策略。用户通过长术语自动抽取装置中的图像扫描控制电路对待抽取术语文件进行扫描,扫描后通过识别电路进行识别,再对识别出的文件根据上述叠加出的策略进行长术语抽取。
所述的具有扫描功能的长术语自动抽取装置中,所述装置还包括设置在所述壳体内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通过步进电机控制电路驱动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。这样能够带动影像传感器执行文件的扫描操作。
所述的具有扫描功能的长术语自动抽取装置中,所述抽取模式叠加器中的输出接口和输入接口均为USB接口。
所述的具有扫描功能的长术语自动抽取装置中,所述多个模式存储器为两个模式存储器,分别保存字符串与上下文结合强度信息和字符串内部结合强度信息。
所述的具有扫描功能的长术语自动抽取装置中,所述壳体中还包括电源,其连接至所述控制板。包括长术语输出模块,还包括基于上下文信息抽取候选术语模块及基于互信息抽取术语模块。
尽管本实用新型的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本实用新型的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本实用新型并不限于特定的细节和这里示出与描述的图例。

Claims (5)

1.一种具有扫描功能的长术语自动抽取装置,其特征在于,所述装置包括:
壳体,所述壳体上具有输入接口和输出接口;
控制板,其设置在所述壳体内,并且所述控制板中包括:主控制器和通过所述主控制器发出信号进行控制的图像扫描控制电路;
所述图像扫描控制电路包括:可编程逻辑控制器、与所述可编程控制器连接的影像传感器、和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连接,包括识别处理芯片;
抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为并联关系的多个输入接口;
多个模式存储器,其中,各模式存储器具有与所述抽取模式叠加器的输入接口相结合的输出接口。
2.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述装置还包括设置在所述壳体内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通过步进电机控制电路驱动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。
3.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述抽取模式叠加器中的输出接口和输入接口均为USB接口。
4.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述多个模式存储器为两个模式存储器,分别保存字符串与上下文结合强度信息和字符串内部结合强度信息。
5.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述壳体中还包括电源,其连接至所述控制板。
CN2010206893816U 2010-12-30 2010-12-30 一种具有扫描功能的长术语自动抽取装置 Expired - Fee Related CN201917926U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010206893816U CN201917926U (zh) 2010-12-30 2010-12-30 一种具有扫描功能的长术语自动抽取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010206893816U CN201917926U (zh) 2010-12-30 2010-12-30 一种具有扫描功能的长术语自动抽取装置

Publications (1)

Publication Number Publication Date
CN201917926U true CN201917926U (zh) 2011-08-03

Family

ID=44417719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010206893816U Expired - Fee Related CN201917926U (zh) 2010-12-30 2010-12-30 一种具有扫描功能的长术语自动抽取装置

Country Status (1)

Country Link
CN (1) CN201917926U (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336767A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 一种辞典外英语汉语术语译文挖掘装置
CN105550643A (zh) * 2015-12-08 2016-05-04 小米科技有限责任公司 医学术语识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336767A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 一种辞典外英语汉语术语译文挖掘装置
CN105550643A (zh) * 2015-12-08 2016-05-04 小米科技有限责任公司 医学术语识别方法及装置

Similar Documents

Publication Publication Date Title
CN101064103B (zh) 基于音节韵律约束关系的汉语语音合成方法及系统
CN110675853B (zh) 一种基于深度学习的情感语音合成方法及装置
WO2004042641A3 (en) Post-processing system and method for correcting machine recognized text
EP1217535A3 (en) Method and apparatus for generating normalized representations of strings
CN110675854A (zh) 一种中英文混合语音识别方法及装置
WO2005094509A3 (en) Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN201917926U (zh) 一种具有扫描功能的长术语自动抽取装置
CN102063282B (zh) 汉语语音输入系统及方法
CN106933811A (zh) 一种词条自动生成方法和装置
CN105488036A (zh) 基于人工智能机器人的翻译提供方法及装置
CN106502988B (zh) 一种目标属性抽取的方法和设备
CN103079180A (zh) 一种远程协助的方法及系统
CN103164398B (zh) 利用汉维电子辞典自动转译汉维语的方法
CN204311240U (zh) 基于非特定人语音识别的智能洗衣机控制系统
CN104035551A (zh) 一种输入方法及电子设备
CN101539909A (zh) 将泰文翻译为罗马拼音的方法及其装置
CN109933776A (zh) 一种具有扫描功能的长术语自动抽取装置
CN1009226B (zh) 调声韵类式拼音输入键盘及输入法
CN102521577A (zh) 一种交互式多媒体设备的笔迹识别、合成和跟踪方法
CN103853705A (zh) 计算机汉语语音与外语语音实时语音字幕翻译方法
CN104235042B (zh) 汉语语音遥控电风扇的方法
CN1525388A (zh) 汉字处理设备和汉字处理方法
CN1053976C (zh) 全拼双拼混用型中文输入方法
CN103279202A (zh) 一种符合教学用的规范全息汉字输入方法及输入法系统
CN100365551C (zh) 一种手持设备的文字输入方法和装置

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110803

Termination date: 20131230