CN1144004A - 多个客户机共有的数据库系统、数据更新方法及面向文字处理装置的应用 - Google Patents
多个客户机共有的数据库系统、数据更新方法及面向文字处理装置的应用 Download PDFInfo
- Publication number
- CN1144004A CN1144004A CN95192149A CN95192149A CN1144004A CN 1144004 A CN1144004 A CN 1144004A CN 95192149 A CN95192149 A CN 95192149A CN 95192149 A CN95192149 A CN 95192149A CN 1144004 A CN1144004 A CN 1144004A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- word
- data
- reference value
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Computer And Data Communications (AREA)
Abstract
在将多个用户数据库连接到主机数据库的数据库系统中,判断存储在各用户数据库的数据是否满足向主机数据库登录的条件,满足登录条件的数据将其记录在主机数据库,这种更新登录处理就所有的用户数据库的所有数据进行,把满足登录条件的所有数据登录到主机数据库,而登录的数据从用户数据库删除。这种数据库系统也可以用到由日语、英语文书处理装置等通用辞典和用户辞典构成的系统中。
Description
本发明涉及通过网络将多个客户机连到共有数据库的数据库系统,更详细地涉及在各客户机的数据构成中可以将重复的数据有效地存于数据库的数据系统及数据库建立方法。另外,本申请还包括面向本发明的文字处理装置的应用。
众所周知,数据库系统是将多个客户机例如个人计算机通过网络连接到数据库装置而共亨数据库。
在该种数据库系统中,共有数据库没有登录用户需要的数据时,在这种情况下,各用户利用所使用的客户机的存储器,生成各自的数据文件,供自己使用。
但是,用户生成各自的数据文件从系统整体考虑却有以下的低效率问题。
即,用户在各自的数据文件中重复拥有相同内容的数据,不仅在时间、人力上而且在资源上造成使用浪费,而且为了避免上面的使用浪费,在共有数据库中预先登录认为需要的所有数据会招致共有数据库的巨大化,导致数据利用率低下。
例如考虑如下翻译系统:服务器连接多个计算机终端,服务器共有作为数据库的翻译用辞典。这种情况,作为辞典,通过备齐各个专业领域的辞典才能进行各个领域的翻译,但是,这些辞典的所有内容都应用到的情况却很小,例如只限于一个专业领域的情况下,在预先准备的辞典中内容不全的问题却实际存在,实际上,谈到自然科学,还有生物、医学、化学、机械、电气、电子等多个领域,而且这些领域中的每一个还可细分为更多的领域,另外,通过研究的进展,细分化的一个领域本身也在变动。
因此,这种需求,从某种意义说是无限制的,服务器侧的辞典的扩张归根结底是无法对应的,之所以这样说,是因为由用户完备各自的辞典对用户来说是一种巨大的负担。
本发明的目的在于基本上消除共有数据库的数据库系统的上述问题。
为此,在本发明中,利用在各客户机独自生成的个别数据库来扩充服务器的数据库,即,服务器的数据库装置检索各用户的数据库(以下称用户数据库)中登录的数据,并判断是否应该登录到服务器的数据库。判断的基准既可以是对各用户登录的数据所授予的重要程度及特征量,也可以是各登录数据的用户之间的重复度,或登录数据的使用频度,还可以是上述二者或三者的组合。
在此,所谓特征量和数据自身的信息是附加了特别意义的参数,例如使用者可以任意决定的数据库中的数据的重要程度,表现使用者如何频繁地存取数据库的数据等的数据使用频度,或者显示多少用户作为个人数据而存储在用户表中的登录数等。
无论哪种情况,用户数据库的数据中,只要是具有向服务器数据库登录价值的内容,便将此内容追加到服务器数据库中,并且将登录到服务器数据库的数据从用户数据库中删除,据此,用户数据库可以有效地利用自身的容量。
根据本发明,可以将用户需求高的数据有效地追加到服务器数据中,服务器数据库经充实可以共享有价值的数据库,因此,可以促进有效利用各用户侧的数据。
如上所述的服务器数据库的数据的登录处理未必是定期的、自动的,例如也可以通过操作人员的各自的判断,在需要时实行登录处理。
关于数据的登录条件(判断条件),无需对全部数据千篇一律地设定登录条件,例如,数据按重复的种类划分的情况下可以按每个种类设定登录条件,而且比较理想的是该设定可以根据需要更改。而且,数据的登录条件所使用的数据的重要程度等有关数据登录的各参数由各用户给予,但因为是否可以登录的判断通常在服务器侧进行,所以,即使由用户将例如数据的重要程度(特征量)设定得很高,若不重复登录该数据,就不进行向服务器数据库的登录,可以保持多种适应性。
本发明可以应用到多种数据库系统,并可有效适用于各用户使用共同数据的可靠性高的系统,作为这样的系统,有例如文字处理系统(包括日语中的假名变换和翻译系统)、用户信息系统等。
在作为本发明应用的文字处理系统中,判断登录到用户辞典的单词的使用频度是否超过了规定的基准值,当判断为单词的登录频度超过基准值的情况下,将该单词登录到追加系统辞典,并且,单词登录到追加系统辞典后,将该单词从用户辞典中删除。
而且判断登录在用户辞典的单词的使用频度是否超过了规定的基准值,当使用频度在规定的基准值以下时,将该基准值以下的单词从用户辞典中删除。
而且判断记录在文件中的接续关系数据的使用频度是否超过了规定的基准值,当使用频度在基准值以下时,将基准值以下的接续关系数据从文件中删除。
特别地,当处理的负荷在规定的基准以下时,自动地将单词从用户辞典中删除,而且将接续关系数据从文件中删除。
附图的简要说明:
图1为本发明的第一实施例的数据库系统的系统构成图;
图2是显示向第一实施例的系统共有表进行记录登录处理的流程图;
图3表示用户表一例的说明图;
图4表示将图3所示的用户表的记录进行登录处理后的状态说明图;
图5是本发明的第二实施例的数据库系统的系统构成图;
图6是图5所示的信息终端的构成方框图;
图7表示图5所示的主数据库文件的记录构成例的示意图;
图8表示图6所示的信息终端的辅助数据文件的构成例示意图;
图9表示构成图5所示的子数据库信息暂存部的例子示意图;
图10是登录处理后的主数据文件的示意图;
图11表示向子数据库信息暂存部进行记录登录处理的流程图;
图12表示从子数据库信息暂存部向主数据库文件进行登录处理的流程图;
图13表示将登录处理后的记录进行删除处理的流程图;
图14表示本发明的第三实施例的假名汉字变换装置的构成方框图;
图15表示图14中的登录计数表的构成示意图;
图16表示图14的基准值存储表的构成示意图;
图17是说明本实施例的假名的汉字变换装置的记录更新处理的流程图;
图18表示本实施例的假名汉字变换装置的登录处理的说明图;
图19表示本发明的第4实施例的假名汉字变换装置的构成方框图;
图20表示图19的用户机装置的构成方框图;
图21表示图19的服务器装置的构成方框图;
图22表示图21的频度文件的构成方框图;
图23表示图21的频度文件的构成方框图;
图24表示图21的关系频度文件的构成方框图;
图25表示图21的关系频度文件的构成方框图;
图26表示图21的项目变换表的构成方框图;
图27表示将图21中的频度文件进行存取处理的方框图;
图28表示本实施例的在线学习处理的概略流程图;
图29表示本实施例的用户辞典进行单词删除处理的流程图;
图30表示从用户辞典删除单词时进行评价处理的流程图;
图31表示对用户辞典进行无用单元收集处理的流程图;
图32表示将登录在本实施例的接续频度文件的关系频度进行降低处理的流程图;
图33表示接续频度的推移图;
图34表示将登录在本实施例的接续频度文件的接续关系数据进行删除处理的流程图;
下面根据附图说明本发明的数据库系统的实施例。
<第一实施例>
图1表示本发明的数据库系统的第一实施例的构成方框图;
本实施例的数据库系统由连接在以太网10的服务器1和具有各自用户表21的#1~#N的客户机2构成,其中客户机2由个人计算机构成。服务器1由具有大容量存储器的计算机构成,从功能上看包括:系统共有表11、追加系统共有表12、登录记数表14、基准值存储表15、登录部16、记录删除部17及基准值变更部18。
在此,所谓服务器,是指用LAN连接的计算机中提供信息和服务的工作站等计算机,该服务器检索由客户机等输入的数据库的检索条件,同时检索服务器的数据库,将其检索结果提供给客户机。
而且客户机是从其他计算机接受服务的计算机,表示终端和工作站等装置。
在此,系统共有表11构成如下:它是通过所有的客户机2将共同使用的记录作为表构造的存储部,用户可以进行数据的追加和删除。
追加系统共有表12未登录在系统共有表11中,但根据本发明方法,它是由用于将认为最该登录的记录追加登录的存储部构成的表。登录计数表14是就某记录在#1~#N的所有用户表21中,记录该记录实际登录的用户表数(登录频度)的表,若位于一个用户表21中的记录被登录,与该记录对应的用户表数只更新1。
基准值存储表15是从向#1~#N的所有用户表21分别登录的记录中选择用于向追加系统共有表12登录的记录的基准值存储表,例如,可以根据记录的种类和属性设定基准值。
登录部16的构成如下:判断存储在登录记数表14的登录在用户表21的记录的登录频度是否超过了存储在基准值存储表15的基准值,当记录的登录频度超过了基准值时,将该记录向追加系统共有表12中登录。
记录删除部17的构成如下:记录向追加系统共有表12登录后,将该记录从#1~#N的所有用户表21中删除。
基准值变更部18根据需要改变基准值存储表15中的各基准值。
下面参照图2说明本实施例的数据库系统的工作。
登录处理开始后,首先,#1的客户机2从服务器1接收用户表读入命令后(S1),读出登录在#1用户表21中的1个记录(S2),并且对应该读出的记录,将登录计数表14中的对应登录频度加1。
然后,通过将取出的记录作为关键字从#2顺序检索到#N,判断是否登录在其他的#2~#N的所有用户表21中,若已登录,将每次的登录频度增加(S3)。
这样,就一个记录处理结束后,登录部16判断记录在登录记数表14中的登录频度是否超过了存储在基准值存储表15中的基准值(S4),当该记录的登录频度超过了对应的基准值时(S4中的是)向追加系统共有表12中登录(S5)的同时,向记录删除部17送登录结束的指令。
记录删除部17从登录部16接受登录结束的指令后,从选择的记录登录的用户表21中将该记录删除(S6)。
上述记录的登录处理,是就最初登录在#1的用户表21的全部记录反复进行(S7),接着,象#3、#4那样,一直按用户顺序进行到最后的用户表(#N),最后的用户表的最后的记录处理结束时,结束第一次的登录处理(S8)。
图3及4显示了具体的例子。
如图3所示,考虑多个用户将各用户的电话号码本作为用户表登录在各客户机2的情况,这种情况的1个记录由人个姓名、公司名、公司的电话号码、住宅的电话号码构成,象图中用网络表示的那样,假想在两个用户表中登录了重复的记录,这时,假设在追加系统共有表12中没有登录这些重复的记录。
登录值(登录条件)设为2人以上将同一记录登录在各用户表中。
现在,使用该登录值,进行用图2说明的登录处理后,取出用户#1和用户#2共同登录的“长冈宏”这一记录及用户#1和用户#N共同登录的“田中一”这一记录,如图4所示登录到追加系统共有表,在用户#1、用户#2、用户#N的各表中,登录的记录分别被删除。
在上述实施例中,登录记数表14、基准值存储表15、基准值变更部18等未必需要,进行登录处理时,也可以设定基准值,而且,登录处理也可以按所定的时序自动进行,也可以由操作员间歇进行。而且,数据库的数据结构,并不限于上述表结构,也可以是具有预先设定的数据结构。
<第二实施例>
图5表示多个信息终端40#1-#5通过LAN(局城网)连接在数据库服务器30的数据库系统。数据库服务器30具有:通过信息终端40共享的主数据文件31;可以从信息终端40将数据自由追加、变更的辅助数据库信息暂存部32。处理部33根据存储在存储部(ROM)34的各种程序进行以下描述的各种处理。
在此,信息终端以移动方便的小型个人计算机为例,至少由以下几部分构成:LCD(液晶显示器)等显示装置、键盘等输入装置、RAM、ROM、由硬盘驱动器构成的存储器、及以将命令输出到上述装置进行控制的CPU(Central Processing unit)为中心的处理装置。
图6表示信息终端40的构成方框图。信息终端40将用户需要的主数据库文件31的一部分拷贝并存储到备份主数据库文件41中,将用户可以自由地进行变更、追加的数据存储子数据库文件42中。
由信息终端40的输入部构成的检索条件输入后,该检索条件通过处理部43暂时存储在信息终端40的存储部47的同时,通过连接器44将检索条件传送到数据库服务器30侧。数据库服务器30的处理部33根据传送的检索条件检索主数据库文件31,将检索结果传送给信息终端40的处理部43。信息终端40的处理部43将传送的检索结果显示在显示部46。
而且,信息终端40可以通过其自身具有的备份主数据库文件41或子数据文件42进行数据库的检索。与使用数据库服务器30时相同,从输入部45输入检索条件后,备份主数据库文件41或子数据库文件42由处理部43检索,将检索结果送显示部显示。
图7表示主数据库文件30的一例,该例中,各记录由个人姓名、公司电话号码、住宅电话号码、使用频度(次数)、追加数据构成,关于追加数据后面叙述。
图8表示信息终端1-3的子数据库文件的结构。子数据文件的记录由个人姓名、公司电话号码、住宅电话号码及使用频度(次数)构成。
图9表示数据库服务器30的子数据库信息暂存部32的数据结构。该暂存部32的各记录由个人姓名、公司电话号码、住宅电话号码、各使用者名、各使用者的使用频度及频度合计构成。
信息终端40连接到数据库服务器30后,数据库服务器30顺序读出信息终端40的子数据文件42的记录,将使用频度在基准值(如25)之上的记录存储在子数据库信息暂存部32。使用者名和使用频度,只有该使用频度比存储在子数据库信息暂存部42的使用频度大的情况下,才更新该记录。
图10表示更新后的主数据库存文件31的一例。主数据库文件31的记录由个人姓名、公司电话号码、住宅电话号码、使用频度、追加数据构成,这在前面叙述过,与图7比较后可知,追加了“冈本太郎”的记录,追加数据栏中记录“1”,即,该追加数据栏用于判断该记录是在主数据库文件31中开始就有的呢,还是新追加的。
这个追加记录条件设为例如在三个以上的信息终端40、使用频度为25以上的记录,参照图9的子数据库信息暂存部32,满足该条件的为“冈本太郎”这一记录。因此,如图10那样,在登录处理(更新处理)中,“冈本太郎”这一记录被追加登录到主数据库文件31,则在追加数据栏中写入“1”。在此,将使用频度作为是否登录到主数据库文件31的基准(条件)之一,但与使用频度同时或代替使用频度,也可以将记录(数据)的重要程度作为基准。记录的重要程度在信息终端40的使用者在子数据库信息暂存部32作记录时由使用者的判断来决定。
图11表示读出信息终端40的子数据库文件42的记录,在子数据库信息暂存部42进行所需记录的追加更新的流程图。
判断某信息终端40是否连接到了数据库服务器30,连接时(S40是),将该信息终端40的子数据库文件42的记录顺序读出(S41),判断该记录的使用频度是否在规定值(如基准值25)以上(S42),若在规定值以上,将该记录存储到数据库服务器30的子数据库信息暂存部32(S43)。该更新处理重复进行到连接的信息终端40的子数据库文件42的最后一个记录(S44),最后的记录处理结束时,终止该程序,
图12表示向主数据库文件31进行记录写入操作的流程图。
该程序开始后,首先顺序读出记录在子数据库信息暂存部30的记录(S50),判断该记录是否记录在规定数(如3)以上的信息终端40(S51),是时,判断使用频度的合计值是否在规定值(在此,例如80)以上(S52),是时,因为满足追加登录条件,所以将该记录追加登录到主数据库文件31中(S53)。向主数据库文件31追加登录时,由于没必要在子数据库信息暂存部32保留该记录,所以将该记录从子数据库信息暂存部32中删除。
这种处理最好是一定时间如一日一次地进行,也可以不定期进行。
图13表示整理信息终端的子数据库文件的记录的流程图。因为将追加到主数据库文件31的记录再在信息终端40保存已无意义,所以将该记录删除。处理开始后,首先顺序读出主数据库文件31的记录(S60),接着,读出信息终端40的子数据文件42的记录,判断子数据库文件42的记录和主数据库文件31的记录是否相同(S62),是时,删除相同的子数据库文件42的记录(S63),该删除处理是就子数据库文件42的所有记录进行,最后一个记录处理结束时,终止该删除处理(S64),据此,可以有效利用子数据库存文件42的存储容量。该删除处理经过一定时间间隔,并且以信息终端40连接到数据库服务器30为条件进行,但也可以由信息终端40的使用者在任意时间进行。
<第三实施例>
图14表示将本发明的数据库系统应用到作为日语文字处理装置的假名汉字变换装置时的构成方框图。
本实施例的假名汉字变换装置由作为连接到以太网110的服务器的服务器装置100和具有各自用户辞典221的#1~#n的客户机装置200构成,并且服务器装置100包括:系统辞典111,追加系统辞典112,使用频度信息文件113,登录记数表114,基准值存储袁115,登录部116,单词删除部117及基准值变更部118。
在此,系统辞典111是进行假名汉字变换时的共有的基本词辞典,对应一个读音指定几个变换语,这些指定的变换语设有词类及使用优先顺序。该系统辞典111不能追加和删除。
追加系统辞典112是进行假名汉字变换时将需要的变换语追加收集的单词辞典,登录有对应于读音的变换语,只是与系统词曲111不同,不设词类。
使用频度信息文件113存储有表示将对应于读音的变换语从系统辞典111及追加系统辞典112读出时的优先顺序的优先值。
登录记数表114是记录单词的登录频度的表,该单词的登录频度是就某记录登录在#1~#n的所有的用户辞典221,如图15所示,由以下部分构成:每个固有名词、普通名词、动词等词类存储有单词读音的读音存储区141,存储对应于该读音存储区141内的读音的变换语的变换语存储区142,登录读音存储区141内的读音的用户辞典数存储区143,存储读音存储区141内的读音的优先值之和的优先值之和存储区144。
在此,所谓优先值,是指示将对应于某读音的变换语从用户辞典221中读出时的优先顺序的指标,由各用户将单词登录在用户辞典221时指定,而且该优先值之和是登录在各用户辞典22l的同一单词的优先值之和。因此,优先值之和越大的读音的变换语,对于全体的用户辞典22l而言,越优先读出。优先值之和便成为从#1~#n的所有用户辞典221登录的单词中选择向追加系统辞典112登录的单词的基准值。在图中将存储在读音存储区141的读音“くぼ”进行变换后,为“
”,登录该读音“くぼ”的用户辞典数为10,优先值之和为15。
基准值存储表115是存储选择单词的基准值的表,该单词用于从登录在#1~#n的所有用户辞典221的单词中向追加系统辞典112中登录,如图16所示,由以下几部分构成:存储每个词类名称的词类名称存储区15l,存储对应于该词类名称存储区151内的词类的第一基准值的第一基准值存储区152,存储第二基准值的第二基准值存储区153。
在此,第一基准值由登录对应某读音的变换语的用户辞典数221构成,第二基准值表示该优先值之和。
图中,固有名称的情况下,第一基准值是3,第二基准值是10。
登录部116判断登录在存储于登录记数表114中的用户辞典221中的单词的登录频度是否超过了存储于基准值存储表115中的基准值,单词的登录频度超过基准值的情况下,将该单词向追加系统辞典112中登录。
在此,所谓单词的登录频度是指用户辞典数,或用户辞典数与优先值之和的组合。
单词删除部117在单词向追加系统辞典112登录后,将该单词从#1~#n的所有用户辞典221中删除。
基准值变更部118根据需要可以改变基准值存储表115的第一基准值及第二基准值。
下面参照图17说明本实施例的假名汉字变换装置的工作。
每经过规定时间,#1客户机200从服务器100接受用户辞典读入命令后(S100),读出登录在#1的用户221中的一个记录(S110),并且,将该读出的单词的读音、变换语、及优先值分别存储在登录计数表114的读音存储区141、变换语存储区142及优先值之和存储区144,同时将用户辞典数存储区143加1。
然后,通过以取出的单词为关键字从#2顺序检索到#n,来判断是否登录在其他的#2~#n的所有用户辞典221(S130)。
在已登录在#2~#n的用户辞典221的情况下(S130是),每次检索将用户辞典数存储区143的值加1,而且将登录在该用户辞典221的优先值加到优先值之和存储区144(S140)。
相反,在没有登录在其他的#2~#n的用户辞典221的情况下(S130为NO否),读出下一个单词并进行与上述相同的处理,这样,就登录在#1的用户辞典的所有单词进行同样的处理后(S150),从#2的用户辞典221登录到#n的用户辞典221的单词不重复计算。
这样,读出#n的用户辞典221的最后的单词处理结束后(S160),登录部116就记录在登录记数表114的所有读音,选择存储在用户辞典数存储区143的用户辞典数超过存储在基准值存储表115的第一基准值存储区152的第一基准值(用户辞典数)的部分(S170),将该读音和与该读音对应的变换语登录在追加系统辞典112(S180),同时向单词删除部117送登录结束的指令。
单词删除部117接受从登录部16送来的登录结束的指令后,从选择的读音单词登录的用户辞典221中将该读音单词删除。
上述的S170的处理中,登录部116也可以选择存储在优先值之和存储区144的优先值之和超过第二基准值的内容。
而且上述S100到S160的处理中,接受从服务器1来的用户辞典读入命令时,也可以使#1~#n的所有用户辞典221一起工作,这样可以缩短选择时间。
参照图18具体说明上述的处理工作。
如图18所示,在#i用户辞典221中,与读音“ひろし”对应的变换语是“比吕志”,它的优先值为200,在#j的用户辞典221,与读音“ひろし”对应的变换语为“比吕志”,它的优先值为20,以这种情况为例说明。
这时,#i的用户机200取出“ひろし”的变换语时,登录在#i的用户频度信息113的优先值高的“宏”比优先值低的“博”优选选出,关于#j的客户机200“博”比“宏”优先选出。
进行上述的处理后,以读音“ひろし”将“比吕志”登录到追加系统辞典112后,从#i的用户辞典221及#j的用户辞典221以读音“ひろし”的变换语“比吕志”被删除。
并且,在#i的用户频度信息113中,存储有“比吕志”的优先值,因此,将“比吕志”登录在追加系统辞典112后,“比吕志”最先选出。
在#j的使用频度信息113中,“比吕志”的优先值比“博”及“宏”的优先值低,所以三者中最后选出。
在上面的实施中,是就日语文字处理装置作的说明,但本发明并不限于日语文字处理,当然也可以应用到单词文字处理装置和机器翻译处理装置。
<第四实施例>
图19表示本发明应用在假名汉字变换装置的第二实施例的构成方框图。
第二实施例的本假名汉字变换装置由连接在以太网280的#1~#n的客户机250和服务器260构成。
#1~#n的各客户机250如图20所示,由以下几部分构成:输入罗马字、假名等的键盘251;显示输入的文字、候补变换、变换结果等的显示器252;输入输出处理部253;输入文字决定处理部254。
在此,输入输出处理部253将从键盘251输入的文字串及将该文字串编缉的内容存储在缓冲区(未图示),并在显示器252上显示。而且输入输出处理部253将对输入的文字串进行变换的结果存储在缓冲区(未图示),并将该内容显示在显示器252上。
输入文字决定处理部254在从输入处理部253接受输入文字串后,通过后述的辞典检索部261,从系统辞典265、追加系统辞典266及用户辞典267得到该输入文字串的所有读音,并基于此对输入文字按文节分割。输入文字决定处理部254将按文节分割的输入文字按每个文节确定单词并将其输出到显示器252。
另外,服务器260如图21所示,由以下几部分构成:辞典检索部261;数据记录处理部262;离线学习处理部263;登录语学习处理部264;系统辞典265;追加系统辞典266;由#1~#n构成的用户辞典267;存储相对于读音使用的单词的使用频度的频度文件268;存储词与词的接续关系数据的关系频度文件269;项目变换表270;上上次的频度文件271;上次的频度文件272;上上次的关系频度文件273;上次的关系频度文件274。
辞典检索部261检索系统辞典265、追加系统辞典266及用户辞典267,并检索对读音的候补变换。
数据记录处理部262在输入文字决定处理部254中,从客户机250接受决定单词候补变换的指令信息后,将把后述的频度文件268上的该单词的使用频度加1后的值作为新的使用频度更新,而且数据记录处理部262从客户机250接受使用了具有单词之间的关系的接续关系数据的指令信息后,将把关系频度文件269的关系频度加1后的值作为新的关系频度更新。
离线学习处理部263对辞典检索部261发出锁命令,以禁止单词使用频度的更新、单词的登录、删除及辞典的读入等,而且离线学习处理部263考查登录在用户辞典267的单词的使用频度及接读关系频度、从用户同典267中删除使用频度显著降低(频度为0)的单词。离线学习处理部263将因删除产生的用户辞典267内的区域进行无用单元的收集,从而进行辞典的再创建。
离线学习处理部263考查具有后述的关系频度文件269内的接续关系数据的关系频度,将关系频度在规定期间内无变化的接续关系数据的关系频度进行降低处理,在关系频度显著降低的0的情况下,从关系频度文件269中将保持0关系频度的接续关系数据删除。
登录学习处理部264在登录在各用户辞典267的单词的使用频度超过规定的基准值的情况下,将超过的单词取出登录到追加系统辞典266。
此时,登录学习处理部264将作为移动源的辞典ID的项目存储到后述的项目变换表270。
系统辞典265是进行假名汉字变换时的单词辞典,具有只对应一个读音的单词,该单词中设置词类及使用优先顺序。系统辞典265可以将这些内容追加、删除。
而且,系统辞典265划分为法律、经济、科技、工程等领域,可以把划分的每个领域看作一个辞典。
这样一来,用户给所划分的每个领域设定辞典ID,从中预先指定一个或多个,据此,只能检索该指定的辞典ID所在的领域,所以不必检索系统辞典265的整体,可以缩短变换时间。
追加系统辞典266与系统辞典265一样,是进行假名汉字变换时的单词辞典,对应一个读音指定几个变换语(汉字等),在这些被指定的变换语中设有词类及使用优先顺序。
但是,追加系统辞典266,象系统辞典265那样,没有区分法律、经济等领域,将使用优先顺序设定为0。
用户辞典267,根据自己的使用环境,用户在想使用新单词的情况下才有,是可以由用户自身进行单词登录的辞典,它的构成与系统辞典265一样,对一个读音指定几个变换语(汉字等),在这些被指定的变换语中没有词类及使用优先顺序。
频度文件266如图22所示,由项目区681及频度区682构成。
在此,项目区681是存储在各辞典ID的单词(汉字等)中,就规定时间内读出的单词存储于该辞典ID中的项目。
频度区682表示存储在各辞典ID的单词(汉字等)中,在规定时间内对读音所使用的次数。
例如,图23所示,说明了在读音为“こつかぃ”的情况下频度文件268的数据存储状况。
如图所示,对应读音“こ つかぃ”的单词(汉字)有“国会”及“黑海”两个,其中“国会”登记到作为政治领域的辞典ID1的第123号,表示在规定期间内被读出10次。相反,“黑海”登记到作为地名领域辞典的辞典ID2的第456号,表示在规定时间内被读出20次。
关系频度文件269如图24所示,由以下部分构成:项目区691;接续关系数据区692,由接续地址辞典ID区692a、项目区692b及关系频度区692c构成。
在此,项目区691表示象如“人”“去”那样,单词与单词连接的接续关系数据中,在前单词(如“人”)存储在辞典中的存储场所。
接续关系数据区692是接续关系数据中,表示在后语对在前语的接续关系的数据所存储的内容,在接续地址辞典ID区692a,存储有保存后面单词的辞典ID,在项目区692b,存储有保存后面单词的辞典中的项目,在关系频度区692c,存储在规定期间内上述变换文字被读出的次数。
如图25所示,以“人”“站立”、“人”“去”及“人”“出发”等例来说明。
如图所示,在“人”“站立”的情况下,“人”这个词被登记在作为一般辞典1的辞典ID1-3的第20号,“站立”这个词被登记在作为一般辞典的辞典ID4的第30号,表示与“人”的接续关系频度是40。
“人”“去”的情况下,“人”这个词被登记在作为一般辞典的辞典ID1-3的第20号,“去”这个词被登记在作为一般辞典的辞典ID4的第50号,表示和“人”的接续关系频度为60。
“人”“出发”的情况下,“人”这个词被登记在作为一般辞典的辞典ID1-3的第20号,“出发”这个词被登记在作为一般辞典的辞典ID4的第60号,表示与“人”的接续关系频度为1。
项目变换表270从登录学习处理部264进行的用户辞典267向追加系统辞典266登录的情况下并在登录的单词存在于多个用户辞典267时,使这些登记项和追加系统辞典266的登记项对应。
用图26来说明,项目变换表270具有:表示从用户辞典267取出的单词的保存场所的追加系统辞典项目存储区701,表示每个用户辞典267都有的、从追加系统辞典取出的单词的保存场所的用户辞典项目区702,对于一个追加系统辞典项目存储区701,对应有多个用户辞典项目区702。
上上次的频度文件271与频度文件268的构成相同,是在离线学习处理部263从用户辞典267中将单词删除前,将上次频度文件272进行文件拷贝形成。上次频度文件272与频度文件268及上上次频度文件271的构成相同,是在上上次频度文件271形成后,将频度文件268进行文件拷贝而形成。
上上次关系频度文件273的构成与关系频度文件269相同,是在上次频度文件272形成后,将上次关系频度文件274进行文件拷贝而形成。
上次关系频度文件274与关系频度文件269及上上次关系频度文件273的构成相同,是在上上次关系频度文件273形成后,将关系频度文件269进行文件拷贝而形成。
下面,说明本实施例的假名汉字变换装置的工作。
为了便于工作说明,分以下两种情况说明:<1>进行假名汉字变换的情况<2>进行将单词从用户辞典删除处理的离线学习的情况。
<1>反复进行假名汉字变换的情况
由于本假名汉字变换方法本身较熟悉,所以简单说明。
用户从键盘251输入用户ID后,从显示在显示器252上的一般领域1、一般领域2、法律领域、政治领域、经济领域、科技领域等中选择一个或多个领域后,通过输入输出处理部253,将具有选择的领域的辞典ID和只有用户可以使用的用户辞典267的辞典ID输出到输入文字决定处理部254(参照图27)。
于是,输入文字决定处理部254对内置于服务器260的辞典检索部261发出指令,检索具有上述辞典ID的辞典及追加系统辞典(该辞典也有固有辞典ID)。
然后,用户从键盘251输入输入文字串后,输入输出处理部253将从键盘251输入的输入文字串送显示器252,在显示器252显示,同时将输入文字串作为输入文字输出到输入文字决定处理部254。
输入文字决定处理部254接受输入文字后,利用关系频度文件269,进行该输入文字的相关解析。
即,输入文字决定处理部254通过辞典检索部261,判断输入文字是否存在于关系频度文件269中,在存在多个的情况下,将关系频度最高的句法结构(文章)作为与输入文字对应的文件输出。
另外,输入文字决定处理部254在输入文字不在关系频度文件269中的情况下,将输入文字按文节划分,对各文节决定规定的单词,从而确定与输入文字对应的文章。
若更详细地说明,则输入文字决定处理部254从输入处理部253接受输入文字后,为了将输入的文字按文节划分,从系统辞典265、追加系统辞典266及用户辞典267读出由输入及可以得到的所有读音,并向辞典检索部261发出指令。
于是,辞典检索部261从系统辞典265、追加系统辞典266及多个用户辞典中只检索所指示的辞典ID,将候补读音的多个单词(同音异义词)输出到输入文字决定处理部254。输入文字决定处理部254根据从辞典检索部261得到的读音,进行输入文字的文节划分,然后,输入文字决定处理部254对每个文字进行单词变换。对每个文节所进行的单词变换如下方法进行。
即,输入文字决定处理部254从辞典检索部261接受与读音对应的作为多个候补变换的单词后,从频度文件268取出该单词的频度,接着,输入文字决定处理部254将单词的使用优先顺序和频度相加,把值最大的确定为与读音对应的单词。
象上述那样输入文字被确定后,数据记录处理部262在使用关系频度文件269确定输入文字的情况下,把构成参与决定的接续关系数据的关系频度加1后的值作为新的关系频度,另外,在对每个构成输入文字的文节以选择特定单词来确定输入文字的情况下,把将频度文件269中与上述特定的单词相当的频度值加1后作为新的频度值。
这样一来,由于关系频度文件269的关系频度或频度文件268的频度值被一直更新下去,所以可以使常被使用的输入文字或单词具有更高的变换率。
(2)进行离线学习处理的情况
参照流程图来说明该离线学习处理。
图28表示离线学习处理的大概流程图。
系统负荷轻时如深夜,若经过了预先设定的时间,离线学习处理部263对辞典检索部261输出锁命令,以使辞典检索部261不接受从输入文字决定处理部254来的检索申请(S151),同时向登录学习处理部264输出该指令信息。
接着,离线学心处理部263输出生成上上次频度文件271、上次频度文件272、上上次关系频度文件273及上次关系频度文件274的指令。
于是,上上次频度文件271把上次的频度文件272进行文件拷贝而生成,然后,上次频度文件272将频度文件268进行文件拷贝而生成,接着,上上次关系频度文件273把上次关系频度文件274进行文件拷贝而成生,然后,上次关系频度文件274将关系频度文件269进行文件拷贝而生成。接下来,登录学习处理部264在登录在各用户辞典267的单词的使用频度超过规定值的情况下,取出超过该基准值的单词向追加系统辞典266登录(S152)的同时,将登录在追加系统辞典的单词从用户辞典267中删除。该处理详细记载在第三实施例中,省略其说明。
接着,离线学习处理部263将存储在#1的用户辞典267的使用频度低的单词,分别参照频度文件268、上次频度文件272及上上次频度文件273的各个使用频度将其删除(S153),该处理在后面叙述。
离线学习处理部263由于删除了单词,在#1的用户辞典267产生离散的空白区(碎片),为了防止存储效果恶化,进行再创建以收集无用单元,消除不存在碎片数据的空白部分(S154),该处理在后面叙述。#1的用户辞典267的再创建结束后,离线学习处理部263参照上次关系频度文件273、上上次关系频度文件274的各关系频度,若需要,将存储于关系频度文件的接续关系数据的关系频度降低(S155),该处理在后面叙述。接着,离线学习处理部263考查登录在接续关系频度文件269的接续关系数据的关系频度,将关系频度为0的内容删除(S156),该处理在后面详述。
接着,离线学习处理部263判断是否存在下面应进行的用户辞典267(S157),因为存在下面应进行的#2的用户辞典267(S157是),离线学习处理部263返回步骤S153,关于#2的用户辞典267进行同样的处理。
这样,离线学习处理部263对从#1的用户辞典267到#n的用户辞典267进行处理(S157否)。
下面,对概略描述离线学习处理的图28的流程图中的以下步骤进行说明:进行单词删除处理的S153,进行用户辞典267的再创建处理的S154,降低关系频度269的关系频度的S155及删除关系频度269的接续关系数据的S157。
(a)关于进行单词删除处理的步骤S153
参照图29及图30所示的流程图来说明进行单词删除处理的步骤S153。
离线学习处理部263读入用户辞典267(S161),就登录在所读入的用户辞典267的所有单词,考查是否进行了评价(S162),若判断为已就全部单词进行了评价(S162是),结束处理。
相反,或判断为还未就所有的单词进行评价(S162否),就重要单词的使用频度进行考查,进行是否是应删除的单词的评价(S163)(下面,将该处理叫做删除评价判断处理),该删除评价判断处理用图30在后面叙述。
离线学习处理部263进行删除评价判断的结果,重要的单词是应删除的单词的情况下(S163是),将该单词从用户辞典267中删除(S164),相反不是应删除的单词的情况下(S163否),返回处理步骤S162,就登录的全部单词进行同样的处理。
在此,参照图30说明上述的删除评价判断处理。
如图所示,离线学习处理部263考查存储在频度文件268中的频度区682(参照图22)的频度值是否为0(S171),频度值不是0的情况下(S171否),断为重要的单词是不可以删除的单词(S177),结束该单词的删除评价判断处理。
相反,频度值为0的情况下(S171是),离线学习处理部263判断该单词是否登录在上次的频度文件272中(S172),若未登录(S172否),判断为该单词是不可以删除的单词(S177),结束该单词的删除评价判断处理;若已登录(S172是),考查该单词的使用频度是否为0(S173)。
离线学习处理部263,在该单词的使用频度不为0的情况下,结束该单词的删除评价判断处理;相反,该单词的使用频度为0的情况下(S173是),判断该单词是否登录在上上次频度文件271中(S174)。
离线学习处理部263若判断没有登录时(S174否),判断为该单词是不可以删除的单词(S177),结束该单词的删除评价判断处理;相反,若已登录(S174是),还要再考查该单词的使用频度是否为0(S175)。
离线学习处理部263在该单词的使用频度不为0的情况下(S175否),判断为该单词是不可以删除的单词(S177),结束该单词的删除评价判断处理;相反,该单词的使用频度为0的情况下(S175是),判断为该单词是可以删除的单词(S176),结束删除评价判断处理。
(b)关于进行用户辞典267的再创建处理的步骤S154
参照图31所示的流程图来说明进行用户辞典267的再创建处理的步骤S154的单词删除处理。
离线学习处理部263从用户辞典267的最初地址读取规定大小的区域(S181),判断该区域是否存在无用区(没有存储数据的离散的空白部分:碎片)(S182)。
离线学习处理部263在所读入的区域不存在无用区的情况下(S182否),返回处理步骤S181,进行同样的处理;相反,在存在无用区的情况下(S182是),删除该无用区并将该区以后的区域向前重新配置(无用单元收集),再创建用户辞典267(S183)。
离线学习处理部263就所读入的区域把用户辞典267再创建后,判断是否考查了用户辞典267的所有区域(S184),未考查完所有区域的情况下(S184否),返回处理步骤S181,进行与上述同样的处理;相反,全部区域都已考查的情况下(S184是),结束处理。
(c)关于降低关系频度文件269的关系频度的步骤S155
参照图32及图33所示的流程图来说明降低关系频度文件269的关系频度的步骤S155。
离线学习处理部263判断是否考查了关系频度文件269的全部接续关系数据(S191),当判断为已经全部考查的情况下(S191是),结束处理。
相反,离线学习处理部263判断为还未全部考查完的情况下(S191否),则考查处于考查中的接续关系数据的关系频度(S193)。
接着,离线学习处理部263考查处于考查中的接续关系数据的关系频度是否存在于上次关系频度文件273中(S193),若不在上次关系频度文件274的情况下(S193否),返回步骤S192进行同样的处理;相反,若存在于上次关系频度文件274中(S193是),就考查中的接续关系数据的关系频度考查是否存在于上上次关系频度文件273中(S194)。
离线学习处理部263在不存在于上上次关系频度文件273的情况下(S194否),返回处理步骤S192进行同样的处理,相反,若存在于上上次关系频度文件273中(S194是),则将该接续关系数据的关系频度下降规定量后(S195),返回处理步骤S191进行同样的处理。
利用图33更详细地说明上述处理。
图33表示关系频度的推移图。
如该图所示,降低关系频度的情况,有样板1及样板2。
所谓样板1的情况,是在上上次关系频度文件273、上次关系频度文件274及关系频度文件269中,关系频度没有发生变化的情况,其理由是因为目前为止该接续关系数据一次也没有使用。
所谓样板2的情况,是过去的时间里接续关系数据的关系频度被降低,之后关系频度没有变化的情况,在该情况下,与样板1的情况相同,因为到目前为止,该接续关系数据一次也没有使用。
(d)关于删除关系频度文件269的接续关系数据的步骤S157
参照图34所示的流程图来说明删除关系频度文件269的接续关系数据的步骤S157。
离线学习处理部263判断关系频度文件269的接续关系数据已被考查完(S211),若判断为已经全部考查的情况下(S211是),结束处理。
相反,离线学习处理部263若判断为还未全部考查完的情况下(S211否),则考查处于考查中的接续关系数据的关系频度(S212)。
接着,离线学习处理部263考查处于考查中的该接续关系数据的关系频度是否为0(S213),在不是0的情况下(S213否),返回处理步骤S212进行同样的处理;相反,是0的情况下(S213是),删除该接续关系数据(S214)。根据上述发明,判断登录在用户辞典的单词的登录频度是否超过了规定的基准值,当判断为单词的登录频度超过基准值时,因为将该单词向追加系统辞典登录,无需使多个用户重新登录相同的单词,所以能够使没有登录的用户第一次使用该单词时提高变换效率。
而且,单词被登录到追加系统辞典后,该单词被从用户辞典中删除,所以可以节约用户辞典的数据区,因此,能够利用这些被节约的数据区进行其他处理。
判断登录在用户辞典的单词的使用频度是否超过了规定的基准值,当使用频度在规定的基准值以下时,因为这些基准值以下的单词被从用户辞典中删除,所以把用户登录的单词中没被利用的单词从辞典中自动删除,可以有效利用存储器资源的同时提高变换效率。
特别地,当处理的负荷在规定的基准以下时,单词被自动地从用户辞典中删除,而且因为接续关系数据被从文件中删除,所以可以有效利用存储器资源,并且能提高变换效率。
Claims (35)
1、一种数据库装置,具有:主数据库;多个子数据库;把数据写入主数据库的写入装置;上述子数据库的数据分别具有特征量,以存储在上述子数据库的数据的特征量满足基准值为条件,通过上述写入装置把上述数据写入所述主数据库。
2、一种数据库装置,具有:主数据库;多个子数据库;把数据写入主数据库的写入装置;以同一个数据存储在多个子数据库为条件、通过上述写入装置把上述数据写入所述主数据库。
3、一种数据库装置,具有:主数据库;与多个使用者一一对应的多个子数据库;把数据写入与上述使用者对应的子数据库的写入装置;用于输入检索条件的检索条件输入装置;根据上述检索条件检索上述主数据库或子数据库的检索装置;输出上述检索装置的检索结果的检索结果输出装置;基准值适合数据写入装置;
上述子数据库其各数据具有特征量,以存在上述数据的特征量满足基准值的基准值适合数据为条件,把上述适合基准值数据写入所述主数据库。
4、一种数据库装置,具有:主数据库;与多个使用者一一对应的多个子数据库;把数据写入与上述使用者对应的子数据库的写入装置;用于输入检索条件的检索条件输入装置;根据上述检索条件,检索上述主数据库或子数据库的检索装置;输出上述检索装置的检索结果的检索结果输出装置;及主数据写入装置,以相同的数据存储在规定数以上的子数据库为条件,把上述数据写入主数据库。
5、如权利要求3所述的数据库装置,其特征在于,以下述的基准值适合数据写入装置代替所述的基准值适合数据写入装置:即以多个子数据库中相同数据的特征量之和满足规定值为条件,把适合上述基准值数据写入所述主数据库。
6、如权利要求3所述的数据库装置,其中所述的基准值适合数据写入装置由以下的基准值适合数据写入装置替代,它以所述数据的特征量为基准值以上的基准值适合数据存在比规定数大为条件,将上述基准值适合数据写入主数据库。
7、如权利要求3所述的数据库装置,其中所述的基准值适合数据写入装置由以下的基准值适合数据写入装置替代,它以所述数据的特征量在第一基准值以上的基准值适合数据存在比规定数大、并且上述特征量的和比第二基准值大为条件,将上述基准值适合数据写入主数据库。
8、如权利要求1、3、5、6、7中任意一项所述的数据库装置,其中,所述特征量是数据的使用频度。
9、如权利要求1、3、5、6、7中任意一项所述的数据库装置,其中,所述的特征量是数据的重要程度。
10、如权利要求4所述的数据库装置,其中,具有基准值适合数据删除装置,它以将上述基准值适合数据存于主数据库为条件,将上述基准值适合数据从子数据库中删除。
11、一种数据库系统,包括以下部分:
数据库服务器,它具有基准值适合数据写入装置,以存于主数据库、子数据库的数据的特征量满足基准值的基准值适合数据存在为条件,将上述基准值适合数据写入主数据库;
数据库终端,具有多个子数据库、写入装置、检索条件输入装置、数据库检索装置、检索结果输出装置,上述多个子数据库与多个用户一一对应,上述写入装置将数据写入与使用者对应的子数据库,上述检索条件输入装置用于输入检索条件,上述数据库检索装置根据上述检索条件检索上述主数据库或子数据库,上述检索结果输出装置输出从上述检索装置得到的检索结果。
12、一种数据库系统,包括以下部分:
数据库服务器,具有主数据库主数据写入装置,后者以相同的数据存于规定数以上的子数据库为条件,由主写入装置将上述数据写入主数据库;
数据库终端,具有多个子数据库、写入装置、检索条件输入装置、数据库检索装置、检索结果输出装置,上述多个子数据库与多个用户一一对应,上述写入装置将数据写入与上述用户对应的子数据库,上述检索条件输入装置用于输入检索条件,上述数据库检索装置根据上述检索条件检索上述主数据库或子数据库,上述检索结果输出装置输出从上述检索装置得到的检索结果。
13、一种数据库系统的数据更新方法,主数据库连接了多个可以交互通信的子数据库,其特征在于,
读出存于各子数据库中的各个数据;
判断上述读出的各个数据是否满足向预先设定的主数据库登录的条件;
当断定登录条件满足时,将该数据向主数据库追加。
14、如权利要求13所述的方法,其中,所述登录条件使用以下内容加以设定:由用户给予的数据的特征量或重要程度、数据的使用频度、存储了同一数据的子数据库的数量是1或2以上。
15、如权利要求13所述的方法,其中,将向主数据库追加登录的数据从存有该数据的子数据库中删除。
16、一种文字处理装置,包括具有各自的用户辞典的多个客户机、具有上述客户机共同使用的通用辞典的服务器,其特征在于,还具有以下部分:
基准值存储装置,用于存储所选单词的基准值,所选单词用于从登录于上述用户辞典的单词中向通用辞典登录;
使用频度记录装置,记录登录于上述用户辞典的单词的使用频度;
登录装置,判断登录于上述使用频度记录装置的用户辞典中登录的单词的使用频度是否超过了存储于上述基准值存储装置的基准值,当上述单词的使用频度超过上述基准值时,将该单词登录到上述通用辞典。
17、如权利要求16所述的文字处理装置,其中,具有单词删除装置,在由上述登录装置将单词登录到上述通用辞典后,将该单词从上述用户辞典中删除。
18、如权利要求16或17所述的文字处理装置,其中,上述基准值及上述单词的使用频度由登录单词的用户辞典数构成。
19、如权利要求16或17所述的文字处理装置,其中,上述基准值及上述单词的使用频度由登录单词的用户辞典数及将该单词从上述用户辞典读出时的优先值之和构成。
20、如权利要求16至19任一项所述的文字处理装置,其中,具有基准值改变装置,用于改变上述基准值存储装置的基准值。
21、如权利要求16至19任一项所述的文字处理装置,其中,上述通用辞典分为追加登录或不能删除的部分和追加登录或可以删除的部分。
22、一种文字处理装置,具有客户机和服务器,该服务器中具有仅供特定用户使用的用户辞典和供用户通用的通用辞典,其特征在于包括:基准值存储装置,用于存储所选单词的基准值,上述所选单词用于从登录于用户辞典的单词中向通用辞典登录;
单词使用频度记录装置,记录登录于上述用户辞典的单词的使用频度;
登录装置,判断记录于上述单词使用频度记录装置的用户辞典所登录的单词的使用频度是否超过了存储于上述基准值存储装置的基准值,当上述单词的使用频度超过上述基准值时,将该单词登录到上述通用辞典;
单词删除装置,判断记录于上述单词使用频度记录装置的用户辞典所登录的单词的使用频度是否超过了规定的基准值,当使用频度在上述规定的基准值以下时,将该基准值以下的单词从用户辞典中删除。
23、如权利要求22所述的文字处理装置,其中,上述单词删除装置判断登录于上述单词使用频度记录装置的用户辞典中所登当的单词的使用频度是否超过了规定的基准值,当使用频度在上述规定的基准值以下时,将该基准值以下的单词从用户辞典中删除,而且,由上述登录装置把单词登录到上述通用辞典后,将该单词从上述用户辞典中删除。
24、如权利要求22或23所述的文字处理装置,其中,具有:
接续关系数据使用频度记录装置,用于存储具有单词和单词的接续关系的接续关系数据的使用频度;
接续关系数据删除装置,判断记录于该接续关系数据使用频度记录装置中的上述使用频度是否超过了规定的基准值,当上述使用频度在上述规定的基准值以下时,将上述基准值以下的接续关系数据从上述接续关系数据使用频度记录装置中删除。
25、如权利要求23或24所述的文字处理装置,其中,当处理的负荷在规定的基准以下时,自动地从上述用户辞典中将单词删除。
26、如权利要求23或24所述的文字处理装置,其中,当处理的负荷在规定的基准以下时,自动地从接续关系数据使用频度记录装置中将接续关系数据删除。
27、一种文字处理方法,具有多个客户机和服务器的文字处理装置中,所述多个客户机具有各自的用户辞典,所述服务器具有上述客户机通用的通用辞典,其特征在于,
存储选择单词的基准值,所选单词用于从登录于上述用户辞典的单词向上述通用辞典登录;记录登录于上述用户辞典的单词的使用频度;判断登录于上述用户辞典的单词的使用频度是否超过了上述基准值,在上述单词的使用频度超过上述基准值时,将该单词登录到上述通用辞典。
28、如权利要求27所述的文字处理方法,其中,将该单词登录到上述通用辞典后,从上述用户辞典中将该单词删除。
29、如权利要求27或28所述的文字处理装置,其中,上述基准值及上述单词的使用频度由登录单词的用户辞典数构成。
30、如权利要求27或28所述的文字处理方法,其中,上述基准值及上述单词的使用频度由登录了单词的用户辞典数及从上述用户辞典将该单词读出时的优先值之和构成。
31、一种文字处理方法,具有客户机及服务器的文字处理装置中,上述服务器具有仅供特定用户使用的用户辞典和供用户通用的通用辞典,其特征在于,
存储选择单词的基准值,该单词从登录于上述用户辞典的单词中登录到通用辞典;
记录登录于上述用户辞典的单词的使用频度;判断登录于用户辞典的单词的使用频度是否超过了存储的上述基准值,当判断上述单词的使用频度超过上述基准值时,将该单词登录到上述通用辞典;
判断登录于用户辞典的单词的使用频度是否超过了规定的基准值,当使用频度在上述规定的基准值以下时,将该基准值以下的单词从用户辞典中删除。
32、如权利要求31所述的文字处理方法,其中,判断登录于用户辞典的单词的使用频度是否超过了规定的基准值,当使用频度在上述规定的基准值以下时,将该基准值以下的单词从用户辞典中删除,而且,将单词登录到上述通用辞典后,将该单词从上述用户辞典中删除。
33、如权利要求31或32所述的文字处理方法,其中,包含单词与单词之间的接续关系的接续关系数据的使用频度被存储于文件中;
判断记录于该文件的上述使用频度是否超过了规定的基准值,在上述使用频度在上述规定的基准值以下时,将上述基准值以下的接续关系数据从上述文件中删除。
34、如权利要求31或32所述的文字处理方法,其中,当处理的负荷在规定的基准以下时,自动地从上述用户辞典中将单词删除。
35、如权利要求33所述的文字处理方法,其中,当处理的负荷在规定的基准以下时,自动地从存储有接续关系数据的使用频度的文件中将接续关系数据删除。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28686594 | 1994-11-21 | ||
JP286865/94 | 1994-11-21 | ||
JP73942/95 | 1995-03-30 | ||
JP7394295 | 1995-03-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1144004A true CN1144004A (zh) | 1997-02-26 |
Family
ID=26415084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95192149A Pending CN1144004A (zh) | 1994-11-21 | 1995-11-21 | 多个客户机共有的数据库系统、数据更新方法及面向文字处理装置的应用 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5960449A (zh) |
EP (1) | EP0741360A1 (zh) |
KR (1) | KR970701886A (zh) |
CN (1) | CN1144004A (zh) |
WO (1) | WO1996016374A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879978B2 (en) | 2000-10-12 | 2005-04-12 | Hitachi, Ltd. | System and method of searching for electronic data |
CN100456291C (zh) * | 2005-11-25 | 2009-01-28 | 英业达股份有限公司 | 词汇共享系统及方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5875443A (en) * | 1996-01-30 | 1999-02-23 | Sun Microsystems, Inc. | Internet-based spelling checker dictionary system with automatic updating |
US5745900A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for indexing duplicate database records using a full-record fingerprint |
US5805158A (en) * | 1996-08-22 | 1998-09-08 | International Business Machines Corporation | Copying predicted input between computer systems |
JP3556425B2 (ja) * | 1997-03-18 | 2004-08-18 | 株式会社東芝 | 共有辞書更新方法および辞書サーバ |
JP3464881B2 (ja) * | 1997-03-25 | 2003-11-10 | 株式会社東芝 | 辞書構築装置および方法 |
US6047294A (en) * | 1998-03-31 | 2000-04-04 | Emc Corp | Logical restore from a physical backup in a computer storage system |
KR20010095973A (ko) * | 2000-04-14 | 2001-11-07 | 장헌정 | 데이터베이스 관리 방법 |
JP2002055982A (ja) * | 2000-08-11 | 2002-02-20 | Omron Corp | 情報配信サーバ及び利用端末並びに情報配信方法及びデータベース更新方法並びに情報配信システム |
JP3674480B2 (ja) * | 2000-09-05 | 2005-07-20 | オムロン株式会社 | 情報保管・配信システムおよび情報保管・配信方法 |
JP3674485B2 (ja) * | 2000-09-25 | 2005-07-20 | オムロン株式会社 | 情報保管・配信システムおよび情報保管・配信方法 |
US20030105622A1 (en) * | 2001-12-03 | 2003-06-05 | Netbytel, Inc. | Retrieval of records using phrase chunking |
JP2004062227A (ja) * | 2002-07-24 | 2004-02-26 | Casio Comput Co Ltd | 電子辞書端末、辞書システムサーバ、および端末処理プログラム、サーバ処理プログラム |
JP4918797B2 (ja) * | 2006-03-23 | 2012-04-18 | 富士通株式会社 | ファイル管理プログラム、ファイル管理装置およびファイル管理方法 |
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
US8108204B2 (en) * | 2006-06-16 | 2012-01-31 | Evgeniy Gabrilovich | Text categorization using external knowledge |
WO2008029881A1 (fr) * | 2006-09-07 | 2008-03-13 | Nec Corporation | Système de traitement du langage naturel et système d'enregistrement de dictionnaire |
JP2011070237A (ja) * | 2007-12-25 | 2011-04-07 | Nec Corp | 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム |
US20160321415A1 (en) * | 2015-04-29 | 2016-11-03 | Patrick Leonard | System for understanding health-related communications between patients and providers |
US9824691B1 (en) * | 2017-06-02 | 2017-11-21 | Sorenson Ip Holdings, Llc | Automated population of electronic records |
US11768645B2 (en) * | 2019-03-22 | 2023-09-26 | Hitachi Industrial Equipment Systems Co., Ltd. | Print recording system and method for controlling print recording system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5659283A (en) * | 1979-10-18 | 1981-05-22 | Nippon Telegraph & Telephone | Character display device for document editing and handling |
JPS60204065A (ja) * | 1984-03-28 | 1985-10-15 | Hitachi Ltd | 個人辞書方式 |
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
JPS63168767A (ja) * | 1987-01-07 | 1988-07-12 | Brother Ind Ltd | 文書作成装置 |
JPH0731677B2 (ja) * | 1987-09-29 | 1995-04-10 | シャープ株式会社 | 文書作成・校正支援装置 |
JPH01241621A (ja) * | 1988-03-23 | 1989-09-26 | Mitsubishi Electric Corp | データ処理装置 |
JP2969627B2 (ja) * | 1988-08-24 | 1999-11-02 | 株式会社日立製作所 | 分散型データベースシステムの管理方法 |
JP2552759B2 (ja) * | 1990-08-31 | 1996-11-13 | 富士通株式会社 | マルチプロセッサによるデータベース処理装置 |
JP3372977B2 (ja) * | 1992-11-21 | 2003-02-04 | 株式会社日立製作所 | 機械翻訳システム |
JPH07182333A (ja) * | 1993-12-24 | 1995-07-21 | Sharp Corp | 日本語処理装置 |
JP3380034B2 (ja) * | 1994-05-16 | 2003-02-24 | 松下電器産業株式会社 | 辞書編集装置 |
-
1995
- 1995-11-21 KR KR1019960703892A patent/KR970701886A/ko not_active Application Discontinuation
- 1995-11-21 US US08/676,293 patent/US5960449A/en not_active Expired - Lifetime
- 1995-11-21 EP EP95938042A patent/EP0741360A1/en not_active Withdrawn
- 1995-11-21 WO PCT/JP1995/002371 patent/WO1996016374A1/ja not_active Application Discontinuation
- 1995-11-21 CN CN95192149A patent/CN1144004A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879978B2 (en) | 2000-10-12 | 2005-04-12 | Hitachi, Ltd. | System and method of searching for electronic data |
CN100456291C (zh) * | 2005-11-25 | 2009-01-28 | 英业达股份有限公司 | 词汇共享系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
KR970701886A (ko) | 1997-04-12 |
US5960449A (en) | 1999-09-28 |
EP0741360A1 (en) | 1996-11-06 |
WO1996016374A1 (fr) | 1996-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1144004A (zh) | 多个客户机共有的数据库系统、数据更新方法及面向文字处理装置的应用 | |
CN1132564A (zh) | 用于数据存储与检索的方法与装置 | |
CN1171162C (zh) | 基于字符分类检索字符串的装置和方法 | |
CN1162788C (zh) | 可换存储媒体和控制方法及计算机系统 | |
CN1321277A (zh) | 数据库系统 | |
CN1219266C (zh) | 一种实现多路对话的人-机汉语口语对话系统的方法 | |
CN1801146A (zh) | 用于确定访问控制的方法和装置 | |
CN1368693A (zh) | 用于全球化软件的方法和设备 | |
CN1667609A (zh) | 文档信息管理系统和文档信息管理方法 | |
CN1799051A (zh) | 使用页面存储文件浏览内容的方法 | |
CN1669029A (zh) | 自文件集合中自动搜寻概念层次结构的方法及系统 | |
CN1942877A (zh) | 信息提取系统 | |
CN1858786A (zh) | 一种电子文档格式化批注系统与方法 | |
CN1269897A (zh) | 用于选择数据集的方法和/或系统 | |
CN1173933A (zh) | 建立通信网络数据库的一种方法和设备 | |
CN1542736A (zh) | 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型 | |
CN1992728A (zh) | 用于便利分组合作的系统和方法 | |
CN1278623A (zh) | 信息处理方法、信息终端支持服务器和储存信息处理程序的存储媒介 | |
CN1519753A (zh) | 程序、字符输入编辑方法、装置及记录媒体 | |
CN1379882A (zh) | 将二维数据转换为标准形式的方法 | |
CN1203430C (zh) | 数据管理系统和数据管理方法 | |
CN101034414A (zh) | 信息处理设备和方法以及程序 | |
CN101080927A (zh) | 内容推荐装置 | |
CN1163836C (zh) | 图象信息检索系统和方法 | |
CN1777890A (zh) | 支持使用关键字的数据注册/搜索的设备、以及报告预备支持设备和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |