CN1512406A - 面向用户的电子词典、电子词典系统及其生成方法 - Google Patents

面向用户的电子词典、电子词典系统及其生成方法 Download PDF

Info

Publication number
CN1512406A
CN1512406A CNA021600147A CN02160014A CN1512406A CN 1512406 A CN1512406 A CN 1512406A CN A021600147 A CNA021600147 A CN A021600147A CN 02160014 A CN02160014 A CN 02160014A CN 1512406 A CN1512406 A CN 1512406A
Authority
CN
China
Prior art keywords
entity object
relationship
entry
entity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA021600147A
Other languages
English (en)
Inventor
刘世霞
杨力平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNA021600147A priority Critical patent/CN1512406A/zh
Priority to US10/739,780 priority patent/US20040243396A1/en
Publication of CN1512406A publication Critical patent/CN1512406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用户可以任意地修改(增加、删除)电子词典中词条的属性的面向用户的电子词典、电子词典系统及其生成方法。在本发明中,使用来自一个实体对象的实例来代表与词条相关的各种信息,而且使用来自一个关系对象的实例来代表两个实体对象实例之间的有向关系。这样,在本发明的电子词典中,与词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成了一个有向关系图。本发明的电子词典具有可重用性,同时还具有便于维护的优点。

Description

面向用户的电子词典、 电子词典系统及其生成方法
技术领域
本发明一般涉及信息处理领域,具体地说,涉及用于信息处理方面的电子词典、电子词典系统及其生成方法。
背景技术
电子词典被广泛地用于信息处理方面。一般来说,可以将电子词典看成是一个信息收藏库,用于收集数据的属性、特征来源、用法以及与其他数据间的关系等。然而,不同的应用对于电子词典中词条可能具有不同的要求。例如,对于广泛用于机器翻译系统、信息检索系统或自然语言理解系统等文字处理方面的电子词典来说,一种应用要求词典中的词条应包含一个词的词性和词干,而另一种应用可能要求词典中的词条要包含一个词的词意和语义关系。并且在进一步的应用过程中,对于词条的要求也会发生变化。
此外,对于电子商务通、个人数字助理等便携式普及运算设备中提供的电子名片夹之类的电子词典来说,不同的用户因为工作性质或业务范围不同,对词典中的词条可能也具有不同的要求。
于是,对于电子词典系统来说,具有良好的可重用性和可维护性是非常重要的。
在现有的电子词典系统中,将关于一个词条的所有属性(例如在用于文字处理方面的电子词典中,将一个词的词意、词性、词干和发音等)都封装成一个对象。通过不断地将该对象实例化,来生成词典中的各词条。图1,以用于文字处理方面的电子词典为例说明了现有电子词典中存在的问题。如图1(a)所示,在该电子词典中,词条包括词、词性、词意等属性,并且每个属性都是由对象中的一个变量来表示的,具体地说,分别由名称、词性标记、词意数组等来表示。其中,名称用于表示该词条中的词,例如图1(b)中的“fast”;词性标记用于表明该词条中的词的词性,例如,在图1(c)中使用一个8比特字节来描述词的词性,每一比特表明一个特定的词性(名词、动词等),值为“1”时表明词具有该属性;词意数组用于存储该词条中词的所有含义,例如,图1(d)和图1(e)示出了词“fast”的部分词意。在图1所示的这种电子词典中,一旦完成了该数据结构的设计,就无法将新的属性加入到词条中去,除非设计新的数据结构。另一方面,如果一些词条的属性随着用户不断提出新的要求而发生了变化,或者需要向词典中添加新的具有不同属性的词条,则必须用新的对象来表示这些具有不同属性的词条,并且要分别为这些新的对象分配不同的标识符。由于这些对象代表了现实世界中的同一实体一词典中的词条,所以这些对象中的大多数变量都是相同的。于是,产生了大量相似的对象,这将导致对象之间关系复杂化。例如,在图1所示的电子词典中,如果最初词典中的词条仅表示了单个词、词的发音、词性、词意和语义关系,并且使用对象○1来表示它,然而,在实际应用中,可能要求词条中还应包括习惯用语、习惯用语的含义、语义关系和中心词(这里,中心词是习惯用语的核心,决定该习惯用语的基本意义),这时就需要定义另外一个对象○2来表示包括习惯用语及其必要属性的词条。由于对象○1和○2都代表了词典中的词条,而且有许多变量都是相同的,所以造成数据冗余。此外,由于这样的对象具有不同的标识符,所以对于系统调试和维护来说,也是非常费时和费力的。
美国专利US 6,356,913中公开了一种可以动态修改的数据库方案。如图2所示,在该专利中使用树形结构来表示一种通用的可以动态修改的数据库方案,包括:叶子节点、分枝包容器节点、根节点、属性节点和映射包容器节点,不同的节点具有不同的数据结构。其中,每个叶子节点代表一个属性的一个实例;每个分枝包容器节点对应于一个不同的属性并且可以标识出哪些叶子节点代表了该包容器节点的属性的实例;根节点代表了数据库中的一个记录并且可以标识出在不同的包容器节点中代表了根节点记录的一个属性的一个实例的叶子节点;每个属性节点对应于一个不同的属性并且标识出对应于该属性的分枝包容器节点;并且,映射包容器节点标识出多个属性节点。
可以采用以上这种通用的、可动态修改的数据库方案来解决现有电子词典中存在的问题:即是否可以对词条的属性进行动态修改的问题。具体来说,使用叶子节点来存储词典中各词条的属性的实例,使用分枝包容器节点来存储每种属性,使用根节点来存储词条,这样,如果需要为某一词条添加新的属性,则就增加一个新的分枝包容器节点,并且使用相应的叶子节点来存储该属性的实例,此外还将该叶子节点连到代表该词条的根节点上。从数据库观点来看,每增加一个新的分枝包容器节点,实际上就是定义一个新表。于是,虽然使用US 6,356,913就可以动态地修改词条中的属性。但是,由于在这种数据库方案中各类节点分别用数据库中的不同的表来实现,并且随着用户提出不同的要求,要不断地增删数据库中的表,于是维护起来是非常麻烦的,不具有可维护性。此外,在树这种数据结构中,每个节点有且仅有一个父节点,即每一层上的数据元素只能和上一层中的一个元素相关(即其父节点),然而在电子词典中,每个子节点的父节点可能不只一个,即存在一个属性可能被几个词条共用的情况。
发明内容
于是,为了解决现有电子词典的可重用性问题,以及可维护性问题,本发明提出一种用户可以任意地修改(增加、删除)词条中的属性的面向用户的电子词典、电子词典系统及其生成方法。
在本发明中,使用一个实体对象来代表与词条相关的各种信息,例如在用于文字处理方面的电子词典中,使用一个实体对象来代表词典中的词或词的发音、词意、词性、词的形态等,而且使用关系对象来表示两个实体对象之间的关系,并且该关系是有向的,即:从源实体对象到目标实体对象的关系。这样,在本发明的电子词典中,与词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成了一个有向关系图。在本发明中,由于将与词条相关的各属性单独封装成一个实体对象,这样,当用户需要为词典中的某一词条增加一个新的属性时,只需产生与该属性相对应的实体对象实例,并将该实体对象实例通过相应的关系对象实例连到该词条上,即:加入到该词条的有向关系图中,就可以动态地为词条增加属性,而且同时能够维持该词条中的其他属性值不变,于是本发明的电子词典具有可重用性。此外,由于在本发明中只使用一个实体对象来代表各种属性,所以本发明的电子词典同时也具有便于维护的优点。
根据本发明的一个方面,提供了一种用于建立/维护面向用户的电子词典的方法,其特征在于包括以下步骤:
定义一个实体对象,用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;建立一个实体对象实例库,用于存储由所述实体对象产生的实体对象实例;定义一个关系对象,用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;建立一个关系对象实例库,用于存储由所述关系对象产生的关系对象实例;其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;以及通过对所述实体对象和/或关系对象进行实例化和对所述实体对象实例库和/或关系对象实例库中的实例进行操作,来动态地在所述电子词典中增加词条、增加词条的属性、删除词条或删除词条的属性。
根据本发明的另一个方面,提供了一种面向用户的电子词典,包括:实体对象实例库:用来存储由一个实体对象产生的多个实体对象实例,其中,该实体对象用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;关系对象实例库:用来存储由一个关系对象产生的多个关系对象实例,其中,该关系对象用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图。
根据本发明的再一个方面,提供了一种面向用户的电子词典系统,包括:实体对象实例库:用来存储由一个实体对象产生的多个实体对象实例,其中,该实体对象用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;关系对象实例库:用来存储由一个关系对象产生的多个关系对象实例,其中,该关系对象用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;实体对象维护装置,用于对实体对象进行实例化,或者用于动态地修改、增加或删除所述实体对象实例库中的实体对象实例;以及关系对象维护装置,用于对关系对象进行实例化,或者用于动态地修改、增加或删除所述关系对象实例库中关系对象实例。
通过本发明的电子词典、电子词典系统及其生成方法,用户可以动态地增加(修改、删除)词条中的属性,而无需重新设计数据结构或增加新的数据库表。例如,如果用户希望用于文字处理的词典中的词条还应包含习惯用语,则用户只需产生与习惯用语相对应的实体对象实例ej和表示实体对象实例ej与词条对象实例ei之间的关系的关系对象实例ra(ei→ej),就可以使该电子词典中的词条包含习惯用语这一属性。具体地说,在增加了相应的实体对象实例和关系对象实例之后,用户就可以通过词条对象实例ei和关系对象实例ra(ei→ej)检索到实体对象实例ej,从而获得有关一个词的习惯用语。而且,由于词条中的其他属性值维持不变,所以本发明的电子词典具有可重用性。此外,由于在本发明中只使用一个实体对象来代表词条的各种属性,所以本发明的电子词典同时也具有便于维护的优点。此外,在本发明的电子词典中,一个属性值,即一个实体对象实例,可以被多个词条所共用,即:可以通过相应的关系对象实例连接到不同的词条中去。
附图说明
通过以下结合附图对本发明优选实施例的详细描述,将使本发明的这些和其他优点、目的和特征变得更加清楚。尽管在以下的实施例中以用于文字处理方面的电子词典为例来说明本发明,但对于本领域技术人员来说,很明显本发明不应仅限于该实施例。
图1(a)-1(e)示出了传统电子词典系统中词条的组成,其中以词条“fast”为例对其进行了说明;
图2示出了一种现有的可以动态修改的数据库方案;
图3示出了在根据本发明的电子词典中词条的组成;
图4示出了在根据本发明一个优选实施例的电子词典中各词之间的语义关系;
图5(a)-5(i)示出了在根据本发明一个优选实施例的电子词典中相关的词条属性是如何形成一个词条的;
图6(a)-6(e)示出了在根据本发明一个优选实施例的电子词典中如何向现有的词条中增加新的属性;
图7是一流程图,示出了根据本发明生成电子词典的方法的步骤;
图8是一流程图,示出了根据本发明一优选实施例在电子词典中增加、删除词条/属性的步骤;
图9示出了可以出现冗余关系的一种情况;以及
图10示出了根据本发明一优选实施例的面向用户的电子词典系统的组成。
具体实施方式
以下结合附图详细地说明本发明的优选实施。
图3示出了在根据本发明的面向用户的电子词典中词条的组成。在本发明的电子词典中,使用实体对象来表示词典中的一个词条和与该词条相关的属性,例如词的发音、词意、词性、词的形态等等,而且使用关系对象来表示两个实体对象之间的关系,该关系为有向关系,由关系对象连接的两个实体对象分别称作源实体对象和目标实体对象。这样,如图3所示,在根据本发明的面向用户的电子词典中,词典中的每个词条本身是某一类实体对象实例,而同时又由多个实体对象实例组成,相关的实体对象实例通过关系对象实例连接在一起,形成了一个有向关系图。图3中的m表示一个词条中包含的属性个数。由图3中可以看出,如果一个词条中包含了m个属性,则在本发明的电子词典中要用m+1个实体对象实例和m个关系对象实例来表示该词条,其中一个实体对象实例ei代表了该词条,而其他m个实体对象实例ej1,ej2,...ejm代表了该词条的m个属性,并且这m个实体对象实例ej1,ej2,...ejm分别通过m个关系对象实例rj1,rj2…rjm与实体对象实例ei相连接。
下面参照图4,以电子词典中各个词之间的语义关系为例来进一步说明相关的实体对象实例是如何通过关系对象实例连接在一起的。图中的节点方框对应于实体对象实例,而图中的边对应于关系对象实例。其中,白色方框代表词对象实例,例如“词”对象实例:“entity”,“object”,“physicalobject”,“organism”,“body”,“tissue”,“cell”,“body part”等,而带有灰色背景的方框代表词意对象实例,图中示出了6个词意对象实例:M1、M2、M3、M4、M5、M6及它们所代表的含义。在图4中,还示出了用于表示各实体对象实例之间关系的关系对象实例,例如:“词意关系”、“是部分关系”和“是某一类关系”,在图中分别用不同的点画线来表示这些关系对象实例。因为各实体对象实例之间的这些关系是有向关系,所以图中的点画线带有箭头。例如“词”对象实例“entity”和“词意”对象实例M1之间的关系为“词意”关系,关系的方向为:从“entity”指向M1,为了便于描述,我们将“entity”称作源实体对象实例,而将M1称作目标实体对象实例。词意对象实例M2和M1之间“是部分关系”,M4和M3之间“是某一类关系”。如果两个词对象实例W1和W2分别通过各自的关系对象实例连接到同一词意对象实例Mi,则表明W1和W2在词意Mi上是同义的。图4只是示意性地描述了语义关系,也可以使用该方法来描述电子词典中存在的各种关系。
以下通过图5来介绍一下在根据本发明的一个优选实施例的电子词典中是如何将关于一词的所有属性组织起来形成一个词条的。
为了简明,在该实施例中只考虑词条的三种属性:词意、词性和词的形态,如图5(a)所示。分别由三种实体对象实例:词意对象实例、词性对象实例和词形态对象实例来表示这些属性,如图5(b)、5(c)和5(d)所示,分别用不同的方框代表这些属性对象实例。其中Mi是如图1(e)中表示的词意义i=1...15。这些属性对象实例通过相应的关系对象实例RD1...RD15,RP1...RP4,RM1与词条对象实例“fast”相连,形成一个有向关系图,如图5(f)所示。词条“fast”本身也是一实体对象的实例。此外,图中还示出了词意对象实例和词性对象实例以及词形态对象实例之间的关系。这样,在根据本发明的电子词典中,不但可以通过词条对象实例及其相关的关系对象实例得到该词条的所有属性,还可以通过任意一个实体对象实例(例如词意对象实例M1)及其相关的关系对象实例找到所有与该实体对象实例相关的实体对象实例。
为了便于维护,在该优选实施例中,所有实体对象都具有相同的属性:
名称:实体对象的名称;
类型标记:实体对象的类型;
有向关系图:当实体对象被实例化后,该属性用于存储代表该实体对象实例与其它实体对象实例之间关系的所有关系对象实例的标识(ID)。
于是,在该优选实施例中,实体对象实例“fast”可以表示为:
名称:fast;
类型标记:1(表明为词条对象实例);
有向关系图:RD1,RD2...RD15,RP1,RP2,RP3,RP4,RM1。
实体对象实例MF1可以表示为:
名称:“fasted,past tense form of fast with verb attribute”;
类型标记:2(表明为词形态对象实例);
有向关系图:ra。
此外,在该优选实施例中,所有关系对象也都具相同的属性:
类型标记:关系对象的类型;
源实体对象:关系起源点;
目标实体对象:关系结束点。
表1示出了在该优选实施例中存在的关系类型。
  类  型     描述 类型标记
词性-关系 将一个词的词性对象实例连到词条对象实例,用于指明该词条的词性 1
词意-关系 将一个词的词意对象实例连到词条对象实例 2
词态-关系 将一个词的形态对象实例连到词条对象实例     3
同义-关系 将一个词的同义词对象实例连到词条对象实例     4
反义-关系 将一个词的反义词对象实例连到词条对象实例     5
上位词-关系 将一个词的上位词对象实例连到词条对象实例     6
下位词-关系 将一个词的下位词对象实例连到词条对象实例     7
整体-关系 将一个词的整体词对象实例连到词条对象实例     8
部件-关系 将一个词的部件词对象实例连到词条对象实例     9
约束-关系 用于约束在特定条件下成立的关系     10
这里的约束关系是用来约束在特定条件下成立的关系,即,如果实体对象实例E1与实体对象实例E2具有关系Ra的条件是实例E1与实体对象实例E3具有关系Rb,那么E2就具有一个到E3约束关系Rc。如图5(f)所示,词条”fast”与词意M1具有词意关系的条件是”fast”与属性Verb具有词性关系,因此M1与Verb具有约束关系。
于是,在该优选实施例中,关系对象实例“RD1”可以表示为:
类型标记:2;
方向标记:1(单向);
源实体对象:;“fast”
目标实体对象:“Verb”。
为了便于动态修改一个词条的属性,在图5(g)示出了在根据本发明的优选实施例中使用链表来存储该词条中所有关系对象实例的ID。这样,如果需要在该电子词典中查找某一个词条,例如词条“fast”,则只需在实体对象实例库中找到实体对象型为“词条”并且“实体对象”名称为“fast”的实体对象实例,然后就可以根据该实体对象实例的有向关系图中的关系链表查找到该词条的所有属性。此外,也可以仅将指向关系链表的指针存储在实体对象的有向关系图中。
值得注意的是,在该优选实施例中,由于每个实体对象实例中都包含一个有向关系图,所以能够很容易地找到与该实体对象实例相关的其它实体对象实例。如图5(f)所示,由词条对象实例“fast”的有向关系图,可以得到该词条的所有属性:Verb、Noun、Adj…。而对于属性对象实例“M1”来说,也可以由其有向关系图中找到与其相关的实体对象实例“Verb”。
尽管在该优选实施例中,是为了便于维护和提高查找速度,在实体对象中包含了属性有向关系图,但是正如本领域一般技术人员所理解的那样,即使实体对象中不包含“有向关系图”这个属性,也可以找到与一词条相关的所有属性。例如,首先找到实体对象名称为“fast”的实体对象实例,然后在关系对象实例中找到所有以“fast”为源实体对象的关系对象实例:RD1…RD3…RD15…RP1…RP4、RM1,则就可以找到该词条的所有属性:M1、M2…M15、Verb…MF1等。
此外,为了进一步提高查找速度,可以使用图5(h)所示的分级结构来链接关于一个词条的所有属性,并且使用图5(i)所示的二级链表来存储该词条的所有关系对象实例ID。图5(f)和图5(h)的区别在于在图4(h)中增加了实体对象实例“POS”词性(实体)对象实例,“M”词意(实体)对象实例和“MF”词形态(实体)对象实例以及相应的关系对象实例“RM”词形态(关系)对象实例,“RP”词性(关系)对象实例例可以将一个词条的所有属性分类,而采用分级结构来链接关于一个词条的所有属性,这样可以进一步提高查找速度。
以下结合图6描述一下如何为图5所示的词条“fast”增加新的属性。如图6(a)所示,与要增加的新的属性相对应的实体对象实例为:MF2、MF3、MF4、MF5,MF6。为了将以上属性加到现有词条“fast”中,首先需要生成新的关系对象实例RM2、RM3、RM4、RM5、RM6(图6(b)),然后,将这些关系对象实例的ID加到词条对象实例“fast”的关系链表中(图6(c))。
图6(d)和6(e)示出了在为了提高查找速度而采用分级结构来链接关于一词条的所有属性,并且使用二级链表来存储该词条的关系对象实例的情况下,如何为该词条增加新的属性。
以上结合附图详细地介绍了在根据本发明的电子词典中是如何使用实体对象和关系对象来表示电子词典中的词条和词条的属性的。从以上可以看出,根据本发明的面向用户的电子词典应包括实体对象实例库和关系对象实例库,分别用来存储由一个实体对象产生的多个实体对象实例和由一个关系对象产生的多个关系对象实例,其中每个实体对象实例代表了一条与所述电子词典中的一个词条相关的信息,而每个关系对象实例代表了一个源实体对象实例和一个目标实体对象实例之间的关系,并且与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图。
由以上还可以看出,在根据本发明的电子词典中,如果要为一个词条增加新的属性,则只需生成与要增加的属性相对应的实体对象实例,然后通过相应的关系对象实例将其加入到该词条的有向关系图中,就可以动态地增加属性,而同时维持该词条中的其他属性不变,于是本发明的电子词典具有可重用性。而且,由于所有词条的属性值都是由同一个实体对象生成的实例,所以本发明的电子词典还具有可维护性。此外,在本发明的电子词典中,所有属性值可被多个词条共用。
以下结合附图详细地描述一下如何生成一个面向用户的电子词典。
如图7所示,为了生成一个面向用户的电子词典,包括以下步骤:
定义一个实体对象,用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;
建立一个实体对象实例库,用于存储由所述实体对象产生的实体对象实例;
定义一个关系对象,用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;
建立一个关系对象实例库,用于存储由所述关系对象产生的关系对象实例;其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;以及
通过对所述实体对象和/或关系对象进行实例化和对所述实体对象实例库和/或关系对象实例库中的实例进行操作,来动态地在所述电子词典中增加词条、增加词条的属性、删除词条或删除词条的属性。
具体地说,如图8所示,可以将对电子词典的操作分为以下几种类型的操作:
1.增加一个新的词条;
2.增加一个新的属性;
3.删除一个属性;以及
4.删除一个词条。
通过迭代执行增加新词条和新属性的过程,以及动态地修改(增加或删除)电子词典实例库中的实体对象实例和关系对象实例,就可以生成根据本发明的面向用户的电子词典,并且用户也可以利用这些过程增加或删除词条/词条属性,而无须重新设计新的数据结构,于是,根据本发明的电子词典具有可重用性。
以下结合图8详细说明这些操作。
增加一个新词条
步骤1:判断在该电子词典中是否有该词条,在本图5所示实施例的情况下,即判断在该电子词典中是否有实体对象类型为“词条”而且实体对象名称为要增加的词的实体对象实例。
步骤2:如果不存在该词条,则生成与该词条对应的实体对象实例,并为其添加必要的属性。
为已有的词条增加新的属性
步骤1:首先找到与该词条对应的实体对象实例ei,并且找到与该属性对应的实体对象实例ej,如果不存在,则生成该实体对象实例ej。
步骤2:生成一关系对象实例ra,将ej连接到ei。
步骤3:判断新产生的关系对象实例ra是否与关系对象实例库现有的关系对象实例一致。如果一致,则将关系对象实例ra加到实体对象实例ei的有向关系图中。所谓将关系对象实例ra加到实体对象实例ei的有向关系图中是指将ra添加到关系对象实例库中,而在图4所示的实施例的情况下,除了要将关系对象实例ra增加到关系对象实例库中,还要将关系对象实例的ID加到实体对象实例ei的关系链表中。
在本发明的实施例中,对关系的一致性检验主要检验关系是否冗余、冲突和不足。
冗余:
1.如果两个关系对象实例具有相同的类型、相同的源实体对象实例和相同的目标实体对象实例,则这两个关系对象实例是冗余的。
2.如果一个关系对象实例的源实体对象实例与其目标实体对象实例相同,则该关系对象实例是冗余的。
3.由类层次关系的传递性所引起的冗余关系。在图8中,由油脂到甘油三酸酯的下位关系是冗余的。
冲突
1.如果一个关系是单向的,则R(A→B)和R(B→A)不可能同时存在,其中R(A→B)意味着关系从对象A开始,然后在对象B结束。
2.如果R被定义在A×B上,则属于R的r(x,y)应遗传给属于A的x和属于B的y。
不足
1.属性:类型、起始点、结束点是一个关系的必要组成部分,如果缺省其中之一,则该关系是不足的。
2.属性:类型、名称是实体对象的必要组成部分,如果缺省其中之一,则该实体对象是不足的。
以上仅给出进行一致性检查的例子,根据具体应用,可能需要进一步完善。
下面介绍一下从一个实体对象实例ei中删除一个属性的操作:
步骤1:找到将该属性连到实体对象实例ei的关系对象实例ra;
步骤2:判断删除关系对象实例ra之后,现有的关系对象实例是否一致;
步骤3:如果一致,则从ei的有向关系图中删除该关系对象实例。
所谓从实体对象实例ei的有向关系图中删除关系对象实例ra是指从关系对象实例库中删除关系对象实例ra,而在图4所示的实施例的情况下,是指从实体对象实例ei的关系链表中删除关系对象实例的ID。
此外,根据本发明的方法还包括删除词条的操作:在实体对象实例库中找到与该词条对应的实体对象实例并且删除该实体对象实例。
除了以上介绍的对实体对象的操作外,本发明的方法还包括对关系对象的操作:生成一个关系对象实例/删除一个已有的关系对象实例。在将生成的关系对象实例添加到关系对象实例库之前和从关系对象实例库中删除一个已有的关系对象实例之前都要进行关系一致性检验。
以上详细地介绍了根据本发明一优选实施例生成面向用户的电子词典的方法。
图10中示出了一个根据本发明优选实施例的电子词典系统的组成。如图10所示,该系统包括:系统维护装置101、词典分析装置102、索引装置103以及数据库104。以下结合附图详细描述一下该系统的各个组成部分。如图10所示,数据库104包括:实体对象实例库、关系对象实例库、实体类型表和关系类型表,其中,实体对象实例库:用来存储由一个实体对象产生的多个实体对象实例,其中每个实体对象实例代表了一条与所述电子词典中的一个词条相关的信息;关系对象实例库:用来存储由一个关系对象产生的多个关系对象实例,其中每个关系对象实例代表了两个实体对象实例之间的关系,该关系为有向关系,其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;实体类型表:用来存储该电子词典系统中可以存在的实体对象类型;关系类型表:用来存储该电子词典系统中可以存在的关系对象类型。系统维护装置101包括实体对象维护装置和关系对象维护装置,其中,实体对象维护装置:用于对实体对象进行实例化,或者用于动态地修改、增加或删除所述实体对象实例库中的实体对象实例;关系对象维护装置:用于对关系对象进行实例化,或者用于动态地修改、增加或删除所述关系对象实例库中关系对象实例。词典分析装置102包括实体除重检查装置和关系一致性检查装置,其中,实体除重装置:用于去除实体对象实例库中的重复的实体对象实例;关系一致性检验装置:用于进行关系一致性检验,对关系的一致性检验主要检验关系是否冗余、冲突和不足。此外,为了进一步提高系统的查询速度,在根据本发明优选实施例的电子词典系统中还包括了一个索引装置103。
尽管以上以用于文字处理方面的电子词典为例,介绍了根据本发明的用户可以动态修改词条的属性的电子词典、电子词典系统及其生成方法,本对于本领域一般技术人员来说,本发明适用于在信息处理领域中,用以收集数据的属性、特征、用法以及与其他数据间关系的任何电子词典中。

Claims (18)

1.一种用于建立/维护面向用户的电子词典的方法,其特征在于包括以下步骤:
定义一个实体对象,用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;
建立一个实体对象实例库,用于存储由所述实体对象产生的实体对象实例;
定义一个关系对象,用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;
建立一个关系对象实例库,用于存储由所述关系对象产生的关系对象实例;其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;以及
通过对所述实体对象和/或关系对象进行实例化和对所述实体对象实例库和/或关系对象实例库中的实例进行操作,来动态地在所述电子词典中增加词条、增加词条的属性、删除词条或删除词条的属性。
2.根据权利要求1的方法,其特征在于:在所述实体对象中包含一个有向关系图属性,在所述实体对象被实例化后,在实体对象实例的有向关系图中存储了表示该实体对象实例与其他实体对象实例之间关系的所有关系对象实例的标识。
3.根据权利要求2的方法,其特征在于:在所述实体对象实例的有向关系图中使用链表来存储所述关系对象实例的标识。
4.根据权利要求3的方法,其特征在于:在所述实体对象实例的有向关系图中只存储了指向所述链表的指针。
5.根据权利要求1-4中任何一个权利要求的方法,其特征在于在所述电子词典中增加词条的步骤,包括:
判断在所述实体对象实例库中是否已存在与所述要添加的新词条相对应的实体对象实例;
如果不存在,则生成与该词条相对应的实体对象实例,并将该实体对象添加到所述实体对象实例库中;以及
判断是否需要为该词条添加属性,如果需要,则为其添加属性。
6.根据权利要求1-4中任何一个权利要求的方法,其特征在于在所述所述电子词典中增加词条的属性的步骤,包括:
判断在实体对象实例库中是否有与该属性相对应的实体对象实例;
如果没有,则生成一个与该属性相对应的实例对象实例;
生成一关系对象实例,将新生成的实体对象实例连接到该词条;以及
将新生成的关系对象实例添加到该词条的有向关系图中。
7.根据权利要求6的方法,其特征在于所述增加词条的属性的步骤还包括关系一致性检验步骤:判断新生成的关系对象实例是否与所述关系对象实例库中已存在的关系对象实例是否一致,并且只有在一致的情况下,才将所述关系对象实例添加到该词条的有向关系图中。
8.根据权利要求7的方法,其特征在于所述关系一致性检验步骤进一步包括检验关系是否冗余、冲突或不足的步骤。
9.根据权利要求1-4中任何一个权利要求的方法,其特征在于在所述所述电子词典中删除词条的属性的步骤,包括:
在实体对象实例库和关系对象实例库中找到与该属性对应的实体对象实例以及将该实体对象连到词条的关系对象实例;
从词条的有向关系图中删除该关系对象实例。
10.根据权利要求9的方法,其特征在于所述删除词条的属性的步骤还包括关系一致性检验步骤:判断删除所述关系对象实例之后,所述关系对象实例库中的其他关系对象实例是否一致,并且只有在一致的情况下,才将所述关系对象实例从词条的有向关系图中删除。
11.根据权利要求10的方法,其特征在于所述关系一致性检验步骤进一步包括检验关系是否冗余、冲突或不足的步骤。
12.根据权利要求1-4中任何一个权利要求的方法,其特征在于在所述所述电子词典中删除词条的步骤,包括:
在所述实体对象实例库中找到与该词条对应的实体对象实例;以及
从所述实体对象实例库中删除该实体对象实例。
13.一种面向用户的电子词典,包括:
实体对象实例库:用来存储由一个实体对象产生的多个实体对象实例,其中,该实体对象用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;
关系对象实例库:用来存储由一个关系对象产生的多个关系对象实例,其中,该关系对象用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;
其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图。
14.根据权利要求13的电子词典,其特征在于:在所述实体对象中包含一个有向关系图属性,在所述实体对象被实例化后,在实体对象实例的有向关系图中存储了表示该实体对象实例与其他实体对象实例之间关系的所有关系对象实例的标识。
15.根据权利要求14的电子词典,其特征在于:在所述实体对象实例的有向关系图中使用链表来存储所述关系对象实例的标识。
16.根据权利要求15的电子词典,其特征在于在所述实体对象实例的有向关系图中只存储了指向所述链表的指针。
17.一种面向用户的电子词典系统,包括:
实体对象实例库:用来存储由一个实体对象产生的多个实体对象实例,其中,该实体对象用于表示所述电子词典中的词条或词条的属性,在该实体对象中包含实体对象的名称和实体对象的类型;
关系对象实例库:用来存储由一个关系对象产生的多个关系对象实例,其中,该关系对象用于表示两个实体对象之间的有向关系,在该关系对象中包含:关系对象的类型、源实体对象和目标实体对象;
其中,与所述电子词典中的一个词条相关的所有实体对象实例通过相应的关系对象实例连接在一起形成一个有向关系图;
实体对象维护装置,用于对实体对象进行实例化,或者用于动态地修改、增加或删除所述实体对象实例库中的实体对象实例;以及
关系对象维护装置,用于对关系对象进行实例化,或者用于动态地修改、增加或删除所述关系对象实例库中关系对象实例。
18.根据权利要求17的系统,其特征在于该系统还包括一个词典分析装置,用于进行关系一致性检验。
CNA021600147A 2002-12-30 2002-12-30 面向用户的电子词典、电子词典系统及其生成方法 Pending CN1512406A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA021600147A CN1512406A (zh) 2002-12-30 2002-12-30 面向用户的电子词典、电子词典系统及其生成方法
US10/739,780 US20040243396A1 (en) 2002-12-30 2004-05-20 User-oriented electronic dictionary, electronic dictionary system and method for creating same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA021600147A CN1512406A (zh) 2002-12-30 2002-12-30 面向用户的电子词典、电子词典系统及其生成方法

Publications (1)

Publication Number Publication Date
CN1512406A true CN1512406A (zh) 2004-07-14

Family

ID=33438153

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA021600147A Pending CN1512406A (zh) 2002-12-30 2002-12-30 面向用户的电子词典、电子词典系统及其生成方法

Country Status (2)

Country Link
US (1) US20040243396A1 (zh)
CN (1) CN1512406A (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011160A1 (en) * 2005-07-07 2007-01-11 Denis Ferland Literacy automation software
FR2896603B1 (fr) * 2006-01-20 2008-05-02 Thales Sa Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel
US20070219782A1 (en) * 2006-03-14 2007-09-20 Qing Li User-supported multi-language online dictionary
US20090063546A1 (en) * 2007-08-31 2009-03-05 Caterpillar, Inc. Method and system for creating a data dictionary
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US20090300126A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation Message Handling
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
WO2011146934A2 (en) 2010-05-21 2011-11-24 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
US9336195B2 (en) * 2013-08-27 2016-05-10 Nuance Communications, Inc. Method and system for dictionary noise removal
US10594817B2 (en) * 2017-10-04 2020-03-17 International Business Machines Corporation Cognitive device-to-device interaction and human-device interaction based on social networks
US10977221B2 (en) 2017-10-20 2021-04-13 Hewlett Packard Enterprise Development Lp Encoding of data formatted in human-readable text according to schema into binary

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
US5504891A (en) * 1991-10-17 1996-04-02 Ricoh Company, Ltd. Method and apparatus for format conversion of a hierarchically structured page description language document
US5592661A (en) * 1992-07-16 1997-01-07 International Business Machines Corporation Detection of independent changes via change identifiers in a versioned database management system
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5778389A (en) * 1996-05-23 1998-07-07 Electronic Data Systems Corporation Method and system for synchronizing computer file directories
US5737591A (en) * 1996-05-23 1998-04-07 Microsoft Corporation Database view generation system
US6003040A (en) * 1998-01-23 1999-12-14 Mital; Vijay Apparatus and method for storing, navigating among and adding links between data items in computer databases
US6654731B1 (en) * 1999-03-01 2003-11-25 Oracle Corporation Automated integration of terminological information into a knowledge base
US6356913B1 (en) * 1999-06-09 2002-03-12 Avaya Technology Corp. Generic (database-independent) and dynamically-modifiable schema
US6714939B2 (en) * 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text

Also Published As

Publication number Publication date
US20040243396A1 (en) 2004-12-02

Similar Documents

Publication Publication Date Title
CN1122231C (zh) 为自然语言语句生成逻辑形式图的方法和系统
CN1115644C (zh) 利用相关数据库实现非循环定向图形结构的方法
US8185525B2 (en) Ordering query results based on value range filtering
US8027985B2 (en) Sorting data records contained in a query result
US7246114B2 (en) System and method for presenting a query expressed in terms of an object model
US20080222129A1 (en) Inheritance of attribute values in relational database queries
US20080228716A1 (en) System and method for accessing unstructured data using a structured database query environment
CN1609859A (zh) 搜索结果聚类的方法
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
CN1875358A (zh) 用于在单个语句中更改集值和标量值列的sql语言扩展
CN1512406A (zh) 面向用户的电子词典、电子词典系统及其生成方法
CN1190053C (zh) 一种通信设备的数据离线配置方法
CN1661593A (zh) 一种计算机语言翻译方法及其翻译系统
CN1815477A (zh) 用于提供基于标记语言的限定词的方法和系统
CN1761962A (zh) 将非结构化数据实时聚集为结构化数据以便关系数据库引擎进行sql处理
CN1519751A (zh) 生成结构模式候选对象的方法、系统和程序
CN1877523A (zh) 一种支持异构构件的构件库统一管理方法
CN1750002A (zh) 提供搜索结果的方法
CN1846207A (zh) 类型路径索引
CN1250189A (zh) 具有习惯用语处理功能的电子词典
CN101079048A (zh) 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN1592908A (zh) 具有异种对象类型的数据库系统
CN1492361A (zh) 嵌入式数据库查询的处理方法
CN1176430A (zh) 在不同尺寸显示器上展现信息的方法
US20080133493A1 (en) Method for maintaining database clustering when replacing tables with inserts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication