CN1595399A - 汉语文本中词及词属性自动索引和检索的方法 - Google Patents

汉语文本中词及词属性自动索引和检索的方法 Download PDF

Info

Publication number
CN1595399A
CN1595399A CN 03156538 CN03156538A CN1595399A CN 1595399 A CN1595399 A CN 1595399A CN 03156538 CN03156538 CN 03156538 CN 03156538 A CN03156538 A CN 03156538A CN 1595399 A CN1595399 A CN 1595399A
Authority
CN
China
Prior art keywords
word
attribute
user
retrieval
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 03156538
Other languages
English (en)
Inventor
宋柔
樊太志
罗智勇
荀恩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Information Processing Institute Of Beijing Language And Culture Univer
Original Assignee
Language Information Processing Institute Of Beijing Language And Culture Univer
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Information Processing Institute Of Beijing Language And Culture Univer filed Critical Language Information Processing Institute Of Beijing Language And Culture Univer
Priority to CN 03156538 priority Critical patent/CN1595399A/zh
Publication of CN1595399A publication Critical patent/CN1595399A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明是一种汉语文本中词及词属性自动索引和检索方法。该方法的主要特征是从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而自动生成词索引和词属性索引;使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行自动检索,得到检索结果。本发明要解决的技术问题是:基于任何词表、任何词属性体系,对任何生语料进行词和词属性的自动索引和检索。使用本发明,在做词及词属性检索的工作中可以免去语料库标注的巨大的工作量,进而大大节省语言研究、语言教学、词典编纂人员的人力,大大提高他们的工作效率。

Description

汉语文本中词及词属性自动索引和检索方法
1.技术领域
本发明涉及一种文本检索技术,特别是涉及汉语文本中的词及词属性自动索引和检索的方法。
2.背景技术
从事汉语语言教学、语言研究、词典编纂和语言工程(例如机器自动翻译、自动朗读、自动语音识别等)开发的人员需要大量积累有关词和词属性的语言实例,如“因为”后面若干个词是“所以”的实例,副词后面接形容词的实例,介词“把”后面隔一个词是动词的实例等,用来进行语言例证收集、语言现象统计、语言规律归纳。
过去,语言实例的积累、统计和规律归纳主要靠人工抄卡片。随着计算机技术和网络技术的发展和普及,电子文本(称为语料)的获取越来越容易,基于语料库的统计方法迅速发展,出现了语料库标注工程和语料库检索软件。
为此,人们准备了大量的电子文本,称为生语料库。对于生语料需要进行切词和词属性消歧,如此加工过的称为熟语料库。针对该熟语料库开发检索软件,可以用词和词属性为条件来检索。
汉语与英语不同,词与词之间没有分隔标记,切词就是找出词的左右边界,在边界处加上分隔符。切词的困难在于同一字串有不同的切分可能。如“这项研究所以能成功是因为……”同“这个研究所以此为目标……”中的“研究所以”,前一句应切分为“研究/所以”,后一句应当切分为“研究所/以”。另一个困难是大量的人名、地名、机构名、新词语等计算机难以一一识别。
词有属性,语法属性如名词、动词、形容词等,字长属性如一字词、二字词等,还有其他类型的属性。对于一个词可能具有的属性来说,有一些是可以并存的,如“人”既有名词属性,又有一字词属性;有些是相互排斥的,在不同的上下文中取不同的属性。如“标准”既有名词属性又有形容词属性,在“制定技术标准”中的“标准”为名词属性,“发音很标准”中的“标准”为形容词属性。词属性排歧就是在几个相互排斥的可能属性中根据上下文选定一个属性。
目前计算机自动切词的正确率可以达到98%左右,词的语法属性的自动排歧正确率则不是很高。为了提高准确性以满足实用的需要,就得使用大量人力来校正计算机自动切分和词属性消歧的结果,这就是语料库标注工程。
语料库标注工程确实有一定效果,一定程度上为检索软件提供标准数据,替代了人工收集语言实例、抄卡片、数卡片的繁重劳动,但从方法上说有重大缺陷。
首先是耗费人力仍然太大。计算机自动切词和对词属性自动消歧后需要大量人力进行校正。一般来说,一个人一天最多校正1万字,那么1年的人民日报文本大约需要10个人年来校正。
第二是检索对象太有限。由于耗费人力太大,所以不可能加工太大规模的语料库,于是可检索的对象非常有限。比如,1998年的人民日报语料加工过了,那么1998年的人民日报中的有关词和词属性的语言现象就可以被检索了,但1999年的就不能被检索,至于“红楼梦”、“骆驼祥子”等小说,台湾香港的语料,只要尚未对语料进行加工,就不能被检索。因此,这一方法远不能满足用户的广泛需求。
第三是词属性体系和词属性标注太死板。语言信息处理应用面非常广,不同的应用会需要不同的词属性体系。同一种类的属性体系,有的可能需要粗分类属性,有的可能需要细分类属性。属性体系确定了,对于某一个词在某个特定上下文中到底应该标注哪种属性,不同的人会有不同的看法。但是,语料库标注工程一旦开始,属性体系就不能动了,语料库标注完了以后哪个词标什么属性也是确定的了,从而无法满足不同人的不同需要。
第四是准确性并不是很高。在计算机自动切分并作词属性排歧的基础上进行人工校对的目的是提高准确性。但是汉语中词的概念是模糊的,有些词属性的定义也难以覆盖全部语言现象,所以人工校正中会遇到许多难以统一的问题。此外,语料库标注工程中人员的增加和时间的延长,都会削弱校正过程的可控性,影响最终的加工结果的准确性。
其实,从另一个角度考虑问题,可以省去语料库标注工程的大量人力消耗,而取得极高的效率和极大的灵活性。
语料库标注工程的工作内容一是校正切词中的错误,二是校正词属性排歧中的错误。前者由于计算机自动切词的正确率相当高,故即使不校正,许多情况下也已经可以满足实用需要,因此重点在于后者。语料库标注工程最花费人力的是对词属性自动消歧的校正,但校正后的准确性仍然并不很高。于是,我们试探另一种想法:对于一个词的相互排斥的几个属性,计算机不做消歧,当然人也就不做校正。不管什么上下文,让这个词总是带有这些相互排斥的属性。
这样做的好处首先是避免了人工加工语料库的大量消耗,使语料库索引完全自动化。由于不再受制于人的加工能力,所以能充分发挥计算机的效能,有可能基于任何词表、任何词属性体系,对任何生语料自动建立词及词属性的索引,进而支持检索软件做词及词属性的检索。如此能大大扩展这种检索系统的应用范围。
这样做的弊病是会增加检索的不准确性,把一个词在特定上下文中不该有的属性检索出来,但不会发生遗漏。检索的不准确性所造成的问题在许多情况下并不严重,因为需要根据上下文对属性排歧的词毕竟是少数,并且除了涉及统计训练的语言工程开发问题之外,在语言教学、语言研究、词典编纂等领域对于计算机检索的主要要求是查全,而不是查准。即使有一些不准的,待机器检索出来后由人来筛选也完全可以接受。另一方面,使用现有技术,词属性自动消歧加上人工校正,仍留存的错误也会造成的属性检索结果不准确,更严重的是无法保证检索结果的无遗漏。
权衡利弊得失,在面向在语言教学、语言研究、词典编纂等领域的情况下,采用全自动的词及词索引方法显然大大优于依赖大量人力投入的语料库标注方法。关键问题是如何真正发挥出计算机的效能,可以基于任何词表、任何词属性体系,对任何生语料建立词及词属性的索引并进行检索,而正是本发明要解决的技术问题。
3.发明内容
本发明涉及一种信息检索技术,特别是对汉语文本中词及词属性自动索引和检索的方法。
本发明的索引和检索方法的处理对象是未经加工的文本,称为生语料库,检索条件是词及词属性(或词属性的某种逻辑组合),检索结果是生语料库中从形式上匹配检索条件的词语串。使用本发明,无需人手标注,就能基于任何词表和任何词属性体系,对任何生语料,进行词及词属性的自动索引和检索,因而能免去语料库标注工程的巨大工作量,进而大大节省语言教学、语言研究、词典编纂人员的人力,大大提高他们的工作效率。
本发明要解决的技术问题是:如何能基于任何词表、任何词属性体系,对任何生语料库自动生成词和词属性的索引,并用词和词属性进行检索。
本发明产生的技术效果是:在做词及词属性检索的工作中免去语料库标注工程的巨大工作量,进而大大节省语言研究、语言教学、词典编纂人员的人力,大大提高他们的工作效率。
本发明的技术方法详述如下。
(1)方法组成
本发明的方法由以下步骤组成:
a.从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;
b.使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而生成词索引和词属性索引;
c.使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行检索,得到检索结果。
(2)方法内容
a.由用户词库得到机内词库
为使用本发明的方法,用户需要准备自己的词库,称为用户词库。用户词库包括3部分:词表,词属性体系,以及词属性标记。词表就是词形的列表,列出需要处理的词。词的属性体系可以包括用户所要检索的任何类型的词属性。语法属性如名词、动词、形容词等;构词属性如偏正式、述宾式、主谓式等;文字属性如一字词、二字词、三字词等;语音属性如第一个音节的声母、最后一个音节的韵母等;语义属性如人、实物、抽象物、动作、性质等,以及其他各种属性。各种类型的属性可以混在同一个体系之中,一个词可能有多个属性。词属性标记就是对于词表中的每一个词和词属性体系中的每一个属性,标上表示有或无的标记,表示该词是否具有该属性。比如,词表中有“标准”这个词,词的属性体系中有语法属性名词、动词、形容词等,有文字属性一字词、二字词、三字词等,则“标准”这个词对于名词属性、形容词属性和二字词属性有表示“有”的标记,因为既可以说“制定技术标准”也可以说“发音很标准”。
用户词库应当为某种通用的关系数据库格式,数据库的字段是词和词属性体系中的各个词属性。一个词对应一条记录,记录内容是该词对于每个属性的表示有或无的标记。
使用本发明的方法加工用户词库,首先要对词属性编码,编码结果称为词属性的特征码。设用户词库的词属性包括人名、地名、机构名、数词共有n个,则词属性的特征码是长度为n的二进制数,每个词属性对应于一个二进制的位,该位取1,其他位取0。
使用本发明的方法生成的机内词库是1维数组,数组元素是2元结构,其中一元是词本身,另一元是二进制数,表示词的属性,称为词的属性码。如果一个词在用户词库中只有一个属性,它的属性码就是该属性的特征码;如果有多个属性,它的属性码就是这些属性的特征码的和。
b.生成用户语料库切词结果、词索引和词属性索引
用户给定待检索的语料,称作用户语料库,其中的文本都是未经加工的纯文本语料。
使用本发明的方法,可加工用户语料库得到词索引和词属性索引。加工过程如下:
首先用机内词库对用户语料库进行切词,其中包括两部分工作:一是用机内词库把在用户词表中的词切分出来,二是把未登录在用户词表中的人名、地名、机构名和数字切分出来。其工作过程同于一般的汉语自动分词系统。同一个词在用户语料库中可能有多处出现,每一次出现称作该词的一个词例。用户语料库的切词结果是1为数组,数组元素是三元组,其中一元是词例,另一元是该词例的首字位置,还有一元是未登录词标记。未登录词标记共有5个:用户词库中的词、未登录人名、未登录地名、未登录机构名、未登录数词。整个数组按照词例的首字位置自小到大排序,即按照词例的出现顺序排序。
然后对分词后的用户语料库建立词索引。词索引的主键是出现在用户语料库中的词,其中不仅包括用户词库中的词,也包括切词系统在用户语料库中识别出来的人名、地名、机构名、数词;主键关联值是该词在用户语料库中各词例的首字位置的列表。这些位置可以通过遍历语料库的切词结果而得到。
利用机内词库和用户语料库的切词结果可以生成词属性索引。词属性索引的主键是词的属性码,主键关联值是具有该属性码的词的列表。词属性索引的生成方法是:把机内词库的二元结构中的属性码作为主键,把具有这一属性码且出现在用户语料库切词结果中的全部词的列表作为主键的关联值。此外,以人名、地名、机构名、数词的特征码为属性码的主键关联值中,应加进用户语料库切词结果中的未登录人名、未登录地名、未登录机构名、未登录数词。
建立了词属性索引和词索引后,只要用户给出检索条件,本发明的检索程序便能按照这一条件,利用索引,得到检索结果,返回给用户。
c.检索
用户的检索条件用若干个条件项组成的条件项序列及相邻条件项间距离关系来表示。一个条件项可以是一个词,也可以是一个词属性,包括用户词库中的词属性和未登录的人名、地名、机构组织名、数字,还可以是若干个词属性的基于逻辑关系“与”“或”“非”的组合。当条件项是词的时候,表示被检索的就是这个词的词例;当条件项是词属性或词属性的逻辑关系组合时,表示被检索的词的属性应满足这样的词属性条件。相邻条件项间距离关系有3种:相差词数等于某指定整数、小于某指定整数、在两个指定整数之间。相邻条件项检索到的词例应满足这样的距离关系要求。
检索方法如下:
①.找出每个条件项所对应的词,具体方法为:
(a)如果条件项就是词,对应的词就是该词。
(b)如果条件项是一个词属性而且不带逻辑“非”运算,则按照该词属性的特征码在词属性索引中找,凡是同该特征码进行逻辑“与”运算结果不是0的主键为命中的主键,这些主键的关联值就是要找的词。
(c)如果条件项是一个词属性而且带逻辑“非”运算,则按照该词属性的特征码在词属性索引中找,凡是同该特征码进行逻辑“与”运算结果是0的主键为命中的主键,这些主键的关联值就是要找的词。
(d)如果条件项是逻辑“与”联系的多个词属性,则把这些词属性分为两组,一组词属性都不带逻辑“非”运算,另一组词属性都带逻辑“非”运算。词属性索引中的主键为命中的主键,当且仅当前一组的词属性的特征码之和同该主键逻辑“与”运算后结果不变,并且后一组词属性的特征码之和同该主键逻辑“与”运算结果是0。这些主键的关联值就是要找的词。
(e)如果条件项是含有“或”运算的逻辑表达式,则把该逻辑表达式化成等价的合取范式,每一个子式都按上述方法找到命中的主键,所有这些主键的关联值就是要找的词。
②.对于每个条件项,找出它对应的词的全部词例的首字位置。方法是以第(1)步找到的词为主键,在词索引中找出这些词形的全部词例的首字位置。
③.检查相邻条件项间的距离关系,得到满足检索条件的词例序列。用户语料库的切词结果中包含了各个词例的首字位置,故可用来计算检索条件中相邻条件项所对应的全部可能的词例的位置对中,有哪些符合检索条件中的距离关系。满足关系的被留下来,不满足关系的被剔除。如此可以得到满足检索条件的词例序列。
④.对于每一个满足检索条件的词例序列,包含该词例序列的词串就是一个检索结果。
⑤.当检索结果不止一个词串时,检索结果可以按照用户要求对某个被指定的条件项对应的词例排序,词例相同时可以对该词例的上文由右到左排序,也可以对该词例的下文由左到右排序。排序的实现方法属于字符串排序算法范畴,可参见算法与数据结构的教科书或论著。
从上面的介绍可知,在本发明中,对于用户来说,不仅检索条件可以在制定形式范围内任意选择,而且用户语料库也是任意的。任意给定用户语料库,使用本发明的方法可以借助机内词库自动生成用户语料库切词结果、词索引和词属性索引,以供检索。进而,用户词库也是任意的。词表、词属性体系可以任意给定,词的属性可以任意标注,对于任何一个这样的用户词库,都能生成一个机内词库。因此,使用本发明的方法,可以基于任何词表、任何词属性体系,对任何生语料建立词及词属性的索引并进行检索。
4.附图说明
图1表示本发明的工作流程。图中圆柱形表示各种类型的数据,长方形表示手工加工过程或计算机程序。从图中可见本发明的工作流程是:
a.用户给出用户词表和用户词属性体系,用户手工标注词表中每一个词的词属性,得到用户词库。
b.本发明由用户词库得到机内词库。
c.用户给出用户语料库,本发明通过切词,得到用户语料库切词结果。
d.本发明由用户语料库切词结果得到词索引,由用户语料库切词结果和机内词库得到词属性索引。
e.用户给出检索条件,本发明由词属性索引、词索引和用户语料库切词结果,得到检索结果。
注意,图1中,粗线条的圆柱形所代表的数据可以任意替换。具体来说,在上面的工作流程中,用户词表和用户词属性体系是可以任意替换的,不同的用户词库能自动转成不同的机内词库。用户语料库也是可以任意替换的,不同的用户语料库可以生成不同的用户文本索引库。用户检索条件也是可以任意替换的,不同的检索条件可以产生不同的检索结果。
图2是用户词库以access表单形式实现时,表示词和词属性的各字段的数据类型定义。
图3是以access表单形式实现的用户词库的片断。
5.具体实施方式
这里给出本发明的一种具体实施方式。
a.由用户词库得到机内词库
用户词表有“啊”、“啊啊”、“阿Q”、“阿爸”、“阿富汗”、“阿米巴”……“做作”等近6万词,用户的词属性体系中有标点、名词、动词、形容词、代词、方位词、区别词、状态词、量词、数词、副词、介词、连词、助词、象声词、感叹词、人名、地名、机构名、一字词、二字词、三字词、四字词、多字词,共24个。
本发明的这种具体实施方式要求用户词库组织成access表单的形式,表的字段有WordItem和上述24个词属性的名称。各字段的数据类型如图2所示。每一个词为一个记录。每一个记录的“WordItem”字段登记相应词的词形,各词属性字段或为1,或为空。某词具有某词属性,则该词记录的该词属性字段标1,不标即为空。该access表单如图3所示。
为建机内词库首先要确定词属性的编码方式。可以把词属性表示为4字节的无符号整型数,称为词属性的特征码。4字节中,从右端第0个bit到第23个bit,每个bit代表一个词属性,填1代表该词有这个词属性,填0代表该词没有这个词属性。词属性的特征码如表1所示。
  词属性            特征码二进制表示 特征码十六进制表示
标点 00000000 10000000 00000000 00000000     0080 0000
名词 00000000 01000000 00000000 00000000     0040 0000
动词 00000000 00100000 00000000 00000000     0020 0000
形容词 00000000 00010000 00000000 00000000     0010 0000
代词 00000000 00001000 00000000 00000000     0008 0000
方位词 00000000 00000100 00000000 00000000     0004 0000
区别词 00000000 00000010 00000000 00000000     0002 0000
状态词 00000000 00000001 00000000 00000000     0001 0000
量词 00000000 00000000 10000000 00000000     0000 8000
数词 00000000 00000000 01000000 00000000     0000 4000
副词 00000000 00000000 00100000 00000000     0000 2000
介词 00000000 00000000 00010000 00000000     0000 1000
连词 00000000 00000000 00001000 00000000     0000 0800
助词 00000000 00000000 00000100 00000000     0000 0400
象声词 00000000 00000000 00000010 00000000     0000 0200
感叹词 00000000 00000000 00000001 00000000     0000 0100
人名 00000000 00000000 00000000 10000000     0000 0080
地名 00000000 00000000 00000000 01000000     0000 0040
组织机构名 00000000 00000000 00000000 00100000     0000 0020
一字词 00000000 00000000 00000000 00010000     0000 0010
二字词 00000000 00000000 00000000 00001000     0000 0008
三字词 00000000 00000000 00000000 00000100     0000 0004
四字词 00000000 00000000 00000000 00000010     0000 0002
多字词 00000000 00000000 00000000 00000001     0000 0001
                           表1词属性的特征码
有了特征码,就可以对每个词的词属性编码,称为该词的属性码。如果某词只有一个词属性,那么它的词属性码就是该词属性的特征码;如果某词有多个词属性,它的词属性码就是这些词属性的特征码的和。
因此,一字感叹词“啊”的词属性码用4字节二进制数表示为
0000 0000 0000 0000 0000 0001 0001 0000
用4字节十六进制数表示为
0x00000110
三字地名“阿富汗”的词属性码用4字节二进制数表示为
0000 0000 0000 0000 0000 0000 0100 0100
用4字节十六进制数表示为
0x00000044
二字名词兼形容词“标准”的词属性码用4字节二进制数表示为
0000 0000 0101 0000 0000 0000 0000 1000
用4字节十六进制数表示为
0050 0008
机内词库是一个结构型数组,数组元素为二元结构,一元是词本身,另一元是词的词属性码。表2表示机内词库片段的形式。
    词 词属性码(十六进制)
枞树     0040 0008
    0040 0010
葱白     0040 0008
葱白儿     0040 0004
葱葱     0001 0008
葱葱郁郁     0001 0002
葱翠     0001 0008
葱花     0040 0008
葱姜     0040 0008
葱茏     0001 0008
葱绿     0001 0008
葱农     0040 0008
葱蒜     0040 0008
葱头     0040 0008
葱芽     0040 0008
葱叶     0040 0008
葱油     0040 0008
葱郁     0001 0008
    0040 0010
    0040 0010
聪慧     0010 0008
聪敏     0010 0008
聪明     0010 0008
聪明才智     0040 0002
聪明绝顶     0001 0002
表2机内词库片段示意
b.生成用户语料库切词结果、词索引和词属性索引
用户语料库通常很大(即百万字至数十亿字),这里不可能给出这样大规模的实例。下面给出一段话作为实例:
香港特别行政区立法会主席范徐丽泰是一位不平凡的母亲,她的女儿不满18岁时患病,失去肾功能。她把自己一侧的肾给了女儿,更重要的是,她和家人一直支持、鼓励女儿直面磨难,继续学业。
切词结果是一个1维数组,数组元素为3元结构,其中一元是词例,另一元是该词例的首字位置,还有一元是未登录词标记。整个数组按照词例的首字位置自小到大排序,如表3所示。本实施方式的未登录词标记中,0表示用户词库中的词,1表示未登录在用户词库中的人名,2表示未登录在用户词库中的地名,3表示未登录在用户词库中的机构名,4表示未登录在用户词库中的数词。本例中只有未登录人名和机构名,没有未登录地名和数词。
        词例 词例的首字位置 未登录词标记
香港特别行政区立法会     0     3
主席     10     0
范徐丽泰     12     1
    16     0
    17     0
    18     0
    19     0
平凡     20     0
    22     0
母亲     23     0
    25     0
    26     0
    27     0
女儿     28     0
    30     0
    31     0
18     32     0
    34     0
    35     0
    36     0
    37     0
    38     0
失去     39     0
    41     0
功能     42     0
    44     0
    45     0
    46     0
自己     47     0
    49     0
    50     0
    51     0
    52     0
    53     0
    54     0
女儿     55     0
    57     0
    58     0
重要     59     0
    61     0
    62     0
    63     0
    64     0
    65     0
家人     66     0
一直     68     0
支持     70     0
    72     0
鼓励     73     0
女儿     75     0
直面     77     0
磨难     79     0
    81     0
继续     82     0
学业     84     0
    86     0
            表3用户语料库切词结果
遍历这个切词结果,把每个词的各词例首字的出现位置收集在一起,便可生成词索引,结果如表4所示。
    词 词例的首字位置
25 38 57 63 81
72
44 86
18 32
46
37
19 30
50
22 27 51 61
范徐丽泰 12
53
58
功能 42
鼓励 73
65
36
继续 82
家人 66
26 45 64
54
31
磨难 79
母亲 23
女儿 28 55 75
平凡 20
41 52
失去 39
35
16 62
34
18
香港特别行政区立法会 0
学业 84
17 49
一直 68
支持 70
直面 77
重要 59
主席 10
自己 47
                          表4词索引
把机内词库的二元结构中的属性码作为主键,把具有这一属性码且出现在用户语料库切词结果中的全部词的列表作为主键的关联值,便可生成词属性索引。此外,切词中自动识别出来的人名“范徐丽泰”和机构名“香港特别行政区立法会”、数词“18”应加进以人名、机构明、数词的特征码为属性码的主键关联值中。表5列出了如此生成的词属性索引。
词属性码(十六进制)              词
    0080 0010 ,。、
    0040 8010
    0040 0010 病 肾
    0040 0008 功能 家人 母亲 磨难 女儿 学业 主席
    0028 0010
    0024 0010
    0020 9010
    0020 1810
    0020 1010
    0020 0410
    0020 0010
    0020 0008 鼓励 继续 失去 支持 直面
    0010 0010
    0010 0008 平凡 重要
    0008 0010
    0008 0008 自己
    0000 8010 岁 位
    0000 6010
    0000 4000 18
    0000 2010 不 更
    0000 2008 一直
    0000 0410
    0000 0080 范徐丽泰
    0000 0020 香港特别行政区立法会
                表5词属性索引
c.检索
下面给出基于这样的索引库的两个检索实例。
检索实例1
设检索条件是:“副词等于1形容词”,即检索副词后面紧接着1个词是形容词的全部例证。
检索条件中有2个条件项:副词、形容词。
左条件项“副词”是词属性,其特征码是0000 2000(十六进制)。在词属性索引中,与该特征码进行逻辑“与”运算结果不是0的主键只有0000 2010和0000 2008,关联的词有4个:“一”、“不”、“更”、“一直”。再查词索引,对应词例的首字出现位置是17、49、19、30、58、68。
右条件项“形容词”是词属性,其特征码是0010 0010和0010 0008(十六进制)。在词属性索引中,与该特征码进行逻辑“与”运算结果不是0的主键只有0010 0010和0010 0008,关联的词有3个:“满”、“平凡”、“重要”。再查词索引,对应词例的首字出现位置是31、20、59。
检索条件中的距离关系是“等于1”,即左条件项和右条件项对应词例位置相差1个词。对照两个条件项的词例首字出现位置,利用用户语料库的切词结果中的词例首字位置信息,符合检索条件的词例串有3个:“不满”、“不平凡”、“很重要”。连带上前后文的词串,检索结果为:
席范徐丽泰是一位不平凡的母亲,她的女儿不满18岁时患病,失去肾功能。她把自己一侧
香港特别行政区立法会主席范徐丽泰是一位不平凡的母亲,她的女儿不满18岁时患病,失失去肾功能。她把自己一侧的肾给了女儿,更重要的是,她和家人一直支持、鼓励女儿直面
这是按照左词例排序、左词例相同时对于左词例的上文按照从右到左的顺序排序的结果,其中黑体字为与检索条件中的条件项匹配的词例。
检索实例2
又设检索条件是:“动词∧二字小于4名词∧二字”,即检索二字动词后面紧接着的第1个词或第2个词或第3个词是二字名词的全部例证。
左条件项“动词∧二字”是用“与”运算连接的词属性,“动词”和“二字”特征码之和是0020 0008(十六进制)。在词属性索引中,与该特征码进行逻辑“与”运算结果不是0的主键只有0020 0008本身,关联的词有5个:“鼓励”、“继续”、“失去”、“支持”、“直面”。再查词索引,对应词例的首字出现位置是73、82、39、70、77。
右条件项“名词∧二字”是用“与”运算连接的词属性,“名词”和“二字”特征码之和是0040 0008(十六进制)。在词属性索引中,与该特征码进行逻辑“与”运算结果不是0的主键只有0040 0008本身,关联的词有7个:“功能”、“家人”、“母亲”、“磨难”、“女儿”、“学业”、“主席”。再查词索引,对应词例的首字出现位置是42、66、23、79、28、55、75、84、10。
检索条件中的距离关系是“小于4”,即左条件项和右条件项对应词例位置相差不到4个词。对照两个条件项的词例首字出现位置,利用用户语料库的切词结果中的词例首字位置信息,符合检索条件的词例串有6个:“鼓励女儿”、“鼓励……磨难”、“继续学业”、“失去……功能”、“支持……女儿”、“直面磨难”。连带上前后文的词串,结果为:
女儿,更重要的是,她和家人一直支持、鼓励女儿直面磨难,继续学业。
女儿,更重要的是,她和家人一直支持、鼓励女儿直面磨难,继续学业。
她和家人一直支持、鼓励女儿直面磨难,继续学业。
凡的母亲,她的女儿不满18岁时患病,失去肾功能。她把自己一侧的肾给了女儿,更重要肾给了女儿,更重要的是,她和家人一直支持、鼓励女儿直面磨难,继续学业。
重要的是,她和家人一直支持、鼓励女儿直面磨难,继续学业。
这是按左词例的汉语拼音排序的结果,其中的黑体字为与检索条件中的条件项匹配的词例。

Claims (9)

1.一种汉语文本中词及词属性自动索引和检索的方法,其特征在于以下步骤:
(a)从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;
(b)使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而生成词索引和词属性索引;
(c)使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行检索,得到检索结果。
2.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的用户词库为一个关系型数据库,其字段为词和若干词属性,每一个词对应一个记录,记录的内容是该词对每一个词属性的表示有或无的标记。
3.根据权利要求2所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的用户词库的词属性可以是任何类型的属性,同一个词库可以包括多种不同类型的词属性。
4.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的机内词库是1维数组,数组元素是2元结构。其中一元是词,另一元是词的属性码。
5.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的用户语料库的切词结果是1维数组,数组元素是3元结构,其中一元是词例,另一元是该词例的首字位置,还有一元是未登录词标记。整个数组按照词例的首字位置自小到大排序。
6.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的用户语料库的词索引的主键是出现在用户语料库中的词,其中不仅包括用户词库中的词,也包括切词系统在用户语料库中识别出来的人名、地名、机构名、数词;主键关联值是该词在用户语料库中各次出现的首字位置的列表。
7.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的用户词库的词属性索引的主键是词的属性码,主键的关联值是机内词库中具有该属性的词的列表。
8.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的文本词及词属性检索的检索条件可以用若干个条件项来表示,每个条件项可以是词形,也可以是词属性,还可以是词属性的逻辑组合;词属性包括用户词库的词属性和未登录词的词属性;检索条件中可以列出两个相邻条件项相差的词数,相差的词数可以设定为某固定整数,也可以设定为小于某固定整数,还可以设定在两个固定整数之间。
9.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于:所述的文本词及词属性检索的检索结果不止一个词串时,检索结果可以按检索条件中某个条件项的上文由右到左排序,也可以按某个条件项的下文由左到右排序。
CN 03156538 2003-09-08 2003-09-08 汉语文本中词及词属性自动索引和检索的方法 Pending CN1595399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03156538 CN1595399A (zh) 2003-09-08 2003-09-08 汉语文本中词及词属性自动索引和检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03156538 CN1595399A (zh) 2003-09-08 2003-09-08 汉语文本中词及词属性自动索引和检索的方法

Publications (1)

Publication Number Publication Date
CN1595399A true CN1595399A (zh) 2005-03-16

Family

ID=34660011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03156538 Pending CN1595399A (zh) 2003-09-08 2003-09-08 汉语文本中词及词属性自动索引和检索的方法

Country Status (1)

Country Link
CN (1) CN1595399A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945242A (zh) * 2006-11-01 2013-02-27 起元技术有限责任公司 管理数据的方法、系统和计算机系统
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN102236640B (zh) * 2006-03-31 2014-04-09 谷歌公司 命名实体的消歧
CN105786963A (zh) * 2016-01-25 2016-07-20 汇智明德(北京)教育科技有限公司 一种语料库的检索方法及系统
CN107451243A (zh) * 2017-07-27 2017-12-08 迪尚集团有限公司 基于属性的复杂查询方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236640B (zh) * 2006-03-31 2014-04-09 谷歌公司 命名实体的消歧
CN102945242A (zh) * 2006-11-01 2013-02-27 起元技术有限责任公司 管理数据的方法、系统和计算机系统
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN105786963A (zh) * 2016-01-25 2016-07-20 汇智明德(北京)教育科技有限公司 一种语料库的检索方法及系统
CN107451243A (zh) * 2017-07-27 2017-12-08 迪尚集团有限公司 基于属性的复杂查询方法
CN107451243B (zh) * 2017-07-27 2024-04-12 迪尚集团有限公司 基于属性的复杂查询方法

Similar Documents

Publication Publication Date Title
CN1135485C (zh) 利用计算机系统的日文文本字的识别
Bhat et al. Iiit-h system submission for fire2014 shared task on transliterated search
CN1687926A (zh) 一种基于xml的pdf文档信息抽取系统的方法
CN1617134A (zh) 使用机器翻译技术处理释义的系统
CN1670723A (zh) 改进的拼写检查系统和方法
CN101065746A (zh) 文件自动丰富的方法和系统
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读系统和方法
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1928862A (zh) 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN1102271C (zh) 具有习惯用语处理功能的电子词典
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1908935A (zh) 一种自然语言的搜索方法及系统
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1661593A (zh) 一种计算机语言翻译方法及其翻译系统
CN1629833A (zh) 实现问与答功能和计算机辅助写作的方法及装置
CN1790332A (zh) 一种问题答案的阅读浏览显示方法及其系统
CN1908931A (zh) 一种文字的可变数据排版的方法
CN1123432A (zh) 机器翻译中的语法自纠正方法
CN1410918A (zh) 基于信息抽取技术的搜索引擎
CN101079268A (zh) 进行手语合成与显示的系统和方法
CN1828608A (zh) 一种基于句子关系图的多文档摘要方法
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
Bamman et al. The Latin Dependency Treebank in a cultural heritage digital library
CN1256650C (zh) 一种中文整句输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication