CN104484411A - 一种基于词典的语义知识库的构建方法 - Google Patents
一种基于词典的语义知识库的构建方法 Download PDFInfo
- Publication number
- CN104484411A CN104484411A CN201410783884.2A CN201410783884A CN104484411A CN 104484411 A CN104484411 A CN 104484411A CN 201410783884 A CN201410783884 A CN 201410783884A CN 104484411 A CN104484411 A CN 104484411A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- senses
- lexical
- dictionary entry
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 236
- 239000000284 extract Substances 0.000 claims description 95
- 239000013589 supplement Substances 0.000 claims description 48
- 238000005259 measurement Methods 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 20
- 230000008451 emotion Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000000692 anti-sense effect Effects 0.000 claims description 7
- 206010011469 Crying Diseases 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 10
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 210000003811 finger Anatomy 0.000 description 7
- 230000036541 health Effects 0.000 description 6
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 5
- 206010037180 Psychiatric symptoms Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 3
- 238000009411 base construction Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 210000003555 cloaca Anatomy 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 229940074869 marquis Drugs 0.000 description 2
- VBUNOIXRZNJNAD-UHFFFAOYSA-N ponazuril Chemical compound CC1=CC(N2C(N(C)C(=O)NC2=O)=O)=CC=C1OC1=CC=C(S(=O)(=O)C(F)(F)F)C=C1 VBUNOIXRZNJNAD-UHFFFAOYSA-N 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 102220103881 rs201490575 Human genes 0.000 description 2
- 102220008303 rs4904 Human genes 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000011089 carbon dioxide Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词典的语义知识库的构建方法,包括:构建基于词典语义知识表示模型的知识数据库;根据语义知识提取规则提取义项释义的语义知识;实现提取语义知识的义项映射;提取义项剩余释义的语义知识。本发明的方法能够灵活、快速地从词典中构建包含丰富语义的知识库,且知识库中所表示的知识具有通用性和权威性。本发明同时为自然语言的语义信息处理提供了一种深层语义知识的表示方法和语义相似度的计算方法,在自然语言处理领域具有广泛的应用价值,如在信息检索领域,能够实现基于语义而非关键词的检索,从而得到更贴近用户需求的深层语义检索结果。
Description
技术领域
本发明属于计算机语义信息处理技术领域,更具体地涉及一种基于词典的语义知识库的构建方法。
背景技术
随着计算机技术的迅速发展,人类已经进入信息爆炸时代,每天都有海量的数字化信息在生成、存储、传播和转换,人们在更加方便快捷的获取信息的同时,也同时被浩如烟海的信息所淹没,这使得人类对于计算机认知能力的需求越来越大,让计算机理解自然语言的愿望愈加强烈。将计算机与语言学联姻而诞生的自然语言理解研究,使人类语言研究视野进一步扩大,同时信息时代的到来召唤语言研究向技术化层面转向。计算语言学和语言信息处理成为在开阔的学术背景和计算机技术平台上的新开拓。
语言学的研究包括语法、语义和语用三个部分,而句法知识、语义知识、语用知识的基础理论研究也成为语言信息处理领域高难度的前沿课题。乔姆斯基虽然在句法结构规则形式化方面做出了革命性探索,但是仍然无法切合语言信息处理的要求。语用知识的研究是语言学关于会话情景和语境的更高层次的研究,目前国内外关于语用知识的研究较少并且还不够透彻。而语义性作为人类语言的共同本质属性,是计算语言学研究突破的关键所在,语言结构的本体是语义结构体,语言结构的真正研究对象是语义结构单位和语义结构关系。目前面向语言信息处理的语言研究最大的瓶颈就是语义。
语义相似度计算、潜在语义分析、语义角色标注等技术是语义信息处理领域的研究热点。语义相似度计算技术能在特定语义理论下,查询语义关系,计算词语之间的语义距离;潜在语义分析通过对大量的文本集进行统计分析,提取出词语的上下文使用含义,自动生成关键字之间的映射规则;语义角色标注不对句子做详细的语义分析,它通过机器学习的方法,标注句子中某些成分的语义角色。这些技术的共同点为都属于浅层语义分析,且都需要大规模语料库及语义知识库的支撑。
从20世纪80年代中期以来,语义词典和语义知识库建设蓬勃发展,出现了如WordNet、FrameNet、Mindnet、HNC和HowNet的大规模语义知识工程。若干有代表性的语义知识库构建如下表所述:
语义知识库在语义信息处理领域发挥了巨大的作用,同时,现有语义知识库也存在着明显的不足:首先,知识库的组织结构固定,不易扩展。如WordNet通过定义若干同义词集合和若干语义关系来组织词语和表达词语之间的语义关系,研究人员在知识库的建设过程中经常会不断调整同义词集合的个数和语义范围;其次,知识库的语义知识表达不充分,如WordNet主要组织了具有相同或相近语义的词汇,是一个强大的同义词词典,而FrameNet则主要描述的是有限动词的框架语义。另外,现有语义知识库的构建方式都是纯手工构建,非常耗时耗力,如WordNet的开发工作从1985年开始,先后接受了超过300万美元的资助。语义知识库存在的这些不足成为制约语义信息处理技术进一步发展的关键因素。
针对现有语义知识库组织和构建中存在的以上问题,亟需一种灵活地、快速地、低成本的、知识表达充分的语义知识库构建方法。
发明内容
有鉴于此,本发明的主要目的之一在于解决现有语义知识库构建周期长、成本高、语义知识表达不够充分的问题,通过充分挖掘并表征词典中描述的语义知识,充分利用词典的规范释义模式来实现知识获取方法,使用户能灵活、快捷地从词典中构建包含丰富语义的知识库。
为了实现所述的目的,作为本发明的一个方面,本发明提出了一种基于词典的语义知识库的构建方法,包括如下步骤:
步骤S1:构建知识数据库,所述知识数据库包括四个数据表:义项表、义项属性知识表、义项关系知识表和义项搭配知识表;其中,所述义项表包括三个字段:领域名称、带检索词、义项;所述义项属性知识表包括三个字段:义项、属性名称和属性值;所述义项关系知识表包括三个字段:义项、关系名称和关系值;所述义项搭配知识表包括三个字段:义项、搭配名称和搭配值;
步骤S2:根据语义知识提取规则提取义项释义的语义知识;
步骤S3:对所述提取的语义知识进行义项映射;
步骤S4:提取所述义项剩余释义的语义知识。
其中,步骤S2中所述提取义项释义的语义知识的步骤是通过依次分析由主释义、补充释义和例句的语义特征组成的词典义项释义,构建知识提取规则实现的。
其中,步骤S2中所述提取义项释义的语义知识的步骤包括:
步骤S201:判断输入的词典义项是否为并列释义结构,如果不是则直接对词典义项中的释义执行步骤S202;如果是则分离并列释义,得到若干个分释义,然后对每个分释义再执行步骤S202;
步骤S202:判断输入的释义是否含有例句,如果没有则直接执行步骤S203;如果有则分离释义和例句,对分离后的释义执行步骤S203,对分离后的例句执行步骤S206;
步骤S203:判断输入的释义是否含有补充释义,如果没有则直接执行步骤S204;如果有则分离补充释义和主释义,对分离后的主释义执行步骤S204,对分离后的补充释义执行步骤S205;
步骤S204:根据主释义语义知识提取规则从输入的主释义中提取出相应的语义知识;
步骤S205:根据补充释义语义知识提取规则从输入的补充释义中提取出相应的语义知识;
步骤S206:对输入的例句进行分词,去停用词处理,得到的词语集作为例句词语搭配知识;
步骤S207:对用户输入的义项释义,删除由步骤S204、步骤S205和步骤S206处理过程中涉及到的部分释义,得到剩余释义;剩余释义连同步骤S204、步骤S205和步骤S206提取到的知识一齐输出。
其中,步骤S204中所述的主释义语义知识提取规则共包含12条产生式规则:
R204-1:IF主释义中含有“旧指”、“旧时指”字样THEN提取时代属性“旧称”;
R204-2:IF主释义中含有“比喻”字样AND“比喻”在主释义的开头或者“比喻”前面是标点符号THEN提取修辞属性“比喻”;
R204-3:IF主释义含有“<方>”字样THEN提取语言属性“方言”;
R204-4:IF主释义含有“<书>”字样THEN提取语言属性“书面语”;
R204-5:IF主释义含有“<口>”字样THEN提取语言属性“口语”;
R204-6:IF主释义含有“上指”或“中指”字样AND“上指”或“中指”前面是词语或并列词语THEN这些作为领域属性知识;
R204-7:IF主释义含有“同”字样AND“同”后面是用双引号引起来的词语THEN提取双引号引起来的词语作为同义关系知识;
R204-8:IF主释义含有“也叫”字样AND“也叫”后面接有词语THEN提取释义中“也叫”后面的词语作为同义关系知识;
R204-9:IF主释义含有“的旧称”字样AND“的旧称”前面有词语THEN提取“的旧称”前面的词语作为同义关系知识;
R204-10:IF主释义含有“一种”或“的一种”字样AND“一种”或“的一种”前面有词语THEN提取“一种”后面或“的一种”前面的词语作为上位关系知识;
R204-11:IF主释义为“不”后加词语THEN提取“不”后面的词语作为反义关系知识;
R204-12:IF主释义为单个词语THEN提取此词语作为近义关系知识。
其中,步骤S205中所述的补充释义语义知识提取规则共包含14条产生式规则:
R205-1:IF补充释义含有“见于”或“语出”字样AND“见于”或“语出”后面是用书名号引起来的词语THEN提取书名引起来的词语作为出处属性知识;
R205-2:IF补充释义含有“在”字样AND“在”后面是一个词语再加“方面”字样THEN提取“在”后面的词语作为领域属性知识;
R205-3:IF补充释义含有“区别于”字样AND“区别于”后面是一个双引号引起来的词语THEN提取“跟”后面用双引号引起来的词语作为反义关系知识;
R205-4:IF补充释义含有“跟”字样AND“跟”后面是一个双引号引起来的词语再加“相对”字样THEN提取“跟”后面用双引号引起来的词语作为反义关系知识;
R205-5:IF补充释义含有“多用于反问”字样THEN提取“反问”作为语用属性知识。如词语“像话”的补充释义“多用于反问”,提取到其语用属性为“反问”;
R205-6:IF补充释义含有“多用于否定”或“多用于否定式”字样THEN提取“否定”作为语用属性知识;
R205-7:IF补充释义含有“含”字样AND“含”后面是一个词语再加“意”字样THEN提取“含”后面的词语作为情感属性知识;
R205-8:IF补充释义含有“多用于贬义”字样THEN提取“贬义”作为情感属性知识;
R205-9:IF补充释义含有“多表示满意”字样THEN提取“满意”作为情感属性知识;
R205-10:IF补充释义含有“多用于自谦”或“常用来表示自谦”字样THEN提取“自谦”作为情感属性知识;
R205-11:IF补充释义含有“常与”字样AND“常与”后面是一个双引号引起来的词语再加“连用”字样THEN提取“常与”后面用双引号引起来的词语作为连用词语搭配知识;
R205-12:IF补充释义的开头是“多指”或“常指”字样AND“多指”或“常指”接有词语或并列词语THEN提取“这些词语作为主体搭配知识;
R205-13:IF补充释义含有“多用来形容”字样AND“多用来形容”后面接有词语或并列词语THEN提取这些词语作为主体搭配知识;
R205-14:IF补充释义为单个词语或并列词语THEN提取这些词语作为主体搭配知识。
其中,步骤S3中所述的对语义知识进行义项映射的步骤包括:对在步骤S2中通过规则R204-6到R204-12、R205-2到R205-4、R205-7、R205-11到R205-14和通过步骤S206提取到的词语进行义项的映射,映射后的义项用词语加义项号表示;而对于用其他规则提取到的固定的词语,其义项号由用户预先制定好;以及
义项映射算法的输入为词语w和用户输入义项M及其词性p,输出为词语w的其中一个义项,处理步骤如下:
步骤S301:查询词语w的义项,得到K个义项:M1-MK,判断K是否大于1,如果不是则直接输出M1,如果是则执行步骤S302;
步骤S302:判断提取w用到的规则R是否是R204-7到R204-12、R205-3、R205-4中的某一个,如果是则查询词语w的词性为p的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S303;
步骤S303:判断提取w用到的规则R是否是R204-6、R205-12到R205-14中的某一个,如果是则查询词语w的词性为名词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S304;
步骤S304:判断提取w用到的规则R是否是R205-7,如果是则查询词语w的词性为形容词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S308;
步骤S305:判断L是否等于1,如果是则直接输出义项M1;如果不是则执行步骤S306;
步骤S306:判断L是否等于0,如果是则执行步骤S308;如果不是则执行步骤S307;
步骤S307:分别计算所述L个义项与用户输入义项M的语义距离;提取所述L个义项中与用户输入义项语义距离最小的义项作为Mmin。;
步骤S308:分别计算词语w的K个义项与用户输入义项的语义距离,提取所述K个义项中与用户输入义项语义距离最小的义项作为Mmin。
其中,步骤S4中所述提取剩余义项释义语义知识的步骤是通过在知识管理平台上编辑义项剩余释义的语义知识来实现的;所述语义知识管理平台由四部分组成:义项上下位关系知识编辑区域、义项同义反义近义关系知识编辑区域、义项属性知识编辑区域和义项搭配知识编辑区域,所述四部分知识标记区域分别对应语义知识库的上下位知识、同义反义近义关系知识、属性知识和搭配知识。
其中,步骤S307中所述语义距离的计算算法的输入为两个义项M1和M2,输出为两义项间的语义距离S,两义项间语义相似度计算公式为:
S=max{S12,S21};
其中,S12是以义项M1的知识为查询对象计算得到的语义相似度;S21是以义项M2的知识为查询对象计算得到的语义相似度;H是设定的查询深度,N1(i)是当查询深度为i时,义项M1查询到的知识的关键词个数,N12(i)为这N1(i)个关键词中包含义项M2或M2的词语的个数;同理,N2(i)是当查询深度为j时,义项M2查询到的知识的关键词个数,N21(i)为这N2(i)个关键词中包含义项M1或M1的词语的个数;以及
所述语义距离计算的具体过程为:
步骤S307-1:初始化,设定扩展查询最大深度为H,i=1、j=1,语义相似度S1=0、S2=0、S=0;提取输入义项M1和M2的知识的关键词集合,分别得到N1(1)和N2(1)个关键词集K1和K2;
步骤S307-2:查询K1中是否包含M2或其词语,如果包含则记录包含次数N12(1),代入语义相似度计算公式S12=N12(1)/N1(1);如果不包含则执行步骤S307-3;
步骤S307-3:判断i是否小于或等于H,如果小于或等于则提取第i-1层查询时N12(i-1)个关键词的所有知识关键词,得到N12(i)个新的知识关键词,同时i增1,然后执行步骤S307-4;如果大于则执行步骤S307-8;
步骤S307-4:查询N12(i)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N12(i),代入语义相似度计算公式S12=S12+N12(i)/N1(i);如果不包含则执行步骤S307-3;
步骤S307-5:查询K2中是否包含M1或其词语,如果包含则记录包含次数N21(1),代入语义相似度计算公式S21=N21(1)/N2(1);如果不包含则执行步骤S307-6;
步骤S307-6:判断j是否小于或等于H,如果小于或等于则提取第j-1层查询时N21(j-1)个关键词的所有知识关键词,得到N21(j)个新的知识关键词,同时j增1,然后执行步骤S307-7;如果大于则执行步骤S307-8;
步骤S307-7:查询N21(j)个新的知识关键词是否包含M1或其词语,如果包含则记录包含次数N21(j),代入语义相似度计算公式S21=S21+N21(j)/N2(j);如果不包含则执行步骤S307-5;
步骤S307-8:计算并输出最后的语义相似度值:S=max{S12,S21}。
作为本发明的另一个方面,本发明还提供了一种语义知识库的检索系统,包括:
输入装置,用于输入待检索词;
检索装置,用于从语义知识库中检索所述输入装置输入的待检索词,输出其对应义项的语义;以及
语义知识库,所述语义知识库通过如上任意一项所述的基于词典的语义知识库的构建方法进行构建和维护。
作为本发明的再一个方面,本发明还提供了一种计算两个义项的语义距离的方法,其中所述方法的输入为两个义项M1和M2,输出为两义项间的语义距离S,两义项间语义相似度计算公式为:
S=max{S12,S21};
其中,S12是以义项M1的知识为查询对象计算得到的语义相似度;S21是以义项M2的知识为查询对象计算得到的语义相似度;H是设定的查询深度,N1(i)是当查询深度为i时,义项M1查询到的知识的关键词个数,N12(i)为这N1(i)个关键词中包含义项M2或M2的词语的个数;同理,N2(i)是当查询深度为j时,义项M2查询到的知识的关键词个数,N21(i)为这N2(i)个关键词中包含义项M1或M1的词语的个数;以及
所述语义距离计算的具体过程为:
步骤S307-1:初始化,设定扩展查询最大深度为H,i=1、j=1,语义相似度S1=0、S2=0、S=0;提取输入义项M1和M2的知识的关键词集合,分别得到N1(1)和N2(1)个关键词集K1和K2;
步骤S307-2:查询K1中是否包含M2或其词语,如果包含则记录包含次数N12(1),代入语义相似度计算公式S12=N12(1)/N1(1);如果不包含则执行步骤S307-3;
步骤S307-3:判断i是否小于或等于H,如果小于或等于则提取第i-1层查询时N12(i-1)个关键词的所有知识关键词,得到N12(i)个新的知识关键词,同时i增1,然后执行步骤S307-4;如果大于则执行步骤S307-8;
步骤S307-4:查询N12(i)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N12(i),代入语义相似度计算公式S12=S12+N12(i)/N1(i);如果不包含则执行步骤S307-3;
步骤S307-5:查询K2中是否包含M1或其词语,如果包含则记录包含次数N21(1),代入语义相似度计算公式S21=N21(1)/N2(1);如果不包含则执行步骤S307-6;
步骤S307-6:判断j是否小于或等于H,如果小于或等于则提取第j-1层查询时N21(j-1)个关键词的所有知识关键词,得到N21(j)个新的知识关键词,同时j增1,然后执行步骤S307-7;如果大于则执行步骤S307-8;
步骤S307-7:查询N21(j)个新的知识关键词是否包含M1或其词语,如果包含则记录包含次数N21(j),代入语义相似度计算公式S21=S21+N21(j)/N2(j);如果不包含则执行步骤S307-5;
步骤S307-8:计算并输出最后的语义相似度值:S=max{S12,S21}。
基于上述技术方案可知,本发明公开了一种基于词典的语义知识库构建方法,用词典语义知识表示模型来表示词典中丰富的语义知识,通过分析词典规范释义模式的语义特征来获取语义知识,以知识为底层数据搭建知识管理平台。本发明具有快速构建、语识表达充分、语义知识组织灵活的特点,体现出了特色和创新。使用本发明提供的方法,能够针对具体的自然语言处理任务,快速、准确、全面地构建基本语义知识库或领域语义知识库;同时为语义信息处理提供了一种深层语义知识的表示方法和语义相似度的计算方法。本发明在自然语言处理领域具有广泛的应用价值,如在信息检索领域,快速构建领域知识库,通过扩展查询词语的属性知识、关系知识和搭配知识实现基于语义而非关键词的检索,并利用语义相似度算法得到结果的顺序列表,从而得到更贴近用户需求的深层语义检索结果。
附图说明
图1是本发明的语义知识库的构建方法的流程图;
图2是本发明中词典语义知识表示模型的示意图;
图3是本发明中基于词典释义模式的知识提取算法的流程图;
图4是本发明中义项映射算法的流程图;
图5是本发明中语义相似度计算算法的流程图;
图6是本发明中语义知识管理的系统架构图;
图7是本发明一个具体实施例的知识管理平台的界面示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图,系统地对本发明如何表达词典语义知识,如何利用词典释义模式自动获取语义知识,以及如何实现手动知识管理做出说明。应该指出的是,本部分所描述的过程仅仅说明本发明在某一个应用中的使用情况,是为了更加清楚的认识和了解本发明,而不是限制本发明。
本发明使用的方法既可以在个人计算机、工控机及服务器上以软件的形式安装并执行,也可将本发明的方法做成嵌入式芯片以硬件的形式来体现。运行本发明的程序可以使用多种编程语言实现。如C、C++、C#、PYTHON和JAVA等。根据选取词典的大小,承载的计算机设备可以是普通PC机,也可以是更高级的服务器。
本发明基于词典语义知识模型,充分挖掘并表征词典中描述的语义知识,充分利用词典的规范释义模式来建设知识获取方法,灵活、快捷地从词典中构建包含丰富语义的知识库。其中,所述词典语义知识模型如图2所示,是以词典义项为知识表示单元,包含了词典义项的关系知识、属性知识和搭配知识。具体地,词典语义知识表示模型由三部分组成,分别是义项主释义语义知识、义项补充释义语义知识和义项例句语义知识。所述义项主释义语义知识包括上下位关系、同义关系、近义关系、反义关系等关系知识,时代属性、修辞属性、语言属性等属性知识和例句词语搭配知识;所述义项补充释义语义知识包括反义关系知识,出处属性、情感属性、语用属性等属性知识和主体搭配、词语搭配等搭配知识;所述义项例句语义知识包括例句词语搭配知识。特别地,所述具有上下位关系的义项之间具有属性知识继承的特征。
本发明的方法流程图如图1所示,一种基于词典的语义知识库的构建方法包括如下步骤:
步骤S1:构建基于词典语义知识表示模型的知识数据库;
步骤S2:根据语义知识提取规则提取义项释义的语义知识;
步骤S3:实现所述提取语义知识的义项映射;
步骤S4:提取所述义项剩余释义的语义知识;
其中,步骤S1中,知识数据库中主要包括四个数据表:义项表、义项属性知识表、义项关系知识表和义项搭配知识表。具体地,所述义项表包括三个字段:领域名称、带检索词、义项;所述义项属性知识表包括三个字段:义项、属性名称(时代、修辞、语言、出处、情感、语用)和属性值;所述义项关系知识表包括三个字段:义项、关系名称(上位、下位、同义、近义、反义)和关系值;所述义项搭配知识表包括三个字段:义项、搭配名称(主体、连用词语、例句词语)和搭配值。
步骤S2中,所述义项释义语义知识的提取是通过依次分析词典义项释义的三个组成部分(主释义、补充释义和例句)的语义特征,构建知识提取规则实现的。其算法流程图如图3所示,输入为词典义项,输出为关系知识、属性知识和搭配知识。语义知识提取的具体过程为:
步骤S201:判断输入的词典义项是否为并列释义结构,如果不是则直接对词典义项中的释义执行步骤S202;如果是则分离并列释义,得到若干个分释义,然后对每个分释义再执行步骤S202。如《现代汉语词典》第五版中“暧昧”的第一个义项释义:“①(态度、用意)含糊;不明白:态度~。”,以分号隔开“(态度、用意)含糊:态度~。”和“不明白:态度~。”两个并列释义。
步骤S202:判断输入的释义是否含有例句,如果没有则直接执行步骤S203;如果有则分离释义和例句,对分离后的释义执行步骤S203,对分离后的例句执行步骤S206。如“暧昧”的一个分释义:“(态度、用意)含糊:态度~。”,以冒号分隔释义和例句,分离后得到例句“态度~。”和释义“(态度、用意)含糊”。
步骤S203:判断输入的释义是否含有补充释义,如果没有则直接转入步骤S204;如果有则分离补充释义和主释义,对分离后的主释义执行步骤S204,对分离后的补充释义执行步骤S205。如“暧昧”的一个去除例句后的分释义:“(态度、用意)含糊”,以括弧分隔补充释义和主释义,分离后的主释义为:“含糊”,补充释义为:“态度、用意”。
步骤S204:根据主释义语义知识提取规则,从输入的主释义中提取出相应的语义知识。规则库中共包含12条产生式规则:
R204-1:IF主释义中含有“旧指”、“旧时指”字样THEN提取时代属性“旧称”。如词语“卑贱”的唯一义项释义“旧时指出身或地位低下”。
R204-2:IF主释义中含有“比喻”字样AND“比喻”在主释义的开头或者“比喻”前面是标点符号THEN提取修辞属性“比喻”。如词语“并茂”的唯一义项释义“比喻密切相关的两种事物都很优美”。
R204-3:IF主释义含有“<方>”字样THEN提取语言属性“方言”。如词语“爱小”的唯一义项释义“<方>好占小便宜”。
R204-4:IF主释义含有“<书>”字样THEN提取语言属性“书面语”。如词语“哀艳”的唯一义项释义“<书>形容文辞凄切而华丽”。
R204-5:IF主释义含有“<口>”字样THEN提取语言属性“口语”。如词语“八字没一撇”的唯一义项释义“<口>比喻事情还没有眉目”。
R204-6:IF主释义含有“上指”或“中指”字样AND“上指”或“中指”前面是词语或并列词语THEN这些作为领域属性知识。如词语“白体”的唯一义项释义“排版、印刷上指一种笔画较细的字体,如老宋体等(区别于“黑体”)。”,提取到其领域属性为“排版”、“印刷”;再如词语“天兵”的第一个义项释义“神话中指天神的兵”,提取到具领域属性为“神话”。
R204-7:IF主释义含有“同”字样AND“同”后面是用双引号引起来的词语THEN提取双引号引起来的词语作为同义关系知识。如词语“亭亭”的第二个义项释义“同“婷婷”。”,提取到其同义词为“婷婷”。
R204-8:IF主释义含有“也叫”字样AND“也叫”后面接有词语THEN提取释义中“也叫”后面的词语作为同义关系知识。如词语“暗沟”的唯一义项释义“不露出地面的排水沟。也叫阴沟。”,提取到其同义词为“阴沟”。
R204-9:IF主释义含有“的旧称”字样AND“的旧称”前面有词语THEN提取“的旧称”前面的词语作为同义关系知识。如词语“碳酸气”的唯一义项释义“二氧化碳的旧称。”,提取到其同义词为“二氧化碳”。
R204-10:IF主释义含有“一种”或“的一种”字样AND“一种”或“的一种”前面有词语THEN提取“一种”后面或“的一种”前面的词语作为上位关系知识。如词语“凹透镜”的唯一义项释义为“透镜的一种,中央比四周薄,平行光线透过后向四外散射。近视眼镜的镜片就属于这个类型。”,提取到其上位词为“透镜”;再如词语“拔河”的唯一义项释义“一种体育运动,人数相等的两队队员,分别握住长绳两端,向相反方向用力拉绳,把绳上系着标志的一点拉过规定界线为胜。”,提取到其上位词为“体育运动”。
R204-11:IF主释义为“不”后加词语THEN提取“不”后面的词语作为反义关系知识。如词语“土气”的第二个义项释义“不时髦”,提取到其反义词为“时髦”。
R204-12:IF主释义为单个词语THEN提取此词语作为近义关系知识。如词语“淘气”的第一个义项释义“顽皮”,提取到其近义词为“顽皮”。
步骤S205:根据补充释义语义知识提取规则,从输入的补充释义中提取出相应的语义知识。规则库中共包含14条产生式规则:
R205-1:IF补充释义含有“见于”或“语出”字样AND“见于”或“语出”后面是用书名号引起来的词语THEN提取书名引起来的词语作为出处属性知识。如词语“朝三暮四”的补允释义“见于《庄子·齐物论》”,提取到其出处属性为“庄子·齐物论”;再如词语“首鼠两端”的补充释义“语出《史记·魏其武安侯列传》”,提取到其出处属性为“史记·魏其武安侯列传”。
R205-2:IF补充释义含有“在”字样AND“在”后面是一个词语再加“方面”字样THEN提取“在”后面的词语作为领域属性知识。如词语“遗憾”的补充释义“在外交方面常用来表示不满和抗议”,提取到其领域属性为“外交”。
R205-3:IF补充释义含有“区别于”字样AND“区别于”后面是一个双引号引起来的词语THEN提取“跟”后面用双引号引起来的词语作为反义关系知识。如词语“人工”的补充释义“区别于“自然””,提取到其反义词为“自然”。
R205-4:IF补充释义含有“跟”字样AND“跟”后面是一个双引号引起来的词语再加“相对”字样THEN提取“跟”后面用双引号引起来的词语作为反义关系知识。如词语“繁”的补充释义“跟“简”相对”,提取到其反义词为“简”。
R205-5:IF补充释义含有“多用于反问”字样THEN提取“反问”作为语用属性知识。如词语“像话”的补充释义“多用于反问”,提取到其语用属性为“反问”。
R205-6:IF补充释义含有“多用于否定”或“多用于否定式”字样THEN提取“否定”作为语用属性知识。如词语“对味儿”的补充释义“多用于否定式”,提取到其语用属性为“否定”。
R205-7:IF补充释义含有“含”字样AND“含”后面是一个词语再加“意”字样THEN提取“含”后面的词语作为情感属性知识。如词语“滑溜”的补充释义“含喜爱意”,提取到其情感属性为“喜爱”。
R205-8:IF补充释义含有“多用于贬义”字样THEN提取“贬义”作为情感属性知识。如词语“胆大包天”的补充释义“多用于贬义”,提取到其情感属性为“贬义”。
R205-9:IF补充释义含有“多表示满意”字样THEN提取“满意”作为情感属性知识。如词语“热和”的补允释义“多表示满意”,提取到其情感属性为“满意”。
R205-10:IF补充释义含有“多用于自谦”或“常用来表示自谦”字样THEN提取“自谦”作为情感属性知识。如词语“不敏”的补充释义“常用来表示自谦”,提取到其情感属性为“自谦”。
R205-11:IF补充释义含有“常与”字样AND“常与”后面是一个双引号引起来的词语再加“连用”字样THEN提取“常与”后面用双引号引起来的词语作为连用词语搭配知识。如词语“活泛”的补充释义“常与“手头”连用”,提取到其反义词为“手头”。
R205-12:IF补充释义的开头是“多指”或“常指”字样AND“多指”或“常指”接有词语或并列词语THEN提取“这些词语作为主体搭配知识。如词语“安生”的补充释义“多指小孩子”,提取到其主体搭配为“小孩子”。
R205-13:IF补充释义含有“多用来形容”字样AND“多用来形容”后面接有词语或并列词语THEN提取这些词语作为主体搭配知识。如词语“凄凉”的补充释义“多用来形容环境或景物”,提取到其主体搭配为“环境”,“景物”。
R205-14:IF补充释义为单个词语或并列词语THEN提取这些词语作为主体搭配知识。如词语“区区”的补充释义“人或事物”,提取到其主体搭配为“人”、“事物”。
步骤S206:对输入的例句进行分词,去停用词处理,得到的词语集作为例句词语搭配知识。
步骤S207:对用户输入的义项释义,删除由步骤S204、步骤S205和步骤S206处理过程中涉及到的部分释义,得到剩余释义;剩余释义连同步骤S204、步骤S205和步骤S206提取到的知识一齐输出。如词语“八字没一撇”的用户输入释义为“:<口>比喻事情还没有眉目”,通过步骤S201至S206的处理后,删除了部分释义“<口>比喻”,得到剩余释义:“事情还没有眉目”。因此输出的知识有语言属性(口语)和修辞属性(比喻),输出的剩余释义是“事情还没有眉目”。
步骤S3中,所述语义知识的义项映射指的是,对在步骤S2中通过规则R204-6到R204-12、R205-2到R205-4,R205-7、R205-11到R205-14和通过步骤S206提取到的词语进行义项的映射。映射后的义项用词语加义项号表示,如词语“凄凉”映射到其第一个义项,表示为:“凄凉_1”。
而对于用其他规则提取到的固定的词语,如“比喻”,其义项号是预先由用户制定好的,如,在《现代汉语词典》第五版中,“比喻”应设定为其第一个义项,表示为:“比喻_1”。自动义项映射算法流程图如图4所示,输入为词语w和用户输入义项M及其词性p,输出为词语w的其中一个义项。例如,用户输入义项M为“凄凉_1”,其词性p是形容词,w为“环境”,是根据规则R205-13提取到的知识,其义项映射的具体过程为:
步骤S301:查询词语w的义项,得到K个义项:M1-MK,判断K是否大于1,如果不是则直接输出M1,如果是则执行步骤S302;如词语“环境”有两个义项:“①周围的地方:~优美|~卫生。②周围的情况和条件:客观~|工作~。”,K等于2,执行步骤S302。
步骤S302:判断提取w用到的规则R是否是R204-7到R204-12、R205-3、R205-4中的某一个,如果是则查询词语w的词性为p的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S303。词语“环境”是通过规则R205-13提取到的,执行步骤S303。
步骤S303:判断提取w用到的规则R是否是R204-6、R205-12到R205-14中的某一个,如果是则查询词语w的词性为名词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S304。词语“环境”是通过规则R205-13提取到的,查询其词性为名词的义项,发现其两个义项都是名词,得到两个义项:“①周围的地方:~优美|~卫生。②周围的情况和条件:客观~|工作~。”,L等于2,执行步骤S305。
步骤S304:判断提取w用到的规则R是否是R205-7,如果是则查询词语w的词性为形容词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S308。
步骤S305:判断L是否等于1,如果是则直接输出义项M1;如果不是则执行步骤S306。L等于2,执行步骤S306。
步骤S306:判断L是否等于0,如果是则执行步骤S308;如果不是则执行步骤S307。L等于2,执行步骤S307。
步骤S307:分别计算这L个义项与用户输入义项M的语义距离;提取这L个义项中与用户输入义项语义距离最小的义项作为Mmin。其中,所述语义距离计算的算法流程图如图5所示,输入为两个义项M1和M2,输出为两义项间的语义距离S,两义项间语义相似度计算公式为:
S=max{S12,S21}
其中,S12是以义项M1的知识为查询对象计算得到的语义相似度;S21是以义项M2的知识为查询对象计算得到的语义相似度;H是设定的查询深度,N1(i)是当查询深度为i时,义项M1查询到的知识的关键词个数,N12(i)为这N1(i)个关键词中包含义项M2或M2的词语的个数;同理,N2(i)是当查询深度为j时,义项M2查询到的知识的关键词个数,N21(i)为这N2(i)个关键词中包含义项M1或M1的词语的个数。以输入义项M1为上例中的词语“环境”的第一个义项“环境_1:周围的地方:~优美|~卫生”,输入义项M2为上例中的用户输入义项“凄凉_1:寂寞冷落(多用来形容环境或景物):残垣断壁,一片~。”为例,语义距离计算的具体过程为:
步骤S307-1:初始化:设定扩展查询最大深度为H,i=1、j=1,语义相似度S1=0、S2=0、S=0;提取输入义项M1和M2的知识的关键词集合,分别得到N1(1)和N2(1)个关键词集K1和K2。例如设定H=3,提取M1和M2的知识的关键词集合K1和K2分别为{“周围”,“地方”,“优美”,“卫生”}、{“寂寞”,“冷落”,“环境”,“景物”},N1(1)=4,N2(1)=5。
步骤S307-2:查询K1中是否包含M2或其词语?如果包含则记录包含次数N12(1),代入语义相似度计算公式S12=N12(1)/N1(1);如果不包含则执行步骤S307-3。计算得S12=0。
步骤S307-3:判断i是否小于或等于H,如果小于或等于则提取第i-1层查询时N12(i-1)个关键词的所有知识关键词,得到N12(i)个新的知识关键词,同时i增1,然后执行步骤S307-4;如果大于则执行步骤S307-8。如对“周围”进行第二层知识扩展,得其词语集合为{“环绕”,“中心”,“部分”,“地区”,“屋子”,“群众”},同样地,依次抽取“地方”,“优美”,“卫生”的知识词语,合并得到新的词语集合为{“环绕”,“中心”,“部分”,“地区”,“屋子”,“群众”,“区域”,“部位”,“空间”,“中央”,“什么”,“人”,“风景”,“姿态”,......}。
步骤S307-4:查询N12(i)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N12(i),代入语义相似度计算公式S12=S12+N12(i)/N1(i);如果不包含则执行步骤S307-3。例如,最终计算得S12=0。
步骤S307-5:查询K2中是否包含M1或其词语,如果包含则记录包含次数N21(1),代入语义相似度计算公式S21=N21(1)/N2(1);如果不包含则执行步骤S307-6。例如,计算得S21=1/1*1/5=0.25。
步骤S307-6:判断j是否小于或等于H,如果小于或等于则提取第j-1层查询时N21(j-1)个关键词的所有知识关键词,得到N21(j)个新的知识关键词,同时j增1,然后执行步骤S307-7;如果大于则执行步骤S307-8。如对“寂寞”进行第二层知识扩展,得其词语集合为{“孤单”,“冷清”,“剩下”,“家里”,“真是”,“清净”,“寂静”,“原野”},同样地,依次抽取“冷落”,“环境”,“景物”的知识词语,合并得到新的词语集合为{“孤单”,“冷清”,“剩下”,“家里”,“真是”,“清净”,“寂静”,“原野”,“”,“”,“”,“”,“”,“”,“”,......}。
步骤S307-7:查询N21(j)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N21(j),代入语义相似度计算公式S21=S21+N21(j)/N2(j);如果不包含则执行步骤S307-5。例如,最终计算得S21=1/1*1/5+1/3*1/54=0.256。
步骤S307-8:计算并输出最后的语义相似度值:S=max{S12,S21}。例如,S=max{0,0.256}=0.256。
通过计算,词语“环境”的两个义项“①周围的地方:~优美|~卫生。②周围的情况和条件:客观~|工作~。”与用户输入义项“凄凉_1”的语义相似度分别是0.256和0.261。因此Mmin为“环境_2”。
步骤S308:分别计算词语w的K个义项与用户输入义项的语义距离,语义距离计算如步骤S307所述;提取这K个义项中与用户输入义项语义距离最小的义项作为Mmin。
步骤S4中,所述剩余义项释义语义知识的提取是通过在知识管理平台上编辑义项剩余释义的语义知识实现的。其系统框架图如图5所示,语义知识管理平台由四部分组成:义项上下位关系知识编辑区域、义项同义反义近义关系知识编辑区域、义项属性知识编辑区域和义项搭配知识编辑区域。这四部分知识标记区域分别对应语义知识库的上下位知识、同义反义近义关系知识、属性知识和搭配知识。
此外,本发明还提供了一种由此方法构建的语义知识库的检索系统,包括:
输入装置,用于输入待检索词;
检索装置,用于从语义知识库中检索所述输入装置输入的待检索词,输出其对应义项的语义;以及
语义知识库,所述语义知识库通过如上所述的基于词典的语义知识库的构建方法来进行构建和维护。
其中,所述输入装置和检索装置均可以采用本领域公知的方法来实现。
下面介绍一个实现本发明的具体实施例。
为了更好的说明本发明,特列举一个实现本发明的具体实施例的系统,应该注意的是,本例子仅仅是为了更加充分地说明本发明而不是对本发明的限制。
如图7所示,是本发明的一个具体实施例的知识管理平台的界面示意图,如图中所示,该实施例的知识管理平台主要由三个编辑区域组成:区域A为义项上下位关系知识编辑区域;区域B为义项属性知识和搭配的共同编辑区域;区域C为义项同义近义反义关系知识编辑区域。这三个编辑区域既可以通过自动语义知识提取算法来自动编辑,也可以手动编辑。
具体地,区域A以树的形式把义项的上下位关系层级组织起来。例如,义项“狗_1:一种哺乳动物,也叫犬,种类很多,听觉嗅觉都很敏锐,善于看守门户,有的可以训练成军犬、警犬:看门~”,提取到其上位词为“哺乳动物”,通过算法编辑到树节点“哺乳动物”的下一级节点中。
区域B实现了区域A中选中义项的属性知识和搭配知识的编辑。例如,通过语义知识提取算法得到“狗_1”的例句词语搭配为义项“看门_1”;编辑“狗_1”的擅长属性“看守_1、门户_1”、用途属性“军犬_1、警犬_1”。
区域C实现了区域A中选中义项的同义近义反义关系知识和搭配知识的编辑。例如,通过语义知识提取算法得到“狗_1”的同义词为义项“犬_1”。
该实施例的语义知识提取算法的输入T为一段文本,为输入义项m的义项释义,输出为以义项集形式表示的语义知识{s_w}。算法伪代码如下:
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于词典的语义知识库的构建方法,包括如下步骤:
步骤S1:构建知识数据库,所述知识数据库包括四个数据表:义项表、义项属性知识表、义项关系知识表和义项搭配知识表;其中,所述义项表包括三个字段:领域名称、带检索词、义项;所述义项属性知识表包括三个字段:义项、属性名称和属性值;所述义项关系知识表包括三个字段:义项、关系名称和关系值;所述义项搭配知识表包括三个字段:义项、搭配名称和搭配值;
步骤S2:根据语义知识提取规则提取义项释义的语义知识;
步骤S3:对所述提取的语义知识进行义项映射;
步骤S4:提取所述义项剩余释义的语义知识。
2.如权利要求1所述基于词典的语义知识库的构建方法,其特征在于,步骤S2中所述提取义项释义的语义知识的步骤是通过依次分析由主释义、补充释义和例句的语义特征组成的词典义项释义,构建知识提取规则实现的。
3.如权利要求2所述的基于词典的语义知识库的构建方法,其特征在于,步骤S2中所述提取义项释义的语义知识的步骤包括:
步骤S201:判断输入的词典义项是否为并列释义结构,如果不是则直接对词典义项中的释义执行步骤S202;如果是则分离并列释义,得到若干个分释义,然后对每个分释义再执行步骤S202;
步骤S202:判断输入的释义是否含有例句,如果没有则直接执行步骤S203;如果有则分离释义和例句,对分离后的释义执行步骤S203,对分离后的例句执行步骤S206;
步骤S203:判断输入的释义是否含有补充释义,如果没有则直接执行步骤S204;如果有则分离补充释义和主释义,对分离后的主释义执行步骤S204,对分离后的补充释义执行步骤S205;
步骤S204:根据主释义语义知识提取规则从输入的主释义中提取出相应的语义知识;
步骤S205:根据补充释义语义知识提取规则从输入的补充释义中提取出相应的语义知识;
步骤S206:对输入的例句进行分词,去停用词处理,得到的词语集作为例句词语搭配知识;
步骤S207:对用户输入的义项释义,删除由步骤S204、步骤S205和步骤S206处理过程中涉及到的部分释义,得到剩余释义;剩余释义连同步骤S204、步骤S205和步骤S206提取到的知识一齐输出。
4.如权利要求3所述的基于词典的语义知识库的构建方法,其特征在于,步骤S204中所述的主释义语义知识提取规则共包含12条产生式规则:
R204-1:IF主释义中含有“旧指”、“旧时指”字样THEN提取时代属性“旧称”;
R204-2:IF主释义中含有“比喻”字样AND“比喻”在主释义的开头或者“比喻”前面是标点符号THEN提取修辞属性“比喻”;
R204-3:IF主释义含有“<方>”字样THEN提取语言属性“方言”;
R204-4:IF主释义含有“<书>”字样THEN提取语言属性“书面语”;
R204-5:IF主释义含有“<口>”字样THEN提取语言属性“口语”;
R204-6:IF主释义含有“上指”或“中指”字样AND“上指”或“中指”前面是词语或并列词语THEN这些作为领域属性知识;
R204-7:IF主释义含有“同”字样AND“同”后面是用双引号引起来的词语THEN提取双引号引起来的词语作为同义关系知识;
R204-8:IF主释义含有“也叫”字样AND“也叫”后面接有词语THEN提取释义中“也叫”后面的词语作为同义关系知识;
R204-9:IF主释义含有“的旧称”字样AND“的旧称”前面有词语THEN提取“的旧称”前面的词语作为同义关系知识;
R204-10:IF主释义含有“一种”或“的一种”字样AND“一种”或“的一种”前面有词语THEN提取“一种”后面或“的一种”前面的词语作为上位关系知识;
R204-11:IF主释义为“不”后加词语THEN提取“不”后面的词语作为反义关系知识;
R204-12:IF主释义为单个词语THEN提取此词语作为近义关系知识。
5.如权利要求3所述的基于词典的语义知识库的构建方法,其特征在于,步骤S205中所述的补充释义语义知识提取规则共包含14条产生式规则:
R205-1:IF补充释义含有“见于”或“语出”字样AND“见于”或“语出”后面是用书名号引起来的词语THEN提取书名引起来的词语作为出处属性知识;
R205-2:IF补充释义含有“在”字样AND“在”后面是一个词语再加“方面”字样THEN提取“在”后面的词语作为领域属性知识;
R205-3:IF补充释义含有“区别于”字样AND“区别于”后面是一个双引号引起来的词语THEN提取“跟”后面用双引号引起来的词语作为反义关系知识;
R205-4:IF补充释义含有“跟”字样AND“跟”后面是一个双引号引起来的词语再加“相对”字样THEN提取“跟”后面用双引号引起来的词语作为反义关系知识;
R205-5:IF补充释义含有“多用于反问”字样THEN提取“反问”作为语用属性知识。如词语“像话”的补充释义“多用于反问”,提取到其语用属性为“反问”;
R205-6:IF补充释义含有“多用于否定”或“多用于否定式”字样THEN提取“否定”作为语用属性知识;
R205-7:IF补充释义含有“含”字样AND“含”后面是一个词语再加“意”字样THEN提取“含”后面的词语作为情感属性知识;
R205-8:IF补充释义含有“多用于贬义”字样THEN提取“贬义”作为情感属性知识;
R205-9:IF补充释义含有“多表示满意”字样THEN提取“满意”作为情感属性知识;
R205-10:IF补充释义含有“多用于自谦”或“常用来表示自谦”字样THEN提取“自谦”作为情感属性知识;
R205-11:IF补充释义含有“常与”字样AND“常与”后面是一个双引号引起来的词语再加“连用”字样THEN提取“常与”后面用双引号引起来的词语作为连用词语搭配知识;
R205-12:IF补充释义的开头是“多指”或“常指”字样AND“多指”或“常指”接有词语或并列词语THEN提取“这些词语作为主体搭配知识;
R205-13:IF补充释义含有“多用来形容”字样AND“多用来形容”后面接有词语或并列词语THEN提取这些词语作为主体搭配知识;
R205-14:IF补充释义为单个词语或并列词语THEN提取这些词语作为主体搭配知识。
6.如权利要求1所述的基于词典的语义知识库的构建方法,其特征在于,步骤S3中所述的对语义知识进行义项映射的步骤包括:对在步骤S2中通过规则R204-6到R204-12、R205-2到R205-4、R205-7、R205-11到R205-14和通过步骤S206提取到的词语进行义项的映射,映射后的义项用词语加义项号表示;而对于用其他规则提取到的固定的词语,其义项号由用户预先制定好;以及
义项映射算法的输入为词语w和用户输入义项M及其词性p,输出为词语w的其中一个义项,处理步骤如下:
步骤S301:查询词语w的义项,得到K个义项:M1-MK,判断K是否大于1,如果不是则直接输出M1,如果是则执行步骤S302;
步骤S302:判断提取w用到的规则R是否是R204-7到R204-12、R205-3、R205-4中的某一个,如果是则查询词语w的词性为p的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S303;
步骤S303:判断提取w用到的规则R是否是R204-6、R205-12到R205-14中的某一个,如果是则查询词语w的词性为名词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S304;
步骤S304:判断提取w用到的规则R是否是R205-7,如果是则查询词语w的词性为形容词的义项,得到L个义项:M1-ML,然后执行步骤S305;如果不是则执行步骤S308;
步骤S305:判断L是否等于1,如果是则直接输出义项M1;如果不是则执行步骤S306;
步骤S306:判断L是否等于0,如果是则执行步骤S308;如果不是则执行步骤S307;
步骤S307:分别计算所述L个义项与用户输入义项M的语义距离;提取所述L个义项中与用户输入义项语义距离最小的义项作为Mmin。;
步骤S308:分别计算词语w的K个义项与用户输入义项的语义距离,提取所述K个义项中与用户输入义项语义距离最小的义项作为Mmin。
7.如权利要求1所述的基于词典的语义知识库的构建方法,其特征在于,步骤S4中所述提取剩余义项释义语义知识的步骤是通过在知识管理平台上编辑义项剩余释义的语义知识来实现的;所述语义知识管理平台由四部分组成:义项上下位关系知识编辑区域、义项同义反义近义关系知识编辑区域、义项属性知识编辑区域和义项搭配知识编辑区域,所述四部分知识标记区域分别对应语义知识库的上下位知识、同义反义近义关系知识、属性知识和搭配知识。
8.如权利要求6所述的基于词典的语义知识库的构建方法,其特征在于,步骤S307或步骤S308中所述语义距离的计算算法的输入为两个义项M1和M2,输出为两义项间的语义距离S,两义项间语义相似度计算公式为:
S=max{S12,S21};
其中,S12是以义项M1的知识为查询对象计算得到的语义相似度;S21是以义项M2的知识为查询对象计算得到的语义相似度;H是设定的查询深度,N1(i)是当查询深度为i时,义项M1查询到的知识的关键词个数,N12(i)为这N1(i)个关键词中包含义项M2或M2的词语的个数;同理,N2(i)是当查询深度为j时,义项M2查询到的知识的关键词个数,N21(i)为这N2(i)个关键词中包含义项M1或M1的词语的个数;以及
所述语义距离计算的具体过程为:
步骤S307-1:初始化,设定扩展查询最大深度为H,i=1、j=1,语义相似度S1=0、S2=0、S=0;提取输入义项M1和M2的知识的关键词集合,分别得到N1(1)和N2(1)个关键词集K1和K2;
步骤S307-2:查询K1中是否包含M2或其词语,如果包含则记录包含次数N12(1),代入语义相似度计算公式S12=N12(1)/N1(1);如果不包含则执行步骤S307-3;
步骤S307-3:判断i是否小于或等于H,如果小于或等于则提取第i-1层查询时N12(i-1)个关键词的所有知识关键词,得到N12(i)个新的知识关键词,同时i增1,然后执行步骤S307-4;如果大于则执行步骤S307-8;
步骤S307-4:查询N12(i)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N12(i),代入语义相似度计算公式S12=S12+N12(i)/N1(i);如果不包含则执行步骤S307-3;
步骤S307-5:查询K2中是否包含M1或其词语,如果包含则记录包含次数N21(1),代入语义相似度计算公式S21=N21(1)/N2(1);如果不包含则执行步骤S307-6;
步骤S307-6:判断j是否小于或等于H,如果小于或等于则提取第j-1层查询时N21(j-1)个关键词的所有知识关键词,得到N21(j)个新的知识关键词,同时j增1,然后执行步骤S307-7;如果大于则执行步骤S307-8;
步骤S307-7:查询N21(j)个新的知识关键词是否包含M1或其词语,如果包含则记录包含次数N21(j),代入语义相似度计算公式S21=S21+N21(j)/N2(j);如果不包含则执行步骤S307-5;
步骤S307-8:计算并输出最后的语义相似度值:S=max{S12,S21}。
9.一种语义知识库的检索系统,包括:
输入装置,用于输入待检索词;
检索装置,用于从语义知识库中检索所述输入装置输入的待检索词,输出其对应义项的语义;以及
语义知识库,所述语义知识库通过如权利要求1至8任意一项所述的基于词典的语义知识库的构建方法进行构建和维护。
10.一种计算两个义项的语义距离的方法,其中所述方法的输入为两个义项M1和M2,输出为两义项间的语义距离S,两义项间语义相似度计算公式为:
S=max{S12,S21};
其中,S12是以义项M1的知识为查询对象计算得到的语义相似度;S21是以义项M2的知识为查询对象计算得到的语义相似度;H是设定的查询深度,N1(i)是当查询深度为i时,义项M1查询到的知识的关键词个数,N12(i)为这N1(i)个关键词中包含义项M2或M2的词语的个数;同理,N2(i)是当查询深度为j时,义项M2查询到的知识的关键词个数,N21(i)为这N2(i)个关键词中包含义项M1或M1的词语的个数;以及
所述语义距离计算的具体过程为:
步骤S307-1:初始化,设定扩展查询最大深度为H,i=1、j=1,语义相似度S1=0、S2=0、S=0;提取输入义项M1和M2的知识的关键词集合,分别得到N1(1)和N2(1)个关键词集K1和K2;
步骤S307-2:查询K1中是否包含M2或其词语,如果包含则记录包含次数N12(1),代入语义相似度计算公式S12=N12(1)/N1(1);如果不包含则执行步骤S307-3;
步骤S307-3:判断i是否小于或等于H,如果小于或等于则提取第i-1层查询时N12(i-1)个关键词的所有知识关键词,得到N12(i)个新的知识关键词,同时i增1,然后执行步骤S307-4;如果大于则执行步骤S307-8;
步骤S307-4:查询N12(i)个新的知识关键词是否包含M2或其词语,如果包含则记录包含次数N12(i),代入语义相似度计算公式S12=S12+N12(i)/N1(i);如果不包含则执行步骤S307-3;
步骤S307-5:查询K2中是否包含M1或其词语,如果包含则记录包含次数N21(1),代入语义相似度计算公式S21=N21(1)/N2(1);如果不包含则执行步骤S307-6;
步骤S307-6:判断j是否小于或等于H,如果小于或等于则提取第j-1层查询时N21(j-1)个关键词的所有知识关键词,得到N21(j)个新的知识关键词,同时j增1,然后执行步骤S307-7;如果大于则执行步骤S307-8;
步骤S307-7:查询N21(j)个新的知识关键词是否包含M1或其词语,如果包含则记录包含次数N21(j),代入语义相似度计算公式S21=S21+N21(j)/N2(j);如果不包含则执行步骤S307-5;
步骤S307-8:计算并输出最后的语义相似度值:S=max{S12,S21}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783884.2A CN104484411B (zh) | 2014-12-16 | 2014-12-16 | 一种基于词典的语义知识库的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783884.2A CN104484411B (zh) | 2014-12-16 | 2014-12-16 | 一种基于词典的语义知识库的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484411A true CN104484411A (zh) | 2015-04-01 |
CN104484411B CN104484411B (zh) | 2017-12-22 |
Family
ID=52758952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410783884.2A Active CN104484411B (zh) | 2014-12-16 | 2014-12-16 | 一种基于词典的语义知识库的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484411B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN105574086A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 对互联网非结构化数据字段的人工智能萃取方法 |
CN107451123A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种基于多种中文知识资源的中文词语语义关系识别方法和装置 |
CN107451130A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN108121722A (zh) * | 2016-11-28 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 知识库的构建方法及装置 |
CN108319614A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 信息获取方法、装置和系统 |
CN109918677A (zh) * | 2019-03-21 | 2019-06-21 | 广东小天才科技有限公司 | 一种英文单词语义解析的方法及系统 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110457551A (zh) * | 2019-08-14 | 2019-11-15 | 梁冰 | 自然语言的语义递归表示系统的构造方法 |
CN110555201A (zh) * | 2019-09-11 | 2019-12-10 | 中国联合网络通信集团有限公司 | 知识文档生成方法、装置、电子设备及存储介质 |
CN110612525A (zh) * | 2017-05-10 | 2019-12-24 | 甲骨文国际公司 | 通过使用交流话语树启用修辞分析 |
CN111178045A (zh) * | 2019-10-14 | 2020-05-19 | 深圳软通动力信息技术有限公司 | 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 |
CN111309928A (zh) * | 2020-02-21 | 2020-06-19 | 广东电网有限责任公司 | 一种基于贝叶斯和语义分析的运维知识库构建方法 |
CN112784063A (zh) * | 2019-03-15 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
US11960844B2 (en) | 2017-05-10 | 2024-04-16 | Oracle International Corporation | Discourse parsing using semantic and syntactic relations |
US12001804B2 (en) | 2022-05-19 | 2024-06-04 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
-
2014
- 2014-12-16 CN CN201410783884.2A patent/CN104484411B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
Non-Patent Citations (1)
Title |
---|
ZHAO MEIJING等: "A Concept-Based Knowledge Representation Model for Semantic Entailment Inference", 《PROCEEDINGS OF THE 33RD CHINESE CONTROL CONFERENCE》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069560B (zh) * | 2015-07-30 | 2018-05-01 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN105574086A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 对互联网非结构化数据字段的人工智能萃取方法 |
CN108121722A (zh) * | 2016-11-28 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 知识库的构建方法及装置 |
CN108319614A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 信息获取方法、装置和系统 |
CN110612525A (zh) * | 2017-05-10 | 2019-12-24 | 甲骨文国际公司 | 通过使用交流话语树启用修辞分析 |
US11960844B2 (en) | 2017-05-10 | 2024-04-16 | Oracle International Corporation | Discourse parsing using semantic and syntactic relations |
CN110612525B (zh) * | 2017-05-10 | 2024-03-19 | 甲骨文国际公司 | 通过使用交流话语树启用修辞分析 |
CN107451123A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种基于多种中文知识资源的中文词语语义关系识别方法和装置 |
CN107451130A (zh) * | 2017-08-17 | 2017-12-08 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN107451130B (zh) * | 2017-08-17 | 2021-04-02 | 齐鲁工业大学 | 一种结合中英知识资源的中文词语语义关系识别方法和装置 |
CN112784063A (zh) * | 2019-03-15 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
CN109918677A (zh) * | 2019-03-21 | 2019-06-21 | 广东小天才科技有限公司 | 一种英文单词语义解析的方法及系统 |
CN110188204B (zh) * | 2019-06-11 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110457551A (zh) * | 2019-08-14 | 2019-11-15 | 梁冰 | 自然语言的语义递归表示系统的构造方法 |
CN110555201A (zh) * | 2019-09-11 | 2019-12-10 | 中国联合网络通信集团有限公司 | 知识文档生成方法、装置、电子设备及存储介质 |
CN111178045A (zh) * | 2019-10-14 | 2020-05-19 | 深圳软通动力信息技术有限公司 | 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 |
CN111309928A (zh) * | 2020-02-21 | 2020-06-19 | 广东电网有限责任公司 | 一种基于贝叶斯和语义分析的运维知识库构建方法 |
US12001804B2 (en) | 2022-05-19 | 2024-06-04 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
Also Published As
Publication number | Publication date |
---|---|
CN104484411B (zh) | 2017-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484411A (zh) | 一种基于词典的语义知识库的构建方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
US10496756B2 (en) | Sentence creation system | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
Subramaniam et al. | Test model for rich semantic graph representation for Hindi text using abstractive method | |
Kiyomarsi et al. | Optimizing persian text summarization based on fuzzy logic approach | |
Fuertes-Olivera et al. | Dictionaries for text production | |
Derici et al. | A closed-domain question answering framework using reliable resources to assist students | |
Vodolazova et al. | The impact of rule-based text generation on the quality of abstractive summaries | |
Kessler et al. | Extraction of terminology in the field of construction | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 | |
Quan et al. | Combine sentiment lexicon and dependency parsing for sentiment classification | |
Wang et al. | A transition-based system for universal dependency parsing | |
Jorge-Botana et al. | The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA | |
Wisniewski et al. | SeeQuery: An Automatic Method for Recommending Translations of Ontology Competency Questions into SPARQL-OWL | |
Rana et al. | Example based machine translation using fuzzy logic from English to Hindi | |
Ledeneva et al. | Recent advances in computational linguistics | |
Kim et al. | Towards improving dialogue topic tracking performances with wikification of concept mentions | |
Algarni | Light morphology and arabic information retrieval. | |
Hosoda | Hawaiian morphemes: Identification, usage, and application in information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |