CN102117283A - 一种基于语义索引的数据检索方法 - Google Patents

一种基于语义索引的数据检索方法 Download PDF

Info

Publication number
CN102117283A
CN102117283A CN200910243992XA CN200910243992A CN102117283A CN 102117283 A CN102117283 A CN 102117283A CN 200910243992X A CN200910243992X A CN 200910243992XA CN 200910243992 A CN200910243992 A CN 200910243992A CN 102117283 A CN102117283 A CN 102117283A
Authority
CN
China
Prior art keywords
semantic
sentence
document
index
verb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910243992XA
Other languages
English (en)
Inventor
赵琦
高建忠
段海波
宁保明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Original Assignee
PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd filed Critical PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Priority to CN200910243992XA priority Critical patent/CN102117283A/zh
Publication of CN102117283A publication Critical patent/CN102117283A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于语义索引的数据检索方法,包括下列步骤:对用户问题进行语义分析,抽取所述用户问题的功能描述作为语义检索式,其中所述功能描述用“动作-对象”来表示;对技术文档进行语义分析,抽取所述技术文档的功能描述作为文档语义索引;匹配所述语义检索式和所述文档语义索引。该方法有效提高了技术资料、技术手册在帮助维护技术系统时的有效性,能够更高质量地检索出有效解决了用户问题的文档。

Description

一种基于语义索引的数据检索方法
技术领域
本发明涉及一种数据检索领域,更具体地,涉及一种基于语义索引的数据检索方法。
背景技术
在工程技术领域,技术系统的规模和复杂度的不断扩张,使其维护已经变得越来越困难。而技术资料、技术手册等用于帮助维护技术系统的技术文档在数量上也急剧增加。如何在大量的技术文档中检索并适时提供用户需求的信息是一个急需解决的现实问题。传统的关键词检索方法在信息检索的发展过程中占有非常重要的地位,但是它们的缺点也非常明显。用户输入的关键词不能很好的描述用户想查找的技术问题是什么,被检索技术文档的关键词索引也只是该技术文档中出现的高频词集合,不能标识出该技术文档能解决的具体技术问题。关键词检索过程只进行形式上的匹配,不能进行语义层次的检索,检索结果常常无法找到解决技术问题的技术文档或者该技术文档只是描述了和用户输入关键词相关的一些内容,而未描述用户关心的技术问题解决方法,其检索质量并不能令人满意。
因此,必须寻求一种高效的、支持语义的知识检索和知识提供方法,从根本上提高技术资料、技术手册在帮助维护技术系统时的有效性。
发明内容
本发明要解决的技术问题是现有技术的检索方法中只进行形式上的匹配,从而导致所检索的文档不能有效解决用户的技术问题。
为解决上述技术问题,本发明提供了一种基于语义索引的数据检索方法,包括下列步骤:
对用户问题进行语义分析,抽取所述用户问题的功能描述作为语义检索式,其中所述功能描述用“动作-对象”来表示;
对技术文档进行语义分析,抽取所述技术文档的功能描述作为文档语义索引;
匹配所述语义检索式和所述文档语义索引。
在上述方法中,所述语义分析进一步包括以下步骤:
对所述用户问题进行预处理;
对所述用户问题进行分词和词性标注;
对所述用户问题进行句法分析。
在上述方法中,所述对所述用户问题进行句法分析进一步包括以下步骤:
首先根据距离疑问词最近原则确定所述用户问题的谓语动词;
然后利用疑问词和所述谓语动词的距离信息,确定所述用户问题中其他各词所担当的句法成分。
在上述方法中,所述抽取所述用户问题的功能描述进一步包括下列步骤:
将所述用户问题中的谓语动词作为动作;
对于谓语动词在疑问词之后且二者距离为0,且谓语动词后有名词性成分的情况,则抽取所述名词性成分作为对象;
对于谓语动词在疑问词之后且二者距离为0,且疑问词前面有系动词,谓语动词后面无名词性成分的情况,则抽取疑问词之前的名词性成分作为对象。
在上述方法中,所述抽取所述技术文档的功能描述进一步包括下列步骤:
对于单句,将所述技术文档中句子的谓语动词作为动作,将宾语作为对象;
对于复句,根据所述单句抽取方法分别对每个分句抽取功能描述。
在上述方法中,所述单句是复杂单句,而且:
如果主语是复杂短语,则将所述技术文档中句子的谓语动词作为动作,将宾语作为对象;
如果宾语是复杂短语,则将谓语动词和宾语中的每个短语组合来抽取功能描述,即“V+O1+O2→V+O1、V+O2”,其中V为谓语动词,O1和O2分别为宾语中的两个短语;
如果谓语是复杂短语,则将谓语中的每个动词和宾语组合来抽取功能描述,即“V1+V2+O→V1+O、V2+O”,其中V1和V2分别是谓语中的两个动词短语,O为宾语。
在上述方法中,在所述匹配所述语义检索式和所述文档语义索引之前,还包括下列步骤:
对所述语义检索式和所述文档语义索引进行分类。
在上述方法中,所述分类的步骤包括:
将所述语义检索式或所述文档语义索引的对象和参数进行比较;
所述对象仅包含参数的所述语义检索式或所述文档语义索引是VP语义检索式或VP文档语义索引;
所述对象是定宾结构,且定语为名词、宾语为参数的所述语义检索式或所述文档语义索引是VNP语义检索式或VNP文档语义索引;
所述对象不包含任意参数的的所述语义检索式或所述文档语义索引是VN语义检索式或VN文档语义索引。
在上述方法中,所述匹配所述语义检索式和所述文档语义索引进一步包括下列步骤:
对于VN语义检索式和VP语义检索式,分别与VN文档语义索引和VP文档语义索引进行匹配;
对于VNP语义检索式,首先与VNP文档语义索引进行匹配,如果没有相匹配的VNP文档语义索引,则与VP文档语义索引进行匹配。
本发明的有益效果在于提供了一种高效的、支持语义的知识检索和知识提供方法,从根本上提高技术资料、技术手册在帮助维护技术系统时的有效性。
附图说明
图1是根据本发明一个具体实施例的数据检索流程图;
图2是根据本发明一个具体实施例的提取语义检索式的流程图;
图3是根据本发明一个具体实施例的分类语义检索式的流程图;
图4是根据本发明一个具体实施例的匹配VN语义检索式和文档语义索引的流程图;
图5是根据本发明一个具体实施例的匹配VNP语义检索式和文档语义索引的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的基于语义索引的数据检索方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
考虑如何将用户问题和被检索技术文档的索引表示为能在语义层次表述一个技术问题的形式。在技术领域中,一个功能描述可用于表示一个技术功能,该技术功能用于解决领域内的技术问题。具体地,功能描述可以用“动作(V)-对象(O)”来表示,例如:气象学中“测量-大气压力”、光学中“增加-光导纤维折光指数”、半导体学中“控制-半导体晶片蚀刻速度均匀性”等。其中,对动作(V)和对象(O)有如下要求:对于V,提取句子的谓语动词作为V。具体而言,动词(v)表示动作、行为,人或动物的心理活动、生理状态,事件的存现、变化等,在句子中主要充当谓语。动词可进一步细分动作动词(nv)、趋向动词(dv)、判断动词(lv)、能愿动词(uv)等。由于功能描述中的V表示的是一个动作,因此只有谓语是“动作动词nv”才符合模式要求,其他类型的动词,如:“判断动词lv”如“是、否”,“能愿动词mv”如“能、能够”等均不符合模式要求。对于O,其是句子中的名词性成分(名词或者名词性短语)。在本发明中,从用户问题中提取一个功能描述作为语义检索式,从被检索技术文档中提取一个功能描述作为文档语义索引,对语义检索式和文档语义索引进行分类、匹配,则可以获得比关键词检索更准确的语义层次的检索结果。
图1示出了根据本发明一个具体实施例的数据检索流程图,如其所示,本发明的数据检索具体包括下列步骤:
对用户问题进行语义分析,并提取功能描述作为其语义检索式。其中用户问题可以通过用户输入,且可以是用户想获得解决的任何技术问题,如:“如何改装排气管”。
用户问题一般是问句的形式,考虑到问句的句型特殊性,对其做特定语义分析,以获得其语义检索式。且上述功能描述提取仅针对一个句子内存在的功能描述关系进行提取,不处理多个句子间、段落内、段落间和篇章内等类型的功能描述关系提取。
首先,对用户问题进行预处理。这可以通过文本预处理来实现,该过程包括:删除一个电子或者数字形式文本中的未形成自然语言文本部分的所有符号,如段落符、格式符等;检测和纠正文本中的误匹配和错误,如文字识别错误、输入错误等;将文本划分成句子。文本预处理属于常用技术,此处不详细说明。
对经过预处理的用户问题进行分词和词性标注。分词和词性标注属于常用技术,例如可以采用正向最大匹配分词算法进行分词,采用863词性标注集进行词性标注,此处不详细说明。由于本发明针对工程技术领域,所以,优选地,补充了专业词典以提高分词和词性标注准确度。表1给出863词性标注集及含义,方便后续对提取功能描述的进一步说明。
表1  863词性标注集及含义
  标识   含义   示例   标识   含义   示例
  a   形容词   美丽   ni   机构名   保险公司
  b   其它名词修饰语   大型,西式   nl   地点名词   城郊
  c   连词   和,虽然   ns   地理名词   北京
  d   副词   很   nt   时间名词   近日,明代
  e   感叹词   哎   nz   其他专有名词   诺贝尔奖
  g   词素   茨,甥   o   拟声词   哗啦
  h   词头   阿,伪   p   介词   在,把
  i   成语   百花齐放   q   量词   个
j 缩写 公检法 r 代词   我们
  k   词尾   界,率   u   助词   的,地
  m   数字   一,第一   v   动词   跑,学习
  n   一般名词   苹果   wp   标点符号   ,。!
  nd   方向名词   右侧   ws   外来词   CPU
  nh   人名   杜甫,汤姆   x   非词素   萄,翱
动词的分类:
a)动作动词(nv),表示动作、行为,人或动物的心理活动、生理状态等。如:
写 踢 哭 聋 饿 病 让 保卫 团结 描绘 试验 放假睡觉
b)趋向动词(dv),表示趋向。
表示趋向的动词基本上是一个封闭系列,如:
出 出来 出去 到过 过来 过去 回 回来 回去 进进来
c)判断动词(lv),表示关系的判断。
是 为
d)能愿动词(uv),表示可能、意愿。如:
能够 能 肯 应当 可 可以 可能 情愿 愿意 愿 要 会 应该 得
在分句和词性分析之后,对问句进行句法分析。考虑到问句句型的特殊性和有限性,而诸如刘群在第一届学生计算语言学研讨会(SWCL2002)专题讲座上的《汉语词法分析和句法分析技术综述》一文中所述的一般的句法分析系统对问句的分析准确性有限,优选地,本发明对用户问题中可能出现的问句进行了如下的句法分析。根据距离疑问词最近原则确定问句的谓语动词,然后利用疑问词和谓语动词的距离信息,确定问句中其他各词所担当的句法成分。在此句法分析的基础上,抽取出句子的主语,谓语和宾语作为特征。
通过对问句的语言学分析,发现距离疑问词最近的动词在问句中往往担当谓语。例如问句“如何正确改装汽车排气管才能有效提升性能/?”经过分词和词性标注后为:“如何/r 正确/a 改装/v 汽车/n 排气管/n 才/d 能/v 有效/a 提升/v 性能/n ?/wp”。“改装”是距离疑问词“如何”最近的动词,而且充当问句的谓语。再看一个比较复杂的问句:“日本/ns 天皇/n 裕仁/nh 以/p 广播/v 终/d 战/v 诏书/n 的/u 形式/n 正式/a 宣布/v 日本/ns 无条件/d 投降/v 是/v在/p 哪/r 一/m年/q?/wp”,尽管句子中有5个动词,但作谓语的还是距离疑问词最近的动词“是”。
抽样统计结果也证实了上述结论的正确性。从一个大规模的问句集(约10000句)中随机抽取出2000句,对这2000句进行了人工谓语分析。分析结果如下:动词作谓语的问句数是1626句,占抽样问句总数的81.33%;距离疑问词最近的动词作谓语的问句数是1586,占抽样总数的79.3%。因此,可以采用距离疑问词最近原则来确定问句的谓语。
《现代汉语基本句型》[《世界汉语教学》1989年01期]总结了疑问代词表示疑问的下述六种句型,其中括弧内标识了疑问代词担当的句法成分:
(1)疑问代词[主]‖谓
例1:怎样/r 发动/v 汽车/n?/wp
(2)主‖动+疑问代词[宾]
例2:英国/j 的/u 首都/n 选定/v 哪里/r?/wp
(3)主‖疑问代词[谓语中心语](+“了”/“着”)
例3:他/r 怎么/r 了/u?/wp
(4)主‖疑问代词[状]+动/形/......
例4:水蒸气/n 是/v 怎么/r 形成/v 的/u?/wp
(5)主‖动/形+疑问代词[补]
例5:那/r 家/q 公司/n 发展/v 得/u 怎么样/r 了/y 呢/y?/wp
(6)疑问代词[定]+中心语
例6:什么/r 的/u 氧化物/n 是/v 玻璃/n 的/b 主要/a 成分/n?/wp
由于用户问题主要是事实类问题,针对某个要解决的技术问题,疑问词作中心语、宾语、定语以及补语的问句很少。因此,本发明主要研究疑问代词作主语和状语的情况。其中,疑问词作主语一般有谓语动词紧随其后,疑问词和谓语动词的距离是0(句型1)。疑问词作状语一般前面都会有系动词(如“是”),谓语动词后一般无名词(句型4)。
本发明根据上述汉语问句句型特征,结合句子分词、词性标注结果与疑问词和谓语动词的距离信息确定问句的语义检索式:动作(V)和对象(O)。问句的功能描述的抽取方法如下:
(1)根据距离疑问词最近原则确定谓语动词,并抽取出谓语动词作为动作(V)。
(2)如果疑问词和谓语动词的距离是0并且谓语动词紧跟疑问词之后,同时谓语动词后有名词性成分(名词或名词短语),则可判定疑问词单独做主语,抽取谓语动词之后的名词性成分(名词或名词短语)作为对象(O),如上面所述句型1,例1中“发动”作为动作(V),“汽车”作为对象(O)。
(3)如果疑问词和谓语动词的距离是0并且谓语动词紧跟疑问词之后,同时,疑问词前面有系动词,谓语动词后无名词性成分。则可判定疑问词单独作状语,抽取疑问词之前的名词性成分作为对象(O),如上面所述句型4,例4中“形成”作为动作(V),“水蒸气”作为对象(O)。
通过上述过程提取了用户问题的功能描述,将所提取的功能描述作为文本语义检索式。
对技术文档库中的文档进行语义分析,并提取其功能描述作为文档语义索引。技术文档库用于查找用户问题,例如:《医学电子仪器故障诊断方法库》、《机床维修方法库》等。技术文档库可以为电子/数字形式的技术资料、学术期刊、专利、论文等,可根据用户需要自行选择和增减,用户常用的一些参考资料,如:技术手册等都可作为新增的技术文档库。
对技术文档库中的文档进行语义分析,从中提取功能描述作为文档语义索引。在技术文档库的文本中,功能描述一般存在于陈述句中的动宾结构部分,即V为谓语动词、O为宾语部分。
由于技术资料中的文字句式比较单一,功能描述以陈述句中的动宾结构为主,即V为谓语动词、O宾语部分。所以,对技术文档库中的文档进行语义分析的方法不同于对用户问题的语义分析。但是,类似地,对技术文档库的功能描述提取也仅针对一个句子内存在的功能描述关系进行提取,不处理多个句子间、段落内、段落间和篇章内等类型的功能描述关系提取。
与用户问题类似,对技术文档库中的文本进行预处理,然后分词并进行词性标注。
对经过分词和词性标注的技术文档库中的文本进行句法分析,标注每个词在句中的句法成分,可以采用刘群的《汉语词法分析和句法分析技术综述》2.22节中详述的Chart算法来完成句法分析。
然后,进行技术文档的功能描述提取,具体划分为下述模式规则,该模式规则由三部分组成:句型、句法成分和词性,具体描述如下:
(1)简单单句的功能描述提取:
只有一个主谓结构的句子为单句。一个单句中,如果其各个成分都由词来充当,则该单句就是简单单句。
一个主谓句类型的简单单句,其完整结构是:“(定)主//[状]谓<补>+(定)宾”,例如:“(我们)学生‖[一定][要]学<好>(专业)课程”。定语用在主语前面,是修饰限制主语或宾语的中心语的,如:“(冬天里)的春天”。补语用在谓语的后面,是补充说明谓语中心语的,如:“辨认<仔细>”。主谓句的判断根据句法分析结果获得。
对于上述类型的单句,从句子主干中的谓语部分提取V,宾语部分提取O。
例句:“微波谐振器测量大气湿度”
句子的分词、词性标注结果为:
结果为:“微波/n 谐振器/n 测量/v 大气/n 湿度/n”
根据上述分析的结果,该句是一个主谓句,谓语为动词v“测量”,且“测量”是一个动作动词nv;“测量”与“大气湿度”间为“动宾关系”。因此,该句符合模式一,可提取功能描述→V(测量)+O(大气湿度)。
对于动词支配对象前置句,其用“使”或“将”等将动词支配的对象提到动词之前的一种宾语前置句型结构,在结构上有:“使(把)+宾语”作状语。主语是施动者,发出动作,处置某一对象。处置的对象是指定的或已知的事物。
对于上述类型的简单单句,从句子主干中的谓语部分提取V,状语若为“使(把)+宾语”结构,则提取状语结构中的前置宾语部分作为O。
如:“这种方法把净化水的沸腾温度降低了”→V(降低)+O(净化水的沸腾温度)
(2)复杂单句的功能描述提取
一个单句中,如果由复杂短语充当句子的某一个或某几个成分,该单句就是复杂单句。
分析复杂单句时,需先找出主干。单句的主干是指把句中所有的定语、状语、补语都压缩掉以后剩下的部分,也就是主语(或主语的中心语)+动词(或动词的中心语)+宾语(或宾语的中心语)。
根据前述词性和句法分析步骤的结果,分两步分析复杂单句:
第一步,用“|”表示主谓句,界分主语和谓语。“|”之前是主语,“|”之后是谓语。例如:(鲁迅先生的第一个)特点|是(他的政治)远见。
第二步,再分别分析“|”前的主语和“|”后的谓语。
对于主语是复杂短语的复杂单句,对主语部分不做处理,对句子主干的其他成分的功能描述进行提取,方法同简单单句的处理。
如:“提高处理腔内气体压力|扩大激光温度分布”
其中,主语“提高处理腔内气体压力”是一个包含功能描述结构的复杂短语,但由于其在主语中出现,不对其做处理,只从句子主干中的谓语部分提取V,宾语部分提取O。
提取结果为→V(扩大)+O(激光温度分布)
模式四、宾语成分是复杂短语的复杂单句的功能描述提取
对于主干宾语存在多个并列短语的复杂单句,功能描述提取时,将谓语和宾语中的每个短语组合,抽取功能描述,即“V+O1+O2→V+O1、V+O2”
如:“温度梯度消除涂料层起泡率和起垄率”→
V(消除)+O(涂料层起泡率)
V(消除)+O(涂料层起垄率)
对于句子主干谓语存在多个动词短语的复杂单句,功能描述提取时将谓语中的每个动词和宾语部分组合,抽取功能描述,即“V1+V2+O→V1+O、V2+O”
如:“检测扩散气体的体积|来测量和计算溶液的气体含量”→
V1(测量)+O(溶液气体含量)
V2(计算)+O(溶液气体含量)
(3)复句的功能描述提取
复句由两个或两个以上意义相关,结构上互不包含且互不作句子成分的分句组成。单句带有一定的句调,表示相对完整的意思。复句的分句已经丧失了单句成立所必备的句调(也称为语调),不能独立地表达一个相对完整的意思。其中句调是指语句的高低升降。句调是贯穿整个句干的,只是在句末音节上表现得特别明显。句调根据表示的语气和感情态度的不同,可分为四种:升调、降调、平调、曲调。复句中的各个分句之间一般有停顿,书面上用逗号,分号或冒号表示;复句前后有隔离性语音停顿,书面上用句号或问号,叹号表示。
单句只有一个主谓结构,复句则有两个或两个以上的主谓结构,如:“如果增加飞行射弹的干扰度,就有可能降低装甲车辆的爬坡度”。
→V(增加)+O(飞行射弹的干扰度)
→V(降低)+O(装甲车辆的爬坡度)
复句的功能描述提取,要分别对每个分句的功能描述进行分析、提取,分句的功能描述提取方法参照上述单句的模式进行。
通过上述过程提取了技术文档库的功能描述,将提取的功能描述作为文档语义索引。
优选地,对语义检索式和文档语义索引进行分类,以下以对语义检索式进行分类为例来详述,对文档语义索引进行分类的过程与之类似。分类的目的是为了对功能描述进行进一步细分。功能描述中的“对象(O)”可能包含复杂信息。其中,在工程技术领域的技术文档中,经常涉及到的一个概念就是技术参数,技术文档中往往会描述对技术参数的具体要求,某个技术参数的变化可能会影响一项功能的实现,如“电压(P)低”,则可能使“灯管不亮”。因此,可以通过分析“对象(O)”中包含的参数P,对语义检索式和文档语义索引进行分类,以获得更细化的检索结果。
对语义检索式进行分类,根据本发明的一个具体实施例,获得三类语义检索式,分别为VN(“动作(V)+受事(N)”)、VP(“动作(V)+参数(P)”)、VNP(“动作(V)+受事(N)+参数(P)”)。其中,提取宾语部分中的名词性定语(或名词组合,如“N+N”)作为受事(N),“受事”指句子里受动作支配的人或事物。如:″我看报″的″报″,″猫捉老鼠″的″老鼠″。参数是表明任何现象、设备或其工作过程中某一种重要性质的量;此处用户选择一个参数列表,其一般包含工程技术领域通用参数,如物理参数“速率”,数学参数“绝对值”等,可以根据技术文档库的具体领域添加某领域的常用技术参数,当然,也可以根据实际需要添加非通用的领域内专用参数。
具体分类过程如下:
将获得的语义检索式的对象和参数列表中的参数进行比较,将语义检索式中所有能匹配参数的名词标为PP。如果一个语义检索式中匹配到多个参数,则按其在语义检索式中出现的顺序标为PP1、PP2......。
提取语义检索式内标识为PP的名词。如果对象只包含一个PP,则提取该PP作为P;如果对象包含多个PP,且存在相邻的PP组合,如“PP1+PP2”,则可以认为该对象就是多个PP,但本领域普通技术人员可以理解,优选地,采用互信息的方法计算该多个PP的相邻度,取相邻度较高的PP组合作为P,且将其加入技术参数列表。
例如:“波长带加宽的光束消除激光棒的温度梯度”中,“温度梯度”包含两个技术参数列表中的已有参数“温度”和“梯度”,且两参数相邻,通过计算这两个参数的相邻度,判断“温度梯度”为该句的P,并将其加入技术参数列表。
提取出的包含参数P的功能描述中,如果对象只包含参数,则将该功能描述分类至VP(“动作(V)+参数(P)”)语义检索式;
例如:用参数列表与语义检索式“V(降低)+O(温度)”的对象“O(温度)”进行比较,判断对象“O(温度)”存在于参数列表内,因此,该语义检索式属于VP语义检索式,具体为“V(降低)+P(温度)”。
如果语义检索式的对象是定宾结构,且修饰主宾语的定语为名词,主宾语为参数P,即“N+P”格式,则该语义检索式分类至VNP(“动作(V)+受事(N)+参数(P)”)语义检索式;
例如:用参数列表与语义检索式“V(降低)+O(水的温度)”的对象“O(水的温度)”进行比较,判断对象“O(水的温度)”不存在于参数列表内;而对象“O(水的温度)”是定宾结构,其句法分析标记为ATT,且修饰主宾语的定语“水”为名词,其词性标注标记为n,主宾语“温度”存在于参数列表中,是一个参数P,因此,该语义检索式属于VNP语义检索式,具体为“V(降低)+N(水)+P(温度)”。
对于不包含参数P的语义检索式,则该语义检索式分类至VN(“动作(V)+受事(N)”)语义检索式;
例如,对语义检索式“V(加热)+O(锅内的水)”,该语义检索式中不包含参数P,根据词性和句法标注结果提取宾语部分的主宾语“N(水)”,且该主宾语为名词,因此,该语义检索式属于VN语义检索式,具体为“V(加热)+N(水)”。
由此,可将所提取的语义检索式和文档语义索引分为三类。本领域普通技术人员可以理解,也可以按照其它规则进行上述分类,当然,甚至可以不进行上述分类的步骤,直接匹配语义检索式和文档语义索引来获得数据检索结果。
匹配语义检索式和文档语义索引,获取检索文档集合。具体地,如果找到与语义检索式匹配的文档语义索引,则将包含该文档语义索引的技术文档作为检索结果。
如果上面进行了语义检索式和文档语义索引分类,则匹配分类后的语义检索式和文档语义索引,由此获取VNP检索文档集合、VN检索文档集合、VP检索文档集合。
1、VN(“动作(V)+受事(N)”):如“V(加热)+N(水)”。用VN语义检索式和VN文档语义索引匹配,在技术文档库中检索包含VN文档语义索引“V(加热)+N(水)”的文档作为检索结果。该流程如图4所示。
2、VP(“动作(V)+参数(P)”):如“V(降低)+P(温度)”。与VN的情形类似,用VP语义检索式和VP文档语义索引匹配,在技术文档库中检索包含VP文档语义索引“V(降低)+P(温度)”的文档作为检索结果。
3、VNP(“动作(V)+受事(N)+参数(P)”):如“V(降低)+N(水)+P(温度)”。首先,用VNP语义检索式和VNP文档语义索引匹配,在技术文档库中检索包含VNP文档语义索引“V(降低)+N(水)+P(温度)”的文档,作为检索结果。优选地,如果不存在与该VNP语义检索式相匹配的VNP文档语义索引,则由于在一个VNP文档语义索引中,N是作为修饰P的成分,如“水(N)的温度(P)”中,“水(N)”是修饰“温度(P)”的定语,因此,去掉“N”仍可以得到与用户问题相关的非精确语义检索式。所以,去掉该VNP语义索引中的N,继续检索包含VP文档语义索引“V(降低)+P(温度)”的文档,作为检索结果。该流程如图5所示。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (9)

1.一种基于语义索引的数据检索方法,包括下列步骤:
对用户问题进行语义分析,抽取所述用户问题的功能描述作为语义检索式,其中所述功能描述用“动作-对象”来表示;
对技术文档进行语义分析,抽取所述技术文档的功能描述作为文档语义索引;
匹配所述语义检索式和所述文档语义索引。
2.根据权利要求1所述的方法,其特征在于,所述语义分析进一步包括以下步骤:
对所述用户问题进行预处理;
对所述用户问题进行分词和词性标注;
对所述用户问题进行句法分析。
3.根据权利要求2所述的方法,其特征在于,所述对所述用户问题进行句法分析进一步包括以下步骤:
首先根据距离疑问词最近原则确定所述用户问题的谓语动词;
然后利用疑问词和所述谓语动词的距离信息,确定所述用户问题中其他各词所担当的句法成分。
4.根据权利要求2或3所述的方法,其特征在于,所述抽取所述用户问题的功能描述进一步包括下列步骤:
将所述用户问题中的谓语动词作为动作;
对于谓语动词在疑问词之后且二者距离为0,且谓语动词后有名词性成分的情况,则抽取所述名词性成分作为对象;
对于谓语动词在疑问词之后且二者距离为0,且疑问词前面有系动词,谓语动词后面无名词性成分的情况,则抽取疑问词之前的名词性成分作为对象。
5.根据权利要求1所述的方法,其特征在于,所述抽取所述技术文档的功能描述进一步包括下列步骤:
对于单句,将所述技术文档中句子的谓语动词作为动作,将宾语作为对象;
对于复句,根据所述单句抽取方法分别对每个分句抽取功能描述。
6.根据权利要求5所述的方法,其特征在于,所述单句是复杂单句,而且:
如果主语是复杂短语,则将所述技术文档中句子的谓语动词作为动作,将宾语作为对象;
如果宾语是复杂短语,则将谓语动词和宾语中的每个短语组合来抽取功能描述,即“V+O1+O2→V+O1、V+O2”,其中V为谓语动词,O1和O2分别为宾语中的两个短语;
如果谓语是复杂短语,则将谓语中的每个动词和宾语组合来抽取功能描述,即“V1+V2+O→V1+O、V2+O”,其中V1和V2分别是谓语中的两个动词短语,O为宾语。
7.根据权利要求1所述的方法,其特征在于,在所述匹配所述语义检索式和所述文档语义索引之前,还包括下列步骤:
对所述语义检索式和所述文档语义索引进行分类。
8.根据权利要求7所述的方法,其特征在于,所述分类的步骤包括:
将所述语义检索式或所述文档语义索引的对象和参数进行比较;
所述对象仅包含参数的所述语义检索式或所述文档语义索引是VP语义检索式或VP文档语义索引;
所述对象是定宾结构,且定语为名词、宾语为参数的所述语义检索式或所述文档语义索引是VNP语义检索式或VNP文档语义索引;
所述对象不包含任意参数的的所述语义检索式或所述文档语义索引是VN语义检索式或VN文档语义索引。
9.根据权利要求8所述的方法,其特征在于,所述匹配所述语义检索式和所述文档语义索引进一步包括下列步骤:
对于VN语义检索式和VP语义检索式,分别与VN文档语义索引和VP文档语义索引进行匹配;
对于VNP语义检索式,首先与VNP文档语义索引进行匹配,如果没有相匹配的VNP文档语义索引,则与VP文档语义索引进行匹配。
CN200910243992XA 2009-12-30 2009-12-30 一种基于语义索引的数据检索方法 Pending CN102117283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910243992XA CN102117283A (zh) 2009-12-30 2009-12-30 一种基于语义索引的数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910243992XA CN102117283A (zh) 2009-12-30 2009-12-30 一种基于语义索引的数据检索方法

Publications (1)

Publication Number Publication Date
CN102117283A true CN102117283A (zh) 2011-07-06

Family

ID=44216057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910243992XA Pending CN102117283A (zh) 2009-12-30 2009-12-30 一种基于语义索引的数据检索方法

Country Status (1)

Country Link
CN (1) CN102117283A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
CN104298658A (zh) * 2014-10-29 2015-01-21 百度在线网络技术(北京)有限公司 获取搜索结果的方法和装置
CN104462326A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 人物关系分析方法、提供人物信息的方法及装置
CN104516949A (zh) * 2014-12-10 2015-04-15 北京百度网讯科技有限公司 网页数据处理方法和装置、查询处理方法及问答系统
WO2015144065A1 (zh) * 2014-03-26 2015-10-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统
CN110688858A (zh) * 2019-09-17 2020-01-14 平安科技(深圳)有限公司 语义解析方法、装置、电子设备及存储介质
CN110851560A (zh) * 2018-07-27 2020-02-28 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US10282664B2 (en) 2014-01-09 2019-05-07 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for constructing event knowledge base
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
WO2015144065A1 (zh) * 2014-03-26 2015-10-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN104298658B (zh) * 2014-10-29 2017-11-17 百度在线网络技术(北京)有限公司 获取搜索结果的方法和装置
CN104298658A (zh) * 2014-10-29 2015-01-21 百度在线网络技术(北京)有限公司 获取搜索结果的方法和装置
CN104462326A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 人物关系分析方法、提供人物信息的方法及装置
CN104516949A (zh) * 2014-12-10 2015-04-15 北京百度网讯科技有限公司 网页数据处理方法和装置、查询处理方法及问答系统
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统
CN110851560A (zh) * 2018-07-27 2020-02-28 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备
CN110851560B (zh) * 2018-07-27 2023-03-10 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备
CN110688858A (zh) * 2019-09-17 2020-01-14 平安科技(深圳)有限公司 语义解析方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN102117283A (zh) 一种基于语义索引的数据检索方法
Cotterell et al. Labeled morphological segmentation with semi-markov models
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Zeroual et al. A new Quranic Corpus rich in morphosyntactical information
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Seraji Morphosyntactic corpora and tools for Persian
Tlili-Guiassa Hybrid method for tagging Arabic text
CN106202037B (zh) 基于组块的越南语短语树构建方法
Siklósi Using embedding models for lexical categorization in morphologically rich languages
Arreerard et al. Survey on Thai NLP language resources and tools
Biadgligne et al. Parallel corpora preparation for English-Amharic machine translation
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Campesato Natural language processing fundamentals for developers
Ibrahim et al. Bel-Arabi: advanced Arabic grammar analyzer
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
Khoufi et al. Statistical-based system for morphological annotation of Arabic texts
Tufiş et al. RoCo_News-A Hand Validated Journalistic Corpus of Romanian
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Muaidi Levenberg-Marquardt learning neural network for part-of-speech tagging of Arabic sentences
Toleush et al. Development of morphological segmentation for the kyrgyz language on complete set of endings
Shamsfard et al. A Hybrid Morphology-Based POS Tagger for Persian.
Kapadia et al. Rule based Gujarati morphological analyzer
Alqahtani et al. Generating a lexicon for the Hijazi dialect in Arabic
Akeel et al. Divergence and ambiguity control in an English to Arabic machine translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100026 Beijing city Chaoyang District West Road No. 1 A Winterless center block 5A

Applicant after: PERA CORPORATION LTD.

Address before: 100026 Beijing city Chaoyang District West Road No. 1 A Winterless center block 5A

Applicant before: PERA Global Technology (Beijing) Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: PERA GLOBAL TECHNOLOGY (BEIJING) CO., LTD. TO: PERA GLOBAL TECHNOLOGY CO., LTD.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110706