CN101794281A - 用于对未知词进行语义分类的系统和方法 - Google Patents
用于对未知词进行语义分类的系统和方法 Download PDFInfo
- Publication number
- CN101794281A CN101794281A CN200910006527A CN200910006527A CN101794281A CN 101794281 A CN101794281 A CN 101794281A CN 200910006527 A CN200910006527 A CN 200910006527A CN 200910006527 A CN200910006527 A CN 200910006527A CN 101794281 A CN101794281 A CN 101794281A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic category
- character
- unknown
- similar word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了用于对未知词进行语义分类的系统和方法。根据第一方法,字典中针对每个词根的相似词集合根据不同的语义类被分成多个群组,并将包含相似词最多的群组的语义类记录下来,用于未知词的分类。根据第二方法,字典中的每个语义类所包含的各个单字符对被考查。如果由某一字符对扩展得到的单词是相似词(即语义类相同),则可以更加确信地将该未知词分类到同样的语义类。根据第三方法,所输入的未知词的相似词被考查。如果其相似词的不同部分与完整相似词具有相同的语义类,则可以更加确信地将该未知词也分类到同样的语义类。根据本发明的语义分类方法和系统能够适用于包含任何字符数目的单词,因此可以实现更大的覆盖率和更高的分类精确度。
Description
技术领域
本发明涉及自然语言处理,更具体而言,涉及用于对未知词进行语义分类的系统和方法。
背景技术
随着计算机和因特网的快速发展,使得生成大量文本信息。由于这些文本信息的泛滥,用户越发希望能够对这些文本信息进行自动处理而减少人工参与。
通常,用户能够预先获得描述单词的某些字典。这些字典可以用来描述单词的词性(例如名词、动词、形容词等等)、语义类(例如人、事件、感情等等)、含义和例句。这些字典对于文本处理提供了大量帮助。
未出现在字典中的单词被称为“未知词”。一般而言,未知词可以来源于某些新词。在文本分析工作中,未知词会由于其信息(例如词性和语义类)不足而给用户带来麻烦。
为了解决上述麻烦,一种做法是由用户在未知词出现时(例如来自于诸如报纸之类的某些信息源)更新字典。但是这一做法依然很困难,原因如下:(1)由于存在很多信息源(例如报纸、网络等等),因此无法确保用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,因此任意未知词都需要在很多专家达成一致意见之后才能被写入字典,这需要一定时间。
鉴于此,针对文本分析任务,对未知词的信息进行某些猜测是有必要的。本发明将集中关注未知词的语义类信息。
在现有技术中,例如在Proceedings of NAACL HLT 2007第188-195页所发表的文章“Hybrid models for semantic classification of Chinese unknownwords”中所述,未知词的语义类通常可以通过两种模型获得,即规则模型和统计模型。图1示出在现有技术中使用规则模型和统计模型两者分析未知词w的语义类的操作示例。
首先,在步骤101中,用户输入待分析的未知词w。在步骤102中,基于规则的分类模型被应用到未知词w。这里,用于分类的规则可以由用户创建并被预先存储在系统的存储器中。由于可能有多于一种规则被应用到未知词w,因此可能产生多个结果(即,语义类)。这里将结果数目记作N。于是在步骤103中判断分类结果是否唯一。如果唯一,则在步骤104直接输出该结果。否则,可以再将统计学分类模型应用到未知词w(步骤105)。如果规则模型没有产生任何结果,即N=0,则可以直接输出统计模型的结果,作为未知词w的语义类(步骤107)。有时,统计模型可能也未产生任何结果,这时则没有输出。有时,统计模型可能生成多个结果。在此情况下,则可能根据预定标准对结果进行排序,例如c1>c2>c3,这意味着未知词w最可能属于语义类c1,而最不可能的语义类是c3。在步骤106处如果确定N>1,即如果规则模型产生多于一个分类结果,则在步骤108处,可以利用统计模型的结果对规则模型的结果进行排序并输出排序后的第一结果。例如,假设规则模型对于未知词w生成两个结果c1和c2。随后统计模型生成五个结果并按如下方式排列:c3>c2>c4>c5>c1。这里,由于在统计模型结果中c2处于比c1更高的位置,因此最终输出的分类结果为c2。
统计模型主要采取三个步骤。首先,从字典中选出输入的未知词w的相关词。如果满足以下条件,则认为一单词D被认为与w相关:(1)D与w词性相同;(2)D和w的第一或最后一个字符相同。例如,w=“冰晶”。其相关词可以包括{冰刀,冰柜,水晶}。其次,w和所有相关词的语义类之间的关联被计算。例如,冰刀、冰柜和水晶属于三个不同的语义类t1、t2和t3。因此,w与t1、t2和t3的关联被计算出。然后,具有最大关联性的语义类被选出,作为w的语义类。由于统计模型与本发明的相关性不大,因此在此不对其进行赘述。
在规则模型中,通常有两种类型的规则:第一型(Type 1)规则和第二型(Type 2)规则。如图2所示,在传统系统中,未知词输入装置201输入未知词w。然后,在规则应用装置202中,第一型规则应用装置2021和第二型规则应用装置2022分别将第一型规则和第二型规则应用到未知词w。然后,生成的语义分类结果通过语义分类结果输出装置2023被输出到分类结果存储器204。这里,两种类型的规则都被应用到输入的未知词,即无论第一型规则是否产生分类结果,第二型规则都将被应用。所有可应用的规则的结果都将被输出和存储。
图3A和3B分别示出第一型规则和第二型规则的应用示例。
以下,为了便于说明,首先简要介绍本发明说明书中所采用的主要术语。
“字符”在这里指代文本的最小单位。在中文中可将其视为文字,例如“我”是一个字符,而“你”是另一个字符。
“单词”可以表示有意义的字符串。例如,在中文中,“我们”是一个双字符词,而“计算机”是一个三字符词。
“未知词”指的是尚未记载于当前字典中的单词。
单词的“语义类”由字典定义,例如可分为“人”、“事件”、“感情”等等。例如,“老人”和“孩子”两者处于同一语义类,即“人”。同一个词可能属于不同的语义类,而不同字典可能具有不同的语义类。
“相似词”在本发明中被定义如下:如果单词w1和w2具有相同字符,并且在删除相同字符之后,它们的其余字符具有相同的语义类,则认为单词w1和w2是相似词。例如单词“裁判员”和“审判员”是相似词,因为在删除它们的相同字符(即“员”)之后,它们的其余部分“裁判”和“审判”具有相同的语义类。
第一型规则:如图3A所示,输入的未知词w首先被分成两部分wp1和wp2。如果wp1和wp2的语义类是相同的,则输出该语义类;否则,不输出任何结果。第一型规则的思路在于,未知词w的语义类可以由构成w的字符的语义类来确定。
下面给出第一型规则的两个示例,其中C(w)表示未知词w的语义类。
规则11:对于一个双字符词AB,如果C(A)=C(B),则C(AB)=C(A)=C(B)。例如,对于单词“欢悦”,由于C(欢)=C(悦),因此C(欢悦)=C(欢)=C(悦)。
规则12:对于一个三字符词ABC,如果C(A)=C(BC),则C(ABC)=C(A);否则如果C(AB)=C(C),则C(ABC)=C(AB)。例如,对于单词“音乐声”,由于C(音)=C(乐声),因此C(音乐声)=C(音)。再例如,对于单词“洽谈会”,由于C(洽谈)=C(会),因此C(洽谈会)=C(洽谈)。
第二型规则:如图3B所示,对于一未知词w,首先从字典中检索出其相似词。然后,输出相似词的语义类,作为w的语义类。如果不存在相似词,则没有结果输出。该规则的思路在于,未知词w的语义类可以由其相似词确定。
下面给出第二型规则的两个示例。
规则21:对于一个三字符词ABC,如果在字典中存在一单词XYC使得C(AB)=C(XY),则认为C(ABC)=C(XYC);如果存在一单词XBC使得C(A)=C(X),则认为C(ABC)=C(XBC)。例如,对于单词“裁判员”,由于在字典中存在一单词“审判员”并且C(裁判)=C(审判),因此C(裁判员)=C(审判员)。
规则22:对于一个四字符词ABCD,如果在字典中存在一单词XBCD使得C(A)=C(X),则认为C(ABCD)=C(XBCD);如果存在一单词ABCX使得C(D)=C(X),则认为C(ABCD)=C(ABCX);如果存在一单词XYCD使得C(AB)=C(XY),则认为C(ABCD)=C(XYCD);如果存在一单词XYZD使得C(ABC)=C(XYZ),则认为C(ABCD)=C(XYZD)。例如,对于单词“输油管道”,由于在字典中存在一单词“输油管线”并且C(道)=C(线),因此认为C(输油管道)=C(输油管线)。
然而,在现有技术中,第二型规则只被应用到三字符词和四字符词而没有被应用到双字符词。但是,实践中,双字符词的数量远远大于三字符词和四字符词。因此,第二型规则只能覆盖实际情况中的一小部分。如果简单地通过投票(voting)等方式将第二型规则的思路直接扩展到双字符词,则不能获得很好的性能,例如其分类精确度将大大降低。
因此,需要设计出新的方法用于未知词的语义分类,并且希望新方法能够实现更高的分类精确度和更大的覆盖率,即,不仅能够覆盖三字符词和四字符词,也能够覆盖双字符词。
发明内容
考虑到上述问题而研制了本发明。本发明提出三种可被用于未知词的语义分类的新方法。
根据本发明第一方面,提出一种用于对未知词进行语义分类的方法,该方法包括:针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;按照不同的语义类,对所收集的每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;记录所含相似词数目最多的群组的语义类cmax;输入一未知词w=XY,其中X和Y各自包含一个或多个字符;从所收集的各个相似词集合中选择其词根A满足A=X或A=Y的相似词集合;以及对于所选的相似词集合,若满足A=X且C(Y)=c或者A=Y且C(X)=c,则将该未知词w分类到针对该词根A所记录的语义类cmax。
该方法将一种新的限制添加到第二型规则的思路中:该规则仅仅在找到同一语义类中的多个相似词时才可应用。由于需要“多个相似词”,因此规则可以在未知词输入之前预先生成。
在预先生成规则的情况下,该方法可以被改进为一种用于对未知词进行语义分类的方法,包括:预先生成用于分类未知词的一个或多个规则;存储生成的所有规则;输入一未知词w;对于输入的所述未知词w,从所存储的所有规则中选择适用于所述未知词w的规则,即所含词根A被所述未知词w所包含的那些规则;以及将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类,其中所述一个或多个规则可以通过以下步骤生成:针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;按照不同的语义类,对所收集的每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;记录所含相似词数目最多的群组的语义类cmax;并且对于所收集的每个相似词集合{AD1,AD2,...ADn},生成一规则:对于一未知词AY,若C(Y)=c,则将AY分类到所记录的语义类cmax,对于所收集的每组相似词{D1A,D2A,...DnA},生成一规则:对于一未知词XA,若C(X)=c,则将XA分类到所记录的语义类cmax,其中X和Y分别包含一个或多个字符。
根据本发明第二方面,提出一种用于对未知词进行语义分类的方法,该方法包括:针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;对于所生成的每个字符对{A-B},收集字典中包含该字符对中任一字符的单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);若所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;从所保留的字符对中选择满足A=y的字符对;以及对于所选字符对,如果单词XB或BX在字典中,则确定未知词w所属的语义类为C(w)=C(XB)或C(w)=C(BX)。
该方法的思路在于检查具有同一语义类的任意两个不同字符的可扩展性。如果这些字符通常构成具有相同语义类的单词,则在涉及未知词时,可以更确信由它们构成的单词具有相同的语义类。由于任意两个不同字符的可扩展性也与输入词无关,因此上述工作也可以在输入未知词之前预先完成并将结果存储为规则。
在预先生成规则的情况下,该方法可以被改进为一种用于对未知词进行语义分类的方法,包括:预先生成用于分类未知词的一个或多个规则;存储生成的所有规则;输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;对于输入的所述未知词w,从所存储的所有规则中选择适用于所述未知词w的规则,即相应字符对中的任一字符被所述未知词w所包含的那些规则;以及将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类,其中所述一个或多个规则可以通过以下步骤生成:针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;对于所生成的每个字符对{A-B},收集字典中包含该字符对中任一字符的单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);若所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};以及对于所保留的每个字符对{A-B},生成如下规则:对于一未知词XA,若单词XB在字典中,则C(XA)=C(XB),并且对于一未知词AX,若单词BX在字典中,则C(AX)=C(BX),其中X包含一个或多个字符。
根据本发明第三方面,提出了一种用于对未知词进行语义分类的方法,该方法包括:输入一未知词w=AB,其中第一部分A和第二部分B分别包含一个或多个字符;从字典中检索该未知词w的相似词w1=AB1,其中C(B)=C(B1),C()表示语义类;以及如果C(B)=C(B1)=C(AB1)=c,则将未知词w分类到C(w)=c。
该方法同样将一种新的限制添加到第二型规则的基本思路中:对于一未知词w=AB,如果其相似词w1=AB1和w与w1的不同部分具有相同的语义类,即C(B1)=C(B)=C(w1),则可以更确信w和w1具有相同的语义类。在此情况下,如果产生多于一个分类结果,则需要引入某种冲突解决机制。例如,可以通过投票选出最终结果,或者可以根据预定标准或随机地选择结果之一,作为最终分类结果。
另外,本发明还公开了与上述三种方法及其改进方法所对应的系统。
如上所述,根据本发明的方法和系统,不仅能够适用于三字符词和四字符词,也能够适用于双字符词,因此可以实现更大的覆盖率,同时还可以提高分类的精确度。另外,在改进方法中,由于可以在输入未知词之前预先生成规则,然后将规则直接应用到未知词,因此可以节省检索相似词的时间,并从而提高系统的工作效率。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1示出根据传统技术的语义分类方法的流程图;
图2示出应用规则模型进行语义分类的系统的结构框图;
图3A和图3B分别示出应用第一型规则和第二型规则的分类方法的操作过程的流程图;
图4是示出根据本发明第一实施例的未知词语义分类系统400的内部结构的框图;
图5是示出图4所示系统的工作过程的流程图;
图6是示出根据本发明第一实施例的改进系统600的内部结构的框图;
图7是示出图6所示系统的工作过程的流程图;
图8是示出根据本发明第二实施例的未知词语义分类系统800的内部结构的框图;
图9是示出图8所示系统的工作过程的流程图;
图10是示出根据本发明第二实施例的改进系统1000的内部结构的框图;
图11是示出图10所示系统的工作过程的流程图;
图12是示出根据本发明第三实施例的未知词语义分类系统1200的内部结构的框图;以及
图13是示出图12所示系统的工作过程的流程图。
具体实施方式
下面将参考附图来详细描述本发明的实施例。值得注意的是,虽然在下面的示例中均以中文为例进行说明,但是本发明并不局限于中文这一种语言,其原理可以被更广泛的应用到其他基于字符(例如字母、文字)的语言。
并且在以下描述中,未知词w例如可以被描述为w=AB,这里表示未知词w由A和B两部分构成,其中A和B可以包含一个或多个字符。
上面提到,本发明提出了三种可被用于未知词的语义分类的新方法。下面将逐个进行描述。
<第一方法>
图4是示出根据本发明第一实施例的未知词语义分类系统400的内部结构的框图。
如图4所示,在该实施例中,系统400的内部结构可被分成两部分,即在图4中用虚线划分的两部分,其中左半部分被用于准备未知词分类所需的背景知识,右半部分被用于输入未知词以及参考背景知识对未知词进行语义分类。具体而言,系统400主要包括相似词集合收集装置401、相似词分组装置402、语义类记录装置403、未知词输入装置404、相似词集合选择装置405和分类装置406。可选地,系统400还可以包括比率计算装置407、第一记录结果控制装置408、第二记录结果控制装置409和结果选择装置410,这些可选模块由虚线框示出。另外,为了存储中间结果以及分类结果,系统400还包括用于存储字典的存储器411,用于存储相似词集合的存储器412、用于存储所记录的语义类Cmax(随后将描述)的存储器413以及用于存储分类结果的存储器414。
图5示出图4所示系统400的具体工作过程的流程图。图5的过程开始于步骤501,其中针对存储器411所存储的字典中的每个词根A,相似词集合收集装置401收集包含该词根A的所有相似词{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中词根A和Di(i=1,2,...,n)包含一个或多个字符,并且C(D1)=C(D2)=...=C(Dn)=c。这里,根据本发明的实施例,所收集的相似词集合中相似词的数目选择n≥2,以满足本发明原理的需要。所收集的针对不同词根的的相似词集合可以被存储在存储器412中,并在随后的未知词分类过程中用作参考。然后,在步骤502中,相似词分组装置402按语义类对每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词分组。举例来说,假设针对词根“人”,相似词集合收集装置401从字典中收集到相似词{好人,坏人,圣人,美人,强人},它们满足C(好)=C(坏)=C(圣)=C(美)=C(强)=c。然后,相似词分组装置402按照不同的语义类对该集合中的相似词进行分组,得到三个群组C(好人)=C(坏人)=C(圣人)=c1,C(美人)=c2,C(强人)=c3。接下来,在步骤503中,语义类记录装置403将包含相似词最多的语义类cmax记录下来。例如,在上例中,由于语义类c1包含的相似词数目最多(为3),因此cmax=c1。针对不同词根所得到的cmax都被记录下来并存储到存储器413中。可选地,在系统400中,还可以使用比率计算装置407、第一记录结果控制装置408和第二记录结果控制装置409对所记录的cmax结果进行进一步的控制。比率计算装置407可以计算所记录的语义类cmax所包含的相似词数目与整个相似词集合中的相似词数目之比。例如,在上例中,c1所对应的比率为3/5,而c2和c3所对应的比率均为1/5。第一记录结果控制装置408将比率计算装置407计算出的比率与预定的第一阈值Th1进行比较。若计算出的比率大于等于第一阈值Th1,则保留所记录的语义类cmax,并且若计算出的比率小于第一阈值Th1,则删除所记录的语义类cmax(步骤507)。在此情况下,针对相应词根,将不会有任何分类结果输出。进一步地,第二记录结果控制装置409还可以将语义类记录装置403所记录的语义类cmax所包含的相似词数目与预定的第二阈值Th2相比较。如果所记录的语义类cmax所包含的相似词数目大于等于第二阈值Th2,则保留所记录的语义类cmax(步骤506)。相反,如果所记录的语义类cmax所包含的相似词数目小于第二阈值Th2,则删除所记录的语义类cmax(步骤507)。同样地,在此情况下,针对相应词根,将不会有任何分类结果输出。经过上述结果控制,所保留的语义类cmax仍存储于存储器413中。在图4所示虚线右侧部分,未知词输入装置404可以输入一未知词w=XY,其中X和Y可以包含一个或多个字符(参见图5步骤508)。然后,在步骤509中,相似词集合选择装置405从存储器412中所存储的相似词集合中选出词根A满足A=X或A=Y的相似词集合。例如,如果未知词输入装置404输入一未知词w=“恶人”,则可以选出包含词根“恶”或“人”的所有相似词集合。然后,针对每组所选相似词,分类装置406判断是否满足A=X且C(Y)=c或A=Y且C(X)=c(步骤510和511)。如果找到满足上述条件的相似词集合,分类装置406则在步骤512中将该未知词w分类到针对该相似词集合所记录的语义类cmax。例如,对于未知词w=“恶人”,由于C(恶)=C(好)=C(坏)=C(圣)=C(美)=C(强)=c,因此可以例如选出相似词集合{好人,坏人,圣人,美人,强人}等。对于该相似词集合,由于在先前的步骤503中已经记录cmax=c1,因此可以将未知词w=“恶人”分类到语义类c1。在该示例中,如果预先设定第一阈值Th1=1/2,则cmax=c1,如果设定第一阈值Th1=4/5,则语义类cmax将被删除(步骤504);如果预先设定第二阈值Th2=2,则cmax=c1,如果预先设定Th2=4,则语义类cmax将被删除(步骤505)。在cmax被删除的情况下,将不能判断输入的未知词“恶人”应该被分类到哪个语义类。分类装置406所得到的针对输入的未知词w的所有分类结果(即相应的语义类)可以被存储到存储器414中。在步骤513中,如果针对同一未知词w存在唯一的分类结果,则可以将该结果直接输出。如果存在多于一个分类结果,则需要使用结果选择装置410来选择最终分类结果C(w)。对于多个分类结果,结果选择装置410可以通过投票来选择最终分类结果,也可以根据预定标准或随机选择结果之一,作为最终分类结果。
如上所述,根据该实施例,在图4所示系统中,用于分类未知词的背景知识可以在输入未知词之前预先准备,并被存储以备后用(例如虚线左侧部分所示)。为了进一步提高分类效率,可以预先从得到的背景知识中生成规则,并随后将生成的规则应用到未知词以对其进行分类。图6示出应用该改进方法的系统600的内部结构,图7示出图6所示系统600的具体工作流程。
如图6所示,系统600的内部结构与图4所示系统400类似,区别在于虚线左侧的部分由规则生成装置601含概,并且相似词集合选择装置405和分类装置406被规则选择装置603和规则应用装置604所取代。规则生成装置601具体包含相似词集合收集单元6011、用于存储相似词集合的存储器6012、相似词分组单元6013、语义类记录单元6014、用于存储语义类cmax的存储器6015、规则生成单元6016和规则存储单元6017,其中组件6011-6015的工作原理与图4所示系统400中组件401、412、402、403、413的工作原理类似,这里仅简要说明,不再赘述。
如图7所示,系统600的工作过程开始于步骤701。类似地,在步骤701中,相似词集合收集单元6011针对字典中的每个词根A,收集相似词集合。然后在步骤702中,相似词分组单元6013按不同的语义类对相似词集合中的相似词进行分组。在步骤703中,语义类记录单元6014记录包含相似词数目最多的语义类cmax。与系统400类似,系统600中的规则生成装置601也可以包含可选模块,即比率计算单元6018、第一记录结果控制单元6019和第二记录结果控制单元6020,用于对所记录的针对不同词根的cmax进行调整和控制。这里可选模块的工作原理与图4所示比率计算装置407、第一记录结果控制装置408和第二记录结果控制装置409的工作原理相同,即对应于图7所示步骤704-707。与系统400不同的是,系统600没有直接运用所记录的cmax进行未知词分类,而是针对各个词根所对应的相似词集合生成分类规则并将生成的规则应用到未知词以进行分类。具体而言,在步骤708中,规则生成单元6016针对每组相似词,生成如下规则:对于一未知词AY,若C(Y)=c,则C(AY)=Cmax,并且对于一未知词XA,若C(X)=c,则C(XA)=Cmax,其中A为词根,A、X和Y分别可包含一个或多个字符。生成的所有规则随后可以被存储在规则存储单元6017中。类似于系统400,系统600中的未知词输入装置602也可以输入一未知词w=XY(步骤710)。然后,在步骤711中,规则选择装置603从在规则存储单元6017中所存储的规则中选择适用于该未知词w的规则,即,选择所含词根A被该未知词w所包含的那些规则。在步骤712中,所选规则被应用到w,以确定w所属的语义类。所获得的分类结果被存储到存储器607中。类似于系统400,在针对某一未知词存在多个分类结果的情况下,可选的结果选择装置605可以通过投票、根据预定标准或随机地选择结果之一,作为最终的分类结果C(w)(步骤713)。
<第二方法>
图8是示出根据本发明第二实施例的未知词语义分类系统800的内部结构的框图。
与第一方法类似,根据该实施例的系统800同样被虚线分成左右两部分,其中左半部分用于获得用于未知词分类所需的背景知识,右半部分用于输入未知词以及进行语义分类。
如图8所示,系统800主要包括字符对收集装置801、单词收集装置802、单词对生成装置803、字符对过滤装置804、未知词输入装置805、字符对选择装置806和分类装置807。另外,系统800还包括用于存储字典的存储器809、用于存储中间结果(字符对集合)的存储器810和用于存储分类结果的存储器811。类似于第一实施例,在获得多个分类结果的情况下,可选地,系统800还包括结果选择装置808,用于选择结果之一,作为最终的语义分类结果。
图9示出图8所示系统800的具体工作过程的流程图。如图9所示,该过程开始于步骤901,其中针对字典中的每个语义类,字符对收集装置801从该语义类中收集任意两个单字符词,构成一字符对。然后,在步骤902中,单词收集装置802针对所形成的每个字符对,例如{A-B},收集字典中包含该字符对中任意一个字符A或B的所有单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm}。然后,在步骤903中,单词对生成装置803针对每个字符对,找到多个单词对{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs}。所谓单词对是这样一对单词,这对单词各自包含字符对中的两个单字符之一并且其余部分完全相同。例如,对于字符对{A-B},aiA-biB或Aai-Bbi可构成单词对,如果满足ai=bi。然后,在步骤904中,字符对过滤装置804判断所形成的单词对中是否包含相似词对,即满足C(aiA)=C(biB)或C(Aai)=C(Bbi)。如果含有相似词对,字符对过滤装置804则保留该字符对{A-B}(步骤905),并将其存储到存储其810中(步骤907)。否则,字符对过滤装置804将丢弃该字符对{A-B}(步骤906)。举例说明,假设对于一语义类“顶端”存在五个单词{终端,先端,峰,鸡冠,头}。由于“峰”和“头”为单字符词,因此可以选择{峰-头}构成一字符对。然后,单词收集装置802从字典中收集包含“峰”或“头”的所有单词,从而形成单词集合例如{上峰,洪峰,山峰,尖峰,上头,山头,尖头,木头}。从该单词集合,单词对生成装置803可以得到单词对{上峰-上头,山峰-山头,尖峰-尖头}。注意,“洪峰”和“木头”在这里被忽略,因为字典中没有对应的单词“洪头”和“木峰”。然后,字符对过滤装置804判断这些单词对中是否包含相似词对。由于C(上峰)=C(上头)并且C(山峰)=C(山头),因此可以确定对于该字符对{峰-头},存在相似词对,因此该字符对{峰-头}应该被保留并存储到存储器810中。这里,在其他示例中,可选地,字符对过滤装置804还可以被配置为计算所有单词对中包含的相似词对的比率,并且仅仅在计算出的比率大于预定阈值的情况下,才保留相应的字符对。例如,在上例中,C(上峰)=C(上头)并且C(山峰)=C(山头),但是C(尖峰)≠C(尖头),因此其中相似词对所占比率为2/3=67%。如果设定阈值=50%,则字符对{峰-头}可以被保留。如果设定阈值=70%,则字符对{峰-头}将被丢弃。
在步骤908中,未知词输入装置805可以输入一未知词w,并将其分解成Xy或yX的形式,其中X表示一个或多个字符,而y表示单字符。随后,在步骤909中,字符对选择装置806从存储在存储器810中的字符对中选择包含未知词w中的单字符y的字符对。例如,可以选择包含A=y的字符对。在步骤910中,分类装置807针对所选的每个字符对进行判断。具体而言,分类装置807判断由X和字符对中的另一字符B所构成的单词XB或XB是否在字典中(步骤911)。如果是,分类装置807则将该未知词w分类到C(w)=C(XB)或C(w)=C(BX)(步骤912)。例如,如果未知词输入装置805输入一未知词“眉峰”,字符对选择装置806可以从所存储的字符对中选出字符对{峰-头}。由于单词“眉头”存在于字典中,因此可以将该未知词“眉峰”分类到C(眉头)。由分类装置807所产生的语义分类结果可以被存储到存储器811中。类似于第一方法,在步骤913中,如果分类装置807针对一未知词获得多个分类结果,结果选择装置808则可以通过投票、根据预定标准或随机地选择结果之一,作为最终的分类结果。
类似于第一方法,在根据第二实施例的方法中,由于用于分类的背景知识可以在输入未知词之前预先准备,因此为了提高分类效率,同样可以预先生成用于分类的规则并将规则应用到未知词。
图10和图11分别示出上述对于第二实施例的改进语义分类系统1000及其具体工作流程。如图10所示,系统1000包含规则生成装置1001、未知词输入装置1002、规则选择装置1003和规则应用装置1004。可选地,系统1000还可以包括结果选择装置1005,用于在存在多个分类结果的情况下进行选择。规则生成装置1001例如可以包括字符对收集单元10011、单词收集单元10012、单词对生成单元10013、字符对过滤单元10014、规则生成单元10015和规则存储单元10016。其中,字符对收集单元10011、单词收集单元10012、单词对生成单元10013和字符对过滤单元10014的工作原理与图8所示系统800中的字符对收集装置801、单词收集装置802、单词对生成装置803和字符对过滤装置804的工作原理基本相同,这里仅简要说明,不作赘述。
参考图11,该图示出图10所示系统1000的具体工作流程。该过程开始于步骤1101,其中针对字典中的每个语义类,字符对收集单元10011从该语义类中收集任意两个单字符词,构成一字符对。然后,在步骤1102中,单词收集单元10012针对所形成的每个字符对,例如{A-B},收集字典中包含该字符对中任意一个字符A或B的所有单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm}。然后,在步骤1103中,单词对生成单元10013针对每个字符对,找到多个单词对{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中ai=bi(i=1,2,...,s)。然后,在步骤1104中,字符对过滤单元10014判断所形成的单词对中是否包含相似词对,即满足C(aiA)=C(biB)或C(Aai)=C(Bbi)。如果含有相似词对,字符对过滤单元10014则保留该字符对{A-B}(步骤1105)。否则,字符对过滤单元10014将丢弃该字符对{A-B}(步骤1106)。然后,在步骤1107中,规则生成单元10015针对所保留的每个字符对{A-B},生成如下规则:对于一未知词XA,若XB在字典中,则C(XA)=C(XB);以及对于一未知词AX,若BX在字典中,则C(AX)=C(BX),其中X和Y表示一个或多个字符。在步骤1108中,生成的所有规则被存储到规则存储单元10016中。在步骤1109中,未知词输入装置1002输入一未知词w,并将其分解为Xy或yX的形式,其中X包含一个或多个字符,y为单个字符。在步骤1110中,规则选择装置1003对于输入的未知词w,从存储在规则存储单元10016中的所有规则中选择适用于该未知词w的规则,即包含该未知词w中的单字符y的那些规则。然后,在步骤1111中,规则应用装置1004将所选择的规则应用到该未知词w,以确定其所属的语义类。在步骤1112中,确定针对w所获得的语义类的数目。如果其数目大于1,则结果选择装置1005选择结果之一并输出。
<第三方法>
图12是示出根据本发明第三实施例的未知词语义分类系统1200的内部结构的框图。
如图12所示,在该实施例中,系统1200包括未知词输入装置1201、相似词检索装置1202和分类装置1203。可选地,系统1200也可以包括结果选择装置1204,用于在存在多个分类结果的情况下进行选择。另外,系统1200还包括用于存储字典的存储器1205和用于存储分类结果的存储器1206。
图13是示出图12所示系统1200的工作流程的流程图。
如图13所示,该过程开始于步骤1301,其中,未知词输入装置1201可以输入一未知词w=AB,其中A和B均可以包含一个或多个字符。在步骤1302中,相似词检索装置1202从字典中检索该未知词w的相似词w1=AB1,其中C(B)=C(B1)(或者w2=A1B,其中C(A1)=C(A))。在步骤1303中,分类装置1203判断未知词w及其相似词w1(或相似词w2)是否满足:C(B)=C(B1)=C(AB1)=c(或C(A1)=C(A)=C(A1B)=c),其中c为一特定语义类。如果是,则将未知词w分类到C(w)=c。在步骤1304中,判断针对一未知词是否存在多个分类结果,如果是,则在步骤1305中,结果选择装置1204选择结果之一并输出(步骤1306)。如果存在唯一的分类结果,则直接输出该分类结果。
为了便于理解,下面举例说明该第三方法的工作原理。
示例1:假设输入一未知词“肌肉”。相似词检索装置1202可以从字典中检索出相似词“皮肉”。比较其不同的部分“肌”和“皮”,C(肌)=C(皮)=c。由于已知C(皮肉)=c,因此可以确定未知词“肌肉”所属的语义类也为c,即C(肌肉)=c。
示例2:假设输入一未知词“青菜”。相似词检索装置1202可以从字典中检索出三个相似词“青蒜”、“青豆”和“青麻”。并且,这三个相似词都满足如下条件:C(菜)=C(蒜)=C(青蒜)=c1,C(菜)=C(豆)=C(青豆)=c1,C(菜)=C(麻)=C(青麻)=c2。就是说,在此情况下,对于未知词“青菜”,存在两种不同的分类结果。如前所述,在此情况下,结果选择装置1204可以通过投票来选择结果之一。由于青蒜和青豆两个词都支持c1类,而只有青麻一个词支持c2类,因此通过投票,将未知词“青菜”分类到c1。
以上已经参考附图分别详细描述了根据本发明第一、第二和第三实施例的三种未知词语义分类方法。
如上所述,根据本发明的方法和系统,不仅能够适用于三字符词和四字符词,也能够适用于双字符词,因此可以实现更大的覆盖率,同时还可以提高分类的精确度。另外,在改进方法中,由于可以在输入未知词之前预先生成规则,然后将规则直接应用到未知词,因此可以节省检索相似词的时间,从而进一步提高系统的工作效率。
上面虽然已经描述了根据本发明的具体实施例,但是,本发明并不限于图中示出的特定配置和处理。另外,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (33)
1.一种用于对未知词进行语义分类的方法,包括:
针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;
按照不同的语义类,对所收集的每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;
记录所含相似词数目最多的群组的语义类cmax;
输入一未知词w=XY,其中X和Y各自包含一个或多个字符;
从所收集的各个相似词集合中选择其词根A满足A=X或A=Y的相似词集合;以及
对于所选的相似词集合,若满足A=X且C(Y)=c或者A=Y且C(X)=c,则将该未知词w分类到针对该词根A所记录的语义类cmax。
2.如权利要求1所述的方法,还包括:
计算所记录的语义类cmax所包含的相似词数目与整个相似词集合中的相似词数目之比;
若计算出的所述比率大于等于预定的第一阈值,则保留所记录的语义类cmax,并且
若计算出的所述比率小于所述第一阈值,则删除所记录的语义类cmax,并且不产生任何分类结果输出。
3.如权利要求2所述的方法,还包括:
如果所记录的语义类cmax所包含的相似词数目大于等于预定的第二阈值,则保留所记录的语义类cmax;并且
如果所记录的语义类cmax所包含的相似词数目小于预定的第二阈值,则删除所记录的语义类cmax,并且不产生任何分类结果输出。
4.如权利要求1所述的方法,其中对于输入的未知词w,如果得到多个分类结果,则通过投票来选择最终分类结果。
5.如权利要求1所述的方法,其中对于输入的未知词w,如果得到多个分类结果,则根据预定标准或随机选择结果之一,作为最终分类结果。
6.一种用于对未知词进行语义分类的方法,包括:
通过以下步骤,预先生成用于分类未知词的一个或多个规则:
针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;
按照不同的语义类,对所收集的每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;
记录所含相似词数目最多的群组的语义类cmax;并且
对于所收集的每个相似词集合{AD1,AD2,...ADn},生成一规则:对于一未知词AY,若C(Y)=c,则将AY分类到所记录的语义类cmax,
对于所收集的每个相似词集合{D1A,D2A,...DnA},生成一规则:对于一未知词XA,若C(X)=c,则将XA分类到所记录的语义类cmax,
其中X和Y分别包含一个或多个字符;
存储生成的所有规则;
输入一未知词w;
从所存储的所有规则中选择适用于所述未知词w的规则,即所含词根A被所述未知词w所包含的那些规则;以及
将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类。
7.如权利要求6所述的方法,其中所述生成规则的步骤还包括:
计算所记录的语义类cmax所包含的相似词数目与整个相似词集合中的相似词数目之比;
若计算出的所述比率大于等于预定的第一阈值,则保留所记录的语义类cmax,并且
若计算出的所述比率小于所述第一阈值,则删除所记录的语义类cmax,并且不生成任何规则。
8.如权利要求7所述的方法,其中所述生成规则的步骤还包括:
如果所记录的语义类cmax所包含的相似词数目大于等于预定的第二阈值,则保留所记录的语义类cmax;并且
如果所记录的语义类cmax所包含的相似词数目小于预定的第二阈值,则删除所记录的语义类cmax,并且不生成任何规则。
9.一种用于对未知词进行语义分类的方法,包括:
针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;
对于所生成的每个字符对{A-B},收集字典中包含该字符对中任一字符的单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;
找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);
若所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};
输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;
从所保留的字符对中选择满足A=y的字符对;以及
对于所选字符对,如果单词XB或BX在字典中,则确定未知词w所属的语义类为C(w)=C(XB)或C(w)=C(BX)。
10.如权利要求9所述的方法,还包括:
计算每个所述单词对集合中包含的相似词对的比率;并且
只有所述比率大于阈值,才保留相应的字符对{A-B}。
11.如权利要求9所述的方法,其中对于输入的未知词w,如果得到多个分类结果,则通过投票来选择最终分类结果。
12.如权利要求9所述的方法,其中对于输入的未知词w,如果得到多个分类结果,则根据预定标准或随机选择结果之一,作为最终分类结果。
13.一种用于对未知词进行语义分类的方法,包括:
通过以下步骤,预先生成用于分类未知词的一个或多个规则:
针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;
对于所生成的每个字符对{A-B},收集字典中包含该字符对中任一字符的所有单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;
找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);
若所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};以及
对于所保留的每个字符对{A-B},生成如下规则:
对于一未知词XA,若单词XB在字典中,则C(XA)=C(XB),并且
对于一未知词AX,若单词BX在字典中,则C(AX)=C(BX),
其中X包含一个或多个字符;
存储生成的所有规则;
输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;
对于输入的所述未知词w,从所存储的所有规则中选择适用于所述未知词w的规则,即相应字符对中的任一字符被所述未知词w所包含的那些规则;以及
将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类。
14.如权利要求13所述的方法,其中所述生成规则的步骤还包括:
计算每个所述单词对集合中包含的相似词对的比率;并且
只有所述比率大于阈值,才保留相应的字符对{A-B}。
15.一种用于对未知词进行语义分类的方法,包括:
输入一未知词w=AB,其中第一部分A和第二部分B分别包含一个或多个字符;
从字典中检索该未知词w的相似词w1=AB1,其中C(B)=C(B1),C()表示语义类;以及
如果C(B)=C(B1)=C(AB1)=c,则将未知词w分类到C(w)=c。
16.如权利要求15所述的方法,还包括:
从字典中检索该未知词w的相似词w2=A1B,其中C(A)=C(A1);并且
如果C(A)=C(A1)=C(A1B)=c,则将未知词w分类到C(w)=c。
17.如权利要求15所述的方法,如果从字典中检索出所述未知词w的多个相似词w1=AB1,w2=AB2,...wn=ABn,并且其中有m个相似词w1,w2,...wm满足C(B)=C(B1)=C(AB1),C(B)=C(B2)=C(AB2),...,C(B)=C(Bm)=C(ABm),则通过投票或根据预定标准来选择结果之一,作为最终分类结果。
18.如权利要求16所述的方法,如果从字典中检索出所述未知词w的多个相似词w1=A1B,w2=A2B,...wn=AnB,并且其中有m个相似词w1,w2,...wm满足C(A)=C(A1)=C(A1B),C(A)=C(A2)=C(A2B),...,C(A)=C(Am)=C(AmB),则通过投票或根据预定标准来选择结果之一,作为最终分类结果。
19.一种用于对未知词进行语义分类的系统,包括:
相似词集合收集装置,用于针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;
相似词分组装置,用于按照不同的语义类,对所收集的每个相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;
语义类记录装置,用于记录所含相似词数目最多的群组的语义类cmax;
未知词输入装置,用于输入一未知词w=XY,其中X和Y分别包含一个或多个字符;
相似词集合选择装置,用于从所收集的各个相似词集合中选择其词根A满足A=X或A=Y的相似词集合;以及
分类装置,用于针对所选的每个相似词集合,若满足A=X且C(Y)=c或者A=Y且C(X)=c,则将该未知词w分类到所述语义类记录装置针对该词根A所记录的语义类cmax。
20.如权利要求19所述的系统,还包括:
比率计算装置,用于计算所述语义类记录装置所记录的语义类cmax所包含的相似词数目与整个相似词集合中的相似词数目之比;以及
第一记录结果控制装置,用于:
如果所述比率计算装置计算出的所述比率大于等于预定的第一阈值,则保留所述语义类记录装置所记录的语义类cmax,并且
如果所述比率计算装置计算出的所述比率小于所述第一阈值,则删除所述语义类记录装置所记录的语义类cmax。
21.如权利要求20所述的系统,还包括:
第二记录结果控制装置,用于
如果所述语义类记录装置所记录的语义类cmax所包含的相似词数目大于等于预定的第二阈值,则保留所记录的语义类cmax;并且
如果所述语义类记录装置所记录的语义类cmax所包含的相似词数目小于预定的第二阈值,则删除所记录的语义类cmax。
22.一种用于对未知词进行语义分类的系统,包括:
规则生成装置,用于生成用于分类未知词的一个或多个规则,该规则生成装置包括:
相似词集合收集单元,用于针对字典中的每个词根A,收集包含该词根A的相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA},其中所述词根A包含一个或多个字符,Di(i=1,2,...,n)包含一个或多个字符并且满足C(D1)=C(D2)=...=C(Dn)=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;
相似词分组单元,用于按照不同的语义类,对所收集的每个所述相似词集合{AD1,AD2,...ADn}或{D1A,D2A,...DnA}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;
语义类记录单元,用于记录所含相似词数目最多的群组的语义类cmax;
规则生成单元,用于针对所收集的每个相似词集合{AD1,AD2,...ADn},生成一规则:对于一未知词AY,若C(Y)=c,则将AY分类到针对词根A所记录的语义类cmax;并且针对所收集的每组相似词{D1A,D2A,...DnA},生成一规则:对于一未知词XA,若C(X)=c,则将XA分类到针对词根A所记录的语义类cmax;以及
规则存储单元,用于存储生成的所有规则,
未知词输入装置,用于输入一未知词w;
规则选择装置,用于针对输入的所述未知词w,从所述规则存储单元中存储的所有规则中选择适用于所述未知词w的规则,即所含词根A被所述未知词w所包含的那些规则;以及
规则应用装置,用于将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类。
23.如权利要求22所述的系统,其中所述规则生成装置还包括:
比率计算单元,用于计算所述语义类记录单元所记录的语义类cmax所包含的相似词数目与整个相似词集合中的相似词数目之比;以及
第一记录结果控制单元,用于:
如果所述比率计算单元计算出的所述比率大于等于预定的第一阈值,则保留所述语义类记录单元所记录的语义类cmax,并且
如果所述比率计算单元计算出的所述比率小于所述第一阈值,则删除所述语义类记录单元所记录的语义类cmax。
24.如权利要求23所述的系统,其中所述规则生成装置还包括:
第二记录结果控制单元,用于
如果所述语义类记录单元所记录的语义类cmax所包含的相似词数目大于等于预定的第二阈值,则保留所记录的语义类cmax;并且
如果所述语义类记录单元所记录的语义类cmax所包含的相似词数目小于预定的第二阈值,则删除所记录的语义类cmax。
25.如权利要求22所述的系统,还包括:
结果选择装置,用于在所述规则应用装置得到多个分类结果的情况下,通过投票、根据预定标准或随机地选择最终分类结果。
26.一种用于对未知词进行语义分类的系统,包括:
字符对收集装置,用于针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;
单词收集装置,用于针对所生成的每个字符对{A-B},收集字典中包含该字符对中任一字符的单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;
单词对生成装置,用于找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);
字符对过滤装置,用于如果所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};
未知词输入装置,用于输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;
字符对选择装置,用于从所保留的字符对中选择满足A=y的字符对;以及
分类装置,用于针对所选字符对,如果单词XB或BX在字典中,则确定未知词w所属的语义类为C(w)=C(XB)或C(w)=C(BX)。
27.一种用于对未知词进行语义分类的系统,包括:
规则生成装置,用于生成用于分类未知词的一个或多个规则,该规则生成装置包括:
字符对收集单元,用于针对字典中的每个语义类,收集属于该语义类的两个单字符词,组成一字符对;
单词收集单元,用于针对每个字符对{A-B},收集字典中包含该字符对中任一字符的单词,以构成单词集合{a1A,a2A,a3A,...anA,b1B,b2B,b3B,...bmB}或{Aa1,Aa2,Aa3,...Aan,Bb1,Bb2,Bb3,...Bbm},其中ai(i=1,2,...,n)和bj(j=1,2,...,m)各自包含一个或多个字符;
单词对生成单元,用于找到所收集的单词集合中的配对单词,以构成单词对集合{a1A-b1B,a2A-b2B,...asA-bsB}或{Aa1-Bb1,Aa2-Bb2,...Aas-Bbs},其中al=bl(l=1,2,...,s);
字符对过滤单元,用于如果所述单词对集合中包含至少一个相似词对C(aiA)=C(biB)或C(Aai)=C(Bbi),C()表示语义类,则保留该字符对{A-B};
规则生成单元,用于针对所保留的每个字符对{A-B},生成如下规则:
对于一未知词XA,若单词XB在字典中,则C(XA)=C(XB),并且
对于一未知词AX,若单词BX在字典中,则C(AX)=C(BX),
其中X包含一个或多个字符;以及
规则存储单元,用于存储生成的所有规则;
未知词输入装置,用于输入一未知词w,并将其分解为Xy或yX形式,其中X包含一个或多个字符,y为单个字符;
规则选择装置,用于针对输入的所述未知词w,从所述规则存储单元中存储的所有规则中选择适用于所述未知词w的规则,即相应字符对中的任一字符被所述未知词w所包含的那些规则;以及
规则应用装置,用于将所选择的规则应用到所述未知词w,以确定所述未知词w所属的语义类。
28.如权利要求27所述的系统,其中所述规则生成装置还包括:
计算单元,用于计算每个所述单词对集合中包含的相似词对的比率;并且
所述字符对过滤单元只在所述计算单元计算出的所述比率大于阈值时,才保留相应的字符对{A-B}。
29.如权利要求27所述的系统,还包括:
结果选择装置,用于在所述规则应用装置得到多个分类结果的情况下,通过投票、根据预定标准或随机地选择最终分类结果。
30.一种用于对未知词进行语义分类的系统,包括:
未知词输入装置,用于输入一未知词w=AB,其中第一部分A和第二部分B分别包含一个或多个字符;
相似词检索装置,用于从字典中检索该未知词w的相似词w1=AB1,其中C(B)=C(B1),C()表示语义类;以及
分类装置,用于如果C(B)=C(B1)=C(AB1)=c,则将未知词w分类到C(w)=c。
31.如权利要求30所述的系统,其中
所述相似词检索装置还从字典中检索出所述未知词w的相似词w2=A1B,其中C(A)=C(A1);并且
所述分类装置判断是否满足C(A)=C(A1)=C(A1B)=c,若满足,则将未知词w分类到C(w)=c。
32.如权利要求30所述的系统,还包括结果选择装置,如果所述相似词检索装置从字典中检索出所述未知词w的多个相似词w1=AB1,w2=AB2,...wn=ABn,并且其中有m个相似词w1,w2,...wm满足C(B)=C(B1)=C(AB1),C(B)=C(B2)=C(AB2),...,C(B)=C(Bm)=C(ABm),则所述结果选择装置通过投票或根据预定标准来选择结果之一,作为最终分类结果。
33.如权利要求31所述的系统,还包结果选择装置,如果所述相似词检索装置从字典中检索出所述未知词w的多个相似词w1=A1B,w2=A2B,...wn=AnB,并且其中有m个相似词w1,w2,...wm满足C(A)=C(A1)=C(A1B),C(A)=C(A2)=C(A2B),...,C(A)=C(Am)=C(AmB),则所述结果选择装置通过投票或根据预定标准来选择结果之一,作为最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910006527A CN101794281A (zh) | 2009-02-04 | 2009-02-04 | 用于对未知词进行语义分类的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910006527A CN101794281A (zh) | 2009-02-04 | 2009-02-04 | 用于对未知词进行语义分类的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101794281A true CN101794281A (zh) | 2010-08-04 |
Family
ID=42586985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910006527A Pending CN101794281A (zh) | 2009-02-04 | 2009-02-04 | 用于对未知词进行语义分类的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101794281A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646091A (zh) * | 2011-02-22 | 2012-08-22 | 日电(中国)有限公司 | 依存关系标注方法、装置和系统 |
CN102902665A (zh) * | 2012-09-25 | 2013-01-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的系统 |
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN103037027A (zh) * | 2012-12-10 | 2013-04-10 | 中国科学院计算机网络信息中心 | 基于相似字组的国际化域名注册方法及系统 |
CN103116658A (zh) * | 2013-03-12 | 2013-05-22 | 中科软科技股份有限公司 | 一种行业应用软件词根表的分类进退方法 |
CN103150376A (zh) * | 2013-03-12 | 2013-06-12 | 中科软科技股份有限公司 | 一种行业应用软件词根表的构建方法 |
CN105183711A (zh) * | 2015-08-17 | 2015-12-23 | 福建天晴数码有限公司 | 寻找相近语义汉字对的方法和装置 |
CN107305543A (zh) * | 2016-04-22 | 2017-10-31 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN109887495A (zh) * | 2017-12-05 | 2019-06-14 | 卡西欧计算机株式会社 | 声音处理装置、声音处理方法及记录介质 |
CN110069753A (zh) * | 2018-01-24 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 一种生成相似度信息的方法和装置 |
-
2009
- 2009-02-04 CN CN200910006527A patent/CN101794281A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646091A (zh) * | 2011-02-22 | 2012-08-22 | 日电(中国)有限公司 | 依存关系标注方法、装置和系统 |
CN102646091B (zh) * | 2011-02-22 | 2014-03-12 | 日电(中国)有限公司 | 依存关系标注方法、装置和系统 |
CN102902665A (zh) * | 2012-09-25 | 2013-01-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的系统 |
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN102929858B (zh) * | 2012-09-25 | 2015-09-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN102902665B (zh) * | 2012-09-25 | 2015-01-07 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的系统 |
CN103037027B (zh) * | 2012-12-10 | 2015-05-13 | 中国科学院计算机网络信息中心 | 基于相似字组的国际化域名注册方法及系统 |
CN103037027A (zh) * | 2012-12-10 | 2013-04-10 | 中国科学院计算机网络信息中心 | 基于相似字组的国际化域名注册方法及系统 |
CN103116658A (zh) * | 2013-03-12 | 2013-05-22 | 中科软科技股份有限公司 | 一种行业应用软件词根表的分类进退方法 |
CN103150376A (zh) * | 2013-03-12 | 2013-06-12 | 中科软科技股份有限公司 | 一种行业应用软件词根表的构建方法 |
CN103116658B (zh) * | 2013-03-12 | 2015-10-07 | 中科软科技股份有限公司 | 一种行业应用软件词根表的分类进退方法 |
CN105183711A (zh) * | 2015-08-17 | 2015-12-23 | 福建天晴数码有限公司 | 寻找相近语义汉字对的方法和装置 |
CN107305543A (zh) * | 2016-04-22 | 2017-10-31 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN107305543B (zh) * | 2016-04-22 | 2021-05-11 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN109887495A (zh) * | 2017-12-05 | 2019-06-14 | 卡西欧计算机株式会社 | 声音处理装置、声音处理方法及记录介质 |
CN109887495B (zh) * | 2017-12-05 | 2023-04-07 | 卡西欧计算机株式会社 | 声音处理装置、声音处理方法及记录介质 |
CN110069753A (zh) * | 2018-01-24 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 一种生成相似度信息的方法和装置 |
CN110069753B (zh) * | 2018-01-24 | 2024-08-16 | 北京京东尚科信息技术有限公司 | 一种生成相似度信息的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101794281A (zh) | 用于对未知词进行语义分类的系统和方法 | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN102165435B (zh) | 使用因特网语料库的自动上下文相关语言产生、校正和增强 | |
Ghani et al. | Data mining on symbolic knowledge extracted from the web | |
CN105608200A (zh) | 一种网络舆论趋势预测分析方法 | |
CN107818334A (zh) | 一种移动互联网用户访问模式表征和聚类方法 | |
Archak et al. | Mining advertiser-specific user behavior using adfactors | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
CN101937436B (zh) | 一种文本分类方法及装置 | |
CN103473231A (zh) | 分类器构建方法和系统 | |
CN111782637A (zh) | 一种模型构建方法、装置及设备 | |
CN104331493A (zh) | 通过计算机实现的用于生成趋势解释数据的方法及装置 | |
CN103150409B (zh) | 一种用户检索词推荐的方法及系统 | |
CN108111310A (zh) | 一种候选口令字典的生成方法与装置 | |
Subramanian et al. | UP-GNIV: an expeditious high utility pattern mining algorithm for itemsets with negative utility values | |
CN108027824B (zh) | 未来脚本生成装置和方法、以及计算机可读存储介质 | |
CN114238360A (zh) | 一种用户行为分析系统 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Radovanović et al. | Framework for integration of domain knowledge into logistic regression | |
CN107133317A (zh) | 一种基于新词的网络舆情主题抽取方法 | |
Hachaj et al. | What can be learned from bigrams analysis of messages in social network? | |
Tohalino et al. | Extractive multi-document summarization using dynamical measurements of complex networks | |
de Moura | Social network analysis at scale: graph-based analysis of Twitter trends and communities | |
Zhang et al. | Fake Financial News Detection with Deep Learning: Evidence from China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100804 |