发明内容
本发明提供了一种依据贡献度排序的方法及装置,通过计算并综合排序目标项在至少两个维度的贡献度向量,利用综合后的贡献度向量对排序目标项排序,提高了对排序目标项排序的准确度,使排序目标项的顺序更符合用户的使用习惯。
本发明提供了一种依据贡献度排序的方法,所述方法包括:
确定排序目标项,并根据所述排序目标项的特征,选取至少两个维度;
统计所述排序目标项在所述至少两个维度上的排序参数;
根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量;
依据所述维度的权重对归一化的所述贡献度向量计算综合贡献度向量;
根据所述综合贡献度向量对所述排序目标项进行排序。
优选的,当所述排序目标项为词条释义项的代表释义项时,所述至少两个维度为以下维度中的至少两个维度:
字频;长度频度;例句中出现频度;语料库中出现频度;词典中出现的频度;排列顺序;规范性;
所述统计所述排序目标项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在所述至少两个维度上的排序参数;
所述根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量包括:
根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量;
所述根据所述综合贡献度向量对所述排序目标项进行排序包括:
根据所述综合贡献度向量对所述代表释义项进行排序。
优选的,当所述至少两个维度中的一个维度为字频时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述词条所有释义项中每个字的频次;
根据所述统计的频次计算所述代表释义项的平均字频;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述代表释义项的平均字频和所述代表释义项的平均字频和,计算所述代表释义项的字频贡献度向量。
优选的,当所述至少两个维度中的一个维度为长度频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述词条所有释义项的长度及所述长度的频次;
获取所述代表释义项的长度的频次;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述代表释义项的长度的频次和所述代表释义项的长度的频次和,计算所述代表释义项的长度贡献度向量。
优选的,当所述至少两个维度中的一个维度为例句中出现频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在查询结果的例句中出现的频次;
计算所述代表释义项在查询结果的例句中出现的频次和;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述在查询结果的例句中出现的频次和所述在查询结果的例句中出现的频次和,计算所述代表释义项的例句频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为语料库中出现频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在所述语料库的词频表中出现的频次;
计算所述代表释义项在所述语料库的词频表中出现的频次和;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据在所述语料库的词频表中出现的频次和在所述语料库的词频表中出现的频次和,计算所述代表释义项的语料库频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为词典中出现频度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述代表释义项在所述词典中所述词条的释义项中出现的频次;
计算所述代表释义项在所述词典中所述词条的释义项中出现的频次和;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据在所述词典中所述词条的释义项中出现的频次和在所述词典中所述词条的释义项中出现的频次和,计算所述代表释义项的词典频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为排列顺序维度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
按照所述代表释义项在当前词典中的前后顺序赋分;其中,在前的代表释义项分数高于在后的代表释义项分数;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述分数计算所述代表释义项的顺序贡献度向量。
优选的,当所述至少两个维度中的一个维度为规范性维度时,所述统计所述代表释义项在所述至少两个维度上的排序参数包括:
统计所述代表释义项中的不规范字符及所述字符与所述代表释义项的对应关系;
所述根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量包括:
根据所述统计的不规范字符和所述对应关系降低初始化的规范性贡献度向量中对应代表释义项的向量值,生成所述代表释义项的规范性贡献度向量。
本发明还提供了一种依据贡献度排序的装置,所述装置包括:
确定单元,用于确定排序目标项;
选择单元,用于根据所述排序目标项的特征,选取至少两个维度;
排序参数单元,用于统计所述排序目标项在所述至少两个维度上的排序参数;
贡献度向量单元,用于根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量;
综合贡献度向量单元,用于依据所述维度的权重对归一化的所述贡献度向量计算综合贡献度向量;
排序单元,用于根据所述综合贡献度向量对所述排序目标项进行排序。
优选的,当所述排序目标项为词条释义项的代表释义项时,所述至少两个维度为以下维度中的至少两个维度:
字频;长度频度;例句中出现频度;语料库中出现频度;词典中出现的频度;排列顺序;规范性;
所述排序参数单元,还用于统计所述代表释义项在所述至少两个维度上的排序参数;
所述贡献度向量单元,还用于根据所述排序参数,计算所述代表释义项在所述至少两个维度上的贡献度向量;
所述综合贡献度向量单元,还用于根据所述综合贡献度向量对所述代表释义项进行排序。
优选的,当所述至少两个维度中的一个维度为字频时,所述排序参数单元包括:
字频单元,用于统计所述词条所有释义项中每个字的频次;
平均字频单元,用于根据所述统计的频次计算所述代表释义项的平均字频;
所述贡献度向量单元包括:
字频贡献度向量单元,用于根据所述代表释义项的平均字频和所述代表释义项的平均字频和,计算所述代表释义项的字频贡献度向量。
优选的,所述至少两个维度中的一个维度为长度频度时,所述排序参数单元包括:
第一长度频次单元,用于统计所述词条所有释义项的长度及所述长度的频次;
第二长度频次单元,用于获取所述代表释义项的长度的频次;
所述贡献度向量单元包括:
长度贡献度向量单元,用于根据所述代表释义项的长度的频次和所述代表释义项的长度的频次和,计算所述代表释义项的长度贡献度向量。
优选的,当所述至少两个维度中的一个维度为例句中出现频度时,所述排序参数单元包括:
第一例句频次单元,用于统计所述代表释义项在查询结果的例句中出现的频次;
第二例句频次单元,用于计算所述代表释义项在查询结果的例句中出现的频次和;
所述贡献度向量单元包括:
例句贡献度向量单元,用于根据所述在查询结果的例句中出现的频次和所述在查询结果的例句中出现的频次和,计算所述代表释义项的例句频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为语料库中出现频度时,所述排序参数单元包括:
第一语料库频次单元,用于统计所述代表释义项在所述语料库的词频表中出现的频次;
第二语料库频次单元,用于计算所述代表释义项在所述语料库的词频表中出现的频次和;
所述贡献度向量单元包括:
语料库贡献度向量单元,用于根据在所述语料库的词频表中出现的频次和在所述语料库的词频表中出现的频次和,计算所述代表释义项的语料库频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为词典中出现频度时,所述排序参数单元包括:
第一词典频次单元,用于统计所述代表释义项在所述词典中所述词条的释义项中出现的频次;
第二词典频次单元,用于计算所述代表释义项在所述词典中所述词条的释义项中出现的频次和;
所述贡献度向量单元包括:
词典贡献度向量单元,用于根据在所述词典中所述词条的释义项中出现的频次和在所述词典中所述词条的释义项中出现的频次和,计算所述代表释义项的词典频度贡献度向量。
优选的,当所述至少两个维度中的一个维度为排列顺序维度时,所述排序参数单元包括:
赋分单元,用于按照所述代表释义项在当前词典中的前后顺序赋分;其中,在前的代表释义项分数高于在后的代表释义项分数;
所述贡献度向量单元包括:
顺序贡献度向量单元,用于根据所述分数计算所述代表释义项的顺序贡献度向量。
优选的,当所述至少两个维度中的一个维度为规范性维度时,所述排序参数单元包括:
规范单元,用于统计所述代表释义项中的不规范字符及所述字符与所述代表释义项的对应关系;
所述贡献度向量单元包括:
规范性贡献度向量单元,用于根据所述统计的不规范字符和所述对应关系降低初始化的规范性贡献度向量中对应代表释义项的向量值,生成所述代表释义项的规范性贡献度向量。
与现有技术相比,本发明具有如下有益效果:
本发明通过计算排序目标项在至少两个维度的贡献度向量,并根据各维度的贡献大小赋以相应的权重,综合引入多个贡献度向量后,根据综合贡献度向量对排序目标项进行筛选排序,从而使得排序结果与人工筛选相比更加准确,使排序目标项的顺序更符合用户的使用习惯。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例1提供了一种依据贡献度排序的方法,该方法包括:
S11、确定排序目标项,并根据所述排序目标项的特征,选取至少两个维度。
本发明中排序目标项是指需要对其排序的对象,比如词典中词条对应的释义项,搜索引擎的结果项或是论坛中的评论等。
排序目标项的特征不同,影响其排序的维度就不同。比如对搜索引擎来讲,一个结果是否应该排在前面跟其对应的网页的浏览量有关,而跟搜索结果中对应的词条或字符在语料库中的频度关系较小。因此在应用本发明时,需要根据排序目标项的特点,对维度进行选择。
在本发明实施例中,以词典中词条的释义项为例对其进行说明。对应词条释义项,在本发明的具体实施例中,至少两个维度优选以下维度中的至少两个:字频;长度频度;例句中出现频度;语料库中出现频度;其他词典中出现的频度;顺序;规范性。可以明确的是,选用的维度越多,考虑的因素越全面,排序的准确度就越高。在本发明的优选实施例中,当释义项在选用的维度上计算出的贡献度向量相同时,可以继续选用其他维度进行计算。
词典中的词条通常具有多个词性,比如一词条既是名词又是形容词,用户在查看时习惯同一词性的释义项排列在一起。为方便描述和理解,在本发明的实施例中,选择释义项具体指同一词条同一词性的释义项。
词条具有同义释义项。同义释义项是指用不同的词组表达相同或相类似解释的释义项。在词典中,通常具有同一标号。比如单词:same的汉语解释是:adj.1.同一的2.相同的;同样的;(与...)相同的;一模一样的。很容易的可以看出,在same的释义项中,标号为1的一个释义项为一组同义释义项,标号为2的四个释义项为一组同义释义项。在对释义项排序时,一组同义释义项中的各释义项是绑定在一起排列的,因此,为避免造成排序混乱,同时提高排序速度,可只选择同义释义项中的一个释义项为代表释义项。通过计算代表释义项在至少两个维度上的贡献度向量进行排序。
具体的,可以选择同义释义项中的第一个释义项为代表释义项。定义代表释义项为Wi。比如上述的same中其代表释义项W1就是“同一的”,W2就是“相同的”。当然也可以通过一些计算来选择释义项,比如利用与下述相同的计算字频贡献度向量的方法计算同义释义项的向量大小,并选择向量最大的释义项为代表释义项。本发明不对具体的选择过程做限制。
S12、统计排序目标项在至少两个维度上的排序参数。
排序参数是指排序目标项本身具有的对其排序有影响的参数。根据维度和排序目标项的不同,排序参数也不相同。
S13、根据排序参数,计算排序目标项在至少两个维度上的贡献度向量。
S14、依据维度的权重对归一化的贡献度向量计算综合贡献度向量。
因为各个维度的计算规则和基数不相同,为之后进行综合,须首先将获得的贡献度向量进行归一化。
接着综合归一化后的贡献度向量,生成综合贡献度向量。
归一化后会获得一个综合的贡献度向量P=(V1,V2,...Vn),其依次对应代表释义项(W1,W2......Wn).
S15、根据综合贡献度向量对排序目标项进行排序。
具体的可以按照综合贡献度向量的大小对对应的排序目标项排序。通常,向量值越大,排序越靠前。
下面以代表释义项为例,对每一维度上贡献度向量的计算进行描述。
本发明实施例2是对释义项在字频维度上贡献度向量的计算过程。
选取字频为一个排序维度的基础在于,如果一个代表释义项中的字出现的频次较多,那么该代表释义项被用到的概率就大,也就是该代表释义项是比较常用的。
首先统计代表释义项在至少两个维度上的排序参数,参见图2,具体包括:
S21、统计词条所有释义项中每个字的频次。
定义每个字为Ai。以same为例,统计其所有释义项中每个字的频次,则A1为同,频次为4;A2为一,频次为3;A3为的,频次为5;A4为相,频次为2;A5为样,频次为2;A6为模,频次为1。为后续计算时,方便取用该统计数值,可将统计结果放入%hash中。
特别地,为避免不具有实际意义的字符对排序造成影响,可将这些字符从释义项中预先删除。比如括号或“与”字等。当然并非是指所有的“与”字都要删除,而是对本技术方案的统计步骤无实际贡献意义时删除。在具体判断时,可以通过判断一个字是否在括号内的方式进行。比如上述示例中的“(与...)相同”中的“与”字。当然这只是一种具体的方式,本发明对此不做具体限制。
S22、根据统计的频次计算代表释义项的平均字频。
为避免因为一个代表释义项包含的字数多,而造成字频数多,从而导致该代表释义项被误认为是常用的,可以计算该代表释义项的平均字频。
定义每一代表释义项中的每个字为Zn,则Wi=Z1Z2......Zn。Wi的字频数为Wi中包含的字符的频次之和。其平均字频就为该代表释义项的字符频次之和除以字符数即n。定义平均字频为SCORE(Wi),则可通过如下公式进行计算:
比如上述same的W2=Z1Z2Z3.其中Z1为相,Z2为同,Z3为的。则SCORE(W2)为11/3。
根据排序参数,计算代表释义项在至少两个维度上的贡献度向量,参见图2,具体为:
S23、根据代表释义项的平均字频和代表释义项的平均字频和,计算代表释义项的字频贡献度向量。
代表释义项的平均字频和等于所有代表释义项的平均字频之和。定义释义项的平均字频和为SUM,则
以same为例,SUM=SCORE(W1)+SCORE(W2)=4+11/3=23/3。
定义字频贡献度向量为P1,则P1=(SCORE(W1),SCORE(W2)...,SCORE(Wn))/SUM。
本发明实施例3是代表释义项在长度维度上贡献度向量的计算过程。
选取长度频度为排序维度的基础在于,如果一个代表释义项的长度值在所有的代表释义项的长度值中出现的频次较多,那么该代表释义项的长度就是比较常用的一个长度。也就是说,该长度对应的代表释义项是比较常用的或比较符合用户使用习惯的。
首先统计代表释义项在至少两个维度上的排序参数,参见图3,具体包括:
S31、统计词条所有释义项的长度及长度频次。
在本发明实施例中,释义项的长度可以以释义项中包含字的个数为依据,一个字为一个单位长度。长度频次是指同一长度出现的频次。比如在same的释义项中,其五个释义项的长度依次是3,3,3,3,5。那么长度3的频次为4,长度5的频次为1。具体的,可将统计出的长度及长度频次放入%hash_length中。当然,如果是中文以外文字的长度计算,可以以一个单词为单位,可以以词组为单位,视具体情况选择。
S32、从上述统计结果中获取代表释义项的长度频次。
对应代表释义项Wi,定义其长度频次为SCORE(Wi),则可直接读取%hash_length中对应Wi的长度频次。具体为:SCORE(Wi)=$hash_length{length(Wi)}。
以same的第一个代表释义项“同一的”为例,其长度为3,对应该长度的频次为4。
根据排序参数,计算代表释义项在至少两个维度上的贡献度向量包括:
S33、根据代表释义项的长度频次以及代表释义项的长度频次和,计算代表释义项的长度贡献度向量。
代表释义项的长度频次和具体为:
定义长度贡献度向量为P2,则P2=(SCORE(W1),SCORE(W2)...,SCORE(Wn))/SUM。
本发明实施例4是对释义项在例句中出现频度的维度上贡献度向量的计算过程。
在词典中通常会提供对应部分或全部释义项的例句供读者理解。一般在例句中出现的较多的释义项是比较重要和常用的释义项,因此释义项在例句中的贡献度向量与释义项的排序相关。
首先统计代表释义项在至少两个维度上的排序参数,参见图4,该步骤具体包括:
S41、统计代表释义项在查询结果的例句中出现的频次。
在具体的统计过程中,可以只统计代表释义项在例句中出现的频次。
当然也可以针对所有释义项在例句中出现的频次进行统计,将同义释义项在例句中出现的频次统计为其代表释义项的频次。比如,将same的第二组同义释义中“同样的”、“(与)相同的”、“一模一样的”在例句中出现的频次统计到代表释义项“相同的”的出现频次中。
定义代表释义项在例句中出现的频次为SCORE(Wi),则SCORE(Wi)=times(Wi)inexample,即Wi在例句中出现的次数。
S42、计算代表释义项在查询结果的例句中出现的频次和。
具体的可定义频次和为SUM,则
参见图4,根据排序参数,计算代表释义项在至少两个维度上的贡献度向量具体包括:
S43、根据在查询结果的例句中出现的频次、在查询结果的例句中出现的频次和,计算代表释义项的例句频度贡献度向量。
可定义例句频度贡献度向量为P3,则P3=(SCORE(W1),SCORE(W2)...,SCORE(Wn))/SUM。
本发明实施例5是对释义项在语料库中出现频度的维度上贡献度向量的计算过程。
可以理解的,当某一释义项在语料库中出现的次数较多时,说明该释义项本身就是比较常用的。
首先统计代表释义项在至少两个维度上的排序参数,参见图5,该步骤具体包括:
S51、统计代表释义项在语料库的词频表中出现的频次。
现有的语料库容量有百万级、千万级之分。为在更大范围内查询,在本发明的优选实施例中选用千万级的语料库。
语料库通常包含多种语言类型。因此需要根据释义项的语言类型抽取语料库对应的部分。比如当释义项是中文时,需要抽取语料库中的中文部分。并对中文部分采用有词表的分词方法,其中所采用的词表可以是抽取的释义项,然后统计每个代表释义项在该词表中出现的频次,并将统计结果保存至$hash_fre中。这样,代表释义项Wi就对应一个频次数SCORE(Wi)=$hash_fre{Wi}。
S52、计算代表释义项在语料库的词频表中出现的频次和。
具体的,可定义频次和
根据排序参数,计算所述代表释义项在至少两个维度上的贡献度向量,参见图5,具体包括:
S53、计算代表释义项的语料库频度贡献度向量。
可定义语料库频度贡献度向量P4=(SCORE(W1),SCORE(W2)...,SCORE(Wn))/SUM。
本发明实施例6是对释义项在其他词典中出现频度的贡献度向量的计算过程。
一个释义项在其他词典中出现的频次越高,说明该释义项越重要、越常用。因此,可通过计算释义项在其他词典中出现的频度判断释义项的重要度和常用度,以此对其排序。
首先统计代表释义项在至少两个维度上的排序参数,参见图6,具体包括:
S61、统计代表释义项在其他词典中词条的释义项出现频次。
根据代表释义项的词条统计其他词典中对应词条word的释义项,并存放到%hash_mini_dict中。定义代表释义项在其他词典对应词条中出现的频次为SCORE(Wi),则SCORE(Wi)=times(Wi)in$hash_mini_dict{word}。
S62、计算代表释义项在其他词典中词条的释义项中出现的频次和。定义频次和
根据排序参数,计算代表释义项在至少两个维度上的贡献度向量,参见图6,具体包括
S63、根据在其他词典中词条的各释义项出现频次和在其他词典中词条的释义项出现的频次和,计算代表释义项的其他词典频度贡献度向量。
具体的,可定义代表释义项的其他词典频度贡献度向量P5=(SCORE(W1),SCORE(W2)...,SCORE(Wn))/SUM。
本发明实施例可以针对不同词典库分别进行贡献度向量的计算,根据词典库的不同特点,有利于获得更有价值的贡献度向量。
本发明实施例7是对释义项在顺序维度的贡献度向量的计算过程。
当前词典中释义项的排序在一定程度上体现了释义项的重要程度和常用度。因此可以将当前的顺序作为一种维度。
统计所述代表释义项在所述至少两个维度上的排序参数,参见图7,具体包括:
S71、按照代表释义项在当前词典中的前后顺序赋分;其中,在前的代表释义项分数高于在后的代表释义项分数。
首先按照代表释义项在当前词典中的前后顺序赋分。比如对n个代表释义项中排在第一位的代表释义项赋分数为n,并依次递减,对排在最后的代表释义项赋分数为1。
根据排序参数,计算代表释义项在至少两个维度上的贡献度向量,参见图7,具体包括:
S72、根据分数计算代表释义项的顺序贡献度向量。
定义代表释义项的顺序贡献度向量
本发明实施例8是对释义项在规范性维度的贡献度向量的计算过程。
不规范字符的使用会影响代表释义项的正常使用,为此,可统计代表释义项中的不规范情况,并以此为基础进行排序。
首先统计代表释义项在至少两个维度上的排序参数,参见图8,具体包括:
S81、统计代表释义项中的不规范字及不规范字与代表释义项的对应关系。
不规范字是指不符合正常使用规范的字。比如该字或某个符号是不存在的,例如一个括号只有一半等情况。或者两个字的组合是不存在的,
在具体的应用中,可以预先统计平时常犯的规范性错误,获得一个纠错数据库。然后通过代表释义项的字与纠错数据库对比获得代表释义项中的不规范字。
接着根据排序参数,计算代表释义项在至少两个维度上的贡献度向量,参见图8,具体包括:
S82、根据代表释义项中的不规范字和对应关系降低初始化的规范性贡献度向量中对应代表释义项的向量值。
具体的,我们可以定义规范性维度的初始化贡献度向量P7=(V1,V2,...Vn)=(1,1,...1)。
在代表释义项出现不规范字时,降低对应的向量值。比如出现一个降低0.1。这样最后就可以生成规范性维度的贡献度向量。
在本发明的优选实施例9中,同时基于上述七种维度对词典中一词条的同词性的释义项进行排序。其过程如图9所示:
S91、确定一词条的所有释义项,并从释义项的所有同义释义中找出代表释义项Wi,得到需要排序的向量(W1,W2......Wn)。
S92、统计上述代表释义项的排序参数,并分别计算代表释义项在上述七个维度上的贡献度向量P1(V1,V2......Vn),P2(V1,V2......Vn),P3(V1,V2......Vn),P4(V1,V2......Vn),P5(V1,V2......Vn),P6(V1,V2......Vn),P7(V1,V2......Vn)。
S93、归一化七个维度的贡献度向量P1,P2,P3,P4,P5,P6,P7,并对归一化后的各向量根据其贡献度大小赋权重。
S94、综合归一化且赋权重后的七个贡献度向量,得到综合贡献度向量P(V1,V2......Vn)。
S95、依照综合贡献度向量对代表释义项排序。
具体的,按照向量值的大小将对应的代表释义项从前向后排列。
综合贡献度是通过配置文件的形式,配置不同维度的贡献度,得到一个合理的综合向量,通过综合向量对释义项进行排序,排序结果能达到预期目标。
需要说明的是,在上述实施例中,其执行主体是计算机。
本发明实施例10还提供了一种依据贡献度向量排序的装置,参见图10,该装置包括:
确定单元101,用于确定排序目标项。
选择单元102,用于根据所述排序目标项的特征,选取至少两个维度。
在本发明中,以词典中词条的释义项为例对其进行说明。对应词条释义项,在本发明的具体实施例中,至少两个维度优选以下维度中的至少两个:字频;长度频度;例句中出现频度;语料库中出现频度;其他词典中出现的频度;顺序;规范性。可以明确的是,选用的维度越多,考虑的因素越全面,排序的准确度就越高。在本发明的优选实施例中,当释义项在选用的维度上计算出的贡献度向量相同时,可以继续选用其他维度进行计算。
词典中的词条通常具有多个词性,比如一词条既是名词又是形容词,用户在查看时习惯同一词性的释义项排列在一起。为方便描述和理解,在本发明的实施例中,释义项具体指同一词条同一词性的释义项。
词条具有同义释义项。同义释义项是指用不同的词组表达相同或相类似解释的释义项。在词典中,通常具有同一标号。在对释义项排序时,同义释义项中的释义项是绑定在一起排列的,因此,为避免造成排序混乱,可只选择同义释义项中的一个释义项为代表释义项。通过计算代表释义项在至少两个维度上的贡献度向量进行排序。
具体的,可以选择同义释义项中的第一个释义项为代表释义项。定义代表释义项为Wi。当然也可以通过一些计算来选择释义项,比如利用与下述相同的计算字频贡献度向量的方法计算同义释义项的向量大小,并选择向量最大的释义项为代表释义项。本发明不对具体的选择过程做限制。
排序参数单元103,用于统计所述排序目标项在所述至少两个维度上的排序参数。
排序参数是指排序目标项本身具有的对其排序有影响的参数。根据维度和排序目标项的不同,排序参数也不相同。比如,当排序目标项为词条的代表释义项,选取的维度是字频时,影响其排序的参数就是代表释义项中每个字的字频以及代表释义项的平均字频。
贡献度向量单元104,用于根据所述排序参数,计算所述排序目标项在所述至少两个维度上的贡献度向量。
综合贡献度向量单元105,用于依据所述维度的权重对归一化的所述贡献度向量计算综合贡献度向量。
因为各个维度的计算规则和基数不相同,为之后进行综合,须首先将获得的贡献度向量进行归一化。
接着综合归一化后的贡献度向量,生成综合贡献度向量。
排序单元106,用于根据所述综合贡献度向量对所述排序目标项进行排序。
具体的可以按照综合贡献度向量的大小对对应的排序目标项排序。通常,向量值越大,排序越靠前。
在本发明实施例11中,当选取的其中一个维度为字频维度时,排序参数单元103包括:
字频单元,用于统计词条所有释义项中每个字的频次。
平均字频单元,用于根据统计的频次计算代表释义项的平均字频。
贡献度向量单元104包括:
字频贡献度向量单元,用于根据代表释义项的平均字频、代表释义项的平均字频和,计算代表释义项的字频贡献度向量。
在本发明实施例102中,当选取的其中一个维度为长度频度维度时,排序参数单元103包括:
第一长度频次单元,用于统计所述词条所有释义项的长度及所述长度的频次;
第二长度频次单元,用于获取代表释义项的长度的频次。
贡献度向量单元104包括:
长度贡献度向量单元,用于根述代表释义项的长度的频次、所述代表释义项的长度的频次和,计算所述代表释义项的长度贡献度向量。
在本发明实施例13中,当至少两个维度中的一个维度为例句中出现频度时,排序参数单元103包括:
第一例句频次单元,用于统计代表释义项在查询结果的例句中出现的频次。
第二例句频次单元,用于计算代表释义项在查询结果的例句中出现的频次和。
贡献度向量单元104包括:
例句贡献度向量单元,用于根据在查询结果的例句中出现的频次、在查询结果的例句中出现的频次和,计算代表释义项的例句频度贡献度向量。
在本发明实施例14中,当至少两个维度中的一个维度为语料库中出现频度时,排序参数单元103包括:
第一语料库频次单元,用于统计代表释义项在语料库的词频表中出现的频次。
第二语料库频次单元,用于计算代表释义项在语料库的词频表中出现的频次和。
贡献度向量单元104包括:
语料库贡献度向量单元,用于根据在语料库的词频表中出现的频次、在语料库的词频表中出现的频次和,计算代表释义项的语料库频度贡献度向量。
在本发明实施例15中,当至少两个维度中的一个维度为其他词典中出现频度时,排序参数单元103包括:
第一其他词典频次单元,用于统计代表释义项在其他词典中对应词条的释义项中出现的频次。
第二其他词典频次单元,用于计算代表释义项在其他词典中对应词条的释义项中出现的频次和。
贡献度向量单元104包括:
其他词典贡献度向量单元,用于根据在其他词典中对应词条的释义项中出现的频次、在其他词典中对应词条的释义项中出现的频次和,计算代表释义项的其他词典频度贡献度向量。
在本发明实施例16中,当至少两个维度中的一个维度为排列顺序维度时,排序参数单元103包括:
赋分单元,用于按照代表释义项在当前词典中的前后顺序赋分;其中,在前的代表释义项分数高于在后的代表释义项分数。
贡献度向量单元104包括:
顺序贡献度向量单元,用于根据代表释义项的分数计算代表释义项的顺序贡献度向量。
在本发明实施例17中,当至少两个维度中的一个维度为规范性维度时,排序参数单元103包括:
规范单元,用于统计代表释义项中的不规范字符及不规范字符与代表释义项的对应关系。
在具体的应用中,可以预先统计平时常犯的规范性错误,获得一个纠错数据库。然后通过代表释义项的字与纠错数据库对比获得代表释义项中的不规范字。
贡献度向量单元104包括:
规范性贡献度向量单元,用于根据统计的不规范字符和对应关系降低初始化的规范性贡献度向量中对应代表释义项的向量值,生成代表释义项的规范性贡献度向量。
以上对本发明所提供的一种依据贡献度向量排序的方法及装置进行了介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。