CN103020295B - 一种问题标签标注方法及装置 - Google Patents

一种问题标签标注方法及装置 Download PDF

Info

Publication number
CN103020295B
CN103020295B CN201210590047.9A CN201210590047A CN103020295B CN 103020295 B CN103020295 B CN 103020295B CN 201210590047 A CN201210590047 A CN 201210590047A CN 103020295 B CN103020295 B CN 103020295B
Authority
CN
China
Prior art keywords
participle
speech
weighted value
label
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210590047.9A
Other languages
English (en)
Other versions
CN103020295A (zh
Inventor
陈玉焓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201210590047.9A priority Critical patent/CN103020295B/zh
Publication of CN103020295A publication Critical patent/CN103020295A/zh
Application granted granted Critical
Publication of CN103020295B publication Critical patent/CN103020295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种问题标签标注方法及装置,包括:对待标注问题进行分词处理,得到该待标注问题包括的各问题分词;并从该各问题分词中确定词性为预设词性的各第一待选问题分词;并基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值;以及基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。采用本发明实施例提供的方案,提高了对问题标注问题标签的及时性、准确性和全面性。

Description

一种问题标签标注方法及装置
技术领域
本发明涉及互联网技术领域和计算机技术领域,尤其涉及一种问题标签标注方法及装置。
背景技术
互联网应用中的知识问答业务的应用,是指一个用户可以在知识问答平台上提出问题,由其它用户对该问题进行答复,该用户也可以浏览知识问答平台上展现的问题,并对其进行答复,该用户也可以在知识问答平台上对问题进行搜索,以便了解其欲获知的问题的答案。
为了更高效的对知识问答平台上的问题进行管理,以及为了使得用户更方便的使用知识问答平台,可以对知识问答平台上展现的问题标注问题标签,在对问题标注问题标签之后,即可以对问题进行分类,以及在对问题进行搜索时,可以基于问题标签进行搜索,以提高搜索效率和准确性。
并且,知识问答平台是用户根据自身需求或兴趣提出问题,由其他用户进行回答的互动式知识问答分享平台。通过对问题标注问题标签,还可以形成基于标签的问题集和用户集,建立问题和相关用户的关联关系,提供在问题标签下的权威用户和兴趣用户,确保问题回答的专业性和及时性。
现有的在知识问答平台中对问题标注问题标签,可以采用人工标注的方式,例如,用户在知识问答平台上提出问题时,对提出的问题标注问题标签,也可以由知识问答平台的后台管理人员,根据问题的内容对问题标注问题标签,其中,由于对用户的行为不可控,所以用户自主标注的问题标签可能会不准确,由后台管理人员标注问题标签的方式,需要大量的人力,且处理效率较低,当知识问答平台上存在大量的问题时,无法及时的新提出的问题进行问题标签的标注。
除人工标注的方式外,还可以采用基于标签库的方式,即预先将可以作为问题标签的词语组成标签库,然后从标签库中选择与该问题比较相关的词语推荐给用户,所选择的词语可以是作为问题标签对问题进行标注的次数较多的词语,由用户从推荐词语中选择词语作为问题标签,对该问题进行标注。然而,在实际使用时,可能由于标签库中包括的词语有限,而无法获得能够准确表征该问题的词语,如果预先在标签库中设置大量词语,则会导致在获取与该问题相关的词语时的计算量较大,浪费处理资源;并且,在选择标签库中的词语推荐给用户时,对于标签库中新加入的词语,可能由于其被使用的次数较少,而一直没有被选择。
总之,现有技术中对问题标注问题标签的方法,无法兼顾标注的及时性以及准确性,且存在标注的问题标签不够全面的问题。
发明内容
本发明实施例提供一种问题标签标注方法及装置,用以解决现有技术中存在的对问题标注问题标签时不够及时以及不够准确和全面的问题。
本发明实施例提供一种问题标签标注方法,包括:
对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;
从所述各问题分词中确定词性为预设词性的各第一待选问题分词;
基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;
基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
本发明实施例还提供一种问题标签标注装置,包括:
分词单元,用于对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;
第一分词选择单元,用于从所述各问题分词中确定词性为预设词性的各第一待选问题分词;
第一权重确定单元,用于基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;
标注单元,用于基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
本发明有益效果包括:
本发明实施例提供的方法中,预先设置了可以作为问题标签的词语的预设词性,还预先设置了预设词性与第一权重值的对应关系,在针对待标注问题进行问题标签标注时,对待标注问题进行分词处理,得到该待标注问题包括的各问题分词,并从各问题分词中确定词性为预设词性的各第一待选问题分词,然后基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值,以及基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。相比人工标注的方式,不再受限于人为的主观因素,可以按照统一的问题标签选择标准确定问题标签,从而提高了准确性,相比人工标注的方式提高了处理效率,即提高了标注的及时性;并且,本方案也不再受限于标签库所包括的词语,只要是问题中出现的词语,均有可能作为问题标签,进而提高了标注的全面性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的问题标签标注方法的流程图;
图2为本发明实施例1提供的问题标签标注方法的流程图;
图3为本发明实施例中采用的Trie树的结构示意图;
图4为本发明实施例2提供的问题标签标注方法的流程图;
图5为本发明实施例3提供的问题标签标注装置的结构示意图。
具体实施方式
为了给出提高对问题标注问题标签的及时性、准确性和全面性的实现方案,本发明实施例提供了一种问题标签标注方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种问题标签标注方法,如图1所示,包括:
步骤101、对待标注问题进行分词处理,得到该待标注问题包括的各问题分词。
步骤102、从该各问题分词中确定词性为预设词性的各第一待选问题分词。
步骤103、基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值。
步骤104、基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。
下面结合附图,用具体实施例对本发明提供的方法及装置进行详细描述。
实施例1:
图2所示为本发明实施例1提供的问题标签标注方法的流程图,具体包括如下处理步骤:
步骤201、对待标注问题进行分词处理,得到该待标注问题包括的各问题分词。
本步骤中,可以对待标注问题的标题进行分词处理,也可以对待标注问题的问题内容进行分词处理,所采用的分词处理的方式,可以为现有技术中的各种方式,在此不再进行详细描述。
步骤202、确定各问题分词中在预设标签库中存在的各词语,作为各第二待选问题分词。
本发明实施例中,为了进一步提高标注问题标签的准确性和全面性,除基于词性确定问题标签外,还可以基于预设标签库中的词语确定问题标签,即预先设置标签库,预设标签库中的词语为可以作为问题标签的词语。
本步骤中,在确定各问题分词中在预设标签库中存在的各词语时,可以通过建立Trie树模型匹配预设标签库的方式确定,具体如下:
首先确定预设标签库中各词语分别对应的字符串,并基于各字符串建立与预设标签库对应的Trie树,Trie树的根节点不包括任何内容,每个子节点具有三个属性,第一个属性为表征一个字符,第二个属性为该子节点的各子节点的指针,第三个属性为该子节点是否为一个字符串的结束字符,当一个子节点是一个字符串的结束字符时,该子节点所表征的字符串即为从根节点到该子节点的节点路径中包括的所有子节点表征的字符组成的字符串,并且,Trie树中作为字符串的结束字符的各子节点所表征的各字符串与预设标签库中包括的各词语一一对应。
以四个字符串abc、d、de和ddc为例,如图3所示,为所建立的Trie树的结构示意图,其中子节点为NULL时表示该子节点是一个字符串的结束字符。
在针对预设标签库包括的各词语建立对应的Trie树之后,将该Trie树存入内存,为后续针对问题包括的各问题分词匹配预设标签库中的词语做准备,通过用空间换时间的方式,利用字符串的公共前缀来降低查询时间的开销。
在确定各问题分词是否在预设标签库中存在时,可以依次查询该待标注问题包括的每个问题分词对应的字符串在该Trie树中是否存在,如果存在,则表示该问题分词在预设标签库中存在。Trie树的查询复杂度为O(Len),其中,L为待查询字符串的长度。
在确定出在预设标签库中存在的各第二待选问题分词之后,还可以进一步的确定各第二待选问题分词分别在历史统计的多个问题中出现的次数,用于后续确定第二权重值使用。
预设标签库包括的各词语和各词语在历史统计的多个问题中出现的次数,可以预先存储在Hash表中,表中各词语可以按照GBK编码方式进行编码。
本步骤为可选步骤。
步骤203、从各问题分词中确定词性为预设词性的各词语,作为各第一待选问题分词。
本发明实施例中,预先设置了一些预设词性,词性为预设词性的词语可以作为问题标签,用于对问题进行标注。例如,预设词性可以包括所有名词,如人物名词、机构名词、处所名词和专有名词等,还可以包括部分动词,如不及物谓词和名动词,还可以包括部分形容词,如名形词,还可以包括表征时间的词语,如时间词语素和时间专指词。
当未执行上述步骤202时,本步骤中确定的各第一待选问题分词可以为各问题分词中词性为预设词性的所有词语。
当执行上述步骤202时,本步骤具体可以为,从各问题分词中除各第二待选问题分词之外的问题分词中,确定词性为预设词性的各词语,作为各第一待选问题分词,即各第一待选问题分词不属于预设标签库中的词语。
本步骤中,在确定问题分词的词性时,可以先确定问题分词是否为预设词性,如果是,再进一步的确定是哪一种预设词性,如果不是,则不需要再进一步确定具体的词性。
本步骤中,可以采用现有技术中的各种词性确定方法,例如,可以采用统计方法确定问题分词的词性,对于待确定问题分词,基于统计的方法先确定与其对应的所有待选词性,然后对每个待选词性进行打分,并选择得分最高的词性作为该待确定问题分词的词性,进一步细节的处理过程在此不再进行详细描述。
步骤204、基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值。
本发明实施例中,可以预先设置各种预设词性与第一权重值的对应关系,例如,可以将第一权重值分为三个等级,第一等级最高,对应的预设词性可以包括时间词语素、时间专指词、不及物谓词;第二等级次之,对应的预设词性可以包括人物名词、机构名词、处所名词和专有名词等名词;第三等级再次之,对应的预设词性可以包括名形词和名动词。
其中,每个等级对应的第一权重值可以根据实际需要进行灵活设置,例如,第一等级对应的第一权重值可以为2,第二等级对应的第一权重值可以为1,第三等级对应的第一权重值可以为0.3。
步骤205、基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对待标注问题进行标注。
例如,具体可以按照第一权重值从高到低的顺序选择第一预设数量的第一待选问题分词,作为问题标签,对于第一权重值相同的情况,可以进行随机选择。
步骤206、进一步的,当执行上述步骤202时,为了提高问题标签标注的全面性,还可以根据各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定各第二待选问题分词的第二权重值,其中,出现的次数越多,第二权重值越大。
步骤207、基于各第二待选问题分词的第二权重值,从各第二待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。
例如,具体可以按照第二权重值从高到低的顺序选择第二预设数量的第二待选问题分词,作为问题标签,对于第二权重值相同的情况,可以进行随机选择。
步骤208、为了进一步的提高问题标签标注的全面性,本步骤中,还可以从预设标签库中,确定与从各第二待选问题分词中选择的作为问题标签的第二待选问题分词的相似度满足预设相似度条件的词语,并将满足预设相似度条件的词语作为问题标签,对该待标注问题进行标注。
其中,预设相似度条件可以为相似度达到预设相似度阈值,也可以为按照相似度从高到低的顺序的位于前第三预设数量的问题分词。
本步骤中,针对两个词语的相似度的确定,可以采用如下方式:
确定两个词语的相似度为两个词语的特征向量的相似度,其中,词语的特征向量的维度为历史统计的N个问题的数量,词语的特征向量的N个分量与N个问题一一对应,针对N个问题中的每个问题,当词语在该问题中出现时,该词语的特征向量的与该问题对应的分量的分量值为1,当词语在该问题中未出现时,该词语的特征向量的与该问题对应的分量的分量值为0。
两个词语的特征向量的相似度,具体可以采用余弦相似度进行确定,公式如下:
S = Σ x i · y i Σ ( x i ) 2 · Σ ( y i ) 2 ;
其中,S为词语x和词语y的特征向量的相似度,xi为词语x的第i个分量的分量值,yi为词语y的第i个分量的分量值。
步骤209、进一步的,为了后续确定问题标签时能够更及时以及更准确,本步骤中,还可以将从各第一待选问题分词中选择的作为问题标签的第一待选问题分词添加到预设标签库中,以在预设标签库中补充可以作为问题标签的词语,从而使得后续基于预设标签库确定问题标签时能够更准确。
实施例2:
图4所示为本发明实施例2提供的问题标签标注方法的流程图,具体包括如下处理步骤:
步骤401、对待标注问题进行分词处理,得到该待标注问题包括的各问题分词。
本步骤中,可以对待标注问题的标题进行分词处理,也可以对待标注问题的问题内容进行分词处理,所采用的分词处理的方式,可以为现有技术中的各种方式,在此不再进行详细描述。
步骤402、确定各问题分词中在预设标签库中存在的各词语,作为各第二待选问题分词。
本发明实施例中,为了进一步提高标注问题标签的准确性和全面性,除基于词性确定问题标签外,还可以基于预设标签库中的词语确定问题标签,即预先设置标签库,预设标签库中的词语为可以作为问题标签的词语。
本步骤中,在确定各问题分词中在预设标签库中存在的各词语时,可以通过建立Trie树模型匹配预设标签库的方式确定,具体可参考上述实施例1中的步骤202中的相关内容,在此不再进行详细描述。
步骤403、根据各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定各第二待选问题分词的第二权重值,其中,出现的次数越多,第二权重值越大。
步骤404、从各问题分词中确定词性为预设词性的各词语,作为各第一待选问题分词。
本发明实施例中,预先设置了一些预设词性,词性为预设词性的词语可以作为问题标签,用于对问题进行标注。例如,预设词性可以包括所有名词,如人物名词、机构名词、处所名词和专有名词等,还可以包括部分动词,如不及物谓词和名动词,还可以包括部分形容词,如名形词,还可以包括表征时间的词语,如时间词语素和时间专指词。
本步骤中确定的各第一待选问题分词可以为各问题分词中词性为预设词性的所有词语。
本步骤中,在确定问题分词的词性时,可以先确定问题分词是否为预设词性,如果是,再进一步的确定是哪一种预设词性,如果不是,则不需要再进一步确定具体的词性。
本步骤中,可以采用现有技术中的各种词性确定方法,例如,可以采用统计方法确定问题分词的词性,对于待确定问题分词,基于统计的方法先确定与其对应的所有待选词性,然后对每个待选词性进行打分,并选择得分最高的词性作为该待确定问题分词的词性,进一步细节的处理过程在此不再进行详细描述。
本步骤与上述步骤402和步骤403之间没有严格的先后顺序。
步骤405、基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值。
本发明实施例中,可以预先设置各种预设词性与第一权重值的对应关系,例如,可以将第一权重值分为三个等级,第一等级最高,对应的预设词性可以包括时间词语素、时间专指词、不及物谓词;第二等级次之,对应的预设词性可以包括人物名词、机构名词、处所名词和专有名词等名词;第三等级再次之,对应的预设词性可以包括名形词和名动词。
其中,每个等级对应的第一权重值可以根据实际需要进行灵活设置,例如,第一等级对应的第一权重值可以为2,第二等级对应的第一权重值可以为1,第三等级对应的第一权重值可以为0.3。
本步骤与上述步骤402和步骤403之间没有严格的先后顺序
步骤406、将在各第一待选问题分词或各第二待选问题分词中存在的问题分词确定为各第三待选问题分词,即第三待选问题分词包括了第一待选问题分词和第二待选问题分词。
步骤407、基于各第三待选问题分词的第一权重值和第二权重值,确定各第三待选问题分词的第三权重值,其中,各第三待选问题分词中不属于第一待选问题分词的第二待选问题分词的第一权重值为0,各第三待选问题分词中不属于第二待选问题分词的第一待选问题分词的第二权重值为0。
第三权重值具体可以为第一权重值和第二权重值的和值,也可以为基于第一权重值和第二权重值进行加权求和。
步骤408、基于各第三待选问题分词的第三权重值,从各第三待选问题分词中选择问题分词作为问题标签,对待标注问题进行标注。
例如,具体可以按照第三权重值从高到低的顺序选择第四预设数量的第三待选问题分词,作为问题标签,对于第三权重值相同的情况,可以进行随机选择。
采用本发明实施例1和实施例2提供的上述问题标签标注方法,相比人工标注的方式,不再受限于人为的主观因素,可以按照统一的问题标签选择标准确定问题标签,从而提高了准确性,相比人工标注的方式提高了处理效率,即提高了标注的及时性;并且,本方案也不再受限于标签库所包括的词语,只要是问题中出现的词语,均有可能作为问题标签,进而提高了标注的全面性。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的问题标签标注方法,相应地,本发明实施例3还提供了一种问题标签标注装置,其结构示意图如图5所示,具体包括:
分词单元501,用于对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;
第一分词选择单元502,用于从所述各问题分词中确定词性为预设词性的各第一待选问题分词;
第一权重确定单元503,用于基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;
标注单元504,用于基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
进一步的,上述装置,还包括:
第二分词选择单元505,用于确定所述各问题分词中在预设标签库中存在的各第二待选问题分词;
第一分词选择单元502,具体用于从所述各问题分词中除所述各第二待选问题分词之外的问题分词中,确定词性为预设词性的各第一待选问题分词。
进一步的,上述装置,还包括:
第二权重确定单元506,用于根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值;
标注单元504,还用于基于所述各第二待选问题分词的第二权重值,从所述各第二待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
进一步的,上述装置,还包括:
第三分词选择单元507,用于从所述预设标签库中,确定与从所述各第二待选问题分词中选择的作为问题标签的第二待选问题分词的相似度满足预设相似度条件的词语;
标注单元504,用于将满足预设相似度条件的词语作为问题标签,对所述待标注问题进行标注。
进一步的,第三分词选择单元507,具体用于采用如下方式确定两个词语的相似度:
确定所述两个词语的相似度为所述两个词语的特征向量的相似度,其中,词语的特征向量的维度为历史统计的N个问题的数量,词语的特征向量的N个分量与N个问题一一对应,针对N个问题中的每个问题,当词语在该问题中出现时,该词语的特征向量的与该问题对应的分量的分量值为1,当词语在该问题中未出现时,该词语的特征向量的与该问题对应的分量的分量值为0。
进一步的,还包括:
添加单元508,用于将从所述各第一待选问题分词中选择的作为问题标签的第一待选问题分词添加到预设标签库中。
进一步的,上述装置,还包括:
第二分词选择单元505,用于确定所述各问题分词中在预设标签库中存在的各第二待选问题分词;
第二权重确定单元506,用于根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值;
标注单元504,具体用于将在所述各第一待选问题分词或所述各第二待选问题分词中存在的问题分词确定为各第三待选问题分词;并
基于所述各第三待选问题分词的第一权重值和第二权重值,确定所述各第三待选问题分词的第三权重值,其中,所述各第三待选问题分词中不属于第一待选问题分词的第二待选问题分词的第一权重值为0,所述各第三待选问题分词中不属于第二待选问题分词的第一待选问题分词的第二权重值为0;以及基于所述各第三待选问题分词的第三权重值,从所述各第三待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
上述各单元的功能可对应于图1、图2以及图4所示流程中的相应处理步骤,在此不再赘述。
综上所述,本发明实施例提供的方案,包括:对待标注问题进行分词处理,得到该待标注问题包括的各问题分词;并从该各问题分词中确定词性为预设词性的各第一待选问题分词;并基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值;以及基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。采用本发明实施例提供的方案,提高了对问题标注问题标签的及时性、准确性和全面性。
本申请的实施例所提供的标注装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种问题标签标注方法,其特征在于,包括:
对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;
确定所述各问题分词中在预设标签库中存在的各第二待选问题分词;其中,所述预设标签库中包括可作为问题标签的词语;
从所述各问题分词中确定词性为预设词性的各第一待选问题分词;
基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;
基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注;
将从所述各第一待选问题分词中选择的作为问题标签的第一待选问题分词添加到预设标签库中;
从所述各问题分词中确定词性为预设词性的各第一待选问题分词,具体为:
从所述各问题分词中除所述各第二待选问题分词之外的问题分词中,确定词性为预设词性的各第一待选问题分词。
2.如权利要求1所述的方法,其特征在于,在确定所述各问题分词中在预设标签库中存在的各第二待选问题分词之后,还包括:
根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值;
基于所述各第二待选问题分词的第二权重值,从所述各第二待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
3.如权利要求2所述的方法,其特征在于,还包括:
从所述预设标签库中,确定与作为问题标签的第二待选问题分词的相似度满足预设相似度条件的词语;
将满足预设相似度条件的词语作为问题标签,对所述待标注问题进行标注。
4.如权利要求3所述的方法,其特征在于,采用如下方式确定两个词语的相似度:
确定所述两个词语的相似度为所述两个词语的特征向量的相似度,其中,词语的特征向量的维度为历史统计的N个问题的数量,词语的特征向量的N个分量与N个问题一一对应,针对N个问题中的每个问题,当词语在该问题中出现时,该词语的特征向量的与该问题对应的分量的分量值为1,当词语在该问题中未出现时,该词语的特征向量的与该问题对应的分量的分量值为0。
5.如权利要求1所述的方法,其特征在于,在对待标注问题进行分词处理之后,还包括:
确定所述各问题分词中在预设标签库中存在的各第二待选问题分词;
根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值;
基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注,具体包括:
将在所述各第一待选问题分词或所述各第二待选问题分词中存在的问题分词确定为各第三待选问题分词;
基于所述各第三待选问题分词的第一权重值和第二权重值,确定所述各第三待选问题分词的第三权重值,其中,所述各第三待选问题分词中不属于第一待选问题分词的第二待选问题分词的第一权重值为0,所述各第三待选问题分词中不属于第二待选问题分词的第一待选问题分词的第二权重值为0;
基于所述各第三待选问题分词的第三权重值,从所述各第三待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
6.一种问题标签标注装置,其特征在于,包括:
分词单元,用于对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;
第二分词选择单元,用于确定所述各问题分词中在预设标签库中存在的各第二待选问题分词;其中,所述预设标签库中包括可作为问题标签的词语;
第一分词选择单元,用于从所述各问题分词中确定词性为预设词性的各第一待选问题分词;
第一权重确定单元,用于基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;
标注单元,用于基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注;
添加单元,用于将从所述各第一待选问题分词中选择的作为问题标签的第一待选问题分词添加到预设标签库中;
所述第一分词选择单元,具体用于从所述各问题分词中除所述各第二待选问题分词之外的问题分词中,确定词性为预设词性的各第一待选问题分词。
7.如权利要求6所述的装置,其特征在于,还包括:
第二权重确定单元,用于根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值;
所述标注单元,还用于基于所述各第二待选问题分词的第二权重值,从所述各第二待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。
CN201210590047.9A 2012-12-28 2012-12-28 一种问题标签标注方法及装置 Active CN103020295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210590047.9A CN103020295B (zh) 2012-12-28 2012-12-28 一种问题标签标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210590047.9A CN103020295B (zh) 2012-12-28 2012-12-28 一种问题标签标注方法及装置

Publications (2)

Publication Number Publication Date
CN103020295A CN103020295A (zh) 2013-04-03
CN103020295B true CN103020295B (zh) 2016-01-27

Family

ID=47968898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210590047.9A Active CN103020295B (zh) 2012-12-28 2012-12-28 一种问题标签标注方法及装置

Country Status (1)

Country Link
CN (1) CN103020295B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN108763356A (zh) * 2018-05-16 2018-11-06 深圳市三宝创新智能有限公司 一种基于相似句搜索的智能机器人闲聊系统及方法
CN108763476A (zh) * 2018-05-29 2018-11-06 深圳市三宝创新智能有限公司 一种基于词性权重计算的问答数据清洗系统
CN109582675A (zh) * 2018-11-29 2019-04-05 北京达佳互联信息技术有限公司 标签匹配方法、装置、服务器及存储介质
CN110414006B (zh) * 2019-07-31 2023-09-08 京东方科技集团股份有限公司 文本的主题标注方法、装置、电子设备及存储介质
CN113221550B (zh) * 2020-02-06 2023-09-29 百度在线网络技术(北京)有限公司 文本过滤方法、装置、设备和介质
CN111611781B (zh) * 2020-05-27 2023-08-18 北京妙医佳健康科技集团有限公司 数据标注方法、问答方法、装置及电子设备
CN112069286B (zh) * 2020-08-28 2024-01-02 喜大(上海)网络科技有限公司 字典树参数更新方法、装置、设备及存储介质
CN112035623B (zh) * 2020-09-11 2023-08-04 杭州海康威视数字技术股份有限公司 智能问答方法、装置、电子设备及存储介质
CN114595321A (zh) * 2022-03-23 2022-06-07 康键信息技术(深圳)有限公司 问题标注方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102200975A (zh) * 2010-03-25 2011-09-28 北京师范大学 一种利用语义分析的垂直搜索引擎系统与方法
CN102646128A (zh) * 2012-03-06 2012-08-22 北京航空航天大学 一种基于xml的情感词词性标注的方法
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200975A (zh) * 2010-03-25 2011-09-28 北京师范大学 一种利用语义分析的垂直搜索引擎系统与方法
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN102646128A (zh) * 2012-03-06 2012-08-22 北京航空航天大学 一种基于xml的情感词词性标注的方法
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法

Also Published As

Publication number Publication date
CN103020295A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020295B (zh) 一种问题标签标注方法及装置
US10140368B2 (en) Method and apparatus for generating a recommendation page
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
TW201901661A (zh) 語音識別方法及系統
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN107545044A (zh) 一种数据表建立方法、电子设备及存储介质
CN104933130A (zh) 评论信息的标注方法及装置
US20140379719A1 (en) System and method for tagging and searching documents
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104978314A (zh) 媒体内容推荐方法及装置
WO2014206151A1 (en) System and method for tagging and searching documents
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及系统
CN102651002A (zh) 一种网页信息抽取方法及其系统
CN104516949A (zh) 网页数据处理方法和装置、查询处理方法及问答系统
CN110275962B (zh) 用于输出信息的方法和装置
CN104133855A (zh) 一种输入法智能联想的方法及装置
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN104268192A (zh) 一种网页信息提取方法、装置及终端
CN104462590A (zh) 信息搜索方法及装置
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN106610931A (zh) 话题名称的提取方法及装置
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN108255963A (zh) 一种基于互联网的新闻信息检索的控制方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230417

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right