CN106598949A - 一种词语对文本贡献度的确定方法及装置 - Google Patents

一种词语对文本贡献度的确定方法及装置 Download PDF

Info

Publication number
CN106598949A
CN106598949A CN201611200154.0A CN201611200154A CN106598949A CN 106598949 A CN106598949 A CN 106598949A CN 201611200154 A CN201611200154 A CN 201611200154A CN 106598949 A CN106598949 A CN 106598949A
Authority
CN
China
Prior art keywords
text
target
word
domain
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611200154.0A
Other languages
English (en)
Other versions
CN106598949B (zh
Inventor
武英波
吕坤河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201611200154.0A priority Critical patent/CN106598949B/zh
Publication of CN106598949A publication Critical patent/CN106598949A/zh
Application granted granted Critical
Publication of CN106598949B publication Critical patent/CN106598949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种词语对文本贡献度的确定方法及装置,从目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的重要度,并确定用户在所述目标文本中与所述目标词语的互动度,根据所述重要度和所述互动度计算所述目标词语对所述目标文本的贡献度。可见,通过确定词语对文本的重要度,并结合考虑了用户在文本中与词语的互动度,可以更加准确的得出词语对互动性文本的贡献度。

Description

一种词语对文本贡献度的确定方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种词语对文本贡献度的确定方法及装置。
背景技术
互联网的普及带来了信息量的猛增,这使得人们很难在大量信息中找到真正需要的信息,而文本挖掘带来一个新的研究领域,人们通过综合数据挖掘、机器学习、自然语言处理、信息检索和知识管理等技术来解决信息过载问题。
而随着移动互联网和智能终端的普及,互动性文本交互逐渐成为主流趋势,传统的文本挖掘技术并不能很好的适用于互动性文本挖掘。通过对现有技术的研究发现,现有技术在计算词语对文本的贡献度时,主要采用TF/IDF公式,但是这种贡献度计算方法考虑的因素比较简单,不能更为准确定的确定出文本词语对互动性文本的贡献度。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种词语对文本贡献度的确定方法及装置,能够在确定词语对文本贡献度时,提高贡献度的准确性。
本发明实施例提供了一种词语对文本贡献度的确定方法,包括:
从目标文本中选取A个目标词语,A为整数且A≥1;
确定所述目标词语对所述目标文本的重要度,并确定用户在所述目标文本中与所述目标词语的互动度;
按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;
WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
本发明实施例还提供了一种文本词语的排序方法,包括:
获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1;
从所述目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词;
依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
本发明实施例还提供了一种文本评审结果的获取方法,包括:
获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1;
确定所述目标领域的领域词;
通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;
如果否,则使所述待评审文本的评审结果为不合格;
如果是,则统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1;
若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格;
若F>E,则将所述F个领域词中的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序;根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
本发明实施例还提供了一种文本所属领域的确定方法,包括阈值获取方法和领域确定方法;
所述阈值获取方法包括:
确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量;
从所述目标领域中选取H个文本,H为整数且H≥1;
将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度;
使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量;
计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度;
根据所述H个相似度确定一个相似度阈值;
所述领域确定方法包括:
将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度,形成分类词向量;
计算所述分类词向量与所述领域词向量之间的相似度,根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
本发明实施例还提供了一种文本摘要的生成方法,包括:
对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1;
确定所述目标词语对所述目标文本的贡献度;
依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,J为整数且J≤I;
根据所述摘要词语确定待选的摘要语句,利用所述摘要语句生成文本摘要。
本发明实施例还提供了一种词语对文本贡献度的确定装置,包括:
文本选取单元,用于从目标文本中选取A个目标词语,A为整数且A≥1;
重要度确定单元,用于确定所述目标词语对所述目标文本的重要度;
互动度确定单元,用于确定用户在所述目标文本中与所述目标词语的互动度;
贡献度计算单元,用于按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;
WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
本发明实施例还提供了一种文本词语的排序装置,包括:
文本获取单元,用于获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1;
贡献度确定单元,用于从所述目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词;
词语排序单元,用于依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
本发明实施例还提供了一种文本评审结果的获取装置,包括:
文本获取单元,用于获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1;
领域词确定单元,用于确定所述目标领域的领域词;
领域词查找单元,用于通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;
第一评审单元,用于如果所述领域词查找单元确定所述待评审文本中不包含所述目标领域中的领域词,则使所述待评审文本的评审结果为不合格;
领域词统计单元,用于如果所述领域词查找单元确定所述待评审文本中包含所述目标领域中的领域词,则统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1;
第二评审单元,用于若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格;
领域词排序单元,用于若F>E,则将所述F个领域词中的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序;
第三评审单元,用于根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
本发明实施例还提供了一种文本所属领域的确定装置,包括阈值获取子装置和领域确定子装置;
所述阈值获取子装置包括:
第一向量形成单元,用于确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量;
文本选取单元,用于从所述目标领域中选取H个文本,H为整数且H≥1;
贡献度确定单元,用于将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度;
第二向量形成单元,用于使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量;
第一相似度计算单元,用于计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度;
阈值确定单元,用于根据所述H个相似度确定一个相似度阈值;
所述领域确定子装置包括:
第三向量形成单元,用于将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度,形成分类词向量;
第二相似度计算单元,用于计算所述分类词向量与所述领域词向量之间的相似度;
领域确定单元,用于根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
本发明实施例还提供了一种文本摘要的生成装置,包括:
分词处理单元,用于对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1;
贡献度确定单元,用于确定所述目标词语对所述目标文本的贡献度;
摘要词获取单元,用于依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,J为整数且J≤I;
摘要句确定单元,用于根据所述摘要词语确定待选的摘要语句;
摘要生成单元,用于利用所述摘要语句生成文本摘要。
本发明实施例提供的词语对文本贡献度的确定方法及装置,从目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的重要度,并确定用户在所述目标文本中与所述目标词语的互动度,根据所述重要度和所述互动度计算所述目标词语对所述目标文本的贡献度。可见,通过确定词语对文本的重要度,并结合考虑了用户在文本中与词语的互动度,可以更加准确的得出词语对互动性文本的贡献度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的词语对文本贡献度的确定方法的流程示意图;
图2为本发明实施例提供的文本词语的排序方法的流程示意图;
图3为本发明实施例提供的文本评审结果的获取方法的流程示意图;
图4A为本发明实施例提供的阈值获取方法的流程示意图;
图4B为本发明实施例提供的领域确定方法的流程示意图;
图5为本发明实施例提供的文本摘要的生成方法的流程示意图;
图6为本发明实施例提供的词语对文本贡献度的确定装置的组成示意图;
图7为本发明实施例提供的文本词语的排序装置的组成示意图;
图8为本发明实施例提供的文本评审结果的获取装置的组成示意图;
图9A为本发明实施例提供的阈值获取子装置的组成示意图;
图9B为本发明实施例提供的领域确定子装置的组成示意图;
图10为本发明实施例提供的文本摘要的生成装置的组成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1,为本发明实施例提供的词语对文本贡献度的确定方法的流程示意图,该方法包括步骤S101-S103:
S101:从目标文本中选取A个目标词语,A为整数且A≥1。
首先,获取文本资料,为便于描述,将获取的文本资料称为目标文本。
本实施例不限制该目标文本的组成,比如,该目标文本可以只包括一篇文章、或包括不同的多篇文章、或包括一个文本库中的所有文章,等等;本实施例还不限制该目标文本的形式,比如,该目标文本可以是网页形式、或论文形式、或网页和论文的组合形式,等等。
然后,从该目标文本中提取一个或多个目标词语,该目标词语可以是目标文本中的任意一个词语,本实施例对此不做限制。
进一步地,在获取到目标文本后,还可以对该目标文本进行预处理,比如,分词处理、剔除停用词、剔除标点符号等处理操作,经过上述处理,可以提高后续步骤S101的处理速度和处理效率。
S102:确定所述目标词语对所述目标文本的重要度。
在一些实施方式中,步骤S102可以包括步骤s 1021-s 1023:
S1021:将所述目标文本划分为B个文本片段,B为整数且B≥1。
每一文本片段作为目标文本中的一部分,本实施例不限制文本片段的具体形式,其需要根据目标文本的具体形式而定。
例如,如果目标文本为一个网页,则一个文本片段可以是该网页中一段文字或其中一个链接链向的网页内容;如果目标文本为一篇文章,则一个文本片段可以对应该文章中的一段或几段内容;如果目标文本为一篇论文,则一个文本片段可以对应该论文中的摘要或论文正文中的一个段落;等等。
S 1022:获取重要度参数,所述重要度参数包括所述目标词语在所述文本片段中的出现位置和出现次数。
S 1023:根据所述重要度参数确定所述目标词语对所述目标文本的重要度。
在一些实施方式中,步骤S 1023具体可以按照第一公式或第二公式计算所述目标词语对所述目标文本的重要度,具体地:
第一公式为:
第二公式为:
其中:TWi为所述A个目标词语中的第i个目标词语;WordSign(TWi)为CWi对所述目标文本的重要度;n为所述目标文本中的文本片段的总数B;q为TWi所属的文本片段在所述目标文本中的位置;Wiq为当TWi所属的文本片段位于q位置时TWi对所述目标文本的重要度;Ciq为当TWi所属的文本片段位于q位置时TWi在该文本片段中的出现次数;Li为TWi的词长;a为可调底数;为调整常数。
其中,可调底数a可以是自然常数e,当然也可以将其设置成其它数值。
可见,当重要度参数包括目标词语在文本片段中的出现位置和出现次数时,可以根据上述第一公式计算该目标词语对该目标文本的重要度;当重要度参数包括目标词语在文本片段中的出现位置和出现次数、以及目标词语的长度时,可以根据上述第二公式计算该目标词语对该目标文本的重要度。
在上述第一公式和第二公式中,其中的参数Wiq是在第i个目标词语TWi受文本片段位置影响下时对目标文本的重要度,因此,在一些实施方式中,可以将目标文本划分为两个子文本,即第一子文本和第二子文本,相当于将目标文本划分成两个位置区域,例如,当将一篇论文作为目标文本时,可以将摘要部分作为第一子文本,将其它剩余部分作为第二子文本。本实施例不限制子文本的划分数量,即,也可以将目标文本划分为更多的子文本。由于不同文本片段所属的子文本可能不同,位于其中的目标词语TWi对目标文本的重要度也会取值不同。
具体地,可以按照以下公式计算Wiq
其中,所述目标文本被划分为第一子文本和第二子文本;如果TWi属于所述第一子文本,则q=-1;如果TWi属于所述第二子文本,则q=x,x为TWi所属的文本片段在所述目标文本中的位置参数;n为所述目标文本中的文本片段的总数B;λ为加权常数;β为调整常数。
综上,依据目标词语在目标文本中的文本片段中的出现位置、出现次数、以及目标词语自身长度,来确定目标词语对目标文本的重要度,可以准确地得到目标词语对目标文本的重要度。
S103:确定用户在所述目标文本中与所述目标词语的互动度。
在一些实施方式中,步骤S103可以包括步骤S1031-S1032:
S1031:统计用户在所述目标文本中与所述目标词语的互动频次。
例如,假设步骤S101从目标文本中选取了A=3个目标词语,分别为词语1、词语2和词语3。对于词语1,在设定时段内(比如1个月),可能有不同用户与词语1发生互动操作,统计这些用户与词语1之间的总互动次数,其中,用户与词语1的互动操作可以是对词语1的复制操作、删除操作、翻译操作、检索操作等操作行为。对于词语2、和词语3按照对词语1的方式进行互动次数的统计,最终得到每个目标词语对应的互动次数即互动频次。
S1032:根据所述互动频次确定用户在所述目标文本中与所述目标词语的互动度。
在一些实施方式中,步骤S1032具体可以按照以下公式计算用户在所述目标文本中与所述目标词语的互动度:
其中,TWi为所述A个目标词语中的第i个目标词语;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;m为所述目标文本中出现的目标词语的总数;n为所述目标文本中的出现过至少一次互动行为的目标词语的总数;fi为用户在所述目标文本中与CWi的互动频次;fi为用户在所述目标文本中与所述A个目标词语中的第j个目标词语的互动频次。
基于上一步骤的举例,当计算用户与词语1的互动度时,由于目标文本中可能有多处位置出现词语1,词语1在目标文本中的出现总数,即为参数m;当词语1处于目标文本的不同位置时,用户可能只与其中一处或几处的词语1发生了复制等互动行为,则从m个词语1中找出发生过互动行为的所有词语1并统计其数目,即为参数n;用户与词语1的互动频次即为参数fi;与用户发生过互动的每一词语1对应的互动频次之和即为然后,按照公式(4)计算用户与词语1的互动度。在计算用户与词语2或词语3的互动度时,同样按照上述方式计算,在此不再赘述。
需要说明的是,本实施例不限制S102与S103的执行顺序。
S104:按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;
WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
在本实施例中,权重因子θ可以用于对所述目标文本进行评审,其大小可以根据评审中对互动度的关注程度而定。
综上,本实施例从目标文本中选取A个目标词语,确定目标词语对目标文本的重要度,并确定用户在目标文本中与目标词语的互动度,根据重要度和互动度计算目标词语对目标文本的贡献度。可见,通过确定词语对文本的重要度,并结合考虑了用户在文本中与词语的互动度,可以更加准确的得出词语对互动性文本的贡献度。
实施例二
参见图2,为本发明实施例提供的文本词语的排序方法的流程示意图,该方法包括步骤S201-S203:
S201:获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1。
在本实施例中,所述目标领域可以是任意一个领域,比如,信息技术领域、能源技术领域、航天技术领域,等等;所述目标领域还可以是其中的子领域,比如,信息技术领域中的计算机领域。C个文本即为目标领域比如信息技术领域中的文本。
S202:从所述目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词。
在确定A个待定领域词对所述目标领域的贡献度时,具体可以按照上述实施例一(对应图1)提供的方法进行计算。
S203:依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
进一步地,本方法实施例还可以包括步骤S204:
S204:从所述A个目标词语中选取排序在前D个的目标词语,将前D个目标词语作为所述目标领域的领域词,其中,D为整数且D≤A。
综上,本实施例根据待定领域词对其所属互动型文本的重要度和互动度,来确定待定领域词对所属文本的贡献度,根据贡献度确定各个待定领域词的排序,并根据排序结果来确定领域词,可以比较真实的得到文本所属领域的领域词。此外,依据各个待定领域词在其所属领域的贡献度的排序,可以进一步确定该领域的领域值,这为对该领域的后续研究提供了极大的便利。
实施例三
参见图3,为本发明实施例提供的文本评审结果的获取方法的流程示意图,该方法包括步骤S301-S308:
S301:获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1。
E个文本词语即为评审者从待评审文件中自选的E个关键词。
S302:确定所述目标领域的领域词。
关于所述目标领域的领域词,可以根据实施例二(对应图2)所提供方法来确定,以得到所述目标领域的D个领域词,具体过程可以参见实施例二,此处不再赘述。
S303:通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;如果是,则执行步骤S305,如果否,则执行步骤S304。
在本步骤中,将目标领域的D个领域词作为查找对象,对待评审文本进行匹配查找,从而判断待评审文本中是否含有目标领域中的领域词。
S304:使所述待评审文本的评审结果为不合格,结束。
S305:统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1。
通过匹配查询,确定从待评审文中本查找出的领域词数量F。
S306:若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格。
例如,假设待评审文本所属的目标领域为信息技术领域,且从中选取了7(E=7)个文本词语,又假设通过对待评审文本进行领域词的匹配查找,从中查找出了4(F=4)个领域词,而且,这7个文本词语中包含有这4个领域词,此时,使待评审文本的评审结果为合格。
S307:若F>E,则将所述F个领域词中的每个领域词作为目标词语,计算所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序。
例如,通过匹配查找,从待评审文本中查出了15个(F=15)领域词,当从待评审文本中自选了7(E=7)个文本词语时,则将待评审文本作为目标文本,将从中匹配查找出的15个领域词中的每个词语作为目标词语,根据实施例一(对应图1)所提供的方法确定每个目标词语对目标文本的贡献度,即,计算这15个领域词对待评审文本的贡献度。
S308:根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
在本步骤中,将F个领域词按照各个领域词对待评审文本贡献度进行排序,比如,由大到小排序,并根据F个领域词的排序结果确定用于评审的指标参数,将指标参数与E个文本词语进行比较,并根据比较结果给出对待评审文本的评审结果。
在一些实施方式中,步骤S308可以包括步骤S3081-S3083:
S3081:将所述F个领域词中的排在前G位的领域词,作为用于评审所述待评审文本的指标参数。
S3082:计算所述指标参数与所述E个文本词语的相似度。
S3083:判断所述相似度是否大于预置阈值,如果是,则给出所述待评审文本合格的评审结果,如果否,则给出所述待评审文本不合格的评审结果。
在本实施例中,所述相似度是指,将G个指标参数与E个文本词语进行比较,以确定E个文本词语中有几个词语包含在G个指标参数中。例如,G=9,E=6,通过比较,当6个文本词语中有5个出现在9个指标参数中,则所述相似度为5/9,假设预置阈值为4/9,则认为该待评审文本为合格文本,否则为不合格文本。
综上,本实施例获取待评审文本所属领域的领域词,对于待评审文本中出现的每个领域词,计算其对待评审文本的贡献度,并按照贡献度大小对其中的各个领域词进行排序,将排在前面的几个领域词作为指标参数,将指标参数与从待评审文本中自选的文本词语进行比较,从而给出待评审文本的评审结果,可见,本实施例根据待评审文本所属的领域,以及待评审文本自身的文本词语信息,对待评审文本的内容进行了评审,当需要对大量文本进行评审时,可以采用本实施例进行文本的预评审,从而将大量文本进行初步的分类。然而,现有的文本评审工作一般都是人工进行,这样,评审人员通过需要将文本浏览一遍以了解其内容后才能对文本进行评审,但是,当文本评审的工作量较大时,其效率非常低,而采用本实施例可以极大的提高文本评审的效率。
实施例四
本发明实施例提供的文本所属领域的确定方法,该方法包括如图4A所示的阈值获取方法、以及如图4B所示的领域确定方法。其中,阈值获取方法可以只执行一次,也可以根据需要重新执行阈值获取方法以更新其输出结果,针对不同的待分类文本,可以基于阈值获取方法最新的执行结果执行领域确定方法。其中,阈值获取方法的实现流程,是确定文本所属领域的预先准备工作,其目的是要获得用于确定待分类文本是否属于目标领域的相似度阈值。
参见图4A,所述阈值获取方法包括步骤S401-S406:
S401:确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量。
可以采用上述实施例二(对应图2)提供的方法确定目标领域的D个领域词,而每个领域词的贡献度也在实施例二的执行过程中计算得出,具体实现过程此处不再赘述。
在本步骤中,还需要根据所述目标领域的D个领域词的贡献度形成目标领域的领域词向量,该领域词向量是一个D维向量,包含D个元素值,这D个元素值即为D个领域词分别对目标领域的贡献度。例如,假设所述目标领域为信息技术领域,且假设信息技术领域中有4(即D=5)个领域词,这4个领域词对信息技术领域的贡献度分别为0.5、0.7、0.1、0.3,则所述领域词向量即为[0.5、0.7、0.1、0.3]。
S402:从所述目标领域中选取H个文本,H为整数且H≥1。
S403:将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度。
可以采用上述实施例一(对应图1)提供的方法,确定每个文本中的领域词对该文本的贡献度,在此不再赘述。
S404:使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量。
对于选取的H个文本,分别判断每个文本中是否包含上述D个领域词中的词,其结果可能是,文本中不包含任意一个领域词,或包括部分的领域词,或包含全部的领域词。对于没有出现在文本中的领域词,使其在对应文本中的贡献度为零。可见,所述文本词向量也是一个D维向量,包含D个元素值,这D个元素值即为上述D个领域词对对应文本的贡献度。
例如,由yi表示第i个领域词对文本的贡献度,对于上述目标领域中的4个领域词,假设H个文本中的一个文本中没有其中的第2个领域词,则该领域词在该文本中的贡献度为y2=0,则该文本的文本词向量即为[y1、0、y3、y4]。
S405:计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度。
在本步骤中,文本词向量与领域词向量之间的相似度,可以为两个向量夹角的余弦值,或者采用其他相似度计算方法。
S406:根据所述H个相似度确定一个相似度阈值。
在本步骤中,所述相似度阈值可以根据上个步骤得到的H个相似度确定,具体的,可以对H个相似度求平均值并将该平均值作为相似度阈值,也可以采用其它运算方式来确定相似度阈值。
参见图4B,所述领域确定方法包括步骤S407-S408:
S407:将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度,形成分类词向量。
可以采用上述实施例一(对应图1)提供的方法,确定待分类文本中的每个领域词对该文本的贡献度,在此不再赘述。
对于待分类文本,判断该文本中是否包含上述D个领域词中的词,其结果可能是,文本中不包含任意一个领域词,或包括部分的领域词,或包含全部的领域词。当D个领域词中的某个领域词没有被包含在待分类文本中时,该领域词对待分类文本的贡献度则为零。可见,所述分类词向量也是一个D维向量,包含D个元素值,这D个元素值即为上述D个领域词对待分类文本的贡献度。
S408:计算所述分类词向量与所述领域词向量之间的相似度,根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
在本步骤中,可以采用S405中的方法计算分类词向量与领域词向量之间的相似度,即可以计算两个向量夹角的余弦值。
在确定待分类文本是否属于所述目标领域时,可以包括:判断该相似度是否大于所述相似度阈值,如果是,则确定所述待分类文本不属于所述目标领域,如果否,则确定所述待分类文本属于所述目标领域。
需要说明的是,关于上述D个领域词,对于同一个领域词,其贡献度在各个向量中对应相同的位置。例如,所述目标领域为信息技术领域,如果其中的一个领域词为“处理器”、且“处理器”的贡献度在领域词向量中对应第二个位置,则“处理器”的贡献度在文本词向量和分类词向量中也对应第二个位置,即这三个向量中的第二个元素值,均记录了“处理器”这个词对各个文本的贡献度。
进一步地,在得到上述每个向量之后,还可以对每个向量进行归一化处理,以避免因文本长度的不同对对应向量的影响。具体地,可以利用每个向量中各个向量元素的欧氏距离作为各个向量元素的分母,以对每个向量进行归一化处理,例如,对于领域词向量[0.5、0.7、0.1、0.3],其各个元素的欧式距离为则对领域词向量进行归一化处理后,为[0.5/X、0.7/X、0.1/X、0.3/X]。相同的,文本词向量和分类词向量也需要进行归一化处理,具体方法与领域词向量的归一化处理方式相同,此处不再赘述。
综上,本实施例通过计算某领域的各个领域词在文本中的贡献度,以领域词在文本中的贡献度为向量元素,分别得到代表该领域的领域词向量和该领域中不同文本的文本词向量,根据这些向量计算得到一相似度阈值。基于此,在确定一待分类文本是否属于该领域时,将该领域的领域词对待分类文本的贡献度,作为待分类文本的分类词向量,然后计算分类词向量与领域词向量之间的相似度,并根据该相似度与相似度阈值之间的比较结果,确定待分类文本是否属于该领域,从而对待分类文本进行领域分类。其中,在计算各个领域词在对应文本中的贡献度时,考虑了每个领域词在文本中的位置、出现次数以及领域词本身的长度,从而可以全面而真实地反映出待分类文本与该领域之间的归属关系。
实施例五
参见图5,为本发明实施例提供的文本摘要的生成方法的流程示意图,该方法包括步骤S501-S505:
S501:对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1。
S502:确定所述目标词语对所述目标文本的贡献度。
可以采用上述实施例一(对应图1)提供的方法,确定所述目标词语对所述目标文本的贡献度,在此不再赘述。
S503:依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,其中,J为整数且J≤I。
可以将I个贡献度由大到小排序,取排序在前的几个或全部作为摘要词语。
S504:根据所述摘要词语确定待选的摘要语句。
在一些实施方式中,步骤S504可以包括步骤S5041-S5042:
S5041:确定所述摘要词语所属的目标语句,所述目标语句为所述目标文本中的句子。
S5042:如果所述摘要词语属于至少两个目标语句,则从所述至少两个目标语句中选择具有摘要词语个数最多的句子作为待选的摘要语句。
假设有6个摘要词语,则从目标文本中找出包含其中任意一个或多个摘要词语的句子,对于每个摘要词语,比如摘要词语A,如果其包含在多个句子中,比如3个句子,可以将这3个句子都作为待选的摘要语句,也可以从中选取一个句子作为候选的摘要语句,比如从这3个句子中选择摘要词语最多(即摘要词语A及其它摘要词语的总数最高)的句子。
S505:利用所述摘要语句生成文本摘要。
在本步骤中,可以按照各个摘要语句在其所属文本(即目标文本)中出现的顺序,进行依次连接以形成摘要,当然,也可以从这些摘要语句中选择部分摘要语句,并按照其在其所属文本中出现的顺利连接形成摘要,本实施例不限制摘要形成的方式。
综上,本实施例计算多个词语对文本的贡献度,根据这些贡献度从这些词语中确定出文本中的摘要词语,然后,根据每个摘要词语在文本中的位置找到待选的摘要语句,最后,通过摘要语句生产该文本的文本摘要。可见,本实施例提供的摘要形成方法是自动形成的,形成效率较高;此外,文本摘要是根据文本中的词语对文本的贡献度形成的,而每个词语的贡献度是根据词语在文本中的出现次数、出现位置以及词语自身的长度等信息计算出的,因此能够真实地反映词语对文本的贡献度,从而使得形成的摘要能够更加准确地反映出文本的实质内容。
实施例六
参见图6,为本发明实施例提供的词语对文本贡献度的确定装置的组成示意图,该装置包括:
文本选取单元601,用于从目标文本中选取A个目标词语,A为整数且A≥1;
重要度确定单元602,用于确定所述目标词语对所述目标文本的重要度;
互动度确定单元603,用于确定用户在所述目标文本中与所述目标词语的互动度;
贡献度计算单元604,用于按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;
WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
在一些实施方式中,所述重要度确定单元602可以包括:
片段划分子单元,用于将所述目标文本划分为B个文本片段,B为整数且B≥1;
参数获取子单元,用于获取重要度参数,所述重要度参数包括所述目标词语在所述文本片段中的出现位置和出现次数;
重要度确定子单元,用于根据所述重要度参数确定所述目标词语对所述目标文本的重要度。
在一些实施方式中,所述重要度确定子单元,可以具体用于按照第一公式或第二公式计算所述目标词语对所述目标文本的重要度;
所述第一公式为:
所述第二公式为:
其中,TWi为所述A个目标词语中的第i个目标词语;WordSign(TWi)为CWi对所述目标文本的重要度;n为所述目标文本中的文本片段的总数B;q为TWi所属的文本片段在所述目标文本中的位置;Wiq为当TWi所属的文本片段位于q位置时TWi对所述目标文本的重要度;Ciq为当TWi所属的文本片段位于q位置时TWi在该文本片段中的出现次数;Li为TWi的词长;a为可调底数;为调整常数。
在一些实施方式中,所述可调底数a可以为自然常数e。
在一些实施方式中,可以按照以下公式计算Wiq
其中,所述目标文本被划分为第一子文本和第二子文本;如果TWi属于所述第一子文本,则q=-1;如果TWi属于所述第二子文本,则q=x,x为TWi所属的文本片段在所述目标文本中的位置参数;n为所述目标文本中的文本片段的总数B;λ为加权常数;β为调整常数。
在一些实施方式中,所述互动度确定单元603可以包括:
频次统计单子元,用于统计用户在所述目标文本中与所述目标词语的互动频次;
互动度确定子单元,用于根据所述互动频次确定用户在所述目标文本中与所述目标词语的互动度。
在一些实施方式中,所述互动度确定子单元,具体用于按照以下公式计算用户在所述目标文本中与所述目标词语的互动度:
其中,TWi为所述A个目标词语中的第i个目标词语;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;m为所述目标文本中出现的目标词语的总数;n为所述目标文本中的出现过至少一次互动行为的目标词语的总数;fi为用户在所述目标文本中与CWi的互动频次;fi为用户在所述目标文本中与所述A个目标词语中的第j个目标词语的互动频次。
实施例七
参见图7,为本发明实施例提供的文本词语的排序装置的组成示意图,该装置包括:
文本获取单元701,用于获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1;
贡献度确定单元702,用于从所述目标文本中选取A个目标词语,确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词;其中,可以按照上述实施例六(对应图6)所提供的装置确定所述目标词语对所述目标文本的贡献度;
词语排序单元703,用于依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
在一些实施方式中,所述装置还包括:
词语选取单元704,用于从所述A个目标词语中选取排序在前D个的目标词语,D为整数且D≤A;
领域词确定单元705,用于将前D个目标词语作为所述目标领域的领域词。
实施例八
参见图8,为本发明实施例提供的文本评审结果的获取装置的组成示意图,该装置包括:
文本获取单元801,用于获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1;
领域词确定单元802,确定所述目标领域的领域词;其中,可以按照上述实施例七(对应图7)所提供的装置确定所述目标领域的领域词;
领域词查找单元,用于通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;
第一评审单元803,用于如果所述领域词查找单元确定所述待评审文本中不包含所述目标领域中的领域词,则使所述待评审文本的评审结果为不合格;
领域词统计单元804,用于如果所述领域词查找单元确定所述待评审文本中包含所述目标领域中的领域词,则统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1;
第二评审单元805,用于若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格;
领域词排序单元806,用于若F>E,则将所述F个领域词中的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度,其中,可以按照上述实施例七(对应图7)所提供的装置确定所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序;
第三评审单元807,用于根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
在一些实施方式中,所述第三评审单元807包括:
参数确定子单元,用于将所述F个领域词中的排在前G位的领域词,作为用于评审所述待评审文本的指标参数;
相似度计算子单元,用于计算所述指标参数与所述E个文本词语的相似度;
第三评审子单元,用于判断所述相似度是否大于预置阈值,如果是,则给出所述待评审文本合格的评审结果,如果否,则给出所述待评审文本不合格的评审结果。
实施例九
本发明实施例提供了一种文本所属领域的确定装置,该装置包括:如图9A所示的阈值获取子装置的组成示意图、以及如图9B所示的领域确定子装置的组成示意图。
参见图9A,所述阈值获取子装置可以包括:
第一向量形成单元9A01,用于确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量;其中,可以按照上述实施例七(对应图7)所提供的装置确定领域词和贡献度;
文本选取单元9A02,用于从所述目标领域中选取H个文本,H为整数且H≥1;
贡献度确定单元9A03,用于将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度;其中,可以按照上述实施例六(对应图6)所提供的装置确定所述目标词语对所述目标文本的贡献度;
第二向量形成单元9A04,用于使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量;
第一相似度计算单元9A05,用于计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度;
阈值确定单元9A06,用于根据所述H个相似度确定一个相似度阈值。
参见图9B,所述领域确定子装置可以包括:
第三向量形成单元9B01,用于将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,确定所述目标词语对所述目标文本的贡献度,形成分类词向量;其中,可以按照上述实施例七(对应图7)所提供的装置确定贡献度;
第二相似度计算单元9B02,用于计算所述分类词向量与所述领域词向量之间的相似度;
领域确定单元9B03,用于根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
在一些实施方式中,所述领域确定单元9B03,具体用于判断该相似度是否大于所述相似度阈值,如果是,则确定所述待分类文本不属于所述目标领域,如果否,则确定所述待分类文本属于所述目标领域。
实施例十
参见图10,为本发明实施例提供的文本摘要的生成装置的组成示意图,该装置包括:
分词处理单元1001,用于对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1;
贡献度确定单元1002,用于确定所述目标词语对所述目标文本的贡献度;其中,可以按照上述实施例六(对应图6)所提供的装置确定所述目标词语对所述目标文本的贡献度;
摘要词获取单元1003,用于依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,J为整数且J≤I;
摘要句确定单元1004,用于根据所述摘要词语确定待选的摘要语句;
摘要生成单元1005,用于利用所述摘要语句生成文本摘要。
在一些实施方式中,所述摘要句确定单元1004可以包括:
出处确定子单元,用于确定所述摘要词语所属的目标语句,所述目标语句为所述目标文本中的句子;
摘要句确定子单元,用于如果所述摘要词语属于至少两个目标语句,则从所述至少两个目标语句中选择具有摘要词语个数最多的句子作为待选的摘要语句。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (30)

1.一种词语对文本贡献度的确定方法,其特征在于,包括:
从目标文本中选取A个目标词语,A为整数且A≥1;
确定所述目标词语对所述目标文本的重要度,并确定用户在所述目标文本中与所述目标词语的互动度;
按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标词语对所述目标文本的重要度,包括:
将所述目标文本划分为B个文本片段,B为整数且B≥1;
获取重要度参数,所述重要度参数包括所述目标词语在所述文本片段中的出现位置和出现次数;
根据所述重要度参数确定所述目标词语对所述目标文本的重要度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述重要度参数确定所述目标词语对所述目标文本的重要度,包括:
按照第一公式或第二公式计算所述目标词语对所述目标文本的重要度;
所述第一公式为:
所述第二公式为:
其中,TWi为所述A个目标词语中的第i个目标词语;WordSign(TWi)为CWi对所述目标文本的重要度;n为所述目标文本中的文本片段的总数B;q为TWi所属的文本片段在所述目标文本中的位置;Wiq为当TWi所属的文本片段位于q位置时TWi对所述目标文本的重要度;Ciq为当TWi所属的文本片段位于q位置时TWi在该文本片段中的出现次数;Li为TWi的词长;a为可调底数;为调整常数。
4.根据权利要求3所述的方法,其特征在于,所述可调底数a为自然常数e。
5.根据权利要求3或4所述的方法,其特征在于,按照以下公式计算Wiq
w i q = I n ( n - q n + β ) , q = x , x ∈ 1 ~ n λ F i q , q = - 1
其中,所述目标文本被划分为第一子文本和第二子文本;如果TWi属于所述第一子文本,则q=-1;如果TWi属于所述第二子文本,则q=x,x为TWi所属的文本片段在所述目标文本中的位置参数;n为所述目标文本中的文本片段的总数B;λ为加权常数;β为调整常数。
6.根据权利要求1所述的方法,其特征在于,所述确定用户在所述目标文本中与所述目标词语的互动度,包括:
统计用户在所述目标文本中与所述目标词语的互动频次;
根据所述互动频次确定用户在所述目标文本中与所述目标词语的互动度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述互动频次确定用户在所述目标文本中与所述目标词语的互动度,包括:
按照以下公式计算用户在所述目标文本中与所述目标词语的互动度:
W o r d I n t e r ( TW i ) = f i Σ j = 1 n f j * n m
其中,TWi为所述A个目标词语中的第i个目标词语;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;m为所述目标文本中出现的目标词语的总数;n为所述目标文本中的出现过至少一次互动行为的目标词语的总数;fi为用户在所述目标文本中与CWi的互动频次;fi为用户在所述目标文本中与所述A个目标词语中的第j个目标词语的互动频次。
8.一种文本词语的排序方法,其特征在于,包括:
获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1;
从所述目标文本中选取A个目标词语,根据权利要求1至7任一项所述的方法确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词;
依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
从所述A个目标词语中选取排序在前D个的目标词语,D为整数且D≤A;
将前D个目标词语作为所述目标领域的领域词。
10.一种文本评审结果的获取方法,其特征在于,包括:
获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1;
根据权利要求9所述的方法确定所述目标领域的领域词;
通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;
如果否,则使所述待评审文本的评审结果为不合格;
如果是,则统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1;
若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格;
若F>E,则将所述F个领域词中的每个领域词作为目标词语,根据权利要求1至7任一项所述的方法确定所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序;根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
11.根据权利要求10所述的方法,其特征在于,所述根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果,包括:
将所述F个领域词中的排在前G位的领域词,作为用于评审所述待评审文本的指标参数;
计算所述指标参数与所述E个文本词语的相似度;
判断所述相似度是否大于预置阈值,如果是,则给出所述待评审文本合格的评审结果,如果否,则给出所述待评审文本不合格的评审结果。
12.一种文本所属领域的确定方法,其特征在于,包括阈值获取方法和领域确定方法;
所述阈值获取方法包括:
根据权利要求9所述的方法,确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量;
从所述目标领域中选取H个文本,H为整数且H≥1;
将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,根据权利要求1至7任一项所述的方法确定所述目标词语对所述目标文本的贡献度;
使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量;
计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度;
根据所述H个相似度确定一个相似度阈值;
所述领域确定方法包括:
将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,根据权利要求1至7任一项所述的方法确定所述目标词语对所述目标文本的贡献度,形成分类词向量;
计算所述分类词向量与所述领域词向量之间的相似度,根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
13.根据权利要求12所述的方法,其特征在于,所述根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域,包括:
判断该相似度是否大于所述相似度阈值,如果是,则确定所述待分类文本不属于所述目标领域,如果否,则确定所述待分类文本属于所述目标领域。
14.一种文本摘要的生成方法,其特征在于,包括:
对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1;
根据权利要求1至7任一项所述的方法,确定所述目标词语对所述目标文本的贡献度;
依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,J为整数且J≤I;
根据所述摘要词语确定待选的摘要语句,利用所述摘要语句生成文本摘要。
15.根据权利要求14所述的方法,其特征在于,所述根据所述摘要词语确定待选的摘要语句,包括:
确定所述摘要词语所属的目标语句,所述目标语句为所述目标文本中的句子;
如果所述摘要词语属于至少两个目标语句,则从所述至少两个目标语句中选择具有摘要词语个数最多的句子作为待选的摘要语句。
16.一种词语对文本贡献度的确定装置,其特征在于,包括:
文本选取单元,用于从目标文本中选取A个目标词语,A为整数且A≥1;
重要度确定单元,用于确定所述目标词语对所述目标文本的重要度;
互动度确定单元,用于确定用户在所述目标文本中与所述目标词语的互动度;
贡献度计算单元,用于按照以下公式计算所述目标词语对所述目标文本的贡献度:
WordContri(TWi)=WordSign(TWi)*θ+WordInter(TWi)*(1-θ);
其中,TWi为所述A个目标词语中的第i个目标词语;WordContri(TWi)为TWi对所述目标文本的贡献度;WordSign(TWi)为CWi对所述目标文本的重要度;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;θ为介于0-1之间的权重因子。
17.根据权利要求16所述的装置,其特征在于,所述重要度确定单元包括:
片段划分子单元,用于将所述目标文本划分为B个文本片段,B为整数且B≥1;
参数获取子单元,用于获取重要度参数,所述重要度参数包括所述目标词语在所述文本片段中的出现位置和出现次数;
重要度确定子单元,用于根据所述重要度参数确定所述目标词语对所述目标文本的重要度。
18.根据权利要求17所述的装置,其特征在于,所述重要度确定子单元,具体用于按照第一公式或第二公式计算所述目标词语对所述目标文本的重要度;
所述第一公式为:
所述第二公式为:
其中,TWi为所述A个目标词语中的第i个目标词语;WordSign(TWi)为CWi对所述目标文本的重要度;n为所述目标文本中的文本片段的总数B;q为TWi所属的文本片段在所述目标文本中的位置;Wiq为当TWi所属的文本片段位于q位置时TWi对所述目标文本的重要度;Ciq为当TWi所属的文本片段位于q位置时TWi在该文本片段中的出现次数;Li为TWi的词长;a为可调底数;为调整常数。
19.根据权利要求18所述的装置,其特征在于,所述可调底数a为自然常数e。
20.根据权利要求18或19所述的装置,其特征在于,按照以下公式计算Wiq
W i q = I n ( n - q n + β ) , q = x , x ∈ 1 ~ n λ F i q , q = - 1
其中,所述目标文本被划分为第一子文本和第二子文本;如果TWi属于所述第一子文本,则q=-1;如果TWi属于所述第二子文本,则q=x,x为TWi所属的文本片段在所述目标文本中的位置参数;n为所述目标文本中的文本片段的总数B;λ为加权常数;β为调整常数。
21.根据权利要求16所述的装置,其特征在于,所述互动度确定单元包括:
频次统计单子元,用于统计用户在所述目标文本中与所述目标词语的互动频次;
互动度确定子单元,用于根据所述互动频次确定用户在所述目标文本中与所述目标词语的互动度。
22.根据权利要求21所述的装置,其特征在于,所述互动度确定子单元,具体用于按照以下公式计算用户在所述目标文本中与所述目标词语的互动度:
W o r d I n t e r ( TW i ) = f i Σ j = 1 n f j * n m
其中,TWi为所述A个目标词语中的第i个目标词语;WordInter(TWi)为用户在所述目标文本中与TWi的互动度;m为所述目标文本中出现的目标词语的总数;n为所述目标文本中的出现过至少一次互动行为的目标词语的总数;fi为用户在所述目标文本中与CWi的互动频次;fi为用户在所述目标文本中与所述A个目标词语中的第j个目标词语的互动频次。
23.一种文本词语的排序装置,其特征在于,包括:
文本获取单元,用于获取目标文本,所述目标文本为目标领域中的C个文本,C为整数且C≥1;
贡献度确定单元,用于从所述目标文本中选取A个目标词语,根据权利要求16至22任一项所述的装置确定所述目标词语对所述目标文本的贡献度,所述目标词语为所述目标领域的待定领域词;
词语排序单元,用于依据所述A个目标词语的贡献度,对所述A个目标词语进行排序。
24.根据权利要求23所述的装置,其特征在于,所述装置还包括:
词语选取单元,用于从所述A个目标词语中选取排序在前D个的目标词语,D为整数且D≤A;
领域词确定单元,用于将前D个目标词语作为所述目标领域的领域词。
25.一种文本评审结果的获取装置,其特征在于,包括:
文本获取单元,用于获取待评审文本,并从所述待评审文本中选取E个文本词语,所述待评审文本为目标领域中的一个文本,E为整数且E≥1;
领域词确定单元,用于根据权利要求24所述的装置确定所述目标领域的领域词;
领域词查找单元,用于通过对所述待评审文本进行词语查找,确定所述待评审文本中是否包含所述目标领域中的领域词;
第一评审单元,用于如果所述领域词查找单元确定所述待评审文本中不包含所述目标领域中的领域词,则使所述待评审文本的评审结果为不合格;
领域词统计单元,用于如果所述领域词查找单元确定所述待评审文本中包含所述目标领域中的领域词,则统计从所述待评审文本中查找出的领域词,得到查找出的F个领域词,F为整数且F≥1;
第二评审单元,用于若F≤E、且所述E个文本词语中包含了所述F个领域词,则使所述待评审文本的评审结果为合格;
领域词排序单元,用于若F>E,则将所述F个领域词中的每个领域词作为目标词语,根据权利要求16至22任一项所述的装置确定所述目标词语对所述目标文本的贡献度;按照所述F个领域词分别对所述待评审文本的贡献度对所述F个领域词进行排序;
第三评审单元,用于根据排序结果确定用于评审所述待评审文本的指标参数,获取所述指标参数与所述E个文本词语的比较结果,利用所述比较结果给出对所述待评审文本的评审结果。
26.根据权利要求25所述的装置,其特征在于,所述第三评审单元包括:
参数确定子单元,用于将所述F个领域词中的排在前G位的领域词,作为用于评审所述待评审文本的指标参数;
相似度计算子单元,用于计算所述指标参数与所述E个文本词语的相似度;
第三评审子单元,用于判断所述相似度是否大于预置阈值,如果是,则给出所述待评审文本合格的评审结果,如果否,则给出所述待评审文本不合格的评审结果。
27.一种文本所属领域的确定装置,其特征在于,包括阈值获取子装置和领域确定子装置;
所述阈值获取子装置包括:
第一向量形成单元,用于根据权利要求24所述的装置,确定目标领域的D个领域词以及每个领域词在所述目标领域中的贡献度,将得到的D个贡献度形成领域词向量;
文本选取单元,用于从所述目标领域中选取H个文本,H为整数且H≥1;
贡献度确定单元,用于将所述H个文本中的每个文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,根据权利要求16至22任一项所述的装置确定所述目标词语对所述目标文本的贡献度;
第二向量形成单元,用于使每个文本中的领域词对应的贡献度形成一个文本词向量,得到H个文本词向量;
第一相似度计算单元,用于计算每个文本词向量与所述领域词向量之间的相似度,得到H个相似度;
阈值确定单元,用于根据所述H个相似度确定一个相似度阈值;
所述领域确定子装置包括:
第三向量形成单元,用于将待分类文本作为目标文本,将所述目标文本中的属于所述目标领域的每个领域词作为目标词语,根据权利要求16至22任一项所述的装置确定所述目标词语对所述目标文本的贡献度,形成分类词向量;
第二相似度计算单元,用于计算所述分类词向量与所述领域词向量之间的相似度;
领域确定单元,用于根据该相似度与所述相似度阈值之间的比较结果,确定所述待分类文本是否属于所述目标领域。
28.根据权利要求27所述的装置,其特征在于,所述领域确定单元,具体用于判断该相似度是否大于所述相似度阈值,如果是,则确定所述待分类文本不属于所述目标领域,如果否,则确定所述待分类文本属于所述目标领域。
29.一种文本摘要的生成装置,其特征在于,包括:
分词处理单元,用于对目标文本进行分词处理,得到I个目标词语,I为整数且I≥1;
贡献度确定单元,用于根据权利要求16至22任一项所述的装置,确定所述目标词语对所述目标文本的贡献度;
摘要词获取单元,用于依据I个贡献度将所述I个目标词语进行排序,并将排序在前的J个目标词语作为摘要词语,J为整数且J≤I;
摘要句确定单元,用于根据所述摘要词语确定待选的摘要语句;
摘要生成单元,用于利用所述摘要语句生成文本摘要。
30.根据权利要求29所述的方法,其特征在于,所述摘要句确定单元包括:
出处确定子单元,用于确定所述摘要词语所属的目标语句,所述目标语句为所述目标文本中的句子;
摘要句确定子单元,用于如果所述摘要词语属于至少两个目标语句,则从所述至少两个目标语句中选择具有摘要词语个数最多的句子作为待选的摘要语句。
CN201611200154.0A 2016-12-22 2016-12-22 一种词语对文本贡献度的确定方法及装置 Active CN106598949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611200154.0A CN106598949B (zh) 2016-12-22 2016-12-22 一种词语对文本贡献度的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611200154.0A CN106598949B (zh) 2016-12-22 2016-12-22 一种词语对文本贡献度的确定方法及装置

Publications (2)

Publication Number Publication Date
CN106598949A true CN106598949A (zh) 2017-04-26
CN106598949B CN106598949B (zh) 2019-01-04

Family

ID=58600903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611200154.0A Active CN106598949B (zh) 2016-12-22 2016-12-22 一种词语对文本贡献度的确定方法及装置

Country Status (1)

Country Link
CN (1) CN106598949B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959516A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 会话消息处理方法和装置
CN109062912A (zh) * 2018-08-08 2018-12-21 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN109828028A (zh) * 2019-03-28 2019-05-31 深圳中凯剑无损检测设备科技有限公司 一种超声检测缺陷定性系统和定性方法
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113590755A (zh) * 2021-08-02 2021-11-02 北京小米移动软件有限公司 词权重的生成方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212446A1 (en) * 2003-07-30 2006-09-21 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
CN101710317A (zh) * 2009-11-17 2010-05-19 上海第二工业大学 基于词分布的词语局部权重计算方法
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN105975459A (zh) * 2016-05-24 2016-09-28 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212446A1 (en) * 2003-07-30 2006-09-21 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
CN101710317A (zh) * 2009-11-17 2010-05-19 上海第二工业大学 基于词分布的词语局部权重计算方法
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN105975459A (zh) * 2016-05-24 2016-09-28 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置
CN108959516A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 会话消息处理方法和装置
CN108959516B (zh) * 2018-06-28 2019-08-13 北京百度网讯科技有限公司 会话消息处理方法和装置
CN109062912A (zh) * 2018-08-08 2018-12-21 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN109062912B (zh) * 2018-08-08 2023-07-28 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN109828028A (zh) * 2019-03-28 2019-05-31 深圳中凯剑无损检测设备科技有限公司 一种超声检测缺陷定性系统和定性方法
CN109828028B (zh) * 2019-03-28 2021-11-30 烟台中凯检测科技有限公司 一种超声检测缺陷定性系统和定性方法
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113590755A (zh) * 2021-08-02 2021-11-02 北京小米移动软件有限公司 词权重的生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106598949B (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN106598949A (zh) 一种词语对文本贡献度的确定方法及装置
CN103729351B (zh) 查询词推荐方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
CN106599278A (zh) 应用搜索意图的识别方法及装置
CN107273861A (zh) 一种主观题阅卷评分方法、装置及终端设备
CN107220384B (zh) 一种基于相关性的搜索词处理方法、装置及计算设备
CN105843796A (zh) 一种微博情感倾向分析方法及装置
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
Das et al. Incremental maintenance of maximal cliques in a dynamic graph
CN105912716A (zh) 一种短文本分类方法及装置
CN104462399B (zh) 搜索结果的处理方法及装置
CN109408641A (zh) 一种基于有监督主题模型的文本分类方法及系统
CN102081627A (zh) 一种确定词语在文本中的贡献度的方法及系统
CN105373546B (zh) 一种用于知识服务的信息处理方法及系统
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CN109508378A (zh) 一种样本数据处理方法及装置
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN106033445A (zh) 获取文章关联度数据的方法和装置
CN107992480A (zh) 一种实现实体消歧的方法、装置及存储介质、程序产品
CN106951530A (zh) 一种事件类型抽取方法和装置
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN106649262B (zh) 一种社交媒体中企业硬件设施敏感信息防护方法
Leilei et al. Approaches for source retrieval and text alignment of plagiarism detection
CN107515904A (zh) 一种职位搜索方法和计算设备
CN109344400A (zh) 一种文献入库的判断方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant