CN103853711B - 一种文本信息处理方法及装置 - Google Patents
一种文本信息处理方法及装置 Download PDFInfo
- Publication number
- CN103853711B CN103853711B CN201210494698.8A CN201210494698A CN103853711B CN 103853711 B CN103853711 B CN 103853711B CN 201210494698 A CN201210494698 A CN 201210494698A CN 103853711 B CN103853711 B CN 103853711B
- Authority
- CN
- China
- Prior art keywords
- text message
- word
- text
- key
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本信息处理方法及装置,该方法包括:针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标;根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;根据确定出的热门程度值,对所述文本信息进行处理。采用本发明这里提出的技术方案,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
Description
技术领域
本发明涉及文本信息处理技术领域,尤其是涉及一种文本信息处理方法及装置。
背景技术
随着互联网技术的迅速发展,问答系统逐渐成为一种新的文本信息检索技术。和传统的搜索引擎返回大量相关文档不同,问答系统中,对于用户输入的一个文本信息,例如,用户提出的一个问题,问答系统直接反馈给用户精确的文本应答信息,从而省去了用户从大量相关的文档中去寻找自己所需文本应答信息的时间。但是在问答系统中,由于机器学习的能力有限,不能够较好地理解用户输入的文本信息,基于此,用户交互式问答系统应运而生。
用户交互式问答系统是一个基于网页(Web)的问答系统,它为广大用户提供了一个基于Web的平台,使用户可以通过互联网互相帮助,共同协作。对于一个用户输入的文本信息,例如用户输入一个问题,将由其他用户来回答。一般情况下,对于用户输入的文本信息,会根据该文本信息的热门程度进行排序,这样便于向用户展示当前最热门的文本信息。
现有技术中确定文本信息热门程度时,一般是根据用户对输入的文本信息的点击率来确定的。例如,对于一个用户输入的问题1和问题2,如果该问题1被点击的频率F1比较高,即该问题1的点击率高,则该问题1对应的热门程度也高。
但是现有技术中提出的确定文本信息热门程度的技术方案,对于用户输入的新的文本信息,无法确定其对应的热门程度,系统可能会默认该新的文本信息对应的热门程度较低,这样,在进行展示或者进行处理的时候,该新的文本信息可能排在比较靠后的位置,但是,如果该新的文本信息对应的热门程度可能比较高,如果采用现有技术中提出的技术方案,无法准确的确定输入的文本信息的热门程度,后续对文本信息进行分析时,可能造成错检、漏检等问题。
发明内容
本发明实施例提供了一种文本信息处理方法及装置,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
一种文本信息处理方法,包括:针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;根据确定出的热门程度值,对所述文本信息进行处理。
一种文本信息处理装置,包括:第一确定单元,用于针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;第二确定单元,用于根据第一确定单元确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;处理单元,用于根据第二确定单元确定出的热门程度值,对所述文本信息进行处理。
采用上述技术方案,针对一个待处理的文本信息,确定该文本信息对应的非文本特征值和文本特征值,然后根据文本信息热门程度逻辑回归模型,确定出该文本信息对应的热门程度值,根据得到的热门程度值,对该文本信息进行相应处理,相对于现有技术中,仅根据一个文本信息的点击率来确定该文本信息的热门程度值,然后根据得到的热门程度值进行相应的处理,无法实现准确地对没有点击率的文本信息进行处理,本发明实施例上述提出的技术方案,对于一个点击率为0的文本信息进行处理时,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
附图说明
图1为本发明实施例中,提出的文本信息处理方法流程图;
图2为本发明实施例中,提出的文本信息处理装置结构示意图。
具体实施方式
针对现有技术中存在的无法准确的确定输入的文本信息的热门程度,后续对文本信息进行分析时,可能造成错检、漏检等问题,本发明实施例这里提出的技术方案中,对于待处理的文本信息,确定该文本信息对应的非文本特征值和文本特征值,然后根据预置的文本信息热门程度逻辑回归模型,准确的确定出该文本信息的热门程度值,然后再对该文本信息进行处理,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
本发明实施例这里提出一种文本信息处理方法,如图1所示,其具体处理过程如下述:
步骤11,针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值。
其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,例如点击率、关注度等。所述文本特征是和文本信息中包含的内容相关的特征信息,例如文本信息内容中包含的关键词、非关键词等特征信息。在用户交互式问答系统中,待处理的文本信息可以是用户输入的问题,对用户输入的问题进行处理。
具体地,所述非文本特征值可以是该待处理文本信息的潜在点击率。其中点击率,作为文本信息的非文本特征,是衡量一个文本信息热门程度的重要指标。对于一个用户新输入的文本信息,其点击率信息为0,所以很难获取有效的和该新输入的文本信息相关的点击率信息。因此本发明实施例这里提出了根据已有的文本信息的点击率来估计待处理文本信息的点击率的方法,并称为潜在点击率。确定待处理文本信息对应的潜在点击率的方法,主要包括:在数据库中获得至少一个文本信息作为样本数据,确定获得的样本数据对应的点击率,根据确定出的点击率,确定待处理文本信息对应的潜在点击率。可以采用公式1,确定待处理文本信息对应的潜在点击率:
其中,δq1是待处理文本信息对应的潜在点击率,s(q,qi)是待处理文本信息q和样本数据qi之间的余弦相似度,hi是样本数据qi的点击率,T是样本数据的数量。
具体实施中,对于一个待处理的文本信息q,可以在已经存储的数据库中获得T个与文本信息q相似的文本信息作为样本数据,然后采用上述公式1,根据T个样本数据对应的点击率的加权平均来估计带处理文本信息q的潜在点击率。例如,在用户交互式问答系统中,对于用户新输入的问题q,其点击率信息为0,为确定出该问题q的潜在点击率信息,首先在问题库中获得T个与问题q相似的问题作为样本数据,然后根据这T个相似问题的点击率的加权平均来估计新问题q的潜在点击率。上述公式1中,应用在用户交互式问答系统中,对于用户输入的新问题1,其对应的潜在点击率为:
其中,δq1是在用户交互式问答系统中,用户新输入问题q对应的潜在点击率,s(q,qi)是问题q和作为样本数据的问题qi之间的余弦相似度,hi是作为样本数据的问题qi的点击率,T是获得的作为样本数据的问题数量。
具体地,文本信息的热门程度还和该文本信息本身的内容有关,所述文本特征可以但不限于包含组成文本信息的关键词和非关键词;一个包含关键词的文本信息对应的热门程度值可能会高于包含非关键词的文本信息对应的热门程度值。确定待处理文本信息对应的文本特征值,包括:在数据库中获得至少一个文本信息作为样本数据,将获得的样本数据划分为关键文本信息集合和非关键文本信息集合,其中,关键文本信息集合是包含关键词的文本信息集合,非关键文本信息集合是包含非关键词的文本信息集合,所述关键词和非关键词是表征文本信息内容的词语,根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;将待处理文本信息划分为包含至少一个词语的词语集合;分别确定待处理文本信息划分成的词语集合中的词语和确定出的关键词和非关键词之间的相关性权重;并根据得到的相关性权重,确定待处理文本信息对应的文本特征值。较佳地,确定包含至少一个关键词的关键词集合,包括获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语,针对任一词语,采用下述公式2a确定该词语在关键文本信息集合中的相关频率值,根据得到的相片频率值,确定包含至少一个关键词的关键词集合。
其中,rf0是词语和关键文本信息集合之间相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是词语wj在非关键文本信息集合中包含词语wj的文本信息的数量。
较佳地,确定包含至少一个非关键词的非关键词集合,包括获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;
针对任一词语,采用公式2b确定该词语在非关键文本信息集合中的相关频率值,根据得到的相片频率值,确定包含至少一个关键词的关键词集合。
其中,rf1是词语和非关键文本信息集合之间的相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是词语wj在非关键文本信息集合中包含词语wj的文本信息的数量。
进一步地,所述相关性权重包含待处理文本信息划分成的词语集合中的词语和确定出的关键词之间的第一相关性权重值,以及包含待处理文本信息划分成的词语集合中的词语和确定出的非关键词之间的第二相关性权重值,
确定待处理文本信息划分成的词语集合中的词语和确定出的关键词和非关键词之间的相关性权重,包括:将待处理文本信息的词语集合划分为包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;在划分的关键词集合和非关键词集合中,确定预设数量的关键词和非关键词;根据每个关键词的相关频率值和预设数量,确定所述词语集合中包含的关键词和关键文本信息集合之间的第一频率相关性权重值;以及根据每个非关键词的相关频率值和预设数量,确定所述词语集合中包含的非关键词和非关键文本信息集合之间的第二频率相关性权重值。
具体地,所述第一频率相关性权重值可以采用下述公式3a来确定:
其中,δq2是第一频率相关性权重值,λ是预设数量,φpl是关键词集合中第l个元素的相关频率值;
第二频率相关性权重值采用下述公式3b确定:
其中,δq3第二频率相关性权重值,λ是预设数量,φuj是非关键词集合中第j个元素的相关频率值。
具体实施中,在用户交互式问答系统中,对于用户输入的一个问题,问题的热门程度与该问题本身的内容相关,文本信息中包含的关键词和非关键词,对应用户输入的问题,可以称之为该问题内容中包含的流行词和非流行词,一个包含有流行词的问题可能会更容易吸引用户,反之,用户可能对含有非流行词的问题不感兴趣,因此在用户交互式问答系统中,对于一个用书输入的问题,该问题中包含的流行词和非流行词对问题的热门程度也是比较重要的。在具体应用中,流行词一般出现在热门程度值较高的问题中,本发明实施例这里简称热门问题,而非流行词一般出现在热门程度值较低的问题中,本发明实施例这里简称非热门问题。假设用户输入的问题q,即待处理的问题,为了准确的确定出问题q对应文本特征值,则需要确定问题q中包含的流行词和非流行词各自所占的权重值。则具体实施中,在问题库中获得至少一个问题作为样本数据,将获得的样本数据划分为包含流行词的热门问题集合Ωp和包含非流行词的非热门问题集合Ωu。较佳地,本发明实施例这里提出的技术方案中,如果一个词语在热门问题集合中出现的频率高于其在不热门问题集合中出现的频率,则认为该词语是流行词,反之,则认为该词语是非流行词语。具体实施中,对于用户输入的问题q,将问题q中包含的信息划分为包含只好一个词语的词语集合,针对词语集合中的每个词语,分别确定该词语和热门问题集合Ωp中的流行词之间的相关频率值,以及该词语和非热门问题集合Ωu中包含的非流行词之间的相关频率值。
具体地,一个词语wj在热门问题集合Ωp中的相关频率值可以按照上述公式2a进行计算,具体为:
其中rf是相关率值,是在热门问题集合Ωp中包含词语wj的问题个数,是词语wj在不热门问题集合Ωu中包含词语wj的问题个数。
同理,词语wj在不热门问题集合Ωu中的相关频率值也可以通过类似计算得到,这里不再赘述。由此,我们可以从已有样本数据中获得到流行词和非流行词的列表信息。
根据得到的相关频率值,进一步地,对于一个用户输入的新问题q,可以将其含有的所有词语根据相关频率值划分为流行词语集合和非流行词语集合,然后分别在流行词语集合和非流行词语集合中,选择前λ个流行词语和前λ个非流行词语,确定出第一频率相关性权重和第二频率相关性权重,然后生成待处理问题q对应的文本特征值。
具体地,第一频率相关性权重和第二频率相关性权重的计算方案,可以按照上述公式3a和公式3b进行计算,这里不再赘述。
步骤12,根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值。
其中,预置的文本信息热门程度逻辑回归模型为:
P(q)=f(δq1,δq2,...,δqu) 公式4
其中,P(q)是热门程度值,δqu是信息文本中与热门程度值相关的第u维特征。
具体地,可以采用下述公式5,根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值:
其中,P(q)是热门程度值,δq1是非文本特征值,δq2是第一个文本特征值,δq3是第二个文本特征值,α,β1,β2和β3是调整参数值。
具体地,α,β1,β2和β3的确定方式可以但不限于采用下述两种方式:
第一种方式:α,β1,β2和β3通过技术人员根据经验,预先设置。
第二中方式:通过回归迭代的方式,计算出调整参数值α,β1,β2和β3,具体为:
在数据库中获得至少一个文本信息作为样本数据,根据获得的样本数据,进行对数似然估计计算,具体为:
其中,mi是第i个样本数据的热门程度值,具体为:mi=α+β1·δq1+β2·δq2+β3·δq3,yi是表示在样本数据中,当第i个样本数据是关键文本信息时,yi的取值为1,当第i个样本数据是非关键文本信息时,yi的取值为0,Ntr是做估算调整参数值的样本数据的总数量。
需要说明的是,调整参数值α,β1,β2和β3是常数,具体实施中,可以根据迭代计算,确定调整参数值α,β1,β2和β3的最佳组合。
较佳地,本发明实施例这里提出的技术方案中,采用上述第二种方式来确定调整参数值α,β1,β2和β3。
具体实施中,在用户交互式问答系统中,一个问题的热门程度值,主要由用户对该问题的兴趣程度所决定,一般反应在用户浏览该问题的点击率上。因此,对于两个问题qi和qj热门程度的比较,本发明实施例这里可以假设U(q)是对于问题q感兴趣的用户集合,对于问题qi和qj,当且仅当U(qi)的集合人数大于U(qj)时,问题qi的热门程度值高于问题qj的热门程度值,即问题qi比问题qj更热门。
基于此,在用户交互式系统中,对于一个问题q,其热门程度值可以由于该问题q相关的特征来确定。对于问题q,其热门程度逻辑回归模型为P(q)=f(δq1,δq2,...,δqu),其中P(q)是该问题对应的热门程度值,对于一个新输入的问题来说,P(q)也是该问题对应的热门程度值的预测值,该值越大则表示该问题越热门。δqi是与问题q的热门程度值度相关的第i维特征。在问题热门程度逻辑回归模型中,可以通过用户交互式问答系统中已有的问题数据,来对用户新输入的问题的热门程度进行预测。从系统中获得已有的问题作为样本数据,表示为Ωbg,其中包括问题q及其用户点击率信息c,表示为Ωbg=<q,c>。每一个问题q由向量空间模型表示为q=(vi1,vi2,...,viM)。vij是q中的词语wj的权重,本发明实施例这里以逆文档频率(IDF)来表示。
对于用户新输入问题q的热门程度值可以通过上述公式4中提出的逻辑回归模型确定,具体为:
通过回归迭代的方式,计算出调整参数值α,β1,β2和β3,具体为:
其中,mi=α+β1·δq1+β2·δq2+β3·δq3。在样本数据中,当第i个问题是热门问题时,则yi为1;否则为0。
步骤13,根据确定出的热门程度值,对所述文本信息进行处理。
其中,在用户交互式系统中,对于用户新输入的问题q,在采用本发明实施例这里提出的技术方案,确定出该问题q对应的热门程度值之后,可以将该热门程度值提供给网络管理人员,网络管理人员根据该问题q对应的热门程度值,对该问题q进行相应的处理,例如如果该问题q对应的热门程度值较高,属于热门问题,则可以将问题q置顶设置展示给用户,进一步地,如果该问题q对应的热门程度值较高,网络管理人员可以进一步获得该问题q中包含的信息内容,然后根据信息内容,决定是否将该问题q删除,这样,可以较好地避免不法分子利用网络传输不良信息,净化网络环境。
例如,在具体实施中,本发明实施例这里以某市政府政务网的在线咨询子系统为例,来详细阐述本发明实施例这里提出的文本信息处理的技术方案,首先根据咨询问题点击率(即热门程度)对系统数据库中所有问题进行排序,然后选择前K个问题和后K个问题得到热门问题和非热门问题,并利用相关频率(relevance frequency)值计算来找到问题中的流行词和非流行词集合。最后通过获得的已有问题的点击率、流行词、非流行词等特征,构建出文本信息热门程度逻辑回归模型M。
对于一个新的问题q,如“关于家电下乡以旧换新的问题?”,通过构建出的文本信息热门程度逻辑回归模型M来确定该问题q是热门程度值。新问题的点击率特征,可以通过与其相似的K个问题的点击率来进行计算。首先计算与问题q相似的前K个问题,并得到这些问题的点击率,然后利用这K个问题的点击率,通过上述的公式1来计算出问题q的潜在点击率。新问题的流行词和非流行词特征可以根据数据样本中得到的流行词和非流行词集合得到,选择前λ个流行词语和前λ个非流行词语,并根据其频率相关性权重生成文本特征值。然后根据潜在点击率、文本特征值以及模型M,可以计算出问题热门程度值,热门程度值越高则表示该问题越热门;反之,则表示该问题不热门。
相应地,本发明实施例这里提出的技术方案,还可以应用在社交网络中,例如用于微博中,使网站站长、网络监管机构能提早发现热门话题,并根据需要做相应的处理。
首先我们在数据库中根据微博的支持或转发次数对热门话题进行排序,然后选择前K条微博和后K条微博,并利用相关频率值计算来找到微博中的流行词和非流行词集合。最后通过已有微博的转发次数、流行词、非流行词等特征,构建一个文本信息热门程度逻辑回归模型M。
对于一条新发微博q,可以通过文本信息热门程度逻辑回归模型M确定该新发微博的热门程度值。其中,新发微博的潜在转发次数特征,可以通过与其相似的K条微博的转发率来进行计算。首先计算与微博q相似的前K条微博,并得到这些微博的转发次数,接着,通过这K条微博的转发次数,通过上述的公式1来计算出微博q的潜在转发次数。新微博的流行词和非流行词特征可以根据样本数据中得到的流行词和非流行词集合得到,选择前λ个流行词语和非流行词语,并根据其频率相关性权重生成文本特征值。最后根据潜在转发次数和文本特征值,以及预先设置的文本信息热门程度逻辑回归模型计算出新发微博q对应的热门程度值,得到的结果越高则该新发微博越热门;反之,则越不热门。对于网络管理人员来说,可以将有限的精力集中在热门程度值较高、传播较广的微博上,及时验证微博信息的真实性,避免谣言被快速传播,影响社会稳定,净化网络环境。
相应地,本发明实施例这里提出的技术方案可以应用在通讯系统中的投诉处理业务中。由于在通讯系统中,业务众多,业务流程繁杂,客户投诉的问题也千差万别,投诉数量多,难以准确地发现的热门问题。通过本发明实施例这里提出的技术方案,可以更加及时准确的定位投诉热点问题,及时安排相关人员优先处理热点问题,减少投诉数量,提升客户服务满意率和公司的形象。
具体实施汇总,可以在数据库选择最近一个星期的投诉工单,按照业务类型,将工单进行排序,然后选择前K个业务类型和后K个业务类型的投诉问题,得到热门问题和非热门问题,再分别从选定的热门问题和非热门问题类型中随机取N条工单(每个类型都取N条工单),利用相关频率值计算来找到问题中的流行词和非流行词集合。最后通过已有问题的投诉数量、流行词、非流行词等特征,构建文本信息热门程度逻辑回归模型M。
例如,对于一条新投诉问题q,按照现有技术中热点闭环投诉管理系统的规则,当q所对应的业务类型在规定时间范围超过规定阀值时,则自动产生告警,由于预定义的业务类型细分程度有限,导致每个业务类型下面的投诉工单数量都比较大,出现告警数量远大于实际需要告警的数量。采用本发明实施例这里提出的技术方案,来提高告警的准确度。其中,新问题潜在投诉数量特征,可以通过与其相似的K个业务类型的投诉数量来进行计算。首先计算与投诉问题q相似的K个业务类型,并得到这些业务类型的投诉数量;接着,利用这K个业务类型的投诉数量,通过上述公式1来计算出问题q的潜在投诉数量。问题q的流行词和非流行词特征可以根据样本数据中的得到流行词和非流行词得到,选择前λ个流行词语和前λ个非流行词语,并生成文本特征值。通过潜在投诉量和文本特征值以及模型M,可以计算出该问题热门程度值,当值大于某个值时,产生告警,否则不产生告警。
相应地,本发明实施例这里提出一种文本信息处理装置,如图2所示,包括:
第一确定单元201,用于针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;
具体地,上述非文本特征值是该待处理文本信息的潜在点击率;
上述第一确定单元201,具体用于在数据库中获得至少一个文本信息作为样本数据;确定获得的样本数据对应的点击率;根据确定出的点击率,确定待处理文本信息对应的潜在点击率。
具体地,上述第一确定单元201,具体采用下述公式,确定待处理文本信息对应的潜在点击率:
其中,δq1是待处理文本信息对应的潜在点击率,s(q,qi)是待处理文本信息q和样本数据qi之间的余弦相似度,hi是样本数据qi的点击率,T是样本数据的数量。
第二确定单元202,用于根据第一确定单元确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;
所述文本特征包含组成文本信息的关键词和非关键词;
具体地,上述第二确定单元202,具体用于在数据库中获得至少一个文本信息作为样本数据;将获得的样本数据划分为关键文本信息集合和非关键文本信息集合,其中,关键文本信息集合是包含关键词的文本信息集合,非关键文本信息集合是包含非关键词的文本信息集合,所述关键词和非关键词是表征文本信息内容的词语;根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;将待处理文本信息划分为包含至少一个词语的词语集合;分别确定待处理文本信息划分成的词语集合中的词语和确定出的关键词和非关键词之间的相关性权重;并根据得到的相关性权重,确定待处理文本信息对应的文本特征值。
具体地,上述第二确定单元202,具体用于获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;针对任一词语,采用公式确定该词语在关键文本信息集合中的相关频率值,其中,rf0是词语和关键文本信息集合之间相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是词语wj在非关键文本信息集合中包含词语wj的文本信息的数量;根据得到的相片频率值,确定包含至少一个关键词的关键词集合。
具体地,上述第二确定单元202,具体用于获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;针对任一词语,采用公式确定该词语在非关键文本信息集合中的相关频率值,其中,rf1是词语和非关键文本信息集合之间的相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是词语wj在非关键文本信息集合中包含词语wj的文本信息的数量;根据得到的相片频率值,确定包含至少一个关键词的关键词集合。
具体地,所述相关性权重包含待处理文本信息划分成的词语集合中的词语和确定出的关键词之间的第一相关性权重值,以及包含待处理文本信息划分成的词语集合中的词语和确定出的非关键词之间的第二相关性权重值,上述第二确定单元202,具体用于将待处理文本信息的词语集合划分为包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;在划分的关键词集合和非关键词集合中,确定预设数量的关键词和非关键词;根据每个关键词的相关频率值和预设数量,确定所述词语集合中包含的关键词和关键文本信息集合之间的频率相关性权重值;以及根据每个非关键词的相关频率值和预设数量,确定所述词语集合中包含的非关键词和非关键文本信息集合之间的频率相关性权重值。
具体地,上述第二确定单元202,具体用于采用下述公式确定第一频率相关性权重值:
其中,δq2是第一频率相关性权重值,λ是预设数量,φpl是关键词集合中第l个元素的相关频率值;
具体地,上述第二确定单元202,具体用于采用下述公式确定第二频率相关性权重值:
其中,δq3第二频率相关性权重值,λ是预设数量,φuj是非关键词集合中第j个元素的相关频率值。
其中,预置的文本信息热门程度逻辑回归模型为:
P(q)=f(δq1,δq2,...,δqu)
其中,P(q)是热门程度值,δqu是信息文本中与热门程度值相关的第u维特征。
具体地,上述第二确定单元202,具体用于采用下述公式,确定该文本信息对应的热门程度值:
其中,P(q)是热门程度值,δq1是非文本特征值,δq2是第一个文本特征值,δq3是第二个文本特征值,α,β1,β2和β3是调整参数值。
具体地,所述调整参数值α,β1,β2和β3通过下述方式确定:在数据库中获得至少一个文本信息作为样本数据;根据获得的样本数据,进行对数似然估计计算,具体为:
其中,mi是第i个样本数据的热门程度值,具体为:mi=α+β1·δq1+β2·δq2+β3·δq3,yi是表示在样本数据中,当第i个样本数据是关键文本信息时,yi的取值为1,当第i个样本数据是非关键文本信息时,yi的取值为0,Ntr是做估算调整参数值的样本数据的总数量。
处理单元203,用于根据第二确定单元确定出的热门程度值,对所述文本信息进行处理。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (18)
1.一种文本信息处理方法,其特征在于,包括:
针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;
根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;
根据确定出的热门程度值,对所述文本信息进行处理。
2.如权利要求1所述的方法,其特征在于,所述非文本特征值是该待处理文本信息的潜在点击率;
确定待处理文本信息对应的非文本特征值,包括:
在数据库中获得至少一个文本信息作为样本数据;
确定获得的样本数据对应的点击率;
根据确定出的点击率,确定待处理文本信息对应的潜在点击率。
3.如权利要求2所述的方法,其特征在于,根据确定出的点击率,采用下述公式,确定待处理文本信息对应的潜在点击率:
其中,δq1是待处理文本信息对应的潜在点击率,s(q,qi)是待处理文本信息q和样本数据qi之间的余弦相似度,hi是样本数据qi的点击率,T是样本数据的数量。
4.如权利要求1所述的方法,其特征在于,所述文本特征包含组成文本信息的关键词和非关键词;
确定待处理文本信息对应的文本特征值,包括:
在数据库中获得至少一个文本信息作为样本数据;
将获得的样本数据划分为关键文本信息集合和非关键文本信息集合,其中,关键文本信息集合是包含关键词的文本信息集合,非关键文本信息集合是包含非关键词的文本信息集合,所述关键词和非关键词是表征文本信息内容的词语;
根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;
将待处理文本信息划分为包含至少一个词语的词语集合;
分别确定待处理文本信息划分成的词语集合中的词语和确定出的关键词和非关键词之间的相关性权重;并
根据得到的相关性权重,确定待处理文本信息对应的文本特征值。
5.如权利要求4所述的方法,其特征在于,根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个关键词的关键词集合,包括:
获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;
针对任一词语,采用公式确定该词语在关键文本信息集合中的相关频率值,其中,rf0是词语和关键文本信息集合之间相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是在非关键文本信息集合中包含词语wj的文本信息的数量;
根据得到的相关频率值,确定包含至少一个关键词的关键词集合。
6.如权利要求4所述的方法,其特征在于,根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个非关键词的非关键词集合,包括:
获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;
针对任一词语,采用公式确定该词语在非关键文本信息集合中的相关频率值,其中,rf1是词语和非关键文本信息集合之间的相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是在非关键文本信息集合中包含词语wj的文本信息的数量;
根据得到的相关频率值,确定包含至少一个非关键词的非关键词集合。
7.如权利要求1所述的方法,其特征在于,所述预置的文本信息热门程度逻辑回归模型为:
P(q)=f(δq1,δq2,...,δqu)
其中,P(q)是热门程度值,δqu是信息文本中与热门程度值相关的第u维特征。
8.如权利要求7所述的方法,其特征在于,采用下述公式,根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值:
其中,P(q)是热门程度值,δq1是非文本特征值,δq2是第一个文本特征值,δq3是第二个文本特征值,α,β1,β2和β3是调整参数值。
9.如权利要求8所述的方法,其特征在于,所述调整参数值α,β1,β2和β3通过下述方式确定:
在数据库中获得至少一个文本信息作为样本数据;
根据获得的样本数据,进行对数似然估计计算,具体为:
其中,mi是第i个样本数据的热门程度值,具体为:mi=α+β1·δq1+β2·δq2+β3·δq3,yi是表示在样本数据中,当第i个样本数据是关键文本信息时,yi的取值为1,当第i个样本数据是非关键文本信息时,yi的取值为0,Ntr是做估算调整参数值的样本数据的总数量。
10.一种文本信息处理装置,其特征在于,包括:
第一确定单元,用于针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;
第二确定单元,用于根据第一确定单元确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;
处理单元,用于根据第二确定单元确定出的热门程度值,对所述文本信息进行处理。
11.如权利要求10所述的装置,其特征在于,所述非文本特征值是该待处理文本信息的潜在点击率;
所述第一确定单元,具体用于在数据库中获得至少一个文本信息作为样本数据;确定获得的样本数据对应的点击率;根据确定出的点击率,确定待处理文本信息对应的潜在点击率。
12.如权利要求11所述的装置,其特征在于,所述第一确定单元,具体采用下述公式,确定待处理文本信息对应的潜在点击率:
其中,δq1是待处理文本信息对应的潜在点击率,s(q,qi)是待处理文本信息q和样本数据qi之间的余弦相似度,hi是样本数据qi的点击率,T是样本数据的数量。
13.如权利要求10所述的装置,其特征在于,所述文本特征包含组成文本信息的关键词和非关键词;
所述第二确定单元,具体用于在数据库中获得至少一个文本信息作为样本数据;将获得的样本数据划分为关键文本信息集合和非关键文本信息集合,其中,关键文本信息集合是包含关键词的文本信息集合,非关键文本信息集合是包含非关键词的文本信息集合,所述关键词和非关键词是表征文本信息内容的词语;根据划分的关键文本信息集合和非关键文本信息集合,确定包含至少一个关键词的关键词集合和包含至少一个非关键词的非关键词集合;将待处理文本信息划分为包含至少一个词语的词语集合;分别确定待处理文本信息划分成的词语集合中的词语和确定出的关键词和非关键词之间的相关性权重;并根据得到的相关性权重,确定待处理文本信息对应的文本特征值。
14.如权利要求13所述的装置,其特征在于,所述第二确定单元,具体用于获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;针对任一词语,采用公式确定该词语在关键文本信息集合中的相关频率值,其中,rf0是词语和关键文本信息集合之间相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是在非关键文本信息集合中包含词语wj的文本信息的数量;根据得到的相关频率值,确定包含至少一个关键词的关键词集合。
15.如权利要求13所述的装置,其特征在于,所述第二确定单元,具体用于获得关键文本信息集合和非关键文本信息集合中包含的至少一个词语;针对任一词语,采用公式确定该词语在非关键文本信息集合中的相关频率值,其中,rf1是词语和非关键文本信息集合之间的相关频率值,wj是第j个词语,是在关键文本信息集合中包含词语wj的文本信息的数量,是在非关键文本信息集合中包含词语wj的文本信息的数量;根据得到的相关频率值,确定包含至少一个非关键词的非关键词集合。
16.如权利要求10所述的装置,其特征在于,所述预置的文本信息热门程度逻辑回归模型为:
P(q)=f(δq1,δq2,...,δqu)
其中,P(q)是热门程度值,δqu是信息文本中与热门程度值相关的第u维特征。
17.如权利要求16所述的装置,其特征在于,所述第二确定单元,具体用于采用下述公式,确定该文本信息对应的热门程度值:
其中,P(q)是热门程度值,δq1是非文本特征值,δq2是第一个文本特征值,δq3是第二个文本特征值,α,β1,β2和β3是调整参数值。
18.如权利要求17所述的装置,其特征在于,所述调整参数值α,β1,β2和β3通过下述方式确定:
在数据库中获得至少一个文本信息作为样本数据;
根据获得的样本数据,进行对数似然估计计算,具体为:
其中,mi是第i个样本数据的热门程度值,具体为:mi=α+β1·δq1+β2·δq2+β3·δq3,yi是表示在样本数据中,当第i个样本数据是关键文本信息时,yi的取值为1,当第i个样本数据是非关键文本信息时,yi的取值为0,Ntr是做估算调整参数值的样本数据的总数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210494698.8A CN103853711B (zh) | 2012-11-28 | 2012-11-28 | 一种文本信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210494698.8A CN103853711B (zh) | 2012-11-28 | 2012-11-28 | 一种文本信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103853711A CN103853711A (zh) | 2014-06-11 |
CN103853711B true CN103853711B (zh) | 2017-02-08 |
Family
ID=50861379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210494698.8A Active CN103853711B (zh) | 2012-11-28 | 2012-11-28 | 一种文本信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103853711B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229671B2 (en) * | 2015-12-02 | 2019-03-12 | GM Global Technology Operations LLC | Prioritized content loading for vehicle automatic speech recognition systems |
CN109885656B (zh) * | 2019-02-18 | 2021-06-29 | 国家计算机网络与信息安全管理中心 | 基于量化热度的微博转发预测方法及装置 |
CN117313748B (zh) * | 2023-11-24 | 2024-03-12 | 中电科大数据研究院有限公司 | 面向政务问答的多特征融合语义理解方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346899A (zh) * | 2011-10-08 | 2012-02-08 | 亿赞普(北京)科技有限公司 | 一种基于用户行为的广告点击率预测方法和装置 |
CN102663617A (zh) * | 2012-03-20 | 2012-09-12 | 亿赞普(北京)科技有限公司 | 一种广告的点击率预测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352499B2 (en) * | 2003-06-02 | 2013-01-08 | Google Inc. | Serving advertisements using user request information and user information |
CN102479190A (zh) * | 2010-11-22 | 2012-05-30 | 阿里巴巴集团控股有限公司 | 一种搜索关键词的估计值预测方法和装置 |
-
2012
- 2012-11-28 CN CN201210494698.8A patent/CN103853711B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346899A (zh) * | 2011-10-08 | 2012-02-08 | 亿赞普(北京)科技有限公司 | 一种基于用户行为的广告点击率预测方法和装置 |
CN102663617A (zh) * | 2012-03-20 | 2012-09-12 | 亿赞普(北京)科技有限公司 | 一种广告的点击率预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103853711A (zh) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
Ge et al. | Personalizing search results using hierarchical RNN with query-aware attention | |
Wang et al. | Diversified and scalable service recommendation with accuracy guarantee | |
Zhao et al. | Crowd-Selection Query Processing in Crowdsourcing Databases: A Task-Driven Approach. | |
Rong et al. | A model-free approach to infer the diffusion network from event cascade | |
CN104182457A (zh) | 在社交网络中基于泊松过程模型的事件流行度预测方法 | |
Berendsen et al. | Pseudo test collections for training and tuning microblog rankers | |
Su et al. | Location‐aware targeted influence maximization in social networks | |
Bai et al. | Service recommendation for mashup creation based on time-aware collaborative domain regression | |
Lebib et al. | Enhancing information source selection using a genetic algorithm and social tagging | |
CN103853711B (zh) | 一种文本信息处理方法及装置 | |
Wang et al. | Please spread: recommending tweets for retweeting with implicit feedback | |
Yan et al. | Analysis of research papers on E-commerce (2000–2013): based on a text mining approach | |
Barbieri et al. | Survival factorization on diffusion networks | |
Wu et al. | Adaptive data fusion methods in information retrieval | |
Peska et al. | Recommending for disloyal customers with low consumption rate | |
Zhao et al. | Distillation based multi-task learning: A candidate generation model for improving reading duration | |
Wu et al. | Future link prediction in the blogosphere for recommendation | |
Luo et al. | Generation of similarity knowledge flow for intelligent browsing based on semantic link networks | |
Selvan et al. | Efficient ranking based on web page importance and personalized search | |
Keikha et al. | Linguistic aggregation methods in blog retrieval | |
Gemechu et al. | A framework for personalized information retrieval model | |
Yuan et al. | OLAP4R: A top-k recommendation system for OLAP Sessions | |
Kim et al. | Trackback-rank: An effective ranking algorithm for the blog search | |
Jingjing et al. | Mining social influence in microblogging via tensor factorization approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |