CN103870458B - 数据处理装置、数据处理方法和程序 - Google Patents
数据处理装置、数据处理方法和程序 Download PDFInfo
- Publication number
- CN103870458B CN103870458B CN201210526451.XA CN201210526451A CN103870458B CN 103870458 B CN103870458 B CN 103870458B CN 201210526451 A CN201210526451 A CN 201210526451A CN 103870458 B CN103870458 B CN 103870458B
- Authority
- CN
- China
- Prior art keywords
- candidate word
- theme
- term
- sentence
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构;潜在主题划分单元,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元以用于计算依赖度信息和进行主题划分;以及控制单元,被配置为控制潜在主题划分单元和词评分单元,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止。
Description
技术领域
本发明涉及数据处理领域,更具体地,涉及一种能够通过数据处理对文档中的主题进行挖掘的数据处理装置、数据处理方法和程序。
背景技术
随着互联网的发展,用户通过互联网能够获得的信息量越来越大。然而,这些信息比较分散,难以集中。通过搜索引擎也只提供相关的网页,而非用户想要的真正解答或真正相关内容。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于背景技术部分所述的需求,本发明关注于对文档中的主题进行挖掘以准确推荐相关内容或提供解答的装置和方法。具体地,本发明提出了一种通过针对文档生成链接结构并基于该链接结构进行主题划分的装置和方法。
根据本发明的一个方面,提供了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;潜在主题划分单元,被配置为计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分;以及控制单元,被配置为控制所述潜在主题划分单元和所述词评分单元,使其基于所述主题划分和所述评分的相互影响循环迭代操作,直到满足预定条件为止,其中,所述潜在主题划分单元在首次计算中使用预定的评分值作为评分的初值。
根据本发明的另一个方面,提供了一种数据处理方法,包括:链接结构生成步骤,用于创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;潜在主题划分步骤,用于计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;以及词评分步骤,用于基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分,其中,基于所述主题划分和所述评分的相互影响,循环迭代执行所述潜在主题划分步骤和所述词评分步骤,直到满足预定条件为止,其中,在首次执行所述潜在主题划分步骤时使用预定的评分值作为评分的初值。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1示出了根据本申请的一个实施例的数据处理装置的结构框图;
图2示出了根据本申请的一个实施例的链接结构的示意图;
图3示出了根据本申请的一个实施例的进行潜在主题划分后的链接结构的示意图;
图4示出了根据本申请的一个实施例的主题相关性矩阵的示例;
图5示出了根据本申请的一个实施例的词评分单元的结构框图;
图6示出了根据本申请的一个实施例的最终获得的主题划分的示意图;
图7示出了根据本申请的一个实施例的数据处理方法的流程图;
图8示出了根据本申请的一个实施例的词评分处理的流程图;以及
图9是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下文中的描述按如下顺序进行:
1.数据处理装置
1.1链接结构生成单元
1.2潜在主题划分单元
1.3词评分单元
1.4控制单元
2.数据处理方法
3.用以实施本申请的装置和方法的计算设备
[1.数据处理装置]
首先参照图1描述根据本申请的一个实施例的数据处理装置100的结构。如图1所示,数据处理装置100包括:链接结构生成单元101,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;潜在主题划分单元102,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元103,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元102以用于计算依赖度信息和进行主题划分;以及控制单元104,被配置为控制潜在主题划分单元102和词评分单元103,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止,其中,潜在主题划分单元102在首次计算中使用预定的评分值作为评分的初值。
具体地,数据处理装置100根据搜索到的文档创建链接结构,并基于该链接结构进行潜在主题划分,此外,潜在主题划分的结果将影响候选词的评分,该候选词的评分反过来用于接下来的潜在主题划分,这种循环迭代反复进行直到满足预定条件为止。此时,数据处理装置100可以获得最终的主题划分。下面参照图2至6详细描述上述各个单元的结构和功能。
<1.1链接结构生成单元>
当用户希望查询某一个问题的答案时,他/她输入一个或多个检索词并使用检索词搜索到若干个文档,从这些文档中提取候选词,其中,检索词和候选词均和查询主题相关。链接结构生成单元101创建搜索到的文档中的候选词之间的链接关系,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系。
图2示出了由链接结构生成单元101生成的链接结构的一个示例。如图2所示,该链接结构是一种多层结构,其中,H11、H12和H13为文档层,圆圈中的数字1-17表示候选词,其共同构成了关键词层。应该理解,此处的候选词也包括检索词。此外,数字之间的箭头表示候选词之间的链接关系,例如,由2到1的箭头表示在以候选词2作为检索词时能够搜索到候选词1。
在一个实施例中,链接结构生成单元101被配置为进行迭代搜索,在初始搜索之后的每一次搜索中,使用上一次搜索所获得的候选词作为种子检索词进行搜索,以获得更多的候选词,直到达到预定搜索次数或预定文档个数为止。
然后,链接结构生成单元101将生成的链接结构传递给潜在主题划分单元102以进行主题划分。
<1.2潜在主题划分单元>
潜在主题划分单元102通过计算每一个文档中的语句之间的依赖度信息来确定哪些文本段落更集中地表示一个主题,其中,这些语句分别包括检索词和/或候选词。在基于依赖度信息进行主题划分之后,潜在主题划分单元102还可以获得该主题划分在该文档中的权重。
在一个实施例中,潜在主题划分单元102被配置为以如下方式计算第一语句和第二语句之间的依赖度信息:从词评分单元103获取第一语句和第二语句中包括的检索词和/或候选词的评分,以及第一语句中包括的检索词和/或候选词与所述第二语句中包括的检索词和/或候选词组成的候选词的对的评分;基于该评分计算第一语句中的各个检索词和/或候选词与第二语句中的各个检索词和/或候选词之间的互信息度;以及对互信息度进行求和,得到第一语句和第二语句之间的依赖度信息,其中,在首次计算中使用预定的评分值作为评分的初值。
其中,语句之间的依赖度信息表示语句之间的相关程度,而该相关程度依赖于语句中包括的关键词之间的互信息度,关键词为检索词和候选词的统称。
应该理解,这里虽然示出了利用关键词的评分来计算语句之间的依赖度信息的示例,但是并不限于此,还可以采用其他方式来计算语句之间的依赖度信息。
在一个实施例中,可以按如下公式计算第一语句X和第二语句Y的关键词之间的互信息度:
其中,xi表示第一语句X中的第i个检索词或候选词,yj表示第二语句Y中的第j个检索词或候选词,i和j均为正整数,r(xi)、r(yj)和r(xi,yj)分别表示检索词或候选词xi的评分、检索词或候选词yj的评分以及检索词或候选词xi和yj的对的评分。
应该理解,这里虽然示出了计算关键词之间的互信息度的一种方式,但是并不限于此,也可以采用其他能够表示关键词之间的互信息程度的方式来进行计算。
在如上所述获得了第一语句X和第二语句Y的关键词之间的互信息度之后,可通过下式(2)计算第一语句X和第二语句Y之间的依赖度信息。
然后,潜在主题划分单元102基于所获得的依赖度信息来进行主题划分。作为一个示例,图3示出了对图2所示的链接结构进行划分所获得的潜在主题层的示意图,其中,虚线框表示的是主题层,H21-H26表示获得的主题划分。同时,潜在主题划分单元102还可以获得每个主题划分在文档中的权重,用于词评分单元中的计算,这将在后面予以详细描述。
在一个实施例中,潜在主题划分单元102被配置为还按照语句之间的位置关系对所述每一个文档中的语句进行主题划分。
下面通过一个说明性实施例描述潜在主题划分单元102进行主题划分的具体操作。
首先,生成主题相关性矩阵,其中该矩阵中的每个元素表示两个语句之间的主题相关性,对于该矩阵的主对角线上和下三角阵中的元素,可以基于相应的依赖度信息来确定该元素的值;且该矩阵为对称矩阵。
如图4所示,其示出了根据本发明的实施例的主题相关性矩阵的示例,其中该矩阵的行和列均是按照文本的原始语句顺序排列的语句序列1至k。以下将给出该矩阵中的各个元素的计算示例。
具体地,例如,对于主对角线上和下三角阵中的元素,即,如果m>=n,则A[m][n]=I(Xm,Yn)-a*|m-n|;并且A[m][n]=A[n][m]。其中,A[m][n]表示主题相关性矩阵中第m行第n列的元素,I(Xm,Yn)表示语句m与语句n之间的依赖度信息,且1≤m≤k,1≤n≤k。此外,a是一个系数并且其设置为保持矩阵A的所有元素都非负。
可以理解,由于主题段落必然存在于连续的语句之中,且该矩阵的元素是根据语句顺序来排列的,所以对于该矩阵而言,越靠近对角线的元素,其主题相关性值应该越大,而对于越远离对角线的元素,其主题相关性值应该越小。
尽管以上给出了主题相关性矩阵的确定示例,但是应理解,该确定方法仅是示例而非限制,本领域技术人员可以根据所教导的原理而对以上计算方法进行修改。
接下来,可以基于所确定的主题相关性矩阵来将多个语句划分为多个主题段落(以下简称为主题)并确定各个主题的主题性值。
优选地,基于所确定的主题相关性矩阵,利用动态规划算法来确定该矩阵的划分的最优子结构,并根据所确定的最优子结构来进行主题划分。
由上述可知,在主题相关性矩阵中,越靠近主对角线的元素,其主题相关性越高,因此,在实际的划分过程中,沿对角线方向进行元素的增加、减少和分裂,其根据是使得所在主题的主题相关性值之和(即该主题的主题性值)最大。
优选地,可以基于以下表达式(3)来确定多个语句的最优主题划分及各个主题的主题性值。
其中,S[i]表示前i个语句的最优划分的主题性值,B[i][j]表示基于主题相关性矩阵中第i行第i列的元素到第j行第j列的元素而确定的值。在以下示例中,B[i][j]例如可以表示第i个语句到第j个语句构成的子矩阵的下三角元素(包括对角线元素)之和,本领域的技术人员当然也可以选择该子矩阵的上三角元素(包括对角线元素)之和或者所有元素之和。
以下将描述基于动态规划算法、利用上述表达式来进行主题划分并计算主题划分的权重值的具体示例。
例如,对于主题相关性矩阵中的一个子矩阵,以语句s1和语句s2为例,如下所示:
以下三角运算为例,由于5+3+2>5+3,即,语句s1和s2合并的主题的主题性值大于语句s1和s2各自为主题的主题性值,因此将语句s1和s2划分为一个主题(s1,s2),并记录前两个语句的主题性值为10。
接下来,确定语句s1、s2和s3构成的子矩阵的最优子结构,如下所示:
由于在上述确定语句s1、s2为一个主题划分(即,由于(s1,s2)的主题性值大于(s1)(s2)的主题性值),因此需要比较(s1,s2)(s3)、(s1)(s2,s3)以及(s1,s2,s3)三种主题划分方式的主题性值。在该示例中,(s1)(s2,s3)这种划分方式的主题性值(即,5+(3+6+3)=17)最大,从而确定前3个语句的最优主题划分为语句s1单独为一个主题,语句s2和s3合并为一个主题,即(s1)(s2,s3)的主题性值最大,并将该值记录为前3个语句的主题性值。图4示意性地示出了该划分结果,其中属于同一最优子结构的元素以相同的图示标出。
注意,在以上确定语句s1、s2和s3的最优主题划分时,由于先前已确定了语句s1、s2的划分,因此此时只需记录在前的确定结果而无需重新计算。
类似地,以上述方式,基于动态规划算法来依次确定全部语句的主题划分,其中每个主题的主题性值等于在主题相关性矩阵中,由构成该主题的语句所构成的子矩阵的下三角元素(包括对角线元素)、上三角元素(包括对角线元素)或者全部元素之和。
此外,基于所获得的主题划分的主题性值得到各个主题划分在文档中的权重。在一个示例中,可以采用主题性值的比率作为该权重。最后,潜在主题划分单元103将得到的主题划分及其权重传递给词评分单元103。
<1.3词评分单元>
词评分单元103基于链接结构和主题划分对候选词以及候选词的对进行评分,并进一步将该评分提供给潜在主题划分单元102以用于在下一次迭代中计算依赖度信息,从而更新主题划分。
下面参照图5描述词评分单元103的结构和功能。如图5所示,词评分单元103包括:生成概率计算模块301,被配置为基于链接结构和主题划分计算各个检索词到候选词或候选词的对的生成概率;权重计算模块302,被配置为基于主题划分计算各个检索词的权重;以及评分计算模块303,被配置为使用生成概率和权重对候选词和候选词的对进行评分。
具体地,在进行了主题划分之后,链接结构具有了三个层次:文档层、主题层和关键词层。在这样的层次结构中,计算候选词的评分需要考虑所在层次的概率和权重信息。
生成概率计算模块
在一个实施例中,生成概率计算模块301进一步被配置为通过针对包括各个候选词或候选词的对的主题划分和文档、对如下条件概率的乘积求和来获得检索词到候选词或候选词的对的生成概率:以包括该候选词或候选词的对的主题划分、包括该候选词或候选词的对的文档和该检索词为前提的该候选词或候选词的对的概率,以包括该候选词或候选词的对的文档和该检索词为前提的包括该候选词或候选词的对的主题划分的概率,以及以该检索词为前提的包括该候选词或候选词的对的文档的概率。
具体地,用w表示检索词,用w*表示用w作为检索词能够搜索到的候选词,则可以通过下式(4)来计算从w到w*的生成概率。
其中,si *表示候选词w*所在的第i个主题划分,dj *表示候选词w*所在的第j个文档。虽然这里示出了计算检索词到候选词的生成概率的一种计算方法,但是本领域的技术人员根据本申请的教导可以采用其他的方式,而不限于此。
权重计算模块
在一个实施例中,权重计算模块302进一步被配置为通过针对包括各个检索词的主题划分和文档、对如下权重求和来获得检索词的权重:包括该检索词的文档中包括该检索词的主题划分的权重。
具体地,可以通过下式(5)来计算该检索词的权重。
其中,dj w表示包括检索词w的第j个文档,si表示该文档中包括检索词w的第i个主题划分。公式(5)右侧的每一个权重由潜在主题划分单元102在进行主题划分时获得。
评分计算模块
在一个实施例中,评分计算模块303进一步被配置为针对链接结构中生成候选词或候选词的对的各个检索词、对如下各项的乘积求和,并基于对该和的加权获得该候选词或候选词的对的评分:检索词的评分,检索词到该候选词或候选词的对的生成概率以及检索词的权重。
作为一个示例,可以通过下式(6)来计算候选词w*的评分。
其中,wi为能够搜索到候选词w*的检索词,p(w*|wi)和weight(wi)分别为以上通过式(4)和(5)获得的结果,damp为阻尼系数,例如其可以取0-1之间的某一经验值。在式(6)的计算中,将上一次计算得到的评分用作本次计算的检索词的评分r(wi)。如上所述,在首次计算时,可以使用预定的词评分值作为词评分的初值,例如,词评分的初值可以具有均一值。
此外,当计算检索词到候选词的对(w1 *,w2 *)的评分时,可以类似地通过下式(7)进行。
其中各项的含义与式(6)类似。应该理解,以上示出的词评分单元103的结构仅是示例性的,本申请不限于此,而是可以采用其他计算词评分的装置或结构。
<1.4控制单元>
如上所述,由于潜在主题划分单元102的实现需要词评分单元103的结果,而词评分单元103的实现又基于潜在主题划分单元102的输出,因此,这两个单元相互影响,形成了循环结构。
控制单元104基于这种相互影响控制这两个单元进行循环迭代操作,直到满足预定条件为止。
在一个实施例中,该预定条件可以为主题划分趋于稳定或者词的评分趋于收敛状态或自定义条件。作为一个示例,图6示出了在控制单元104的控制下满足了预定条件时的主题划分的示意图,其中,H21-H26表示最终获得的主题划分。
虽然以上结合附图描述了根据本申请的一个实施例的数据处理装置的结构和功能,但是本申请的数据处理装置不限于此,还可以实现为其他的形式。上述实施例仅是说明性的,而不是限制性的。
例如,在根据本申请的另一个实施例中,数据处理装置还包括主题排序单元,被配置为根据主题划分在文档中的权重进行主题划分排序。
然后,可以根据预定条件选择输出。例如,可以选择排序靠前的主题划分并输出。这种输出例如可以为用户选择最接近的答案提供推荐。
[2.数据处理方法]
以上结合附图描述了根据本发明的数据处理装置的实施方式,在此过程中事实上也描述了一种数据处理方法。下面对所述方法结合附图7予以简要描述,其中的细节可参见前文对数据处理装置的描述。
如图7所示,根据本申请的一个实施例的数据处理方法包括如下步骤:链接结构生成步骤(S11),用于创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;潜在主题划分步骤(S12),用于计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;以及词评分步骤(S13),用于基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分,其中,基于所述主题划分和所述词评分的相互影响,循环迭代执行所述潜在主题划分步骤和所述词评分步骤,直到满足预定条件为止,其中,在首次执行所述潜在主题划分步骤时使用预定的词评分值作为词评分的初值。
通过使用该方法,可以对文档进行适当的主题划分,定位最符合用户要求的内容部分,从而可以用于问答系统的主题发现和面向查询的主题挖掘等。
在一个实施例中,链接结构生成步骤(S11)包括进行迭代搜索,在初始搜索之后的每一次搜索中,使用上一次搜索所获得的候选词作为种子检索词进行搜索,以获得更多的候选词,直到达到预定搜索次数或预定文档个数为止。通过该步骤,可以建立含有丰富信息量的链接结构。
在一个实施例中,所述预定条件为所述主题划分趋于稳定或者所述词的评分趋于收敛状态或自定义条件。
在一个实施例中,潜在主题划分步骤(S12)包括如下子步骤:从词评分步骤(S13)中获取第一语句和第二语句中包括的检索词和/或候选词的评分,以及所述第一语句中包括的检索词和/或候选词与所述第二语句中包括的检索词和/或候选词组成的候选词的对的评分;基于所述评分计算所述第一语句中的各个检索词和/或候选词与所述第二语句中的各个检索词和/或候选词之间的互信息度;以及对所述互信息度进行求和,得到所述第一语句和所述第二语句之间的依赖度信息。
在一个示例中,按如下公式计算所述互信息度:
其中,xi表示所述第一语句中的第i个检索词或候选词,yj表示所述第二语句中的第j个检索词或候选词,i和j均为正整数,r(xi)、r(yj)和r(xi,yj)分别表示检索词或候选词xi的评分、检索词或候选词yj的评分以及检索词或候选词xi和yj的对的评分。
如图8所示,词评分步骤(S13)进一步包括如下子步骤:基于所述链接结构和所述主题划分计算各个检索词到候选词或候选词的对的生成概率(S301);基于所述主题划分计算各个检索词的权重(S302);以及使用所述生成概率和所述权重对所述候选词和候选词的对进行评分(S303)。
在一个实施例中,步骤S301包括:通过针对包括各个候选词或候选词的对的主题划分和文档、对如下条件概率的乘积求和来获得检索词到所述候选词或候选词的对的生成概率:以包括所述候选词或候选词的对的主题划分、包括所述候选词或候选词的对的文档和所述检索词为前提的所述候选词或候选词的对的概率,以包括所述候选词或候选词的对的文档和所述检索词为前提的包括所述候选词或候选词的对的主题划分的概率,以及以所述检索词为前提的包括所述候选词或候选词的对的文档的概率。
步骤S302包括:通过针对包括各个检索词的主题划分和文档、对如下权重求和来获得所述检索词的权重:包括所述检索词的文档中包括所述检索词的主题划分的权重。
步骤S303包括:针对所述链接结构中生成所述候选词或候选词的对的各个检索词、对如下各项的乘积求和,并基于对该和的加权获得所述候选词或候选词的对的评分:所述检索词的评分,所述检索词到所述候选词或候选词的对的生成概率以及所述检索词的权重。
在一个实施例中,该数据处理方法还包括主体排序步骤,用于根据主题划分在文档中的权重进行主题划分排序。
此外,潜在主题划分步骤(S12)还包括按照语句之间的位置关系对每一个文档中的语句进行主题划分。
以上实施例中的相关细节已经在对数据处理装置的描述中详细给出,在此不再赘述。
[3.用以实施本申请的装置和方法的计算设备]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图9中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过上述的描述,本发明的实施例提供了以下的技术方案。
附记1.一种数据处理装置,包括:
链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;
潜在主题划分单元,被配置为计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;
词评分单元,被配置为基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分;以及
控制单元,被配置为控制所述潜在主题划分单元和所述词评分单元,使其基于所述主题划分和所述评分的相互影响循环迭代操作,直到满足预定条件为止,
其中,所述潜在主题划分单元在首次计算中使用预定的评分值作为所述评分的初值。
附记2.根据附记1所述的数据处理装置,其中,所述链接结构生成单元被配置为进行迭代搜索,在初始搜索之后的每一次搜索中,使用上一次搜索所获得的候选词作为种子检索词进行搜索,以获得更多的候选词,直到达到预定搜索次数或预定文档个数为止。
附记3.根据附记1或2所述的数据处理装置,其中,所述预定条件为所述主题划分趋于稳定或者所述评分趋于收敛状态或自定义条件。
附记4.根据附记1或2所述的数据处理装置,其中,所述词评分单元包括:
生成概率计算模块,被配置为基于所述链接结构和所述主题划分计算各个检索词到候选词或候选词的对的生成概率;
权重计算模块,被配置为基于所述主题划分计算各个检索词的权重;以及
评分计算模块,被配置为使用所述生成概率和所述权重对所述候选词和候选词的对进行评分。
附记5.根据附记1或2所述的数据处理装置,其中,所述潜在主题划分单元被配置为以如下方式计算第一语句和第二语句之间的依赖度信息:
从所述词评分单元获取所述第一语句和第二语句中包括的检索词和/或候选词的评分,以及所述第一语句中包括的检索词和/或候选词与所述第二语句中包括的检索词和/或候选词组成的候选词的对的评分;
基于所述评分计算所述第一语句中的各个检索词和/或候选词与所述第二语句中的各个检索词和/或候选词之间的互信息度;以及
对所述互信息度进行求和,得到所述第一语句和所述第二语句之间的依赖度信息。
附记6.根据附记5所述的数据处理装置,其中,按如下公式计算所述互信息度:
其中,xi表示所述第一语句中的第i个检索词或候选词,yj表示所述第二语句中的第j个检索词或候选词,i和j均为正整数,r(xi)、r(yj)和r(xi,yj)分别表示检索词或候选词xi的评分、检索词或候选词yj的评分以及检索词或候选词xi和yj的对的评分。
附记7.根据附记4所述的数据处理装置,其中,所述生成概率计算模块进一步被配置为通过针对包括各个候选词或候选词的对的主题划分和文档、对如下条件概率的乘积求和来获得检索词到所述候选词或候选词的对的生成概率:
以包括所述候选词或候选词的对的主题划分、包括所述候选词或候选词的对的文档和所述检索词为前提的所述候选词或候选词的对的概率,以包括所述候选词或候选词的对的文档和所述检索词为前提的包括所述候选词或候选词的对的主题划分的概率,以及以所述检索词为前提的包括所述候选词或候选词的对的文档的概率。
附记8.根据附记4所述的数据处理装置,其中,所述权重计算模块进一步被配置为通过针对包括各个检索词的主题划分和文档、对如下权重求和来获得所述检索词的权重:
包括所述检索词的文档中包括所述检索词的主题划分的权重。
附记9.根据附记4所述的数据处理装置,其中,所述评分计算模块进一步被配置为针对所述链接结构中生成所述候选词或候选词的对的各个检索词、对如下各项的乘积求和,并基于对该和的加权获得所述候选词或候选词的对的评分:
所述检索词的评分,所述检索词到所述候选词或候选词的对的生成概率以及所述检索词的权重。
附记10.根据附记1或2所述的数据处理装置,还包括主题排序单元,被配置为根据所述主题划分在文档中的权重进行主题划分排序。
附记11.根据附记1或2所述的数据处理装置,其中,所述潜在主题划分单元被配置为还按照语句之间的位置关系对所述每一个文档中的语句进行主题划分。
附记12.一种数据处理方法,包括:
链接结构生成步骤,用于创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;
潜在主题划分步骤,用于计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;以及
词评分步骤,用于基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分,
其中,基于所述主题划分和所述评分的相互影响,循环迭代执行所述潜在主题划分步骤和所述词评分步骤,直到满足预定条件为止,
其中,在首次执行所述潜在主题划分步骤时使用预定的评分值作为所述评分的初值。
附记13.根据附记12所述的数据处理方法,其中,所述链接结构生成步骤包括进行迭代搜索,在初始搜索之后的每一次搜索中,使用上一次搜索所获得的候选词作为种子检索词进行搜索,以获得更多的候选词,直到达到预定搜索次数或预定文档个数为止。
附记14.根据附记12或13所述的数据处理方法,其中,所述预定条件为所述主题划分趋于稳定或者所述评分趋于收敛状态或自定义条件。
附记15.根据附记12或13所述的数据处理方法,其中,所述词评分步骤进一步包括:
基于所述链接结构和所述主题划分计算各个检索词到候选词或候选词的对的生成概率;
基于所述主题划分计算各个检索词的权重;以及
使用所述生成概率和所述权重对所述候选词和候选词的对进行评分。
附记16.根据附记12或13所述的数据处理方法,其中,所述潜在主题划分步骤包括:
从所述词评分步骤中获取第一语句和第二语句中包括的检索词和/或候选词的评分,以及所述第一语句中包括的检索词和/或候选词与所述第二语句中包括的检索词和/或候选词组成的候选词的对的评分;
基于所述评分计算所述第一语句中的各个检索词和/或候选词与所述第二语句中的各个检索词和/或候选词之间的互信息度;以及
对所述互信息度进行求和,得到所述第一语句和所述第二语句之间的依赖度信息。
附记17.根据附记16所述的数据处理方法,其中,按如下公式计算所述互信息度:
其中,xi表示所述第一语句中的第i个检索词或候选词,yj表示所述第二语句中的第j个检索词或候选词,i和j均为正整数,r(xi)、r(yj)和r(xi,yj)分别表示检索词或候选词xi的评分、检索词或候选词yj的评分以及检索词或候选词xi和yj的对的评分。
附记18.根据附记15所述的数据处理方法,其中,基于所述链接结构和所述主题划分计算各个检索词到候选词或候选词的对的生成概率的步骤包括:
通过针对包括各个候选词或候选词的对的主题划分和文档、对如下条件概率的乘积求和来获得检索词到所述候选词或候选词的对的生成概率:
以包括所述候选词或候选词的对的主题划分、包括所述候选词或候选词的对的文档和所述检索词为前提的所述候选词或候选词的对的概率,以包括所述候选词或候选词的对的文档和所述检索词为前提的包括所述候选词或候选词的对的主题划分的概率,以及以所述检索词为前提的包括所述候选词或候选词的对的文档的概率。
附记19.根据附记15所述的数据处理方法,其中,所述基于所述主题划分计算各个检索词的权重的步骤包括:
通过针对包括各个检索词的主题划分和文档、对如下权重求和来获得所述检索词的权重:
包括所述检索词的文档中包括所述检索词的主题划分的权重。
附记20.根据附记15所述的数据处理方法,其中,所述使用所述生成概率和所述权重对所述候选词和候选词的对进行评分的步骤包括:
针对所述链接结构中生成所述候选词或候选词的对的各个检索词、对如下各项的乘积求和,并基于对该和的加权获得所述候选词或候选词的对的评分:
所述检索词的评分,所述检索词到所述候选词或候选词的对的生成概率以及所述检索词的权重。
Claims (10)
1.一种数据处理装置,包括:
链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;
潜在主题划分单元,被配置为计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;
词评分单元,被配置为基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分;以及
控制单元,被配置为控制所述潜在主题划分单元和所述词评分单元,使其基于所述主题划分和所述评分的相互影响循环迭代操作,直到满足预定条件为止,
其中,所述潜在主题划分单元在首次计算中使用预定的评分值作为所述评分的初值。
2.根据权利要求1所述的数据处理装置,其中,所述链接结构生成单元被配置为进行迭代搜索,在初始搜索之后的每一次搜索中,使用上一次搜索所获得的候选词作为种子检索词进行搜索,以获得更多的候选词,直到达到预定搜索次数或预定文档个数为止。
3.根据权利要求1或2所述的数据处理装置,其中,所述预定条件为所述主题划分趋于稳定或者所述评分趋于收敛状态或自定义条件。
4.根据权利要求1或2所述的数据处理装置,其中,所述词评分单元包括:
生成概率计算模块,被配置为基于所述链接结构和所述主题划分计算各个检索词到候选词或候选词的对的生成概率;
权重计算模块,被配置为基于所述主题划分计算各个检索词的权重;以及
评分计算模块,被配置为使用所述生成概率和所述权重对所述候选词和候选词的对进行评分。
5.根据权利要求1或2所述的数据处理装置,其中,所述潜在主题划分单元被配置为以如下方式计算第一语句和第二语句之间的依赖度信息:
从所述词评分单元获取所述第一语句和第二语句中包括的检索词和/或候选词的评分,以及所述第一语句中包括的检索词和/或候选词与所述第二语句中包括的检索词和/或候选词组成的候选词的对的评分;
基于所述评分计算所述第一语句中的各个检索词和/或候选词与所述第二语句中的各个检索词和/或候选词之间的互信息度;以及
对所述互信息度进行求和,得到所述第一语句和所述第二语句之间的依赖度信息。
6.根据权利要求5所述的数据处理装置,其中,按如下公式计算所述互信息度:
其中,xi表示所述第一语句中的第i个检索词或候选词,yj表示所述第二语句中的第j个检索词或候选词,i和j均为正整数,r(xi)、r(yj)和r(xi,yj)分别表示检索词或候选词xi的评分、检索词或候选词yj的评分以及检索词或候选词xi和yj的对的评分。
7.根据权利要求4所述的数据处理装置,其中,所述生成概率计算模块进一步被配置为通过针对包括各个候选词或候选词的对的主题划分和文档、对如下条件概率的乘积求和来获得检索词到所述候选词或候选词的对的生成概率:
以包括所述候选词或候选词的对的主题划分、包括所述候选词或候选词的对的文档和所述检索词为前提的所述候选词或候选词的对的概率,以包括所述候选词或候选词的对的文档和所述检索词为前提的包括所述候选词或候选词的对的主题划分的概率,以及以所述检索词为前提的包括所述候选词或候选词的对的文档的概率。
8.根据权利要求4所述的数据处理装置,其中,所述权重计算模块进一步被配置为通过针对包括各个检索词的主题划分和文档、对如下权重求和来获得所述检索词的权重:
包括所述检索词的文档中包括所述检索词的主题划分的权重。
9.根据权利要求4所述的数据处理装置,其中,所述评分计算模块进一步被配置为针对所述链接结构中生成所述候选词或候选词的对的各个检索词、对如下各项的乘积求和,并基于对该和的加权获得所述候选词或候选词的对的评分:
所述检索词的评分,所述检索词到所述候选词或候选词的对的生成概率以及所述检索词的权重。
10.一种数据处理方法,包括:
链接结构生成步骤,用于创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;
潜在主题划分步骤,用于计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;以及
词评分步骤,用于基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分,
其中,基于所述主题划分和所述评分的相互影响,循环迭代执行所述潜在主题划分步骤和所述词评分步骤,直到满足预定条件为止,
其中,在首次执行所述潜在主题划分步骤时使用预定的评分值作为所述评分的初值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526451.XA CN103870458B (zh) | 2012-12-07 | 2012-12-07 | 数据处理装置、数据处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526451.XA CN103870458B (zh) | 2012-12-07 | 2012-12-07 | 数据处理装置、数据处理方法和程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103870458A CN103870458A (zh) | 2014-06-18 |
CN103870458B true CN103870458B (zh) | 2017-07-18 |
Family
ID=50909002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210526451.XA Expired - Fee Related CN103870458B (zh) | 2012-12-07 | 2012-12-07 | 数据处理装置、数据处理方法和程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870458B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268506A (zh) * | 2016-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 一种推广信息的处理方法、装置、终端及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777046A (zh) * | 2009-01-09 | 2010-07-14 | 佳能株式会社 | 检索方法和检索系统 |
CN101901235A (zh) * | 2009-05-27 | 2010-12-01 | 国际商业机器公司 | 文档处理方法和系统 |
CN102056335A (zh) * | 2009-11-06 | 2011-05-11 | 华为技术有限公司 | 移动搜索方法、装置和系统 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150862A1 (en) * | 2010-12-13 | 2012-06-14 | Xerox Corporation | System and method for augmenting an index entry with related words in a document and searching an index for related keywords |
-
2012
- 2012-12-07 CN CN201210526451.XA patent/CN103870458B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777046A (zh) * | 2009-01-09 | 2010-07-14 | 佳能株式会社 | 检索方法和检索系统 |
CN101901235A (zh) * | 2009-05-27 | 2010-12-01 | 国际商业机器公司 | 文档处理方法和系统 |
CN102056335A (zh) * | 2009-11-06 | 2011-05-11 | 华为技术有限公司 | 移动搜索方法、装置和系统 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103870458A (zh) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Pyramid: A layered model for nested named entity recognition | |
Iserles | A first course in the numerical analysis of differential equations | |
CN104765728A (zh) | 训练神经网络的方法和装置以及确定稀疏特征向量的方法 | |
CN107688583A (zh) | 创建用于自然语言处理装置的训练数据的方法和设备 | |
Zhong et al. | Evaluating token-level and passage-level dense retrieval models for math information retrieval | |
Ma et al. | Another look at DPR: reproduction of training and replication of retrieval | |
Amnueypornsakul et al. | Machine-guided solution to mathematical word problems | |
Sandhu | MACHINE LEARNING AND NATURAL LANGUAGE PROCESSING-A REVIEW. | |
Bowman et al. | New protocols and negative results for textual entailment data collection | |
CN106682190A (zh) | 标签知识库的构建方法、装置、应用搜索方法和服务器 | |
CN103870458B (zh) | 数据处理装置、数据处理方法和程序 | |
WO2020263182A1 (en) | Method and system for conducting a brainstorming session with a virtual expert | |
US7644074B2 (en) | Search by document type and relevance | |
Bouakba et al. | Ensemble learning based quantum text classifiers | |
Basharat | Learnersourcing thematic and inter-contextual annotations from islamic texts | |
Bowman et al. | Collecting entailment data for pretraining: New protocols and negative results | |
Rogers et al. | A guide to the dataset explosion in QA, NLI, and commonsense reasoning | |
Rawat et al. | Comparative Analysis of Transformer based Models for Question Answering | |
Danubianu et al. | Advanced Information Technology-support of improved personalized therapy of speech disorders | |
Bartička et al. | Evaluating attribution methods for explainable nlp with transformers | |
Effenberger | Automatic question generation and adaptive practice | |
Kasliwal | Natural Language Processing with Python Quick Start Guide: Going from a Python Developer to an Effective Natural Language Processing Engineer | |
Baldelli et al. | TWOLAR: a TWO-step LLM-Augmented distillation method for passage Reranking | |
D’Agostino | Keyword Extraction—A Benchmark of 7 Algorithms in Python I compared 7 relevant algorithms in a keyword extraction task on a corpus of 2000 documents | |
Tang et al. | Learning by Interpreting. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170718 Termination date: 20181207 |