CN101231651A - 计算计算机网络上电子文档的重要性的计算机装置和方法 - Google Patents
计算计算机网络上电子文档的重要性的计算机装置和方法 Download PDFInfo
- Publication number
- CN101231651A CN101231651A CNA2008100037015A CN200810003701A CN101231651A CN 101231651 A CN101231651 A CN 101231651A CN A2008100037015 A CNA2008100037015 A CN A2008100037015A CN 200810003701 A CN200810003701 A CN 200810003701A CN 101231651 A CN101231651 A CN 101231651A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- importance
- phrase
- electronic
- total importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及用于计算计算机网络上电子文档的重要性的计算机装置和方法。对包括表达之前记录的每个消息内容中的赞成、不赞成、批评、同意等短语的程度加以量化。给接收包括同意和赞成短语的消息响应的消息加上正分,并且给接收包括表明批评和不赞成短语的消息响应的消息加上负分。还给包括符合用户兴趣的短语的消息加上正分。通过对这些分数计以总和来计算每个消息的总重要性,并继而判断具有高总重要性的消息与用户兴趣一致。
Description
背景技术
本发明涉及计算机装置、计算机程序和方法,以上三项用于计算计算机网络上电子文档的重要性,并且尤其涉及计算机装置、计算机程序和方法,以上三项用于基于包括在第二文档中的关于第一电子文档的评论来计算第一电子文档的重要性,第二文档与被标定用于计算重要性的第一电子文档相关联。
已经开发了各种技术用于从散布在网络上的包括在讨论帖、web页面、博客等中的大量电子文档之中在短时间内高精确度地查找网络用户感兴趣的事物。与用户兴趣一致的电子文档对于他/她是高度重要的。
作为用于自动判断计算机网络上web页面的重要性的技术中的一种技术,Google的PageRank是众所周知的。细节在Lawrence Page、Sergey Brin、Rajeev Motwani、Terry Winograd的“The PageRankCitation Ranking:Bringing Order to the Web”(1998)中描述。
简而言之,PageRank是一种用于在递归关系的基础上判断网络上的一组web页面的重要性的技术,其中链接自大量较高质量的web页面的web页面也是较高质量的web页面。特别地,基于从其他web页面到特定web页面的链接数量、到由高度推荐的web页面提供的特定web页面的链接的存在、以及在具有到特定web页面的链接的页面上的链接数量来计算特定web页面的重要性。
换句话说,PageRank是一种用于通过使用web页面之间的链接来计算每个web页面的相对重要性的技术。
PageRank不提供分析第一web页面的内容、以及基于包括在第一web页面的内容中的关于第二web页面的评论来计算第二web页面的重要性的功能。
而且,在最近几年,已经尝试分析诸如社会连网服务或博客之类的客户生成的介质中的web发表和讨论,以指定客户的潜在需要和观念,并且利用指定的需要等来开发新的产品和市场。
在“Influence Diffusion Model in Text-Based Communication,”Journal of the Japanese Society for Artificial Intelligence(2002)(no.3vol.17 SP-B,pp.259-267)中公开了一种方法,该方法用于通过文本分析来衡量电子公告板上的具体评论在对该评论随后的回复中所被引用到何种程度,并且从而计算该具体评论对于其他评论的影响的程度。
“Mining and Summarizing Conversation Data on ElectricalMessage Boards”the 16th Annual Convention of the Japanese Societyfor Artificial Intelligence(2002)中公开了一种方法,该方法针对电子公告板上的每个发表基于以下三个指标来计算发表的重要性:(1)当前发表的多少内容涉及之前发表中的主题,其中当前发表是回复所述之前发表的,(2)使用了多少新单词,(3)在提供一个主题作为发表中的新信息之后,直到该主题在稍后的发表中作为旧信息被引用时,其存在多少发表。
然而,这些文档没有描述用于分析包括在每个发表的内容中关于另一个发表的内容的评论且因此用于确定每个发表内容的重要性的方法,其中所述评论例如是同意或不同意的评论发表。
Hironori Tomobe和Katashi Nagao(2005),“DiscussionMining:gijiroku shuugou karano chishiki hakken(讨论挖掘:来自时间集的知识发现),”the 67th Annual Convention of the Information ProcessingSociety of Japan中公开了一种方法,该方法基于链接自重要评价的评价以及链接到重要评价的评价在时间(minutes)集合中是重要的概念,通过使用活动的传播来计算评价的重要性。
换句话说,文档公开了一种从网络配置方面分析时间的方法,其不包括分析每个评价的内容从而计算每个评价的重要性。
在IBM日本有限公司2004年7月26日的“Homepage jyonohyouban wo shunjini bunseki(web网站上的“信誉”的瞬时分析),”中公开的信誉分析方案涉及一种通过应用IBM(注册商标)的TAKMI(文本分析和知识挖掘)对发送到公司的客户评论瞬时分类为“有利的”评论和“不利的”评论的技术。
然而,此技术不包括计算包括在网络上的讨论帖中的每个消息的重要性。因此,没有公开或提出用于通过使用对与特定消息对应的另一个帖内容的分析来计算该特定消息的重要性的方法。
如上所述,根据传统的技术,不可能分析消息链中每个消息的内容,其中消息链对应于诸如在计算机网络上的讨论帖之类的之前发表的消息,并且不可能在包括在另一个消息中的关于消息的评论的基础上自动确定每个消息的重要性,例如,评论是批评性的(负面的)或同意的(正面的)等。
发明内容
根据本发明,提供一种计算机程序,该计算机程序在以下基础上计算每个电子文档的总重要性:(i)多个电子文档,从没有被其他电子文档参考的开始电子文档到没有参考其他文档的结束电子文档以进行参考和被参考的关系彼此链连接,(ii)关于进行参考和被参考关系的信息,(iii)重要短语,以及(iv)诸如同意短语、不同意短语以及主题改变短语之类的响应系数确定短语,(i)到(iv)存储在存储设备中。
该计算机程序是使计算机操作如下的一个程序:
(a)用于在第一短语和包括在多个电子文档之中的给定电子文档中的短语之间的相似性程度的基础上计算该给定电子文档的本身重要性的装置;
(b)用于在关于进行参考和被参考关系的信息的基础上识别至少一个对给定电子文档加以参考的第二电子文档的装置;
(c)用于在包括在其他电子文档中的短语和响应系数确定短语之间的至少一个相似度的基础上对照给定电子文档计算响应系数的装置;
(d)用于在给定电子文档的本身重要性、响应系数、和第二电子文档的总重要性的基础上计算给定电子文档的总重要性的装置;以及
(e)用于通过将装置(a)到(d)应用到多个电子文档中的每一对来计算多个电子文档中每一个的总重要性的装置。
因此,被具有高的总重要性和高响应系数的其他电子文档参考的电子文档具有高的总重要性。而且,被参考的电子文档自己的本身重要性越高,电子文档的总重要性变得越高。
在上述计算机程序中,优选的是通过将装置(a)到(d)顺序地应用到每对链连接的电子文档,用于计算多个电子文档中每一个的总重要性的装置计算每个电子文档的总重要性,开始于开始电子文档和该开始电子文档参考的电子文档的对,沿着链条朝向结束电子文档。这是因为被参考电子文档的重要性取决于参考该被参考电子文档的电子文档的重要性。
另外,在该计算机程序中,用于计算给定电子文档的总重要性的装置可以在以下基础上进一步计算给定电子文档的总重要性,所述基础是:通过之前分别向响应系数以及其他电子文档的总重要性分配预定的权重而获得的值;以及给定电子文档的本身重要性。
特别地,采用大于0并且小于1的数字作为权重系数是优选的。
根据本发明的计算机程序,每个电子文档的总重要性取决于对第一电子文档加以参考的第二电子文档的总重要性和响应系数,以及第二电子文档的总重要性进一步取决于进一步对第二电子文档加以参考的第三电子文档的总重要性和响应系数。以此方式计算每个电子文档的总重要性。
换句话说,第二和第三电子文档的总重要性和响应系数反映在第一电子文档的总重要性上。
因此,通过如上所述分配权重,第二电子文档的总重要性和响应系数对第一电子文档的总重要性的贡献比第三电子文档的总重要性和响应系数更大。
另外,在该计算机程序中,优选的是,当不存在对电子文档对中的一个电子文档加以参考的电子文档时,用于计算每个电子文档的总重要性的装置通过将装置(a)到(d)应用到该对电子文档并同时使用该电子文档对中的一个电子文档的本身重要性作为其总重要性,来计算组成该对的每个电子文档的总重要性。
而且,在该计算机上程序中,优选的是,当存在对该电子文档对中的一个电子文档加以参考的多个电子文档时,用于计算每个电子文档的总重要性的装置在多个参考电子文档的每一个的总重要性的基础上,计算该电子文档对中一个电子文档的总重要性。
而且,在该计算机程序中,优选的是,用于计算总重要性的装置将每个参考电子文档的总重要性的总和计算作为该电子文档对中一个电子文档的总重要性。
本发明的其他特征将在以下实施例的描述中阐明。
附图说明
为了更完整地理解本发明和其优势,现在对以下结合附图的描述进行参考。
图1是用于实现本发明的计算机装置100的硬件配置的示意图。
图2是讨论图的概念图。
图3是讨论图的数据配置示例。
图4是存储在观点表达存储器202中的观点表达的示例。
图5是本发明的计算机装置100的功能框图。
图6是由本发明的计算机装置100用于计算总重要性的处理流程图。
图7是消息的总重要性的示例,其由本发明的计算机装置100计算。
具体实施方式
A硬件配置
图1是用于实现本发明的计算机装置100的硬件配置的示意图。计算机装置100包括中央处理单元(CPU)102和存储器104。CPU 102和存储器104经由总线106和硬盘控制器108连接到作为辅助存储设备的硬盘设备110。
通过与操作系统合作向CPU 102等发出命令,可以将用于实现本发明的计算机程序代码和各种数据存储在诸如硬盘设备110或ROM 112之类的记录介质中。
通过装载到存储器104中来执行计算机程序代码。可以通过分成若干分段来存储计算机程序代码,并且可以将该计算机程序代码存储在多个记录媒体中。可替换地,也可能将分成若干分段的一部分代码存储在经由网络124连接到计算机装置100的另一个信息处理器中的记录介质中,并且使被分开的代码彼此合作。将被分开的代码分布到多个设备并且使被分开的代码合作的方案例如被具体化为客户端服务器系统。使每个设备执行哪个代码并且是否执行每个功能是可以根据系统设计而适当地选择的事务,并且本发明包括所有模式。
计算机装置100进一步包括用户接口硬件。作为用户接口硬件,例如存在有指示设备(鼠标、游戏杆、触摸板等)116、用于支持键输入的键盘118,以及向用户呈现被标定用于编辑的文档性图像的显示器120。
根据本发明的计算机装置100可以经由通信适配器122与其他计算机进行通信。
以上硬件配置可以被具体化为任何种类的信息处理器,诸如个人计算机、工作站、商业机器、手持电子设备、移动电话和车载设备。然而,每个上述组成元件只是示例,并且对于本发明不是所有组成元件都是必须的。
支持图形用户界面多窗口环境作为标准的操作系统,诸如Windows XP(R),AIX (R),and Linux(R)之类的操作系统是有利的。然而,可以采用其他的操作系统,并且本发明不局限于特定的操作系统环境。
B术语的解释
在解释本发明的系统配置的细节之前,将对术语加以定义。
帖通常指示一系列“特定对象”,以及讨论是关于特定主题的一组多个消息(或观点)。讨论帖是这样一个术语:在讨论帖中所有的消息是链连接的,并且其相对于消息间的响应关系而包括分支。
消息特别指示发表的主题、在诸如博客和电子公告板之类的社会网络服务中对该主题的响应等。典型的消息包括诸如文本和图像之类的信息、以及对其他消息的参考信息。例如,出于回复具有ID号1的消息的目的而已被发表的具有ID号2的消息包括除了诸如文本和图像之类的消息之外的ID号1。可替换地,具有ID号1的消息可以包括对具有ID号1的消息进行参考的其他消息的ID,即ID 2。自然地存在这样的情况:其中,消息之间的参考关系存储为独立于该消息的参考关系信息。
尽管讨论帖示出为贯穿说明书的本发明计算机装置的操作目标的示例,但是操作目标不局限于此。简而言之,只要存在多个电子内容并且它是其中在内容之间存在参考与被参考关系的系统,那么任何系统都可以是本发明计算机装置的操作目标。例如,它可以是包括web页面和web页面之间的相互链接的网络系统。
讨论图形:通过使用表示每个消息的各个图和连接各个图的线段示出包括在讨论帖中的消息以及消息之间的参考和被参考关系的图形。
图2是讨论图形的示例。存在对于消息1201的两个响应消息2202和消息3203。该响应由线段212和213表示。优选的是,这些线段是有向线段。举例来说,从消息3203指向消息1201的箭头示出了消息3203是对消息1201的回复。可替换地,该箭头指示消息3203对消息1201加以参考。
对于本领域的技术人员显而易见的是:讨论图形被配置为能够被存储在计算机存储设备中。例如,如图3所示,讨论图形可以以包括消息ID、进行参考的消息、被参考消息和指向消息内容的指针在内的表格形式存储在存储设备中。
例如,消息1201被消息2202和消息3203两者参考,并且存储进行参考的消息,消息号为2和3。另一方面,消息1201不参考消息,并且NULL存储在参考目的地中。而且,优选的是,指向存储消息1201的内容的存储区域的指针存储在表格中。
电子文档:将要被存储在计算机或网络系统中能够被传输、复制、显示等的文档性信息,该文档性消息是诸如消息、web页面和电子邮件,这些信息是讨论帖的组成要素,共同地称作电子文档。
参考:当电子文档是包括在讨论帖中的消息时,电子文档之间的参考是对现有消息的响应。它可以表达为响应消息参考现有消息,以及被该响应消息参考的现有消息。该响应消息是进行参考的消息,并且该现有消息是被参考消息。
参考信息是指示消息的参考源和目的地的信息,如使用图3所描述的那样。当电子文档是web页面,参考是链接时,此情况中的一条参考信息是包括在进行参考的web页面中的被参考web页面的地址。另外,使用进行参考的web页面对被参考web页面的访问记录来获取web页面之间的相互参考信息是可能的。
本身重要性:对于一个电子文档来说独特的重要性。术语“本身的”用于区分稍后描述的总重要性。
本身重要性取决于:使用电子文档的用户的兴趣;以及与该电子文档内容的一致性或相似性。通过使用信息检索技术来最方便地确定电子文档的本身重要性是可能的。
例如,可将用户的兴趣表达为检索条件(作为重要短语组预先准备的词可以用作将要包括在检索条件中的词),以在该检索条件下检索电子文档,并且使包括该检索条件的电子文档的重要性高于其他电子文档的重要性。还可能将被检索词与分数关联起来,并且用分数来表达重要性。
而且,电子文档的本身重要性可以通过文本挖掘技术来确定。
例如,在Tetsuya Nasukawa、Hiroyuki Kawano和HirokiArimura(2001)的“Base Technology for Text Mining”(Journal of theJapanese Society for Artificial Intelligence,no.2 vol.16)中描述的技术可以使用。
即,通过使用自然语言分析的方法将包括在电子文档中的文本集合分成词和短语。然后,通过使用以下方法检索与用户兴趣一致的电子文档:分析这些词和短语的出现频率和相关性;并且抽取有用的信息。然后,根据一致程度确定电子文档的本身重要性。
这里,对于本领域的技术人员显而易见的是:不论使用什么技术,可以选择检索和分析结果以及本身重要性之间的合适的对应关系。在对应关系的一个示例中,通过将指定的检索条件和电子文档的内容之间的一致程度表达为分数来确定本身重要性。
总重要性:通过如下等式(1)找到电子文档i的总重要性ci。
ci=si+a∑rij·cj(1)
这里,si是电子文档i的总重要性。
a是衰减因子,其优选地是满足0<a<1的数字,并且将在稍后详细描述。
rij是响应系数并且将在稍后详细描述。
cj是对电子文档i加以参考的另一个文档j的总重要性。
∑指示获取r和c的乘积,并且进一步,当存在多个对电子文档i加以参考的其他电子文档j时,针对每个其他电子文档获取这些乘积的总和。
响应系数:当第一电子文档参考第二电子文档时,根据第一电子文档内容确定的第二电子文档的值称作响应系数。
优选地,响应系数在同意内容(agreeing content)的情况中指示正值,并且在批评性内容(critical content)的情况中指示为负值。而且,响应系数在主动赞成的内容的情况中指示为大的正值,并且在被动赞成的内容的情况中指示为小的正值。
这里,通过使用下面描述的观点表达来确定“同意”或“批评”的程度。
观点表达:包括在电子文档中表达观点的短语,即,思考的方式、感受或争论。例如,观点表达包括“赞成”、“不赞成”、“质疑”、“指出其已经被陈述”等。
观点表达具有两个作用。
观点表达的第一个作用是确定包括观点表达的电子文档的重要性。
例如,包括指示特定解答(solution)的短语(诸如“应该做~”)的电子文档对于正在搜索一个解答的用户具有高的重要性。
同时,包括指示对其他信息的参考的短语(诸如“请参考~”)的电子文档类似地对于正在考虑各种解答的用户来说具有高重要性。
观点表达的第二个作用是确定包括观点表达的电子文档参考的第二电子文档的重要性。
例如,指示同意或不同意的短语(诸如“我同意”和“我不同意”)对被参考的第二电子文档的重要性有影响。例如,被包括同意短语的消息参考的(响应的)的消息的重要性是高度重要的。
一般来说,正面短语增加被参考的第二电子文档的重要性,而负面短语降低被参考电子文档的重要性。
同时,指示质疑的短语(诸如“为什么”和“如何”)也对被参考的第二电子文档的重要性有影响。
由具有指示质疑的短语的消息响应的消息可以被认为是:该问题发表投射关于该消息可靠性的疑问,并且该消息的重要性变低。
同时,质疑的观点表达具有上述的第一个作用,包括指示该质疑的短语的消息本身通过检查被参考消息的内容变得更加重要。
图4示出了总结上述内容的观点表达表格。
该表格配置了被观点表达影响的参数、参数的调整程度、表达类型和表达示例。
例如,“IBM的人员应该做”和“我们必须”的表达示例是分类为“建议”的表达类型,并且包括这些短语或类似这些的短语的电子文档的本身重要性高于不包括这些短语的电子文档的本身重要性。在此示例中,添加到s上的+2分被分配给这些表达。换句话说,这些是重要的短语组。
当电子文档包括“赞许”、“同意”和“不同意”的表达类型时,该电子文档对该电子文档参考的其他电子文档的重要性有影响。因此,添加到r上的每一分被分配给这些表达。前两个是同意短语组,而属于“不同意”表达类型的短语是不同意短语组。
例如,当“不同意”表达类型的表达示例包括在该电子文档中时,应该理解被包括“不同意”表达的电子文档参考的电子文档的重要性按照等式(1)降低。
指示主题改变(新主题)的表达示例被认为是对被参考的电子文档的重要性没有影响。因而,不给r加分。
属于此表达类型的短语是主题改变短语组。
属于“质疑”和“事实指示”表达类型的短语被认为是对包括这些短语的电子文档本身重要性和被该电子文档参考的其他电子文档的重要性两者都有影响,并且因此,为s和r分配额外的分数。
简而言之,虽然属于这些表达类型的短语是重要短语组,但是这些短语也属于同意或不同意组。
注意,以上是示例,并且表达示例、表达类型和分数可以根据本发明的应用适当地改变。
简而言之,只要表达类型、属于该表达类型的表达示例、相应的加减分数、以及将要被加减的分数是相关联的,这就足够了。
而且,在表达示例和电子文档内容的比较中,可以通过使用传统文本分析方法确定相似性和一致性。在以下描述中,本领域的技术人员可以理解,尽管将其简单称作“一致性”,但是也可以在其中包括相似性。
衰减因子:如以上段落中关于总重要性所描述的那样,优选的是,该衰减因子是一个小的正数。原因如下:衰减因子乘以参考电子文档总重要性cj和rij的乘积。另外,被参考电子文档的总重要性取决于arijcj。当存在对参考电子文档j进行进一步参考的电子文档k时,电子文档j的总重要性由等式(1)确定为cj=sj+∑arjkck。
ci=si+∑arijc=si+∑arijcj+∑∑a2rijrjkck衍生自cj和ci=si+∑arijcj的上述关系。
这里,关注cj乘以a并且ck乘以a2的这些事实,则对电子文档i加以直接参考的电子文档j的总重要性对于电子文档i的总重要性贡献较多,并且对电子文档i加以间接参考的电子文档k的总重要性对电子文档i的总重要性贡献较少。
类似于讨论帖,在每个消息通过参考关系互相链连接的系统中,使得通过将衰减因子引入到每个消息的总重要性计算中来执行与“更远的消息对消息的重要性具有较小的影响”的经验性规则一致的处理成为可能。
C系统配置
接下来,参考图5将给出本发明的系统配置的描述。
在图5中示出的功能性块是逻辑功能块,并且不一定意味着本发明由硬件和软件实现,每一个逻辑功能块都可以整合成一个。每个功能块可以被具体化为单独独立的硬件或硬件的合作、或者通用硬件或软件。
在本发明的实施例中,计算机装置包括观点表达表格存储器502、讨论图形存储器504、讨论帖寄存器506、讨论帖输入单元508、讨论图形读取器510、讨论图形显示器516、总重要性计算控制器514、本身重要性计算器512、讨论图形注释单元518、讨论图形搜索单元520和响应系数计算器522。
讨论帖输入单元508响应用户通过键盘118等的输入而接受消息的输入。用户通常输入作为消息内容的文本,并且当需要时还输入参考信息,其中输入的消息是其他消息中哪个消息的响应。此类输入操作是公知的,并且通常是对发表电子公告板的消息发表以及对另一个发表消息发表的响应发表。
讨论帖寄存器506将用户输入的消息添加到存储在讨论图形存储器504中的讨论图形中。添加意味着在图3中示出的表格中额外地写入输入消息的ID、指向文本的指针以及关于参考源和参考目的地的信息。关于参考源和参考目的地的信息是根据用户输入的参考信息生成的,然后被存储。
讨论图形存储器504存储包括现有消息的讨论图形。讨论图形概念性地示出于图2中,并且被表示为已经描述的图3中示出的数据表格。
讨论图形读取器510读取讨论图形存储器504中的讨论图形。读取意味着搜索图3中示出的数据,并且恢复来自于讨论图形存储器504的消息的内容。将恢复的消息传输到讨论图形显示器516。同时,讨论图形读取器510还读取来自于讨论图形存储器504的消息的参考关系,并且将参考关系传输到讨论图形显示器516。
讨论图形显示器516根据消息的参考关系来显示从讨论图形读取器510接收的消息的内容。
讨论帖输入单元508、讨论帖寄存器506、讨论图形读取器510和讨论图形显示器516的功能通常由电子邮件管理软件、组件等实现。
通过这些种类的软件,讨论图形在讨论图形存储器504中形成,并且根据寄存和删除消息的用户操作而被更新。
这些种类的软件可以是根据本发明的计算机装置的一部分,或者可以是独立的装置。
观点表达表格存储器502存储上述观点表达表格(图4)。用户预先生成观点表达表格并且将观点表达表格存储在观点表达表格存储器502中也是可能的。
总重要性计算控制器514基于上述等式(1)计算包括在讨论图形中的每个消息的总重要性,并且将结果传输到讨论图形注释单元518。
稍后将详细描述总重要性计算控制。
讨论图形注释单元518将消息的总重要性等添加到讨论图形,其中已经从总重要性计算控制器514接收了消息的总重要性等。
特别地,通过将消息与其总重要性关联起来而将这些总重要性存储在讨论图形存储器504中,使得讨论图形读取器510和讨论图形搜索单元520可以读取它们。
讨论图形搜索单元520响应来自于总重要性计算控制器514的请求,搜索并且读取应该由讨论图形存储器504中的每个其他单元处理的消息内容,并且将该内容传输到指定单元。
本身重要性计算器512根据从讨论图形搜索单元520接收的消息的内容来计算该消息的本身重要性。
例如,包括在读取文本中的短语与观点表达表格(图4中的400)中的表达示例进行比较,并且基于一致的程度确定将要添加到本身重要性上的分数。例如,当存在与文本中的“IBM的人员应该做”的表达示例相当一致的短语时,给该消息的本身重要性加上两分(s的初始值可以设置为0)。
将计算结果传输到总重要性计算控制器514。
响应系数计算器522参考观点表达表格,并且根据从讨论图形搜索单元520接收的消息的内容来计算消息的响应系数r。
将计算结果传输到总重要性计算控制器514。
D操作描述
D-1操作概述
接下来,将给出用于计算每个消息的总重要性的过程的详细描述。
以下内容是操作的概述。简而言之,根据等式(1)应该理解,可以通过使用对任意消息进行参考的其他消息的总重要性以及其他消息的内容来确定该任意消息的总重要性。因此,当顺序地改变具有参考和被参考关系的消息对时,总重要性计算控制器514顺序地计算每个消息的总重要性。
根据等式(1)应该理解,优选的是,首先计算没有被任何其他消息参考的第一消息的总重要性。通过进行以上操作,确定了被第一消息参考的第二消息的总重要性。然后,通过使用第二消息的总重要性进一步确定被第二消息参考的第三消息的总重要性。以此方式,使得持续计算遍布讨论图形的每个消息的总重要性成为可能。
例如,在图3中示出的讨论图形中,首先计算消息6、7、8和9的总重要性,之后,通过使用该计算结果计算消息3、4和5的总重要性。而且,计算消息2的总重要性,最后计算消息1(终端)的总重要性。上述过程是优选的。
用于确定每个消息的总重要性的过程将在下面详细描述,该过程是一个示例,并且该过程不局限于此。本领域技术人员可以适当地选择一系列过程的多个任务的分割以及任务之间的同步。
D-2操作描述
根据等式(1)应该理解,任意消息i的总重要性取决于对消息i加以参考的另一个消息j的内容。
下面,将通过使用任意消息对i和j来详细描述用于计算消息i的总重要性的过程。
注意,总重要性计算控制器514独立地执行任务以识别目标是应用以下过程的消息对。特别地,该任务首先经由讨论图形搜索单元520识别开始消息(图3中的消息6到消息9),并且生成针对包括这些开始的消息对执行以下过程的总重要性计算任务。
而且,优选的是,以D-1中描述的顺序针对其他消息对生成总重要性计算任务。
当完成每个任务时,完成了针对每个消息的总重要性计算。
图6示出了用于处理总重要性计算任务的过程,即,用于通过使用任意消息对i和j来计算消息i的总重要性的过程。
除非在此之后注释出来,否则执行每个过程的主单元是总重要性计算控制器514。
另外,总重要性计算控制器514经由讨论图形搜索单元520从讨论图形存储器504获取每个过程需要的消息内容。然而,为了避免复杂化,在描述中省略了此步骤。
首先,被标定用于处理的消息对由用于识别上述消息对的另一个任务识别,并且生成总重要性计算任务(步骤602)。
从其他任务接收被参考消息i和进行参考的消息j的ID(步骤604)。
当参考源j是开始消息时,换句话说,当不存在对参考消息j加以参考的其他消息时(步骤606),进行参考的消息j的本身重要性sj替换为进行参考的消息j的总重要性(步骤608)。
本身重要性计算器512计算本身重要性。
接下来,响应系数计算器522计算响应系数rij,并且通过使用已计算的sj、rij和cj基于等式(1)来计算进行参考的消息i的总重要性(步骤610)。
接下来,通过讨论图形搜索单元520搜索对被参考消息i加以参考的另一个进行参考的消息的存在。当其他进行参考的消息存在,并且当使用被参考消息i和这些进行参考的消息的对来计算ci是不完整的时,在步骤610中确定的ci临时保存为ci(n)(步骤612、614)。n方便区分对最终ci的每个贡献,其中通过使用通用的被参考消息i和任何对消息i进行参考的消息的独立对来确定该贡献。
此处理用于按照多个总重要性之和(c36、c37和c38)来确定被多个消息所参考的消息的总重要性,类似于图3中示出的消息3。
如果关于其他进行参考的消息和被参考消息i的对的所有ci(n)))的计算完成了(步骤616),则从临时存储器中返回临时存储的ci(n)(步骤618),将这些相加(步骤620),并且确定被参考消息i的总重要性(步骤620)。
接下来,示出被参考消息i的总重要性计算已经完成的标记转为ON(步骤622)。
当用于识别消息对的其他任务识别了新消息对时,提供此标记。换句话说,当标记是ON时,消息i不再被指定为被参考消息。
标记和总重要性经由讨论图形注释单元518存储在讨论图形存储器504中。
在没有完成ci(n)的所有计算的情况下(步骤616),终止任务(步骤624)。ci(n)的剩余计算由其他总重要性计算任务来执行。
E示例
图7示出了针对图2中示出的讨论图形由本发明的计算机装置100确定的每个消息的总重要性的结果。
衰减因子a设置为0.8。
消息1的总重要性是-1.24。这是因为对消息1做出评论(加以参考)的消息3的内容是批评性的。为了精确,批评指示响应系数r31是负值。而且,消息3接收来自于三个消息6、7和8的同意(r是正值)响应。换句话说,消息3直接批评消息1,并且进一步消息6、7和8间接批评消息1。由于这些情况,在消息组之中将消息1的总重要性评估为相对低。
另一方面,消息5的总重要性是5.8,并且指示一个相对高的值。这是因为消息5内容本身是有价值的(s=5.0)。然而,对消息5的响应是一个,并且可以想象根据讨论图像的未来生长总重要性会改变。
尽管已经详细描述了本发明的优选实施例,但是应该理解在不脱离所附权利要求书限定的本发明的精神和范围的情况下,可以做出各种改变、替换和变形。
如上所述,根据本发明的计算机装置,从大量消息中自动识别与用户兴趣一致的消息是可能的。以此方式,期望本发明的计算机装置应用于新产品开发、市场、公司风险管理等领域。
Claims (13)
1.一种方法,基于以下内容计算多个电子文档中的至少一个电子文档的重要性:(i)多个电子文档,(ii)关于每对所述电子文档之间的参考关系的信息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv)存储在存储设备中,所述方法包括以下步骤:
(a)在重要短语和包括在所述多个电子文档之中的给定电子文档中的短语之间的相似度的基础上,计算所述给定电子文档的本身重要性,
(b)在所述参考信息的基础上,识别至少一个对所述给定电子文档加以参考的其他电子文档,
(c)在包括在所述其他电子文档中的短语和响应系数确定短语之间的至少一个相似度的基础上,对照所述给定电子文档计算所述响应系数,
(d)在所述给定电子文档的所述本身重要性、所述响应系数、和所述其他电子文档的总重要性的基础上,计算所述给定电子文档的总重要性,以及
(e)通过将(a)到(d)的步骤应用到所述电子文档组中具有直接进行参考和直接被参考的相互关系的每对电子文档中来计算电子文档组中的每个所述电子文档的总重要性,其中所述给定电子文档和所述其他电子文档通过进行参考和被参考的关系在所述参考信息的基础上直接或间接地彼此链接。
2.根据权利要求1所述的方法,其中用于计算所述多个电子文档中每个电子文档的所述总重要性的步骤从开始电子文档和所述开始电子文档参考的电子文档构成的一对电子文档开始,沿着链接朝向结束电子文档,通过将所述(a)到(d)的步骤依次应用到每对链接的电子文档来计算所述多个电子文档的每个电子文档的所述总重要性。
3.根据权利要求1所述的方法,其中用于计算所述给定电子文档的所述总重要性的步骤在以下内容的基础上进一步计算所述给定电子文档的所述总重要性:通过之前向所述响应系数和所述其他电子文档的所述总重要性分别分配预定的权重而获得的值;以及所述给定电子文档的所述本身重要性。
4.根据权利要求3所述的方法,其中0<所述分配的权重<1。
5.根据权利要求1所述的方法,其中当不存在对所述电子文档对中的一个电子文档加以参考的电子文档时,用于计算所述多个电子文档的每个电子文档的所述总重要性的步骤通过在使用所述电子文档对中的一个电子文档的所述本身重要性作为其总重要性的情况下,将所述(a)到(d)的步骤应用到所述电子文档对来计算组成所述对的所述每个电子文档的所述总重要性。
6.根据权利要求1所述的方法,其中当存在对所述电子文档对中的一个电子文档加以参考的多个电子文档时,用于计算每个所述电子文档的所述总重要性的步骤在多个参考电子文档的每一个电子文档的所述总重要性的基础上计算所述电子文档对中的一个电子文档的所述总重要性。
7.根据权利要求6所述的方法,其中用于计算所述总重要性的步骤将每个所述进行参考的电子文档的所述总重要性的总和计算作为所述电子文档对中的一个电子文档的所述总重要性。
8.根据权利要求1所述的方法,其中所述响应系数确定短语包括以下短语中的至少一个短语:(i)同意短语、(ii)不同意短语以及(iii)主题改变短语。
9.一种计算机程序,所述计算机程序基于以下内容计算每个电子文档的总重要性:(i)从没有被任何其他文档参考的开始电子文档到没有参考任何其他文档的结束电子文档以进行参考和被参考关系彼此链连接的多个电子文档,(ii)关于进行参考和被参考关系的信息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv)存储在存储设备中,所述计算机程序使计算机执行权利要求1-8中任何一项的方法步骤。
10.一种计算机装置,所述计算机装置基于以下内容计算多个电子文档中的至少一个电子文档的重要性:(i)所述多个电子文档,(ii)每个所述电子文档之间的参考信息,(iii)重要短语,以及(iv)响应系数确定短语,(i)到(iv)存储在存储设备中,所述计算机装置包括:
(a)用于基于所述重要短语和包括在所述多个电子文档中的给定电子文档中的短语之间的相似度来计算所述多个电子文档中的所述给定电子文档的本身重要性的装置;
(b)用于在所述参考信息的基础上识别至少一个对所述给定电子文档加以参考的其他电子文档的装置;
(c)用于在包括在所述其他电子文档中的短语和所述响应系数确定短语之间的至少一个相似度的基础上对照所述给定电子文档计算响应系数的装置;
(d)用于在所述给定电子文档的所述本身重要性、所述响应系数和所述其他电子文档的总重要性的基础上计算所述给定电子文档的总重要性的装置;以及
(e)用于通过将装置(a)到(d)应用到电子文档组中的具有直接进行参考和直接被参考的相互关系的每对电子文档中来计算所述电子文档组中的每个所述电子文档的总重要性的装置,其中所述给定电子文档和所述其他电子文档通过进行参考和被参考的关系在所述参考信息的基础上直接或间接地彼此链接。
11.一种方法,用于在以下的基础上计算多个电子文档中的每个电子文档的总重要性:从没有被任何其他文档参考的开始电子文档到没有参考任何其他文档的结束电子文档以进行参考和被参考关系彼此链接的多个电子文档;重要短语;以及响应系数确定短语,以上这些全部存储在存储设备中,所述方法使计算机操作如下:
(a)用于在所述重要短语和包括在所述开始电子文档中的短语之间的所述相似度的基础上计算所述开始电子文档的所述总重要性的方式;以及
(b)通过在从所述开始电子文档和所述开始电子文档参考的另一个电子文档的对到所述结束电子文档的方向上,对多对电子文档依次应用等式ci=si+a×rij×cj来计算电子文档链中具有参考和被参考关系的多个所述电子文档中的每个电子文档的总重要性,
其中ci是所述电子文档链中的第i个电子文档的总重要性,
si是第i个电子文档的本身重要性,并且在包括在所述第i个电子文档中的短语和所述重要短语之间的相似度的基础上计算si,
a是满足0<a<1的数字,
rij是响应系数,在包括在第j个电子文档中的短语和所述响应系数确定短语之间的所述相似度的基础上计算所述响应系数,其中第j个电子文档直接参考第i个电子文档并且是第i个电子文档的响应,以及
cj是所述第j个电子文档的总重要性。
12.根据权利要求11所述的方法,其中所述响应系数rij是包括在所述第j个电子文档中的所述短语与同意短语、不同意短语和主题改变短语的相似度的总和,
与所述同意短语的所述相似度是对应于所述相似度的量的正数,
与所述不同意短语的所述相似度是对应于所述相似度的量的负数,以及
与所述主题改变短语的所述相似度是0。
13.一种方法,用于在以下基础上计算每个电子文档的总重要性:(i)从没有被任何其他文档参考的开始电子文档到没有参考任何其他文档的结束电子文档以参考和被参考关系彼此链连接的多个电子文档,(ii)关于参考和被参考关系的信息,(iii)第一短语,以及(iv)第二短语,(i)到(iv)存储在存储设备中,所述方法使计算机操作如下:
(a)在所述第一短语和包括在所述多个电子文档中的给定电子文档中的短语之间的所述相似度的基础上,计算所述多个电子文档中的所述给定电子文档的本身重要性;
(b)在关于进行参考和被参考关系的信息的基础上,识别至少一个对所述给定电子文档加以参考的第二电子文档;
(c)在包括在所述第二电子文档中的短语和所述第二短语之间的相似度的基础上,对照所述第一电子文档计算响应系数;
(d)在所述给定电子文档的所述本身重要性和所述第二电子文档的总重要性的基础上,计算所述给定电子文档的总重要性;以及
(e)通过将所述步骤(a)到(d)应用到所述多个电子文档中的每对来计算所述多个电子文档中的每个电子文档的总重要性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011633A JP4464975B2 (ja) | 2007-01-22 | 2007-01-22 | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
JP2007011633 | 2007-01-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101231651A true CN101231651A (zh) | 2008-07-30 |
Family
ID=39360887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100037015A Pending CN101231651A (zh) | 2007-01-22 | 2008-01-21 | 计算计算机网络上电子文档的重要性的计算机装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8019756B2 (zh) |
JP (1) | JP4464975B2 (zh) |
CN (1) | CN101231651A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236715A (zh) * | 2010-07-02 | 2011-11-09 | 微软公司 | 电子邮件消息的协作评定和过滤 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5261326B2 (ja) * | 2009-08-28 | 2013-08-14 | 日本電信電話株式会社 | 情報検索装置、情報検索プログラム |
US8219552B2 (en) | 2009-10-07 | 2012-07-10 | International Business Machines Corporation | Information theory based result merging for searching hierarchical entities across heterogeneous data sources |
US20110125826A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Stalking social media users to maximize the likelihood of immediate engagement |
US20110125697A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Social media contact center dialog system |
US20110125793A1 (en) * | 2009-11-20 | 2011-05-26 | Avaya Inc. | Method for determining response channel for a contact center from historic social media postings |
JP5397198B2 (ja) * | 2009-12-08 | 2014-01-22 | 日本電気株式会社 | 話題推薦装置、話題推薦装方法およびプログラム |
US8290926B2 (en) | 2010-01-21 | 2012-10-16 | Microsoft Corporation | Scalable topical aggregation of data feeds |
WO2012178152A1 (en) * | 2011-06-23 | 2012-12-27 | I3 Analytics | Methods and systems for retrieval of experts based on user customizable search and ranking parameters |
US9058376B2 (en) | 2013-03-15 | 2015-06-16 | Alcmeon | Scoring of interrelated message elements |
JP5939579B2 (ja) | 2013-03-19 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | リストを作成する装置、方法およびプログラム |
US9886664B2 (en) * | 2013-09-25 | 2018-02-06 | Avaya Inc. | System and method of message thread management |
CN104951471A (zh) * | 2014-03-28 | 2015-09-30 | 富士通株式会社 | 信息处理设备、信息处理方法以及电子装置 |
JP6154072B2 (ja) * | 2014-05-29 | 2017-06-28 | 日本電信電話株式会社 | 情報分析システム、情報分析方法及び情報分析プログラム |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10614109B2 (en) * | 2017-03-29 | 2020-04-07 | International Business Machines Corporation | Natural language processing keyword analysis |
CN107153641B (zh) * | 2017-05-08 | 2021-01-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
JP7247544B2 (ja) * | 2018-11-22 | 2023-03-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理システム |
CN110880013A (zh) * | 2019-08-02 | 2020-03-13 | 华为技术有限公司 | 识别文本的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288206A (ja) | 2001-03-27 | 2002-10-04 | Fujitsu Ltd | 情報探索支援システム、情報探索支援プログラムおよびプログラム記録媒体 |
JP3914082B2 (ja) | 2002-03-27 | 2007-05-16 | 株式会社東芝 | 情報提示システムと情報提示方法 |
US7590603B2 (en) * | 2004-10-01 | 2009-09-15 | Microsoft Corporation | Method and system for classifying and identifying messages as question or not a question within a discussion thread |
JP4344339B2 (ja) | 2004-12-24 | 2009-10-14 | 日本電信電話株式会社 | 情報評価装置、コンテンツ検索装置、情報評価方法、コンテンツ検索方法、それらのプログラム及び記録媒体 |
JP2007011633A (ja) | 2005-06-29 | 2007-01-18 | Uncut Technology:Kk | データ再生プログラム、これを作成するプログラムおよび情報記録媒体 |
-
2007
- 2007-01-22 JP JP2007011633A patent/JP4464975B2/ja not_active Expired - Fee Related
-
2008
- 2008-01-18 US US12/016,381 patent/US8019756B2/en not_active Expired - Fee Related
- 2008-01-21 CN CNA2008100037015A patent/CN101231651A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236715A (zh) * | 2010-07-02 | 2011-11-09 | 微软公司 | 电子邮件消息的协作评定和过滤 |
Also Published As
Publication number | Publication date |
---|---|
JP2008176721A (ja) | 2008-07-31 |
US20080109419A1 (en) | 2008-05-08 |
JP4464975B2 (ja) | 2010-05-19 |
US8019756B2 (en) | 2011-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101231651A (zh) | 计算计算机网络上电子文档的重要性的计算机装置和方法 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN112671734B (zh) | 面向多数据源的报文处理方法及其相关设备 | |
CN111597177A (zh) | 用于提升数据质量的数据治理方法 | |
CN110781183A (zh) | Hive数据库中增量数据的处理方法、装置以及计算机设备 | |
CN113836131A (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
CN113887941A (zh) | 业务流程生成方法、装置、电子设备及介质 | |
CN114386509A (zh) | 数据融合方法、装置、电子设备及存储介质 | |
CN111899822A (zh) | 医疗机构数据库构建方法、查询方法、装置、设备和介质 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN111126965B (zh) | 审核规则优化方法、装置、计算机设备以及存储介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112069808A (zh) | 融资风控方法、装置、计算机设备及存储介质 | |
CN114547696A (zh) | 文件脱敏方法、装置、电子设备及存储介质 | |
CN114662005A (zh) | 用户行为轨迹的消息推送方法、装置、设备及存储介质 | |
CN114398676A (zh) | 基于人工智能的数据安全分级方法、装置、设备及介质 | |
CN113987206A (zh) | 异常用户的识别方法、装置、设备及存储介质 | |
CN111581950A (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
CN110908663A (zh) | 业务问题的定位方法和定位装置 | |
CN113590841B (zh) | 智能化快速审单与基于知识图谱的智能预警系统与方法 | |
US20230385556A1 (en) | Systems and methods for reducing input to and increasing processing speeds of natural language processing models | |
CN116932697A (zh) | 一种基于规则引擎优化的业务数据处理方法及相关设备 | |
CN116662544A (zh) | 谣言检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20080730 |