CN102262632B - 进行文本处理的方法和系统 - Google Patents
进行文本处理的方法和系统 Download PDFInfo
- Publication number
- CN102262632B CN102262632B CN201010188623.8A CN201010188623A CN102262632B CN 102262632 B CN102262632 B CN 102262632B CN 201010188623 A CN201010188623 A CN 201010188623A CN 102262632 B CN102262632 B CN 102262632B
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- same
- perpetual object
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Machine Translation (AREA)
Abstract
本发明总体上利用对现有的对象共指技术的扩展实现自动的、更全面的、准确的、有效的文本数据的分析和处理。具体而言,本发明提供了一种文本处理方法,包括:获取待处理的文本;从所述文本中提取主体词和与所述主体词对应的实体词;对所述主体词进行分组;根据分组后的主体词确定指向同一关注对象的实体词;以及对指向同一关注对象的实体词生成处理策略。本发明还提供了实现这种方法的系统。本发明可以用于挖掘有关某一实体的大量的评论数据,本发明还可以用于推荐文章中插入嵌入式广告的插入位置。
Description
技术领域
本发明总体上涉及对数据进行处理的方法和系统,特别的本发明涉及对文本进行处理的方法和系统。
背景技术
数据挖掘(Data mining)是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘与数据分析是信息技术领域重要的研究课题,在此之上存在很多的子研究课题。其中自然语言处理技术中的信息抽取研究为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。对象共指(Object Coreference)技术是信息抽取研究中的一种应用,可以在一定程度确认文本中的共指关系。
在目前的自然语言处理技术中,对象共指主要用于分析人物共指。比如对于一段文字“今天张市长访问了新建的博物馆...市长饶有兴致地与博物馆的工作人员进行交谈...他细致地询问起有关情况...”。传统的自然语言处理技术可以确定“张市长”,“市长”以及“他”指的是同一个人。美国专利US6438543B1披露了一种用于检索多篇文章中的具有不同名字的同一主体。该专利的说明书详细介绍了如何判断不同位置的Clinton指的是同一个人。
发明内容
现有技术可以实现利用指代消解技术来获得人物共指关系的方法,但是现有技术并没有能够很好的实现对实体的对象共指。而在数据挖掘领域实现对实体词的对象共指可以有助于解决很多实际问题。本发明总体上利用对现有的对象共指技术的扩展实现自动的、更全面的、准确的、有效的文本数据的分析和处理。比如照相机制造商希望通过对网络上大量文章的分析获得用户对其产品的各种各样的评价。假如“五星”是一款照相机品牌,某网友在一篇Blog中写道“我刚刚购买了一架五星照相机......我的新照相机比旧照相机好用多了,可以进行连续拍摄......”。仅利用现有技术,很难知道后面提到的“新照相机”就是前文中所述的“五星照相机”,因此也就很难挖掘出对“五星照相机”的评价,即“可以进行连续拍摄”。再如五星公司可能希望在网友的文章中插入嵌入式广告。比如该网友的文章中如果提到了“......在景区很多人都拿着相机纷纷拍照。我也忍不住拿起相机来拍,我们家的相机效果很不错,这些照片的效果非常好,我家小女儿总是把相机抢过去拍那些小动物......”,照相机制造商完全可以在不影响文章完整性的情况下,插入嵌入式广告。当然,上面两个例子仅仅示出了本发明的一些应用场景,实际上可以在本发明的基础上开发更多的应用可能。本发明总体上利用对现有的对象技术的扩展实现自动的、更全面的、准确的、有效的文本数据的分析和处理。
具体而言,本发明提供了一种文本处理方法,包括:获取待处理的文本;从所述文本中提取主体词和与所述主体词对应的实体词;对所述主体词进行分组,以形成主体词分组;根据所述主体词分组确定指向同一关注对象的实体词;以及对指向同一关注对象的实体词生成处理策略。
本发明还提供了一种文本处理系统,包括:文本获取装置,用于获取待处理的文本;词提取装置,用于从所述文本中提取主体词和与所述主体词对应的实体词;主体词分组装置,用于对所述主体词进行分组,以形成主体词分组;实体词确定装置,用于根据所述主体词分组确定指向同一关注对象的实体词;以及处理策略生成装置,用于对指向同一关注对象的实体词生成处理策略。
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1示出了文本处理方法的总体流程图。
图2示出了按照本发明的一个实施例的确定指向同一关注对象的实体词的流程图。
图3A示出了一个文本的例子。
图3B-3G示出了利用本发明的文本处理方法和系统对图3A中的例子进行处理所得到的一些处理结果的例子。
图3H示出了另一个文本的例子。
图4示出了文本处理系统的总体框图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
本发明总体上利用对现有的对象技术的扩展实现自动的、更全面的、准确的、有效的文本数据的分析和处理。
图1示出了文本处理方法的总体流程图。其中在步骤101获取待处理的文本。所述文本可以是一篇也可以是多篇。所述多篇文本可以出自同一作者(比如,同一作者的多篇博文)也可以出自不同作者。所示文本可以从公开的渠道获得(比如因特网上公开的博客、论坛、个人网页等)获得、也可以从私有渠道获得(比如以许可的方式从私有数据库)。就技术方面而言,本发明对待处理的文本的类型没有任何限制,可以是博文、小说、新闻等任何类型,并且本发明对待处理的文本的存储格式也没有任何限制,其可以是xml文档、html文档、word文档等任何文档格式。
在步骤103从所述文本中提取主体词和与所述主体词对应的实体词。提取主体词可以通过主体词检测(也叫主体词识别)技术实现。所述主体词为表示单个或者多个主体概念的词语,所述主体概念既可以位于句子的主语部分,也可以位于宾语部分或其它部分。以图3A中的文本为例。在博文中描述了“在景区很多人都拿着相机纷纷拍照。我也忍不住拿起相机来拍,我们家的相机效果很不错,这些照片的效果非常好,我家小女儿总是把相机抢过去拍那些小动物......”。其中“很多人”、“我”、“我们家”、“小女儿”都是表示主体概念的词语。所述主体概念即包括人物主体、也包括机构主体,比如“ABC餐馆的餐具非常别致”中的“ABC餐馆”也可以被提取出来。当然根据应用的需要,也可以设置各种各样的规则对提取出的主体词进行限制,比如仅提取人物主体词、仅提取主语中的主体词等。
除了提取主体词以外还需要提取与所述主体词对应的实体词。可以利用命名实体识别技术提取实体词。所述实体词为表示单个或者多个实体概念的词语。比如图3A例子中的“相机”。当然根据应用的需要,也可以设置各种各样的规则对提取出的实体词进行限制,比如仅提取某一范畴内的实体词(具体而言比如仅提取与IT产品有关的实体词)、或者仅提取与某一个或某一类关注对象有关的实体词(具体而言比如仅与照相机有关的实体词)、或者提取所有的实体词等。
在步骤105对所述主体词进行分组,以形成主体词分组。本发明创新性的使用了对主体词进行分组的方法从而确定出指向共同关注对象的与不同主体相关的实体。为了对主体词进行分组,需要首先建立主体关系网,根据不同的应用需求,可以建立个人关系网、家庭关系网、同事关系网、朋友关系网等,然后根据建立好的主体关系网对主体词进行分组。所述主体关系网可以依据关注对象进行建立。比如,对于照相机、汽车、房屋这样的对象在大多数情况下是以家庭为单位拥有或使用的、而像手机、饰品等对象在大多数情况下是以个人为单位拥有或使用的,而对于打印机、服务器、投影仪等对象可能是由工作单位拥有或使用的。可以根据实际应用的需要制定不同的规则从而对于不同的关注对象按照不同的关系网进行分组。以图3A为例,由于该例中的关注对象为照相机,因此可以使用家庭关系网对主体词以家庭为单位进行分组,分组结果如下所示:
{“很多人”},{“我”,“我们家”,“我家小女儿”}
其中分组1包括一个主体词“很多人”;分组2包括三个主体词“我”、“我们家”、“我家小女儿”。可以理解,如果图3A中仅出现“小女儿”而没有出现“我家小女儿”,并且在上下文中曾经提到“小女儿”是我家的,则在步骤105中也可以将“小女儿”归类到第2组。
关注对象可以从多种渠道获得,所述关注对象可以通过接收关注对象列表获得,所述关注对象列表中包含至少一个关注对象。按照本发明的一种应用场景(第一种应用场景),文本处理方法可以用于挖掘有关某一实体的大量的评论数据,比如某一照相机制造商(五星公司)希望通过网络了解其产品的用户评价,则可以通过本发明的方法将网络上的大量讨论五星照相机的文章进行收集并提取有关五星照相机的句子或短语。在这一应用场景中,关注对象列表中的关注对象为五星照相机。
在本发明的另一个应用场景中(第二种应用场景),文本处理方法还可以用于推荐文章中插入嵌入式广告的插入位置。如果有多个厂商希望通过在他人的文章中插入嵌入式广告,那么关注对象列表将包含多个关注对象包括照相机、手机、汽车等。在这一应用中关注对象列表可以不必是某种特定品牌的产品,也就是说,如果某人的博客中提到了照相机而没有指明具体是什么品牌的照相机,那么照相机厂商就可以在争得其同意的基础上插入嵌入式广告。
所述关注对象也可能根据对所述文本的语法结构的分析从而进行确定的。可以利用已知的00V技术(Out of Vocabulary)获得关注对象。本发明对00V技术的实现方案没有任何限定,可以参考US6243677B1、US6076054等专利或非专利文献。在本发明的第二种应用场景中,网络服务平台提供者可能并没有一个清晰明确的关注对象列表,而是希望通过文本处理方法挖掘出网络上可以插入嵌入式广告的产品。利用00V技术,通过对文本的语法结构进行分析,包括识别其中的关键动词,能够确定关注对象的产品名称。例如如果某人在网络上的博文中写道“我今天购买了一款新潮的mp4”,则00V技术可以通过分析其中的关键动词“购买”从而确定关注对象的产品名称“mp4”。
按照本发明的一个实施例,还可以利用自然语言处理技术中的别名技术(Alias)对至少一个关注对象进行名词扩展。本发明对别名技术的实现方案没有任何限定,可以参考US20060036866A1等专利或非专利文献。别名技术是通过分析大量文档以及词与词之间的缩写规则来实现对同一产品的不同的名称进行扩展。通常情况下一个关注对象可能存在若干同义词,比如“相机、照相机、DC、单反等”都是指照相机,“手机、手提电话、无绳电话、无线电话等”都是指手机。利用别名技术可以更全面的挖掘文本中关于某一种或多种产品的信息。
在步骤107根据所述主体词分组确定指向同一关注对象的实体词。一篇文章中可能多次谈到照相机,但是并不一定所有的照相机都是指同一部照相机,在图3A所示的例子中,“很多人都拿着相机纷纷拍照”中的“相机”就与“我也忍不住拿起相机来拍”中的“相机”不是同一部。步骤107可以确定文章中指向同一部相机的实体词。按照如上所述的第一种应用场景,五星公司只想知道对五星牌照相机的评价,本发明中的文本处理方法可以帮助五星公司识别出文章中所有对其照相机的评价。按照如上所述的第二种应用场景,网络服务平台提供者可以帮助厂商在适当的位置插入嵌入式广告。详细的步骤将在下文中进行更加详细的描述。
在步骤109对指向同一关注对象的实体词生成处理策略。区分不同的应用场景和实际需求,生成处理策略的具体内容可能会有所不同。对于如上所述的第一种应用场景,对指向同一关注对象的实体词生成处理策略的步骤可以进一步提取指向同一关注对象的实体词所处的句子或短语。比如,如图3H所示,对于“我刚刚购买了一架五星照相机......我的新照相机比旧照相机好用多了,可以进行连续拍摄......”而言,可以提取“我的新照相机比旧照相机好用多了,可以进行连续拍摄”这个句子作为对该款五星照相机的具体评价,当然也可以提取“连续拍摄”这个短语作为对该款五星照相机的具体评价。本发明可以进一步对所提取的句子或短语进行情感分类。利用情感分析技术,本发明可以对提取出的评价进行分类,比如分成正面评价和负面评价,从而提供出更具有可读性的评价报告。
按照如上所述的第二种应用场景,所述对指向同一关注对象的实体词生成处理策略的步骤还可以进一步对指向同一关注对象的至少两个实体词生成修改建议。所述修改建议可以存储于另一个文件中,也可以在原文上以修订模式(track change)进行存储。
按照本发明的一种实施例,所述生成修改建议的步骤进一步包括:根据指向同一关注对象的至少两个实体词在所述文本中的出现位置生成修改建议。作为一种简单的实施方式可以在每次出现指向同一关注对象的实体词前加入广告品牌。但是为了避免由于嵌入式广告的加入而影响到文本原有的流利度,在本发明的一个实施例中,可以设置一些规则从而根据实体词在文本中的位置从而对某一实体词决定是否生成修改建议。这些规则可以包括下列各项之一项或多项:如果指向同一关注对象的多个实体词出现在同一句话中,则仅在第一个实体词出现的地方插入嵌入式广告;如果指向同一关注对象的多个实体词出现在同一段落中,则仅在第一个实体词出现的地方插入嵌入式广告;如果指向同一关注对象的多个实体词出现在同一文本中,每隔N个实体词插入一次嵌入式广告,N大于等于1。除此以外,还可以根据实际应用需要,制定任何其它规则。
按照本发明的一种实施例,所述生成修改建议的步骤进一步包括:根据对指向同一关注对象的至少两个实体词的情感分析结果生成修改建议。可以利用情感分析技术对指向同一关注对象的实体词所在的句子或者短语进行分析,如果该句子或短语表达的是对关注对象的负面评价,则不对该实体词产生修改建议或者建议不进行修改。如图3F所示,在文本中出现了对手机的负面评价“刚买的手机信号非常不好,总是听不清楚”,因此不对其提出修改建议或建议不进行修改。修改建议中的修改包括下列各项中的至少一项:用另一个词替换指向同一关注对象的至少两个实体词,如图3B中用“五星相机”代替“我也忍不住拿起相机来拍”和“我们家的相机效果很不错”中的“相机”;为指向同一关注对象的至少两个实体词插入相同图标,如图3C中在“我也忍不住拿起相机来拍”和“我们家的相机效果很不错”的“相机”前插入图标“FS”;对指向同一关注对象的至少两个实体词添加相同的链接,如图3D中对“我也忍不住拿起相机来拍”、“我们家的相机效果很不错”和“我家小女儿总是把相机抢过去拍那些小动物”的“相机”添加超级链接。当然本发明并不限于上述任何一种或多种修改方案,根据实际应用的需要,还可以设计出更多的修改方案。
按照本发明的一种实施例,还可以利用关联实体词插入隐式广告。所谓关联实体词是指与上文所述的指向同一关注对象的实体词存在关联关系的实体词。比如“在景区很多人都拿着相机纷纷拍照。我也忍不住拿起相机来拍,我们家的相机效果很不错,这些照片的效果非常好,我家小女儿总是把相机抢过去拍那些小动物”中的“照片”就是“相机”的关联实体词。对关联实体词进行修改的例子可以参见图3E“这些(我家五星相机拍的)照片的效果非常好”。为了对关联实体词进行上述修改,需要首先识别指向同一关注对象的至少两个实体词的关联实体词,然后对所述关联实体词进行处理。识别关联实体词既可以通过匹配给定的与关注对象存在关联关系的实体词列表(比如照片、胶卷等都属于相机的关联实体词)进行,也可以通过自然语言分析技术对文本进行分析而获得关联实体词。
图2示出了按照本发明的一个实施例的确定指向同一关注对象的实体词的流程图。步骤201和203主要是为了确定指向同一关注对象的同组实体词,步骤205和207主要是为了排除指向同一关注对象的同组实体词。因此步骤201、203与205、207可以是并行执行的两组步骤,也可以是先后执行的两组步骤,如果先后执行,既可以先执行步骤201、203再执行205、207,也可以先执行步骤205、207再执行步骤201、203。图2只是以一种执行顺序为例进行说明。
步骤201识别同一主体词分组对应的实体词,作为同组实体词。该步骤进一步包括:对所述文本的语法结构进行分析,从而识别从属于同一主体词分组下的每个主体词所对应的实体词。以图3A中的文本为例,步骤201识别主体词分组{“我”,“我们家”,“我家小女儿”}中所有主体词对应的实体词,比如“我也忍不住拿起相机来拍”中的“相机”,“我们家的相机效果很不错”中的“相机”和“我家小女儿总是把相机抢过去拍那些小动物”中的“相机”。
步骤203判断所述同组实体词是否指向同一关注对象,在上面的例子中,刚好三个位置的“相机”都是指向同一关注对象。但是在实际处理过程中,也可能存在同组实体词指向不同关注对象的情况,比如如果在图3A的例子中再增加一句“我家小女儿总是喜欢戴着遮阳帽”,那么很显然“遮阳帽”与“相机”指向的是不同的关注对象。
如果在前述提取实体词的步骤中(参见图1中的步骤103)仅提取与某一个关注对象(比如照相机)有关的实体词,则此处的步骤203也可以省略。
上文提到过,按照本发明的一个实施例,还可以利用自然语言处理技术中的别名技术(Alias)对至少一个关注对象进行名词扩展,因此判断所述同组实体词是否指向同一关注对象的步骤还可以进一步包括判断所述同组实体词是否与扩展后的所述至少一个关注对象匹配。
步骤209确定指向同一关注对象的同组实体词。在不执行205和207的情况下,也可以确定指向同一关注对象的同组实体词,但是实际效果中可能引入一些误判的现象。因此步骤205和207可以帮助使得所确定的指向同一关注对象的同组实体词能够更加准确。
在步骤205中从所述文本中提取比较连词。所述比较连词可以包括“比”、“相对于”、“比较”等。在步骤207中根据文本中的比较连词判断指向不同关注对象的实体词。如在文本“我刚托人从香港买了个相机,比我以前的那个相机好用多了”中出现了比较连词“比”,因此可以判断“我刚托人从香港买了个相机”中的“相机”与“比我以前的那个相机”中所指的“相机”指向不同的关注对象。对于上文所述的第二种应用场景,可以仅对第一个“相机”进行处理,插入嵌入式广告,如图3G所示“我刚托人从香港买了个五星相机,比我以前的那个相机好用多了”。对于如上文所述的第一种应用场景,则提取指向同一关注对象的实体所处的句子或短语作为对关注对象的评价,比如仅提取图3H中的文本中的“可以进行连续拍摄”作为对“我刚刚购买了一架五星照相机”中的“五星照相机”的评价。
图4示出了文本处理系统的总体框图。该文本处理系统401包括文本获取装置403,用于获取待处理的文本;词提取装置405,用于从所述文本中提取主体词和与所述主体词对应的实体词;主体词分组装置407,用于对所述主体词进行分组;实体词确定装置409,用于根据分组后的主体词确定指向同一关注对象的实体词;以及处理策略生成装置411,用于对指向同一关注对象的实体词生成处理策略。所述装置所执行的步骤与图1中的各个步骤对应,在此不再赘述。
所述实体词确定装置409进一步用于:识别同一主体词分组对应的实体词,作为同组实体词;判断所述同组实体词是否指向同一关注对象;以及确定指向同一关注对象的同组实体词。实体词确定装置409所执行的上述功能与图2中的相应步骤对应,在此也不再赘述。
所述实体词确定装置409还可以进一步用于:从所述文本中提取比较连词;以及根据文本中的比较连词判断指向不同关注对象的实体词。利用上述功能,可以从而进一步提高所确定的指向同一关注对象的实体词的准确度。
所述文本处理系统401还进一步包括扩展装置(图中未示出),用于对至少一个关注对象进行名词扩展,利用扩展装置可以进一步识别出指向同一关注对象,但是使用不同的名称实体词。
所述处理策略生成装置411进一步用于:对指向同一关注对象的至少两个实体词生成修改建议。该功能可以使本发明为上述第二种应用场景插入嵌入式广告。所述处理策略生成装置411还可以用于:提取指向同一关注对象的实体词所处的句子或短语。该功能可以使本发明为上述第一种应用场景收集特定产品的评论信息。
本发明的文本处理系统所执行的其它功能与上文中文本处理方法所执行的对应功能类似,在此不再赘述。
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括-但不限于-无线、电线、光缆、RF等等。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另外指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
Claims (20)
1.一种文本处理方法,包括:
获取待处理的文本;
从所述文本中提取主体词和与所述主体词对应的实体词,其中所述主体词为表示单个或者多个主体概念的词语,所述实体词为表示单个或者多个实体概念的词语;
对所述主体词进行分组,以形成主体词分组;
根据所述主体词分组确定指向同一关注对象的实体词;以及
对指向同一关注对象的实体词生成处理策略。
2.一种如权利要求1所述的方法,其中确定指向同一关注对象的实体词进一步包括:
识别同一主体词分组对应的实体词,作为同组实体词;以及
判断所述同组实体词是否指向同一关注对象。
3.一种如权利要求2所述的方法,其中所述识别同一主体词分组对应的实体词进一步包括:
识别从属于同一主体词分组下的每个主体词所对应的实体词。
4.一种如权利要求2所述的方法,进一步包括:
对关注对象进行名词扩展,
所述判断所述同组实体词是否指向同一关注对象的步骤进一步包括:
判断所述同组实体词是否与扩展后的所述关注对象匹配。
5.一种如权利要求1所述的方法,其中确定指向同一关注对象的实体词进一步包括:
从所述文本中提取比较连词;以及
根据文本中的比较连词判断指向不同关注对象的实体词。
6.一种如权利要求1-5中任意一个所述的方法,其中所述对指向同一关注对象的实体词生成处理策略进一步包括:
对指向同一关注对象的至少两个实体词生成修改建议。
7.一种如权利要求6所述的方法,其中所述对指向同一关注对象的至少两个实体词生成修改建议进一步包括:
根据指向同一关注对象的至少两个实体词在所述文本中的出现位置生成修改建议。
8.一种如权利要求6所述的方法,其中所述对指向同一关注对象的至少两个实体词生成修改建议进一步包括:
根据对指向同一关注对象的至少两个实体词的情感分析结果生成修改建议。
9.一种如权利要求6所述的方法,其中所述修改建议中的修改包括下列各项中的至少一项:
用另一个词替换指向同一关注对象的至少两个实体词;
对指向同一关注对象的至少两个实体词插入相同图标;
对指向同一关注对象的至少两个实体词添加相同的链接。
10.一种如权利要求6所述的方法,进一步包括:
接收关注对象列表,所述关注对象列表中包含至少一个关注对象。
11.一种如权利要求6所述的方法,进一步包括:
根据对所述文本的语法结构的分析,确定至少一个关注对象。
12.一种如权利要求6所述的方法,进一步包括:
识别指向同一关注对象的至少两个实体词的关联实体词;以及
对所述关联实体词进行处理。
13.一种如权利要求1-5中任意一个所述的方法,其中所述对指向同一关注对象的实体词生成处理策略进一步包括:
提取指向同一关注对象的实体词所处的句子或短语。
14.一种如权利要求13所述的方法,进一步包括:
对所提取的句子或短语进行情感分类。
15.一种文本处理系统,包括:
文本获取装置,用于获取待处理的文本;
词提取装置,用于从所述文本中提取主体词和与所述主体词对应的实体词,其中所述主体词为表示单个或者多个主体概念的词语,所述实体词为表示单个或者多个实体概念的词语;
主体词分组装置,用于对所述主体词进行分组,以形成主体词分组;
实体词确定装置,用于根据所述主体词分组确定指向同一关注对象的实体词;以及
处理策略生成装置,用于对指向同一关注对象的实体词生成处理策略。
16.一种如权利要求15所述的系统,其中所述实体词确定装置进一步用于:
识别同一主体词分组对应的实体词,作为同组实体词;
判断所述同组实体词是否指向同一关注对象;以及
确定指向同一关注对象的同组实体词。
17.一种如权利要求16所述的系统,进一步包括:
扩展装置,用于对关注对象进行名词扩展。
18.一种如权利要求15所述的系统,其中所述实体词确定装置进一步用于:
从所述文本中提取比较连词;以及
根据文本中的比较连词判断指向不同关注对象的实体词。
19.一种如权利要求15-18中任意一个所述的系统,其中所述处理策略生成装置进一步用于:
对指向同一关注对象的至少两个实体词生成修改建议。
20.一种如权利要求15-18中任意一个所述的系统,其中所述处理策略生成装置进一步用于:
提取指向同一关注对象的实体词所处的句子或短语。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010188623.8A CN102262632B (zh) | 2010-05-28 | 2010-05-28 | 进行文本处理的方法和系统 |
US13/116,091 US8862460B2 (en) | 2010-05-28 | 2011-05-26 | System, method, and program for processing text using object coreference technology |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010188623.8A CN102262632B (zh) | 2010-05-28 | 2010-05-28 | 进行文本处理的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102262632A CN102262632A (zh) | 2011-11-30 |
CN102262632B true CN102262632B (zh) | 2014-03-19 |
Family
ID=45009262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010188623.8A Active CN102262632B (zh) | 2010-05-28 | 2010-05-28 | 进行文本处理的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8862460B2 (zh) |
CN (1) | CN102262632B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8495484B2 (en) * | 2011-08-02 | 2013-07-23 | International Business Machines Corporation | Intelligent link population and recommendation |
JP5878399B2 (ja) * | 2012-03-12 | 2016-03-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ソーシャル・メデイアにおける悪評を検出する方法、コンピュータ・プログラム、コンピュータ。 |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
CN103207917B (zh) * | 2013-04-25 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 标注多媒体内容的方法、生成推荐内容的方法及系统 |
CN103853824B (zh) * | 2014-03-03 | 2017-05-24 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
WO2015175443A1 (en) * | 2014-05-12 | 2015-11-19 | Google Inc. | Automated reading comprehension |
EP3203383A4 (en) * | 2014-10-01 | 2018-06-20 | Hitachi, Ltd. | Text generation system |
US10180988B2 (en) | 2014-12-02 | 2019-01-15 | International Business Machines Corporation | Persona-based conversation |
US10102289B2 (en) | 2014-12-02 | 2018-10-16 | International Business Machines Corporation | Ingesting forum content |
US9626352B2 (en) | 2014-12-02 | 2017-04-18 | International Business Machines Corporation | Inter thread anaphora resolution |
US9811515B2 (en) | 2014-12-11 | 2017-11-07 | International Business Machines Corporation | Annotating posts in a forum thread with improved data |
US9626622B2 (en) | 2014-12-15 | 2017-04-18 | International Business Machines Corporation | Training a question/answer system using answer keys based on forum content |
CN104731773A (zh) * | 2015-04-17 | 2015-06-24 | 深圳证券信息有限公司 | 文本情感分析方法及系统 |
CN105740382A (zh) * | 2016-01-27 | 2016-07-06 | 中山大学 | 一种对短评论文本进行方面分类方法 |
CN107145947B (zh) * | 2017-04-26 | 2020-08-07 | 北京汉王数字科技有限公司 | 一种信息处理方法、装置及电子设备 |
US11188819B2 (en) | 2017-05-10 | 2021-11-30 | International Business Machines Corporation | Entity model establishment |
US11080615B2 (en) | 2017-06-15 | 2021-08-03 | International Business Machines Corporation | Generating chains of entity mentions |
CN107862046B (zh) * | 2017-11-07 | 2019-03-26 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
WO2019113977A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 文章处理方法、装置、服务器及存储介质 |
CN108228758B (zh) * | 2017-12-22 | 2020-09-01 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN108170673B (zh) * | 2017-12-26 | 2021-08-24 | 北京百度网讯科技有限公司 | 基于人工智能的信息格调识别方法和装置 |
CN112740200B (zh) | 2019-07-25 | 2024-05-03 | 百度时代网络技术(北京)有限公司 | 用于基于共指消解的端到端深度强化学习的系统和方法 |
US11861674B1 (en) | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
CN110880142B (zh) * | 2019-11-22 | 2024-01-19 | 深圳前海微众银行股份有限公司 | 一种风险实体获取方法及装置 |
US11194971B1 (en) | 2020-03-05 | 2021-12-07 | Alexander Dobranic | Vision-based text sentiment analysis and recommendation system |
US11573994B2 (en) | 2020-04-14 | 2023-02-07 | International Business Machines Corporation | Encoding entity representations for cross-document coreference |
CN111695033B (zh) * | 2020-04-29 | 2023-06-27 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN111832280B (zh) * | 2020-07-09 | 2023-06-30 | 北京奇艺世纪科技有限公司 | 剧本信息处理方法、装置、电子设备及存储介质 |
CN113923475B (zh) * | 2021-09-30 | 2023-04-14 | 宿迁硅基智能科技有限公司 | 一种视频合成方法及视频合成器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US6438543B1 (en) * | 1999-06-17 | 2002-08-20 | International Business Machines Corporation | System and method for cross-document coreference |
CN1940930A (zh) * | 2005-09-30 | 2007-04-04 | 国际商业机器公司 | 索引实体的方法和系统 |
CN1954321A (zh) * | 2004-03-31 | 2007-04-25 | Google公司 | 具有实体检测的查询改写 |
CN101702944A (zh) * | 2007-03-15 | 2010-05-05 | 发明机器公司 | 用于识别自然语言文件中的整体-部分关系的语义处理器 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US6076054A (en) | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
EP1276061A1 (en) * | 2001-07-09 | 2003-01-15 | Accenture | Computer based system and method of determining a satisfaction index of a text |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US7698561B2 (en) | 2004-08-12 | 2010-04-13 | Cisco Technology, Inc. | Method and system for detection of aliases in a network |
WO2007113858A2 (en) | 2006-04-04 | 2007-10-11 | Bhavin Turakhia | Method and apparatus for inserting and removing advertisements |
US20080201361A1 (en) | 2007-02-16 | 2008-08-21 | Alexander Castro | Targeted insertion of an audio - video advertising into a multimedia object |
US9367639B2 (en) * | 2007-08-09 | 2016-06-14 | Yahoo! Inc. | Systems and methods for dynamic page creation |
US8712758B2 (en) * | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
US20090083140A1 (en) | 2007-09-25 | 2009-03-26 | Yahoo! Inc. | Non-intrusive, context-sensitive integration of advertisements within network-delivered media content |
-
2010
- 2010-05-28 CN CN201010188623.8A patent/CN102262632B/zh active Active
-
2011
- 2011-05-26 US US13/116,091 patent/US8862460B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US6438543B1 (en) * | 1999-06-17 | 2002-08-20 | International Business Machines Corporation | System and method for cross-document coreference |
CN1954321A (zh) * | 2004-03-31 | 2007-04-25 | Google公司 | 具有实体检测的查询改写 |
CN1940930A (zh) * | 2005-09-30 | 2007-04-04 | 国际商业机器公司 | 索引实体的方法和系统 |
CN101702944A (zh) * | 2007-03-15 | 2010-05-05 | 发明机器公司 | 用于识别自然语言文件中的整体-部分关系的语义处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN102262632A (zh) | 2011-11-30 |
US20110295594A1 (en) | 2011-12-01 |
US8862460B2 (en) | 2014-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102262632B (zh) | 进行文本处理的方法和系统 | |
Raharjana et al. | User stories and natural language processing: A systematic literature review | |
Celikyilmaz et al. | Evaluation of text generation: A survey | |
Yimam et al. | Exploring amharic sentiment analysis from social media texts: Building annotation tools and classification models | |
Nazar et al. | Summarizing software artifacts: A literature review | |
Barrón-Cedeño et al. | Plagiarism meets paraphrasing: Insights for the next generation in automatic plagiarism detection | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
Casillas et al. | A step-by-step guide to collecting and analyzing long-format speech environment (LFSE) recordings | |
CN104462056B (zh) | 用于呈现基于知识的信息的方法和信息操纵系统 | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
Tizard et al. | Can a conversation paint a picture? mining requirements in software forums | |
WO2017066046A1 (en) | Authoring visual representations for text-based documents | |
US20170060826A1 (en) | Automatic Sentence And Clause Level Topic Extraction And Text Summarization | |
Kamalrudin et al. | Tool support for essential use cases to better capture software requirements | |
Chen et al. | Towards complete icon labeling in mobile applications | |
JP6776310B2 (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
Meuschke et al. | CitePlag: A citation-based plagiarism detection system prototype | |
CN110275963A (zh) | 用于输出信息的方法和装置 | |
Murray et al. | Interpretation and transformation for abstracting conversations | |
Aneja et al. | MMSys' 21 grand challenge on detecting cheapfakes | |
CN111488742A (zh) | 用于翻译的方法和装置 | |
Cozzolino | Using semantic tools to represent data extracted from mobile devices | |
US9262735B2 (en) | Identifying and amalgamating conditional actions in business processes | |
Hochgesang et al. | Building the ASL signbank. Lemmatization principles for ASL | |
JP2022187507A (ja) | 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |