CN103514165A - 用于识别对话中所提及的人的方法和装置 - Google Patents
用于识别对话中所提及的人的方法和装置 Download PDFInfo
- Publication number
- CN103514165A CN103514165A CN201210201517.8A CN201210201517A CN103514165A CN 103514165 A CN103514165 A CN 103514165A CN 201210201517 A CN201210201517 A CN 201210201517A CN 103514165 A CN103514165 A CN 103514165A
- Authority
- CN
- China
- Prior art keywords
- feature
- name
- people
- gap
- candidate identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明涉及一种用于识别对话中所提及的人的方法和装置。一种用于识别对话中所提及的人的方法,包括:识别与从所述对话获取的所提及的人名相关的至少一个人名实体;获取与所提及的人名相关的一组候选标识符;从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。根据本发明的方法和装置,能够准确地识别所提及的人。
Description
技术领域
本发明涉及用于识别对话中所提及的人的方法和装置,更具体地说,涉及能够在自然语言处理中准确识别所提及的人的人名实体的方法和装置。
背景技术
随着计算机技术的发展,存在自动识别对话中人的姓名的需要。通常,一个对话中的各个人名可以分成所提及的人名(Mentioned PersonName,MPN)和未提及的人名(Non-Mentioned Person Name,NMPN)。本文中,所提及的人名是指在对话的交谈期间被提及的人的姓名,而未提及的人名是指在对话的上下文中、但是没有在交谈期间提及的人的姓名。为了使这些术语更清楚,图1示出了会议记录的一个示例。该会议记录是对话的一个例子。如图1所示,会议记录中包含两个出席者,一个是IT部门经理David Hill,另一个是本地化部门经理Alex Bell。此外,在Hill发言期间,提到了第三个人的姓名,即Lee。在这个例子中,在对话前面的姓名“Bell”和“Hill”被称作未提及的人名(NMPN),因为他们都没有出现在对话中。姓名“Lee”被称作所提及的人名(MPN),因为Hill在发言中提到了该名字。
如图1的例子所示,通常很容易识别出NMPN的身份。以“Hill”为例,可以很容易识别出位于对话之前的术语“Hill”。由于“Hill”已经被列为出席者,从而可以搜索出席者的名单以寻找匹配,所以可以很容易识别出“Hill”是IT部门经理“David Hill”。此外,能够从以上信息中确定“David Hill”的唯一的标识符。这里的标识符可以是例如,分配给公司的每个雇员的唯一的ID。另一方面,很难识别“Lee”的身份,因为“Lee”仅仅由Hill提及并且可能并没有被列为出席者,所以可能有许多人的名字都叫“Lee”。
过去,已经有用于识别人名的技术。例如,在美国专利(US7,685,201B2)中描述了使用基于姓名实体提取的分类的用于人物消歧的技术,该技术使得能够清楚区分具有相同姓名的不同人。姓名实体提取定位搜索结果中的人名的一定距离内的词(条目)。这些条目用于对对应于具有相同姓名的不同人的搜索结果消歧,例如,位置信息、组织信息、职业信息和/或合伙人信息等。在一个示例中,每个人被表示成一个向量,并且基于与一个人的条目的接近程度和/或条目的类型对应的权重来计算各个向量之间的相似度。然后,基于相似度的数据,把表示同一个人的人物向量合并到一个类中,使得各个类(以较高的概率)只表示不同的人。
此外,美国专利申请公开US2007/0233656A1描述了一种命名实体消歧的方法,其中使用消歧分数模型来在搜索结果和其它上下文中对命名实体消歧。通过使用文献的知识库(包括关于命名实体的文献)来开发该分数模型。知识库的各个方面,例如文献题目、重定向页面、消歧页面、超链接以及类别等,都可以用来开发该分数模型。
但是,上面介绍的现有技术不能足够准确地识别被提及的人(即所提及的人)。在许多情况下,不能唯一地识别所提及的人。在应用上述各个方法之后仍然有多个识别符(每个识别符对应一个唯一的人)。
发明内容
本发明的目的之一是解决上述问题中的至少一个。
根据本发明的一个实施例,提供了一种用于识别对话中所提及的人的方法,包括:识别与从所述对话获取的所提及的人名相关的至少一个人名实体;获取与所提及的人名相关的一组候选标识符;从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。其中所述关系特征优选包括以下至少一种:等级差距特征,表示两个人的等级之间的差距;熟悉度特征,表示两个人之间的熟悉程度;历史称呼特征,表示在两个人间已经使用过的称呼;以及上下文关系特征,表示对话中两个人的关系。
其中所述等级差距特征包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;以及年龄差距特征,表示两个人的年龄之间的差距。所述熟悉度特征包括以下至少一种:相同工作组特征,表示两个人是否在同一工作组中;相同专业特征,表示两个人是否为同一专业;新雇员特征,表示一个人是否为新雇员;讨论频率特征,表示两个人之间进行讨论的频率;以及工位距离特征,表示两个人的工位之间的距离。所述上下文关系特征包括以下至少一种:相同会议组特征,表示两个人是否属于同一会议组;共同参会特征,表示两个人是否都参加了会议;座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级别,一个级别是主座,另一个级别是副座;以及座位距离特征,表示两个人的座位之间的距离。
根据本发明的另一个实施例,提供了一种用于管理会议记录的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;相同工作组特征,表示两个人是否在同一工作组中;以及历史称呼特征,表示在两个人间已经使用过的称呼。
根据本发明的又一个实施例,提供了一种用于管理会议的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及在屏幕上显示与所选择的标识符相关的信息。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;相同工作组特征,表示两个人是否在同一工作组中;历史称呼特征,表示在两个人间已经使用过的称呼;座位级别差距特征,表示两个人的座位级别的差距;以及座位距离特征,表示两个人的座位之间的距离。
根据本发明的又一个实施例,提供了一种用于辅助即时消息的方法,包括:利用上述用于识别对话中所提及的人的方法来识别所提及的人;以及把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处。所述关系特征优选包括以下至少一种:头衔差距特征,表示两个人的头衔之间的差距;年龄差距特征,表示两个人的年龄之间的差距;姓名类别特征,表示两个人是否彼此熟悉;讨论频率特征,表示两个人之间进行讨论的频率;以及历史称呼特征,表示在两个人间已经使用过的称呼。
根据本发明的又一个实施例,提供了一种用于识别对话中所提及的人的装置,包括:用于识别与从所述对话获取的所提及的人名相关的至少一个人名实体的单元;用于获取与所提及的人名相关的一组候选标识符的单元;用于从内部资源和外部资源为每个候选标识符获取至少一个关系特征的单元,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及用于基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
根据本发明的又一个实施例,提供了一种用于管理会议记录的装置,包括:用于利用上述用于识别对话中所提及的人的装置来识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元。
根据本发明的又一个实施例,提供了一种用于管理会议的装置,包括:用于利用上述用于识别对话中所提及的人的装置来识别所提及的人的单元;以及用于在屏幕上显示与所选择的标识符相关的信息的单元。
根据本发明的又一个实施例,提供了一种用于辅助即时消息的装置,包括:用于利用上述用于识别对话中所提及的人的装置识别所提及的人的单元;以及用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元。
根据本发明的方法和装置,能够准确地识别所提及的人名。在本发明的一些实施例中,所提及的人名的标识符还可以进一步被嵌入到对话或即时消息中。因此,人们能够迅速知道所提及的人名指的是谁。
参照附图,结合下面的描述,本发明的进一步的特征和优点将变得清晰。
附图说明
图1示出了会议记录的一个示例。
图2是用于解释根据本发明的一个实施例的用于识别对话中所提及的人的方法的流程图。
图3例示了用于解释根据本发明的一个实施例的用于生成数据库的方法的流程图。
图4是用于例示从一组候选标识符中选择标识符的步骤的流程图。
图5是输入对话的例子。
图6是组织图的例子。
图7例示了根据本发明的第二实施例的用于管理会议记录的装置的结构。
图8示出了根据本发明的第二实施例的用于管理会议记录的装置的处理过程的流程图。
图9例示了根据本发明的第二实施例的集成结果。
图10例示了根据本发明的第三实施例的用于管理会议的装置的结构。
图11示出了根据本发明的第三实施例的用于管理会议的装置的处理过程的流程图。
图12例示了根据本发明的第三实施例的集成结果。
图13例示了根据本发明的第四实施例的用于辅助即时消息的装置的结构。
图14示出了根据本发明的第四实施例的用于辅助即时消息的装置的处理过程的流程图。
图15例示了根据本发明的第四实施例的集成结果。
图16例示了根据本发明的一个实施例的用于识别所提及的人的装置的结构。
图17是示出能够实现本发明的各个实施例的计算机系统的硬件结构的框图。
具体实施方式
下面,将参照附图详细描述本发明的各个优选实施例。请注意,在本说明书和附图中,具有基本相同功能和结构的结构部件用相同的参考标记来标注,省略这些结构部件的重复解释。
图2是用于解释根据本发明的一个实施例的用于识别对话中所提及的人的方法的流程图。
如图2所示,用于识别对话中所提及的人的方法至少包括以下四个步骤:
(a)识别与从对话获取的、所提及的人名相关的至少一个人名实体(步骤S211);
(b)获取与所提及的人名相关的一组候选标识符(步骤S212);
(c)从内部资源和外部资源获取每个候选标识符的至少一个关系特征(步骤S213),其中关系特征是指候选标识符和至少一个人名实体之间的关系;以及
(d)基于至少一个关系特征来从这组候选标识符中选择一个标识符作为所提及的人名的标识符。
下面,将参照附图详细解释用于识别对话中所提及的人的方法的上述各个步骤。
(a)首先,识别与从对话获取的所提及人名相关的至少一个人名实体。
人名实体可以是,例如,在对话中提到了该所提及的人名的发言者,和/或是正在聆听该发言者的一个或更多个听众。在一个优选例子中,人名实体可以包括一个发言者和至少一个听众。
在如图1所示的会议记录中,人名实体可以是“David Hill”或者是“Alex Bell”或者是这二者。在有多名听众的情况下,人名实体优选包括发言者以及已经紧挨着该发言者之前发过言的听众或者将要紧接着该发言者发言的听众。这种配置的原因在于已经紧挨着该发言者之前发过言的听众或者将要紧接着该发言者发言的听众最有可能与所提及的人名有一定关系,并且这种关系有助于最终识别所提及的人名。
对话可以存储在存储设备中并且可以读出和分析该对话以获取所提及的人名(例如,在对话是会议记录的情况下)。对话也可以被实时地生成和分析(例如,在对话是即时消息或者对话由智能会议系统实时生成的情况下)。从对话中获取所提及的人名的技术对于本领域技术人员是熟知的,因此本说明书为了简洁起见就不再描述。
(b)其次,获取与所提及的人名相关的一组候选标识符。
例如,可以通过在至少包含识别符和对应的人名的数据库中基于所提及的人名搜索候选标识符,来获取候选标识符。其中数据库中的人名包括全名和各种别名,别名可以包括以下至少一种:昵称(nickname)、姓氏(surname)、赋名(given name)、中名(middlename)、以及头衔(title)与昵称、姓氏、赋名和中名中的至少一个的组合。图3例示了用于解释用于生成这种数据库的方法的流程图(S300)。
如图3所示,从原始数据库中获得一个人的标识符(例如ID)(步骤S311)。例如,原始数据库可以是包括职员ID(作为标识符)和对应的全名的职员管理数据库。然后,从原始数据库还获得与该标识符对应的全名(步骤S312)。接下来,基于预定义的规则产生该全名的各个别名(步骤S313)。应当理解,可以基于实际应用的需要来手动定义这些规则。此外,这些规则是与语言相关的,即对于不同的语言可以定义不同的规则。表1示出了对于日语的这种规则的一个例子。如表1所示,在语言是日语的情况下,基于表1中所列的各个规则来生成一个全名的各个别名。在日语中,一个人通常具有姓氏和赋名。可以添加例如“san”、“kun”和“chan”这样的后缀。此外,可以添加表示人们的受教育程度或头衔的前缀。在日语中,可以在没有前缀或后缀的情况下直接提到赋名。因此,赋名也被定义为一种别名。
表1别名规则的例子
接下来,在一个新数据库中保存所生成的各个别名供以后使用(步骤S314)。最后,确定是否为最后一个标识符,即确定是否已经针对原始数据库中的所有标识符都生成了别名。如果是的话,则该处理结束并且生成了新数据库。如果否的话,则该处理返回到步骤S311,从原始数据库获得一个新的标识符。
(c)接下来,从内部资源和外部资源获取针对各个候选标识符的每一个的至少一个关系特征。
在本发明中,关系特征是指候选标识符与所识别的人名实体之间的关系。内部资源可以包括以下至少一种:出席者名单、一个或多个会议视频以及一个或多个会议照片。外部资源可以包括文本资源和图像资源中的至少一种。文本资源的例子为组织图、电子邮件历史记录、电子邮件联系人、简历以及公共文档。图像资源的一个例子为示出各个雇员的办公桌位置的工位图。
关系特征可以包括下列关系中的至少一种:等级差距特征、熟悉度特征、历史称呼特征和上下文关系特征。其中,例如,可以从外部资源提取熟悉度特征和历史称呼特征,可以从外部资源和/或内部资源提取等级差距特征,可以从内部资源提取上下文关系特征。
等级差距特征表示两个人的等级之间的差距,其中这种差距越大,较低等级的人就越有可能使用尊称(honorary-like title)来称呼较高等级的人。
等级差距特征可以包括下列特征中的至少一种:头衔差距特征和年龄差距特征。
头衔差距特征表示两个人的头衔之间的差距。例如,当一个普通职员在对话中发言时,当提及同样为普通职员的同事时,他可以使用后缀“kun”,而当提及高级经理或更高头衔的人时,他可以使用后缀“san”。在另一个例子中,如果该普通职员提及,例如具有高得多的头衔的人(比如公司的CEO),则可以使用后缀“sama”。因此,头衔差距特征有助于确定所提及的人名的标识符。
在本实施例的一个例子中,可以通过以下方式获得头衔差距特征:从例如组织图中提取候选标识符的头衔信息和至少一个人名实体的头衔信息;然后基于这些头衔信息来计算候选标识符和至少一个人名实体之间的头衔差。
年龄差距特征表示两个人的年龄的差距。在许多国家,年长的人有可能使用昵称或仅使用赋名来称呼年青的人。在本实施例的一个例子中,可以通过以下方式获得年龄差距特征:从例如候选标识符和至少一个人名实体各自简历的年龄栏中提取候选标识符的年龄值和人名实体的年龄值;然后基于这些年龄值计算候选标识符与至少一个人名实体的年龄差。
熟悉度特征表示两个人之间的熟悉程度。通常,两个人越熟悉,他们就越有可能使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,熟悉度特征可以包括下列特征中的至少一个:相同工作组特征、相同专业特征、新雇员特征、讨论频率特征以及工位距离特征。
相同工作组特征表示两个人是否在同一个工作组中。如果两个人在同一个工作组中,则他们很有可能彼此熟识,从而可能使用类似昵称的头衔。在本实施例的一个例子中,可以通过以下方式获得相同工作组特征:从例如组织图中提取候选标识符的工作组名称和至少一个人名实体的工作组名称;然后,基于工作组名称的比较结果来计算相同工作组特征。
相同专业特征表示两个人是否为相同专业。如果两个人的专业相同,则他们很有可能彼此熟识,因而可能使用类似昵称的头衔。在本实施例的一个例子中,可以通过以下方式获得相同专业特征:从例如组织图中提取候选标识符的专业以及至少一个人名实体的专业,然后基于这些专业的比较结果来计算相同专业特征。
新雇员特征表示一个人是否是新雇员。如果一个人是新雇员,则他有可能还不熟悉其它雇员。当新雇员或其它雇员提及彼此的时候,他们可能都不会使用类似昵称的头衔。在本实施例的一个例子中,通过以下方式获得新雇员特征:根据组织图的变化来计算候选标识符的加入时间段(即该候选标识符加入组织图中已经有多长时间);然后基于该加入时间段与预定的阈值(第一阈值)之间的比较结果来计算新雇员特征。该第一阈值可以是例如3个月、6个月或者更长时间。
讨论频率特征反映了两个人之间进行讨论的频率。如果两个人经常一起进行讨论,则他们可能彼此已经想当熟悉。从而可以使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,可以通过以下方式获得讨论频率特征:根据例如电子邮件历史记录来计数候选标识符和至少一个人名实体之间的通信频率;然后基于该通信频率与预定的阈值(第二阈值)之间的比较结果来计算讨论频率特征。例如,第二阈值可以被定义为5次,这意味着如果两个人已经彼此通信达到5次或更多,从而他们也许已经熟悉到使用类似昵称的头衔的程度。
工位距离特征表示两个人的工位之间的距离。如果两个人的工作位置比较接近,则他们在工作日有可能彼此经常看到或遇到,从而可能熟悉彼此。因此,他们可能使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,通过以下方式来获得工位距离特征:根据例如工位图来获得候选标识符的工作位置与至少一个人名实体的工作位置;然后基于这些工作位置来计算工位距离特征。其中,工位图示出了雇员的工作位置(例如办公桌的位置)。
此外,历史称呼特征表示两个人之间曾经使用过的称呼。在本实施例的一个例子中,通过以下方式获得历史称呼特征:从电子邮件历史记录中提取候选标识符和至少一个人名实体之间的历史上的称呼。
此外,上下文关系特征表示两个人在对话中的关系。在本实施例的一个例子中,当识别所提及的人名时考虑对话的上下文。当在会议期间进行对话的情况下,上下文关系特征可以包含以下至少一种:相同会议组特征、共同参会特征、座位级别差距特征和座位距离特征。
相同会议组特征表示两个人是否属于同一个会议组。如果两个人属于同一个会议组,则他们可能使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,通过以下方式获得相同会议组特征:从例如出席者名单中提取候选标识符的会议组名称和至少一个人名实体的会议组名称;然后基于这些会议组名称的比较结果来计算相同会议组特征。如果会议组名称相同,则候选标识符和人名实体位于同一个会议组中。
共同参会特征表示两个人是否都参加了一个会议。如果两个人都参加了一个会议,则他们可能在会议的交谈中使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,可以通过以下方式获得共同参会特征:将候选标识符的姓名与出席者名单进行比较;然后基于该比较结果来计算共同参会特征。如果候选标识符的姓名位于出席者名单中,则所提及的人和发言者都参加了会议。因为显然无论会议上发言的发言者的名称是否在出席者名单中,他必定已经参加了会议,所以不必在出席者名单中搜索发言者的姓名。
座位级别差距特征表示两个人的座位的级别之间的差距。在许多会议中,座位被分成两个或更多个级别。在两种级别的情况中,一种级别是主座,另一种是副座。主座通常是为具有最高头衔或等级的人准备的,而副座通常是为其他人准备的。例如,如果会议桌是矩形的,则可能只有一个主座和多个副座。在这种情况中,主座可以设置在桌子的两个短边之一,而副座可以沿着桌子的两条长边布置。在本实施例的一个例子中,可以通过以下方式获得座位级别差距特征:从例如会议视频或会议照片中提取候选标识符的座位级别和至少一个人名实体的座位级别;然后基于所提取的座位级别来计算座位级别差距特征。
座位距离特征表示两个人之间的座位的距离。如果两个人坐的比较靠近,则他们可能使用类似昵称的头衔来称呼彼此。在本实施例的一个例子中,可以通过以下方式获得座位距离特征:从例如会议视频或会议照片中提取候选标识符的座位位置和至少一个人名实体的座位位置;然后基于所提取的座位位置来计算座位距离特征。
上面简要介绍了本发明的关系特征。但是,本领域技术人员应当理解,关系特征不限于上述这些具体特征。实际上,反映两个人之间关系的任何特征都可以用作关系特征。
(d)基于至少一个关系特征从这组候选标识符中选择一个标识符作为所提及的人名的标识符(步骤S214)。
图4是用于例示从一组候选标识符中选择一个标识符的步骤的流程图。如图4所示,计算每个关系特征的分数(步骤S411),并且给每个关系特征分配权重(步骤S412)。这样,每个关系特征都与分数和权重相关联。然后,基于关系特征的分数和权重来计算每个候选标识符的置信度(步骤S413)。最后,基于各个置信度选择候选标识符之一作为所提及的人名的标识符(步骤S414)。注意,可以基于实际应用来确定选择规则。在本实施例的一个例子中,具有最高置信度的候选标识符被选作所提及的人名的标识符。而在本实施例的另一个例子中,具有最低置信度的候选标识符被选作所提及的人名的标识符。此外,置信度是本领域技术人员常用的术语,可以通过各种方式来计算置信度,例如,在一个例子中,可以通过各个关系特征的分数的加权和来表示置信度。
可以手动或自动分配关系特征的权重。例如,在一个实施例中,根据对话的场景来分配权重,其中该对话的场景可以从对话的上下文特征中提取。上下文特征可以是例如对话的标题、对话的主题、对话的语言风格、出席者的衣着风格或有助于确定对话场景的任何其它特征。在本发明的一个实施例中,定义了两种场景,一种是“办公室”,另一种是“家庭”。
根据上下文特征,如果对话的标题包括词语“会议”或“讨论”等,则该场景可能是“办公室”。因此,场景被确定为“办公室”。否则,场景被确定为“家庭”。
如果对话的主题涉及“产品”或“销售”等,则该场景可能是“办公室”。因此,场景被确定为“办公室”。否则,场景被确定为“家庭”。
如果对话的语言风格相当正式,则该场景可以被确定为“办公室”。否则,场景被确定为“家庭”。
如果出席者的衣着风格比较正式,例如会议视频或照片中的人衣着很正式,则该场景可以被确定为“办公室”。否则,场景被确定为“家庭”。
如上面参照图2-图4所述,本发明在MPN识别处理期间还考虑到关系特征,以改善MPN识别的准确性。下面将结合图5给出更具体的实施例和解释。
在分析图5的实施例之前,各个关系特征的定义如下:
1.头衔差距特征被定义为
Rf1=TI(arg1)-TI(arg2),
其中arg1和arg2各自表示一个标识符,TI(x)是从例如组织图获取x的头衔的函数。本领域技术人员应当理解,这里的“x”只是宽泛地表示自变量,例如,“x”可以为arg1或arg2,或者是任何其它适当的标识符。下面的各个关系特征中也使用到自变量“x”,这些“x”也应当做类似的理解。
2.年龄差距特征被定义为
Rf2=AG(arg1)-AG(arg2),
其中AG(x)是从例如x的简历的年龄栏中获取x的年龄的函数。
3.相同工作组特征被定义为
其中GP(x)是从例如组织图获取x的工作组名称的函数。
4.相同专业特征被定义为
其中函数MJ(x)是从例如组织图获取x的专业的函数。
5.新雇员特征被定义为
其中NE(x)是从例如组织图获取x的加入时间段的函数,TH1是预定的阈值(第一阈值)。
6.讨论频率特征被定义为
其中DF(arg1&arg2)是从例如电子邮件历史记录中获取arg1和arg2之间的讨论的频率的函数,TH2是预定的阈值(第二阈值)。
7.工位距离特征被定义为
Rf7=PS(arg1)-PS(arg2)
其中PS(x)是从例如工位图获取x的工作位置的函数。
8.历史称呼特征被定义为
Rf8=Appe,如果AP(arg1&arg2)=Appe
其中AP(arg1&arg2)是根据例如电子邮件历史记录来确定arg1和arg2之间是否存在称呼的函数。Appe表示所确定的称呼。
9.相同会议组特征被定义为
其中MGP(x)是从例如出席者名单获取x的会议组名称的函数。
10.共同参会特征被定义为
其中CJ(x)是获取x和出席者名单的比较结果的函数。如果x在出席者名单中,则CJ(x)的值为真(true)。否则CJ(x)的值为假(false)。
11.座位级别差距特征被定义为
Rf11=S C(arg1)-SC(arg2)
其中SC(x)是从例如会议视频或会议照片中获取x的座位级别的函数。
12.座位距离特征被定义为
Rf12=PS(arg1)-PS(arg2)
其中PS(x)是从例如会议视频或会议照片中获取x的座位位置的函数。
上面描述了各个关系特征的定义的示例。但是,应当理解,定义并不限于上面这些。本领域技术人员在本发明的教导和启示下能够采用其它各种定义。
(第一实施例)
图5示出了一段输入的对话。可以看到,发言者Adam提到了名字“Lee-san”。
首先,认识到人名“Lee-san”被提及,然后根据对话识别与该被提及的人名相关的人名实体:
发言者:Adam
听众(下一个发言者):George。
接下来,通过在别名数据库中搜索所提及的人名来获取一组候选标识符。别名数据库的一部分如表2所示。
表2:别名数据库
根据上面表2所示的别名数据库,可以找到两个候选标识符:
候选标识符:David Lee(ID 001,所提及的人名的标识符)
候选标识符:Alex Lee(ID 002)
接下来,针对每个候选标识符提取关系特征。在该实施例中,关系特征为头衔差距特征和共同参会特征。
头衔差距特征由下列子特征构成:
Rf1-1:发言者和候选标识符之间的头衔差距的特征
Rf1-2:听众和候选标识符之间的头衔差距的特征
Rf1-3:发言者和听众之间的头衔差距的特征
图6示出了组织图的一个例子。根据该组织图,能够获得下列头衔信息,并且可以基于这些头衔信息来获得头衔差距特征。
头衔信息:
David Lee的头衔是项目经理;
Alex Lee的头衔是总经理;
Adam的头衔是项目经理;
George的头衔是项目经理。
David Lee的候选标识符(ID001)的关系特征为:
Rf1-1(Adam,David.Lee)=0
Rf1-2(George,David.Lee)=0
Rf1-3(Adam,George)=0
Rf10(David.Lee)=1
Alex Lee的候选标识符(ID 002)的关系特征为:
Rf1-1(Adam,Alex.Lee)=2
Rf1-2(George,Alex.Lee)=2
Rf1-3(Adam,George)=0
Rf10(Alex.Lee)=0
这里,假设Alex Lee没有参加会议,而David Lee参加了会议。因此,上述关系特征中,共同参会特征Rf10(David.Lee)=1,Rf10(Alex.Lee)=0。
根据标题“关于产品的会议”可以确定对话的场景。显然,该对话最有可能是在办公室中进行的。因此,该对话的场景可以被确定为“办公室”。
基于场景“办公室”,可以对每个关系特征分配权重。表3给出了一种示例性分配方式。
表3
场景 | 头衔差距特征(Rf1) | 共同参会特征(Rf10) |
办公室 | 0.5 | 1 |
如表3所示,分配给头衔差距特征的权重为0.5,分配给共同参会特征的权重为1。
表4示出了对候选标识符进行分类的规则。表4中给出的规则只是一种示例,本领域技术人员可以使用其它规则或者除了本文描述的基于规则的分类之外的任何分类模型。
表4
关系特征 | 场景(办公室) |
Rf1-1<2 | 姓氏+san |
Rf1-1≥2 | 姓氏+sama |
Rf1-2<2 | 姓氏+san |
Rf1-2≥2 | 姓氏+sama |
Rf1-3<2 | 姓氏+san |
Rf1-3≥2 | 姓氏+sama |
Rf10=1 | 姓氏+san |
Rf10=0 | 赋名 |
因为所提及的人名“Lee-san”符合规则“姓氏+san”,所以David Lee的各个关系特征的分数如下面的表5所示:
表5
关系特征 | 分类结果 | 分数 |
Rf1-1=0 | 姓氏+san | 1 |
Rf1-2=0 | 姓氏+san | 1 |
Rf1-3=0 | 姓氏+san | 1 |
Rf10=1 | 姓氏+san | 1 |
因此,根据各个关系特征的分数和相应的权重,可以计算出置信度:
David Lee的置信度:3×0.5+1×1=2.5
下面的表6给出了Alex Lee的各个关系特征的分数。
表6
关系特征 | 分类结果 | 分数 |
Rf1-1=2 | 姓氏+sama | 0 |
Rf1-2=2 | 姓氏+sama | 0 |
Rf1-3=0 | 姓氏+san | 1 |
Rf10=0 | 赋名 | 0 |
因此,根据各个关系特征的分数和相应的权重,可以计算出置信度:
Alex Lee的置信度:1×0.5+0×1=0.5
根据置信度,选择较大的置信度作为所提及的人名“Lee-san”的标识符。因此,“Lee-san”被识别为是指ID为001的“David Lee”。
在上述实施例中,根据原始数据库生成别名数据库。如表7所示,原始数据库仅包含标识符、相应的全名和部门。
表7
标识符 | 全名 | 部门 |
ID 001 | David Lee | D1 |
ID 002 | Alex Lee | D2 |
根据原始数据库中的全名,可以基于预定义的规则为每个全名生成各种别名。表8中示出了这些预定义规则的一个例子。
表8
如表8所示,当语言是日语的情况下,可以对姓氏/赋名添加各种前缀和后缀。对于David Lee,别名可以是Lee-san、Lee-sama、David、David kun、David chan等。对于Alex Lee,别名可以是Lee-san、Lee-sama、Alex、Alex kun、Alex chan等。
图16例示了用于根据上述方法识别对话中所提及的人的装置的结构。
具体地说,图16中的装置包括识别单元1610、候选获取单元1620、关系特征获取单元1630以及选择单元1640。
识别单元1610接收所输入的对话,从对话中识别所提及的人名,然后从所输入的对话中识别与所提及的人名相关的至少一个人名实体。如上所述,可以基于本领域技术人员熟知的现有技术来从对话中获取所提及的人名。然后,所识别的人名实体被发送给候选获取单元1620。在另一个实施例中,识别单元1610不识别所提及的人名。可以由其它单元或设备来识别所提及的人名并且将所提及的人名与对话一起输入到识别单元1610。
候选获取单元1620接收来自识别单元1610的人名实体,并且通过例如基于所提及的人名在上述数据库中搜索候选标识符,来获取与所提及的人名相关的一组候选标识符。然后把这组候选标识符发送到关系特征获取单元1630和选择单元1640。
关系特征获取单元1630接收来自候选获取单元1620的这组候选标识符,从内部资源和外部资源获取各个候选标识符的至少一个关系特征。然后所获取的一个或多个关系特征被发送给选择单元1640。
选择单元1640接收来自候选获取单元1620的一组候选标识符以及来自关系特征获取单元1630的一个或多个关系特征,然后基于这些关系特征从这组候选标识符中选择一个标识符作为所提及的人名的标识符。
(第二实施例)
上述用于识别对话中所提及的人的方法或装置可以应用到用于管理会议记录的装置。
图7例示了根据本发明第二实施例的用于管理会议记录的装置的结构。
如图7所示,用于管理会议记录的装置包括接收单元711、预处理单元712、处理器713以及集成单元714。
接收单元711接收来自外部的会议记录并且把会议记录发送给预处理单元712。
预处理单元712将对会议记录进行预处理,例如对会议记录进行分词,词性标注和句法分析。这种预处理在自然语言的预处理期间已经被广泛使用并且是本领域技术人员所熟知的。因此,为了简洁起见就不再详细描述预处理。
处理器713在由预处理单元712输出的文本中检测所提及的人名,基于上述方法或装置识别所提及的人名,以及获取所提及的人名的标识符。在识别所提及的人名的处理期间,优选使用下列关系特征:头衔差距特征、相同工作组特征、历史称呼特征。
集成单元714接收标识符并且以文本形式将其嵌入到所提及的人名中。
图8中示出了用于管理会议记录的装置的处理过程。该处理包括以下步骤:
在步骤S811,由接收单元711接收会议记录;
在步骤S812,预处理单元712对来自接收单元711的会议记录进行预处理,从而获得会议记录的分词,词性标注和句法分析等信息;
在步骤S813,处理器713在由预处理单元712输出的文本中检测所提及的人名,基于上述的方法或装置来识别所提及的人名,以及获得所提及的人名的标识符。
在步骤S814,集成单元714把来自处理器713的标识符以文本形式嵌入到所提及的人名中。
图9例示了集成的结果。如图9所示,标识符被嵌入到所提及的人名中,并且以嵌入式文本的方式示出ID和全名。
(第三实施例)
在另一个实施例中,用于识别所提及的人名的方法或装置还可以被应用到用于管理会议的装置。图10例示了根据本发明第三实施例的用于管理会议的装置的结构。
如图10所示,用于管理会议的装置包括接收单元1011、语音识别单元1015、预处理单元1012、处理器1013以及集成单元1014。
接收单元1011接收来自外部的语音信号并且将该语音信号转发给语音识别单元1015。可以通过例如麦克风或其它捕捉发言者的语音的设备来生成语音信号。
语音识别单元1015执行语音识别以把语音转换成文本,然后这些文本被发送给预处理单元1012。
预处理单元1012对来自语音识别单元1015的文本执行预处理,以获取文本的分词,词性标注和句法分析等信息,然后将该信息发送给处理器1013。
处理器1013检测所提及的人名,基于上述的方法或装置来识别所提及的人名,以及获取所提及的人名的标识符。在管理会议的情况下,优选使用以下关系特征:头衔差距特征、相同工作组特征、历史称呼特征、座位级别差距特征以及座位距离特征。
集成单元1014把标识符显示在屏幕上。
图11示出了用于管理会议的装置的处理过程。该处理过程包括下列步骤:
在步骤S1111,由接收单元1011接收发言者的语音信号。
在步骤S1112,通过语音识别单元1015的语音识别,把语音信号转换成文本。
在步骤S1113,通过预处理单元1012获取文本的分词,词性标注和句法分析等信息。
在步骤S1114,利用文本的分词,词性标注和句法分析等信息检测文本中所提及的人名,然后基于上述的方法或装置识别所提及的人名。从而获得所提及的人名的标识符。
在步骤S1115,在屏幕上显示所提及的人名的标识符。
在图12中例示了集成的结果。如图12所示,所提及的人名的ID、全名和电子邮件地址被显示在屏幕上。
(第四实施例)
在又一个实施例中,用于识别所提及的人名的方法或装置还可以被应用到用于辅助即时消息的装置。
图13例示了根据本发明第四实施例的一种用于辅助即时消息的装置的结构。
如图13所示,用于辅助即时消息的装置包括接收单元1311、预处理单元1312、处理器1313以及集成单元1314。
接收单元1311接收即时消息并且将其转发给预处理单元1312。
预处理单元1312对来自接收单元1311的即时消息进行预处理以获取即时消息文本的分词,词性标注和句法分析等信息,并且将该信息发送给处理器1313。
处理器1313检测所提及的人名,基于上述方法或装置来识别所提及的人名,以及获取所提及的人名的标识符。在辅助即时消息的情况下,优选使用下列关系特征:头衔差距特征、年龄差距特征、讨论频率特征、历史称呼特征以及姓名类别特征,其中姓名类别特征表示两个人是否彼此熟悉。
在辅助即时消息的情况中,姓名类别特征可以被定义为
其中CN(arg1)是用于获取即时消息的联系人arg1所述的类别的名称的函数。例如,这些类别可以包括朋友、家人、同学以及陌生人。FE是类别的名称可以示出两个人彼此熟悉的类别集合。例如,FE可以包括朋友、家人和同学等。
在辅助即时消息的情况下,可以通过以下方式获得姓名类别特征:从即时消息提取候选标识符的姓名类别,然后把所提取的姓名类别与预先确定的熟悉姓名类别(例如上述FE)进行比较,以确定两个人是否彼此熟悉。
在辅助即时消息的情况下,通过以下方式获得头衔差距特征:从即时消息的备注信息中提取候选标识符的头衔信息和至少一个人名实体的头衔信息;以及基于该头衔信息计算候选标识符和至少一个人名实体的头衔差距。
在辅助即时消息的情况下,通过以下方式获得年龄差距特征:从即时消息的备注信息中提取候选标识符的年龄值以及至少一个人名实体的年龄值,以及基于所提取的年龄值来计算候选标识符和至少一个人名实体的年龄差。
在辅助即时消息的情况下,通过以下方式获得讨论频率特征:根据即时消息来计数候选标识符和至少一个人名实体之间的通信频率,以及基于该通信频率与预定的阈值之间的比较来计算讨论频率特征。
在辅助即时消息的情况下,通过以下方式获得历史称呼特征:从即时消息提取候选标识符和至少一个人名实体之间的历史上的称呼。
集成单元1314把标识符(ID、电子邮件地址、电话号码等)嵌入到即时消息文本中的所提及人名处。
图14中示出了用于辅助即时消息的装置的处理过程。该处理过程包括下列步骤:
在步骤S1411,由接收单元1311接收即时消息。
在步骤S1412,由预处理单元1312对即时消息进行预处理以获取即时消息文本的分词,词性标注和句法分析等信息。
在步骤S1413,通过处理器1313,利用即时消息文本的分词,词性标注和句法分析等信息检测即时消息文本中所提及的人名,并且基于上述的方法或装置来识别所提及的人名。因此,获得所提及的人名的标识符。
在步骤S1414,通过集成单元1314,所提及的人名的标识符被嵌入到即时消息文本中所提及的人名处。
图15例示了集成的结果。如图15所示,在接收方的弹出窗口中显示所提及的人名的标识符(ID、全名、电子邮件地址等)。
上述各实施例中的装置是仅用于例示的例子。本发明的方法和装置还可以应用于许多其它情况。由于本发明使用关系特征来识别对话中的所提及的人名,因此识别结果更加准确。
图17是示出能够实现本发明的各个实施例的计算机系统1000的硬件构造的框图。
如图17中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图17所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图17所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
可以按照许多方式执行本发明的方法和装置。例如,可以通过软件、硬件或者软件与硬件的结合来执行本发明的方法和装置。上述方法的各个步骤的次序只是用于说明,而本发明的方法的各个步骤除非明确表示,否则不限于上述具体步骤。此外,在有些实施例中,本发明还可以实现为记录在记录介质中的程序,包括用于实现根据本发明的方法的机器可读指令。因此,本发明还覆盖了存储用于实现根据本发明的方法的记录介质。
虽然已经结合例子详细描述了本发明的一些具体实施例,但是本领域技术人员应当理解上述例子只是例示性的,而不是对本发明的限制。本领域技术人员还应当理解,在不脱离本发明的范围和精神的情况下,还可以对上述各个实施例进行修改。本发明的范围由所附的权利要求来限定。
Claims (32)
1.一种用于识别对话中所提及的人的方法,包括:
识别与从所述对话获取的所提及的人名相关的至少一个人名实体;
获取与所提及的人名相关的一组候选标识符;
从内部资源和外部资源为每个候选标识符获取至少一个关系特征,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及
基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符。
2.根据权利要求1所述的方法,其中所述人名实体包括:
在对话中提到所提及的人名的发言者,和/或
聆听所述发言者的至少一个听众。
3.根据权利要求1所述的方法,其中获取一组候选标识符的步骤包括:基于所提及的人名,在至少包含标识符和相应的人名的数据库中搜索候选标识符,
其中所述数据库中的人名包括全名和别名,以及
其中所述别名包括以下至少一种:昵称、姓氏、赋名、中名、以及头衔与昵称、姓氏、赋名和中名中的至少一种的组合。
4.根据权利要求1所述的方法,其中所述关系特征包括以下至少一种:
等级差距特征,表示两个人的等级之间的差距;
熟悉度特征,表示两个人之间的熟悉程度;
历史称呼特征,表示在两个人间已经使用过的称呼;以及
上下文关系特征,表示对话中两个人的关系。
5.根据权利要求4所述的方法,
其中所述等级差距特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距,以及
年龄差距特征,表示两个人的年龄之间的差距;
其中所述熟悉度特征包括以下至少一种:
相同工作组特征,表示两个人是否在同一工作组中,
相同专业特征,表示两个人是否为同一专业,
新雇员特征,表示一个人是否为新雇员,
讨论频率特征,表示两个人之间进行讨论的频率,以及
工位距离特征,表示两个人的工位之间的距离;
其中所述上下文关系特征包括以下至少一种:
相同会议组特征,表示两个人是否属于同一会议组,
共同参会特征,表示两个人是否都参加了会议,
座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级别,一个级别是主座,另一个级别是副座,以及
座位距离特征,表示两个人的座位之间的距离。
6.根据权利要求4或5所述的方法,其中
从外部资源提取所述熟悉度特征和所述历史称呼特征,
从外部资源和/或内部资源提取所述等级差距特征,
从内部资源提取所述上下文关系特征;
其中,所述外部资源包括文本资源和图像资源,所述文本资源包括组织图、电子邮件历史记录、电子邮件联系人、简历和公共文档中的至少一种,所述图像资源至少包括工位图;以及
其中,所述内部资源包括出席者名单、会议视频和会议照片中的至少一种。
7.根据权利要求6所述的方法,其中通过从所述电子邮件历史记录提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼来获得所述历史称呼特征。
8.根据权利要求6所述的方法,
其中通过以下步骤获得所述头衔差距特征:
从所述组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及
基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差;
其中通过以下步骤获得所述年龄差距特征:
从所述候选标识符和所述至少一个人名实体的简历的年龄栏提取各自的年龄值,以及
基于所述年龄值来计算所述候选标识符和所述至少一个人名实体之间的年龄差。
9.根据权利要求6所述的方法,
其中通过以下步骤获得所述相同工作组特征:
从所述组织图提取所述候选标识符的工作组名称和所述至少一个人名实体的工作组名称,以及
基于所述工作组名称的比较结果来计算所述相同工作组特征;
其中通过以下步骤获得所述相同专业特征:
从所述组织图提取所述候选标识符的专业和所述至少一个人名实体的专业,以及
基于所述专业的比较结果来计算所述相同专业特征;
其中通过以下步骤获得所述新雇员特征:
根据所述组织图的变化来计算所述候选标识符的加入时间段,以及
基于所述加入时间段与预定的第一阈值之间的比较结果来计算所述新雇员特征;
其中通过以下步骤获得所述讨论频率特征:
根据所述电子邮件历史记录来计数所述候选标识符和所述至少一个人名实体之间的通信频率,以及
基于所述通信频率与预定的第二阈值之间的比较结果来计算所述讨论频率特征;
其中通过以下步骤获得所述工位距离特征:
从所述工位图获得所述候选标识符的工作位置和所述至少一个人名实体的工作位置,以及
基于所述工作位置来计算所述工位距离特征。
10.根据权利要求6所述的方法,
其中通过以下步骤获得所述相同会议组特征:
从所述出席者名单提取所述候选标识符的会议组名称和所述至少一个人名实体的会议组名称,以及
基于所述会议组名称的比较结果来计算所述相同会议组特征;
其中通过以下步骤获得所述共同参会特征:
把所述候选标识符的姓名与所述出席者名单进行比较,以及
基于所述比较的结果计算所述共同参会特征;
其中通过以下步骤获得所述座位级别差距特征:
从所述会议视频或会议照片中提取所述候选标识符的座位级别和所述至少一个人名实体的座位级别,以及
基于所述座位级别来计算所述座位级别差距特征;
其中通过以下步骤获得所述座位距离特征:
从所述会议视频或会议照片中提取所述候选标识符的座位位置和所述至少一个人名实体的座位位置,以及
基于所述座位位置计算所述座位距离特征。
11.根据权利要求1所述的方法,其中从该组候选标识符中选择一个标识符作为所提及的人名的标识符的步骤包括:
计算各个候选标识符的至少一个关系特征的分数,
为所述至少一个关系特征分配权重,
基于所计算的分数和所分配的权重计算各个候选标识符的置信度,以及
基于所述置信度从该组候选标识符中选择一个标识符作为所提及的人名的标识符。
12.根据权利要求11所述的方法,其中
根据所述对话的场景来分配所述权重,
从所述对话的上下文特征提取所述对话的场景,以及
所述对话的上下文特征包括对话的标题、主题和语言风格、以及出席者的衣着风格中的至少一种。
13.一种用于管理会议记录的方法,包括:
利用权利要求1-12中任一项的方法识别所提及的人;以及
把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处。
14.一种用于管理会议记录的方法,包括:
利用权利要求1的方法识别所提及的人;以及
把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
相同工作组特征,表示两个人是否在同一工作组中;以及
历史称呼特征,表示在两个人间已经使用过的称呼。
15.根据权利要求14所述的方法,其中
通过以下步骤获得所述头衔差距特征:
从组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及
基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差;
通过以下步骤获得所述相同工作组特征:
从组织图提取所述候选标识符的工作组名称和所述至少一个
人名实体的工作组名称,以及
基于所述工作组名称的比较结果来计算所述相同工作组特征;
通过以下步骤获得所述历史称呼特征:
从电子邮件历史记录提取所述候选标识符和所述至少一个人
名实体之间的历史上的称呼。
16.一种用于管理会议的方法,包括:
利用权利要求1-12中任一项所述的方法来识别所提及的人;以及
在屏幕上显示与所选择的标识符相关的信息。
17.一种用于管理会议的方法,包括:
利用权利要求1所述的方法来识别所提及的人;以及
在屏幕上显示与所选择的标识符相关的信息,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
相同工作组特征,表示两个人是否在同一工作组中;
历史称呼特征,表示在两个人间已经使用过的称呼;
座位级别差距特征,表示两个人的座位级别的差距;以及
座位距离特征,表示两个人的座位之间的距离。
18.根据权利要求17所述的方法,其中
通过以下步骤获得所述头衔差距特征:
从组织图提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及
基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差;
通过以下步骤获得所述相同工作组特征:
从组织图提取所述候选标识符的工作组名称和所述至少一个人名实体的工作组名称,以及
基于所述工作组名称的比较结果来计算所述相同工作组特征;
通过以下步骤获得所述历史称呼特征:
从电子邮件历史记录提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼;
通过以下步骤获得所述座位级别差距特征:
从会议视频或会议照片中提取所述候选标识符的座位级别和所述至少一个人名实体的座位级别,以及
基于所述座位级别来计算所述座位级别差距特征;
通过以下步骤获得所述座位距离特征:
从会议视频或会议照片中提取所述候选标识符的座位位置和所述至少一个人名实体的座位位置,以及
基于所述座位位置计算所述座位距离特征。
19.一种用于辅助即时消息的方法,包括:
利用权利要求1-12中任一项的方法识别所提及的人;以及
把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处。
20.一种用于辅助即时消息的方法,包括:
利用权利要求1的方法识别所提及的人;以及
把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
年龄差距特征,表示两个人的年龄之间的差距;
姓名类别特征,表示两个人是否彼此熟悉;
讨论频率特征,表示两个人之间进行讨论的频率;以及
历史称呼特征,表示在两个人间已经使用过的称呼。
21.根据权利要求20所述的方法,其中
通过以下步骤获得所述头衔差距特征:
从即时消息的备注信息提取所述候选标识符的头衔信息和所述至少一个人名实体的头衔信息,以及
基于所述头衔信息计算所述候选标识符和所述至少一个人名实体之间的头衔差;
通过以下步骤获得所述年龄差距特征:
从即时消息的备注信息提取所述候选标识符的年龄值和所述至少一个人名实体的年龄值,以及
基于所述年龄值来计算所述候选标识符和所述至少一个人名实体之间的年龄差;
通过以下步骤获得所述姓名类别特征:
从即时消息提取所述候选标识符的姓名类别,以及
通过把所提取的姓名类别与预定的熟悉姓名类别进行比较来计算所述姓名类别特征;
通过以下步骤获得所述讨论频率特征:
根据即时消息来计数所述候选标识符和所述至少一个人名实体之间的通信频率,以及
基于所述通信频率与预定的阈值之间的比较结果来计算所述讨论频率特征;
通过以下步骤获得所述历史称呼特征:
从即时消息提取所述候选标识符和所述至少一个人名实体之间的历史上的称呼。
22.一种用于识别对话中所提及的人的装置,包括:
用于识别与从所述对话获取的所提及的人名相关的至少一个人名实体的单元;
用于获取与所提及的人名相关的一组候选标识符的单元;
用于从内部资源和外部资源为每个候选标识符获取至少一个关系特征的单元,其中所述关系特征表示所述候选标识符与所述至少一个人名实体之间的关系;以及
用于基于所述至少一个关系特征,从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
23.根据权利要求22所述的装置,其中所述关系特征包括以下至少一种:
等级差距特征,表示两个人的等级之间的差距;
熟悉度特征,表示两个人之间的熟悉程度;
历史称呼特征,表示在两个人间已经使用过的称呼;以及
上下文关系特征,表示对话中两个人的关系。
24.根据权利要求23所述的装置,其中
其中所述等级差距特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距,以及
年龄差距特征,表示两个人的年龄之间的差距;
其中所述熟悉度特征包括以下至少一种:
相同工作组特征,表示两个人是否在同一工作组中,
相同专业特征,表示两个人是否为同一专业,
新雇员特征,表示一个人是否为新雇员,
讨论频率特征,表示两个人之间进行讨论的频率,以及
工位距离特征,表示两个人的工位之间的距离;
其中所述上下文关系特征包括以下至少一种:
相同会议组特征,表示两个人是否属于同一会议组,
共同参会特征,表示两个人是否都参加了会议,
座位级别差距特征,表示两个人的座位级别的差距,其中各个座位被分成至少两个级别,一个级别是主座,另一个级别是副座,以及
座位距离特征,表示两个人的座位之间的距离。
25.根据权利要求23或24所述的装置,其中
从外部资源提取所述熟悉度特征和所述历史称呼特征,
从外部资源和/或内部资源提取所述等级差距特征,
从内部资源提取所述上下文关系特征;
其中,所述外部资源包括文本资源和图像资源,所述文本资源包括组织图、电子邮件历史记录、电子邮件联系人、简历和公共文档中的至少一种,所述图像资源至少包括工位图;以及
其中,所述内部资源包括出席者名单、会议视频和会议照片中的至少一种。
26.根据权利要求22所述的装置,其中用于从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元包括:
用于计算各个候选标识符的至少一个关系特征的分数的单元,
用于为所述至少一个关系特征分配权重的单元,
用于基于所计算的分数和所分配的权重计算各个候选标识符的置信度的单元,以及
用于基于所述置信度从该组候选标识符中选择一个标识符作为所提及的人名的标识符的单元。
27.一种用于管理会议记录的装置,包括:
用于利用权利要求22-26中任一项的装置识别所提及的人的单元;以及
用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元。
28.一种用于管理会议记录的装置,包括:
用于利用权利要求22的装置识别所提及的人的单元;以及
用于把与所选择的标识符相关的信息嵌入到输出文本中所提及的人名处的单元,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
相同工作组特征,表示两个人是否在同一工作组中;以及
历史称呼特征,表示在两个人间已经使用过的称呼。
29.一种用于管理会议的装置,包括:
用于利用权利要求22-26中任一项所述的装置来识别所提及的人的单元;以及
用于在屏幕上显示与所选择的标识符相关的信息的单元。
30.一种用于管理会议的装置,包括:
用于利用权利要求22所述的装置来识别所提及的人的单元;以及
用于在屏幕上显示与所选择的标识符相关的信息的单元,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
相同工作组特征,表示两个人是否在同一工作组中;
历史称呼特征,表示在两个人间已经使用过的称呼;
座位级别差距特征,表示两个人的座位级别的差距;以及
座位距离特征,表示两个人的座位之间的距离。
31.一种用于辅助即时消息的装置,包括:
用于利用权利要求22-26中任一项所述的装置识别所提及的人的单元;以及
用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元。
32.一种用于辅助即时消息的装置,包括:
用于利用权利要求22所述的装置识别所提及的人的单元;以及
用于把与所选择的标识符相关的信息嵌入到所述即时消息中所提及的人名处的单元,
其中所述关系特征包括以下至少一种:
头衔差距特征,表示两个人的头衔之间的差距;
年龄差距特征,表示两个人的年龄之间的差距;
姓名类别特征,表示两个人是否彼此熟悉;
讨论频率特征,表示两个人之间进行讨论的频率;以及
历史称呼特征,表示在两个人间已经使用过的称呼。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210201517.8A CN103514165A (zh) | 2012-06-15 | 2012-06-15 | 用于识别对话中所提及的人的方法和装置 |
US13/916,885 US20130346069A1 (en) | 2012-06-15 | 2013-06-13 | Method and apparatus for identifying a mentioned person in a dialog |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210201517.8A CN103514165A (zh) | 2012-06-15 | 2012-06-15 | 用于识别对话中所提及的人的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103514165A true CN103514165A (zh) | 2014-01-15 |
Family
ID=49775153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210201517.8A Pending CN103514165A (zh) | 2012-06-15 | 2012-06-15 | 用于识别对话中所提及的人的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130346069A1 (zh) |
CN (1) | CN103514165A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105794155A (zh) * | 2014-11-04 | 2016-07-20 | 华为技术有限公司 | 一种显示消息的方法、装置及设备 |
CN106294321A (zh) * | 2016-08-04 | 2017-01-04 | 北京智能管家科技有限公司 | 一种特定领域的对话挖掘方法及装置 |
CN107016055A (zh) * | 2017-03-03 | 2017-08-04 | 广州神马移动信息科技有限公司 | 用于挖掘实体别名的方法、设备及电子设备 |
CN108694168A (zh) * | 2018-05-11 | 2018-10-23 | 深圳云之家网络有限公司 | 一种称呼处理方法及装置、计算机装置及可读存储介质 |
CN108962221A (zh) * | 2018-07-12 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 在线对话状态跟踪模型的优化方法及系统 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995885B (zh) * | 2014-05-29 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 实体名的识别方法和装置 |
US10803391B2 (en) * | 2015-07-29 | 2020-10-13 | Google Llc | Modeling personal entities on a mobile device using embeddings |
US11675824B2 (en) * | 2015-10-05 | 2023-06-13 | Yahoo Assets Llc | Method and system for entity extraction and disambiguation |
US20180341687A1 (en) * | 2017-05-24 | 2018-11-29 | International Business Machines Corporation | Identifying the subject of an ambiguous name in a communication |
US11929789B2 (en) | 2017-07-06 | 2024-03-12 | The Tone Knows, Inc. | Systems and methods for providing a tone emitting device that communicates data |
US11159679B2 (en) * | 2019-02-26 | 2021-10-26 | Cigna Taiwan Life Assurance Co. Ltd. | Automated systems and methods for natural language processing with speaker intention inference |
CN113808582B (zh) * | 2020-06-17 | 2024-04-09 | 抖音视界有限公司 | 语音识别方法、装置、设备及存储介质 |
CN111859970B (zh) * | 2020-07-23 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法、装置、设备和介质 |
CN113761893B (zh) * | 2021-11-11 | 2022-02-11 | 深圳航天科创实业有限公司 | 一种基于模式预训练的关系抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059172A1 (en) * | 2006-08-30 | 2008-03-06 | Andrew Douglas Bocking | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
US7685201B2 (en) * | 2006-09-08 | 2010-03-23 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
US20100125456A1 (en) * | 2008-11-19 | 2010-05-20 | Robert Bosch Gmbh | System and Method for Recognizing Proper Names in Dialog Systems |
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135238B2 (en) * | 2006-03-31 | 2015-09-15 | Google Inc. | Disambiguation of named entities |
KR20100083036A (ko) * | 2009-01-12 | 2010-07-21 | 삼성전자주식회사 | 메시지 서비스 제공 방법 및 이를 지원하는 휴대 단말기 |
JP5438419B2 (ja) * | 2009-07-29 | 2014-03-12 | 富士フイルム株式会社 | 人物照合装置及び人物照合方法 |
-
2012
- 2012-06-15 CN CN201210201517.8A patent/CN103514165A/zh active Pending
-
2013
- 2013-06-13 US US13/916,885 patent/US20130346069A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059172A1 (en) * | 2006-08-30 | 2008-03-06 | Andrew Douglas Bocking | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
US7685201B2 (en) * | 2006-09-08 | 2010-03-23 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
US20100125456A1 (en) * | 2008-11-19 | 2010-05-20 | Robert Bosch Gmbh | System and Method for Recognizing Proper Names in Dialog Systems |
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105794155A (zh) * | 2014-11-04 | 2016-07-20 | 华为技术有限公司 | 一种显示消息的方法、装置及设备 |
CN105794155B (zh) * | 2014-11-04 | 2020-04-03 | 华为技术有限公司 | 一种显示消息的方法、装置及设备 |
CN111490927A (zh) * | 2014-11-04 | 2020-08-04 | 华为技术有限公司 | 一种显示消息的方法、装置及设备 |
CN111490927B (zh) * | 2014-11-04 | 2021-07-16 | 华为技术有限公司 | 一种显示消息的方法、装置及设备 |
US11095627B2 (en) * | 2014-11-04 | 2021-08-17 | Huawei Technologies Co., Ltd. | Message display method, apparatus, and device |
CN106294321A (zh) * | 2016-08-04 | 2017-01-04 | 北京智能管家科技有限公司 | 一种特定领域的对话挖掘方法及装置 |
CN106294321B (zh) * | 2016-08-04 | 2019-05-31 | 北京儒博科技有限公司 | 一种特定领域的对话挖掘方法及装置 |
CN107016055A (zh) * | 2017-03-03 | 2017-08-04 | 广州神马移动信息科技有限公司 | 用于挖掘实体别名的方法、设备及电子设备 |
CN108694168A (zh) * | 2018-05-11 | 2018-10-23 | 深圳云之家网络有限公司 | 一种称呼处理方法及装置、计算机装置及可读存储介质 |
CN108962221A (zh) * | 2018-07-12 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 在线对话状态跟踪模型的优化方法及系统 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111401083B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
Also Published As
Publication number | Publication date |
---|---|
US20130346069A1 (en) | 2013-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514165A (zh) | 用于识别对话中所提及的人的方法和装置 | |
Akhtar et al. | The potential of chatbots: analysis of chatbot conversations | |
US7991424B2 (en) | Dynamic generation of group lists for a communication device using tags | |
US8331550B2 (en) | Social media language identification and routing | |
US9099087B2 (en) | Methods and systems for obtaining language models for transcribing communications | |
KR100768127B1 (ko) | 가독성 데이터로부터 인간 관계를 추론하는 방법과 가독성데이터를 이용하여 디지털 데이터 내의 인물 식별을 통해태그를 부여하는 방법 및 시스템 | |
CN102985965B (zh) | 声纹标识 | |
CN104598445B (zh) | 自动问答系统和方法 | |
US8526580B2 (en) | System and method for voicemail organization | |
US9002702B2 (en) | Confidence level assignment to information from audio transcriptions | |
US20110044431A1 (en) | Communications History Log System | |
JP2012018412A (ja) | 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム | |
US20010053977A1 (en) | System and method for responding to email and self help requests | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN108062316A (zh) | 一种辅助客户服务的方法和装置 | |
CN102915493A (zh) | 信息处理装置和方法 | |
US20130304538A1 (en) | Consumer feedback collection system | |
US20170161364A1 (en) | Generating messages using keywords | |
CN106936971B (zh) | 一种来电人信息提示系统及提示方法 | |
CN112487381A (zh) | 身份认证方法、装置、电子设备及可读存储介质 | |
CN107800900B (zh) | 通话数据处理方法、装置、存储介质和计算机设备 | |
CN106558311A (zh) | 语音内容提示方法和装置 | |
CN108710682B (zh) | 对象推荐方法、装置及设备 | |
JP5258056B2 (ja) | 質問文候補提示装置 | |
CN108512984A (zh) | 信息展示方法及装置、信息推送方法、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140115 |
|
WD01 | Invention patent application deemed withdrawn after publication |