CN103577491A - 用于表征功能实体的和用于将功能实体消歧的方法和设备 - Google Patents

用于表征功能实体的和用于将功能实体消歧的方法和设备 Download PDF

Info

Publication number
CN103577491A
CN103577491A CN201210281408.1A CN201210281408A CN103577491A CN 103577491 A CN103577491 A CN 103577491A CN 201210281408 A CN201210281408 A CN 201210281408A CN 103577491 A CN103577491 A CN 103577491A
Authority
CN
China
Prior art keywords
functional entity
option
candidate
indexed
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210281408.1A
Other languages
English (en)
Inventor
胡钦谙
黄耀海
李荣军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201210281408.1A priority Critical patent/CN103577491A/zh
Publication of CN103577491A publication Critical patent/CN103577491A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明提供了用于表征文档中的功能实体的方法和设备以及用于将文档中的功能实体消歧的方法和设备。用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法包括:识别该文档中的功能实体;以及对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。这种表征方法可以被用于将文档中的功能实体消歧,并且可以被用于聚类/归类/搜索功能实体/文档。本发明对于其名字在多个版本间已经发生变化的功能实体的消歧而言是尤其有利的。

Description

用于表征功能实体的和用于将功能实体消歧的方法和设备
技术领域
本发明涉及用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法和设备、以及用于将文档中的功能实体消歧的方法和设备。
背景技术
对于实体消歧的需求通常出现在其中表示相同实体的数据对象以不同的方式呈现并且没有用于相同实体的统一的标识符的信息整合应用中。实体消歧通常是在可以进行关于实体的任何其它推论之前必须被执行的关键的第一步。
手册、操作指南以及包括关于对一个装置或一类装置进行操作的信息的类似文档在企业和我们的日常生活中被频繁地使用。这些文档的特征在于是随时间演变的,并且因此会具有多个版本。例如,当发布一个系列的数字式照相机的新型号时,用于该系列的照相机的手册将演变成与新型号对应的新版本。手册或操作指南中的功能实体和一般性的表达在多个版本的手册或操作指南之间可能不同。因此,存在对于多个版本的文档进行功能实体消歧的需求。
功能实体指的是设定、选项、动作、部件、步骤和功能等的命名实体,并且在手册、操作指南和包括关于对装置进行操作的信息的类似文档中频繁出现。为了利用相同的标识符来标识在不同版本的文档(尤其是手册或操作指南)中的相同的功能实体,可以执行功能实体消歧。一般,在制作手册之前将功能实体编索引(index)。对于多个版本的文档的功能实体消歧的任务是使文档中的功能实体同索引(co-index)。
功能实体消歧系统一般获取文档和索引化的功能实体列表作为其输入,并且输出同索引的功能实体的列表。期望的是,一系列文档中的功能名的演变可以通过使用功能实体消歧来跟踪。例如,如表1中所示出的,由相同公司制造的数字式照相机的所有型号具有相同的菜单“FUNC.菜单”(#12)。功能“自动回放(自动播放)”、“自动回放(幻灯片放映)”和“观看幻灯片放映”是同索引的(#17)。此外,“捕获最佳面部表情(最佳图像选择)”被指定一个新的标识符(#203),因为它仅存在于照相机型号220/230中。
Figure BDA00001989652500021
表1功能名的演变
然而,将多个版本的文档中的功能实体消歧在现有技术中是困难的。
图2示出了实体消歧的基本流程图。首先,输入文档,如步骤S210所示。然后,识别输入的文档中的实体,如步骤S220所示。接下来,获得候选标识符,如步骤S230所示。然后,提取对于每个候选标识符的特征,并且通过利用所识别的实体和候选标识符的特征来将所识别的实体和候选标识符进行比较,如步骤S240和S250所示。最后,输出与所识别的实体对应的标识符。
实体消歧的基本解决方案是利用实体的文字(literal)名字,也就是说,通过使用传统上用来计算字符串之间的相似度的方法(诸如余弦距离等)来比较实体的文字名字。这种解决方案可以正确地将具有相同的或非常类似的文字功能名的功能实体消歧。
对于不具有相类的文字的功能名的功能实体,一种改进在于识别这些名字中的语义。
实体消歧的改进的解决方案是利用实体之间的关系。美国专利申请公开No.2011/0246492A1(在下文中被称为“现有技术1”)和美国专利申请公开No.2011/0246494A1(在下文中被称为“现有技术2”)公开了通过使用生活弧线(life arc)作为特征来执行实体消歧的方法。提出了几种生活弧线模板。实体的空间和时间数据被用来填入(populate)这些模板。然而,显然在现有技术1和现有技术2中公开的这种方法仅适用于将人名消歧,而不能被用于将功能实体消歧。
美国专利No.7,685,201(在下文中被称为“现有技术3”)提出了用于将人名消歧的方法,其基于搜索结果将不同的人分组到不同的集群中。然而,在现有技术3中提供的聚类算法不能较好地用来将手册中的功能实体消歧,其通常是小数据集并且是稀疏的。
上述方法对于将功能相同但具有不同名字的功能实体(也就是说,功能在字面上(literally)不同但是在语义上相同的功能实体)消歧方面会有问题。拿下面的(1)和(2)中示出的功能名为例:
(1)镜头周边亮度校正(先前版本)
(2)校正图像的暗角(当前版本)。
这些功能实体的名字在字面上完全不同,但是它们在数字式照相机中具有相同的功能。
发明内容
鉴于上述内容,需要提供能够将一个文档或多个版本的文档(尤其是手册和操作指南)中的功能实体消歧的方法。
为了解决上述技术问题,本发明提供了一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法,其包括:a)识别该文档中的功能实体;以及b)对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
根据本发明的另一方面,本发明提供了一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的方法,其包括:计算步骤,对于每个功能实体,通过使用上述的用于表征功能实体的方法来计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数;输出步骤,对于每个功能实体,输出n个最好的(n-best)列表,该n个最好的列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
另外,为了解决上述技术问题,本发明提供了一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备,其包括:单元a),被配置为识别该文档中的功能实体;以及单元b),被配置为,对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
根据本发明的另一方面,本发明提供了一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的设备,其包括:上述的设备,用于对于每个功能实体,计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数;以及输出单元,被配置为,对于每个功能实体,输出n个最好的列表,该n个最好的列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
通过针对功能实体提取至少一个装置状态转移,可以更精确地表征功能实体。因此,通过比较所提取的装置状态转移,其功能本质上相同的功能实体可以被较好地匹配。本发明对于其名字在多个版本间已经发生变化的功能实体的消歧而言是尤其有利的。
根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
图2示出了实体消歧的基本流程图。
图3示出了装置功能的概念图。
图4示出了设定-选项对的结构。
图5示出了在数字式照相机的示例性手册中的两页。
图6示出了与图5对应的示例性手册的本体(ontology)的一部分。
图7是示出了根据本发明的一个实施例的用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法的流程图。
图8是示出了根据本发明实施例的用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备的框图。
图9是示出了根据本发明的一个实施例的用于将在包括关于对装置进行操作的信息的文档中的功能实体消歧的方法的流程图。
图10是示出了根据本发明实施例的用于将在包括关于对装置进行操作的信息的文档中的功能实体消歧的设备的框图。
图11示出了根据本发明实施例的用于将功能实体聚类的方法。
图12示出了根据本发明实施例的用于将文档聚类的方法。
图13示出了根据本发明实施例的用于将功能实体归类的方法。
图14示出了根据本发明实施例的用于将文档归类的方法。
图15示出了根据本发明实施例的用于搜索功能实体的方法。
图16示出了根据本发明实施例的用于搜索文档的方法。
图17示出了在输入的照相机的手册中的两个样例页面。
图18示出了手册的被修剪前的森林的一部分。
图19示出了手册的被修剪后的森林的一部分,其中在区块(block)中没有被提及的叶节点被去除。
图20示出了手册的被修剪后的带有权重的森林的一部分。
具体实施方式
下面将参考附图来详细描述本发明的实施例。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。
(本发明的原理)
本发明的发明人已经发现,人名的实体消歧和功能实体的实体消歧之间的本质区别在于,人名涉及物理上独一无二的人,然而多个版本的手册中的功能实体实际上可以涉及不同的功能,而且用户试图将它们在逻辑上关联起来。从用户的观点来看,如果两个功能的输入和输出是相同的,则不管包含什么中间步骤,这两个功能都被视为相同的。当考虑功能的语义时,该装置被视为黑盒子,如图3所示。
因此,通过使用装置的状态转移来表征功能实体可以大大地帮助标识相同的功能实体。
装置的手册可以利用功能实体的集合的领域本体来在语义上表示。在该本体中,节点是设定,子节点是其父节点设定的选项之一,并形成设定-选项对(也被称为<设定,选项>对或<设定,选项>)。设定-选项对描述了装置的状态。一个设定具有两个或更多个选项,并且如果一个选项具有随后的选项,则该选项被视为对于其随后的选项的设定,如图4所示。如从图4可以看出的,设定A具有两个选项,即选项A1和A2,并且选项A1和A2分别具有随后的选项,即选项B1-B2和选项C1-C3。也就是说,对于选项B1-B2,选项A1被视为对于选项B1-B2的设定B,并且可以构成两个<设定,选项>对,即<选项A1,选项B1>对和<选项A1,选项B2>对。这也适用于选项A2。
本体可以被视为<设定,选项>对的森林。该森林包括若干个树。<设定,选项>对的树还包括一组子树,每个子树具有根节点(设定)和两个或更多个子节点(设定的选项)。一个子树在该子树的设定是另一个子树的设定的选项之一的情况下被连到该另一个子树。
一个功能可以被分离成若干步骤,并且每个步骤的最终的结果是设定的状态的改变。一些设定被手动地和明确地设置,而其它一些设定被自动地和隐含地触发。因此,一个功能可以被表示为本体中的若干叶节点。也就是说,设定-选项对的叶节点可以被用作装置状态转移。然而,对于本领域技术人员而言明显的是,装置状态转移不限于此。
图5示出了在数字式照相机的示例性手册中的两页。对应的本体被示出在图6中。功能“拍照”可以被表示为经过节点1~8的序列,如图6所示。在该序列中,状态1、3、5和8通过用户的操作来实现,而状态2、4、6和7由照相机的内部机制触发。
鉴于上述事实,本发明的发明人提出了使用有代表性的特征(即,至少一个装置状态转移)来表征功能实体。通过比较所提取的装置状态转移,一个文档或多个版本的文档中的功能实体可以被较好地消歧。另外,发明人还已经发现,所提取的装置状态转移可以被用于将功能实体或文档聚类、归类、或者搜索功能实体或文档。
(计算机系统的硬件配置)
图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
(用于表征功能实体的方法和设备)
图7是示出了根据本发明的一个实施例的用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法的流程图。
如图7所示,在步骤S710中,识别文档中的功能实体。
在步骤S720中,对于每个功能实体,从所述文档中提取至少一个装置状态转移,其中所述装置状态转移由与装置的状态相关的实体和所述实体之间的关系构成。
在一种实施方式中,设定-选项对的叶节点可以被当作装置状态转移。在该情况下,可以获得与功能实体相关的设定-选项对的森林,并且然后可以基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移。并且在该实施方式中,与装置的状态相关的实体是设定和选项;并且实体之间的关系是每个设定-选项对中的设定与选项之间的关系。应当注意,设定-选项对的森林可以根据实际应用而从文档或者从其它相应的材料获得,只要它与功能实体相关即可。
在一个具体示例中,提取设定-选项对的叶节点的步骤可以包括:通过使用命名实体识别来从该文档中提取设定和选项;通过使用关系提取来提取设定-选项对;以及修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。
可选地,提取设定-选项对的叶节点的步骤可以还包括:通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。该预定义的顺序可以由用户根据具体的应用来定义。其优选的是时间顺序或者在文档中叙述设定-选项对的顺序。
另外,发明人已经观察到,森林中的一些叶节点(即,设定-选项对)与特定功能有较高的相关性,而其它一些叶节点与若干功能相关。这意味着森林中的叶节点对于表征或消歧功能实体而言不具有相同的权重。因此,在一种实施方式中,在修剪该森林之后,可以基于设定-选项对的辨别力(discrimination)来过滤前n个设定-选项对的叶节点(即,n个最有辨别力的设定-选项对的叶节点)。在本文中,术语“辨别力”意指将功能实体彼此区分开的能力。也就是说,“设定-选项对的辨别力”指示通过比较这种设定-选项对会如何容易地将功能实体彼此区分开。同样地,如下文中所述的术语“动作-部件对的辨别力”和“效果的辨别力”分别指示通过比较这种动作-部件对或这种效果会如何容易地将功能实体彼此区分开。然后,通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个叶节点序列化,以便获得设定-选项对的叶节点的有序序列。例如,一个设定-选项对的辨别力被定义为:
d 1 = f 1 * log ( t n 1 ) - - - ( 1 )
其中d1表示该设定-选项对的辨别力,f1表示该设定-选项对的频率,t表示该文档中的功能实体的总数,并且n1表示与该设定-选项对相关的功能实体的数量。对于本领域技术人员而言明显的是,用于确定辨别力的方法不限于上述方法。
在被提取之后,设定-选项对的叶节点或设定-选项对的叶节点的有序序列可以被用来确定两个功能实体之间的相似度。在一种实施方式中,输入已被编索引的候选功能实体的集合,然后对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点或设定-选项对的叶节点的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
此外,发明人已经发现,与功能实体相关的操作的动作-部件对也可以表征功能实体。它也可以被当做装置状态转移,并且可以被当做对于设定-选项对的叶节点的补充。动作-部件对描述了对装置的部件的操作。
因此,在提取了设定-选项对的叶节点之后,对于每个功能实体,可以从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移。并且在该实施方式中,该与装置的状态相关的实体是设定、选项、动作和部件;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。在一种实施方式中,提取动作-部件对可以包括:通过使用命名实体识别来从该文档中提取动作和部件;以及通过使用关系提取来提取动作-部件对。
可选地,提取动作-部件对的步骤可以还包括:通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。同样地,该预定义的顺序可以由用户根据具体的应用来定义。其优选的是时间顺序或者在文档中叙述动作-部件对的顺序。
可选地,提取操作的动作-部件对的步骤可以还包括:基于动作-部件对的辨别力来过滤前n个动作-部件对;并且通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个动作-部件对序列化,以便获得操作的动作-部件对的有序序列。
例如,一个动作-部件对的辨别力被定义为:
d 2 = f 2 * log ( t n 2 ) - - - ( 2 )
其中d2表示该动作-部件对的辨别力,f2表示该动作-部件对的频率,t表示该文档中的功能实体的总数,并且n2表示与该动作-部件对相关的功能实体的数量。对于本领域技术人员而言明显的是,用于确定辨别力的方法不限于上述方法。
动作-部件对或动作-部件对的有序序列也可以被用来确定两个功能实体之间的相似度。在一种实施方式中,输入已被编索引的候选功能实体的集合。然后,对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点或设定-选项对的叶节点的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对或操作的动作-部件对的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数,并且然后根据第四相似度分数和第五相似度分数来确定该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。例如,可以通过使用加权平均法根据第四相似度分数和第五相似度分数来计算第二相似度分数。
此外,发明人已经发现,与功能实体相关的效果也可以表征功能实体。它也可以被当作装置状态转移,并且可以被当作对于设定-选项对的叶节点和动作-部件对的补充。
因此,在提取了设定-选项对的叶节点之后并且在随后提取了动作-部件对之后,对于每个功能实体,可以提取与功能实体相关的至少一个效果。在一种实施方式中,提取效果可以包括:输入包括该装置的相应功能的效果的字典;以及从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移。并且在该实施方式中,与装置的状态相关的实体是设定、选项、动作、部件和效果;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。该字典可以记录预定义的效果列表,诸如暗、亮、模糊、清晰等。但是在一些情况下,输入的字典可以是空的。该字典可以由用户预定义,该用户可以收集来自先前版本的文档的效果列表。
可选地,在一种实施方式中,提取效果的步骤可以包括:基于与该功能实体相关的效果的辨别力来过滤前n个与该功能实体相关的效果,以便获得效果的有序序列。
例如,一个效果的辨别力被定义为:
d 3 = f 3 * log ( t n 3 ) - - - ( 3 )
其中d3表示该效果的辨别力,f3表示该效果的频率,t表示该文档中的功能实体的总数,并且n3表示与该效果相关的功能实体的数量。对于本领域技术人员而言明显的是,用于确定辨别力的方法不限于上述方法。
效果也可以被用来确定两个功能实体之间的相似度。在一种实施方式中,输入已被编索引的候选功能实体的集合。然后,对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点或设定-选项对的叶节点的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对或操作的动作-部件对的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数,并且通过比较该功能实体与每个已被编索引的候选功能实体的效果或效果的有序序列来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数。最后,根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。例如,可以通过使用加权平均法根据第四相似度分数、第五相似度分数和第六相似度分数来计算第三相似度分数。
可选地,在计算上述相似度分数(即,第一到第六相似度分数中的任何一个)之前,对于每个功能实体,可以通过在字面上比较该功能实体与已被编索引的候选功能实体来计算第七相似度分数。然后,仅仅在该第七相似度分数小于第五阈值的情况下计算第一到第六相似度分数。当第七相似度分数不小于第五阈值(即,它们的功能名几乎相同)时,可以在不计算第一到第六相似度分数的情况下将功能实体同索引。
在一种实施方式中,上述方法可以还包括:在提取步骤S720之前,通过使用首字母缩写词来扩展该功能实体。
在另一种实施方式中,上述方法可以还包括:在提取步骤S720之前,对于每个功能实体,找出该文档中的其中提及了该功能实体的所有区块。然后,可以从找出的其中提及了该功能实体的区块中提取至少一个装置状态转移。
图8是示出了根据本发明实施例的用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备800的框图。
如图8所示,用于表征文档中的功能实体的设备800包括:识别单元810和提取单元820。
更具体而言,识别单元810被配置为识别该文档中的功能实体。提取单元820被配置为,对于每个功能实体,从该文档中提取至少一个装置状态转移,其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
该设备800中的各个单元可以被配置为执行图7中的流程图所示出的各个步骤。
上述方法和设备可以被用于将一个文档或多个版本的文档中的功能实体消歧、将功能实体或文档聚类、将功能实体或文档归类或者搜索功能实体或文档。
接下来,我们将详细地描述这些应用。
(用于将功能实体消歧的方法和设备以及应用示例)
图9是示出了根据本发明的一个实施例的用于将在包括关于对装置进行操作的信息的文档中的功能实体消歧的方法的流程图。
如图9所示,在计算步骤S910中,对于每个功能实体,通过使用上述的用于表征功能实体的方法来计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数。
在输出步骤S920中,对于每个功能实体,输出n-best列表,该n-best列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
在仅提取设定-选项对的叶节点(或设定-选项对的叶节点的有序序列)的情况下,如上所述地计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
在仅提取设定-选项对的叶节点(或设定-选项对的叶节点的有序序列)以及动作-部件对(或动作-部件对的有序序列)的情况下,根据实际应用,可以如上所述地计算第一和第二相似度分数两者或者仅计算第一相似度分数。
在提取设定-选项对的叶节点(或设定-选项对的叶节点的有序序列)、动作-部件对(或动作-部件对的有序序列)以及效果的情况下,根据实际应用,可以如上所述地仅计算第一相似度分数或者仅计算第一和第二相似度分数或者计算全部第一、第二和第三相似度分数。
在一种实施方式中,输出步骤S920可以包括:对于每个功能实体,如果该n-best列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。此外,n-best列表中的每个相似度分数将与该阈值进行比较。
在一个具体示例中,输出步骤S920可以包括:
如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
计算第二相似度分数,并且如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
计算第三相似度分数,并且如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
给该功能实体指定一个新的标识符。
在另一种实施方式中,仅仅在第七相似度分数小于第五阈值的情况下执行计算步骤S910。当第七相似度分数不小于第五阈值(即,它们的功能名几乎相同)时,可以在不执行计算步骤S910的情况下将功能实体同索引。
图10是示出了根据本发明实施例的用于将在包括关于对装置进行操作的信息的文档中的功能实体消歧的设备100的框图。
如图10所示,用于将功能实体消歧的设备100包括:如图8所示的上述设备800以及输出单元110。
更具体而言,上述设备800被用于对于每个功能实体,计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数。输出单元110被配置为,对于每个功能实体,输出n-best列表,该n-best列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
该设备100中的各个单元可以被配置为执行图9中的流程图所示出的各个步骤。
接下来,我们给出一些示例来证明利用本发明得到的在功能实体消歧方面的极大的改进。在同一系列中的两个型号的数字式照相机的功能名被列出在表2中。如从表2中可以看到的,现有技术仅仅能够正确地消歧“自动包围曝光”(因为这两个型号中的功能名相同),但是本发明能够正确地将这三个功能名全部消歧。虽然功能#56和#98在两个型号中具有不同的名字,但是它们的关于<设定,选项>对、<动作,部件>对或效果的特征几乎相同。
Figure BDA00001989652500161
表2
上述的消歧方法和设备可以被用于问答系统、文档写作系统、机器翻译系统、推荐系统、本体构建系统等中。
[问答系统]
问答系统帮助在其中产品的所有系列的所有版本的手册被存储在一起的数据库上工作。将这些版本中的功能实体消歧使得能够有搜索和主题提取的高召回率。
在一种实施方式中,用于文档的问答系统的方法可以包括:输入文档的集合;对于每个文档,给功能实体编索引;通过使用上述的功能实体消歧方法来将多个文档中的功能实体消歧;输入问题;通过使用同索引的功能实体来扩展该问题;在该文档的集合中搜索扩展后的问题;通过使用同索引的功能实体在搜索结果中提取主题;以及回答。
[文档写作系统]
文档写作系统将为写作者提示一个功能可用的机器状态、操作和效果,并且使用同索引的功能实体来检验功能实体的文本和语义。
在一种实施方式中,用于文档写作系统的方法可以包括:输入文档的集合;对于每个文档,给功能实体编索引;通过使用上述的功能实体消歧方法来将多个文档中的功能实体消歧;由写作者创建一个新的文档;对于每个功能实体,通过使用同索引的功能实体来为写作者提示该功能可用的机器状态、操作和效果;对于每个功能实体,使用同索引的功能实体来检验该功能实体的文本和语义。
[机器翻译系统]
机器翻译系统将为翻译者提示一个功能可用的机器状态、操作和效果,并且使用同索引的功能实体来检验功能实体的文本和语义。
在一种实施方式中,用于机器翻译系统的方法可以包括:输入源语言和目标语言的文档的平行文集(parallel corpus);对于每个文档,给功能实体编索引;通过使用上述的功能实体消歧方法来将多个文档中的功能实体消歧;通过使用消歧后的功能实体来将平行文集对准;输入源语言的文档;以及通过使用对准的平行文集来翻译该文档。
[推荐系统]
关于推荐系统,不存在对于全新的型号可用的用户日志。将功能实体消歧使得能够将先前型号的用户日志用于推荐。
在一种实施方式中,用于推荐系统的方法可以包括:输入用户日志的集合和文档的集合;对于每个文档,给功能实体编索引;通过使用上述的功能实体消歧方法来将多个文档中的功能实体消歧;通过使用同索引的功能实体来扩展用户日志;以及通过使用扩展后的用户日志来进行推荐。
[本体构建系统]
在一种实施方式中,用于本体构建系统的方法可以包括:输入文档的集合;对于每个文档,给功能实体编索引;通过使用上述的功能实体消歧方法来将多个文档中的功能实体消歧;通过使用同索引的功能实体来构建本体。
(用于将功能实体或文档聚类的方法)
聚类意指将多个功能实体或文档分成n个组别。
图11示出了根据本发明实施例的用于将功能实体聚类的方法。
如图11所示,在步骤S1110中,输入与关于对装置进行操作的信息相关的功能实体的集合。然后,在步骤S1120中,通过使用如上所述的用于表征功能实体的方法来表征该功能实体的集合。接下来,在步骤S1130中,对于每个功能实体,通过比较该功能实体和该集合中的其它功能实体的装置状态转移来计算该功能实体与该集合中的其它功能实体之间的相似度分数。在步骤S1140中,基于相似度分数将功能实体聚类。例如,其间的相似度分数在一定阈值以上的功能实体可以被分到同一个集群中。在步骤S1150中,输出功能实体的集群。
图12示出了根据本发明实施例的用于将文档聚类的方法。
如图12所示,在步骤S1210中,输入包括关于对装置进行操作的信息的文档的集合。然后,在步骤S1220中,对于每个文档,通过使用如上所述的用于表征功能实体的方法来表征该文档中的功能实体。接下来,在步骤S1230中,对于一个文档中的每个功能实体,通过比较该功能实体和其它文档中的功能实体的装置状态转移来计算该功能实体与其它文档中的功能实体之间的相似度分数。在步骤S1240中,通过使用相应文档中的功能实体的相似度分数来将文档聚类。在步骤S1250中,输出文档的集群。
(用于将功能实体或文档归类的方法)
归类意指将输入的功能实体或文档归类为多个已知类别中的一个。
图13示出了根据本发明实施例的用于将功能实体归类的方法。
如图13所示,在步骤S1310中,输入要被归类的功能实体和用于将功能实体归类的模型,其中该要被归类的功能实体与关于对装置进行操作的信息相关,并且该用于将功能实体归类的模型基于上述的用于表征功能实体的方法来获得。然后,在步骤S1320中,通过使用上述的用于表征功能实体的方法来表征该要被归类的功能实体。在步骤S1330中,通过将该要被归类的功能实体的装置状态转移与该用于将功能实体归类的模型涉及的相应的装置状态转移进行比较,将该要被归类的功能实体归类。在步骤S1340中,输出该要被归类的功能实体的类别。
图14示出了根据本发明实施例的用于将文档归类的方法。
如图14所示,在步骤S1410中,输入要被归类的文档和用于将文档归类的模型,其中该要被归类的文档包括关于对装置进行操作的信息,并且该用于将文档归类的模型基于上述的用于表征功能实体的方法来获得。然后,在步骤S1420中,通过使用上述的用于表征功能实体的方法来表征该要被归类的文档中的功能实体。在步骤S1430中,通过将该要被归类的文档中的功能实体的装置状态转移与该用于将文档归类的模型涉及的相应的装置状态转移进行比较,将该要被归类的文档归类。在步骤S1440中,输出该要被归类的文档的类别。
(用于搜索功能实体或文档的方法)
图15示出了根据本发明实施例的用于搜索功能实体的方法。
如图15所示,在步骤S1510中,输入要搜索的功能实体和文档的集合,其中该要搜索的功能实体与关于对装置进行操作的信息相关,并且该集合中的文档包括关于对装置进行操作的信息。然后,在步骤S1520中,通过使用上述的用于表征功能实体的方法来表征该要搜索的功能实体和该文档的集合中的功能实体。在步骤S1530中,通过将该要搜索的功能实体的装置状态转移与该文档的集合中的功能实体的装置状态转移进行比较,计算该要搜索的功能实体与该文档的集合中的功能实体之间的相似度分数。如果存在任何大于阈值的相似度分数,则输出该文档的集合中的n个最相似的功能实体以及相应的相似度分数;否则,该要搜索的功能实体是独特的。
图16示出了根据本发明实施例的用于搜索文档的方法。
如图16所示,在步骤S1610中,输入要搜索的文档和文档的集合,其中该要搜索的文档和该集合中的文档包括关于对装置进行操作的信息。然后,在步骤S1620中,通过使用上述的用于表征功能实体的方法来表征该要搜索的文档和该文档的集合中的功能实体。在步骤S1630中,通过将该要搜索的文档中的功能实体的装置状态转移与该文档的集合中的功能实体的装置状态转移进行比较,计算该要搜索的文档中的功能实体与该文档的集合中的功能实体之间的相似度分数。在步骤S1640中,通过使用功能实体之间的相似度分数来计算该要搜索的文档与该文档的集合中包含的每个文档之间的相似度分数。如果存在任何大于阈值的文档间的相似度分数,则输出该文档的集合中的n个最相似的文档以及相应的相似度分数;否则,该要搜索的文档是独特的。
以上描述的所有单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些单元可以是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的单元。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
(具体示例)
接下来,我们将采取用于数字式照相机的手册作为文档的具体示例,并且通过示例的方式具体描述本发明的方法如何工作。请注意,如下所述的该具体示例仅仅出于便于理解本发明的目的。其不意图将本发明限制于该示例中的任何细节。
首先,输入用于具有型号A的数字式照相机的手册,并且还输入从先前版本的手册获得的已被编索引的候选功能实体的集合。在输入的手册中的两个样例页面被示出在图17中。来自先前版本的已被编索引的候选功能实体的样例被列出在表3中。
表3
识别输入的手册中的功能实体。如图17所示,输入的手册的第100页中的功能实体是“自定义图像特性”。
可选地,扩展该功能实体。但是没有找到该功能的首字母缩写词。
可选地,找出输入的手册中的其中提及了“自定义图像特性”的所有区块。识别出输入的手册的第100~101页上的内容是对于该功能实体的区块。
在字面上将“自定义图像特性”与表3中列出的已被编索引的候选功能实体中的每一个进行比较。该功能名和与具有型号B的照相机相关的“自定义图片样式”的功能名之间的相似度为33%,其低于预定阈值(例如,80%)。
然后,通过使用命名实体识别从找出的区块或者输入的手册中提取设定和选项,并且通过使用关系提取来提取<设定,选项>对。
与功能实体“自定义图像特性”相关的<设定,选项>森林被修剪为仅保留具有在找出的区块或者输入的手册中提及的<设定,选项>对的叶节点的路径。根据输入的手册中的说明产生该森林。图18示出了手册的被修剪前的森林的一部分。一个树是针对“图片样式”,而另一个树是针对“详细设定”屏幕。在找出的区块或者输入的手册中提及的叶节点被用实线连接,而没有提及的那些叶节点被用虚线连接。
在被修剪之后,在找出的区块或者输入的手册中没有被提及的叶节点被去除,如图19所示。
然后,叶节点被过滤。根据如上所述的公式(1),叶节点<[详细设定],可见>、<[滤光效果],[N:无]>、<[滤光效果],[Ye:黄色]>、<[调色效果],[N:无]>、<[调色效果],[S:棕褐色]的权重为0.8,其均在预定阈值(例如,0.8)以上,如图20所示。此外,由于设定[滤光效果]和[调色效果]都有多于一个选项的权重在预定阈值以上,因此对于每个设定仅仅保留第一个选项。然而,对于本领域技术人员而言很显然本发明不被限制于选择第一选项。在其中多于一个选项的权重在预定阈值以上并且相等的情况下,可以根据预定义的规则选择它们中的任意一个。例如,优选地,将选择第一个选项。
通过使用例如<设定,选项>对在找出的区块或输入的手册中被提及的顺序来将过滤后的叶节点序列化。如图20所示,前3个叶节点被序列化为:<[详细设定],可见>;<[滤光效果],[N:无]>;<[调色效果],[N:无]>。
然后,通过使用机器状态的<设定,选项>对的最有辨别力的3个叶节点的有序序列来将功能实体“自定义图像特性”与表3中列出的已被编索引的功能实体中的每一个进行比较。然后,可以计算该有序序列与来自表3中列出的“自定义图片样式”的有序序列之间的第一相似度分数,其为100%并且大于预定的阈值(例如,80%)。因此,这两个功能实体(即,型号A中的“自定义图像特性”和型号B中的“自定义图片样式”)被合并,即,被同索引。型号A中的功能实体“自定义图像特性”被同索引为#98。
输出型号A中的功能实体“自定义图像特性”的ID,即#98。
由于第一相似度分数大于预定的阈值,因此功能实体可以被同索引,而不需要提取<动作,部件>对和效果的有序序列。然而,为了示出提取<动作,部件>对和效果的有序序列的详细示例,在该示例中,我们仍然提取<动作,部件>对和效果的有序序列,并且然后通过使用<动作,部件>对和效果的有序序列来比较功能实体。
随后,通过使用命名实体识别来从找出的区块或输入的手册中提取动作和部件。然后,通过使用关系提取来提取<动作,部件>对。
然后,过滤<动作,部件>对。根据上述的公式(2),<动作,部件>对的权重被指定如下:<按压,
Figure BDA00001989652500231
>/0.9;<选择,[图片样式]>/0.8;<按压,[INFO]>/0.5;<选择,参数>/0.2;<按压,
Figure BDA00001989652500232
>/0.2;<按压,
Figure BDA00001989652500233
>/0.1;<按压,[菜单]>/0.5。仅仅<按压,>和<选择,[图片样式]>在预定阈值(例如,0.8)以上。
通过使用例如<动作,部件>对在找出的区块或输入的手册中被提及的顺序来将过滤后的<动作,部件>对序列化。前2个<动作,部件>对被序列化为:<按压,
Figure BDA00001989652500235
>→<选择,[图片样式]>。
然后,通过使用操作的最有辨别力的<动作,部件>对的有序序列来将“自定义图像特性”与表3中列出的已被编索引的功能实体中的每一个进行比较。然后,可以计算该序列与来自表3中列出的“自定义图片样式”的序列之间的相似度分数,其为50%。
随后,与“自定义图像特性”的区块中的效果相关的项被提取和过滤。根据上述的公式(3),项“图片样式”、“单色”和“色调”具有最大的权重。
输出最有辨别力的效果的有序序列,即,“图片样式”、“单色”和“色调”。
然后,通过使用最有辨别力的效果的有序序列来将“自定义图像特性”与表3中列出的已被编索引的功能实体中的每一个进行比较。并且然后,可以计算该序列与来自表3中列出的“自定义图片样式”的序列之间的相似度分数,其为100%。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其它方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims (36)

1.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法,包括:
a)识别该文档中的功能实体;以及
b)对于每个功能实体,从该文档中提取至少一个装置状态转移;以及
其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
2.根据权利要求1所述的方法,其中步骤b)包括:
b1)获得与该功能实体相关的设定-选项对的森林;
b2)基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移;
其中,该与装置的状态相关的实体是设定和选项;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系。
3.根据权利要求2所述的方法,其中步骤b)包括:
b3)从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移;
其中,该与装置的状态相关的实体是设定、选项、动作和部件;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
4.根据权利要求3所述的方法,其中步骤b)包括:
b4)输入包括该装置的相应功能的效果的字典;
b5)从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移;
其中,该与装置的状态相关的实体是设定、选项、动作、部件和效果;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
5.根据权利要求2所述的方法,还包括:
c)输入已被编索引的候选功能实体的集合;
d)对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
6.根据权利要求3所述的方法,还包括:
c)输入已被编索引的候选功能实体的集合;
对于每个功能实体,
d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数;
e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;以及
f)根据第四相似度分数和第五相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。
7.根据权利要求4所述的方法,还包括:
c)输入已被编索引的候选功能实体的集合;
对于每个功能实体,
d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数;
e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;
f)通过比较该功能实体与每个已被编索引的候选功能实体的效果来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数;以及
g)根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。
8.根据权利要求5到7中的任意一项所述的方法,还包括:
对于每个功能实体,在步骤d)之前,通过在字面上将该功能实体与已被编索引的候选功能实体进行比较来计算第七相似度分数;并且在该第七相似度分数小于阈值的情况下执行步骤d)及其后续步骤。
9.根据权利要求2到7中的任意一项所述的方法,其中,步骤b2)包括:
b21)通过使用命名实体识别来从该文档中提取设定和选项;
b22)通过使用关系提取来提取设定-选项对;以及
b23)修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。
10.根据权利要求9所述的方法,其中步骤b2)还包括:
b24)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。
11.根据权利要求10所述的方法,其中步骤b24)包括:
基于设定-选项对的辨别力来过滤前n个设定-选项对的叶节点;以及
通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个叶节点序列化,以便获得设定-选项对的叶节点的有序序列;
其中一个设定-选项对的辨别力被定义为:
d 1 = f 1 * log ( t n 1 )
其中d1表示该设定-选项对的辨别力,f1表示该设定-选项对的频率,t表示该文档中的功能实体的总数,并且n1表示与该设定-选项对相关的功能实体的数量。
12.根据权利要求3到4和6到7中的任意一项所述的方法,其中步骤b3)包括:
b31)通过使用命名实体识别来从该文档中提取动作和部件;以及
b32)通过使用关系提取来提取动作-部件对。
13.根据权利要求12所述的方法,其中步骤b3)还包括:
b33)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。
14.根据权利要求13所述的方法,其中步骤b33)包括:
基于动作-部件对的辨别力来过滤前n个动作-部件对;
通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个动作-部件对序列化,以便获得操作的动作-部件对的有序序列;
其中一个动作-部件对的辨别力被定义为:
d 2 = f 2 * log ( t n 2 )
其中d2表示该动作-部件对的辨别力,f2表示该动作-部件对的频率,t表示该文档中的功能实体的总数,并且n2表示与该动作-部件对相关的功能实体的数量。
15.根据权利要求4或7所述的方法,其中步骤b5)包括:
基于与该功能实体相关的效果的辨别力来过滤前n个与该功能实体相关的效果;
其中,一个效果的辨别力被定义为:
d 3 = f 3 * log ( t n 3 )
其中d3表示该效果的辨别力,f3表示该效果的频率,t表示该文档中的功能实体的总数,并且n3表示与该效果相关的功能实体的数量。
16.一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的方法,包括:
计算步骤,对于每个功能实体,通过使用根据权利要求5到15中的任意一项所述的方法来计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数;
输出步骤,对于每个功能实体,输出n个最好的列表,该n个最好的列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
17.根据权利要求16所述的方法,其中该输出步骤包括:
对于每个功能实体,如果该n个最好的列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。
18.根据权利要求17所述的方法,其中该输出步骤包括:
如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
给该功能实体指定一个新的标识符。
19.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备,包括:
单元a),被配置为识别该文档中的功能实体;以及
单元b),被配置为,对于每个功能实体,从该文档中提取至少一个装置状态转移;以及
其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
20.根据权利要求19所述的设备,其中该单元b)包括:
单元b1),被配置为获得与该功能实体相关的设定-选项对的森林;
单元b2),被配置为基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移;
其中,该与装置的状态相关的实体是设定和选项;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系。
21.根据权利要求20所述的设备,其中单元b)包括:
单元b3),被配置为从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移;
其中,该与装置的状态相关的实体是设定、选项、动作和部件;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
22.根据权利要求21所述的设备,其中单元b)包括:
单元b4),被配置为输入包括该装置的相应功能的效果的字典;
单元b5),被配置为从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移;
其中,该与装置的状态相关的实体是设定、选项、动作、部件和效果;以及
该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
23.根据权利要求20所述的设备,还包括:
单元c),被配置为输入已被编索引的候选功能实体的集合;
单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
24.根据权利要求21所述的设备,还包括:
单元c),被配置为输入已被编索引的候选功能实体的集合;
单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数;
单元e),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;以及
单元f),被配置为对于每个功能实体,根据第四相似度分数和第五相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。
25.根据权利要求22所述的设备,还包括:
单元c),被配置为输入已被编索引的候选功能实体的集合;
单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数;
单元e),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;
单元f),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的效果来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数;以及
单元g),被配置为对于每个功能实体,根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。
26.根据权利要求23到25中的任意一项所述的设备,还包括:
被配置为对于每个功能实体通过在字面上将该功能实体与已被编索引的候选功能实体进行比较来计算第七相似度分数的单元;并且
在该第七相似度分数小于阈值的情况下单元d)及其后续单元执行相应的处理。
27.根据权利要求20到25中的任意一项所述的设备,其中,单元b2)包括:
单元b21),被配置为通过使用命名实体识别来从该文档中提取设定和选项;
单元b22),被配置为通过使用关系提取来提取设定-选项对;以及
单元b23),被配置为修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。
28.根据权利要求27所述的设备,其中单元b2)还包括:
单元b24),被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。
29.根据权利要求28所述的设备,其中单元b24)包括:
被配置为基于设定-选项对的辨别力来过滤前n个设定-选项对的叶节点的单元;以及
被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个叶节点序列化以便获得设定-选项对的叶节点的有序序列的单元;
其中一个设定-选项对的辨别力被定义为:
d 1 = f 1 * log ( t n 1 )
其中d1表示该设定-选项对的辨别力,f1表示该设定-选项对的频率,t表示该文档中的功能实体的总数,并且n1表示与该设定-选项对相关的功能实体的数量。
30.根据权利要求21到22和24到25中的任意一项所述的设备,其中单元b3)包括:
单元b31),被配置为通过使用命名实体识别来从该文档中提取动作和部件;以及
单元b32),被配置为通过使用关系提取来提取动作-部件对。
31.根据权利要求30所述的设备,其中单元b3)还包括:
单元b33),被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。
32.根据权利要求31所述的设备,其中单元b33)包括:
被配置为基于动作-部件对的辨别力来过滤前n个动作-部件对的单元;
被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前n个动作-部件对序列化以便获得操作的动作-部件对的有序序列的单元;
其中一个动作-部件对的辨别力被定义为:
d 2 = f 2 * log ( t n 2 )
其中d2表示该动作-部件对的辨别力,f2表示该动作-部件对的频率,t表示该文档中的功能实体的总数,并且n2表示与该动作-部件对相关的功能实体的数量。
33.根据权利要求22或25所述的设备,其中单元b5)包括:
被配置为基于与该功能实体相关的效果的辨别力来过滤前n个与该功能实体相关的效果的单元;
其中,一个效果的辨别力被定义为:
d 3 = f 3 * log ( t n 3 )
其中d3表示该效果的辨别力,f3表示该效果的频率,t表示该文档中的功能实体的总数,并且n3表示与该效果相关的功能实体的数量。
34.一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的设备,包括:
根据权利要求23到33中的任意一项所述的设备,用于对于每个功能实体,计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数;以及
输出单元,被配置为,对于每个功能实体,输出n个最好的列表,该n个最好的列表示出了具有最高的n个相似度分数的已被编索引的候选功能实体。
35.根据权利要求34所述的设备,其中该输出单元被配置为:
对于每个功能实体,如果该n个最好的列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。
36.根据权利要求35所述的设备,其中该输出单元被配置为:
如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则
给该功能实体指定一个新的标识符。
CN201210281408.1A 2012-08-09 2012-08-09 用于表征功能实体的和用于将功能实体消歧的方法和设备 Pending CN103577491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210281408.1A CN103577491A (zh) 2012-08-09 2012-08-09 用于表征功能实体的和用于将功能实体消歧的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210281408.1A CN103577491A (zh) 2012-08-09 2012-08-09 用于表征功能实体的和用于将功能实体消歧的方法和设备

Publications (1)

Publication Number Publication Date
CN103577491A true CN103577491A (zh) 2014-02-12

Family

ID=50049288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210281408.1A Pending CN103577491A (zh) 2012-08-09 2012-08-09 用于表征功能实体的和用于将功能实体消歧的方法和设备

Country Status (1)

Country Link
CN (1) CN103577491A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106852177A (zh) * 2014-10-06 2017-06-13 瑞士再保险有限公司 基于一致性测量值的用于数据对象的基于模式识别的监测和受控处理的系统和方法
CN107515851A (zh) * 2016-06-16 2017-12-26 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
CN109271621A (zh) * 2017-07-18 2019-01-25 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN112991211A (zh) * 2021-03-12 2021-06-18 中国大恒(集团)有限公司北京图像视觉技术分公司 一种工业相机暗角校正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144609A1 (en) * 2007-10-17 2009-06-04 Jisheng Liang NLP-based entity recognition and disambiguation
US20110246492A1 (en) * 2010-03-30 2011-10-06 International Business Machines Corporation Life arcs as an entity resolution feature
CN102236640A (zh) * 2006-03-31 2011-11-09 谷歌公司 命名实体的消歧

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236640A (zh) * 2006-03-31 2011-11-09 谷歌公司 命名实体的消歧
US20090144609A1 (en) * 2007-10-17 2009-06-04 Jisheng Liang NLP-based entity recognition and disambiguation
US20110246492A1 (en) * 2010-03-30 2011-10-06 International Business Machines Corporation Life arcs as an entity resolution feature

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSEPTH HASSELL: "Ontology-Driven Automatic Entity Disambiguation in Unstructured Text", 《PROCEEDINGS OF 5TH INTERNATIONAL SEMANTIC WEB CONFERENCE》 *
罗芳 等: "基于本体的产品命名实体识别研究", 《武汉理工大学学报·信息与管理工程版》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106852177A (zh) * 2014-10-06 2017-06-13 瑞士再保险有限公司 基于一致性测量值的用于数据对象的基于模式识别的监测和受控处理的系统和方法
CN106852177B (zh) * 2014-10-06 2021-07-13 瑞士再保险有限公司 基于一致性测量值的用于数据对象的基于模式识别的监测和受控处理的系统和方法
CN107515851A (zh) * 2016-06-16 2017-12-26 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
CN109271621A (zh) * 2017-07-18 2019-01-25 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN109271621B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN112991211A (zh) * 2021-03-12 2021-06-18 中国大恒(集团)有限公司北京图像视觉技术分公司 一种工业相机暗角校正方法

Similar Documents

Publication Publication Date Title
US10885323B2 (en) Digital image-based document digitization using a graph model
US8352405B2 (en) Incorporating lexicon knowledge into SVM learning to improve sentiment classification
Quelhas et al. A thousand words in a scene
Li et al. Bootstrapping visual categorization with relevant negatives
CN107463548B (zh) 短语挖掘方法及装置
Yang et al. Mining multi-tag association for image tagging
US20150199567A1 (en) Document classification assisting apparatus, method and program
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
Kelm et al. Multi-modal, multi-resource methods for placing flickr videos on the map
Bougiatiotis et al. Content representation and similarity of movies based on topic extraction from subtitles
CN103577491A (zh) 用于表征功能实体的和用于将功能实体消歧的方法和设备
Ghosh et al. Improving information retrieval performance on OCRed text in the absence of clean text ground truth
US20210232615A1 (en) Systems and method for generating a structured report from unstructured data
CN113992944A (zh) 视频编目方法、装置、设备、系统及介质
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
US11960548B2 (en) System and method for genealogical entity resolution
CN107391613B (zh) 一种工业安全主题多文档自动消歧方法及装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
Fabo et al. Mapping the Bentham Corpus: concept-based navigation
Carvalho et al. Extracting semantic meaning from photographic annotations using a hybrid approach
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same
CN112487160B (zh) 技术文档溯源方法及装置、计算机设备、计算机存储介质
Passaro et al. Less is MORE: a MultimOdal system for tag REfinement
da Silva et al. Mining Journals to the Ground: An Exploratory Analysis of Newspaper Articles.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20171024

AD01 Patent right deemed abandoned