CN103729381A - 用于识别系列文档中的语义信息的方法和设备 - Google Patents

用于识别系列文档中的语义信息的方法和设备 Download PDF

Info

Publication number
CN103729381A
CN103729381A CN201210392483.5A CN201210392483A CN103729381A CN 103729381 A CN103729381 A CN 103729381A CN 201210392483 A CN201210392483 A CN 201210392483A CN 103729381 A CN103729381 A CN 103729381A
Authority
CN
China
Prior art keywords
entity
items
document
item
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210392483.5A
Other languages
English (en)
Inventor
黄耀海
李荣军
胡钦谙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201210392483.5A priority Critical patent/CN103729381A/zh
Publication of CN103729381A publication Critical patent/CN103729381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了用于识别系列文档中的语义信息的方法和设备。该方法包括:a)识别系列文档中的每个文档中的实体项;b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;c)计算所映射的实体项之间的相似度;d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。利用本发明,可以从系列文档中提取语义信息,这将有助于对系列文档的智能处理和分析。

Description

用于识别系列文档中的语义信息的方法和设备
技术领域
本发明涉及自然语言理解和数据挖掘领域,并且更特别地涉及用于识别系列文档中的语义信息的方法和设备。 
背景技术
许多类型的文档表现出系列性质。这种文档包括,例如:产品手册,其中系列指的是产品的系列;会议记录,其中系列指的是具有类似主题的会议的时序;网站,其中系列指的是更新的序列;操作指南,其中系列指的是产品的系列;说明书,其中系列指的是更新的版本的系列;技术报告,其中系列指的是具有类似技术细节的报告的时序;等等。 
在系列文档中隐藏有许多语义信息。以一个版本的产品手册中的功能为例,关于该功能的典型的语义信息包括:该功能是否是更新功能,该功能是否是可选或特殊功能,该功能是否是在某一时段期间快速革新的功能,等等。 
识别系列文档中的语义信息是非常有意义的,并且对于较宽范围的应用(诸如,问答推荐、手册写作辅助、对于产品功能的生命周期分析辅助等)也是至关紧要的。 
迄今为止,在本领域中没有用于识别系列文档中的上述语义信息的完整的解决方案。仅仅存在用于解决一些有关任务的技术。例如,美国专利申请No.2009/0112825和美国专利申请No.2009/0119336已经提出了用于基于公司的随时间的商业关系变化来检测公司之间的重要的商业事件的技术。然而,这些专利申请不能被用来从系列文档中挖掘事件。 
Eamonn Keogh和Shruti Kasetty的论文(“On the Need for Time Series Data Mining Benchmarks:A Survey and EmpiricalDemonstration”,Data Mining and Knowledge Discovery,7(4),2003)已经总结了许多用于挖掘随时间变化的数据的技术。然而,该论文没有提出挖掘系列文档中的上述语义信息(诸如关于产品手册中的功能的语义信息)的技术。 
发明内容
因此,需要用于识别系列文档中的语义信息的方法和设备。 
为了解决上述技术问题,本发明提供了一种用于识别系列文档中的语义信息的方法,其包括如下步骤:a)识别系列文档中的每个文档中的实体项(item);b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;c)计算所映射的实体项之间的相似度;d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。 
另外,为了解决上述技术问题,本发明提供了一种用于识别系列文档中的语义信息的设备,其包括:单元a),被配置为识别系列文档中的每个文档中的实体项;单元b),被配置为将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;单元c),被配置为计算所映射的实体项之间的相似度;单元d),被配置为从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。 
利用根据本发明的上述方法和设备,可以从系列文档中提取语义信息,这将有助于对系列文档的智能处理和分析。 
根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。 
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。 
图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。 
图2是示出了根据本发明的一个实施例的用于识别系列文档中的语义信息的方法的流程图。 
图3示出了链形拓扑图的一个示例。 
图4示出了链形拓扑图的另一个示例。 
图5(a)~5(d)示出了用于从链形拓扑图中提取文档的数量相对于时间的函数的示例性的过程。 
图6示出了具有所有可能的连接的相似度图的示例。 
图7(a)~7(d)示出了通过使用最大生成树(maximum spanningtree)方法来构造树形拓扑图的示例性过程。 
图8(a)和图8(b)示出了具有时间信息的树形拓扑图的两个示例。 
图9是示出了根据本发明一个实施例的用于识别系列文档中的语义信息的设备的框图。 
图10示出了根据本发明实施例的用于问答推荐的方法。 
图11示出了根据本发明实施例的用于手册写作辅助的方法。 
图12示出了根据本发明实施例的用于对于产品功能的生命周期分析辅助的方法。 
图13示出了从输入的问题识别出的功能的生命周期曲线的示例。 
图14示出了作为系列文档之一的照相机手册中的示例性页面的一部分。 
具体实施方式
下面将参考附图来详细描述本发明的优选的实施例。不是本发明 必需的细节和功能被省略,以便不会混淆本发明的理解。 
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。 
在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。 
(计算机系统的硬件配置) 
图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。 
如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。 
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。 
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。 
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。 
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。 
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172, 以及调制解调器1172经由广域网1173连接到远程计算机1180。 
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。 
视频接口1190连接到监视器1191。 
输出外围接口1195连接到打印机1196和扬声器1197。 
图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。 
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。 
(用于识别系列文档中的语义信息的方法) 
图2是示出了根据本发明的一个实施例的用于识别系列文档中的语义信息的方法的流程图。 
如图2所示,在步骤S210中,识别系列文档中的每个文档中的实体项。 
如上所述,该系列文档可以是产品手册、会议记录、操作指南、说明书和技术报告中的任何一种。 
在一种实施方式中,系列文档是一系列产品手册(诸如用于照相机的手册),并且实体项可以包括产品功能、部件或操作步骤。 
图14仅仅出于示例的目的示出了作为系列文档之一的照相机手册中的示例性页面的一部分。 
在一种实施方式中,步骤S210可以包括:识别实体项的名字和类型。在该情形中,从图14示出的示例性页面中识别出的示例性实体项可以以下面的数据结构的形式被存储: 
  名字:笑容检测
  类型:功能
在步骤S220中,将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射。 
“对应的实体项”可以指的是其名字、功能和/或类型与所识别的实体项相同或基本相同的实体项。 
可以通过使用简单的字符串匹配算法或者通过使用现有的自然语言处理方法(诸如,释义(paraphrasing)或者命名实体消歧方法)来执行映射系列文档中的对应实体项。 
在步骤S230中,计算所映射的实体项之间的相似度。 
“相似度”意指所映射的实体项中的两个实体项(即,识别出的实体项与所有的其对应的实体项)之间的相似度。所映射的实体项之间的相似度根据实际应用可以包括所映射的实体项中的每两个实体项之间的相似度的一部分或全部。 
在一种实施方式中,在步骤S230之前,为了精确地计算相似度,可以通过使用文档的结构(诸如,产品手册的XML结构)或者通过使用现有的自然语言处理方法(诸如,命名实体识别方法或者事件提取方法)来从系列文档或者外部资源(诸如网站等)中提取实体项有关的信息。然后,通过使用所提取的实体项有关的信息来计算所映射的实体项之间的相似度。优选地,实体项有关的信息包括:实体项的场景、实体项的效果、或者实体项的操作步骤。从图14示出的示例性页面中提取的示例性的实体项有关的信息可以以下面的数据结构的形式被存储: 
  场景:检测笑容
  效果:拍摄许多次
  操作步骤:选择……;指向……
另外,可以通过使用现有的文本相似度计算方法(诸如,基于余弦相似度的计算方法、基于最小编辑距离的方法等等)来计算所映射的实体项之间的相似度。 
请注意,对于本领域技术人员而言明显的是,用于上述相似度的计算方法不限于上面列出的方法,而可以是本领域中的任何公知的方法。 
在步骤S240中,从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息。所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成。此外,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。 
在一种实施方式中,描述稳定程度的语义信息包括以下中的至少一个:序列有关的语义信息(sequence related semantic information)和时序有关的语义信息(time-series related semantic information)。 
序列有关的语义信息的示例可以包括以下中的至少一个:更新实体项(renew item)、消失或减少实体项(disappeared or decreasingitem)、可选或特殊实体项(optional or special item)、稳定实体项(standard item)、始祖实体项(ancestor item)和集成实体项(integrated item)。 
时序有关的语义信息的示例可以包括以下中的至少一个:成熟时刻实体项(maturation time item)、发展时刻实体项(developing timeitem)、衰退时刻实体项(declining time item)、成熟时段实体项(maturation period item)、发展时段实体项(developing period item)和衰退时段实体项(declining period item)。 
更新实体项指的是在所提及的文档中被显著地更新的实体项。 
消失或减少实体项指的是所提及的文档中的将在随后的文档中被显著地改变的实体项。 
可选或特殊实体项指的是在所提及的文档中的临时的实体项。 
稳定实体项指的是在所提及的文档中的重要且稳定的实体项。 
始祖实体项指的是在所提及的文档中是里程碑的实体项。 
集成实体项指的是在所提及的文档中的基于多个不同的文档革新的实体项。 
成熟时刻实体项指的是在该时刻被平稳地革新的实体项。 
发展时刻实体项指的是在该时刻被快速地革新的实体项。 
衰退时刻实体项指出存在错误的东西,其阻碍在该时刻的实体项的革新。 
成熟时段实体项指的是在该时段期间平稳地革新的实体项。 
发展时段实体项指的是在该时段期间快速地革新的实体项。 
衰退时段实体项指出存在错误的东西,其阻碍在该时段期间的实体项的革新。 
“N”不大于所映射的实体项的总数,即,可以根据实际情形等于或小于总数。此外,所映射的实体项中的两个实体项之间的关系与其之间的相似度有关。该关系可以通过利用权重对相似度进行加权而获得,该权重诸如为用户信息或产品的流行程度,其可以根据实际情形或应用而被预先定义。 
为了更容易地提取有意义的信息,可以使用链形拓扑图或树形拓 扑图来表示序列关系结构。实际上,链形拓扑图可以被视为一种特殊类型的树形拓扑图,其是没有任何分枝的树形拓扑图。 
对于本领域技术人员而言明显的是,序列关系结构不限于上述的两种图。序列关系结构可以根据实际应用而被表征为由用户自定义的其它类型的图。 
接下来,我们将以链形拓扑图或树形拓扑图为例来详细描述如何从序列关系结构中提取描述稳定程度的语义信息。 
[链形拓扑图(chain form topological graph)] 
连续性是系列文档的最重要的自然特性之一。在大多数的情况下,所提及的文档中的实体项与其在最接近的后续文档中的实体项最相似。基于该特性,可以通过将所提及的文档中的实体项仅仅与其在最接近的后续文档中的映射的实体项连接来构造链形拓扑图。 
因此,在步骤S240中,首先,通过将每个文档中的实体项与其在最接近的后续文档中的映射的实体项连接来创建链形拓扑图。链形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点。所述链形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述链形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。 
链形拓扑图的示例被示出在图3中。在图3中,“v1”到“v5”以从较旧版本到较新版本的顺序依次分别表示五个系列文档,并且同时也表示相应文档中的所映射的实体项。边上的“w1”到“w4”分别表示所连接的两个所映射的实体项之间的相似度或者与所连接的两个所映射的实体项之间的相似度有关的权重。边的箭头的方向是从较旧版本到较新版本的,也就是说,指出所映射的实体项之间的关系。 
然后,可以从链形拓扑图中提取序列特征和/或时间特征。作为描述稳定程度的语义信息,可以分别从所提取的序列特征和/或所提取的时间特征中获得序列有关的语义信息和/或时序有关的语义信息。 
序列特征仅仅与系列文档之间的序列关系有关,但是不会包含关 于每个文档的具体的时间信息。 
在一种实施方式中,对于每个文档中的实体项,序列特征可以包括:该文档中的实体项与其在最接近的在先文档中的映射的实体项之间的权重值WVNP,以及该文档中的实体项与其在最接近的后续文档中的映射的实体项之间的权重值WVNS。 
在如图4所示的链形拓扑图的示例中,对于文档v2中的实体项,其WVNP值为0.1并且其WVNS值为0.2。 
对于每个文档中的实体项,所获得的序列有关的语义信息可以包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项和稳定实体项。 
表1示出了序列特征与序列有关的语义信息之间的对应性的一个示例。另外,表1作为一个示例示出了从图4中的链形拓扑图提取的序列有关的语义信息。表1中的“Th1”到“Th3”是一组预定的阈值。 
Figure BDA00002259642300101
表1 
从表1中可以看到,所获得的序列有关的语义信息包括: 
更新实体项,在权重值WVNP低于第一阈值Th1的情况下; 
消失或减少实体项,在权重值WVNS低于第二阈值Th2的情况下; 
可选或特殊实体项,在权重值WVNP和权重值WVNS分别低于第一阈值Th1和第二阈值Th2的情况下;以及 
稳定实体项,在权重值WVNP和权重值WVNS中的任一个高于第三阈值Th3的情况下。 
对应于序列特征,时间特征会包含关于每个文档的特定时间信息。 
在一种实施方式中,对于每个文档中的实体项,时间特征可以包括:文档的数量相对于时间的函数。 
优选地,可以通过使用邻域平均(neighbourhood average)方法来提取文档的数量相对于时间的函数,该邻域平均方法包括如图5(a)~5(d)所示的以下过程。 
如图5(a)所示,获得具有时间信息的链形拓扑图的示例。 
然后,通过使用移动的窗函数来计算时间段中的文档的数量(NOD)。可以基于实际情形或目的来选择窗函数,诸如矩形窗、高斯窗、三角窗等。为了简单起见,在该示例中使用矩形窗。图5(b)示出了对于矩形窗的移动过程,并且图5(c)示出了计算结果。 
然后,使用合适的平滑函数(诸如多项式函数)来拟合NOD。图5(d)示出了平滑后的结果,即,被用来拟合NOD的结果的平滑函数f。 
在该示例中,如图5(d)所示,对于每个文档中的实体项,所获得的在预定时间点处的时序有关的语义信息可以包括以下中的至少一个:发展时刻实体项、成熟时刻实体项以及衰退时刻实体项。 
表2示出了时间特征与时序有关的语义信息之间的对应性的示例。另外,表2作为一个示例示出了关于图5中的每个所映射的实体项的时序有关的语义信息。表2中的函数“f(t)”指的是被用来拟合NOD的结果的上述平滑函数,并且“f’(t)”指的是函数“f(t)”的导 数。表2中的“Th4”到“Th7”是一组预定的阈值。 
Figure BDA00002259642300121
表2 
从表2中可以看到,所获得的在预定时间点处的时序有关的语义信息可以包括: 
发展时刻实体项,在文档的数量在预定时间点处显著地增大的情况下; 
成熟时刻实体项,在文档的数量在预定时间点处稳定的情况下;或者 
衰退时刻实体项,在文档的数量在预定时间点处显著地减少的情况下。 
[树形拓扑图(tree form topological graph)] 
在一些特殊情况下,所提及的文档中的实体项不是与其在最接近的后续文档中的对应实体项最相似。因此,需要构造更一般的图,即,树形拓扑图。树形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点。所述树形拓扑图的所述多个顶点分别表示所映射的实体项。所述树形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。 
需要能够识别全局最优的树形拓扑图的合适的方法。一种用于实现树形拓扑图的示例性方法是最大生成树(maximum spanning tree,MST)方法。图的生成树(ST)是由图中的所有顶点和连接顶点以使得没 有环路的一组边组成的树。MST是图的使树中的所有边的分数的和最大的ST。 
作为一种简单的方法的Kruskal算法可以被用来从具有所有可能的连接的图G来创建MST。Kruskal算法的过程如下。 
1)将图G的边按权重减小的顺序排序。让T为构造最大权重生成树的边的集合。设
Figure BDA00002259642300131
2)将第一条边(即,具有最大权重的边)添加到T。 
3)仅在下一条边不会在T中形成环路的情况下将下一条边添加到T。如果没有剩余的边,则报告G是断开的。 
如果T具有n-1条边(其中n是G中的顶点的数量),则过程停止并且输出T。否则,过程回到步骤3)。 
基于如图6所示的具有所有可能的连接的图G,如图7(a)~7(d)所示地逐步地构造树形拓扑图的示例。 
在图6中,“v1”到“v5”以从较旧版本到较新版本的顺序依次分别表示五个系列文档,并且同时也表示相应文档中的所映射的实体项。边上的数字分别表示与所连接的两个所映射的实体项之间的相似度有关的权重。边的箭头的方向是从较旧版本到较新版本的,也就是说,指出所映射的实体项之间的关系。 
首先,图6的相似度图的边以权重减小的顺序被排序。即,0.9、0.8、0.7、0.6、0.5、0.5、0.5、0.5、0.4、0.3。 
然后,第一条边(权重=0.9)被添加到T,如图7(a)所示。 
然后,第二条边(权重=0.8)被添加到T,如图7(b)所示。 
然后,第三条边(权重=0.7)被添加到T,如图7(c)所示。 
然后,第四条边(权重=0.6)被添加到T,如图7(d)所示。 
到此,T具有n-1(即,4)条边,因此过程结束,并且创建了最大生成树形拓扑图T。 
虽然上面的示例已经描述了被用来创建树形拓扑图的最大生成树方法,但是对于本领域技术人员而言明显的是,树形拓扑图的创建方法不限于此。 
然后,可以从树形拓扑图中提取序列特征和/或时间特征。作为描述稳定程度的语义信息,可以分别从所提取的序列特征和/或所提取的时间特征中获得序列有关的语义信息和/或时序有关的语义信息。 
序列特征仅仅与系列文档之间的序列关系有关,但是不会包含关于每个文档的具体的时间信息。 
在一种实施方式中,对于每个文档中的实体项,序列特征可以包括:表示该文档中的实体项的顶点的入度值、该顶点的出度值、或者该顶点的入度值和出度值之间的差。 
在如图7(d)所示的树形拓扑图的示例中,对于文档v2中的实体项,其入度值为1,其出度值为1,并且入度值与出度值之间的差为0。 
对于每个文档中的实体项,所获得的序列有关的语义信息可以包括以下中的至少一个:更新实体项、可选或特殊实体项、始祖实体项以及集成实体项。 
表3示出了序列特征与序列有关的语义信息之间的对应性的示例。另外,表3作为示例示出了来自图7(d)中的树的序列有关的语义信息。在表3中,“ID”表示顶点的入度值,而“TD”表示顶点的出度值。表3中的“Th8”和“Th9”是两个预定的阈值。 
Figure BDA00002259642300141
表3 
从表3中可以看到,所获得的序列有关的语义信息可以包括: 
更新实体项,在入度值低于第八阈值Th8的情况下; 
可选或特殊实体项,在出度值低于第九阈值Th9的情况下; 
始祖实体项,在出度值高于入度值的情况下;以及 
集成实体项,在出度值低于入度值的情况下。 
对应于序列特征,时间特征会包含关于每个文档的特定时间信息。 
在一种实施方式中,对于每个文档中的实体项,时间特征可以包括:每个文档的时间、以及树形拓扑图的顶点的出度值。 
在该示例中,对于每个文档中的实体项,所获得的在继基准时间点(reference time point)之后的预定时段期间的时序有关的语义信息可以包括以下中的至少一个:发展时段实体项、成熟时段实体项和衰退时段实体项。 
表4示出了时间特征与时序有关的语义信息之间的对应性的示例。另外,表4作为示例示出了来自图8(a)中的树(与图7(d)相同的具有时间信息的树)和图8(b)中的树的时序有关的语义信息。在表4中,“TD(t)”表示时间t处的顶点的出度值。 
Figure BDA00002259642300151
表4 
从表4中可以看到,所获得的在继基准时间点之后的预定时段期 间的时序有关的语义信息可以包括: 
成熟时段实体项,在基准时间点处的文档的出度值等于在基准时间点之前的时间点处的文档的出度值的情况下; 
发展时段实体项,在基准时间点处的文档的出度值高于在基准时间点之前的时间点处的文档的出度值的情况下;或者 
衰退时段实体项,在基准时间点处的文档的出度值低于在基准时间点之前的时间点处的文档的出度值的情况下。 
(用于识别系列文档中的语义信息的设备) 
图9是示出了根据本发明一个实施例的用于识别系列文档中的语义信息的设备900的框图。 
如图9所示,用于识别系列文档中的语义信息的设备900包括:识别单元910、映射单元920、计算单元930和提取单元940。 
更具体而言,识别单元910被配置为识别系列文档中的每个文档中的实体项。 
映射单元920被配置为将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射。 
计算单元930被配置为计算所映射的实体项之间的相似度。 
提取单元940被配置为从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息,其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成,并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。 
该设备900中的各个单元可以被配置为执行图2中的流程图所示出的各个步骤。 
以上描述的所有单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些单元可以是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的单元。 然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。 
(应用示例) 
上述的用于识别系列文档中的语义信息的方法和设备可以被用于问答推荐、手册写作辅助、对于产品功能的生命周期分析辅助等。 
接下来,我们将详细描述这些应用。 
[问答推荐] 
图10示出了根据本发明实施例的用于问答推荐的方法。 
如图10所示,在步骤S100中,输入问题。 
然后,在步骤S110中,从所输入的问题中识别实体项。 
然后,在步骤S120中,通过使用上述的用于识别系列文档中的语义信息的方法来提取系列文档中的实体项的语义信息。 
然后,在步骤S130中,通过该实体项和该语义信息来搜索答案。 
该实体项与该语义信息结合作为搜索的问题,这使得回答更友好和精确。 
可以基于以下示例性的情形来定义搜索策略。 
以照相机手册作为系列文档的示例,如果所输入的问题中的“编辑图像”是型号115中的稳定功能,其意指该功能是从其早先产品(即,型号105)继承的,则系统将搜索并返回型号105中的对应答案作为结果。 
如果所输入的问题中的“人脸识别”在型号115中是更新功能,则系统可以将该问题推送到人工搜索引擎并且等待响应。 
最后,在步骤S140中,返回结果。 
接下来,将以照相机手册作为系列文档的示例来描述根据本实施 例的该方法的有利效果。 
例如,用户输入问题:“如何使用型号115来编辑图像?” 
假设型号115是新列出的产品,因此QA知识数据库没有包括关于该问题的答案。 
在使用现有技术的情况下,对于该问题,不会输出答案或者输出模糊的答案。 
然而,通过使用本发明的方法,系统发现型号115的编辑功能是稳定功能。因此,可知该功能是从其早先产品(即,型号105)继承的,并且然后系统将搜索并返回型号105中的对应答案作为结果。 
[手册写作辅助] 
图11示出了根据本发明实施例的用于手册写作辅助的方法。 
如图11所示,在步骤S1100中,输入新的手册。 
然后,在步骤S1110中,从所输入的手册中识别实体项。 
然后,在步骤S1120中,通过使用上述的用于识别系列文档中的语义信息的方法来提取实体项的语义信息。 
然后,在步骤S1130中,通过使用该实体项和该语义信息来产生多样化的写作建议。 
基于该实体项和该语义信息的内容来产生多样化的写作建议,这提高了写作过程的效率并且减少了人力成本。 
可以基于以下示例性的情形来定义建议策略。 
假设型号115是日本的新的照相机产品,因此已经存在用户手册的日文版本。现在它准备进入中国市场,那么需要通过翻译用户手册的日文版本来获得该用户手册的中文版本。 
例如,如果型号115中的“编辑图像功能”是稳定功能,其意指该功能是从其早先产品(即,型号105)继承的,则将建议翻译者把型号105的那些历史翻译结果用于型号115的新的手册。 
如果型号115中的“人脸识别功能”是更新功能,则将建议翻译者在翻译过程中更加注意该功能。 
最后,在步骤S1140中,输出写作建议。 
接下来,将以照相机手册作为系列文档的示例来描述根据本实施例的该方法的有利效果。 
同样地,假设型号115是日本的新的照相机产品,因此已经出版了用户手册的日文版本。现在它准备进入中国市场,那么需要通过翻译用户手册的日文版本来获得该用户手册的中文版本。 
在使用现有技术的情况下,产品手册的日文版本必须被逐字地人工地翻译成中文。 
然而,通过使用本发明的方法,对于当前的产品手册,写作辅助系统识别出一些功能是更新功能而其它一些功能是稳定功能。然后将促进翻译者更为注意那些更新功能而将历史翻译结果用于那些稳定功能。 
[对于产品功能的生命周期分析辅助] 
图12示出了根据本发明实施例的用于对于产品功能的生命周期分析辅助的方法。 
如图12所示,在步骤S1200中,输入问题,例如,“投资和开发语音功能怎么样?”。 
然后,在步骤S1210中,从所输入的问题中识别实体项(例如,“语音功能”),其中该实体项是产品的功能。 
然后,在步骤S1220中,通过使用上述的用于识别系列文档中的语义信息的方法来提取系列文档中的实体项的时间有关的语义信息。 
所提取的时间有关的语义信息可以包括:例如,(i)从2008年到2010年的发展时段;(ii)在2010年的成熟时段;(iii)从2010年到2012年的衰退时段。因此,如图13所示地绘制对应的曲线,即,所识别出的功能的生命周期曲线。如图13所示,x轴和y轴分别表示年份和包括所识别出的功能的文档的数量。所识别出的功能的随着年份的发展时段由(i)示出,并且由版本/文档数量的急剧增大而指出。不久,由(ii)示出的成熟时段到来,很快如由(iii)示出的衰退时段跟随。 
然后,在步骤S1230中,从所输入的问题中识别用户意图(例如,投资和开发)。 
然后,在步骤S1240中,基于用户意图和时间有关的语义信息来产生分析结果。 
该结果包括所提取的时间有关的语义信息以及建议(诸如现在(在2012年)不值得开发该功能)。 
最后,在步骤S1250中,返回结果。 
当公司需要决定是否致力于开发某一功能时,应该通过分析其竞争对手来评估该功能的未来前景。通过使用本发明的该方法,可以如图13所示地获得该功能的生命周期曲线,其明确示出了现在(在2012年)不值得开发该功能。 
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其它方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。 
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。 

Claims (38)

1.一种用于识别系列文档中的语义信息的方法,包括如下步骤:
a)识别系列文档中的每个文档中的实体项;
b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;
c)计算所映射的实体项之间的相似度;
d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;
其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;以及
其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
2.根据权利要求1所述的方法,其中描述稳定程度的语义信息包括以下中的至少一个:序列有关的语义信息和时序有关的语义信息。
3.根据权利要求2所述的方法,其中序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项、稳定实体项、始祖实体项以及集成实体项。
4.根据权利要求2所述的方法,其中时序有关的语义信息包括以下中的至少一个:成熟时刻实体项、发展时刻实体项、衰退时刻实体项、成熟时段实体项、发展时段实体项和衰退时段实体项。
5.根据权利要求1到4中的任何一个所述的方法,其中序列关系结构被表征为链形拓扑图,并且步骤d)还包括:
d11)通过将每个文档中的实体项与其在最接近的后续文档中的映射的实体项连接来创建链形拓扑图;
其中,所述链形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述链形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述链形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
6.根据权利要求5所述的方法,其中步骤d)还包括:
d12)从链形拓扑图中提取序列特征;以及
d13)从所提取的序列特征中获得序列有关的语义信息。
7.根据权利要求6所述的方法,其中,对于每个文档中的实体项,序列特征包括:该文档中的实体项与其在最接近的在先文档中的映射的实体项之间的权重值WVNP,以及该文档中的实体项与其在最接近的后续文档中的映射的实体项之间的权重值WVNS。
8.根据权利要求7所述的方法,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项和稳定实体项;
其中,
在权重值WVNP低于第一阈值的情况下,获得更新实体项;
在权重值WVNS低于第二阈值的情况下,获得消失或减少实体项;
在权重值WVNP和权重值WVNS分别低于第一阈值和第二阈值的情况下,获得可选或特殊实体项;以及
在权重值WVNP和权重值WVNS中的任一个高于第三阈值的情况下,获得稳定实体项。
9.根据权利要求5到8中的任何一个所述的方法,其中步骤d)还包括:
d14)从链形拓扑图中提取时间特征;
d15)从所提取的时间特征中获得时序有关的语义信息。
10.根据权利要求9所述的方法,其中,对于每个文档中的实体项,时间特征包括:文档的数量相对于时间的函数。
11.根据权利要求10所述的方法,其中,对于每个文档中的实体项,所获得的在预定时间点处的时序有关的语义信息包括以下中的至少一个:发展时刻实体项、成熟时刻实体项和衰退时刻实体项;
其中,
在文档的数量在预定时间点处显著地增大的情况下,获得发展时刻实体项;
在文档的数量在预定时间点处稳定的情况下,获得成熟时刻实体项;或者
在文档的数量在预定时间点处显著地减少的情况下,获得衰退时刻实体项。
12.根据权利要求1到4中的任何一个所述的方法,其中序列关系结构被表征为树形拓扑图,并且步骤d)还包括:
d21)通过使用最大生成树方法来创建树形拓扑图;
其中,所述树形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述树形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述树形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
13.根据权利要求12所述的方法,其中步骤d)还包括:
d22)从树形拓扑图中提取序列特征;以及
d23)从所提取的序列特征中获得序列有关的语义信息。
14.根据权利要求13所述的方法,其中,对于每个文档中的实体项,序列特征包括:表示该文档中的实体项的顶点的入度值、该顶点的出度值、或者该顶点的入度值和出度值之间的差。
15.根据权利要求14所述的方法,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、可选或特殊实体项、始祖实体项以及集成实体项;
其中,
在入度值低于第一阈值的情况下,获得更新实体项;
在出度值低于第二阈值的情况下,获得可选或特殊实体项;
在出度值高于入度值的情况下,获得始祖实体项;以及
在出度值低于入度值的情况下,获得集成实体项。
16.根据权利要求12到15中的任何一个所述的方法,其中步骤d)还包括:
d24)从树形拓扑图中提取时间特征;
d25)从所提取的时间特征中获得时序有关的语义信息。
17.根据权利要求16所述的方法,其中,对于每个文档中的实体项,时间特征包括:每个文档的时间、以及树形拓扑图的顶点的出度值。
18.根据权利要求17所述的方法,其中,对于每个文档中的实体项,所获得的在继基准时间点之后的预定时段期间的时序有关的语义信息包括以下中的至少一个:成熟时段实体项、发展时段实体项和衰退时段实体项;
其中,
在基准时间点处的文档的出度值等于在基准时间点之前的时间点处的文档的出度值的情况下,获得成熟时段实体项;
在基准时间点处的文档的出度值高于在基准时间点之前的时间点处的文档的出度值的情况下,获得发展时段实体项;或者
在基准时间点处的文档的出度值低于在基准时间点之前的时间点处的文档的出度值的情况下,获得衰退时段实体项。
19.根据权利要求1所述的方法,其中系列文档包括:
产品手册,其中系列指的是产品的系列;
会议记录,其中系列指的是具有类似主题的会议的时序;
操作指南,其中系列指的是产品的系列;
说明书,其中系列指的是更新的版本的系列;或者
技术报告,其中系列指的是具有类似技术细节的报告的时序。
20.一种用于识别系列文档中的语义信息的设备,包括:
单元a),被配置为识别系列文档中的每个文档中的实体项;
单元b),被配置为将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;
单元c),被配置为计算所映射的实体项之间的相似度;
单元d),被配置为从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;
其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;以及
其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
21.根据权利要求20所述的设备,其中描述稳定程度的语义信息包括以下中的至少一个:序列有关的语义信息和时序有关的语义信息。
22.根据权利要求21所述的设备,其中序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项、稳定实体项、始祖实体项以及集成实体项。
23.根据权利要求21所述的设备,其中时序有关的语义信息包括以下中的至少一个:成熟时刻实体项、发展时刻实体项、衰退时刻实体项、成熟时段实体项、发展时段实体项和衰退时段实体项。
24.根据权利要求20到23中的任何一个所述的设备,其中序列关系结构被表征为链形拓扑图,并且单元d)还包括:
单元d11),被配置为通过将每个文档中的实体项与其在最接近的后续文档中的映射的实体项连接来创建链形拓扑图;
其中,所述链形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述链形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述链形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
25.根据权利要求24所述的设备,其中单元d)还包括:
单元d12),被配置为从链形拓扑图中提取序列特征;以及
单元d13),被配置为从所提取的序列特征中获得序列有关的语义信息。
26.根据权利要求25所述的设备,其中,对于每个文档中的实体项,序列特征包括:该文档中的实体项与其在最接近的在先文档中的映射的实体项之间的权重值WVNP,以及该文档中的实体项与其在最接近的后续文档中的映射的实体项之间的权重值WVNS。
27.根据权利要求26所述的设备,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项和稳定实体项;
其中,
在权重值WVNP低于第一阈值的情况下,获得更新实体项;
在权重值WVNS低于第二阈值的情况下,获得消失或减少实体项;
在权重值WVNP和权重值WVNS分别低于第一阈值和第二阈值的情况下,获得可选或特殊实体项;以及
在权重值WVNP和权重值WVNS中的任一个高于第三阈值的情况下,获得稳定实体项。
28.根据权利要求24到27中的任何一个所述的设备,其中单元d)还包括:
单元d14),被配置为从链形拓扑图中提取时间特征;
单元d15),被配置为从所提取的时间特征中获得时序有关的语义信息。
29.根据权利要求28所述的设备,其中,对于每个文档中的实体项,时间特征包括:文档的数量相对于时间的函数。
30.根据权利要求29所述的设备,其中,对于每个文档中的实体项,所获得的在预定时间点处的时序有关的语义信息包括以下中的至少一个:发展时刻实体项、成熟时刻实体项和衰退时刻实体项;
其中,
在文档的数量在预定时间点处显著地增大的情况下,获得发展时刻实体项;
在文档的数量在预定时间点处稳定的情况下,获得成熟时刻实体项;或者
在文档的数量在预定时间点处显著地减少的情况下,获得衰退时刻实体项。
31.根据权利要求20到23中的任何一个所述的设备,其中序列关系结构被表征为树形拓扑图,并且单元d)还包括:
单元d21),被配置为通过使用最大生成树方法来创建树形拓扑图;
其中,所述树形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述树形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述树形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
32.根据权利要求31所述的设备,其中单元d)还包括:
单元d22),被配置为从树形拓扑图中提取序列特征;以及
单元d23),被配置为从所提取的序列特征中获得序列有关的语义信息。
33.根据权利要求32所述的设备,其中,对于每个文档中的实体项,序列特征包括:表示该文档中的实体项的顶点的入度值、该顶点的出度值、或者该顶点的入度值和出度值之间的差。
34.根据权利要求33所述的设备,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、可选或特殊实体项、始祖实体项以及集成实体项;
其中,
在入度值低于第一阈值的情况下,获得更新实体项;
在出度值低于第二阈值的情况下,获得可选或特殊实体项;
在出度值高于入度值的情况下,获得始祖实体项;以及
在出度值低于入度值的情况下,获得集成实体项。
35.根据权利要求31到34中的任何一个所述的设备,其中单元d)还包括:
单元d24),被配置为从树形拓扑图中提取时间特征;
单元d25),被配置为从所提取的时间特征中获得时序有关的语义信息。
36.根据权利要求35所述的设备,其中,对于每个文档中的实体项,时间特征包括:每个文档的时间、以及树形拓扑图的顶点的出度值。
37.根据权利要求36所述的设备,其中,对于每个文档中的实体项,所获得的在继基准时间点之后的预定时段期间的时序有关的语义信息包括以下中的至少一个:成熟时段实体项、发展时段实体项和衰退时段实体项;
其中,
在基准时间点处的文档的出度值等于在基准时间点之前的时间点处的文档的出度值的情况下,获得成熟时段实体项;
在基准时间点处的文档的出度值高于在基准时间点之前的时间点处的文档的出度值的情况下,获得发展时段实体项;或者
在基准时间点处的文档的出度值低于在基准时间点之前的时间点处的文档的出度值的情况下,获得衰退时段实体项。
38.根据权利要求20所述的设备,其中系列文档包括:
产品手册,其中系列指的是产品的系列;
会议记录,其中系列指的是具有类似主题的会议的时序;
操作指南,其中系列指的是产品的系列;
说明书,其中系列指的是更新的版本的系列;或者
技术报告,其中系列指的是具有类似技术细节的报告的时序。
CN201210392483.5A 2012-10-16 2012-10-16 用于识别系列文档中的语义信息的方法和设备 Pending CN103729381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210392483.5A CN103729381A (zh) 2012-10-16 2012-10-16 用于识别系列文档中的语义信息的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210392483.5A CN103729381A (zh) 2012-10-16 2012-10-16 用于识别系列文档中的语义信息的方法和设备

Publications (1)

Publication Number Publication Date
CN103729381A true CN103729381A (zh) 2014-04-16

Family

ID=50453459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210392483.5A Pending CN103729381A (zh) 2012-10-16 2012-10-16 用于识别系列文档中的语义信息的方法和设备

Country Status (1)

Country Link
CN (1) CN103729381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009111248A2 (en) * 2008-02-29 2009-09-11 Palm, Inc. Techniques for dynamic contact information
CN101682648A (zh) * 2007-04-13 2010-03-24 诺基亚公司 在多实体标识情况中管理实体数据
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102160066A (zh) * 2008-06-24 2011-08-17 沙伦·贝伦宗 特别适用于专利文献的搜索引擎和方法
CN102214091A (zh) * 2010-04-09 2011-10-12 株式会社日立制作所 一种定位软件开发中需求变更影响范围的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682648A (zh) * 2007-04-13 2010-03-24 诺基亚公司 在多实体标识情况中管理实体数据
WO2009111248A2 (en) * 2008-02-29 2009-09-11 Palm, Inc. Techniques for dynamic contact information
CN102160066A (zh) * 2008-06-24 2011-08-17 沙伦·贝伦宗 特别适用于专利文献的搜索引擎和方法
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102214091A (zh) * 2010-04-09 2011-10-12 株式会社日立制作所 一种定位软件开发中需求变更影响范围的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109344236B (zh) * 2018-09-07 2020-09-04 暨南大学 一种基于多种特征的问题相似度计算方法

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
Culotta et al. Reducing labeling effort for structured prediction tasks
US8312041B2 (en) Resource description framework network construction device and method using an ontology schema having class dictionary and mining rule
US20170154077A1 (en) Method for comment tag extraction and electronic device
US11158118B2 (en) Language model, method and apparatus for interpreting zoning legal text
CN110895961A (zh) 医疗数据中的文本匹配方法及装置
CN111209411A (zh) 一种文档分析的方法及装置
CN111222837A (zh) 智能化面试的方法、系统、设备及计算机存储介质
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN111753535A (zh) 一种专利申请文本的生成方法和装置
Yoo et al. Image-to-graph transformers for chemical structure recognition
CN112632223A (zh) 案事件知识图谱构建方法及相关设备
CN111753517A (zh) 基于rpa及ai的文档对比方法、装置、设备及介质
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN113535889A (zh) 一种评论分析方法及装置
CN109933787B (zh) 文本关键信息的提取方法、装置及介质
CN111488737B (zh) 文本识别方法、装置及设备
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN114298048A (zh) 命名实体识别方法及装置
CN112732743B (zh) 一种基于中文自然语言的数据分析方法及装置
CN108511036A (zh) 一种中文症状标注的方法及系统
Kuncham et al. Statistical sandhi splitter for agglutinative languages
CN103729381A (zh) 用于识别系列文档中的语义信息的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180309

AD01 Patent right deemed abandoned