CN104281570A - 信息处理方法和装置以及机构名规范化方法和设备 - Google Patents

信息处理方法和装置以及机构名规范化方法和设备 Download PDF

Info

Publication number
CN104281570A
CN104281570A CN201310270868.9A CN201310270868A CN104281570A CN 104281570 A CN104281570 A CN 104281570A CN 201310270868 A CN201310270868 A CN 201310270868A CN 104281570 A CN104281570 A CN 104281570A
Authority
CN
China
Prior art keywords
name
relation
author
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310270868.9A
Other languages
English (en)
Inventor
张姝
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201310270868.9A priority Critical patent/CN104281570A/zh
Priority to JP2014135784A priority patent/JP2015011723A/ja
Publication of CN104281570A publication Critical patent/CN104281570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种信息处理方法和装置以及机构名规范化方法和设备,该信息处理方法包括:机构名拆分步骤,用于根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析步骤,用于分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及机构名存储步骤,用于将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。根据本公开的实施例,能够更高效准确地对机构名进行规范化,从而有利于文献统一管理和快速检索。

Description

信息处理方法和装置以及机构名规范化方法和设备
技术领域
本公开涉及信息处理和web服务领域,并且更具体地,涉及用于构建机构名知识库的信息处理方法和装置以及使用该知识库对机构名进行规范化以便于文献统一管理和快速检索的机构名规范化方法和设备。
背景技术
在现有的文献管理领域中,由于各个期刊、会议等对文献的作者机构名的书写要求不同,因此对同一机构可能存在多种不同的写法,从而使得机构名的书写不规范,给文献的统一管理和文献检索带来很多不便。这些不规范可以包括但不限于由于机构名的更名和别名、机构名的级别不同以及机构名的书写格式不同等等而引起的不规范。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上情形,本公开的目的是提供一种用于构建机构名知识库的信息处理方法和装置以及利用该知识库对机构名进行规范化的机构名规范化方法和设备,其通过引入机器学习方法对机构名进行拆分,利用公开信息资源分析经拆分得到的子机构名之间的隶属关系以及机构名之间的等同关系(即,更名、别名信息等),以语义方式(例如,基于资源描述框架(RDF)的方式)来存储机构名和这些关系信息以构建机构名知识库,并且利用该知识库对文献的作者机构名进行规范化,从而有利于文献的统一管理以及快速且准确的检索。
根据本公开的一方面,提供了一种信息处理方法,包括:机构名拆分步骤,用于根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析步骤,用于分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及机构名存储步骤,用于将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。
根据本公开的优选实施例,在机构名存储步骤中,以语义方式来存储机构名以及内部组织结构关系和等同关系。
根据本公开的另一优选实施例,该语义方式可包括基于资源描述框架的方式。
根据本公开的另一优选实施例,在隶属关系分析步骤中,利用多级子机构名中的、根据预定规则确定的表示该机构的一级子机构名查询公开信息资源,以获得隶属关系,并且获得机构的内部组织结构关系。
根据本公开的另一方面,还公开了一种信息处理装置,其包括:机构名拆分单元,被配置成根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析单元,被配置成分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析单元,被配置成利用公开信息资源分析机构名之间的等同关系;以及机构名存储单元,被配置成将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。
根据本公开的另一方面,还公开了一种机构名规范化方法,其包括:机构名拆分步骤,用于根据文献的作者机构名的语义特征将作者机构名拆分为多级子机构名;以及机构名规范化步骤,用于利用根据本公开的实施例所述的信息处理方法构建的知识库对机构名进行规范化以符合预定规则。
根据本公开的优选实施例,在机构名规范化步骤中,使用知识库中的内部组织结构关系和/或文献的作者信息,对作者机构名中包含的多级子机构名的级别进行规范化。
根据本公开的另一优选实施例,在机构名规范化步骤中,使用知识库,根据机构名之间的文字差别信息和文献的作者信息来对作者机构名的书写形式进行规范化。
根据本公开的另一优选实施例,该机构名规范化方法还可包括:机构名添加步骤,用于在知识库中不包含作者机构名的信息的情况下,采用根据本公开的实施例所述的信息处理方法来对该作者机构名进行处理,并在满足预定条件时将该作者机构名的信息添加到知识库中。
根据本公开的另一方面,还提供了一种机构名规范化设备,其包括:机构名拆分单元,被配置成根据文献的作者机构名的语义特征将作者机构名拆分为多级子机构名;以及机构名规范化单元,被配置成利用根据本公开的实施例所述的信息处理方法构建的知识库对机构名进行规范化以符合预定规则。
根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本公开的信息处理方法。
根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本公开的信息处理方法。
根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本公开的机构名规范化方法。
根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本公开的机构名规范化方法。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的信息处理方法的过程示例的流程图;
图2是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;
图3是示出根据本公开的实施例的机构名规范化方法的过程示例的流程图;
图4是示出根据本公开的另一实施例的机构名规范化方法的过程示例的流程图;
图5是示出根据本公开的实施例的机构名规范化设备的功能配置示例的框图;
图6是示出根据本公开的另一实施例的机构名规范化设备的功能配置示例的框图;以及
图7是示出作为本公开的实施例中所采用的信息处理设备的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面将结合图1至图7来描述根据本公开的实施例的用于构建机构名知识库的信息处理方法和装置、以及用于利用该知识库对机构名进行规范化的机构名规范化方法和设备。
首先,将参照图1来描述根据本公开的实施例的信息处理方法。图1是示出根据本公开的实施例的信息处理方法的过程示例的流程图。
如图1所示,根据本公开的实施例的信息处理方法100可包括机构名拆分步骤S110、隶属关系分析步骤S120、等同关系分析步骤S130以及机构名存储步骤S140。下面将详细描述各个步骤中的处理。
首先,在机构名拆分步骤S110中,可根据机构名的语义特征而将该机构名拆分为多级子机构名。
具体地,在机构名拆分步骤S110中,可首先用传统分词方法对机构名进行分词,然后利用诸如有监督学习方法的机器学习方法、基于条件随机场(CRF)来识别组块信息,从而根据诸如词、位置、是否属于词库、前、后等的特征来将机构名拆分为多级子机构名。以下表1示出了在机构名拆分步骤S110中所用的特征的描述。
表1特征描述
其中,机构名词典主要由高校名称构成,具体由知名高校(诸如211工程大学或985工程大学)构成,地名词典由省、市、自治区、县等等构成,并且机构类中心词词典由高校名称及其组织机构抽取获得,例如大学、学院、系、研究所、中心、实验室等,这些信息均是预先已知的公开信息资源。
例如,对于机构名“北京师范大学生命科学学院”,通过在机构名拆分步骤S110中利用例如表1所示的语义特征对其进行处理,得到的拆分后的两级子机构名为“北京师范大学”和“生命科学学院”。
应理解,这里给出的语义特征仅是示例而非限制,并且本领域技术人员可以根据需要而定义其它语义特征来对机构名进行拆分。
接下来,在隶属关系分析步骤S120中,分析拆分得到的多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系。
应理解,这里的“隶属关系”指的是机构名之间的上下级关系,例如,对于上述机构名“北京师范大学生命科学学院”,可以知道“生命科学学院”隶属于“北京师范大学”。
优选地,在隶属关系分析步骤S120中,可基于预定的命名规律来获得多级子机构名之间的隶属关系,并且根据该隶属关系来建立机构的内部组织结构关系。
具体地,可根据通常的命名规律,从左向右获得上下级关系。而对于少数机构名的顺序倒置的情况,例如“教育部-微软语言重点实验室哈尔滨工业大学”,其机构名拆分结果为“教育部-微软语言重点实验室”和“哈尔滨工业大学”。在该情况下,可根据频率信息设置阈值对这种情况进行过滤(这是由于大部分情况下的书写顺序从左至右应该为“哈尔滨工业大学教育部-微软语言重点实验室”),或者可根据级别包含关系(例如,通常来说实验室属于大学)确定这种情况的顺序是倒置的,从而得到该机构名的正确隶属关系为“教育部-微软语言重点实验室”属于“哈尔滨工业大学”。通过对大量的文献信息进行统计,从而可以得到关于该机构名的机构的内部组织结构关系。
优选地,为了更准确地确定机构名之间的隶属关系,从而构建机构内部组织结构关系,在本公开中还提出了利用公开信息资源来获得隶属关系从而构建内部组织结构关系的方式。
因此,优选地,在隶属关系分析步骤S120中,还可利用多级子机构名中的、根据预定规则确定的表示机构的一级子机构名来查询公开信息资源,以获得多级子机构名之间的隶属关系,并且获得机构的内部组织结构关系。
具体地,可以以例如作为一级子机构名的学校名称作为查询词,综合利用诸如学校主页、维基百科、百度百科等公开信息资源进行检索,以挖掘机构名之间的上下级关系,构建该学校名称表示的学校的内部组织结构关系。例如,仍以上述机构名“教育部-微软语言重点实验室哈尔滨工业大学”为例,利用拆分得到的一级子机构名“哈尔滨工业大学”在例如百度百科中进行检索,并根据其中的“院系设置”而得到哈尔滨工业大学的内部组织结构关系。
然后,在等同关系分析步骤S130中,可利用公开信息资源来分析机构名之间的等同关系。应理解,这里所说的等同关系主要是指关于机构名的别名信息、更名信息等。
优选地,在等同关系分析步骤S130中,可利用多级子机构名中的、根据预定规则确定的表示机构的一级子机构名查询公开信息资源,以获得机构名之间的等同关系。
具体地,以作为一级子机构名的学校名称作为查询词,综合利用学校主页、维基百科、百度百科等公开信息资源进行检索,对返回的页面利用命名实体识别工具或网页中的链接信息进行特定信息抽取,抽取其中出现的机构名称作为学校名称的更名信息和/或别名信息。
例如,以上述子机构名“哈尔滨工业大学”进行搜索,通过学校主页中的“学校概况”、“学校历史”可以找到下面的“校史概览”信息。同样,利用百度百科搜索“哈尔滨工业大学”可以获得“历史沿革”、“历史”等信息。然后,对网页中的机构实体信息利用命名实体识别工具或者网页中的链接信息进行提取,结合诸如“升格”、“合并”、“更名”、“并入”、“合并组建”、“曾用名”等关键词进行定位,从而提供候选机构名信息供人工参与更名、别名的处理过程。
从上述可以看出,与现有技术中仅利用同作者信息来对更名、别名等信息进行处理相比,通过利用公开信息资源进行检索以确定诸如更名、别名等信息的机构名等同关系,能够提高准确率。
接下来,在机构名存储步骤S140中,将机构名与内部组织机构关系和等同关系相关联地来存储,以构建知识库。
在现有技术中,通常是以关系数据库的方式来存储上述信息,优选地,为了更好地表示给定机构的内部各机构名之间的关系,在本公开中提出了以语义方式来存储机构名以及内部组织结构关系和等同关系。
优选地,语义方式可包括但不限于基于资源描述框架(RDF)的方式。RDF使用可扩展标记语言(XML)语法和RDF模式(RDFS)来将元数据描述成为数据模型。
首先,定义本体ontology,并且类别Class包括学校、分校、学院、系、中心、实验室等等,关系包括隶属于(belongTo)、等价于(sameAs)、别名等。以下给出了以基于RDF的方式来存储机构名及其内部组织结构关系和等同关系的示例实现。其中,对于每个实体均给出了唯一的一个同一资源标识符(URI),以便于在以后调用该实体时唯一地标识该实体。
应理解,以基于RDF的方式进行信息存储,由于使用的是结构化的XML数据,因此可以使得信息搜索变得更为智能和准确,大大提高了效率。
此外,还应理解,上述基于RDF的方式仅是用于存储机构名信息及其内部组织结构关系和等同关系的示例性优选方式,并且本领域技术人员也可以采用本领域公知的其它方式来进行信息存储。
以上已参照图1描述了用于构建机构名知识库的示例方式,但是应理解,以上描述仅为示例而非限制,并且本领域技术人员可以根据本公开的原理而得到上述处理过程的变型示例,并且这些变型示例应认为落入本公开的实质范围内。
与上述信息处理方法相对应,本公开还提供了一种信息处理装置。下面将参照图2来描述根据本公开的实施例的信息处理装置的功能配置的示例。图2是示出根据本公开的实施例的信息处理装置的功能配置示例的框图。
如图2所示,根据本公开的实施例的信息处理装置200可包括机构名拆分单元210、隶属关系分析单元220、等同关系分析单元230和机构名存储单元240。下面将分别详细描述各个单元的功能配置示例。
机构名拆分单元210可被配置成根据机构名的语义特征将机构名拆分为多级子机构名。
隶属关系分析单元220可被配置成分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系。
优选地,隶属关系分析单元220可进一步被配置成基于预定的命名规律来获得多级子机构名之间的隶属关系,并根据隶属关系建立内部组织结构关系。
此外,优选地,隶属关系分析单元220还可被配置成利用多级子机构名中的、根据预定规则确定的表示机构的一级子机构名查询公开信息资源,以获得隶属关系,并且获得机构的内部组织结构关系。
等同关系分析单元230可被配置成利用公开信息资源分析机构名之间的等同关系。
优选地,等同关系分析单元230可被配置成利用多级子机构名中的、根据预定规则确定的表示机构的一级子机构名查询公开信息资源,以获得机构名之间的等同关系。
机构名存储单元240可被配置成将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。
优选地,机构名存储单元240进一步被配置成以语义方式来存储机构名以及内部组织结构关系和等同关系。
优选地,语义方式可包括基于RDF的方式。
应理解,以上已结合图1详细描述了用于构建机构名知识库的信息处理方法的详细过程,该信息处理装置是与前述方法实施例相对应的,因此,装置实施例中未详述的部分,请参见方法实施例中相应位置的介绍,这里不再赘述。
如上所述,由于各个期刊、杂志、会议等对作者机构名的书写要求不同,因此对同一机构可能存在多种不同的写法。以“哈尔滨工业大学语言语音教育部-微软重点实验室”为例,在不同期刊中可能包括例如以下写法:“哈尔滨工业大学语言语音教育部-微软重点实验室”、“哈尔滨工业大学计算机科学与技术学院”、“哈尔滨工业大学,计算机科学与技术学院”、“哈尔滨工业大学教育部,微软语言语音重点实验室”、“教育部-微软语言语音重点实验室哈尔滨工业大学”、“哈尔滨工业大学,语言语音教育部-微软重点实验室”等等。由于这些机构名实质上指的是同一机构,因此希望对上述机构名的书写方式进行规范化,并且所希望的最终结果是“哈尔滨工业大学计算机科学与技术学院语言语音教育部-微软重点实验室”。
因此,接下来,将参照图3至图4来描述利用根据本公开的实施例的信息处理方法构建的知识库来对机构名进行规范化的机构名规范化方法。
图3是示出根据本公开的实施例的机构名规范化方法的过程示例的流程图。
如图3所示,根据本公开的实施例的机构名规范化方法300可包括机构名拆分步骤S310和机构名规范化步骤S320。
首先,在机构名拆分步骤S310中,可根据文献的作者机构名的语义特征将该作者机构名拆分为多级子机构名。具体的机构名拆分方法与以上参照图1描述的机构名拆分步骤S110中所用的方法相同,在此不再赘述。
接下来,在机构名规范化步骤S320中,可利用根据本公开的实施例所述的信息处理方法构建的知识库对机构名进行规范化以符合预定规则。
应理解,以上述“哈尔滨工业大学语言语音教育部-微软重点实验室”的情况为例,这里的机构名不规范情况可包括但不限于由于所用机构名的级别不同以及书写格式不同而导致的不规范。以下将分别针对这两种情况进行详细描述。
优选地,对于由于所用机构名的级别不同而导致的不规范,在机构名规范化步骤S320中,可使用知识库中的内部组织结构关系和/或文献的作者信息,对作者机构名中包含的多级子机构名的级别进行规范化。
具体地,以上述情况为例,“语言语音教育部-微软重点实验室”属于“计算机科学与技术学院”,该信息可以通过知识库中的内部组织结构关系来获得。而对于如何确定标有“哈尔滨工业大学计算机科学与技术学院”的文章是出自“哈尔滨工业大学语言语音教育部-微软重点实验室”,可利用文章中的同作者信息,提取共有作者名称、文章题目、关键词、分类号等特征,利用已知二分类器(诸如贝叶斯分类器、最大熵分类器或支持向量机分类器等)判定两者是否指向同一机构。此外,还可以用简单的规则方法来判定:例如,如果两篇文章包含超过给定人数的相同作者且只包含同一机构名称,则这两个机构认为存在关系,而具体的关系类型可由内部组织结构关系来确定。
此外,优选地,对于由于书写格式不同而引起的不规范,在机构名规范化步骤S320中,使用知识库,根据机构名之间的文字差别信息和文献的作者信息来对作者机构名的书写形式进行规范化。
具体地,例如,对于“教育部-微软语言语音重点实验室”、“语言语音教育部-微软重点实验室”和“教育部,微软语言语音重点实验室”,首先,如果两个候选机构名称之间的用字区别在给定字数(例如,2个字(不包括符号))范围内,对于这种情况下的两个机构名可以进一步判定二者是否指向同一机构。具体方法与针对上述情况的方法类似:利用文章中的同作者信息,提取共有作者名称、文章题目、关键词、分类号等特征,利用已知二分类器判定两者是否指向同一机构。此外,还有简单的规则方法:如果两篇文章包含超过给定人数的相同作者,且只包含同一机构名称,则认为这两个机构名指向同一机构。
以上仅针对由上述两种情况导致的机构名不规范进行了描述,但是应理解,对于此外的其它情况,本领域技术人员也可根据本公开的原理而利用已有知识库对机构名进行规范化。
接下来将参照图4描述根据本公开的另一实施例的机构名规范化方法。图4是示出根据本公开的另一实施例的机构名规范化方法的过程示例的流程图。
如图4所示,根据本公开的另一实施例的机构名规范化方法400可包括机构名拆分步骤S410、机构名规范化步骤S420和机构名添加步骤S430。其中,机构名拆分步骤S410和机构名规范化步骤S420与以上参照图3描述的机构名拆分步骤S310和机构名规范化步骤S320相同,在此不再重复描述其细节。下面将仅详细描述机构名添加步骤S430中的处理。
在机构名添加步骤S430中,如果在知识库中不包含该作者机构名的信息,则采用以上参照图1描述的信息处理方法来对作者机构名进行处理,并在满足预定条件时将作者机构名的信息添加到知识库中。
优选地,该预定条件可以包括作者机构名的出现次数超过预定阈值。这是为了避免过于频繁地更新知识库,从而增加处理负荷。
与上述机构名规范化方法相对应,还公开了一种利用所构建的机构名知识库来规范化机构名的机构名规范化设备。
图5是示出根据本公开的实施例的机构名规范化设备的功能配置示例的框图。
如图5所示,根据本公开的实施例的机构名规范化设备500可包括机构名拆分单元510和机构名规范化单元520。下面将详细描述各个单元的功能配置。
机构名拆分单元510可被配置成根据文献的作者机构名的语义特征将作者机构名拆分为多级子机构名。
机构名规范化单元520可被配置成利用根据本公开的实施例所述的信息处理方法构建的知识库对机构名进行规范化以符合预定规则。
优选地,机构名规范化单元520可进一步被配置成使用知识库中的内部组织结构关系和/或文献的作者信息,对作者机构名中包含的多级子机构名的级别进行规范化。
此外,优选地,机构名规范化单元520可进一步被配置成使用知识库,根据机构名之间的文字差别信息和文献的作者信息来对作者机构名的书写形式进行规范化。
应理解,该机构名规范化设备是与前述方法实施例相对应的,因此,设备实施例中未详述的部分,请参见方法实施例中相应位置的介绍,这里不再赘述。
下面将参照图6描述根据本公开的另一实施例的机构名规范化设备的功能配置的示例。图6是示出根据本公开的另一实施例的机构名规范化设备的功能配置示例的框图。
如图6所示,根据本公开的另一实施例的机构名规范化设备600可包括机构名拆分单元610、机构名规范化单元620和机构名添加单元630。其中,机构名拆分单元610和机构名规范化单元620与以上参照图5描述的机构名拆分单元510和机构名规范化单元520的功能配置相同,在此不再重复描述其细节。下面将仅详细描述机构名添加单元630的功能配置。
机构名添加单元630可被配置成如果知识库中不包含作者机构名的信息,则采用以上参照图1描述的信息处理方法来对作者机构名进行处理,并在满足预定条件时将作者机构名的信息添加到知识库中。
优选地,该预定条件可以包括作者机构名的出现次数超过预定阈值。
应理解,以上参照图5和图6描述的机构名规范化设备的功能配置仅是示例而非限制,并且本领域技术人员可根据需要而对上述功能配置进行修改,只要这样的修改落入本公开的原理的范围内即可。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中,也根据需要存储当CPU701执行各种处理等等时所需的数据。
CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地根据说明的顺序按时间顺序执行,但是并不需要一定根据时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本公开及其优点,但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本公开的实施例,还公开了以下附记:
1.一种信息处理方法,包括:
机构名拆分步骤,用于根据机构名的语义特征将所述机构名拆分为多级子机构名;
隶属关系分析步骤,用于分析所述多级子机构名之间的隶属关系,以获取关于所述机构名的机构的内部组织结构关系;
等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及
机构名存储步骤,用于将所述机构名与所述内部组织结构关系和所述等同关系相关联地来存储,以构建知识库。
2.根据权利要求1所述的信息处理方法,其中,在所述机构名存储步骤中,以语义方式来存储所述机构名以及所述内部组织结构关系和所述等同关系。
3.根据权利要求2所述的信息处理方法,其中,所述语义方式包括基于资源描述框架的方式。
4.根据权利要求1所述的信息处理方法,其中,在所述隶属关系分析步骤中,基于预定的命名规律来获得所述多级子机构名之间的隶属关系,并根据所述隶属关系建立所述内部组织结构关系。
5.根据权利要求1所述的信息处理方法,其中,在所述隶属关系分析步骤中,利用所述多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息资源,以获得所述隶属关系,并且获得所述机构的内部组织结构关系。
6.根据权利要求1所述的信息处理方法,其中,在所述等同关系分析步骤中,利用所述多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息资源,以获得所述等同关系。
7.一种信息处理装置,包括:
机构名拆分单元,被配置成根据机构名的语义特征将所述机构名拆分为多级子机构名;
隶属关系分析单元,被配置成分析所述多级子机构名之间的隶属关系,以获取关于所述机构名的机构的内部组织结构关系;
等同关系分析单元,被配置成利用公开信息资源分析机构名之间的等同关系;以及
机构名存储单元,被配置成将所述机构名与所述内部组织结构关系和所述等同关系相关联地来存储,以构建知识库。
8.根据权利要求7所述的信息处理装置,其中,所述机构名存储单元进一步被配置成以语义方式来存储所述机构名以及所述内部组织结构关系和所述等同关系。
9.根据权利要求8所述的信息处理装置,其中,所述语义方式包括基于资源描述框架的方式。
10.根据权利要求7所述的信息处理装置,其中,所述隶属关系分析单元进一步被配置成基于预定的命名规律来获得所述多级子机构名之间的隶属关系,并根据所述隶属关系建立所述内部组织结构关系。
11.根据权利要求7所述的信息处理装置,其中,所述隶属关系分析单元进一步被配置成利用所述多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息资源,以获得所述隶属关系,并且获得所述机构的内部组织结构关系。
12.根据权利要求7所述的信息处理装置,其中,所述等同关系分析单元进一步被配置成利用所述多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息资源,以获得所述等同关系。
13.一种机构名规范化方法,包括:
机构名拆分步骤,用于根据文献的作者机构名的语义特征将所述作者机构名拆分为多级子机构名;以及
机构名规范化步骤,用于利用根据权利要求1-6中任一项所述的信息处理方法构建的知识库对所述机构名进行规范化以符合预定规则。
14.根据权利要求13所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库中的内部组织结构关系和/或所述文献的作者信息,对所述作者机构名中包含的多级子机构名的级别进行规范化。
15.根据权利要求13所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库,根据机构名之间的文字差别信息和所述文献的作者信息来对所述作者机构名的书写形式进行规范化。
16.根据权利要求13所述的方法,还包括:
机构名添加步骤,用于在所述知识库中不包含所述作者机构名的信息的情况下,采用根据权利要求1-6中任一项所述的信息处理方法来对所述作者机构名进行处理,并在满足预定条件时将所述作者机构名的信息添加到所述知识库中。
17.根据权利要求16所述的方法,其中,所述预定条件包括所述作者机构名的出现次数超过预定阈值。
18.一种机构名规范化设备,包括:
机构名拆分单元,被配置成根据文献的作者机构名的语义特征将所述作者机构名拆分为多级子机构名;以及
机构名规范化单元,被配置成利用根据权利要求1-6中任一项所述的信息处理方法构建的知识库对所述机构名进行规范化以符合预定规则。
19.根据权利要求18所述的设备,其中,所述机构名规范化单元进一步被配置成使用所述知识库中的内部组织结构关系和/或所述文献的作者信息,对所述作者机构名中包含的多级子机构名的级别进行规范化。
20.根据权利要求18所述的设备,其中,所述机构名规范化单元进一步被配置成使用所述知识库,根据机构名之间的文字差别信息和所述文献的作者信息来对所述作者机构名的书写形式进行规范化。
21.根据权利要求18所述的设备,还包括:
机构名添加单元,被配置成如果所述知识库中不包含所述作者机构名的信息,则采用根据权利要求1-6中任一项所述的信息处理方法来对所述作者机构名进行处理,并在满足预定条件时将所述作者机构名的信息添加到所述知识库中。
22.根据权利要求21所述的设备,其中,所述预定条件包括所述作者机构名的出现次数超过预定阈值。
23.一种存储介质,所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据附记1至6中任一项所述的信息处理方法。
24.一种程序产品,所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据附记1至6中任一项所述的信息处理方法。
25.一种存储介质,所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据附记13至17中任一项所述的机构名规范化方法。
26.一种程序产品,所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据附记13至17中任一项所述的机构名规范化方法。

Claims (10)

1.一种信息处理方法,包括:
机构名拆分步骤,用于根据机构名的语义特征将所述机构名拆分为多级子机构名;
隶属关系分析步骤,用于分析所述多级子机构名之间的隶属关系,以获取关于所述机构名的机构的内部组织结构关系;
等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及
机构名存储步骤,用于将所述机构名与所述内部组织结构关系和所述等同关系相关联地来存储,以构建知识库。
2.根据权利要求1所述的信息处理方法,其中,在所述机构名存储步骤中,以语义方式来存储所述机构名以及所述内部组织结构关系和所述等同关系。
3.根据权利要求2所述的信息处理方法,其中,所述语义方式包括基于资源描述框架的方式。
4.根据权利要求1所述的信息处理方法,其中,在所述隶属关系分析步骤中,利用所述多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息资源,以获得所述隶属关系,并且获得所述机构的内部组织结构关系。
5.一种信息处理装置,包括:
机构名拆分单元,被配置成根据机构名的语义特征将所述机构名拆分为多级子机构名;
隶属关系分析单元,被配置成分析所述多级子机构名之间的隶属关系,以获取关于所述机构名的机构的内部组织结构关系;
等同关系分析单元,被配置成利用公开信息资源分析机构名之间的等同关系;以及
机构名存储单元,被配置成将所述机构名与所述内部组织结构关系和所述等同关系相关联地来存储,以构建知识库。
6.一种机构名规范化方法,包括:
机构名拆分步骤,用于根据文献的作者机构名的语义特征将所述作者机构名拆分为多级子机构名;以及
机构名规范化步骤,用于利用根据权利要求1-4中任一项所述的信息处理方法构建的知识库对所述机构名进行规范化以符合预定规则。
7.根据权利要求6所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库中的内部组织结构关系和/或所述文献的作者信息,对所述作者机构名中包含的多级子机构名的级别进行规范化。
8.根据权利要求6所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库,根据机构名之间的文字差别信息和所述文献的作者信息来对所述作者机构名的书写形式进行规范化。
9.根据权利要求6所述的方法,还包括:
机构名添加步骤,用于在所述知识库中不包含所述作者机构名的信息的情况下,采用根据权利要求1-4中任一项所述的信息处理方法来对所述作者机构名进行处理,并在满足预定条件时将所述作者机构名的信息添加到所述知识库中。
10.一种机构名规范化设备,包括:
机构名拆分单元,被配置成根据文献的作者机构名的语义特征将所述作者机构名拆分为多级子机构名;以及
机构名规范化单元,被配置成利用根据权利要求1-4中任一项所述的信息处理方法构建的知识库对所述机构名进行规范化以符合预定规则。
CN201310270868.9A 2013-07-01 2013-07-01 信息处理方法和装置以及机构名规范化方法和设备 Pending CN104281570A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310270868.9A CN104281570A (zh) 2013-07-01 2013-07-01 信息处理方法和装置以及机构名规范化方法和设备
JP2014135784A JP2015011723A (ja) 2013-07-01 2014-07-01 情報処理方法及び装置並びに組織名規範化方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310270868.9A CN104281570A (zh) 2013-07-01 2013-07-01 信息处理方法和装置以及机构名规范化方法和设备

Publications (1)

Publication Number Publication Date
CN104281570A true CN104281570A (zh) 2015-01-14

Family

ID=52256455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310270868.9A Pending CN104281570A (zh) 2013-07-01 2013-07-01 信息处理方法和装置以及机构名规范化方法和设备

Country Status (2)

Country Link
JP (1) JP2015011723A (zh)
CN (1) CN104281570A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及系统
CN107967300A (zh) * 2017-11-07 2018-04-27 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法
CN112182312A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 一种机构名称匹配方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宇缨 等: "一种基于SVM/RS的中文机构名称自动识别方法", 《电子与信息学报》 *
杨奕虹 等: "机构多层级词表的编制及在文献计量评价与科研绩效管理中的应用", 《数字图书馆论坛》 *
王思丽 等: "利用关联数据实现机构知识库的语义扩展研究", 《数字图书馆》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及系统
CN105718732B (zh) * 2016-01-20 2018-07-27 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析系统
CN107967300A (zh) * 2017-11-07 2018-04-27 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
CN107967300B (zh) * 2017-11-07 2020-06-23 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法
CN111984776B (zh) * 2020-08-20 2023-08-11 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法
CN112182312A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 一种机构名称匹配方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP2015011723A (ja) 2015-01-19

Similar Documents

Publication Publication Date Title
Ashi et al. Pre-trained word embeddings for Arabic aspect-based sentiment analysis of airline tweets
Shigarov Table understanding using a rule engine
US9064004B2 (en) Extensible surface for consuming information extraction services
Ji et al. Tag tree template for Web information and schema extraction
CN105512347A (zh) 一种基于地理主题模型的信息处理方法
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Li et al. An intelligent approach to data extraction and task identification for process mining
CN103885933A (zh) 用于评价文本的情感度的方法和设备
Chi et al. Developing base domain ontology from a reference collection to aid information retrieval
Wątróbski Ontology learning methods from text-an extensive knowledge-based approach
CN104281570A (zh) 信息处理方法和装置以及机构名规范化方法和设备
CN115422155A (zh) 一种数据湖元数据模型的建模方法
Kuntarto et al. Dwipa ontology III: Implementation of ontology method enrichment on tourism domain
Wu et al. Extracting knowledge from web tables based on DOM tree similarity
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
US10990881B1 (en) Predictive analytics using sentence data model
Lalic et al. Digital transformation in the engineering research area: scientific performance and strategic themes
Cao et al. Occupational profiling driven by online job advertisements: Taking the data analysis and processing engineering technicians as an example
Sabri et al. WEIDJ: An improvised algorithm for image extraction from web pages
Elyassami et al. Intelligent models for mining social media data
Schröder Efficient High-Level Semantic Enrichment of Undocumented Enterprise Data
Álvarez-Rodríguez et al. Towards a stepwise method for unifying and reconciling corporate names in public contracts metadata: The CORFU technique
Honma et al. Extracting description set profiles from RDF datasets using metadata instances and SPARQL queries
Pascal Filho et al. A MapReduce-Based Method for Achieving Active Technological Surveillance in Big Data Environments
Smalheiser et al. Design of a generic, open platform for machine learning-assisted indexing and clustering of articles in PubMed, a biomedical bibliographic database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150114

WD01 Invention patent application deemed withdrawn after publication