JP2015011723A - 情報処理方法及び装置並びに組織名規範化方法及び装置 - Google Patents
情報処理方法及び装置並びに組織名規範化方法及び装置 Download PDFInfo
- Publication number
- JP2015011723A JP2015011723A JP2014135784A JP2014135784A JP2015011723A JP 2015011723 A JP2015011723 A JP 2015011723A JP 2014135784 A JP2014135784 A JP 2014135784A JP 2014135784 A JP2014135784 A JP 2014135784A JP 2015011723 A JP2015011723 A JP 2015011723A
- Authority
- JP
- Japan
- Prior art keywords
- organization
- organization name
- name
- names
- author
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000008520 organization Effects 0.000 title claims abstract description 371
- 230000010365 information processing Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000010606 normalization Methods 0.000 claims description 56
- 238000000354 decomposition reaction Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 12
- 238000011425 standardization method Methods 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241001591024 Samea Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】情報処理方法及び装置並びに組織名規範化方法及び装置を提供する。
【解決手段】該情報処理方法は、組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む。
【選択図】図1
【解決手段】該情報処理方法は、組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む。
【選択図】図1
Description
本発明は、情報処理及びwebサービス分野に関し、特に、組織(organization)名データベースを構築するための情報処理方法及び装置、並び、該データベースを用いて組織名に対して規範化(標準化)を行い、文献の統一管理及び高速検索に便利な組織名規範化方法及び装置を提供することに関する。
従来の文献管理分野では、各刊行物や会議などの、文献の著者組織名の書き方への要求が異なるので、同じ組織については各種の異なる書き方がある可能性もある。これによって、組織名の書き方が非規範的になり、文献の統一管理及び文献検索に不便をもたらすことがある。これらの非規範的なものは、組織名の改名及び別名、組織名の等級の違い及び組織名の書き方の形式(フォーマット)の違いなどによるものを含んでもよいが、これら限定されない。
上述に鑑みて、本発明の目的は、組織名データベースを構築するための情報処理方法及び装置、並びに、該データベースを用いて組織名に対して規範化を行う組織名規範化方法及び装置を提供することにある。
本発明の一側面によれば、情報処理方法が提供され、該方法は、
組織名の語義特徴に基づいて、組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ステップ;
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む。
組織名の語義特徴に基づいて、組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ステップ;
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む。
本発明の好適な実施例によれば、組織名記憶ステップでは、語義方式で、組織名及び内部組織構造関係及び同等関係を記憶する。
本発明の他の好適な実施例によれば、語義方式は、リソース・ディスクリプション・フレームワークの方式を含んでもよい。
本発明の他の好適な実施例によれば、隷属関係分析ステップでは、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を利用し、公開情報資源をサーチ(検索)して隷属関係を取得し、また、組織の内部組織構造関係を取得する。
本発明の他の側面によれば、情報処理装置がさらに提供され、該情報処理装置は、
組織名の語義特徴に基いづて、組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む。
組織名の語義特徴に基いづて、組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む。
本発明の他の側面によれば、組織名規範化方法がさらに提供され、該組織名規範化方法は、
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように、規範化を行う組織名規範化ステップを含む。
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように、規範化を行う組織名規範化ステップを含む。
本発明の好適な実施例によれば、組織名規範化ステップでは、データベースにおける内部組織構造関係及び/又は文献の著者情報に基づいて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行う。
本発明の他の好適な実施例によれば、組織名規範化ステップでは、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。
本発明の他の好適な実施例によれば、組織名規範化方法はさらに、データベースに著者組織名の情報が含まれれていない場合、本発明の実施例に記載の情報処理方法により、著者組織名に対して処理を行い、所定条件を満足する時に、該著者組織名の情報をデータベースに追加する組織名追加ステップを含む。
本発明の他の側面によれば、組織名規範化装置がさらに提供され、該組織名規範化装置は、
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように規範化を行う組織名規範化ユニットを含む。
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように規範化を行う組織名規範化ユニットを含む。
本発明の他の側面によれば、記憶媒体がさらに提供され、該記憶媒体は、コンピュータ可読プログラムを記憶しており、情報処理装置において該プログラムを実行する時に、該プログラムは、情報処理装置に、本発明の情報処理方法を実行させる。
本発明の他の側面によれば、コンピュータ可読プログラムがさらに提供され、該プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において該命令を実行する時に、該命令は、情報処理装置に、本発明の情報処理方法を実行させる。
本発明の他の側面によれば、記憶媒体がさらに提供され、該記憶媒体は、コンピュータ可読プログラムを含み、情報処理装置において該プログラムを実行する時に、該プログラムは、情報処理装置に、本発明の組織名規範化方法を実行させる。
本発明の他の側面によれば、コンピュータ可読プログラムがさらに提供され、該プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において該命令を実行する時に、該命令は、情報処理装置に、本発明の組織名規範化方法を実行させる。
本発明の実施例によれば、機械学習方法を導入して組織名に対して分解を行い、公開情報資源を利用して、分解により得られたサブ組織名の間の隷属関係及び組織名の間の同等関係(即ち、改名、別名などの情報)を分析し、及び、語義方式(例えば、リソース・ディスクリプション・フレームワーク(RDF)の方式)で組織名及びこれらの関係情報を記憶することで組織名データベースを構築し、また、該データベースを用いて文献の著者組織名に対して規範化を行い、これにより、文献の統一管理及び高速且つ正確な検索に便利な情報処理方法及び装置並びに組織名規範化方法及び装置を提供することができる。
以下、図1〜図7を参照しながら、本発明の実施例における、組織名データベースを構築するための情報処理方法及び装置、並びに、該データベースを利用して組織名に対して規範化を行う組織名規範化方法及び装置を詳しく説明する。
先ず、図1に基づいて本発明の実施例における情報処理方法を説明する。図1は、本発明の実施例における情報処理方法のフローチャートである。
図1に示すように、本発明の実施例における情報処理方法100は、組織名分解ステップS110、隷属関係分析ステップS120、同等関係分析ステップS130、及び、組織名記憶ステップS140を含んでもよい。次に、各ステップにおける処理を詳細に紹介する。
先ず、組織名分解ステップS110では、組織名の語義特徴に基づいて、該組織名を複数等級のサブ組織名を分解する。
具体的に、組織名分解ステップS110では、先ず、従来の単語分け方法に基づいて、組織名に対して単語分けを行い、その後、例えば「Supervised Learning Method」のような機械学習方法を利用して、CRF(Conditional Random Field)に基づいてグループ・ブロック情報を識別し、そして、例えば、単語、位置、単語データベースに属するかどうか、前、後などの特徴に基づいて、組織名を複数等級のサブ組織名に分解する。次の表1には、組織名分解ステップS110に用いる特徴記述を示す。
そのうち、組織名辞書は主に大学の名称からなり、具体的に名門大学(例えば、「中国Project 211」の大学又は「中国Project 985」の大学)からなり、地名辞書は、省、市、自治区、県などからなり、また、組織類の中心単語辞書は、大学の名称及びその組織機構の抽出により得られ、例えば、「大学」、「学院」、「系」、「研究所」、「中心」、「実験室」などであり、これらの情報は全て、事前に既知の公開情報資源である。
例えば、組織名である“北京師範大学生命科学学院”について言えば、組織名分解ステップS110において例えば表1に示す語義特徴を用いてそれに対して処理を行うことによって得られた分解後の二つの等級のサブ組織名は、“北京師範大学”及び“生命科学学院”である。
なお、上述の語義特徴は、例示的なものだけであり、本発明を限定するためのものではない。もちろん、当業者は、ニーズに応じて他の語義特徴を定義して組織名に対して分解を行ってもよい。
次に、隷属関係分析ステップS120では、分解により得られた複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を得る。
なお、ここでの“隷属関係”とは、組織名の間の上下関係、例えば、上述の組織名である“北京師範大学生命科学学院”について言えば、“生命科学学院”が“北京師範大学”
に隷属することが分かる。
に隷属することが分かる。
好ましくは、隷属関係分析ステップS120では、所定の命名ルールに基づいて、複数等級のサブ組織名の間の隷属関係を取得し、且つ、該隷属関係に基づいて、組織の内部組織構造関係を形成してもよい。
具体的には、通常の命名ルールに基づいて、左から右へと上下関係を取得することができる。少数の組織名の順序が逆である場合について、例えば、“教育部−微軟語言重点実験室哈尓濱工業大学”について、その組織名の分解結果は、“教育部−微軟語言重点実験室”及び“哈尓濱工業大学”である。この場合、頻度情報に基づいて閾値を設定し、この場合に対してフィルタリングを行ってもよく(何故なら、大部分の場合におけるライティング(書き)の順序が左から右へであり、即ち、“哈尓濱工業大学教育部−微軟語言重点実験室”のはずである)、又は、等級の包含関係(例えば、通常、「実験室」が大学に属するとのこと)に基づいて、この場合の順序が逆であると確定し、これによって、該組織名の正確な隷属関係が、“教育部−微軟語言重点実験室”が“哈尓濱工業大学”に属するとの隷属関係であることを得ることができる。よって、大量の文献情報に対して統計を行うことにより、該組織名に関する組織の内部組織構造関係を得ることができる。
好ましくは、組織名の間の隷属関係をより正確に確定して組織の内部組織構造関係を構築するためには、本発明ではさらに、公開情報資源を利用して隷属関係を取得して内部組織構造関係を構築する方式を提案する。
よって、好ましくは、隷属関係分析ステップS120ではさらに、複数等級のサブ組織名の内の、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチし、複数等級のサブ組織名の間の隷属関係を取得し、そして、組織の内部組織構造関係を取得する。
具体的に、例えば、第一級サブ組織名としての学校の名称を検索のための単語(キーワード)とし、例えば、学校のホームページ、http://www.wikipedia.org/、http://baike.baidu.com/などの公開情報資源を総合利用して検索を行い、これによって、組織名の間の上下関係を見つけ、該学校の名称が示す学校の内部組織構造関係を構築する。例えば、依然として、上述の組織名の“教育部−微軟語言重点実験室哈尓濱工業大学”を例とすると、それを分解することにより得られた第一級サブ組織名としての“哈尓濱工業大学”を以て、例えば、http://baike.baidu.com/にて検索し、そして、そのうちの“院系設置”によって哈尓濱工業大学の内部組織構造関係を得ることができる。
その後、同等関係分析ステップS130では、公開情報資源を利用して組織名の間の同等関係を分析することができる。なお、ここでの「同等関係」とは、主に、組織名の別名情報、改名情報などを指す。
好ましくは、同等関係分析ステップS130では、複数等級のサブ組織名の内の、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて公開情報資源をサーチし、これによって、組織名の間の同等関係を得ることができる。
具体的に、第一級サブ組織名としての学校の名称を検索のための単語とし、例えば、学校のホームページ、http://www.wikipedia.org/、http://baike.baidu.com/などの公開情報資源を総合利用して検索を行い、出て来たウェーブページに対して「命名実体識別ツール」又はウェーブページにおけるリンク情報を用いて特定情報の抽取を行い、そのうちの出現している組織名称を学校の名称の改名情報及び/又は別名情報として抽出する。
例えば、上述のサブ組織名である“哈尓濱工業大学”を以て検索を行い、学校のホームページにおける“学校概況”、“学校歴史”によって、その下の“校史概覧”情報を見つけることができる。同様に、http://baike.baidu.com/にて“哈尓濱工業大学”を以て検索すれば、“歴史沿革”、“歴史”などの情報を得ることもできる。その後、ウェーブページにおける組織実体情報に対して、命名実体識別ツール又はウェーブページにおけるリンク情報を用いて提取を行い、例えば、“昇格”、“合併”、“改名”、“併入”、“合併組建”、“曽用名”などのキーワードと組み合わせて位置決めを行い、これによって、候補組織名情報を提供し、改名、別名の人的関与の処理プロセスに供する。
上述からわかるように、従来技術における、全著者情報のみを利用して改名、別名などの情報に対して処理を行うことに比べ、公開情報資源を利用して検索を行い、例えば改名、別名など情報の組織名の同等関係を確保し、正確率を向上させることができる。
次に、組織名記憶ステップS140では、組織名と、内部組織組織関係及び同等関係とを関連付けさせて記憶し、データベースを構築する。
従来技術では、通常、関係データベースの方式で上述の情報を記憶するが、好ましくは、所定組織の内部各組織名の間の関係をより良く示すために、本発明では、語義方式で組織名、内部組織構造関係及び同等関係を記憶することを提案する。
好ましくは、語義方式は、リソース・ディスクリプション・フレームワーク(RDF)の方式を含んでもよいが、これに限定されない。RDFは、XML文法及びRDFSを用いて元のデータをデータモデルとして記述する。
先ず、本体ontologyを定義し、且つ、類別Classは、学校、分校、学院、系、中心、実験室などを含み、関係は、隷属(belongTo)、同等(sameAs)、別名などを含む。以下、RDFの方式で、組織名及びその内部組織構造関係及び同等関係を記憶する実現例を示す。そのうち、各実体について、唯一な同一資源識別子(URI)を与え、その後、該実体をコール(call)する時に該実体を唯一に識別するために便利である。
<rdf:RDF
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:vcard=http://www.w3.org/2001/vcard-rdf/3.0#
xmlns:titech="http://www.tt.cs.titech.ac.jp/~fukatani/University/TITech.owl#belongTo">
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/College#Tsinghua"> //清華大学のURI識別子
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#college"/>
<vcard:fullName>清華大学</vcard:fullName>
</rdf:Description>
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/Department#TsinghuaComputerDep"> //清華大学計算機学院のURI
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#department"/>
<vcard:fullName>清華大学計算機学院</vcard:fullName>
<titech:belongTo rdf:resource="http://www.fujitsu.com/cn/frdc/College/Tsinghua#"/> //清華大学計算機学院が清華大学に属する
</rdf:Description>
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/lab#abc"> //清華大学計算機学院abc実験室のURI
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#lab"/>
<vcard:fullName>清華大学計算機学院abc実験室</vcard:fullName>
<titech:belongTo rdf:resource="http://www.fujitsu.com/cn/frdc/Department/TsinghuaComputerDep#"/> //清華大学計算機学院abc実験室が清華大学計算機学院に属する
<rdf:sameAs rdf:resource="http://somewhere/abc"/>
</rdf:Description>
</rdf:RDF>
なお、RDFの方式で情報を記憶する場合、使用するのは構造化のXMLデータであるので、情報検索は、よりスマート且つより正確になり、効率を大幅に向上させることができる。
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:vcard=http://www.w3.org/2001/vcard-rdf/3.0#
xmlns:titech="http://www.tt.cs.titech.ac.jp/~fukatani/University/TITech.owl#belongTo">
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/College#Tsinghua"> //清華大学のURI識別子
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#college"/>
<vcard:fullName>清華大学</vcard:fullName>
</rdf:Description>
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/Department#TsinghuaComputerDep"> //清華大学計算機学院のURI
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#department"/>
<vcard:fullName>清華大学計算機学院</vcard:fullName>
<titech:belongTo rdf:resource="http://www.fujitsu.com/cn/frdc/College/Tsinghua#"/> //清華大学計算機学院が清華大学に属する
</rdf:Description>
<rdf:Description rdf:about="http://www.fujitsu.com/cn/frdc/lab#abc"> //清華大学計算機学院abc実験室のURI
<rdf:type rdf:resource="http://www.fujitsu.com/cn/frdc/orgnization.owl#lab"/>
<vcard:fullName>清華大学計算機学院abc実験室</vcard:fullName>
<titech:belongTo rdf:resource="http://www.fujitsu.com/cn/frdc/Department/TsinghuaComputerDep#"/> //清華大学計算機学院abc実験室が清華大学計算機学院に属する
<rdf:sameAs rdf:resource="http://somewhere/abc"/>
</rdf:Description>
</rdf:RDF>
なお、RDFの方式で情報を記憶する場合、使用するのは構造化のXMLデータであるので、情報検索は、よりスマート且つより正確になり、効率を大幅に向上させることができる。
また、上述のRDFの方式は、組織名情報及びその内部組織構造関係及び同等関係を記憶するための例示的な好ましい方式のみであり、当業者は、この分野における他の方式を採用して情報の記憶を行ってよい。
以上、図1に基づいて、組織名データベースを構築するための例示的な方式を説明したが、上述は、例示のためだけであり、本発明を限定するためではない。当業者は、本発明の原理に基づいて上述の処理プロセスの変形例を得ることができ、また、これらの変形例は全て、本発明の技術的範囲に属する。
上述の情報処理方法に対応するように、本発明はさらに情報処理装置を提供する。以下、図2を参照しながら、本発明の実施例における情報処理装置の機能構成例を説明する。図2は、本発明の実施例における情報処理装置の機能ブロック図である。
図2に示すように、本発明の実施例における情報処理装置200は、組織名分解ユニット210、隷属関係分析ユニット220、同等関係分析ユニット230及び組織名記憶ユニット240を含んでもよい。次に、各ユニットの機能構成例をそれぞれ詳しく説明する。
組織名分解ユニット210は、組織名の語義特徴に基づいて、組織名を複数等級のサブ組織名に分解するために用いられる。
隷属関係分析ユニット220は、複数等級のサブ組織名の間の隷属関係を分析し、該組織名に関する組織の内部組織構造関係を得るために用いられる。
好ましくは、隷属関係分析ユニット220はさらに、所定の命名ルールに基づいて、複数等級のサブ組織名の間の隷属関係を取得し、そして、隷属関係に基づいて内部組織構造関係を構築するために用いられる。
また、好ましくは、隷属関係分析ユニット220はさらに、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチして隷属関係を取得し、また、組織の内部組織構造関係を得るために用いられる。
同等関係分析ユニット230は、公開情報資源を利用し、組織名の間の同等関係を分析するために用いられる。
好ましくは、同等関係分析ユニット230は、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチし、組織名の間の同等関係を得るために用いられる。
組織名記憶ユニット240は、組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築するために用いられる。
好ましくは、組織名記憶ユニット240はさらに、語義方式で組織名及び内部組織構造関係及び同等関係を記憶するために用いられる。
好ましくは、語義方式は、RDFに基づく方式を含む。
なお、以上、図1に基づいて、組織名データベースを構築するための情報処理方法の詳細なプロセスを説明したが、該情報処理装置は、前述の方法の実施例に対応するものであるので、装置の実施例に未記述の部分については、方法の実施例中の対応する部分の紹介を参照することができるので、ここでは、詳しい説明を省略する。
上述のように、各刊行物、雑誌、会議などの、著者組織名の書き方への要求が異なるので、同じ組織については異なる書き方がある可能性がある。“哈尓濱工業大学語言語音教育部−微軟重点実験室”を例とすると、異なる刊行物には、例えば、次のような書き方、即ち、“哈尓濱工業大学語言語音教育部−微軟重点実験室”、“哈尓濱工業大学計算機科学及び技術学院”、“哈尓濱工業大学、計算機科学及び技術学院”、“哈尓濱工業大学教育部、微軟語言語音重点実験室”、“教育部−微軟語言語音重点実験室哈尓濱工業大学”、“哈尓濱工業大学、語言語音教育部−微軟重点実験室”などの書き方がある。これらの組織名は、実質的に同じ組織を指すので、上述の組織名の書き方に対して規範化を行う必要があり、また、最終結果が“哈尓濱工業大学計算機科学及び技術学院語言語音教育部−微軟重点実験室”になることは所望である。
よって、次に、図3〜図4を基に、本発明の実施例における情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行う組織名規範化方法を説明する。
図3は、本発明の実施例における組織名規範化方法のフローチャートである。
図3に示すように、本発明の実施例の組織名規範化方法300は、組織名分解ステップS310及び組織名規範化ステップS320を含んでもよい。
まず、組織名分解ステップS310では、文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解してもよい。具体的な組織名分解方法は、図1に基づいて説明した組織名分解ステップS110に用いる方法とは同じであるので、ここでは、詳しい説明を省略する。
次に、組織名規範化ステップS320では、本発明の実施例に記載の情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行い、所定ルールに符合するようにさせる。
なお、以上、“哈尓濱工業大学語言語音教育部−微軟重点実験室”の場合を例としたが、ここでの組織名の非規範的場合は、使用する組織名の等級の違い及び書き方のフォーマットの違いによる非規範的なものを含んでもよいが、これらに限定されない。以下、この二つの場合についてそれぞれ詳しく説明する。
好ましくは、使用する組織名の等級の違いによる非規範的なものについて、組織名規範化ステップS320では、データベースにおける内部組織構造関係及び/又は文献の著者情報を用いて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行ってもよい。
具体的に、上述の場合を例とすると、“語言語音教育部−微軟重点実験室”が“計算機科学及び技術学院”に属し、該情報は、データベースにおける内部組織構造関係により取得することができる。如何に、“哈尓濱工業大学計算機科学及び技術学院”の付けられている論文が“哈尓濱工業大学語言語音教育部−微軟重点実験室”からのものであると確定するかについては、論文中の全著者情報を用いて、共著者の名前、論文のタイトル、キーワード、分類番号などの特徴を抽出し、既知の二項分類器(例えば、ベイズ分類器、最大Entropy分類器、又は、サポートベクタ分類器など)を用いて、両者が同じ組織を指すかを判定する。また、簡単なルールに基づく方法で判定してもよく、例えば、2つの論文が、所定人数を超えた同じ著者を含み且つ同一組織の名称のみを含む場合、この2つの組織には関係があると判定でき、また、具体的な関係の種類については、内部組織構造関係に基づいて確定されてもよい。
また、好ましくは、書き方のフォーマットの違いによる非規範的なものについて、組織名規範化ステップS320では、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。
具体的に、例えば、“教育部−微軟語言語音重点実験室”、“語言語音教育部−微軟重点実験室”及び“教育部、微軟語言語音重点実験室”について言えば、先ず、2つの候補組織名称の間の異なる字の数が、所定の字数(例えば、2つの字(符号を含まず))の範囲にあれば、このような場合の2つの組織名について、さらに、二者が同じ組織を指すかを判定する。具体的な方法は、上述の場合についての方法と類似し、即ち、論文中の全著者の情報に基づいて、共著者の名前、論文のタイトル、キーワード、分類番号などの特徴を抽出し、既知の二項分類器を用いて、両者が同じ組織を指すかを判定する。また、簡単なルールに基づく方法を用いてもよく、例えば、2つの論文が、所定人数を超えた同じ著者を含む且つ同じ組織名称のみを含む場合、この2つの組織名が同じ組織を指すと判定してもよい。
以上、上述の2つの場合のみによる組織名の非規範なものについて説明したが、その以外の場合についても、当業者は、本発明の原理に基づいて、既存のデータベースを用いて、組織名に対して規範化を行うことがもちろんできる。
次に、図4を基に、本発明の他の実施例における組織名規範化方法を説明する。図4は、本発明の他の実施例における組織名規範化方法のフローチャートである。
図4に示すように、本発明の他の実施例における組織名規範化方法400は、組織名分解ステップS410、組織名規範化ステップS420及び組織名追加ステップS430を含んでもよい。そのうち、組織名分解ステップS410及び組織名規範化ステップS420は、図3に基に説明した組織名分解ステップS310及び組織名規範化ステップS320とは同じであるため、ここでは、詳しい説明を省略する。以下、組織名追加ステップS430における処理を詳しく説明する。
組織名追加ステップS430では、データベースに該著者組織名の情報が含まれていない場合、図1に基づいて記載した情報処理方法によって著者組織名に対して処理を行い、所定条件を満足する時に、著者組織名の情報をデータベースに追加する。
好ましくは、該所定条件は、著者組織名の出現回数が所定閾値よりも大きいとのことを含む。これは、データベースを頻繁に更新して、処理負荷を増加させることを防ぐためである。
上述の組織名規範化方法に対応するように、構築された組織名データベースを用いて組織名を規範化する組織名規範化装置が更に提供される。
図5は、本発明の実施例における組織名規範化装置の機能ブロック図である。
図5に示すように、本発明の実施例における組織名規範化装置500は、組織名分解ユニット510及び組織名規範化ユニット520を含む。以下、各ユニットの機能構成を詳しく説明する。
組織名分解ユニット510は、文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解するために用いられる。
組織名規範化ユニット520は、本発明の実施例に記載の情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行い、所定ルールに符合するようにさせる。
好ましくは、組織名規範化ユニット520はさらに、データベースにおける内部組織構造関係及び/又は文献の著者情報を用いて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行う。
また、好ましくは、組織名規範化ユニット520はさらに、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。
なお、この組織名規範化装置は、前述の方法の実施例に対応するものであるので、装置の実施例に未記述の部分については、方法の実施例中の対応する部分の紹介を参照することができるため、ここでは、詳しい説明を省略する。
次に、図6を基に、本発明の他の実施例における組織名規範化装置の機能構成例を説明する。図6は、本発明の他の実施例における組織名規範化装置の機能ブロック図である。
図6に示すように、本発明の他の実施例における組織名規範化装置600は、組織名分解ユニット610、組織名規範化ユニット620及び組織名追加ユニット630を含んでもよい。そのうち、組織名分解ユニット610及び組織名規範化ユニット620は、図5に基づいて記載した組織名分解ユニット510及び組織名規範化ユニット520の機能構成とは同じであるので、ここでは、詳しい説明を省略する。以下、組織名追加ユニット630の機能構成を詳しく説明する。
組織名追加ユニット630は、データベースに著者組織名の情報が含まれていない場合、図1に基づいて記載した情報処理方法を用いて著者組織名に対して処理を行い、そして、所定条件を満足する時に、著者組織名の情報をデータベースに追加するために用いられる。
好ましくは、該所定条件は、著者組織名の出現回数が所定閾値よりも大きいとのことを含む。
なお、以上において図5及び図6を基に記載した組織名規範化装置の機能構成は、例示的なものだけであり、本発明を限定するものでない。当業者は、上述の機能構成について変更することがもちろんできるが、このような変更によるものはすべて、本発明の技術的範囲に属する。
また、上述の一連の処理及び装置は、ソフトウェア、ファームウェア、ハードウェア又はそれらの任意の組む合せの方式で実現されてもよい。ソフトウェア又はファームウェアにより実現する場合、まず、記憶媒体又はネットワークから、専用ハードウェア構造を有するマシン(例えば、図7に示す汎用マシン700)に該ソフトウェア又はファームウェアのプログラムをインストールし、それから、該マシンは、各種プログラムがインストールされている時に、上述のユニットやサブユニットの各種機能を実行することができる。
図7は、本発明の実施例に用いる情報処理装置としてのパソコン(汎用マシン)700の構成ブロック図である
図7に示すように、中央処理ユニット(CPU)701が、リードオンリーメモリ(ROM)702に記憶されているプログラム、又は、記憶部708からランダムアクセスメモリ(RAM)703にロードされているプログラムに基づいて各種の処理を行う。RAM703は、ニーズに応じて、CPU701が各種の処理などを実行するときに必要なデータを記憶してもよい。CPU701、ROM702及びRAM703は、バス704を経由して互いに接続される。また、入力/出力インターフェース705もバス704に接続される。
図7に示すように、中央処理ユニット(CPU)701が、リードオンリーメモリ(ROM)702に記憶されているプログラム、又は、記憶部708からランダムアクセスメモリ(RAM)703にロードされているプログラムに基づいて各種の処理を行う。RAM703は、ニーズに応じて、CPU701が各種の処理などを実行するときに必要なデータを記憶してもよい。CPU701、ROM702及びRAM703は、バス704を経由して互いに接続される。また、入力/出力インターフェース705もバス704に接続される。
入力/出力インターフェース705には、入力部706(キーボードやマウスなどを含む)、出力部分707(表示器例えばCRT、LCD、スピーカーなどを含む)、記憶部708(ハードディスクなどを含む)、及び通信部709(ネットワーク接続カード例えばLANカード、モデムなどを含む)が接続される。通信部709は、ネットワーク例えばインターネットを経由して通信処理を行う。ドライブ710がニーズに応じて入力/出力インターフェース705に接続されてもよい。また、ニーズに応じて、取り外し可能な媒体711例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどをドライブ710にセットすることにより、その中から読み出したコンピュータプログラムを記憶部708にインストールしてもよい。
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体711から、このソフトウェアを構成するプログラムをインストールしてもよい。
なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図7に示すような取り外し可能な媒体711に限定されない。取り外し可能な媒体711の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM702、記憶部708に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
また、本発明は、マシン(例えば、コンピュータ)読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行される時に、上述の実施例による方法を実行することができる。
さらに、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク(フロッピーディスク)、光ディスク、光磁気ディスク、メモリカード、メモリメモリスティックなどを含むが、これらに限定されない。
本発明の上述の実施例による方法は、明細書に記載の又は図面に図示の時間順序に従って実行することに限定されず、他の時間順序に従って、並列に又は独立して実行してもよい。よって、本明細書又は図面に記載の方法の実行順序は、本発明の技術範囲を限定しない。
また、もちろん、本発明の上述の方法の各処理プロセスは、各種のマシン可読記憶媒体に保存のコンピュータ実行可能なプログラムの方式により実現されてもよい。
また、本発明の目的は、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接にシステム又は設備に提供し、且つ、該系統又は設備中のコンピュータ又は中央処理ユニット(CPU)が上述のプログラムコードを読み出して実行させる方式で実現されてもよい。
また、該系統又は設備はプログラムを実行する機能を有すれば、本発明の実施方式はプログラムに限定されず、また、該プログラムは他の任意の形式、例えば、オブジェクトプログラム、インタープリター実行用プログラム、又は、オペレーティングシステム操作系統に提供するスクリプトプログラムなどであってもよい。
上述のマシン可読記憶媒体は、各種の存儲器及び存儲ユニット、半導体装置、ディスユニット例えば光、磁気及び光磁気ディス、及び他の任意の使用可能な情報記憶媒体などであってもよい。
また、クライントコンピュータが、インターネットに接続されている所定のウェブサイトを経由して、本発明の上述の実施例によるコンピュータプログラムコードをダウンロードし、コンピュータにインストールした後に、該プログラムを実行することにより、本発明を実現することもできる。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
情報処理方法であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む、方法。
情報処理方法であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む、方法。
(付記2)
付記1に記載の方法であって、
前記組織名記憶ステップでは、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、方法。
付記1に記載の方法であって、
前記組織名記憶ステップでは、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、方法。
(付記3)
付記2に記載の方法であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、方法。
付記2に記載の方法であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、方法。
(付記)
付記1に記載の方法であって、
前記隷属関係分析ステップでは、所定の命名ルールに基づいて、前記複数等級のサブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、方法。
付記1に記載の方法であって、
前記隷属関係分析ステップでは、所定の命名ルールに基づいて、前記複数等級のサブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、方法。
(付記5)
付記1に記載の方法であって、
前記隷属関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、方法。
付記1に記載の方法であって、
前記隷属関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、方法。
(付記6)
付記1に記載の方法であって、
前記同等関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、方法。
付記1に記載の方法であって、
前記同等関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、方法。
(付記7)
情報処理装置であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む、装置。
情報処理装置であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む、装置。
(付記8)
付記7に記載の装置であって、
前記組織名記憶ユニットはさらに、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、装置。
付記7に記載の装置であって、
前記組織名記憶ユニットはさらに、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、装置。
(付記9)
付記8に記載の装置であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、装置。
付記8に記載の装置であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、装置。
(付記10)
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、所定の命名ルールに基づいて、前記複数等級サブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、装置。
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、所定の命名ルールに基づいて、前記複数等級サブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、装置。
(付記11)
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、装置。
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、装置。
(付記12)
付記7に記載の装置であって、
前記同等関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、装置。
付記7に記載の装置であって、
前記同等関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、装置。
(付記13)
組織名規範化方法であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
付記1〜6中の任意の1項に記載の情報処理方法により構築されたデータベースを使用し、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ステップを含む、方法。
組織名規範化方法であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
付記1〜6中の任意の1項に記載の情報処理方法により構築されたデータベースを使用し、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ステップを含む、方法。
(付記14)
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、方法。
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、方法。
(付記15)
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、方法。
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、方法。
(付記16)
付記7に記載の方法であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ステップを含む、方法。
付記7に記載の方法であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ステップを含む、方法。
(付記17)
付記16に記載の方法であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、方法。
付記16に記載の方法であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、方法。
(付記18)
組織名規範化装置であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
付記1〜6中の任意の1項に記載の情報処理方法によって構築されたデータベースを用いて、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ユニットを含む、装置。
組織名規範化装置であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
付記1〜6中の任意の1項に記載の情報処理方法によって構築されたデータベースを用いて、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ユニットを含む、装置。
(付記19)
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、装置。
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、装置。
(付記20)
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、装置。
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、装置。
(付記21)
付記18に記載の装置であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて、前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ユニットを含む、装置。
付記18に記載の装置であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて、前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ユニットを含む、装置。
(付記22)
付記21に記載の装置であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、装置。
付記21に記載の装置であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、装置。
(付記23)
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置において付記1〜6中の任意の1項に記載の情報処理方法を実行させる、記憶媒体。
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置において付記1〜6中の任意の1項に記載の情報処理方法を実行させる、記憶媒体。
(付記24)
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記1〜6中の任意の1項に記載の情報処理方法を実行させる、プログラム。
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記1〜6中の任意の1項に記載の情報処理方法を実行させる、プログラム。
(付記25)
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、記憶媒体。
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、記憶媒体。
(付記26)
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、プログラム。
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、プログラム。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
Claims (10)
- 情報処理方法であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む、方法。 - 請求項1に記載の情報処理方法であって、
前記組織名記憶ステップでは、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、方法。 - 請求項2に記載の情報処理方法であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、方法。 - 請求項1に記載の情報処理方法であって、
前記隷属関係分析ステップでは、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源を検索し、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、方法。 - 情報処理装置であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む、装置。 - 組織名規範化方法であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
請求項1〜4中の任意の1項に記載の情報処理方法により構築されたデータベースを使用し、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ステップを含む、方法。 - 請求項6に記載の方法であって、
前記組織名規範化ステップでは、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、方法。 - 請求項6に記載の方法であって、
前記組織名規範化ステップでは、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、方法。 - 請求項6に記載の方法であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、請求項1〜4中の任意の1項に記載の情報処理方法を用いて、前記著者組織名にたして処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ステップを含む、方法。 - 組織名規範化装置であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
付記1〜4中の任意の1項に記載の情報処理方法によって構築されたデータベースを用いて、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ユニットを含む、装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310270868.9 | 2013-07-01 | ||
CN201310270868.9A CN104281570A (zh) | 2013-07-01 | 2013-07-01 | 信息处理方法和装置以及机构名规范化方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015011723A true JP2015011723A (ja) | 2015-01-19 |
Family
ID=52256455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014135784A Withdrawn JP2015011723A (ja) | 2013-07-01 | 2014-07-01 | 情報処理方法及び装置並びに組織名規範化方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2015011723A (ja) |
CN (1) | CN104281570A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718732B (zh) * | 2016-01-20 | 2018-07-27 | 华中科技大学同济医学院附属协和医院 | 一种医疗数据采集分析系统 |
CN107967300B (zh) * | 2017-11-07 | 2020-06-23 | 平安科技(深圳)有限公司 | 机构名称的检索方法、装置、设备及存储介质 |
CN111984776B (zh) * | 2020-08-20 | 2023-08-11 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
CN112182312A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 一种机构名称匹配方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
-
2013
- 2013-07-01 CN CN201310270868.9A patent/CN104281570A/zh active Pending
-
2014
- 2014-07-01 JP JP2014135784A patent/JP2015011723A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN104281570A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531717B2 (en) | Discovery of linkage points between data sources | |
Neumaier et al. | Multi-level semantic labelling of numerical values | |
Chen et al. | A Two‐Step Resume Information Extraction Algorithm | |
Inkpen et al. | Location detection and disambiguation from twitter messages | |
US20130198192A1 (en) | Author disambiguation | |
Geiß et al. | Neckar: A named entity classifier for wikidata | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
KR101724398B1 (ko) | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 | |
US10037381B2 (en) | Apparatus and method for searching information based on Wikipedia's contents | |
Perera | Ipedagogy: Question answering system based on web information clustering | |
Färber et al. | On emerging entity detection | |
JP2015011723A (ja) | 情報処理方法及び装置並びに組織名規範化方法及び装置 | |
Gollapalli et al. | On identifying academic homepages for digital libraries | |
Zhao et al. | Text sentiment analysis algorithm optimization and platform development in social network | |
Yaman et al. | Interlinking scigraph and dbpedia datasets using link discovery and named entity recognition techniques | |
Ortiz Vivar et al. | REDI: Towards knowledge graph-powered scholarly information management and research networking | |
Geller et al. | Toxicity in Evolving Twitter Topics | |
Tao et al. | Building ontology for different emotional contexts and multilingual environment in opinion mining | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
Zhao et al. | Advance gender prediction tool of first names and its use in analysing gender disparity in Computer Science in the UK, Malaysia and China | |
Javed et al. | Automating corpora generation with semantic cleaning and tagging of tweets for multi-dimensional social media analytics | |
Chala et al. | A Framework for Enriching Job Vacancies and Job Descriptions Through Bidirectional Matching. | |
Patil et al. | An innovative approach to classify and retrieve text documents using feature extraction and Hierarchical clustering based on ontology | |
Swezey et al. | Automatic detection of news articles of interest to regional communities | |
Jaffali et al. | Clustering and classification of like-minded people from their tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170406 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20171228 |