JP6867319B2 - 語彙間関係性推測装置および語彙間関係性推測方法 - Google Patents

語彙間関係性推測装置および語彙間関係性推測方法 Download PDF

Info

Publication number
JP6867319B2
JP6867319B2 JP2018034584A JP2018034584A JP6867319B2 JP 6867319 B2 JP6867319 B2 JP 6867319B2 JP 2018034584 A JP2018034584 A JP 2018034584A JP 2018034584 A JP2018034584 A JP 2018034584A JP 6867319 B2 JP6867319 B2 JP 6867319B2
Authority
JP
Japan
Prior art keywords
vocabulary
data
relationship
difference
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018034584A
Other languages
English (en)
Other versions
JP2019149097A (ja
Inventor
雄介 藤原
雄介 藤原
石田 修一
修一 石田
大介 鬼頭
大介 鬼頭
井奥 章
章 井奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018034584A priority Critical patent/JP6867319B2/ja
Publication of JP2019149097A publication Critical patent/JP2019149097A/ja
Application granted granted Critical
Publication of JP6867319B2 publication Critical patent/JP6867319B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、語彙間関係性推測装置および語彙間関係性推測方法に関するものであり、具体的には、語彙間の関係性を効率的かつ精度良く推測可能とする技術に関する。
情報科学において、対象世界(知識領域)を或る視点で見た時に現れてくる概念(構成要素、用語)を明示的に記述し、それら概念の関係を体系的に分類して語彙(用語集合)を構築する技術を、オントロジーという。
そうしたオントロジーは、特にセマンティックウェブにおいて、概念の位置関係による概念間の相対的な意味の共有、コンピュータによる文書の意味の理解、情報の検索及び再利用、等を可能にする。
一方、オープンデータや行政等の各種システムのデータの連携の必要性が注目されている。例えば、日本におけるIPAのコア語彙、北米におけるNIEMのNIEM、欧州におけるISAのCore VocabulariesやUNECEのUN/CEFACT等、各有力機関が定義した既存の語彙に基づいて作成されたデータが、XML及びRDF(Resource Description Framework)のスキーマファイルとして提供される事で、データ活用の効率化が図れる。
複数の機関で定義された、互いに異なる語彙で作成されたデータを連携させるためには、オントロジーの技術を用いて、語彙の表記、意味及びデータ構造の統一が必要である。例えばIPAのコア語彙の住所型、郵便番号と、ISAのAddress、PostCodeの関係性は完全一致であるが、データ名称が異なる。従って語彙間の関係性の整備によって初めて、データ連携が可能となる。
上述のオントロジーに関する従来技術としては、例えば、知識や概念を体系的に分類したクラスを持ち、前記各クラスの属性であるプロパティに従って記述されたデータをクラスに対応付け可能な1つ以上のオントロジーを記憶するオントロジー情報記憶部と、複数のデータ項目が付随したオントロジー構築対象のデータから前記各データ項目を抽出するデータ項目抽出部と、前記オントロジーから前記各データ項目に対応する候補プロパティを抽出する候補プロパティ抽出部と、前記候補プロパティを有する候補クラスを前記オントロジーから抽出する候補クラス抽出部と、前記候補クラスの優先度に従って決定される基準クラスから前記オントロジー構築対象のデータにかかるデータ項目に対応するプロパティおよびその抽出先のクラスをオントロジーの候補として決定する第1のプロパティ選択決定部と、前記第1のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目がある場合には、前記第1のプロパティ選択決定部で決定したクラスを基準クラスとして前記第1のプロパティ選択決定部で決定したプロパティのいずれかを有するクラスを抽出し、抽出された当該クラスの中から前記第1のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目に対応するプロパティを有するクラスを抽出し、前記第1のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目に対応するプロパティおよびその抽出先のクラスをオントロジーの候補として決定する第2のプロパティ選択決定部と、を備えることを特徴とするオントロジー構築支援装置(特許文献1参照)などが提案されている。
また同じく、オントロジーに関する従来技術として、文書データを取得する取得部と、
語彙の概念の組である概念ペアを記憶する概念情報記憶部と、前記文書データから、前記
概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する第1抽出部と、抽出された前記パターンを記憶するパターン情報記憶部と、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とするオントロジー生成装置(特許文献2参照)なども提案されている。
特開2009−70133号公報 特開2010−224833号公報
ところで、上述の語彙間の関係性の整備は、整備対象の語彙のデータ収集、関係性の推定及び吟味、および、関係性を記述したデータの作成、の手順で行われる。
このうち関係性の推定及び吟味は、自動化が困難であるとともに担当者のスキル等に起因する属人性の高い手順である。よって、語彙それぞれが含む膨大な用語各間について当該手順を行うとすれば、処理の効率や精度を好適なものとすることは非常に難しいといえる。
そこで本発明の目的は、語彙間の関係性を効率的かつ精度良く推測可能とする技術を提供することにある。
上記課題を解決する本発明の語彙間関係性推測装置は、処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置と、前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行する演算装置と、を含むことを特徴とする。
また、本発明の語彙間関係性推測方法は、処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置を備えた情報処理システムが、前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行することを特徴とする。
本発明によれば、語彙間の関係性を効率的かつ精度良く推測可能となる。
本実施形態における語彙間関係性推測装置を含むネットワーク構成例を示す図である。 本実施形態における既存関係性データの構成例を示す図である。 本実施形態における語彙間関係性推測装置の構成例を示す図である。 本実施形態における語彙間関係性推測方法のフロー例1を示す図である。 本実施形態における決定木(学習モデル)の出力例を示す図である。 本実施形態における新規関係性データのデータ構成例を示す図である。 本実施形態における語彙間関係性推測方法のフロー例2を示す図である。 本実施形態における相違度データのデータ構成例1を示す図である。 本実施形態における相違度データのデータ構成例2を示す図である。 本実施形態における相違度データのデータ構成例3を示す図である。 本実施形態における相違度データのデータ構成例4を示す図である。 本実施形態における語彙間関係性推測方法のフロー例3を示す図である。 本実施形態におけるプロパティ相違度のデータ構成例を示す図である。
−−−ネットワーク構成等について−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の語彙間関係性推測装置100を含むネットワーク構成図である。図1に示す語彙間関係性推測装置100は、語彙間の関係性を効率的かつ精度良く推測可能とするコンピュータシステムである。
本実施形態における語彙間関係性推測装置100は、インターネットなどの適宜なネットワーク10を介し、各種のWebサーバ200と通信可能に接続されている。なお、このWebサーバ200は、語彙に関するデータ、すなわち語彙データ210を公開するサーバ装置である。こうした語彙データ210の例としては、IPAのコア語彙、北米におけるNIEMのNIEM、欧州におけるISAのCore VocabulariesやUNECEのUN/CEFACT等、各有力機関が定義した既存の語彙データ、などを想定できる。
本実施形態の場合、語彙間関係性推測装置100は、このWebサーバ200から語彙データ210を取得し、これを自身の語彙記憶部125に語彙データ1251として格納するものとする。勿論、こうした語彙データ1251の取得形態の他にも、適宜な携帯型記憶装置など物理媒体等を介して取得する形態を採用してもよい。
上述のごときネットワーク構成における語彙間関係性推測装置100は、ハードウェア構成として、補助記憶装置101、主記憶装置103、CPU(演算装置)104、入力装置105、出力装置106、および、I/F(通信装置)107、を備える。
このうち補助記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。また、主記憶装置103は、RAMなど揮発性記憶素子で構成される。また、CPU104は、補助記憶装置101に保持されるプログラム102を主記憶装置103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なう。また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボード等の装置である。また
、出力装置106は、処理データの表示を行うディスプレイ等の装置である。また、I/F107は、上述のネットワーク10と接続し、Webサーバ200等の他装置との通信処理を担う装置である。
なお、主記憶装置103には、語彙収集部110、語彙情報抽出部111、相違度算出部112、学習モデル構築部113、および、関係性判定部114、が上述のプログラム102を実行することで実装されている。このうち相違度算出部112は、用語間の相違度を算出した結果たる相違度データ1121を保持する。
また、主記憶装置103は、これら機能部の他、判定条件情報115、既存関係性データ116、および、新規関係性データ117、も保持する。
このうち判定条件情報115は、異なる語彙データ1251の間の関係を判断するにあたり、どのような条件で関係を判断するか規定した情報である。例えば、当該語彙データ1251の間において、1)用語同士の名称に関する類似度で判断する、2)用語同士の説明文章間の類似度で判断する、3)用語名称が説明文章に含まれているかで判断する、4)階層構造(例:クラス用語が複数のプロパティ用語で構成される)を有する用語において階層最上位の用語だけではなく、下位階層のプロパティ用語に関する類似度も踏まえて判断する、といった判断条件を想定できる。これらの判断条件を単独で適用するとしてもよいし、複数組み合わせて適用するとしてもよい。
また既存関係性データ116は、所定の語彙データ1251の間において関係性が既知となっている用語の組について、その関係性を定義したデータである。例えば或る語彙データ1251の用語「名前」と、別の語彙データ1251の用語「name」とは、互いに異なる名称ではあるが完全に同一の事象を示すと規定済みである場合、既存関係性データ116において、当該語彙データ1251の間において当該用語の組みに関する関係性は「完全一致」などと定義されている。また、或る語彙データ1251の用語Aと、別の語彙データ1251の用語Bとは、用語Aが用語Bの下位概念の事象を示すと規定済みである場合、既存関係性データ116において、当該用語の組みに関する関係性は「用語Aが用語Bの下位概念」などと定義されている。
こうした既存関係性データ116の具体例を図2に示す。図2にて示す既存関係性データ116は、関係性が既知である語彙データ1251の例として、「語彙ISA」および「コア語彙」を想定し、これらが含む各用語の間に関して定義済みの関係性の値が格納されたものとなっている。
例えば、「語彙ISA」における用語「FullAdress」と、「コア語彙」における用語「表記」との関係性は、「Has exact match」すなわち正確に一致(完全一致)と定義され
ている。また、「語彙ISA」における用語「POBox」と、「コア語彙」における用語「
方書」との関係性は、「Has no match」すなわち不一致と定義されている。また、「語彙ISA」における用語「LocatorDesignator」と、「コア語彙」における用語「ビル番号
」との関係性は、「Has narrow match」すなわち「LocatorDesignatorの狭い概念として
一致」(“LocatorDesignator”の下位概念たる“ビル番号”)と定義されている。
一方、補助記憶装置101には、語彙記憶部125および学習モデル記憶部126が構成されている。このうち語彙記憶部125は、語彙データ1251、および、当該語彙データ1251から語彙情報抽出部111が抽出した当該用語の説明記述等である語彙情報1252を格納する。また、学習モデル記憶部126は学習モデル構築部113が生成した学習モデル1261を格納する。当該学習モデル1261は、語彙間関係性推測装置100の学習モデル構築部113が語彙間関係性推測方法を実行することで生成したものとなる。
−−−機能構成の例−−−
次に、本実施形態の語彙間関係性推測装置100における各機能について、図1、図3に基づき説明する。語彙間関係性推測装置100における語彙収集部110は、上述のWebサーバ200から、日本におけるIPAのコア語彙、北米におけるNIEMのNIEM、欧州におけるISAのCore VocabulariesやUNECEのUN/CEFACT等、各有力機関が定義した既存の語彙データ210を収集し、語彙データ1251として語彙記憶部125に格納する機能部である。語彙データ1251は、例えばXMLないしRDFフォーマットのデータを想定できる。
また、語彙情報抽出部111は、上述の語彙収集部110が収集・格納した語彙データ1251から、各語彙を構成する用語の、用語名、用語の説明文、当該用語が階層構造を有する用語かを識別する用語種類等の情報を、語彙情報1252として抽出し、これを語彙記憶部125に格納する機能部である。この語彙情報1252は、後述する第2中間データ1121Bおよび第3中間データ1121Cとの関係において、「第1中間データ」に該当する。
また相違度算出部112は、既に述べた判定条件情報115に基づき、語彙データ1251の間における用語同士の相違度を算定する機能部である。ここで相違度の算定対象となるのは、上述の語彙情報1252である。また、この語彙情報1252は、既存関係性データ116で関係性が既知の語彙データ1251に関するものと、Webサーバ200から収集したものの他の語彙データ1251との間に関して用語同士の関係性が未だ規定されていない語彙データ1251に関するものの、2種類存在しうる。よって、相違度算出部112は、語彙情報1252を入力として、既存関係性データ116で関係性が既知の語彙データ1251に関して算定した相違度たる第2中間データ1121Bと、関係性が未だ規定されていない語彙データ1251に関して算定した相違度たる第3中間データ1121Cを出力することとなる。こうした相違度の算定手順の詳細については後述する。
また学習モデル構築部113は、語彙データ1251の間における用語同士の既知の関係性、すなわち既存関係性データ116で規定された各用語に関して、上述の相違度算出部112が算定した相違度の値(第2中間データ1121B)を特徴量とし、また、当該語彙データ1251の間の用語同士の関係性に関して既存関係性データ116で規定されている定義を訓練データとして、機械学習を実行することで、当該語彙データ1251の間における用語同士の関係性について、どのような条件を満たす用語同士であれば、同じ事象を示すものまたは所定の関係性のあるものと見なせるかを判断する学習モデル1261を生成し、これを学習モデル記憶部126に格納する機能部である。
また関係性判定部114は、用語同士の関係性把握の対象となる所定の語彙データ1251の間について、上述の学習モデル1261に、対象となる語彙データ1251の各用語の間の相違度(第3中間データ1121C)を適用して関係性の有無を判断し、その結果を新規関係性データ117として出力装置106に表示する。
語彙間関係性推測装置100を操作しているユーザは、上述の新規関係性データ117を確認することで、対象となる語彙データ1251の間で互いの用語が同じ事象を示すものか、或いは上位概念か下位概念か、または関係性の無いものか、といった関係性を容易に把握可能となる。
−−−フロー例1−−−
以下、本実施形態における語彙間関係性推測方法の実際手順について図に基づき説明す
る。以下で説明する語彙間関係性推測方法に対応する各種動作は、語彙間関係性推測装置100が主記憶装置103等に読み出して実行するプログラム102によって実現される。そして、このプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
図4は、本実施形態における語彙間関係性推測方法のフロー例1を示す図である。ここではまず、語彙間関係性推測装置100の語彙収集部110は、I/F107を介して1または複数のWebサーバ200にアクセスし、当該Webサーバ200から、1または複数の語彙データ1251を取得し、これを語彙記憶部125に格納する(s100)。
続いて、語彙間関係性推測装置100の語彙情報抽出部111は、上述のs100で得た語彙データ1251から語彙情報1252(第1中間データ)を抽出する(s101)。既に述べたように、この語彙情報1252は、語彙データ1251で各用語について規定されている、各語彙を構成する用語の、用語名、用語の説明文、当該用語が階層構造を有する用語かを識別する用語種類等の情報、である。
次に、語彙間関係性推測装置100の相違度算出部112は、第1中間データとして抽出した上述の語彙情報1252に基づき、語彙間における用語同士の相違度を算定する(s102)。ここで算定する相違度は、第2中間データ1121Bと第3中間データ1121Cである。第2中間データ1121Bは、既存関係性データ116で関係性が既知の語彙データ1251に関して算定した相違度である。また、第3中間データ1121Cは、関係性が未だ規定されていない語彙データ1251に関して算定した相違度である。この相違度算定の具体的手法については図7等に基づき後述する。
続いて、語彙間関係性推測装置100の学習モデル構築部113は、主記憶装置103で保持する既存関係性データ116(訓練データ)と、この既存関係性データ116で関係性を規定済みの所定語彙データ1251の間に関して上述のs102で得ている第2中間データ1121B(特徴量)とを所定の機械学習アルゴリズムに入力し、機械学習を実行することで、当該語彙データ1251の間における用語同士の関係性について、どのような条件を満たす用語同士であれば、同じ事象を示すものまたは所定の関係性のあるものと見なせるかを判断する学習モデル1261を生成し、これを学習モデル記憶部126に格納する(s103)。
こうした学習モデル1261の例としては、図5の表示画面700の例で示すごとき決定木を想定できる。この決定木においては、関係性判定の対象となる「用語1」、「用語2」に関して、その名称や説明に関する所定相違度の値が所定基準値より小さいか否か、で場合分けする条件分岐を順次経ることで、当該用語間の関係性を、「完全一致」、「類似一致」、「関係性無し」、「関連一致」などと決定するものとなっている。よってこの場合、学習モデル構築部113は、用語間の様々な相違度の条件の組み合わせと、当該用語間に関して規定済みの関係性それぞれとのパターンマッチングを実行し、各関係性を最も確実に示す、相違度の条件の組み合わせパターンをそれぞれ特定することになる。
また、語彙間関係性推測装置100の関係性判定部114は、用語同士の関係性把握の対象となる所定の語彙データ1251の間について、学習モデル記憶部126に格納した上述の学習モデル1261に、対象となる語彙データ1251の各用語の間の相違度たる第3中間データ1121Cを適用して、用語間の関係性を判断し、その結果を新規関係性データ117として生成する(s104)。こうした新規関係性データ117の例としては、図6の表示画面800の例で示すごときものを想定できる。図6で例示する新規関係性データ117では、「Scheme.org」なる語彙データ1251の用語「PostalCode」と、語彙データ1251なる語彙データ1251の用語「郵便番号」との間の関係性として、
「Has exact match」すなわち「完全一致」と判定された例を示している。
最後に、語彙間関係性推測装置100の関係性判定部114は、学習モデル1261および上述の新規関係性データ117の情報を、出力装置106に表示し(s105)、処理を終了する。なお、学習モデル1261を表示する表示画面700の例は図5に、また、新規関係性データ117を表示する表示画面800の例は図6に、それぞれ示している。
−−−フロー例2−−−
続いて、上述の図4のフローにおける相違度算出の処理(s102)の詳細について説明する。図7は、本実施形態における語彙間関係性推測方法のフロー例2を示す図である。
この場合まず、語彙間関係性推測装置100の相違度算出部112は、語彙データ1251から所定の「語彙1」の語彙データ(以後、“語彙1”。以下同様)を選択する(s201)。選択の手法は、当該語彙データ1251において未処理のものをランダムないし登録順で選択するものや、或いはユーザの指定を入力装置105で受けて当該指定の対象となったものを選択するといったものを想定できる(以下同様)。
次に相違度算出部112は、語彙データ1251から所定の「語彙2」を選択する(s202)。その際、上述の語彙1とは異なるものを選択する。
続いて相違度算出部112は、上述の「語彙1」が含む用語のうちひとつを「用語1」として選択する(s203)。
また相違度算出部112は、上述の「語彙2」が含む用語のうちひとつを「用語2」として選択する(s204)。
次に相違度算出部112は、上述の「用語1」の種類と「用語2」の種類とが同一かどうか、当該語彙データにて当該用語に関して規定する情報に基づき判定する(s205)。なお、こうした用語の種類にはクラス用語とプロパティ用語が存在する。
上述の判定の結果、「用語1」と「用語2」の種類が同一だった場合(s205:Y)、相違度算出部112は、ステップs206からステップs209を実行する。
このうちs206において、相違度算出部112は、「用語1」の名称と「用語2」の名称の間のコサイン相違度を計算する。この計算結果は、相違度データ1121として相違度算出部112が主記憶装置103で保持する(他の相違度に関しても同様)。
このコサイン相違度として、ここでは当該名称が含む単語のうち一致するものの割合すなわちコサイン類似度の値を1から減算したものを想定する。この場合の計算式は、1−コサイン類似度=1−(一致する単語の数)÷(用語1の単語数)1/2÷(用語2の単語数)1/2、となる。図8で示すように、「用語1」の名称「Post Code」と、「用語2」の
名称「PostalCode」との間のコサイン相違度を計算すると、1−1÷21/2÷21/2
0.5、となる。
またs207において、相違度算出部112は、上述の「用語1」と「用語2」の説明間のTF−IDFコサイン相違度を計算する。図9に示す相違度データ112Bでは、このTF−IDFコサイン相違度を相違度として算定した例を示している(図中では、TF−IDFコサイン距離と表示)。
TF−IDF(Term Frequency-Inverse Document Frequency)コサイン類似度は、文章
内において特徴となる単語であるかの指標であって、当該文章内に頻出し、かつ他の文章
に現れないような単語は、その値が高くなるものである。よってTF−IDFコサイン相違度は、TF−IDFコサイン類似度の値を、1から減算したものとなる。TF−IDFコサイン類似度の計算手法自体は、既存のものを適宜に採用すればよい。
またs208において、相違度算出部112は、上述の「用語1」の名称が「用語2」の説明内で含有される率、すなわち含有率を計算する。
この含有率の計算例としては、図10の相違度データ(名称−説明)1121Cで示すように、用語「FAX番号」の名称「FAX number」は、「用語2」の説明「The fax number」において、いずれも含まれるため、相違度という概念での含有率は「0.0」となる。
またs209において、相違度算出部112は、上述の「用語2」の名称が「用語1」の説明内で含有される率、すなわち含有率を計算する。
この含有率の計算例としては、図10の相違度データ(名称−説明)1121Cで示すように、「用語2」の「fax Number」の名称「fax Number」は、「用語1」の説明「The facsimile number. Note: Use "0 to 9" numeric characters and "plus '+', minus '-', opening parenthesis '(', closing parenthesis ')', and comma ',' "characters only.」において、「fax」が含まれていないため、相違度という概念での含有率は「0.5」となる。
続いて、相違度算出部112は、上述のステップs204からの処理を「語彙2」内のすべての用語を選択するまでループする(s210)。
こうしてステップs204からステップs210のループ処理が終了した場合、相違度算出部112は、ステップs211でステップs203からの処理を「語彙1」内のすべての用語を処理するまでループする。
こうしてステップs203からステップs211のループ処理が終了した場合、相違度算出部112は、「語彙1」と「語彙2」の関係性が既存関係性データ116内に存在するか判定する(s212)。
この判定の結果、存在する場合(s212:Y)、相違度算出部112は、ステップs206からステップs209で計算した、選択されている「語彙1」と「語彙2」の用語間のパラメータを第2中間データ1121Bとして生成する(s213)。
一方、上述の判定の結果、存在しない場合に(s212:N)、相違度算出部112は、選択されている「語彙1」と「語彙2」の用語間のパラメータを第3中間データ1121Cとして生成する(s214)。
続いて、相違度算出部112は、ステップs202からの処理を語彙記憶部125のすべての語彙データ1251を「語彙2」として選択するまでループする(s215)。ただし、「語彙1」と「語彙2」の組み合わせが重複するケースはスキップしてよい。
上述のステップs202からステップs215までのループ処理が終了した場合、相違度算出部112は、ステップs201からの処理を語彙記憶部125のすべての語彙データ1251を「語彙1」として選択するまでループする(s216)。以上によりすべての語彙の組み合わせに対して処理を行った場合、相違度算出部112は処理を終了する。こうしたフローで最終的に得られる相違度データ1121は図11で示すとおりである。−−−相違度算出の他形態−−−
なお、上述の図7で例示したフローのうち、s206からステップs209までで行う
相違度や含有率の算定処理において、処理対象の用語それぞれが含有するプロパティ用語の相違度を考慮する形態も想定できる。この場合、こうしたプロパティ用語の含有関係を踏まえた相違度に基づいて、クラス用語間の相違度を算定する形態も考えられる。
図12は、本実施形態における語彙間関係性推測方法のフロー例3を示す図であり、具体的には、所定のクラス用語の間について、それらクラス用語が含有するプロパティ用語に基づく相違度の算出方法を示すフローである。なお、ここで示すフローは、図4のフローにおけるs206から609までか或いはその前後に、クラス用語たる「用語1」、「用語2」に関して、そのプロパティ用語に基づく相違度の算出ステップとして、追加することを想定できる。
ここでは、クラス用語の例として、「コア語彙」のクラス用語「製品個品型」、「schema.org」のクラス用語「IndividualProduct」を想定する。このうち「コア語
彙」のクラス用語「製品個品型」は、プロパティ用語である、「製造日」、「ロット番号」、「消費期限」、等を含有している。また、「schema.org」のクラス用語「IndividualProduct」は、プロパティ用語である、「serialNumber」を含有している。
このように、プロパティ用語の間に所定の関係性を持つクラス用語であれば、当該クラス用語の間も所定の関係性を持つ可能性が高いと言える。この関係性を持つ可能性を相違度として算出する。この相違度も他の相違度と同様に、0.0から1.0までの値を取り、0.0に近い程その用語間の関係性を持つ可能性が高いと考えられる。
この場合まず、相違度算出部112は、ループ901(s901S〜s901E)において、所定の「クラス用語1」(上述の例場合、「製品個品型」)が含有する全てのプロパティ用語の相違度を算出するためのループである。
また、相違度算出部112は、上述のループ901で算出された相違度を平均し、それを上述の「クラス用語1」と「クラス用語2」との相違度として出力する(s902)。
なお、上述のループ901に含まれるループ911(s9011S〜s9011E)において、相違度算出部112は、上述の「クラス用語1」が含有する1つのプロパティ用語「プロパティ用語1−1」に対して、「クラス用語2」が含有する全てのプロパティ用語(プロパティ用語2−1とする)との間の相違度を算出する。この相違度の算出は、ステップs9012にて実行する。
s9012において、相違度算出部112は、「クラス用語1」の「プロパティ用語1−1」と「クラス用語2」の「プロパティ用語2−1」それぞれとの間で、フロー例2で示した4種類(名称間のコサイン相違度、説明間のTF−IDFコサイン相違度、名称−説明における含有率2種)、に関して同様に相違度を算出する。相違度算出部112は、これら全ての種類に関して相違度を算出し、その平均値を当該プロパティ用語間の相違度としている。
また、相違度算出部112は、s9013において、上述のループ911で算出された「クラス用語2」の全てプロパティ用語との間に関して求めた相違度のうち最小値を、「プロパティ用語1」の相違度と特定する。
例として、「コア語彙」のクラス用語「製品個品型」とschema.orgのクラス用語「IndividualProduct」における、含有するプロパティ用語による相違度を算出する
例について説明する。
この場合、相違度算出部112は、ループ901において、クラス用語1たる「コア語彙」のクラス用語「製品個品型」が含有するプロパティ用語のうち例えば「製造日」の相違度を算出するにあたり、ループ911内で、クラス用語2たる「schema.org」のクラス用語「IndividualProduct」が含有するプロパティ用語「serialNumber」との
間について、その相違度をs9012で算出する。
また相違度算出部112は、ステップ9013で、「製造日」は、クラス用語「IndividualProduct」が含有するいずれのプロパティ用語とも類似度が認められず、すなわち類
似度“0”であるため、相違度の最低値としは“1”を「製造日」の相違度とする。ループ901内で同様に「ロット番号」、「消費期限」、「シリアル番号」等についても相違度を算出する。この場合、「シリアル番号」については、プロパティ用語「serialNumber」と一致する、すなわち相違度“0”のため、相違度の最低値としは“0”を「シリアル番号」の相違度とすることになる。
また相違度算出部112は、s902で「製造日」、「ロット番号」、「消費期限」、「シリアル番号」等に関して得た相違度の平均値を算定し、それをクラス用語「製品個品型」および「IndividualProduct」がそれぞれ含有するプロパティ用語に基づく相違度と
特定する。図13のプロパティ相違度1121Dの例に示すように、上述の具体例の場合、「コア語彙」のクラス用語「製品個品型」と、クラス用語「schema.org」のクラス用語「IndividualProduct」との間の相違度は、それぞれのプロパティ用語の間の
相違度の平均値として、「0.5371」を得た例を示している。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、語彙間の関係性を効率的かつ精度良く推測可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の語彙間関係性推測装置において、前記演算装置は、前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出するものである、としてもよい。
これによれば、語彙データにおける各用語がクラス用語とプロパティ用語といった階層構造を形成している状況に適切に対応して、その用語間の相違度を精度良く特定できる。ひいては、語彙間の関係性をさらに効率的かつ精度良く推測可能となる。
また本実施形態の語彙間関係性推測装置において、前記演算装置は、前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行するものである、としてもよい。
これによれば、語彙間関係性の推定業務を担う担当者等が、学習モデルやそれにより生成した語彙間関係性データに関して視覚的に認識し、その良否の確認や学習モデルや語彙間関係性の修正作業等のフィードバック作業を効率よく行うことにつながりうる。ひいては、ひいては、語彙間の関係性をさらに効率的かつ精度良く推測可能となる。
また本実施形態の語彙間関係性推測方法において、前記情報処理システムが、前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量
を算出する、としてもよい。
また本実施形態の語彙間関係性推測方法において、前記情報処理システムが、前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行する、としてもよい。
10 ネットワーク
100 語彙間関係性推測装置
101 補助記憶装置
102 プログラム
103 主記憶装置
104 CPU(演算装置)
105 入力装置
106 出力装置
107 I/F(通信装置)
110 語彙収集部
111 語彙情報抽出部
112 相違度算出部
1121 相違度データ
113 学習モデル構築部
114 関係性判定部
115 判定条件情報
116 既存関係性データ
117 新規関係性データ
125 語彙記憶部
1251 語彙データ
1252 語彙情報
126 学習モデル記憶部
1261 学習モデル

Claims (6)

  1. 処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置と、
    前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行する演算装置と、
    を含むことを特徴とする語彙間関係性推測装置。
  2. 前記演算装置は、
    前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出するものである、
    ことを特徴とする請求項1に記載の語彙間関係性推測装置。
  3. 前記演算装置は、
    前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行するものである、
    ことを特徴とする請求項1に記載の語彙間関係性推測装置。
  4. 処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置を備えた情報処理システムが、
    前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、
    前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、
    を実行することを特徴とする語彙間関係性推測方法。
  5. 前記情報処理システムが、
    前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出する、
    ことを特徴とする請求項4に記載の語彙間関係性推測方法。
  6. 前記情報処理システムが、
    前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行する、
    ことを特徴とする請求項4に記載の語彙間関係性推測方法。
JP2018034584A 2018-02-28 2018-02-28 語彙間関係性推測装置および語彙間関係性推測方法 Active JP6867319B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018034584A JP6867319B2 (ja) 2018-02-28 2018-02-28 語彙間関係性推測装置および語彙間関係性推測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018034584A JP6867319B2 (ja) 2018-02-28 2018-02-28 語彙間関係性推測装置および語彙間関係性推測方法

Publications (2)

Publication Number Publication Date
JP2019149097A JP2019149097A (ja) 2019-09-05
JP6867319B2 true JP6867319B2 (ja) 2021-04-28

Family

ID=67850574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018034584A Active JP6867319B2 (ja) 2018-02-28 2018-02-28 語彙間関係性推測装置および語彙間関係性推測方法

Country Status (1)

Country Link
JP (1) JP6867319B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580326B2 (en) * 2019-12-30 2023-02-14 Nec Corporation Ontology matching based on weak supervision

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5544602B2 (ja) * 2010-11-15 2014-07-09 株式会社日立製作所 単語意味関係抽出装置及び単語意味関係抽出方法
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
US20160217127A1 (en) * 2015-01-27 2016-07-28 Verint Systems Ltd. Identification of significant phrases using multiple language models

Also Published As

Publication number Publication date
JP2019149097A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
US20200226158A1 (en) Log-aided automatic query expansion approach based on topic modeling
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
JP6488753B2 (ja) 情報処理方法
De Renzis et al. Case-based reasoning for web service discovery and selection
Burdisso et al. τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams
US11449676B2 (en) Systems and methods for automated document graphing
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP5973935B2 (ja) 閲覧行動予測装置、閲覧行動予測方法及びプログラム
JP6867319B2 (ja) 語彙間関係性推測装置および語彙間関係性推測方法
CN111859238B (zh) 基于模型的预测数据变化频率的方法、装置和计算机设备
JP2008226091A (ja) 計算装置
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP2011028379A (ja) データ構造変換プログラムおよびデータ構造変換装置
Wongchaisuwat Automatic keyword extraction using textrank
JP7387521B2 (ja) 論述構造推定方法、論述構造推定装置、および論述構造推定プログラム
Jardaeh et al. ArEmotive Bridging the Gap: Automatic Ontology Augmentation using Zero-shot Classification for Fine-grained Sentiment Analysis of Arabic Text
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP5447054B2 (ja) データ生成方法,データ生成装置,およびデータ生成プログラム
WO2022018899A1 (ja) Kpiツリーから部分ツリーを抽出するシステム
JP6368633B2 (ja) 用語意味学習装置、用語意味判定装置、方法、及びプログラム
JP6772393B1 (ja) 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム
JP2019133534A (ja) 併合方法、併合装置、および併合プログラム
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200318

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210408

R150 Certificate of patent or registration of utility model

Ref document number: 6867319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150