JP2019149097A

JP2019149097A - 語彙間関係性推測装置および語彙間関係性推測方法

Info

Publication number: JP2019149097A
Application number: JP2018034584A
Authority: JP
Inventors: 雄介藤原; Yusuke Fujiwara; 石田　修一; Shuichi Ishida; 修一石田; 大介鬼頭; Daisuke Kito; 井奥　章; Akira Ioku; 章井奥
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2019-09-05
Anticipated expiration: 2038-02-28
Also published as: JP6867319B2

Abstract

【課題】語彙間の関係性を効率的かつ精度良く推測可能とする。【解決手段】語彙間関係性推測装置１００において、処理対象とする複数の語彙データ１２５１と所定の既存語彙データ間の関係性を定義した既存語彙間関係性データ１１６を格納する記憶装置と、前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで学習モデル１２６１を生成し、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、学習モデル１２６１に適用することで、処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データ１１７を生成する演算装置１０４を含む構成とする。【選択図】図１

Description

本発明は、語彙間関係性推測装置および語彙間関係性推測方法に関するものであり、具体的には、語彙間の関係性を効率的かつ精度良く推測可能とする技術に関する。

情報科学において、対象世界（知識領域）を或る視点で見た時に現れてくる概念（構成要素、用語）を明示的に記述し、それら概念の関係を体系的に分類して語彙（用語集合）を構築する技術を、オントロジーという。

そうしたオントロジーは、特にセマンティックウェブにおいて、概念の位置関係による概念間の相対的な意味の共有、コンピュータによる文書の意味の理解、情報の検索及び再利用、等を可能にする。

一方、オープンデータや行政等の各種システムのデータの連携の必要性が注目されている。例えば、日本におけるＩＰＡのコア語彙、北米におけるＮＩＥＭのＮＩＥＭ、欧州におけるＩＳＡのＣｏｒｅＶｏｃａｂｕｌａｒｉｅｓやＵＮＥＣＥのＵＮ／ＣＥＦＡＣＴ等、各有力機関が定義した既存の語彙に基づいて作成されたデータが、ＸＭＬ及びＲＤＦ（ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｅｗｏｒｋ）のスキーマファイルとして提供される事で、データ活用の効率化が図れる。

複数の機関で定義された、互いに異なる語彙で作成されたデータを連携させるためには、オントロジーの技術を用いて、語彙の表記、意味及びデータ構造の統一が必要である。例えばＩＰＡのコア語彙の住所型、郵便番号と、ＩＳＡのＡｄｄｒｅｓｓ、ＰｏｓｔＣｏｄｅの関係性は完全一致であるが、データ名称が異なる。従って語彙間の関係性の整備によって初めて、データ連携が可能となる。

上述のオントロジーに関する従来技術としては、例えば、知識や概念を体系的に分類したクラスを持ち、前記各クラスの属性であるプロパティに従って記述されたデータをクラスに対応付け可能な１つ以上のオントロジーを記憶するオントロジー情報記憶部と、複数のデータ項目が付随したオントロジー構築対象のデータから前記各データ項目を抽出するデータ項目抽出部と、前記オントロジーから前記各データ項目に対応する候補プロパティを抽出する候補プロパティ抽出部と、前記候補プロパティを有する候補クラスを前記オントロジーから抽出する候補クラス抽出部と、前記候補クラスの優先度に従って決定される基準クラスから前記オントロジー構築対象のデータにかかるデータ項目に対応するプロパティおよびその抽出先のクラスをオントロジーの候補として決定する第１のプロパティ選択決定部と、前記第１のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目がある場合には、前記第１のプロパティ選択決定部で決定したクラスを基準クラスとして前記第１のプロパティ選択決定部で決定したプロパティのいずれかを有するクラスを抽出し、抽出された当該クラスの中から前記第１のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目に対応するプロパティを有するクラスを抽出し、前記第１のプロパティ選択決定部で対応するプロパティが決定されなかったデータ項目に対応するプロパティおよびその抽出先のクラスをオントロジーの候補として決定する第２のプロパティ選択決定部と、を備えることを特徴とするオントロジー構築支援装置（特許文献１参照）などが提案されている。
また同じく、オントロジーに関する従来技術として、文書データを取得する取得部と、

語彙の概念の組である概念ペアを記憶する概念情報記憶部と、前記文書データから、前記
概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第１及び第２文字列と他の文字列との依存関係を示すパターンを抽出する第１抽出部と、抽出された前記パターンを記憶するパターン情報記憶部と、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第２抽出部と、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とするオントロジー生成装置（特許文献２参照）なども提案されている。

特開２００９−７０１３３号公報特開２０１０−２２４８３３号公報

ところで、上述の語彙間の関係性の整備は、整備対象の語彙のデータ収集、関係性の推定及び吟味、および、関係性を記述したデータの作成、の手順で行われる。

このうち関係性の推定及び吟味は、自動化が困難であるとともに担当者のスキル等に起因する属人性の高い手順である。よって、語彙それぞれが含む膨大な用語各間について当該手順を行うとすれば、処理の効率や精度を好適なものとすることは非常に難しいといえる。
そこで本発明の目的は、語彙間の関係性を効率的かつ精度良く推測可能とする技術を提供することにある。

上記課題を解決する本発明の語彙間関係性推測装置は、処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置と、前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行する演算装置と、を含むことを特徴とする。

また、本発明の語彙間関係性推測方法は、処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置を備えた情報処理システムが、前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行することを特徴とする。

本発明によれば、語彙間の関係性を効率的かつ精度良く推測可能となる。

本実施形態における語彙間関係性推測装置を含むネットワーク構成例を示す図である。本実施形態における既存関係性データの構成例を示す図である。本実施形態における語彙間関係性推測装置の構成例を示す図である。本実施形態における語彙間関係性推測方法のフロー例１を示す図である。本実施形態における決定木（学習モデル）の出力例を示す図である。本実施形態における新規関係性データのデータ構成例を示す図である。本実施形態における語彙間関係性推測方法のフロー例２を示す図である。本実施形態における相違度データのデータ構成例１を示す図である。本実施形態における相違度データのデータ構成例２を示す図である。本実施形態における相違度データのデータ構成例３を示す図である。本実施形態における相違度データのデータ構成例４を示す図である。本実施形態における語彙間関係性推測方法のフロー例３を示す図である。本実施形態におけるプロパティ相違度のデータ構成例を示す図である。

−−−ネットワーク構成等について−−−

以下に本発明の実施形態について図面を用いて詳細に説明する。図１は、本実施形態の語彙間関係性推測装置１００を含むネットワーク構成図である。図１に示す語彙間関係性推測装置１００は、語彙間の関係性を効率的かつ精度良く推測可能とするコンピュータシステムである。

本実施形態における語彙間関係性推測装置１００は、インターネットなどの適宜なネットワーク１０を介し、各種のＷｅｂサーバ２００と通信可能に接続されている。なお、このＷｅｂサーバ２００は、語彙に関するデータ、すなわち語彙データ２１０を公開するサーバ装置である。こうした語彙データ２１０の例としては、ＩＰＡのコア語彙、北米におけるＮＩＥＭのＮＩＥＭ、欧州におけるＩＳＡのＣｏｒｅＶｏｃａｂｕｌａｒｉｅｓやＵＮＥＣＥのＵＮ／ＣＥＦＡＣＴ等、各有力機関が定義した既存の語彙データ、などを想定できる。

本実施形態の場合、語彙間関係性推測装置１００は、このＷｅｂサーバ２００から語彙データ２１０を取得し、これを自身の語彙記憶部１２５に語彙データ１２５１として格納するものとする。勿論、こうした語彙データ１２５１の取得形態の他にも、適宜な携帯型記憶装置など物理媒体等を介して取得する形態を採用してもよい。

上述のごときネットワーク構成における語彙間関係性推測装置１００は、ハードウェア構成として、補助記憶装置１０１、主記憶装置１０３、ＣＰＵ（演算装置）１０４、入力装置１０５、出力装置１０６、および、Ｉ／Ｆ（通信装置）１０７、を備える。

このうち補助記憶装置１０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。また、主記憶装置１０３は、ＲＡＭなど揮発性記憶素子で構成される。また、ＣＰＵ１０４は、補助記憶装置１０１に保持されるプログラム１０２を主記憶装置１０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なう。また、入力装置１０５は、ユーザからのキー入力や音声入力を受け付けるキーボード等の装置である。また
、出力装置１０６は、処理データの表示を行うディスプレイ等の装置である。また、Ｉ／Ｆ１０７は、上述のネットワーク１０と接続し、Ｗｅｂサーバ２００等の他装置との通信処理を担う装置である。

なお、主記憶装置１０３には、語彙収集部１１０、語彙情報抽出部１１１、相違度算出部１１２、学習モデル構築部１１３、および、関係性判定部１１４、が上述のプログラム１０２を実行することで実装されている。このうち相違度算出部１１２は、用語間の相違度を算出した結果たる相違度データ１１２１を保持する。
また、主記憶装置１０３は、これら機能部の他、判定条件情報１１５、既存関係性データ１１６、および、新規関係性データ１１７、も保持する。

このうち判定条件情報１１５は、異なる語彙データ１２５１の間の関係を判断するにあたり、どのような条件で関係を判断するか規定した情報である。例えば、当該語彙データ１２５１の間において、１）用語同士の名称に関する類似度で判断する、２）用語同士の説明文章間の類似度で判断する、３）用語名称が説明文章に含まれているかで判断する、４）階層構造（例：クラス用語が複数のプロパティ用語で構成される）を有する用語において階層最上位の用語だけではなく、下位階層のプロパティ用語に関する類似度も踏まえて判断する、といった判断条件を想定できる。これらの判断条件を単独で適用するとしてもよいし、複数組み合わせて適用するとしてもよい。

また既存関係性データ１１６は、所定の語彙データ１２５１の間において関係性が既知となっている用語の組について、その関係性を定義したデータである。例えば或る語彙データ１２５１の用語「名前」と、別の語彙データ１２５１の用語「ｎａｍｅ」とは、互いに異なる名称ではあるが完全に同一の事象を示すと規定済みである場合、既存関係性データ１１６において、当該語彙データ１２５１の間において当該用語の組みに関する関係性は「完全一致」などと定義されている。また、或る語彙データ１２５１の用語Ａと、別の語彙データ１２５１の用語Ｂとは、用語Ａが用語Ｂの下位概念の事象を示すと規定済みである場合、既存関係性データ１１６において、当該用語の組みに関する関係性は「用語Ａが用語Ｂの下位概念」などと定義されている。

こうした既存関係性データ１１６の具体例を図２に示す。図２にて示す既存関係性データ１１６は、関係性が既知である語彙データ１２５１の例として、「語彙ＩＳＡ」および「コア語彙」を想定し、これらが含む各用語の間に関して定義済みの関係性の値が格納されたものとなっている。

例えば、「語彙ＩＳＡ」における用語「FullAdress」と、「コア語彙」における用語「表記」との関係性は、「Has exact match」すなわち正確に一致（完全一致）と定義され
ている。また、「語彙ＩＳＡ」における用語「POBox」と、「コア語彙」における用語「
方書」との関係性は、「Has no match」すなわち不一致と定義されている。また、「語彙ＩＳＡ」における用語「LocatorDesignator」と、「コア語彙」における用語「ビル番号
」との関係性は、「Has narrow match」すなわち「LocatorDesignatorの狭い概念として
一致」（“LocatorDesignator”の下位概念たる“ビル番号”）と定義されている。

一方、補助記憶装置１０１には、語彙記憶部１２５および学習モデル記憶部１２６が構成されている。このうち語彙記憶部１２５は、語彙データ１２５１、および、当該語彙データ１２５１から語彙情報抽出部１１１が抽出した当該用語の説明記述等である語彙情報１２５２を格納する。また、学習モデル記憶部１２６は学習モデル構築部１１３が生成した学習モデル１２６１を格納する。当該学習モデル１２６１は、語彙間関係性推測装置１００の学習モデル構築部１１３が語彙間関係性推測方法を実行することで生成したものとなる。
−−−機能構成の例−−−

次に、本実施形態の語彙間関係性推測装置１００における各機能について、図１、図３に基づき説明する。語彙間関係性推測装置１００における語彙収集部１１０は、上述のＷｅｂサーバ２００から、日本におけるＩＰＡのコア語彙、北米におけるＮＩＥＭのＮＩＥＭ、欧州におけるＩＳＡのＣｏｒｅＶｏｃａｂｕｌａｒｉｅｓやＵＮＥＣＥのＵＮ／ＣＥＦＡＣＴ等、各有力機関が定義した既存の語彙データ２１０を収集し、語彙データ１２５１として語彙記憶部１２５に格納する機能部である。語彙データ１２５１は、例えばＸＭＬないしＲＤＦフォーマットのデータを想定できる。

また、語彙情報抽出部１１１は、上述の語彙収集部１１０が収集・格納した語彙データ１２５１から、各語彙を構成する用語の、用語名、用語の説明文、当該用語が階層構造を有する用語かを識別する用語種類等の情報を、語彙情報１２５２として抽出し、これを語彙記憶部１２５に格納する機能部である。この語彙情報１２５２は、後述する第２中間データ１１２１Ｂおよび第３中間データ１１２１Ｃとの関係において、「第１中間データ」に該当する。

また相違度算出部１１２は、既に述べた判定条件情報１１５に基づき、語彙データ１２５１の間における用語同士の相違度を算定する機能部である。ここで相違度の算定対象となるのは、上述の語彙情報１２５２である。また、この語彙情報１２５２は、既存関係性データ１１６で関係性が既知の語彙データ１２５１に関するものと、Ｗｅｂサーバ２００から収集したものの他の語彙データ１２５１との間に関して用語同士の関係性が未だ規定されていない語彙データ１２５１に関するものの、２種類存在しうる。よって、相違度算出部１１２は、語彙情報１２５２を入力として、既存関係性データ１１６で関係性が既知の語彙データ１２５１に関して算定した相違度たる第２中間データ１１２１Ｂと、関係性が未だ規定されていない語彙データ１２５１に関して算定した相違度たる第３中間データ１１２１Ｃを出力することとなる。こうした相違度の算定手順の詳細については後述する。

また学習モデル構築部１１３は、語彙データ１２５１の間における用語同士の既知の関係性、すなわち既存関係性データ１１６で規定された各用語に関して、上述の相違度算出部１１２が算定した相違度の値（第２中間データ１１２１Ｂ）を特徴量とし、また、当該語彙データ１２５１の間の用語同士の関係性に関して既存関係性データ１１６で規定されている定義を訓練データとして、機械学習を実行することで、当該語彙データ１２５１の間における用語同士の関係性について、どのような条件を満たす用語同士であれば、同じ事象を示すものまたは所定の関係性のあるものと見なせるかを判断する学習モデル１２６１を生成し、これを学習モデル記憶部１２６に格納する機能部である。

また関係性判定部１１４は、用語同士の関係性把握の対象となる所定の語彙データ１２５１の間について、上述の学習モデル１２６１に、対象となる語彙データ１２５１の各用語の間の相違度（第３中間データ１１２１Ｃ）を適用して関係性の有無を判断し、その結果を新規関係性データ１１７として出力装置１０６に表示する。

語彙間関係性推測装置１００を操作しているユーザは、上述の新規関係性データ１１７を確認することで、対象となる語彙データ１２５１の間で互いの用語が同じ事象を示すものか、或いは上位概念か下位概念か、または関係性の無いものか、といった関係性を容易に把握可能となる。
−−−フロー例１−−−

以下、本実施形態における語彙間関係性推測方法の実際手順について図に基づき説明す
る。以下で説明する語彙間関係性推測方法に対応する各種動作は、語彙間関係性推測装置１００が主記憶装置１０３等に読み出して実行するプログラム１０２によって実現される。そして、このプログラム１０２は、以下に説明される各種の動作を行うためのコードから構成されている。

図４は、本実施形態における語彙間関係性推測方法のフロー例１を示す図である。ここではまず、語彙間関係性推測装置１００の語彙収集部１１０は、Ｉ／Ｆ１０７を介して１または複数のＷｅｂサーバ２００にアクセスし、当該Ｗｅｂサーバ２００から、１または複数の語彙データ１２５１を取得し、これを語彙記憶部１２５に格納する（ｓ１００）。

続いて、語彙間関係性推測装置１００の語彙情報抽出部１１１は、上述のｓ１００で得た語彙データ１２５１から語彙情報１２５２（第１中間データ）を抽出する（ｓ１０１）。既に述べたように、この語彙情報１２５２は、語彙データ１２５１で各用語について規定されている、各語彙を構成する用語の、用語名、用語の説明文、当該用語が階層構造を有する用語かを識別する用語種類等の情報、である。

次に、語彙間関係性推測装置１００の相違度算出部１１２は、第１中間データとして抽出した上述の語彙情報１２５２に基づき、語彙間における用語同士の相違度を算定する（ｓ１０２）。ここで算定する相違度は、第２中間データ１１２１Ｂと第３中間データ１１２１Ｃである。第２中間データ１１２１Ｂは、既存関係性データ１１６で関係性が既知の語彙データ１２５１に関して算定した相違度である。また、第３中間データ１１２１Ｃは、関係性が未だ規定されていない語彙データ１２５１に関して算定した相違度である。この相違度算定の具体的手法については図７等に基づき後述する。

続いて、語彙間関係性推測装置１００の学習モデル構築部１１３は、主記憶装置１０３で保持する既存関係性データ１１６（訓練データ）と、この既存関係性データ１１６で関係性を規定済みの所定語彙データ１２５１の間に関して上述のｓ１０２で得ている第２中間データ１１２１Ｂ（特徴量）とを所定の機械学習アルゴリズムに入力し、機械学習を実行することで、当該語彙データ１２５１の間における用語同士の関係性について、どのような条件を満たす用語同士であれば、同じ事象を示すものまたは所定の関係性のあるものと見なせるかを判断する学習モデル１２６１を生成し、これを学習モデル記憶部１２６に格納する（ｓ１０３）。

こうした学習モデル１２６１の例としては、図５の表示画面７００の例で示すごとき決定木を想定できる。この決定木においては、関係性判定の対象となる「用語１」、「用語２」に関して、その名称や説明に関する所定相違度の値が所定基準値より小さいか否か、で場合分けする条件分岐を順次経ることで、当該用語間の関係性を、「完全一致」、「類似一致」、「関係性無し」、「関連一致」などと決定するものとなっている。よってこの場合、学習モデル構築部１１３は、用語間の様々な相違度の条件の組み合わせと、当該用語間に関して規定済みの関係性それぞれとのパターンマッチングを実行し、各関係性を最も確実に示す、相違度の条件の組み合わせパターンをそれぞれ特定することになる。

また、語彙間関係性推測装置１００の関係性判定部１１４は、用語同士の関係性把握の対象となる所定の語彙データ１２５１の間について、学習モデル記憶部１２６に格納した上述の学習モデル１２６１に、対象となる語彙データ１２５１の各用語の間の相違度たる第３中間データ１１２１Ｃを適用して、用語間の関係性を判断し、その結果を新規関係性データ１１７として生成する（ｓ１０４）。こうした新規関係性データ１１７の例としては、図６の表示画面８００の例で示すごときものを想定できる。図６で例示する新規関係性データ１１７では、「Scheme.org」なる語彙データ１２５１の用語「PostalCode」と、語彙データ１２５１なる語彙データ１２５１の用語「郵便番号」との間の関係性として、
「Has exact match」すなわち「完全一致」と判定された例を示している。

最後に、語彙間関係性推測装置１００の関係性判定部１１４は、学習モデル１２６１および上述の新規関係性データ１１７の情報を、出力装置１０６に表示し（ｓ１０５）、処理を終了する。なお、学習モデル１２６１を表示する表示画面７００の例は図５に、また、新規関係性データ１１７を表示する表示画面８００の例は図６に、それぞれ示している。
−−−フロー例２−−−

続いて、上述の図４のフローにおける相違度算出の処理（ｓ１０２）の詳細について説明する。図７は、本実施形態における語彙間関係性推測方法のフロー例２を示す図である。

この場合まず、語彙間関係性推測装置１００の相違度算出部１１２は、語彙データ１２５１から所定の「語彙１」の語彙データ（以後、“語彙１”。以下同様）を選択する（ｓ２０１）。選択の手法は、当該語彙データ１２５１において未処理のものをランダムないし登録順で選択するものや、或いはユーザの指定を入力装置１０５で受けて当該指定の対象となったものを選択するといったものを想定できる（以下同様）。
次に相違度算出部１１２は、語彙データ１２５１から所定の「語彙２」を選択する（ｓ２０２）。その際、上述の語彙１とは異なるものを選択する。
続いて相違度算出部１１２は、上述の「語彙１」が含む用語のうちひとつを「用語１」として選択する（ｓ２０３）。
また相違度算出部１１２は、上述の「語彙２」が含む用語のうちひとつを「用語２」として選択する（ｓ２０４）。

次に相違度算出部１１２は、上述の「用語１」の種類と「用語２」の種類とが同一かどうか、当該語彙データにて当該用語に関して規定する情報に基づき判定する（ｓ２０５）。なお、こうした用語の種類にはクラス用語とプロパティ用語が存在する。

上述の判定の結果、「用語１」と「用語２」の種類が同一だった場合（ｓ２０５：Ｙ）、相違度算出部１１２は、ステップｓ２０６からステップｓ２０９を実行する。

このうちｓ２０６において、相違度算出部１１２は、「用語１」の名称と「用語２」の名称の間のコサイン相違度を計算する。この計算結果は、相違度データ１１２１として相違度算出部１１２が主記憶装置１０３で保持する（他の相違度に関しても同様）。

このコサイン相違度として、ここでは当該名称が含む単語のうち一致するものの割合すなわちコサイン類似度の値を１から減算したものを想定する。この場合の計算式は、１−コサイン類似度＝１−(一致する単語の数)÷(用語１の単語数)^１／２÷(用語２の単語数)^１／２、となる。図８で示すように、「用語１」の名称「Post Code」と、「用語２」の
名称「PostalCode」との間のコサイン相違度を計算すると、１−1÷2^１／２÷2^１／２＝
０．５、となる。

またｓ２０７において、相違度算出部１１２は、上述の「用語１」と「用語２」の説明間のＴＦ−ＩＤＦコサイン相違度を計算する。図９に示す相違度データ１１２Ｂでは、このＴＦ−ＩＤＦコサイン相違度を相違度として算定した例を示している（図中では、ＴＦ−ＩＤＦコサイン距離と表示）。

ＴＦ−ＩＤＦ(Term Frequency-Inverse Document Frequency)コサイン類似度は、文章
内において特徴となる単語であるかの指標であって、当該文章内に頻出し、かつ他の文章
に現れないような単語は、その値が高くなるものである。よってＴＦ−ＩＤＦコサイン相違度は、ＴＦ−ＩＤＦコサイン類似度の値を、１から減算したものとなる。ＴＦ−ＩＤＦコサイン類似度の計算手法自体は、既存のものを適宜に採用すればよい。
またｓ２０８において、相違度算出部１１２は、上述の「用語１」の名称が「用語２」の説明内で含有される率、すなわち含有率を計算する。

この含有率の計算例としては、図１０の相違度データ（名称−説明）１１２１Ｃで示すように、用語「ＦＡＸ番号」の名称「FAX number」は、「用語２」の説明「The fax number」において、いずれも含まれるため、相違度という概念での含有率は「０．０」となる。
またｓ２０９において、相違度算出部１１２は、上述の「用語２」の名称が「用語１」の説明内で含有される率、すなわち含有率を計算する。

この含有率の計算例としては、図１０の相違度データ（名称−説明）１１２１Ｃで示すように、「用語２」の「fax Number」の名称「fax Number」は、「用語１」の説明「The facsimile number. Note: Use "0 to 9" numeric characters and "plus '+', minus '-', opening parenthesis '(', closing parenthesis ')', and comma ',' "characters only.」において、「fax」が含まれていないため、相違度という概念での含有率は「０．５」となる。
続いて、相違度算出部１１２は、上述のステップｓ２０４からの処理を「語彙２」内のすべての用語を選択するまでループする（ｓ２１０）。

こうしてステップｓ２０４からステップｓ２１０のループ処理が終了した場合、相違度算出部１１２は、ステップｓ２１１でステップｓ２０３からの処理を「語彙１」内のすべての用語を処理するまでループする。

こうしてステップｓ２０３からステップｓ２１１のループ処理が終了した場合、相違度算出部１１２は、「語彙１」と「語彙２」の関係性が既存関係性データ１１６内に存在するか判定する（ｓ２１２）。

この判定の結果、存在する場合（ｓ２１２：Ｙ）、相違度算出部１１２は、ステップｓ２０６からステップｓ２０９で計算した、選択されている「語彙１」と「語彙２」の用語間のパラメータを第２中間データ１１２１Ｂとして生成する（ｓ２１３）。

一方、上述の判定の結果、存在しない場合に（ｓ２１２：Ｎ）、相違度算出部１１２は、選択されている「語彙１」と「語彙２」の用語間のパラメータを第３中間データ１１２１Ｃとして生成する（ｓ２１４）。

続いて、相違度算出部１１２は、ステップｓ２０２からの処理を語彙記憶部１２５のすべての語彙データ１２５１を「語彙２」として選択するまでループする（ｓ２１５）。ただし、「語彙１」と「語彙２」の組み合わせが重複するケースはスキップしてよい。

上述のステップｓ２０２からステップｓ２１５までのループ処理が終了した場合、相違度算出部１１２は、ステップｓ２０１からの処理を語彙記憶部１２５のすべての語彙データ１２５１を「語彙１」として選択するまでループする（ｓ２１６）。以上によりすべての語彙の組み合わせに対して処理を行った場合、相違度算出部１１２は処理を終了する。こうしたフローで最終的に得られる相違度データ１１２１は図１１で示すとおりである。−−−相違度算出の他形態−−−

なお、上述の図７で例示したフローのうち、ｓ２０６からステップｓ２０９までで行う
相違度や含有率の算定処理において、処理対象の用語それぞれが含有するプロパティ用語の相違度を考慮する形態も想定できる。この場合、こうしたプロパティ用語の含有関係を踏まえた相違度に基づいて、クラス用語間の相違度を算定する形態も考えられる。

図１２は、本実施形態における語彙間関係性推測方法のフロー例３を示す図であり、具体的には、所定のクラス用語の間について、それらクラス用語が含有するプロパティ用語に基づく相違度の算出方法を示すフローである。なお、ここで示すフローは、図４のフローにおけるｓ２０６から６０９までか或いはその前後に、クラス用語たる「用語１」、「用語２」に関して、そのプロパティ用語に基づく相違度の算出ステップとして、追加することを想定できる。

ここでは、クラス用語の例として、「コア語彙」のクラス用語「製品個品型」、「ｓｃｈｅｍａ．ｏｒｇ」のクラス用語「IndividualProduct」を想定する。このうち「コア語
彙」のクラス用語「製品個品型」は、プロパティ用語である、「製造日」、「ロット番号」、「消費期限」、等を含有している。また、「ｓｃｈｅｍａ．ｏｒｇ」のクラス用語「IndividualProduct」は、プロパティ用語である、「serialNumber」を含有している。

このように、プロパティ用語の間に所定の関係性を持つクラス用語であれば、当該クラス用語の間も所定の関係性を持つ可能性が高いと言える。この関係性を持つ可能性を相違度として算出する。この相違度も他の相違度と同様に、０．０から１．０までの値を取り、０．０に近い程その用語間の関係性を持つ可能性が高いと考えられる。

この場合まず、相違度算出部１１２は、ループ９０１（ｓ９０１Ｓ〜ｓ９０１Ｅ）において、所定の「クラス用語１」（上述の例場合、「製品個品型」）が含有する全てのプロパティ用語の相違度を算出するためのループである。

また、相違度算出部１１２は、上述のループ９０１で算出された相違度を平均し、それを上述の「クラス用語１」と「クラス用語２」との相違度として出力する（ｓ９０２）。

なお、上述のループ９０１に含まれるループ９１１（ｓ９０１１Ｓ〜ｓ９０１１Ｅ）において、相違度算出部１１２は、上述の「クラス用語１」が含有する１つのプロパティ用語「プロパティ用語１−１」に対して、「クラス用語２」が含有する全てのプロパティ用語（プロパティ用語２−１とする）との間の相違度を算出する。この相違度の算出は、ステップｓ９０１２にて実行する。

ｓ９０１２において、相違度算出部１１２は、「クラス用語１」の「プロパティ用語１−１」と「クラス用語２」の「プロパティ用語２−１」それぞれとの間で、フロー例２で示した４種類（名称間のコサイン相違度、説明間のＴＦ−ＩＤＦコサイン相違度、名称−説明における含有率２種）、に関して同様に相違度を算出する。相違度算出部１１２は、これら全ての種類に関して相違度を算出し、その平均値を当該プロパティ用語間の相違度としている。

また、相違度算出部１１２は、ｓ９０１３において、上述のループ９１１で算出された「クラス用語２」の全てプロパティ用語との間に関して求めた相違度のうち最小値を、「プロパティ用語１」の相違度と特定する。

例として、「コア語彙」のクラス用語「製品個品型」とｓｃｈｅｍａ．ｏｒｇのクラス用語「IndividualProduct」における、含有するプロパティ用語による相違度を算出する
例について説明する。

この場合、相違度算出部１１２は、ループ９０１において、クラス用語１たる「コア語彙」のクラス用語「製品個品型」が含有するプロパティ用語のうち例えば「製造日」の相違度を算出するにあたり、ループ９１１内で、クラス用語２たる「ｓｃｈｅｍａ．ｏｒｇ」のクラス用語「IndividualProduct」が含有するプロパティ用語「serialNumber」との
間について、その相違度をｓ９０１２で算出する。

また相違度算出部１１２は、ステップ９０１３で、「製造日」は、クラス用語「IndividualProduct」が含有するいずれのプロパティ用語とも類似度が認められず、すなわち類
似度“０”であるため、相違度の最低値としは“１”を「製造日」の相違度とする。ループ９０１内で同様に「ロット番号」、「消費期限」、「シリアル番号」等についても相違度を算出する。この場合、「シリアル番号」については、プロパティ用語「serialNumber」と一致する、すなわち相違度“０”のため、相違度の最低値としは“０”を「シリアル番号」の相違度とすることになる。

また相違度算出部１１２は、ｓ９０２で「製造日」、「ロット番号」、「消費期限」、「シリアル番号」等に関して得た相違度の平均値を算定し、それをクラス用語「製品個品型」および「IndividualProduct」がそれぞれ含有するプロパティ用語に基づく相違度と
特定する。図１３のプロパティ相違度１１２１Ｄの例に示すように、上述の具体例の場合、「コア語彙」のクラス用語「製品個品型」と、クラス用語「ｓｃｈｅｍａ．ｏｒｇ」のクラス用語「IndividualProduct」との間の相違度は、それぞれのプロパティ用語の間の
相違度の平均値として、「０．５３７１」を得た例を示している。

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、語彙間の関係性を効率的かつ精度良く推測可能となる。

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の語彙間関係性推測装置において、前記演算装置は、前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出するものである、としてもよい。

これによれば、語彙データにおける各用語がクラス用語とプロパティ用語といった階層構造を形成している状況に適切に対応して、その用語間の相違度を精度良く特定できる。ひいては、語彙間の関係性をさらに効率的かつ精度良く推測可能となる。

また本実施形態の語彙間関係性推測装置において、前記演算装置は、前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行するものである、としてもよい。

これによれば、語彙間関係性の推定業務を担う担当者等が、学習モデルやそれにより生成した語彙間関係性データに関して視覚的に認識し、その良否の確認や学習モデルや語彙間関係性の修正作業等のフィードバック作業を効率よく行うことにつながりうる。ひいては、ひいては、語彙間の関係性をさらに効率的かつ精度良く推測可能となる。

また本実施形態の語彙間関係性推測方法において、前記情報処理システムが、前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量
を算出する、としてもよい。

また本実施形態の語彙間関係性推測方法において、前記情報処理システムが、前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行する、としてもよい。

１０ネットワーク
１００語彙間関係性推測装置
１０１補助記憶装置
１０２プログラム
１０３主記憶装置
１０４ＣＰＵ（演算装置）
１０５入力装置
１０６出力装置
１０７Ｉ／Ｆ（通信装置）
１１０語彙収集部
１１１語彙情報抽出部
１１２相違度算出部
１１２１相違度データ
１１３学習モデル構築部
１１４関係性判定部
１１５判定条件情報
１１６既存関係性データ
１１７新規関係性データ
１２５語彙記憶部
１２５１語彙データ
１２５２語彙情報
１２６学習モデル記憶部
１２６１学習モデル

Claims

処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置と、
前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行する演算装置と、
を含むことを特徴とする語彙間関係性推測装置。
前記演算装置は、
前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出するものである、
ことを特徴とする請求項１に記載の語彙間関係性推測装置。
前記演算装置は、
前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行するものである、
ことを特徴とする請求項１に記載の語彙間関係性推測装置。
処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置を備えた情報処理システムが、
前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、
前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、
を実行することを特徴とする語彙間関係性推測方法。
前記情報処理システムが、
前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出する、
ことを特徴とする請求項４に記載の語彙間関係性推測方法。
前記情報処理システムが、
前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行する、
ことを特徴とする請求項４に記載の語彙間関係性推測方法。