JP6867319B2 - 語彙間関係性推測装置および語彙間関係性推測方法 - Google Patents
語彙間関係性推測装置および語彙間関係性推測方法 Download PDFInfo
- Publication number
- JP6867319B2 JP6867319B2 JP2018034584A JP2018034584A JP6867319B2 JP 6867319 B2 JP6867319 B2 JP 6867319B2 JP 2018034584 A JP2018034584 A JP 2018034584A JP 2018034584 A JP2018034584 A JP 2018034584A JP 6867319 B2 JP6867319 B2 JP 6867319B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- data
- relationship
- difference
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また同じく、オントロジーに関する従来技術として、文書データを取得する取得部と、
概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する第1抽出部と、抽出された前記パターンを記憶するパターン情報記憶部と、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とするオントロジー生成装置(特許文献2参照)なども提案されている。
そこで本発明の目的は、語彙間の関係性を効率的かつ精度良く推測可能とする技術を提供することにある。
、出力装置106は、処理データの表示を行うディスプレイ等の装置である。また、I/F107は、上述のネットワーク10と接続し、Webサーバ200等の他装置との通信処理を担う装置である。
また、主記憶装置103は、これら機能部の他、判定条件情報115、既存関係性データ116、および、新規関係性データ117、も保持する。
ている。また、「語彙ISA」における用語「POBox」と、「コア語彙」における用語「
方書」との関係性は、「Has no match」すなわち不一致と定義されている。また、「語彙ISA」における用語「LocatorDesignator」と、「コア語彙」における用語「ビル番号
」との関係性は、「Has narrow match」すなわち「LocatorDesignatorの狭い概念として
一致」(“LocatorDesignator”の下位概念たる“ビル番号”)と定義されている。
−−−機能構成の例−−−
−−−フロー例1−−−
る。以下で説明する語彙間関係性推測方法に対応する各種動作は、語彙間関係性推測装置100が主記憶装置103等に読み出して実行するプログラム102によって実現される。そして、このプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
「Has exact match」すなわち「完全一致」と判定された例を示している。
−−−フロー例2−−−
次に相違度算出部112は、語彙データ1251から所定の「語彙2」を選択する(s202)。その際、上述の語彙1とは異なるものを選択する。
続いて相違度算出部112は、上述の「語彙1」が含む用語のうちひとつを「用語1」として選択する(s203)。
また相違度算出部112は、上述の「語彙2」が含む用語のうちひとつを「用語2」として選択する(s204)。
名称「PostalCode」との間のコサイン相違度を計算すると、1−1÷21/2÷21/2=
0.5、となる。
内において特徴となる単語であるかの指標であって、当該文章内に頻出し、かつ他の文章
に現れないような単語は、その値が高くなるものである。よってTF−IDFコサイン相違度は、TF−IDFコサイン類似度の値を、1から減算したものとなる。TF−IDFコサイン類似度の計算手法自体は、既存のものを適宜に採用すればよい。
またs208において、相違度算出部112は、上述の「用語1」の名称が「用語2」の説明内で含有される率、すなわち含有率を計算する。
またs209において、相違度算出部112は、上述の「用語2」の名称が「用語1」の説明内で含有される率、すなわち含有率を計算する。
続いて、相違度算出部112は、上述のステップs204からの処理を「語彙2」内のすべての用語を選択するまでループする(s210)。
相違度や含有率の算定処理において、処理対象の用語それぞれが含有するプロパティ用語の相違度を考慮する形態も想定できる。この場合、こうしたプロパティ用語の含有関係を踏まえた相違度に基づいて、クラス用語間の相違度を算定する形態も考えられる。
彙」のクラス用語「製品個品型」は、プロパティ用語である、「製造日」、「ロット番号」、「消費期限」、等を含有している。また、「schema.org」のクラス用語「IndividualProduct」は、プロパティ用語である、「serialNumber」を含有している。
例について説明する。
間について、その相違度をs9012で算出する。
似度“0”であるため、相違度の最低値としは“1”を「製造日」の相違度とする。ループ901内で同様に「ロット番号」、「消費期限」、「シリアル番号」等についても相違度を算出する。この場合、「シリアル番号」については、プロパティ用語「serialNumber」と一致する、すなわち相違度“0”のため、相違度の最低値としは“0”を「シリアル番号」の相違度とすることになる。
特定する。図13のプロパティ相違度1121Dの例に示すように、上述の具体例の場合、「コア語彙」のクラス用語「製品個品型」と、クラス用語「schema.org」のクラス用語「IndividualProduct」との間の相違度は、それぞれのプロパティ用語の間の
相違度の平均値として、「0.5371」を得た例を示している。
こうした本実施形態によれば、語彙間の関係性を効率的かつ精度良く推測可能となる。
を算出する、としてもよい。
100 語彙間関係性推測装置
101 補助記憶装置
102 プログラム
103 主記憶装置
104 CPU(演算装置)
105 入力装置
106 出力装置
107 I/F(通信装置)
110 語彙収集部
111 語彙情報抽出部
112 相違度算出部
1121 相違度データ
113 学習モデル構築部
114 関係性判定部
115 判定条件情報
116 既存関係性データ
117 新規関係性データ
125 語彙記憶部
1251 語彙データ
1252 語彙情報
126 学習モデル記憶部
1261 学習モデル
Claims (6)
- 処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置と、
前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、を実行する演算装置と、
を含むことを特徴とする語彙間関係性推測装置。 - 前記演算装置は、
前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出するものである、
ことを特徴とする請求項1に記載の語彙間関係性推測装置。 - 前記演算装置は、
前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行するものである、
ことを特徴とする請求項1に記載の語彙間関係性推測装置。 - 処理対象とする複数の語彙データと、所定の既存語彙データ間の関係性を定義した既存語彙間関係性データと、を格納する記憶装置を備えた情報処理システムが、
前記関係性が定義された既存語彙データ間で当該既存語彙データが含む各用語の相違度を特徴量として算出し、当該既存語彙データの間の前記関係性の定義を訓練データとして、機械学習を実行することで、語彙間における用語の相違度に関する条件と当該語彙間における当該用語の関係性との対応関係を規定する学習モデルを生成する処理と、
前記処理対象とする複数の語彙データそれぞれが含む各用語の間の相違度を、前記学習モデルに適用することで、前記処理対象とする複数の語彙データそれぞれが含む各用語の間の関係性を定義する、新規の語彙間関係性データを生成する処理と、
を実行することを特徴とする語彙間関係性推測方法。 - 前記情報処理システムが、
前記特徴量を算出するに際し、算出対象の用語が階層構造により定義されている場合、当該定義における前記算出対象の用語より下位の用語間に関しても前記相違度を算出し、当該算出結果たる相違度を、前記算出対象の用語間の相違度の算出結果に含めることで、前記特徴量を算出する、
ことを特徴とする請求項4に記載の語彙間関係性推測方法。 - 前記情報処理システムが、
前記学習モデルまたは前記新規の語彙間関係性データの少なくともいずれかを、所定装置に表示する処理を更に実行する、
ことを特徴とする請求項4に記載の語彙間関係性推測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034584A JP6867319B2 (ja) | 2018-02-28 | 2018-02-28 | 語彙間関係性推測装置および語彙間関係性推測方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034584A JP6867319B2 (ja) | 2018-02-28 | 2018-02-28 | 語彙間関係性推測装置および語彙間関係性推測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019149097A JP2019149097A (ja) | 2019-09-05 |
JP6867319B2 true JP6867319B2 (ja) | 2021-04-28 |
Family
ID=67850574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018034584A Active JP6867319B2 (ja) | 2018-02-28 | 2018-02-28 | 語彙間関係性推測装置および語彙間関係性推測方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6867319B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580326B2 (en) * | 2019-12-30 | 2023-02-14 | Nec Corporation | Ontology matching based on weak supervision |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5544602B2 (ja) * | 2010-11-15 | 2014-07-09 | 株式会社日立製作所 | 単語意味関係抽出装置及び単語意味関係抽出方法 |
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
US20160217127A1 (en) * | 2015-01-27 | 2016-07-28 | Verint Systems Ltd. | Identification of significant phrases using multiple language models |
-
2018
- 2018-02-28 JP JP2018034584A patent/JP6867319B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019149097A (ja) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200226158A1 (en) | Log-aided automatic query expansion approach based on topic modeling | |
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
JP6488753B2 (ja) | 情報処理方法 | |
De Renzis et al. | Case-based reasoning for web service discovery and selection | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
US11449676B2 (en) | Systems and methods for automated document graphing | |
JP2019144706A (ja) | 関係性推定モデル学習装置、方法、及びプログラム | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
JP5973935B2 (ja) | 閲覧行動予測装置、閲覧行動予測方法及びプログラム | |
JP6867319B2 (ja) | 語彙間関係性推測装置および語彙間関係性推測方法 | |
CN111859238B (zh) | 基于模型的预测数据变化频率的方法、装置和计算机设备 | |
JP2008226091A (ja) | 計算装置 | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
JP2011028379A (ja) | データ構造変換プログラムおよびデータ構造変換装置 | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
JP7387521B2 (ja) | 論述構造推定方法、論述構造推定装置、および論述構造推定プログラム | |
Jardaeh et al. | ArEmotive Bridging the Gap: Automatic Ontology Augmentation using Zero-shot Classification for Fine-grained Sentiment Analysis of Arabic Text | |
JPWO2011016281A1 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
JP5447054B2 (ja) | データ生成方法,データ生成装置,およびデータ生成プログラム | |
WO2022018899A1 (ja) | Kpiツリーから部分ツリーを抽出するシステム | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム | |
JP2019133534A (ja) | 併合方法、併合装置、および併合プログラム | |
JP2010015394A (ja) | リンク先提示装置およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200318 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210319 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6867319 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |